diff --git a/.github/workflows/libc-fullbuild-tests.yml b/.github/workflows/libc-fullbuild-tests.yml
index 58e15ce29546e..2c88da653aae4 100644
--- a/.github/workflows/libc-fullbuild-tests.yml
+++ b/.github/workflows/libc-fullbuild-tests.yml
@@ -11,12 +11,19 @@ on:
 
 jobs:
   build:
-    runs-on: ubuntu-24.04
+    runs-on: ${{ matrix.os }}
     strategy:
       fail-fast: false
       matrix:
         include:
-          - c_compiler: clang
+          - os: ubuntu-24.04
+            ccache-variant: sccache
+            c_compiler: clang
+            cpp_compiler: clang++
+          # TODO: remove ccache logic when https://github.com/hendrikmuhs/ccache-action/issues/279 is resolved.
+          - os: ubuntu-24.04-arm
+            ccache-variant: ccache
+            c_compiler: clang
             cpp_compiler: clang++
           # TODO: add back gcc build when it is fixed
           # - c_compiler: gcc
@@ -35,7 +42,7 @@ jobs:
       with:
         max-size: 1G
         key: libc_fullbuild_${{ matrix.c_compiler }}
-        variant: sccache
+        variant: ${{ matrix.ccache-variant }}
     
     # Notice:
     # - MPFR is required by some of the mathlib tests.
@@ -62,8 +69,8 @@ jobs:
         -DCMAKE_CXX_COMPILER=${{ matrix.cpp_compiler }}
         -DCMAKE_C_COMPILER=${{ matrix.c_compiler }}
         -DCMAKE_BUILD_TYPE=MinSizeRel
-        -DCMAKE_C_COMPILER_LAUNCHER=sccache
-        -DCMAKE_CXX_COMPILER_LAUNCHER=sccache
+        -DCMAKE_C_COMPILER_LAUNCHER=${{ matrix.ccache-variant }}
+        -DCMAKE_CXX_COMPILER_LAUNCHER=${{ matrix.ccache-variant }}
         -DCMAKE_INSTALL_PREFIX=${{ steps.strings.outputs.build-install-dir }}
         -DLLVM_ENABLE_RUNTIMES="libc;compiler-rt"
         -DLLVM_LIBC_FULL_BUILD=ON
diff --git a/.github/workflows/libc-overlay-tests.yml b/.github/workflows/libc-overlay-tests.yml
index 8b59d76aed4a8..0a0916084b18c 100644
--- a/.github/workflows/libc-overlay-tests.yml
+++ b/.github/workflows/libc-overlay-tests.yml
@@ -19,14 +19,28 @@ jobs:
         include:
           # TODO: add linux gcc when it is fixed
           - os: ubuntu-24.04
+            ccache-variant: sccache
+            compiler:
+              c_compiler: clang
+              cpp_compiler: clang++
+          # TODO: remove ccache logic when https://github.com/hendrikmuhs/ccache-action/issues/279 is resolved.
+          - os: ubuntu-24.04-arm
+            ccache-variant: ccache
             compiler:
               c_compiler: clang
               cpp_compiler: clang++
           - os: windows-2022
+            ccache-variant: sccache
+            compiler:
+              c_compiler: clang-cl
+              cpp_compiler: clang-cl
+          - os: windows-2025
+            ccache-variant: sccache
             compiler:
               c_compiler: clang-cl
               cpp_compiler: clang-cl
           - os: macos-14
+            ccache-variant: sccache
             compiler:
               c_compiler: clang
               cpp_compiler: clang++
@@ -46,7 +60,7 @@ jobs:
       with:
         max-size: 1G
         key: libc_overlay_build_${{ matrix.os }}_${{ matrix.compiler.c_compiler }}
-        variant: sccache
+        variant: ${{ matrix.ccache-variant }}
     
     # MPFR is required by some of the mathlib tests.
     - name: Prepare dependencies (Ubuntu)
@@ -82,8 +96,8 @@ jobs:
         -DCMAKE_CXX_COMPILER=${{ matrix.compiler.cpp_compiler }}
         -DCMAKE_C_COMPILER=${{ matrix.compiler.c_compiler }}
         -DCMAKE_BUILD_TYPE=MinSizeRel
-        -DCMAKE_C_COMPILER_LAUNCHER=sccache
-        -DCMAKE_CXX_COMPILER_LAUNCHER=sccache
+        -DCMAKE_C_COMPILER_LAUNCHER=${{ matrix.ccache-variant }}
+        -DCMAKE_CXX_COMPILER_LAUNCHER=${{ matrix.ccache-variant }}
         -DCMAKE_POLICY_DEFAULT_CMP0141=NEW
         -DCMAKE_MSVC_DEBUG_INFORMATION_FORMAT=Embedded
         -DLLVM_ENABLE_RUNTIMES=libc
diff --git a/clang-tools-extra/clang-tidy/ClangTidyProfiling.cpp b/clang-tools-extra/clang-tidy/ClangTidyProfiling.cpp
index 07ab34a07cd31..89867ec30f51f 100644
--- a/clang-tools-extra/clang-tidy/ClangTidyProfiling.cpp
+++ b/clang-tools-extra/clang-tidy/ClangTidyProfiling.cpp
@@ -36,23 +36,25 @@ ClangTidyProfiling::StorageParams::StorageParams(llvm::StringRef ProfilePrefix,
                       .str();
 }
 
-void ClangTidyProfiling::printUserFriendlyTable(llvm::raw_ostream &OS) {
-  TG->print(OS);
+void ClangTidyProfiling::printUserFriendlyTable(llvm::raw_ostream &OS,
+                                                llvm::TimerGroup &TG) {
+  TG.print(OS);
   OS.flush();
 }
 
-void ClangTidyProfiling::printAsJSON(llvm::raw_ostream &OS) {
+void ClangTidyProfiling::printAsJSON(llvm::raw_ostream &OS,
+                                     llvm::TimerGroup &TG) {
   OS << "{\n";
   OS << R"("file": ")" << Storage->SourceFilename << "\",\n";
   OS << R"("timestamp": ")" << Storage->Timestamp << "\",\n";
   OS << "\"profile\": {\n";
-  TG->printJSONValues(OS, "");
+  TG.printJSONValues(OS, "");
   OS << "\n}\n";
   OS << "}\n";
   OS.flush();
 }
 
-void ClangTidyProfiling::storeProfileData() {
+void ClangTidyProfiling::storeProfileData(llvm::TimerGroup &TG) {
   assert(Storage && "We should have a filename.");
 
   llvm::SmallString<256> OutputDirectory(Storage->StoreFilename);
@@ -71,19 +73,18 @@ void ClangTidyProfiling::storeProfileData() {
     return;
   }
 
-  printAsJSON(OS);
+  printAsJSON(OS, TG);
 }
 
 ClangTidyProfiling::ClangTidyProfiling(std::optional<StorageParams> Storage)
     : Storage(std::move(Storage)) {}
 
 ClangTidyProfiling::~ClangTidyProfiling() {
-  TG.emplace("clang-tidy", "clang-tidy checks profiling", Records);
-
+  llvm::TimerGroup TG{"clang-tidy", "clang-tidy checks profiling", Records};
   if (!Storage)
-    printUserFriendlyTable(llvm::errs());
+    printUserFriendlyTable(llvm::errs(), TG);
   else
-    storeProfileData();
+    storeProfileData(TG);
 }
 
 } // namespace clang::tidy
diff --git a/clang-tools-extra/clang-tidy/ClangTidyProfiling.h b/clang-tools-extra/clang-tidy/ClangTidyProfiling.h
index b6f7d66343fa4..76deede1716f4 100644
--- a/clang-tools-extra/clang-tidy/ClangTidyProfiling.h
+++ b/clang-tools-extra/clang-tidy/ClangTidyProfiling.h
@@ -34,14 +34,11 @@ class ClangTidyProfiling {
   };
 
 private:
-  std::optional<llvm::TimerGroup> TG;
-
   std::optional<StorageParams> Storage;
 
-  void printUserFriendlyTable(llvm::raw_ostream &OS);
-  void printAsJSON(llvm::raw_ostream &OS);
-
-  void storeProfileData();
+  void printUserFriendlyTable(llvm::raw_ostream &OS, llvm::TimerGroup &TG);
+  void printAsJSON(llvm::raw_ostream &OS, llvm::TimerGroup &TG);
+  void storeProfileData(llvm::TimerGroup &TG);
 
 public:
   llvm::StringMap<llvm::TimeRecord> Records;
diff --git a/clang-tools-extra/clang-tidy/misc/UnusedUsingDeclsCheck.cpp b/clang-tools-extra/clang-tidy/misc/UnusedUsingDeclsCheck.cpp
index 4448e9ccba80d..5d74907aa9fab 100644
--- a/clang-tools-extra/clang-tidy/misc/UnusedUsingDeclsCheck.cpp
+++ b/clang-tools-extra/clang-tidy/misc/UnusedUsingDeclsCheck.cpp
@@ -51,6 +51,10 @@ UnusedUsingDeclsCheck::UnusedUsingDeclsCheck(StringRef Name,
       HeaderFileExtensions(Context->getHeaderFileExtensions()) {}
 
 void UnusedUsingDeclsCheck::registerMatchers(MatchFinder *Finder) {
+  // We don't emit warnings on unused-using-decls from headers, so bail out if
+  // the main file is a header.
+  if (utils::isFileExtension(getCurrentMainFile(), HeaderFileExtensions))
+    return;
   Finder->addMatcher(usingDecl(isExpansionInMainFile()).bind("using"), this);
   auto DeclMatcher = hasDeclaration(namedDecl().bind("used"));
   Finder->addMatcher(loc(templateSpecializationType(DeclMatcher)), this);
@@ -83,12 +87,6 @@ void UnusedUsingDeclsCheck::registerMatchers(MatchFinder *Finder) {
 void UnusedUsingDeclsCheck::check(const MatchFinder::MatchResult &Result) {
   if (Result.Context->getDiagnostics().hasUncompilableErrorOccurred())
     return;
-  // We don't emit warnings on unused-using-decls from headers, so bail out if
-  // the main file is a header.
-  if (auto MainFile = Result.SourceManager->getFileEntryRefForID(
-          Result.SourceManager->getMainFileID());
-      utils::isFileExtension(MainFile->getName(), HeaderFileExtensions))
-    return;
 
   if (const auto *Using = Result.Nodes.getNodeAs<UsingDecl>("using")) {
     // Ignores using-declarations defined in macros.
diff --git a/clang-tools-extra/modularize/CoverageChecker.cpp b/clang-tools-extra/modularize/CoverageChecker.cpp
index b536ee00497c0..fe6711398ab7d 100644
--- a/clang-tools-extra/modularize/CoverageChecker.cpp
+++ b/clang-tools-extra/modularize/CoverageChecker.cpp
@@ -278,15 +278,15 @@ CoverageChecker::collectUmbrellaHeaderHeaders(StringRef UmbrellaHeaderName) {
     sys::fs::current_path(PathBuf);
 
   // Create the compilation database.
-  std::unique_ptr<CompilationDatabase> Compilations;
-  Compilations.reset(new FixedCompilationDatabase(Twine(PathBuf), CommandLine));
+  FixedCompilationDatabase Compilations(Twine(PathBuf), CommandLine);
 
   std::vector<std::string> HeaderPath;
   HeaderPath.push_back(std::string(UmbrellaHeaderName));
 
   // Create the tool and run the compilation.
-  ClangTool Tool(*Compilations, HeaderPath);
-  int HadErrors = Tool.run(new CoverageCheckerFrontendActionFactory(*this));
+  ClangTool Tool(Compilations, HeaderPath);
+  CoverageCheckerFrontendActionFactory ActionFactory(*this);
+  int HadErrors = Tool.run(&ActionFactory);
 
   // If we had errors, exit early.
   return !HadErrors;
diff --git a/clang/docs/ReleaseNotes.rst b/clang/docs/ReleaseNotes.rst
index a03f42ab910ed..f110b8cf76507 100644
--- a/clang/docs/ReleaseNotes.rst
+++ b/clang/docs/ReleaseNotes.rst
@@ -294,9 +294,6 @@ C++ Language Changes
 C++2c Feature Support
 ^^^^^^^^^^^^^^^^^^^^^
 
-- Add ``__builtin_is_implicit_lifetime`` intrinsic, which supports
-  `P2647R1 A trait for implicit lifetime types <https://wg21.link/p2674r1>`_
-
 - Add ``__builtin_is_virtual_base_of`` intrinsic, which supports
   `P2985R0 A type trait for detecting virtual base classes <https://wg21.link/p2985r0>`_
 
@@ -318,6 +315,9 @@ C++23 Feature Support
 
 - ``__cpp_explicit_this_parameter`` is now defined. (#GH82780)
 
+- Add ``__builtin_is_implicit_lifetime`` intrinsic, which supports
+  `P2674R1 A trait for implicit lifetime types <https://wg21.link/p2674r1>`_
+
 - Add support for `P2280R4 Using unknown pointers and references in constant expressions <https://wg21.link/P2280R4>`_. (#GH63139)
 
 C++20 Feature Support
@@ -325,6 +325,10 @@ C++20 Feature Support
 
 - Implemented module level lookup for C++20 modules. (#GH90154)
 
+C++17 Feature Support
+^^^^^^^^^^^^^^^^^^^^^
+- The implementation of the relaxed template template argument matching rules is
+  more complete and reliable, and should provide more accurate diagnostics.
 
 Resolutions to C++ Defect Reports
 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
@@ -351,7 +355,8 @@ Resolutions to C++ Defect Reports
   (`CWG2351: void{} <https://cplusplus.github.io/CWG/issues/2351.html>`_).
 
 - Clang now has improved resolution to CWG2398, allowing class templates to have
-  default arguments deduced when partial ordering.
+  default arguments deduced when partial ordering, and better backwards compatibility
+  in overload resolution.
 
 - Clang now allows comparing unequal object pointers that have been cast to ``void *``
   in constant expressions. These comparisons always worked in non-constant expressions.
@@ -636,6 +641,10 @@ Improvements to Clang's diagnostics
 
 - Clang now diagnoses when the result of a [[nodiscard]] function is discarded after being cast in C. Fixes #GH104391.
 
+- Clang now properly explains the reason a template template argument failed to
+  match a template template parameter, in terms of the C++17 relaxed matching rules
+  instead of the old ones.
+
 - Don't emit duplicated dangling diagnostics. (#GH93386).
 
 - Improved diagnostic when trying to befriend a concept. (#GH45182).
@@ -807,6 +816,8 @@ Improvements to Clang's diagnostics
 
 - Clang now emits a ``-Wignored-qualifiers`` diagnostic when a base class includes cv-qualifiers (#GH55474).
 
+- Clang now diagnoses the use of attribute names reserved by the C++ standard (#GH92196).
+
 Improvements to Clang's time-trace
 ----------------------------------
 
@@ -885,6 +896,8 @@ Bug Fixes to C++ Support
 - Correctly check constraints of explicit instantiations of member functions. (#GH46029)
 - When performing partial ordering of function templates, clang now checks that
   the deduction was consistent. Fixes (#GH18291).
+- Fixes to several issues in partial ordering of template template parameters, which
+  were documented in the test suite.
 - Fixed an assertion failure about a constraint of a friend function template references to a value with greater
   template depth than the friend function template. (#GH98258)
 - Clang now rebuilds the template parameters of out-of-line declarations and specializations in the context
@@ -975,6 +988,8 @@ Bug Fixes to C++ Support
 - Fixed a nested lambda substitution issue for constraint evaluation. (#GH123441)
 - Fixed various false diagnostics related to the use of immediate functions. (#GH123472)
 - Fix immediate escalation not propagating through inherited constructors.  (#GH112677)
+- Fixed assertions or false compiler diagnostics in the case of C++ modules for
+  lambda functions or inline friend functions defined inside templates (#GH122493).
 
 Bug Fixes to AST Handling
 ^^^^^^^^^^^^^^^^^^^^^^^^^
diff --git a/clang/include/clang/Basic/AttributeCommonInfo.h b/clang/include/clang/Basic/AttributeCommonInfo.h
index 11c6454772173..4af5a8fd1852c 100644
--- a/clang/include/clang/Basic/AttributeCommonInfo.h
+++ b/clang/include/clang/Basic/AttributeCommonInfo.h
@@ -61,13 +61,18 @@ class AttributeCommonInfo {
   };
   enum Kind {
 #define PARSED_ATTR(NAME) AT_##NAME,
-#include "clang/Sema/AttrParsedAttrList.inc"
+#include "clang/Basic/AttrParsedAttrList.inc"
 #undef PARSED_ATTR
     NoSemaHandlerAttribute,
     IgnoredAttribute,
     UnknownAttribute,
   };
   enum class Scope { NONE, CLANG, GNU, MSVC, OMP, HLSL, GSL, RISCV };
+  enum class AttrArgsInfo {
+    None,
+    Optional,
+    Required,
+  };
 
 private:
   const IdentifierInfo *AttrName = nullptr;
@@ -241,6 +246,8 @@ class AttributeCommonInfo {
   static Kind getParsedKind(const IdentifierInfo *Name,
                             const IdentifierInfo *Scope, Syntax SyntaxUsed);
 
+  static AttrArgsInfo getCXX11AttrArgsInfo(const IdentifierInfo *Name);
+
 private:
   /// Get an index into the attribute spelling list
   /// defined in Attr.td. This index is used by an attribute
diff --git a/clang/include/clang/Basic/Attributes.h b/clang/include/clang/Basic/Attributes.h
index 61666a6f4d9ac..99bb668fe32d0 100644
--- a/clang/include/clang/Basic/Attributes.h
+++ b/clang/include/clang/Basic/Attributes.h
@@ -23,6 +23,11 @@ int hasAttribute(AttributeCommonInfo::Syntax Syntax,
                  const IdentifierInfo *Scope, const IdentifierInfo *Attr,
                  const TargetInfo &Target, const LangOptions &LangOpts);
 
+int hasAttribute(AttributeCommonInfo::Syntax Syntax,
+                 const IdentifierInfo *Scope, const IdentifierInfo *Attr,
+                 const TargetInfo &Target, const LangOptions &LangOpts,
+                 bool CheckPlugins);
+
 } // end namespace clang
 
 #endif // LLVM_CLANG_BASIC_ATTRIBUTES_H
diff --git a/clang/include/clang/Basic/BuiltinsX86.td b/clang/include/clang/Basic/BuiltinsX86.td
index 0c9173f9bfcce..572ac7235be02 100644
--- a/clang/include/clang/Basic/BuiltinsX86.td
+++ b/clang/include/clang/Basic/BuiltinsX86.td
@@ -5191,51 +5191,51 @@ let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] i
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
-  def vcvtne2ph2bf8_128 : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<8, _Float16>)">;
+  def vcvt2ph2bf8_128 : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<8, _Float16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<256>] in {
-  def vcvtne2ph2bf8_256 : X86Builtin<"_Vector<32, char>(_Vector<16, _Float16>, _Vector<16, _Float16>)">;
+  def vcvt2ph2bf8_256 : X86Builtin<"_Vector<32, char>(_Vector<16, _Float16>, _Vector<16, _Float16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] in {
-  def vcvtne2ph2bf8_512 : X86Builtin<"_Vector<64, char>(_Vector<32, _Float16>, _Vector<32, _Float16>)">;
+  def vcvt2ph2bf8_512 : X86Builtin<"_Vector<64, char>(_Vector<32, _Float16>, _Vector<32, _Float16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
-  def vcvtne2ph2bf8s_128 : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<8, _Float16>)">;
+  def vcvt2ph2bf8s_128 : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<8, _Float16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<256>] in {
-  def vcvtne2ph2bf8s_256 : X86Builtin<"_Vector<32, char>(_Vector<16, _Float16>, _Vector<16, _Float16>)">;
+  def vcvt2ph2bf8s_256 : X86Builtin<"_Vector<32, char>(_Vector<16, _Float16>, _Vector<16, _Float16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] in {
-  def vcvtne2ph2bf8s_512 : X86Builtin<"_Vector<64, char>(_Vector<32, _Float16>, _Vector<32, _Float16>)">;
+  def vcvt2ph2bf8s_512 : X86Builtin<"_Vector<64, char>(_Vector<32, _Float16>, _Vector<32, _Float16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
-  def vcvtne2ph2hf8_128 : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<8, _Float16>)">;
+  def vcvt2ph2hf8_128 : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<8, _Float16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<256>] in {
-  def vcvtne2ph2hf8_256 : X86Builtin<"_Vector<32, char>(_Vector<16, _Float16>, _Vector<16, _Float16>)">;
+  def vcvt2ph2hf8_256 : X86Builtin<"_Vector<32, char>(_Vector<16, _Float16>, _Vector<16, _Float16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] in {
-  def vcvtne2ph2hf8_512 : X86Builtin<"_Vector<64, char>(_Vector<32, _Float16>, _Vector<32, _Float16>)">;
+  def vcvt2ph2hf8_512 : X86Builtin<"_Vector<64, char>(_Vector<32, _Float16>, _Vector<32, _Float16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
-  def vcvtne2ph2hf8s_128 : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<8, _Float16>)">;
+  def vcvt2ph2hf8s_128 : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<8, _Float16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<256>] in {
-  def vcvtne2ph2hf8s_256 : X86Builtin<"_Vector<32, char>(_Vector<16, _Float16>, _Vector<16, _Float16>)">;
+  def vcvt2ph2hf8s_256 : X86Builtin<"_Vector<32, char>(_Vector<16, _Float16>, _Vector<16, _Float16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] in {
-  def vcvtne2ph2hf8s_512 : X86Builtin<"_Vector<64, char>(_Vector<32, _Float16>, _Vector<32, _Float16>)">;
+  def vcvt2ph2hf8s_512 : X86Builtin<"_Vector<64, char>(_Vector<32, _Float16>, _Vector<32, _Float16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
@@ -5251,51 +5251,51 @@ let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] i
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
-  def vcvtneph2bf8_128_mask : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<16, char>, unsigned char)">;
+  def vcvtph2bf8_128_mask : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<16, char>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<256>] in {
-  def vcvtneph2bf8_256_mask : X86Builtin<"_Vector<16, char>(_Vector<16, _Float16>, _Vector<16, char>, unsigned short)">;
+  def vcvtph2bf8_256_mask : X86Builtin<"_Vector<16, char>(_Vector<16, _Float16>, _Vector<16, char>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] in {
-  def vcvtneph2bf8_512_mask : X86Builtin<"_Vector<32, char>(_Vector<32, _Float16>, _Vector<32, char>, unsigned int)">;
+  def vcvtph2bf8_512_mask : X86Builtin<"_Vector<32, char>(_Vector<32, _Float16>, _Vector<32, char>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
-  def vcvtneph2bf8s_128_mask : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<16, char>, unsigned char)">;
+  def vcvtph2bf8s_128_mask : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<16, char>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<256>] in {
-  def vcvtneph2bf8s_256_mask : X86Builtin<"_Vector<16, char>(_Vector<16, _Float16>, _Vector<16, char>, unsigned short)">;
+  def vcvtph2bf8s_256_mask : X86Builtin<"_Vector<16, char>(_Vector<16, _Float16>, _Vector<16, char>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] in {
-  def vcvtneph2bf8s_512_mask : X86Builtin<"_Vector<32, char>(_Vector<32, _Float16>, _Vector<32, char>, unsigned int)">;
+  def vcvtph2bf8s_512_mask : X86Builtin<"_Vector<32, char>(_Vector<32, _Float16>, _Vector<32, char>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
-  def vcvtneph2hf8_128_mask : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<16, char>, unsigned char)">;
+  def vcvtph2hf8_128_mask : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<16, char>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<256>] in {
-  def vcvtneph2hf8_256_mask : X86Builtin<"_Vector<16, char>(_Vector<16, _Float16>, _Vector<16, char>, unsigned short)">;
+  def vcvtph2hf8_256_mask : X86Builtin<"_Vector<16, char>(_Vector<16, _Float16>, _Vector<16, char>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] in {
-  def vcvtneph2hf8_512_mask : X86Builtin<"_Vector<32, char>(_Vector<32, _Float16>, _Vector<32, char>, unsigned int)">;
+  def vcvtph2hf8_512_mask : X86Builtin<"_Vector<32, char>(_Vector<32, _Float16>, _Vector<32, char>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
-  def vcvtneph2hf8s_128_mask : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<16, char>, unsigned char)">;
+  def vcvtph2hf8s_128_mask : X86Builtin<"_Vector<16, char>(_Vector<8, _Float16>, _Vector<16, char>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<256>] in {
-  def vcvtneph2hf8s_256_mask : X86Builtin<"_Vector<16, char>(_Vector<16, _Float16>, _Vector<16, char>, unsigned short)">;
+  def vcvtph2hf8s_256_mask : X86Builtin<"_Vector<16, char>(_Vector<16, _Float16>, _Vector<16, char>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, RequiredVectorWidth<512>] in {
-  def vcvtneph2hf8s_512_mask : X86Builtin<"_Vector<32, char>(_Vector<32, _Float16>, _Vector<32, char>, unsigned int)">;
+  def vcvtph2hf8s_512_mask : X86Builtin<"_Vector<32, char>(_Vector<32, _Float16>, _Vector<32, char>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] in {
@@ -5304,201 +5304,196 @@ let Features = "avx10.2-256", Attributes = [NoThrow, RequiredVectorWidth<128>] i
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vaddnepbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
+  def vaddbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vaddnepbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
+  def vaddbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vaddnepbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
+  def vaddbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vdivnepbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
+  def vdivbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vdivnepbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
+  def vdivbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vdivnepbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
+  def vdivbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vmaxpbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
+  def vmaxbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vmaxpbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
+  def vmaxbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vmaxpbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
+  def vmaxbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vminpbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
+  def vminbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vminpbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
+  def vminbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vminpbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
+  def vminbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vmulnepbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
+  def vmulbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vmulnepbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
+  def vmulbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vmulnepbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
+  def vmulbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vsubnepbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
+  def vsubbf16128 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vsubnepbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
+  def vsubbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vsubnepbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
+  def vsubbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>)">;
 }
 
-let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vcomsbf16eq : X86Builtin<"int(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
-  def vcomsbf16lt : X86Builtin<"int(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
-  def vcomsbf16neq : X86Builtin<"int(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
-  def vcomsbf16ge : X86Builtin<"int(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
-  def vcomsbf16gt : X86Builtin<"int(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
-  def vcomsbf16le : X86Builtin<"int(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
-}
+let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in
+  foreach Cmp = ["eq", "lt", "le", "gt", "ge", "neq"] in
+    def vcomisbf16#Cmp : X86Builtin<"int(_Vector<8, __bf16>, _Vector<8, __bf16>)">;
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vcmppbf16512_mask : X86Builtin<"unsigned int(_Vector<32, __bf16>, _Vector<32, __bf16>, _Constant int, unsigned int)">;
+  def vcmpbf16512_mask : X86Builtin<"unsigned int(_Vector<32, __bf16>, _Vector<32, __bf16>, _Constant int, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vcmppbf16256_mask : X86Builtin<"unsigned short(_Vector<16, __bf16>, _Vector<16, __bf16>, _Constant int, unsigned short)">;
+  def vcmpbf16256_mask : X86Builtin<"unsigned short(_Vector<16, __bf16>, _Vector<16, __bf16>, _Constant int, unsigned short)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vcmppbf16128_mask : X86Builtin<"unsigned char(_Vector<8, __bf16>, _Vector<8, __bf16>, _Constant int, unsigned char)">;
-  def vfpclasspbf16128_mask : X86Builtin<"unsigned char(_Vector<8, __bf16>, _Constant int, unsigned char)">;
+  def vcmpbf16128_mask : X86Builtin<"unsigned char(_Vector<8, __bf16>, _Vector<8, __bf16>, _Constant int, unsigned char)">;
+  def vfpclassbf16128_mask : X86Builtin<"unsigned char(_Vector<8, __bf16>, _Constant int, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vfpclasspbf16256_mask : X86Builtin<"unsigned short(_Vector<16, __bf16>, _Constant int, unsigned short)">;
+  def vfpclassbf16256_mask : X86Builtin<"unsigned short(_Vector<16, __bf16>, _Constant int, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vfpclasspbf16512_mask : X86Builtin<"unsigned int(_Vector<32, __bf16>, _Constant int, unsigned int)">;
+  def vfpclassbf16512_mask : X86Builtin<"unsigned int(_Vector<32, __bf16>, _Constant int, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vscalefpbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>, _Vector<8, __bf16>, unsigned char)">;
+  def vscalefbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>, _Vector<8, __bf16>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vscalefpbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>, _Vector<16, __bf16>, unsigned short)">;
+  def vscalefbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>, _Vector<16, __bf16>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vscalefpbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>, _Vector<32, __bf16>, unsigned int)">;
+  def vscalefbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>, _Vector<32, __bf16>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vrcppbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>, unsigned char)">;
+  def vrcpbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vrcppbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>, unsigned short)">;
+  def vrcpbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vrcppbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>, unsigned int)">;
+  def vrcpbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vgetexppbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>, unsigned char)">;
+  def vgetexpbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vgetexppbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>, unsigned short)">;
+  def vgetexpbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vgetexppbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>, unsigned int)">;
+  def vgetexpbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vrsqrtpbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>, unsigned char)">;
+  def vrsqrtbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Vector<8, __bf16>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vrsqrtpbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>, unsigned short)">;
+  def vrsqrtbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Vector<16, __bf16>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vrsqrtpbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>, unsigned int)">;
+  def vrsqrtbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vreducenepbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Constant int, _Vector<8, __bf16>, unsigned char)">;
+  def vreducebf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Constant int, _Vector<8, __bf16>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vreducenepbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Constant int, _Vector<16, __bf16>, unsigned short)">;
+  def vreducebf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Constant int, _Vector<16, __bf16>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vreducenepbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Constant int, _Vector<32, __bf16>, unsigned int)">;
+  def vreducebf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Constant int, _Vector<32, __bf16>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vrndscalenepbf16_128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Constant int, _Vector<8, __bf16>, unsigned char)">;
+  def vrndscalebf16_128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Constant int, _Vector<8, __bf16>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vrndscalenepbf16_256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Constant int, _Vector<16, __bf16>, unsigned short)">;
+  def vrndscalebf16_256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Constant int, _Vector<16, __bf16>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vrndscalenepbf16_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Constant int, _Vector<32, __bf16>, unsigned int)">;
+  def vrndscalebf16_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Constant int, _Vector<32, __bf16>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vgetmantpbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Constant int, _Vector<8, __bf16>, unsigned char)">;
+  def vgetmantbf16128_mask : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>, _Constant int, _Vector<8, __bf16>, unsigned char)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vgetmantpbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Constant int, _Vector<16, __bf16>, unsigned short)">;
+  def vgetmantbf16256_mask : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>, _Constant int, _Vector<16, __bf16>, unsigned short)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vgetmantpbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Constant int, _Vector<32, __bf16>, unsigned int)">;
+  def vgetmantbf16512_mask : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Constant int, _Vector<32, __bf16>, unsigned int)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<128>] in {
-  def vsqrtnepbf16 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>)">;
+  def vsqrtbf16 : X86Builtin<"_Vector<8, __bf16>(_Vector<8, __bf16>)">;
 }
 
 let Features = "avx10.2-256", Attributes = [NoThrow, Const, RequiredVectorWidth<256>] in {
-  def vsqrtnepbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>)">;
+  def vsqrtbf16256 : X86Builtin<"_Vector<16, __bf16>(_Vector<16, __bf16>)">;
 }
 
 let Features = "avx10.2-512", Attributes = [NoThrow, Const, RequiredVectorWidth<512>] in {
-  def vsqrtnepbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>)">;
+  def vsqrtbf16512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>)">;
   def vfmaddnepbh512 : X86Builtin<"_Vector<32, __bf16>(_Vector<32, __bf16>, _Vector<32, __bf16>, _Vector<32, __bf16>)">;
 }
 
diff --git a/clang/include/clang/Basic/CMakeLists.txt b/clang/include/clang/Basic/CMakeLists.txt
index 56c27bacdb20b..4103d2753abc5 100644
--- a/clang/include/clang/Basic/CMakeLists.txt
+++ b/clang/include/clang/Basic/CMakeLists.txt
@@ -36,6 +36,11 @@ clang_tablegen(AttrList.inc -gen-clang-attr-list
   SOURCE Attr.td
   TARGET ClangAttrList)
 
+clang_tablegen(AttrParsedAttrList.inc -gen-clang-attr-parsed-attr-list
+  -I ${CMAKE_CURRENT_SOURCE_DIR}/../../
+  SOURCE Attr.td
+  TARGET ClangAttrParsedAttrList)
+
 clang_tablegen(AttrSubMatchRulesList.inc -gen-clang-attr-subject-match-rule-list
   -I ${CMAKE_CURRENT_SOURCE_DIR}/../../
   SOURCE Attr.td
@@ -53,6 +58,12 @@ clang_tablegen(AttrHasAttributeImpl.inc -gen-clang-attr-has-attribute-impl
   TARGET ClangAttrHasAttributeImpl
   )
 
+clang_tablegen(CXX11AttributeInfo.inc -gen-cxx11-attribute-info
+  -I ${CMAKE_CURRENT_SOURCE_DIR}/../../
+  SOURCE Attr.td
+  TARGET CXX11AttributeInfo
+  )
+
 clang_tablegen(Builtins.inc -gen-clang-builtins
   SOURCE Builtins.td
   TARGET ClangBuiltins)
diff --git a/clang/include/clang/Basic/DiagnosticDriverKinds.td b/clang/include/clang/Basic/DiagnosticDriverKinds.td
index 612f7e330ba51..288786b8ce939 100644
--- a/clang/include/clang/Basic/DiagnosticDriverKinds.td
+++ b/clang/include/clang/Basic/DiagnosticDriverKinds.td
@@ -452,6 +452,10 @@ def warn_drv_deprecated_arg_ofast : Warning<
   "argument '-Ofast' is deprecated; use '-O3 -ffast-math' for the same behavior,"
   " or '-O3' to enable only conforming optimizations">,
   InGroup<DeprecatedOFast>;
+def warn_drv_deprecated_arg_ofast_for_flang : Warning<
+  "argument '-Ofast' is deprecated; use '-O3 -ffast-math -fstack-arrays' for the same behavior,"
+  " or '-O3 -fstack-arrays' to enable only conforming optimizations">,
+  InGroup<DeprecatedOFast>;
 def warn_drv_deprecated_custom : Warning<
   "argument '%0' is deprecated, %1">, InGroup<Deprecated>;
 def warn_drv_assuming_mfloat_abi_is : Warning<
diff --git a/clang/include/clang/Basic/DiagnosticGroups.td b/clang/include/clang/Basic/DiagnosticGroups.td
index b0ad76026fdb3..209792f851b6a 100644
--- a/clang/include/clang/Basic/DiagnosticGroups.td
+++ b/clang/include/clang/Basic/DiagnosticGroups.td
@@ -760,6 +760,7 @@ def AmbiguousMacro : DiagGroup<"ambiguous-macro">;
 def KeywordAsMacro : DiagGroup<"keyword-macro">;
 def ReservedIdAsMacro : DiagGroup<"reserved-macro-identifier">;
 def ReservedIdAsMacroAlias : DiagGroup<"reserved-id-macro", [ReservedIdAsMacro]>;
+def ReservedAttributeIdentifier : DiagGroup<"reserved-attribute-identifier">;
 def RestrictExpansionMacro : DiagGroup<"restrict-expansion">;
 def FinalMacro : DiagGroup<"final-macro">;
 
@@ -935,7 +936,8 @@ def SignedEnumBitfield : DiagGroup<"signed-enum-bitfield">;
 
 def ReservedModuleIdentifier : DiagGroup<"reserved-module-identifier">;
 def ReservedIdentifier : DiagGroup<"reserved-identifier",
-    [ReservedIdAsMacro, ReservedModuleIdentifier, UserDefinedLiterals]>;
+    [ReservedIdAsMacro, ReservedModuleIdentifier,
+     UserDefinedLiterals, ReservedAttributeIdentifier]>;
 
 // Unreachable code warning groups.
 //
diff --git a/clang/include/clang/Basic/DiagnosticLexKinds.td b/clang/include/clang/Basic/DiagnosticLexKinds.td
index 959376b084721..4bcef23ccce16 100644
--- a/clang/include/clang/Basic/DiagnosticLexKinds.td
+++ b/clang/include/clang/Basic/DiagnosticLexKinds.td
@@ -407,6 +407,9 @@ def warn_pp_macro_hides_keyword : Extension<
 def warn_pp_macro_is_reserved_id : Warning<
   "macro name is a reserved identifier">, DefaultIgnore,
   InGroup<ReservedIdAsMacro>;
+def warn_pp_macro_is_reserved_attribute_id : Warning<
+  "%0 is a reserved attribute identifier">, DefaultIgnore,
+  InGroup<ReservedAttributeIdentifier>;
 def warn_pp_objc_macro_redef_ignored : Warning<
   "ignoring redefinition of Objective-C qualifier macro">,
   InGroup<DiagGroup<"objc-macro-redefinition">>;
diff --git a/clang/include/clang/Basic/DiagnosticSemaKinds.td b/clang/include/clang/Basic/DiagnosticSemaKinds.td
index 36b693c6a304e..774e5484cfa0e 100644
--- a/clang/include/clang/Basic/DiagnosticSemaKinds.td
+++ b/clang/include/clang/Basic/DiagnosticSemaKinds.td
@@ -5323,6 +5323,13 @@ def note_template_arg_refers_here_func : Note<
 def err_template_arg_template_params_mismatch : Error<
   "template template argument has different template parameters than its "
   "corresponding template template parameter">;
+def note_template_arg_template_params_mismatch : Note<
+  "template template argument has different template parameters than its "
+  "corresponding template template parameter">;
+def err_non_deduced_mismatch : Error<
+  "could not match %diff{$ against $|types}0,1">;
+def err_inconsistent_deduction : Error<
+  "conflicting deduction %diff{$ against $|types}0,1 for parameter">;
 def err_template_arg_not_integral_or_enumeral : Error<
   "non-type template argument of type %0 must have an integral or enumeration"
   " type">;
diff --git a/clang/include/clang/Driver/Options.td b/clang/include/clang/Driver/Options.td
index df705104d9ea3..c5b7fcb7c7f09 100644
--- a/clang/include/clang/Driver/Options.td
+++ b/clang/include/clang/Driver/Options.td
@@ -933,10 +933,12 @@ def O : Joined<["-"], "O">, Group<O_Group>,
 def O_flag : Flag<["-"], "O">, Visibility<[ClangOption, CC1Option, FC1Option]>,
   Alias<O>, AliasArgs<["1"]>;
 def Ofast : Joined<["-"], "Ofast">, Group<O_Group>,
-  Visibility<[ClangOption, CC1Option, FlangOption]>,
-  HelpTextForVariants<[ClangOption, CC1Option],
-                      "Deprecated; use '-O3 -ffast-math' for the same behavior,"
-                      " or '-O3' to enable only conforming optimizations">;
+  Visibility<[ClangOption, CC1Option, FlangOption, FC1Option]>,
+  HelpTextForVariants<[FlangOption, FC1Option],
+    "Deprecated; use '-O3 -ffast-math -fstack-arrays' for the same behavior,"
+    " or '-O3 -fstack-arrays' to enable only conforming optimizations">,
+  HelpText<"Deprecated; use '-O3 -ffast-math' for the same behavior,"
+           " or '-O3' to enable only conforming optimizations">;
 def P : Flag<["-"], "P">,
   Visibility<[ClangOption, CC1Option, FlangOption, FC1Option]>,
   Group<Preprocessor_Group>,
diff --git a/clang/include/clang/Lex/Preprocessor.h b/clang/include/clang/Lex/Preprocessor.h
index 3d223c345ea15..8ddc5b56eedbd 100644
--- a/clang/include/clang/Lex/Preprocessor.h
+++ b/clang/include/clang/Lex/Preprocessor.h
@@ -2271,6 +2271,11 @@ class Preprocessor {
     }
   }
 
+  /// Determine whether the next preprocessor token to be
+  /// lexed is a '('.  If so, consume the token and return true, if not, this
+  /// method should have no observable side-effect on the lexed tokens.
+  bool isNextPPTokenLParen();
+
 private:
   /// Identifiers used for SEH handling in Borland. These are only
   /// allowed in particular circumstances
@@ -2648,11 +2653,6 @@ class Preprocessor {
 
   void removeCachedMacroExpandedTokensOfLastLexer();
 
-  /// Determine whether the next preprocessor token to be
-  /// lexed is a '('.  If so, consume the token and return true, if not, this
-  /// method should have no observable side-effect on the lexed tokens.
-  bool isNextPPTokenLParen();
-
   /// After reading "MACRO(", this method is invoked to read all of the formal
   /// arguments specified for the macro invocation.  Returns null on error.
   MacroArgs *ReadMacroCallArgumentList(Token &MacroName, MacroInfo *MI,
diff --git a/clang/include/clang/Sema/CMakeLists.txt b/clang/include/clang/Sema/CMakeLists.txt
index 0b0e31ece3195..9077e22c2307c 100644
--- a/clang/include/clang/Sema/CMakeLists.txt
+++ b/clang/include/clang/Sema/CMakeLists.txt
@@ -3,11 +3,6 @@ clang_tablegen(AttrTemplateInstantiate.inc -gen-clang-attr-template-instantiate
   SOURCE ../Basic/Attr.td
   TARGET ClangAttrTemplateInstantiate)
 
-clang_tablegen(AttrParsedAttrList.inc -gen-clang-attr-parsed-attr-list
-  -I ${CMAKE_CURRENT_SOURCE_DIR}/../../
-  SOURCE ../Basic/Attr.td
-  TARGET ClangAttrParsedAttrList)
-
 clang_tablegen(AttrParsedAttrKinds.inc -gen-clang-attr-parsed-attr-kinds
   -I ${CMAKE_CURRENT_SOURCE_DIR}/../../
   SOURCE ../Basic/Attr.td
diff --git a/clang/include/clang/Sema/Overload.h b/clang/include/clang/Sema/Overload.h
index 176a2a8d2a35e..c7f2422b542dd 100644
--- a/clang/include/clang/Sema/Overload.h
+++ b/clang/include/clang/Sema/Overload.h
@@ -930,6 +930,11 @@ class Sema;
     LLVM_PREFERRED_TYPE(bool)
     unsigned TookAddressOfOverload : 1;
 
+    /// Have we matched any packs on the parameter side, versus any non-packs on
+    /// the argument side, in a context where the opposite matching is also
+    /// allowed?
+    bool HasMatchedPackOnParmToNonPackOnArg : 1;
+
     /// True if the candidate was found using ADL.
     LLVM_PREFERRED_TYPE(CallExpr::ADLCallKind)
     unsigned IsADLCandidate : 1;
@@ -1006,6 +1011,7 @@ class Sema;
     OverloadCandidate()
         : IsSurrogate(false), IgnoreObjectArgument(false),
           TookAddressOfOverload(false),
+          HasMatchedPackOnParmToNonPackOnArg(false),
           IsADLCandidate(llvm::to_underlying(CallExpr::NotADL)),
           RewriteKind(CRK_None) {}
   };
diff --git a/clang/include/clang/Sema/Sema.h b/clang/include/clang/Sema/Sema.h
index 9a9998b114e0f..4d6e02fe2956e 100644
--- a/clang/include/clang/Sema/Sema.h
+++ b/clang/include/clang/Sema/Sema.h
@@ -10169,7 +10169,8 @@ class Sema final : public SemaBase {
                             ADLCallKind IsADLCandidate = ADLCallKind::NotADL,
                             ConversionSequenceList EarlyConversions = {},
                             OverloadCandidateParamOrder PO = {},
-                            bool AggregateCandidateDeduction = false);
+                            bool AggregateCandidateDeduction = false,
+                            bool HasMatchedPackOnParmToNonPackOnArg = false);
 
   /// Add all of the function declarations in the given function set to
   /// the overload candidate set.
@@ -10204,7 +10205,8 @@ class Sema final : public SemaBase {
                           bool SuppressUserConversions = false,
                           bool PartialOverloading = false,
                           ConversionSequenceList EarlyConversions = {},
-                          OverloadCandidateParamOrder PO = {});
+                          OverloadCandidateParamOrder PO = {},
+                          bool HasMatchedPackOnParmToNonPackOnArg = false);
 
   /// Add a C++ member function template as a candidate to the candidate
   /// set, using template argument deduction to produce an appropriate member
@@ -10250,7 +10252,8 @@ class Sema final : public SemaBase {
       CXXConversionDecl *Conversion, DeclAccessPair FoundDecl,
       CXXRecordDecl *ActingContext, Expr *From, QualType ToType,
       OverloadCandidateSet &CandidateSet, bool AllowObjCConversionOnExplicit,
-      bool AllowExplicit, bool AllowResultConversion = true);
+      bool AllowExplicit, bool AllowResultConversion = true,
+      bool HasMatchedPackOnParmToNonPackOnArg = false);
 
   /// Adds a conversion function template specialization
   /// candidate to the overload set, using template argument deduction
@@ -11678,7 +11681,8 @@ class Sema final : public SemaBase {
                         SourceLocation RAngleLoc, unsigned ArgumentPackIndex,
                         SmallVectorImpl<TemplateArgument> &SugaredConverted,
                         SmallVectorImpl<TemplateArgument> &CanonicalConverted,
-                        CheckTemplateArgumentKind CTAK);
+                        CheckTemplateArgumentKind CTAK, bool PartialOrdering,
+                        bool *MatchedPackOnParmToNonPackOnArg);
 
   /// Check that the given template arguments can be provided to
   /// the given template, converting the arguments along the way.
@@ -11725,7 +11729,8 @@ class Sema final : public SemaBase {
       SmallVectorImpl<TemplateArgument> &SugaredConverted,
       SmallVectorImpl<TemplateArgument> &CanonicalConverted,
       bool UpdateArgsWithConversions = true,
-      bool *ConstraintsNotSatisfied = nullptr, bool PartialOrderingTTP = false);
+      bool *ConstraintsNotSatisfied = nullptr, bool PartialOrderingTTP = false,
+      bool *MatchedPackOnParmToNonPackOnArg = nullptr);
 
   bool CheckTemplateTypeArgument(
       TemplateTypeParmDecl *Param, TemplateArgumentLoc &Arg,
@@ -11759,7 +11764,9 @@ class Sema final : public SemaBase {
   /// It returns true if an error occurred, and false otherwise.
   bool CheckTemplateTemplateArgument(TemplateTemplateParmDecl *Param,
                                      TemplateParameterList *Params,
-                                     TemplateArgumentLoc &Arg, bool IsDeduced);
+                                     TemplateArgumentLoc &Arg,
+                                     bool PartialOrdering,
+                                     bool *MatchedPackOnParmToNonPackOnArg);
 
   void NoteTemplateLocation(const NamedDecl &Decl,
                             std::optional<SourceRange> ParamRange = {});
@@ -12270,8 +12277,8 @@ class Sema final : public SemaBase {
       SmallVectorImpl<DeducedTemplateArgument> &Deduced,
       unsigned NumExplicitlySpecified, FunctionDecl *&Specialization,
       sema::TemplateDeductionInfo &Info,
-      SmallVectorImpl<OriginalCallArg> const *OriginalCallArgs = nullptr,
-      bool PartialOverloading = false,
+      SmallVectorImpl<OriginalCallArg> const *OriginalCallArgs,
+      bool PartialOverloading, bool PartialOrdering,
       llvm::function_ref<bool()> CheckNonDependent = [] { return false; });
 
   /// Perform template argument deduction from a function call
@@ -12305,7 +12312,8 @@ class Sema final : public SemaBase {
       TemplateArgumentListInfo *ExplicitTemplateArgs, ArrayRef<Expr *> Args,
       FunctionDecl *&Specialization, sema::TemplateDeductionInfo &Info,
       bool PartialOverloading, bool AggregateDeductionCandidate,
-      QualType ObjectType, Expr::Classification ObjectClassification,
+      bool PartialOrdering, QualType ObjectType,
+      Expr::Classification ObjectClassification,
       llvm::function_ref<bool(ArrayRef<QualType>)> CheckNonDependent);
 
   /// Deduce template arguments when taking the address of a function
@@ -12458,8 +12466,9 @@ class Sema final : public SemaBase {
                                     sema::TemplateDeductionInfo &Info);
 
   bool isTemplateTemplateParameterAtLeastAsSpecializedAs(
-      TemplateParameterList *PParam, TemplateDecl *AArg,
-      const DefaultArguments &DefaultArgs, SourceLocation Loc, bool IsDeduced);
+      TemplateParameterList *PParam, TemplateDecl *PArg, TemplateDecl *AArg,
+      const DefaultArguments &DefaultArgs, SourceLocation ArgLoc,
+      bool PartialOrdering, bool *MatchedPackOnParmToNonPackOnArg);
 
   /// Mark which template parameters are used in a given expression.
   ///
@@ -12768,6 +12777,9 @@ class Sema final : public SemaBase {
 
       /// We are instantiating a type alias template declaration.
       TypeAliasTemplateInstantiation,
+
+      /// We are performing partial ordering for template template parameters.
+      PartialOrderingTTP,
     } Kind;
 
     /// Was the enclosing context a non-instantiation SFINAE context?
@@ -12989,6 +13001,12 @@ class Sema final : public SemaBase {
                           TemplateDecl *Entity, BuildingDeductionGuidesTag,
                           SourceRange InstantiationRange = SourceRange());
 
+    struct PartialOrderingTTP {};
+    /// \brief Note that we are partial ordering template template parameters.
+    InstantiatingTemplate(Sema &SemaRef, SourceLocation ArgLoc,
+                          PartialOrderingTTP, TemplateDecl *PArg,
+                          SourceRange InstantiationRange = SourceRange());
+
     /// Note that we have finished instantiating this template.
     void Clear();
 
@@ -13450,7 +13468,8 @@ class Sema final : public SemaBase {
   bool InstantiateClassTemplateSpecialization(
       SourceLocation PointOfInstantiation,
       ClassTemplateSpecializationDecl *ClassTemplateSpec,
-      TemplateSpecializationKind TSK, bool Complain = true);
+      TemplateSpecializationKind TSK, bool Complain = true,
+      bool PrimaryHasMatchedPackOnParmToNonPackOnArg = false);
 
   /// Instantiates the definitions of all of the member
   /// of the given class, which is an instantiation of a class template
diff --git a/clang/include/clang/Sema/SemaInternal.h b/clang/include/clang/Sema/SemaInternal.h
index 27cda71989726..95874077050a9 100644
--- a/clang/include/clang/Sema/SemaInternal.h
+++ b/clang/include/clang/Sema/SemaInternal.h
@@ -72,7 +72,7 @@ inline std::pair<unsigned, unsigned> getDepthAndIndex(const NamedDecl *ND) {
 /// Retrieve the depth and index of an unexpanded parameter pack.
 inline std::pair<unsigned, unsigned>
 getDepthAndIndex(UnexpandedParameterPack UPP) {
-  if (const auto *TTP = UPP.first.dyn_cast<const TemplateTypeParmType *>())
+  if (const auto *TTP = dyn_cast<const TemplateTypeParmType *>(UPP.first))
     return std::make_pair(TTP->getDepth(), TTP->getIndex());
 
   return getDepthAndIndex(cast<NamedDecl *>(UPP.first));
diff --git a/clang/include/clang/Sema/TemplateDeduction.h b/clang/include/clang/Sema/TemplateDeduction.h
index 28b014fd84e4b..9c12eef5c42a0 100644
--- a/clang/include/clang/Sema/TemplateDeduction.h
+++ b/clang/include/clang/Sema/TemplateDeduction.h
@@ -51,6 +51,11 @@ class TemplateDeductionInfo {
   /// Have we suppressed an error during deduction?
   bool HasSFINAEDiagnostic = false;
 
+  /// Have we matched any packs on the parameter side, versus any non-packs on
+  /// the argument side, in a context where the opposite matching is also
+  /// allowed?
+  bool MatchedPackOnParmToNonPackOnArg = false;
+
   /// The template parameter depth for which we're performing deduction.
   unsigned DeducedDepth;
 
@@ -87,6 +92,14 @@ class TemplateDeductionInfo {
     return DeducedDepth;
   }
 
+  bool hasMatchedPackOnParmToNonPackOnArg() const {
+    return MatchedPackOnParmToNonPackOnArg;
+  }
+
+  void setMatchedPackOnParmToNonPackOnArg() {
+    MatchedPackOnParmToNonPackOnArg = true;
+  }
+
   /// Get the number of explicitly-specified arguments.
   unsigned getNumExplicitArgs() const {
     return ExplicitArgs;
diff --git a/clang/include/clang/Serialization/ASTReader.h b/clang/include/clang/Serialization/ASTReader.h
index 7530015c9dacf..47301419c76c6 100644
--- a/clang/include/clang/Serialization/ASTReader.h
+++ b/clang/include/clang/Serialization/ASTReader.h
@@ -546,11 +546,18 @@ class ASTReader
 
   /// Mapping from main decl ID to the related decls IDs.
   ///
-  /// These related decls have to be loaded right after the main decl.
-  /// It is required to have canonical declaration for related decls from the
-  /// same module as the enclosing main decl. Without this, due to lazy
-  /// deserialization, canonical declarations for the main decl and related can
-  /// be selected from different modules.
+  /// The key is the main decl ID, and the value is a vector of related decls
+  /// that must be loaded immediately after the main decl. This is necessary
+  /// to ensure that the definition for related decls comes from the same module
+  /// as the enclosing main decl. Without this, due to lazy deserialization,
+  /// the definition for the main decl and related decls may come from different
+  /// modules. It is used for the following cases:
+  /// - Lambda inside a template function definition: The main declaration is
+  ///   the enclosing function, and the related declarations are the lambda
+  ///   declarations.
+  /// - Friend function defined inside a template CXXRecord declaration: The
+  ///   main declaration is the enclosing record, and the related declarations
+  ///   are the friend functions.
   llvm::DenseMap<GlobalDeclID, SmallVector<GlobalDeclID, 4>> RelatedDeclsMap;
 
   struct PendingUpdateRecord {
diff --git a/clang/lib/AST/ByteCode/Descriptor.cpp b/clang/lib/AST/ByteCode/Descriptor.cpp
index 437b9f1bab2d6..1c16c2022dd02 100644
--- a/clang/lib/AST/ByteCode/Descriptor.cpp
+++ b/clang/lib/AST/ByteCode/Descriptor.cpp
@@ -428,17 +428,17 @@ QualType Descriptor::getElemQualType() const {
 }
 
 SourceLocation Descriptor::getLocation() const {
-  if (auto *D = Source.dyn_cast<const Decl *>())
+  if (auto *D = dyn_cast<const Decl *>(Source))
     return D->getLocation();
-  if (auto *E = Source.dyn_cast<const Expr *>())
+  if (auto *E = dyn_cast<const Expr *>(Source))
     return E->getExprLoc();
   llvm_unreachable("Invalid descriptor type");
 }
 
 SourceInfo Descriptor::getLoc() const {
-  if (const auto *D = Source.dyn_cast<const Decl *>())
+  if (const auto *D = dyn_cast<const Decl *>(Source))
     return SourceInfo(D);
-  if (const auto *E = Source.dyn_cast<const Expr *>())
+  if (const auto *E = dyn_cast<const Expr *>(Source))
     return SourceInfo(E);
   llvm_unreachable("Invalid descriptor type");
 }
diff --git a/clang/lib/AST/ByteCode/Interp.cpp b/clang/lib/AST/ByteCode/Interp.cpp
index c765ebf5d618e..40fe7147a18a3 100644
--- a/clang/lib/AST/ByteCode/Interp.cpp
+++ b/clang/lib/AST/ByteCode/Interp.cpp
@@ -873,13 +873,17 @@ bool CheckNewDeleteForms(InterpState &S, CodePtr OpPC,
 
 bool CheckDeleteSource(InterpState &S, CodePtr OpPC, const Expr *Source,
                        const Pointer &Ptr) {
-  // The two sources we currently allow are new expressions and
-  // __builtin_operator_new calls.
+  // Regular new type(...) call.
   if (isa_and_nonnull<CXXNewExpr>(Source))
     return true;
-  if (const CallExpr *CE = dyn_cast_if_present<CallExpr>(Source);
+  // operator new.
+  if (const auto *CE = dyn_cast_if_present<CallExpr>(Source);
       CE && CE->getBuiltinCallee() == Builtin::BI__builtin_operator_new)
     return true;
+  // std::allocator.allocate() call
+  if (const auto *MCE = dyn_cast_if_present<CXXMemberCallExpr>(Source);
+      MCE && MCE->getMethodDecl()->getIdentifier()->isStr("allocate"))
+    return true;
 
   // Whatever this is, we didn't heap allocate it.
   const SourceInfo &Loc = S.Current->getSource(OpPC);
@@ -1489,7 +1493,8 @@ bool CheckNewTypeMismatch(InterpState &S, CodePtr OpPC, const Expr *E,
   const auto *NewExpr = cast<CXXNewExpr>(E);
   QualType StorageType = Ptr.getType();
 
-  if (isa_and_nonnull<CXXNewExpr>(Ptr.getFieldDesc()->asExpr()) &&
+  if ((isa_and_nonnull<CXXNewExpr>(Ptr.getFieldDesc()->asExpr()) ||
+       isa_and_nonnull<CXXMemberCallExpr>(Ptr.getFieldDesc()->asExpr())) &&
       StorageType->isPointerType()) {
     // FIXME: Are there other cases where this is a problem?
     StorageType = StorageType->getPointeeType();
diff --git a/clang/lib/AST/ByteCode/InterpBuiltin.cpp b/clang/lib/AST/ByteCode/InterpBuiltin.cpp
index 0d52083b06946..e657dbd2f9c73 100644
--- a/clang/lib/AST/ByteCode/InterpBuiltin.cpp
+++ b/clang/lib/AST/ByteCode/InterpBuiltin.cpp
@@ -1584,6 +1584,7 @@ static bool interp__builtin_operator_new(InterpState &S, CodePtr OpPC,
   // Walk up the call stack to find the appropriate caller and get the
   // element type from it.
   QualType ElemType;
+  const CallExpr *NewCall = nullptr;
 
   for (const InterpFrame *F = Frame; F; F = F->Caller) {
     const Function *Func = F->getFunction();
@@ -1606,6 +1607,7 @@ static bool interp__builtin_operator_new(InterpState &S, CodePtr OpPC,
     if (CTSD->isInStdNamespace() && ClassII && ClassII->isStr("allocator") &&
         TAL.size() >= 1 && TAL[0].getKind() == TemplateArgument::Type) {
       ElemType = TAL[0].getAsType();
+      NewCall = cast<CallExpr>(F->Caller->getExpr(F->getRetPC()));
       break;
     }
   }
@@ -1616,6 +1618,7 @@ static bool interp__builtin_operator_new(InterpState &S, CodePtr OpPC,
                        : diag::note_constexpr_new);
     return false;
   }
+  assert(NewCall);
 
   if (ElemType->isIncompleteType() || ElemType->isFunctionType()) {
     S.FFDiag(Call, diag::note_constexpr_new_not_complete_object_type)
@@ -1654,7 +1657,7 @@ static bool interp__builtin_operator_new(InterpState &S, CodePtr OpPC,
   if (ElemT) {
     if (NumElems.ule(1)) {
       const Descriptor *Desc =
-          S.P.createDescriptor(Call, *ElemT, Descriptor::InlineDescMD,
+          S.P.createDescriptor(NewCall, *ElemT, Descriptor::InlineDescMD,
                                /*IsConst=*/false, /*IsTemporary=*/false,
                                /*IsMutable=*/false);
       Block *B = Allocator.allocate(Desc, S.getContext().getEvalID(),
@@ -1667,7 +1670,7 @@ static bool interp__builtin_operator_new(InterpState &S, CodePtr OpPC,
     assert(NumElems.ugt(1));
 
     Block *B =
-        Allocator.allocate(Call, *ElemT, NumElems.getZExtValue(),
+        Allocator.allocate(NewCall, *ElemT, NumElems.getZExtValue(),
                            S.Ctx.getEvalID(), DynamicAllocator::Form::Operator);
     assert(B);
     S.Stk.push<Pointer>(B);
diff --git a/clang/lib/AST/ExprConstant.cpp b/clang/lib/AST/ExprConstant.cpp
index 734311e5d8b9a..3b5ab839c6cf7 100644
--- a/clang/lib/AST/ExprConstant.cpp
+++ b/clang/lib/AST/ExprConstant.cpp
@@ -1136,6 +1136,7 @@ namespace {
     struct StdAllocatorCaller {
       unsigned FrameIndex;
       QualType ElemType;
+      const Expr *Call;
       explicit operator bool() const { return FrameIndex != 0; };
     };
 
@@ -1159,7 +1160,7 @@ namespace {
         if (CTSD->isInStdNamespace() && ClassII &&
             ClassII->isStr("allocator") && TAL.size() >= 1 &&
             TAL[0].getKind() == TemplateArgument::Type)
-          return {Call->Index, TAL[0].getAsType()};
+          return {Call->Index, TAL[0].getAsType(), Call->CallExpr};
       }
 
       return {};
@@ -7113,7 +7114,7 @@ static bool HandleOperatorNewCall(EvalInfo &Info, const CallExpr *E,
 
   QualType AllocType = Info.Ctx.getConstantArrayType(
       ElemType, Size, nullptr, ArraySizeModifier::Normal, 0);
-  APValue *Val = Info.createHeapAlloc(E, AllocType, Result);
+  APValue *Val = Info.createHeapAlloc(Caller.Call, AllocType, Result);
   *Val = APValue(APValue::UninitArray(), 0, Size.getZExtValue());
   Result.addArray(Info, E, cast<ConstantArrayType>(AllocType));
   return true;
diff --git a/clang/lib/AST/JSONNodeDumper.cpp b/clang/lib/AST/JSONNodeDumper.cpp
index ddbe2136a671f..36ef1fc8c79db 100644
--- a/clang/lib/AST/JSONNodeDumper.cpp
+++ b/clang/lib/AST/JSONNodeDumper.cpp
@@ -1537,9 +1537,9 @@ void JSONNodeDumper::VisitExprWithCleanups(const ExprWithCleanups *EWC) {
   if (EWC->getNumObjects()) {
     JOS.attributeArray("cleanups", [this, EWC] {
       for (const ExprWithCleanups::CleanupObject &CO : EWC->getObjects())
-        if (auto *BD = CO.dyn_cast<BlockDecl *>()) {
+        if (auto *BD = dyn_cast<BlockDecl *>(CO)) {
           JOS.value(createBareDeclRef(BD));
-        } else if (auto *CLE = CO.dyn_cast<CompoundLiteralExpr *>()) {
+        } else if (auto *CLE = dyn_cast<CompoundLiteralExpr *>(CO)) {
           llvm::json::Object Obj;
           Obj["id"] = createPointerRepresentation(CLE);
           Obj["kind"] = CLE->getStmtClassName();
diff --git a/clang/lib/Basic/Attributes.cpp b/clang/lib/Basic/Attributes.cpp
index fa26cc584b724..2035d4c0a5768 100644
--- a/clang/lib/Basic/Attributes.cpp
+++ b/clang/lib/Basic/Attributes.cpp
@@ -33,7 +33,8 @@ static int hasAttributeImpl(AttributeCommonInfo::Syntax Syntax, StringRef Name,
 
 int clang::hasAttribute(AttributeCommonInfo::Syntax Syntax,
                         const IdentifierInfo *Scope, const IdentifierInfo *Attr,
-                        const TargetInfo &Target, const LangOptions &LangOpts) {
+                        const TargetInfo &Target, const LangOptions &LangOpts,
+                        bool CheckPlugins) {
   StringRef Name = Attr->getName();
   // Normalize the attribute name, __foo__ becomes foo.
   if (Name.size() >= 4 && Name.starts_with("__") && Name.ends_with("__"))
@@ -61,14 +62,23 @@ int clang::hasAttribute(AttributeCommonInfo::Syntax Syntax,
   if (res)
     return res;
 
-  // Check if any plugin provides this attribute.
-  for (auto &Ptr : getAttributePluginInstances())
-    if (Ptr->hasSpelling(Syntax, Name))
-      return 1;
+  if (CheckPlugins) {
+    // Check if any plugin provides this attribute.
+    for (auto &Ptr : getAttributePluginInstances())
+      if (Ptr->hasSpelling(Syntax, Name))
+        return 1;
+  }
 
   return 0;
 }
 
+int clang::hasAttribute(AttributeCommonInfo::Syntax Syntax,
+                        const IdentifierInfo *Scope, const IdentifierInfo *Attr,
+                        const TargetInfo &Target, const LangOptions &LangOpts) {
+  return hasAttribute(Syntax, Scope, Attr, Target, LangOpts,
+                      /*CheckPlugins=*/true);
+}
+
 const char *attr::getSubjectMatchRuleSpelling(attr::SubjectMatchRule Rule) {
   switch (Rule) {
 #define ATTR_MATCH_RULE(NAME, SPELLING, IsAbstract)                            \
@@ -151,6 +161,17 @@ AttributeCommonInfo::getParsedKind(const IdentifierInfo *Name,
   return ::getAttrKind(normalizeName(Name, ScopeName, SyntaxUsed), SyntaxUsed);
 }
 
+AttributeCommonInfo::AttrArgsInfo
+AttributeCommonInfo::getCXX11AttrArgsInfo(const IdentifierInfo *Name) {
+  StringRef AttrName =
+      normalizeAttrName(Name, /*NormalizedScopeName*/ "", Syntax::AS_CXX11);
+#define CXX11_ATTR_ARGS_INFO
+  return llvm::StringSwitch<AttributeCommonInfo::AttrArgsInfo>(AttrName)
+#include "clang/Basic/CXX11AttributeInfo.inc"
+      .Default(AttributeCommonInfo::AttrArgsInfo::None);
+#undef CXX11_ATTR_ARGS_INFO
+}
+
 std::string AttributeCommonInfo::getNormalizedFullName() const {
   return static_cast<std::string>(
       normalizeName(getAttrName(), getScopeName(), getSyntax()));
diff --git a/clang/lib/Basic/Targets/RISCV.cpp b/clang/lib/Basic/Targets/RISCV.cpp
index db23b0c228338..8167d7603b0e1 100644
--- a/clang/lib/Basic/Targets/RISCV.cpp
+++ b/clang/lib/Basic/Targets/RISCV.cpp
@@ -102,7 +102,7 @@ bool RISCVTargetInfo::validateAsmConstraint(
     return true;
   case 'c':
     // A RVC register - GPR or FPR
-    if (Name[1] == 'r' || Name[1] == 'f') {
+    if (Name[1] == 'r' || Name[1] == 'R' || Name[1] == 'f') {
       Info.setAllowsRegister();
       Name += 1;
       return true;
diff --git a/clang/lib/CodeGen/CGBuiltin.cpp b/clang/lib/CodeGen/CGBuiltin.cpp
index f1515347fb816..26bccccdc5e36 100644
--- a/clang/lib/CodeGen/CGBuiltin.cpp
+++ b/clang/lib/CodeGen/CGBuiltin.cpp
@@ -16556,9 +16556,9 @@ Value *CodeGenFunction::EmitX86BuiltinExpr(unsigned BuiltinID,
   case X86::BI__builtin_ia32_sqrtph256:
   case X86::BI__builtin_ia32_sqrtph:
   case X86::BI__builtin_ia32_sqrtph512:
-  case X86::BI__builtin_ia32_vsqrtnepbf16256:
-  case X86::BI__builtin_ia32_vsqrtnepbf16:
-  case X86::BI__builtin_ia32_vsqrtnepbf16512:
+  case X86::BI__builtin_ia32_vsqrtbf16256:
+  case X86::BI__builtin_ia32_vsqrtbf16:
+  case X86::BI__builtin_ia32_vsqrtbf16512:
   case X86::BI__builtin_ia32_sqrtps512:
   case X86::BI__builtin_ia32_sqrtpd512: {
     if (Ops.size() == 2) {
@@ -16778,9 +16778,9 @@ Value *CodeGenFunction::EmitX86BuiltinExpr(unsigned BuiltinID,
   case X86::BI__builtin_ia32_fpclassps128_mask:
   case X86::BI__builtin_ia32_fpclassps256_mask:
   case X86::BI__builtin_ia32_fpclassps512_mask:
-  case X86::BI__builtin_ia32_vfpclasspbf16128_mask:
-  case X86::BI__builtin_ia32_vfpclasspbf16256_mask:
-  case X86::BI__builtin_ia32_vfpclasspbf16512_mask:
+  case X86::BI__builtin_ia32_vfpclassbf16128_mask:
+  case X86::BI__builtin_ia32_vfpclassbf16256_mask:
+  case X86::BI__builtin_ia32_vfpclassbf16512_mask:
   case X86::BI__builtin_ia32_fpclassph128_mask:
   case X86::BI__builtin_ia32_fpclassph256_mask:
   case X86::BI__builtin_ia32_fpclassph512_mask:
@@ -16795,14 +16795,14 @@ Value *CodeGenFunction::EmitX86BuiltinExpr(unsigned BuiltinID,
     Intrinsic::ID ID;
     switch (BuiltinID) {
     default: llvm_unreachable("Unsupported intrinsic!");
-    case X86::BI__builtin_ia32_vfpclasspbf16128_mask:
-      ID = Intrinsic::x86_avx10_fpclass_nepbf16_128;
+    case X86::BI__builtin_ia32_vfpclassbf16128_mask:
+      ID = Intrinsic::x86_avx10_fpclass_bf16_128;
       break;
-    case X86::BI__builtin_ia32_vfpclasspbf16256_mask:
-      ID = Intrinsic::x86_avx10_fpclass_nepbf16_256;
+    case X86::BI__builtin_ia32_vfpclassbf16256_mask:
+      ID = Intrinsic::x86_avx10_fpclass_bf16_256;
       break;
-    case X86::BI__builtin_ia32_vfpclasspbf16512_mask:
-      ID = Intrinsic::x86_avx10_fpclass_nepbf16_512;
+    case X86::BI__builtin_ia32_vfpclassbf16512_mask:
+      ID = Intrinsic::x86_avx10_fpclass_bf16_512;
       break;
     case X86::BI__builtin_ia32_fpclassph128_mask:
       ID = Intrinsic::x86_avx512fp16_fpclass_ph_128;
@@ -16962,9 +16962,9 @@ Value *CodeGenFunction::EmitX86BuiltinExpr(unsigned BuiltinID,
   case X86::BI__builtin_ia32_vcmppd256_round_mask:
   case X86::BI__builtin_ia32_vcmpps256_round_mask:
   case X86::BI__builtin_ia32_vcmpph256_round_mask:
-  case X86::BI__builtin_ia32_vcmppbf16512_mask:
-  case X86::BI__builtin_ia32_vcmppbf16256_mask:
-  case X86::BI__builtin_ia32_vcmppbf16128_mask:
+  case X86::BI__builtin_ia32_vcmpbf16512_mask:
+  case X86::BI__builtin_ia32_vcmpbf16256_mask:
+  case X86::BI__builtin_ia32_vcmpbf16128_mask:
     IsMaskFCmp = true;
     [[fallthrough]];
   case X86::BI__builtin_ia32_cmpps:
diff --git a/clang/lib/CodeGen/CGCoroutine.cpp b/clang/lib/CodeGen/CGCoroutine.cpp
index 0c09ff96f9d6b..9abf2e8c9190d 100644
--- a/clang/lib/CodeGen/CGCoroutine.cpp
+++ b/clang/lib/CodeGen/CGCoroutine.cpp
@@ -626,7 +626,7 @@ struct CallCoroDelete final : public EHScopeStack::Cleanup {
 
     // Get back to the block we were originally and move coro.free there.
     auto *InsertPt = SaveInsertBlock->getTerminator();
-    CoroFree->moveBefore(InsertPt);
+    CoroFree->moveBefore(InsertPt->getIterator());
     CGF.Builder.SetInsertPoint(InsertPt);
 
     // Add if (auto *mem = coro.free) Deallocate;
diff --git a/clang/lib/CodeGen/CGException.cpp b/clang/lib/CodeGen/CGException.cpp
index e7dd5fb01ebed..5dc1686e7914c 100644
--- a/clang/lib/CodeGen/CGException.cpp
+++ b/clang/lib/CodeGen/CGException.cpp
@@ -1858,7 +1858,7 @@ Address CodeGenFunction::recoverAddrOfEscapedLocal(CodeGenFunction &ParentCGF,
            "expected alloca or localrecover in parent LocalDeclMap");
     RecoverCall = cast<llvm::CallInst>(ParentRecover->clone());
     RecoverCall->setArgOperand(1, ParentFP);
-    RecoverCall->insertBefore(AllocaInsertPt);
+    RecoverCall->insertBefore(AllocaInsertPt->getIterator());
   }
 
   // Bitcast the variable, rename it, and insert it in the local decl map.
diff --git a/clang/lib/CodeGen/CGOpenMPRuntime.cpp b/clang/lib/CodeGen/CGOpenMPRuntime.cpp
index ddcb04d53661d..cafaaa364cb76 100644
--- a/clang/lib/CodeGen/CGOpenMPRuntime.cpp
+++ b/clang/lib/CodeGen/CGOpenMPRuntime.cpp
@@ -1332,7 +1332,7 @@ void CGOpenMPRuntime::setLocThreadIdInsertPt(CodeGenFunction &CGF,
                                                  CGF.Builder.GetInsertBlock());
   } else {
     Elem.ServiceInsertPt = new llvm::BitCastInst(Undef, CGF.Int32Ty, "svcpt");
-    Elem.ServiceInsertPt->insertAfter(CGF.AllocaInsertPt);
+    Elem.ServiceInsertPt->insertAfter(CGF.AllocaInsertPt->getIterator());
   }
 }
 
@@ -4079,7 +4079,7 @@ static void emitDependData(CodeGenFunction &CGF, QualType &KmpDependInfoTy,
       Size = llvm::ConstantInt::get(CGF.SizeTy, 0);
     }
     LValue Base;
-    if (unsigned *P = Pos.dyn_cast<unsigned *>()) {
+    if (unsigned *P = dyn_cast<unsigned *>(Pos)) {
       Base = CGF.MakeAddrLValue(
           CGF.Builder.CreateConstGEP(DependenciesArray, *P), KmpDependInfoTy);
     } else {
@@ -4109,7 +4109,7 @@ static void emitDependData(CodeGenFunction &CGF, QualType &KmpDependInfoTy,
     CGF.EmitStoreOfScalar(
         llvm::ConstantInt::get(LLVMFlagsTy, static_cast<unsigned int>(DepKind)),
         FlagsLVal);
-    if (unsigned *P = Pos.dyn_cast<unsigned *>()) {
+    if (unsigned *P = dyn_cast<unsigned *>(Pos)) {
       ++(*P);
     } else {
       LValue &PosLVal = *cast<LValue *>(Pos);
diff --git a/clang/lib/Driver/ToolChains/Clang.cpp b/clang/lib/Driver/ToolChains/Clang.cpp
index 33f08cf28feca..518113e20cb06 100644
--- a/clang/lib/Driver/ToolChains/Clang.cpp
+++ b/clang/lib/Driver/ToolChains/Clang.cpp
@@ -6141,9 +6141,8 @@ void Clang::ConstructJob(Compilation &C, const JobAction &JA,
     CmdArgs.push_back("-fno-direct-access-external-data");
   }
 
-  if (Args.hasFlag(options::OPT_fno_plt, options::OPT_fplt, false)) {
-    CmdArgs.push_back("-fno-plt");
-  }
+  if (Triple.isOSBinFormatELF() && (Triple.isAArch64() || Triple.isX86()))
+    Args.addOptOutFlag(CmdArgs, options::OPT_fplt, options::OPT_fno_plt);
 
   // -fhosted is default.
   // TODO: Audit uses of KernelOrKext and see where it'd be more appropriate to
diff --git a/clang/lib/Driver/ToolChains/Cuda.cpp b/clang/lib/Driver/ToolChains/Cuda.cpp
index d4099216c81ba..0922a97ed7c19 100644
--- a/clang/lib/Driver/ToolChains/Cuda.cpp
+++ b/clang/lib/Driver/ToolChains/Cuda.cpp
@@ -639,6 +639,9 @@ void NVPTX::Linker::ConstructJob(Compilation &C, const JobAction &JA,
   CmdArgs.push_back(
       Args.MakeArgString("--plugin-opt=-mattr=" + llvm::join(Features, ",")));
 
+  // Enable ctor / dtor lowering for the direct / freestanding NVPTX target.
+  CmdArgs.append({"-mllvm", "--nvptx-lower-global-ctor-dtor"});
+
   // Add paths for the default clang library path.
   SmallString<256> DefaultLibPath =
       llvm::sys::path::parent_path(TC.getDriver().Dir);
@@ -783,7 +786,7 @@ void NVPTXToolChain::addClangTargetOptions(
   // If we are compiling with a standalone NVPTX toolchain we want to try to
   // mimic a standard environment as much as possible. So we enable lowering
   // ctor / dtor functions to global symbols that can be registered.
-  if (Freestanding)
+  if (Freestanding && !getDriver().isUsingLTO())
     CC1Args.append({"-mllvm", "--nvptx-lower-global-ctor-dtor"});
 }
 
diff --git a/clang/lib/Driver/ToolChains/Flang.cpp b/clang/lib/Driver/ToolChains/Flang.cpp
index 9c1fd28a3a8a2..45d05ed3e2485 100644
--- a/clang/lib/Driver/ToolChains/Flang.cpp
+++ b/clang/lib/Driver/ToolChains/Flang.cpp
@@ -937,6 +937,7 @@ void Flang::ConstructJob(Compilation &C, const JobAction &JA,
       D.Diag(diag::warn_O4_is_O3);
     } else if (A->getOption().matches(options::OPT_Ofast)) {
       CmdArgs.push_back("-O3");
+      D.Diag(diag::warn_drv_deprecated_arg_ofast_for_flang);
     } else {
       A->render(Args, CmdArgs);
     }
diff --git a/clang/lib/Driver/ToolChains/WebAssembly.cpp b/clang/lib/Driver/ToolChains/WebAssembly.cpp
index 10f9a4f338f8f..eebe3becada65 100644
--- a/clang/lib/Driver/ToolChains/WebAssembly.cpp
+++ b/clang/lib/Driver/ToolChains/WebAssembly.cpp
@@ -347,6 +347,9 @@ void WebAssembly::addClangTargetOptions(const ArgList &DriverArgs,
   // Bans incompatible options for Wasm EH / SjLj. We don't allow using
   // different modes for EH and SjLj.
   auto BanIncompatibleOptionsForWasmEHSjLj = [&](StringRef CurOption) {
+    static bool HasRun = false;
+    if (HasRun)
+      return;
     if (DriverArgs.hasFlag(options::OPT_mno_exception_handing,
                            options::OPT_mexception_handing, false))
       getDriver().Diag(diag::err_drv_argument_not_allowed_with)
@@ -370,10 +373,14 @@ void WebAssembly::addClangTargetOptions(const ArgList &DriverArgs,
               << CurOption << Option;
       }
     }
+    HasRun = true;
   };
 
   // Enable necessary features for Wasm EH / SjLj in the backend.
   auto EnableFeaturesForWasmEHSjLj = [&]() {
+    static bool HasRun = false;
+    if (HasRun)
+      return;
     CC1Args.push_back("-target-feature");
     CC1Args.push_back("+exception-handling");
     // The standardized Wasm EH spec requires multivalue and reference-types.
@@ -383,6 +390,7 @@ void WebAssembly::addClangTargetOptions(const ArgList &DriverArgs,
     CC1Args.push_back("+reference-types");
     // Backend needs '-exception-model=wasm' to use Wasm EH instructions
     CC1Args.push_back("-exception-model=wasm");
+    HasRun = true;
   };
 
   if (DriverArgs.getLastArg(options::OPT_fwasm_exceptions)) {
diff --git a/clang/lib/Format/TokenAnnotator.cpp b/clang/lib/Format/TokenAnnotator.cpp
index bf5ee281c4311..f36cf7b638e0d 100644
--- a/clang/lib/Format/TokenAnnotator.cpp
+++ b/clang/lib/Format/TokenAnnotator.cpp
@@ -5488,8 +5488,8 @@ bool TokenAnnotator::spaceRequiredBefore(const AnnotatedLine &Line,
   }
   if ((Left.is(TT_TemplateOpener)) != (Right.is(TT_TemplateCloser)))
     return ShouldAddSpacesInAngles();
-  if (Left.is(tok::r_paren) && Right.is(TT_PointerOrReference) &&
-      Right.isOneOf(tok::amp, tok::ampamp)) {
+  if (Left.is(tok::r_paren) && Left.isNot(TT_TypeDeclarationParen) &&
+      Right.is(TT_PointerOrReference) && Right.isOneOf(tok::amp, tok::ampamp)) {
     return true;
   }
   // Space before TT_StructuredBindingLSquare.
diff --git a/clang/lib/Frontend/FrontendActions.cpp b/clang/lib/Frontend/FrontendActions.cpp
index 30dfa5481d070..1ea4a2e9e88cf 100644
--- a/clang/lib/Frontend/FrontendActions.cpp
+++ b/clang/lib/Frontend/FrontendActions.cpp
@@ -459,6 +459,8 @@ class DefaultTemplateInstCallback : public TemplateInstantiationCallback {
       return "BuildingDeductionGuides";
     case CodeSynthesisContext::TypeAliasTemplateInstantiation:
       return "TypeAliasTemplateInstantiation";
+    case CodeSynthesisContext::PartialOrderingTTP:
+      return "PartialOrderingTTP";
     }
     return "";
   }
diff --git a/clang/lib/Headers/avx10_2_512bf16intrin.h b/clang/lib/Headers/avx10_2_512bf16intrin.h
index 392b7ae770c5b..ce43ecbcfe047 100644
--- a/clang/lib/Headers/avx10_2_512bf16intrin.h
+++ b/clang/lib/Headers/avx10_2_512bf16intrin.h
@@ -62,17 +62,17 @@ static __inline __m512bh __DEFAULT_FN_ATTRS512 _mm512_set_pbh(
                  (bf3), (bf2), (bf1))
 
 static __inline__ __m512 __DEFAULT_FN_ATTRS512
-_mm512_castpbf16_ps(__m512bh __a) {
+_mm512_castbf16_ps(__m512bh __a) {
   return (__m512)__a;
 }
 
 static __inline__ __m512d __DEFAULT_FN_ATTRS512
-_mm512_castpbf16_pd(__m512bh __a) {
+_mm512_castbf16_pd(__m512bh __a) {
   return (__m512d)__a;
 }
 
 static __inline__ __m512i __DEFAULT_FN_ATTRS512
-_mm512_castpbf16_si512(__m512bh __a) {
+_mm512_castbf16_si512(__m512bh __a) {
   return (__m512i)__a;
 }
 
@@ -91,39 +91,39 @@ _mm512_castsi512_pbh(__m512i __a) {
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS512
-_mm512_castpbf16512_pbh128(__m512bh __a) {
+_mm512_castbf16512_pbh128(__m512bh __a) {
   return __builtin_shufflevector(__a, __a, 0, 1, 2, 3, 4, 5, 6, 7);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS512
-_mm512_castpbf16512_pbh256(__m512bh __a) {
+_mm512_castbf16512_pbh256(__m512bh __a) {
   return __builtin_shufflevector(__a, __a, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,
                                  12, 13, 14, 15);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_castpbf16128_pbh512(__m128bh __a) {
+_mm512_castbf16128_pbh512(__m128bh __a) {
   return __builtin_shufflevector(__a, __a, 0, 1, 2, 3, 4, 5, 6, 7, -1, -1, -1,
                                  -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
                                  -1, -1, -1, -1, -1, -1, -1, -1, -1);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_castpbf16256_pbh512(__m256bh __a) {
+_mm512_castbf16256_pbh512(__m256bh __a) {
   return __builtin_shufflevector(__a, __a, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,
                                  12, 13, 14, 15, -1, -1, -1, -1, -1, -1, -1, -1,
                                  -1, -1, -1, -1, -1, -1, -1, -1);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_zextpbf16128_pbh512(__m128bh __a) {
+_mm512_zextbf16128_pbh512(__m128bh __a) {
   return __builtin_shufflevector(
       __a, (__v8bf)_mm_setzero_pbh(), 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12,
       13, 14, 15, 8, 9, 10, 11, 12, 13, 14, 15, 8, 9, 10, 11, 12, 13, 14, 15);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_zextpbf16256_pbh512(__m256bh __a) {
+_mm512_zextbf16256_pbh512(__m256bh __a) {
   return __builtin_shufflevector(__a, (__v16bf)_mm256_setzero_pbh(), 0, 1, 2, 3,
                                  4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
                                  17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28,
@@ -178,81 +178,81 @@ _mm512_permutexvar_pbh(__m512i __A, __m512bh __B) {
   return (__m512bh)__builtin_ia32_permvarhi512((__v32hi)__B, (__v32hi)__A);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_addne_pbh(__m512bh __A, __m512bh __B) {
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_add_pbh(__m512bh __A,
+                                                                __m512bh __B) {
   return (__m512bh)((__v32bf)__A + (__v32bf)__B);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_mask_addne_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
+_mm512_mask_add_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
-      (__mmask32)__U, (__v32bf)_mm512_addne_pbh(__A, __B), (__v32bf)__W);
+      (__mmask32)__U, (__v32bf)_mm512_add_pbh(__A, __B), (__v32bf)__W);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_maskz_addne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
+_mm512_maskz_add_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
-      (__mmask32)__U, (__v32bf)_mm512_addne_pbh(__A, __B),
+      (__mmask32)__U, (__v32bf)_mm512_add_pbh(__A, __B),
       (__v32bf)_mm512_setzero_pbh());
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_subne_pbh(__m512bh __A, __m512bh __B) {
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_sub_pbh(__m512bh __A,
+                                                                __m512bh __B) {
   return (__m512bh)((__v32bf)__A - (__v32bf)__B);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_mask_subne_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
+_mm512_mask_sub_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
-      (__mmask32)__U, (__v32bf)_mm512_subne_pbh(__A, __B), (__v32bf)__W);
+      (__mmask32)__U, (__v32bf)_mm512_sub_pbh(__A, __B), (__v32bf)__W);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_maskz_subne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
+_mm512_maskz_sub_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
-      (__mmask32)__U, (__v32bf)_mm512_subne_pbh(__A, __B),
+      (__mmask32)__U, (__v32bf)_mm512_sub_pbh(__A, __B),
       (__v32bf)_mm512_setzero_pbh());
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_mulne_pbh(__m512bh __A, __m512bh __B) {
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mul_pbh(__m512bh __A,
+                                                                __m512bh __B) {
   return (__m512bh)((__v32bf)__A * (__v32bf)__B);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_mask_mulne_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
+_mm512_mask_mul_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
-      (__mmask32)__U, (__v32bf)_mm512_mulne_pbh(__A, __B), (__v32bf)__W);
+      (__mmask32)__U, (__v32bf)_mm512_mul_pbh(__A, __B), (__v32bf)__W);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_maskz_mulne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
+_mm512_maskz_mul_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
-      (__mmask32)__U, (__v32bf)_mm512_mulne_pbh(__A, __B),
+      (__mmask32)__U, (__v32bf)_mm512_mul_pbh(__A, __B),
       (__v32bf)_mm512_setzero_pbh());
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_divne_pbh(__m512bh __A, __m512bh __B) {
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_div_pbh(__m512bh __A,
+                                                                __m512bh __B) {
   return (__m512bh)((__v32bf)__A / (__v32bf)__B);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_mask_divne_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
+_mm512_mask_div_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
-      (__mmask32)__U, (__v32bf)_mm512_divne_pbh(__A, __B), (__v32bf)__W);
+      (__mmask32)__U, (__v32bf)_mm512_div_pbh(__A, __B), (__v32bf)__W);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_maskz_divne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
+_mm512_maskz_div_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
-      (__mmask32)__U, (__v32bf)_mm512_divne_pbh(__A, __B),
+      (__mmask32)__U, (__v32bf)_mm512_div_pbh(__A, __B),
       (__v32bf)_mm512_setzero_pbh());
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_max_pbh(__m512bh __A,
                                                                 __m512bh __B) {
-  return (__m512bh)__builtin_ia32_vmaxpbf16512((__v32bf)__A, (__v32bf)__B);
+  return (__m512bh)__builtin_ia32_vmaxbf16512((__v32bf)__A, (__v32bf)__B);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
@@ -270,7 +270,7 @@ _mm512_maskz_max_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_min_pbh(__m512bh __A,
                                                                 __m512bh __B) {
-  return (__m512bh)__builtin_ia32_vminpbf16512((__v32bf)__A, (__v32bf)__B);
+  return (__m512bh)__builtin_ia32_vminbf16512((__v32bf)__A, (__v32bf)__B);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
@@ -287,143 +287,143 @@ _mm512_maskz_min_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
 }
 
 #define _mm512_cmp_pbh_mask(__A, __B, __P)                                     \
-  ((__mmask32)__builtin_ia32_vcmppbf16512_mask((__v32bf)(__m512bh)(__A),       \
-                                               (__v32bf)(__m512bh)(__B),       \
-                                               (int)(__P), (__mmask32) - 1))
+  ((__mmask32)__builtin_ia32_vcmpbf16512_mask((__v32bf)(__m512bh)(__A),        \
+                                              (__v32bf)(__m512bh)(__B),        \
+                                              (int)(__P), (__mmask32) - 1))
 
 #define _mm512_mask_cmp_pbh_mask(__U, __A, __B, __P)                           \
-  ((__mmask32)__builtin_ia32_vcmppbf16512_mask((__v32bf)(__m512bh)(__A),       \
-                                               (__v32bf)(__m512bh)(__B),       \
-                                               (int)(__P), (__mmask32)(__U)))
+  ((__mmask32)__builtin_ia32_vcmpbf16512_mask((__v32bf)(__m512bh)(__A),        \
+                                              (__v32bf)(__m512bh)(__B),        \
+                                              (int)(__P), (__mmask32)(__U)))
 
 #define _mm512_mask_fpclass_pbh_mask(__U, __A, imm)                            \
-  ((__mmask32)__builtin_ia32_vfpclasspbf16512_mask(                            \
+  ((__mmask32)__builtin_ia32_vfpclassbf16512_mask(                             \
       (__v32bf)(__m512bh)(__A), (int)(imm), (__mmask32)(__U)))
 
 #define _mm512_fpclass_pbh_mask(__A, imm)                                      \
-  ((__mmask32)__builtin_ia32_vfpclasspbf16512_mask(                            \
+  ((__mmask32)__builtin_ia32_vfpclassbf16512_mask(                             \
       (__v32bf)(__m512bh)(__A), (int)(imm), (__mmask32) - 1))
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_scalef_pbh(__m512bh __A, __m512bh __B) {
-  return (__m512bh)__builtin_ia32_vscalefpbf16512_mask(
+  return (__m512bh)__builtin_ia32_vscalefbf16512_mask(
       (__v32bf)__A, (__v32bf)__B, (__v32bf)_mm512_undefined_pbh(),
       (__mmask32)-1);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask_scalef_pbh(
     __m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
-  return (__m512bh)__builtin_ia32_vscalefpbf16512_mask(
+  return (__m512bh)__builtin_ia32_vscalefbf16512_mask(
       (__v32bf)__A, (__v32bf)__B, (__v32bf)__W, (__mmask32)__U);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_maskz_scalef_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
-  return (__m512bh)__builtin_ia32_vscalefpbf16512_mask(
+  return (__m512bh)__builtin_ia32_vscalefbf16512_mask(
       (__v32bf)__A, (__v32bf)__B, (__v32bf)_mm512_setzero_pbh(),
       (__mmask32)__U);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_rcp_pbh(__m512bh __A) {
-  return (__m512bh)__builtin_ia32_vrcppbf16512_mask(
+  return (__m512bh)__builtin_ia32_vrcpbf16512_mask(
       (__v32bf)__A, (__v32bf)_mm512_undefined_pbh(), (__mmask32)-1);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_mask_rcp_pbh(__m512bh __W, __mmask32 __U, __m512bh __A) {
-  return (__m512bh)__builtin_ia32_vrcppbf16512_mask((__v32bf)__A, (__v32bf)__W,
-                                                    (__mmask32)__U);
+  return (__m512bh)__builtin_ia32_vrcpbf16512_mask((__v32bf)__A, (__v32bf)__W,
+                                                   (__mmask32)__U);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_maskz_rcp_pbh(__mmask32 __U, __m512bh __A) {
-  return (__m512bh)__builtin_ia32_vrcppbf16512_mask(
+  return (__m512bh)__builtin_ia32_vrcpbf16512_mask(
       (__v32bf)__A, (__v32bf)_mm512_setzero_pbh(), (__mmask32)__U);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_getexp_pbh(__m512bh __A) {
-  return (__m512bh)__builtin_ia32_vgetexppbf16512_mask(
+  return (__m512bh)__builtin_ia32_vgetexpbf16512_mask(
       (__v32bf)__A, (__v32bf)_mm512_undefined_pbh(), (__mmask32)-1);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_mask_getexp_pbh(__m512bh __W, __mmask32 __U, __m512bh __A) {
-  return (__m512bh)__builtin_ia32_vgetexppbf16512_mask(
+  return (__m512bh)__builtin_ia32_vgetexpbf16512_mask(
       (__v32bf)__A, (__v32bf)__W, (__mmask32)__U);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_maskz_getexp_pbh(__mmask32 __U, __m512bh __A) {
-  return (__m512bh)__builtin_ia32_vgetexppbf16512_mask(
+  return (__m512bh)__builtin_ia32_vgetexpbf16512_mask(
       (__v32bf)__A, (__v32bf)_mm512_setzero_pbh(), (__mmask32)__U);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_rsqrt_pbh(__m512bh __A) {
-  return (__m512bh)__builtin_ia32_vrsqrtpbf16512_mask(
+  return (__m512bh)__builtin_ia32_vrsqrtbf16512_mask(
       (__v32bf)__A, (__v32bf)_mm512_undefined_pbh(), (__mmask32)-1);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_mask_rsqrt_pbh(__m512bh __W, __mmask32 __U, __m512bh __A) {
-  return (__m512bh)__builtin_ia32_vrsqrtpbf16512_mask(
-      (__v32bf)__A, (__v32bf)__W, (__mmask32)__U);
+  return (__m512bh)__builtin_ia32_vrsqrtbf16512_mask((__v32bf)__A, (__v32bf)__W,
+                                                     (__mmask32)__U);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
 _mm512_maskz_rsqrt_pbh(__mmask32 __U, __m512bh __A) {
-  return (__m512bh)__builtin_ia32_vrsqrtpbf16512_mask(
+  return (__m512bh)__builtin_ia32_vrsqrtbf16512_mask(
       (__v32bf)__A, (__v32bf)_mm512_setzero_pbh(), (__mmask32)__U);
 }
 
-#define _mm512_reducene_pbh(__A, imm)                                          \
-  ((__m512bh)__builtin_ia32_vreducenepbf16512_mask(                            \
+#define _mm512_reduce_pbh(__A, imm)                                            \
+  ((__m512bh)__builtin_ia32_vreducebf16512_mask(                               \
       (__v32bf)(__m512bh)(__A), (int)(imm), (__v32bf)_mm512_undefined_pbh(),   \
       (__mmask32) - 1))
 
-#define _mm512_mask_reducene_pbh(__W, __U, __A, imm)                           \
-  ((__m512bh)__builtin_ia32_vreducenepbf16512_mask(                            \
+#define _mm512_mask_reduce_pbh(__W, __U, __A, imm)                             \
+  ((__m512bh)__builtin_ia32_vreducebf16512_mask(                               \
       (__v32bf)(__m512bh)(__A), (int)(imm), (__v32bf)(__m512bh)(__W),          \
       (__mmask32)(__U)))
 
-#define _mm512_maskz_reducene_pbh(__U, __A, imm)                               \
-  ((__m512bh)__builtin_ia32_vreducenepbf16512_mask(                            \
+#define _mm512_maskz_reduce_pbh(__U, __A, imm)                                 \
+  ((__m512bh)__builtin_ia32_vreducebf16512_mask(                               \
       (__v32bf)(__m512bh)(__A), (int)(imm), (__v32bf)_mm512_setzero_pbh(),     \
       (__mmask32)(__U)))
 
-#define _mm512_roundscalene_pbh(__A, imm)                                      \
-  ((__m512bh)__builtin_ia32_vrndscalenepbf16_mask(                             \
+#define _mm512_roundscale_pbh(__A, imm)                                        \
+  ((__m512bh)__builtin_ia32_vrndscalebf16_mask(                                \
       (__v32bf)(__m512bh)(__A), (int)(imm), (__v32bf)_mm512_setzero_pbh(),     \
       (__mmask32) - 1))
 
-#define _mm512_mask_roundscalene_pbh(__W, __U, __A, imm)                       \
-  ((__m512bh)__builtin_ia32_vrndscalenepbf16_mask(                             \
+#define _mm512_mask_roundscale_pbh(__W, __U, __A, imm)                         \
+  ((__m512bh)__builtin_ia32_vrndscalebf16_mask(                                \
       (__v32bf)(__m512bh)(__A), (int)(imm), (__v32bf)(__m512bh)(__W),          \
       (__mmask32)(__U)))
 
-#define _mm512_maskz_roundscalene_pbh(__U, __A, imm)                           \
-  ((__m512bh)__builtin_ia32_vrndscalenepbf16_mask(                             \
+#define _mm512_maskz_roundscale_pbh(__U, __A, imm)                             \
+  ((__m512bh)__builtin_ia32_vrndscalebf16_mask(                                \
       (__v32bf)(__m512bh)(__A), (int)(imm), (__v32bf)_mm512_setzero_pbh(),     \
       (__mmask32)(__U)))
 
 #define _mm512_getmant_pbh(__A, __B, __C)                                      \
-  ((__m512bh)__builtin_ia32_vgetmantpbf16512_mask(                             \
+  ((__m512bh)__builtin_ia32_vgetmantbf16512_mask(                              \
       (__v32bf)(__m512bh)(__A), (int)(((__C) << 2) | (__B)),                   \
       (__v32bf)_mm512_undefined_pbh(), (__mmask32) - 1))
 
 #define _mm512_mask_getmant_pbh(__W, __U, __A, __B, __C)                       \
-  ((__m512bh)__builtin_ia32_vgetmantpbf16512_mask(                             \
+  ((__m512bh)__builtin_ia32_vgetmantbf16512_mask(                              \
       (__v32bf)(__m512bh)(__A), (int)(((__C) << 2) | (__B)),                   \
       (__v32bf)(__m512bh)(__W), (__mmask32)(__U)))
 
 #define _mm512_maskz_getmant_pbh(__U, __A, __B, __C)                           \
-  ((__m512bh)__builtin_ia32_vgetmantpbf16512_mask(                             \
+  ((__m512bh)__builtin_ia32_vgetmantbf16512_mask(                              \
       (__v32bf)(__m512bh)(__A), (int)(((__C) << 2) | (__B)),                   \
       (__v32bf)_mm512_setzero_pbh(), (__mmask32)(__U)))
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_sqrt_pbh(__m512bh __A) {
-  return (__m512bh)__builtin_ia32_vsqrtnepbf16512((__v32bf)__A);
+  return (__m512bh)__builtin_ia32_vsqrtbf16512((__v32bf)__A);
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
@@ -440,122 +440,118 @@ _mm512_maskz_sqrt_pbh(__mmask32 __U, __m512bh __A) {
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_fmaddne_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
+_mm512_fmadd_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_vfmaddnepbh512((__v32bf)__A, (__v32bf)__B,
                                                  (__v32bf)__C);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask_fmaddne_pbh(
-    __m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512
+_mm512_mask_fmadd_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fmaddne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
-      (__v32bf)__A);
+      _mm512_fmadd_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C), (__v32bf)__A);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask3_fmaddne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask3_fmadd_pbh(
     __m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fmaddne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
-      (__v32bf)__C);
+      _mm512_fmadd_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C), (__v32bf)__C);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_maskz_fmaddne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_maskz_fmadd_pbh(
     __mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fmaddne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
+      _mm512_fmadd_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
       (__v32bf)_mm512_setzero_pbh());
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_fmsubne_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
+_mm512_fmsub_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_vfmaddnepbh512((__v32bf)__A, (__v32bf)__B,
                                                  -(__v32bf)__C);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask_fmsubne_pbh(
-    __m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512
+_mm512_mask_fmsub_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fmsubne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
-      (__v32bf)__A);
+      _mm512_fmsub_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C), (__v32bf)__A);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask3_fmsubne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask3_fmsub_pbh(
     __m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fmsubne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
-      (__v32bf)__C);
+      _mm512_fmsub_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C), (__v32bf)__C);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_maskz_fmsubne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_maskz_fmsub_pbh(
     __mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fmsubne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
+      _mm512_fmsub_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
       (__v32bf)_mm512_setzero_pbh());
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_fnmaddne_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
+_mm512_fnmadd_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_vfmaddnepbh512((__v32bf)__A, -(__v32bf)__B,
                                                  (__v32bf)__C);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask_fnmaddne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask_fnmadd_pbh(
     __m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fnmaddne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
+      _mm512_fnmadd_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
       (__v32bf)__A);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask3_fnmaddne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask3_fnmadd_pbh(
     __m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fnmaddne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
+      _mm512_fnmadd_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
       (__v32bf)__C);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_maskz_fnmaddne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_maskz_fnmadd_pbh(
     __mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fnmaddne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
+      _mm512_fnmadd_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
       (__v32bf)_mm512_setzero_pbh());
 }
 
 static __inline__ __m512bh __DEFAULT_FN_ATTRS512
-_mm512_fnmsubne_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
+_mm512_fnmsub_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_vfmaddnepbh512((__v32bf)__A, -(__v32bf)__B,
                                                  -(__v32bf)__C);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask_fnmsubne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask_fnmsub_pbh(
     __m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fnmsubne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
+      _mm512_fnmsub_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
       (__v32bf)__A);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask3_fnmsubne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_mask3_fnmsub_pbh(
     __m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fnmsubne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
+      _mm512_fnmsub_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
       (__v32bf)__C);
 }
 
-static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_maskz_fnmsubne_pbh(
+static __inline__ __m512bh __DEFAULT_FN_ATTRS512 _mm512_maskz_fnmsub_pbh(
     __mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
   return (__m512bh)__builtin_ia32_selectpbf_512(
       (__mmask32)__U,
-      _mm512_fnmsubne_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
+      _mm512_fnmsub_pbh((__v32bf)__A, (__v32bf)__B, (__v32bf)__C),
       (__v32bf)_mm512_setzero_pbh());
 }
 
diff --git a/clang/lib/Headers/avx10_2_512convertintrin.h b/clang/lib/Headers/avx10_2_512convertintrin.h
index 60a5b1ef4548d..0b5fca5cda522 100644
--- a/clang/lib/Headers/avx10_2_512convertintrin.h
+++ b/clang/lib/Headers/avx10_2_512convertintrin.h
@@ -58,263 +58,258 @@ _mm512_maskz_cvtx2ps_ph(__mmask32 __U, __m512 __A, __m512 __B) {
       (__mmask32)(U), (const int)(R)))
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_cvtbiasph_pbf8(__m512i __A, __m512h __B) {
+_mm512_cvtbiasph_bf8(__m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2bf8_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)_mm256_undefined_si256(),
       (__mmask32)-1);
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtbiasph_pbf8(
+static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtbiasph_bf8(
     __m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2bf8_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)(__m256i)__W, (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtbiasph_pbf8(__mmask32 __U, __m512i __A, __m512h __B) {
+_mm512_maskz_cvtbiasph_bf8(__mmask32 __U, __m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2bf8_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)(__m256i)_mm256_setzero_si256(),
       (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_cvtbiassph_pbf8(__m512i __A, __m512h __B) {
+_mm512_cvtbiassph_bf8(__m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2bf8s_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)_mm256_undefined_si256(),
       (__mmask32)-1);
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtbiassph_pbf8(
+static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtbiassph_bf8(
     __m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2bf8s_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)(__m256i)__W, (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtbiassph_pbf8(__mmask32 __U, __m512i __A, __m512h __B) {
+_mm512_maskz_cvtbiassph_bf8(__mmask32 __U, __m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2bf8s_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)(__m256i)_mm256_setzero_si256(),
       (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_cvtbiasph_phf8(__m512i __A, __m512h __B) {
+_mm512_cvtbiasph_hf8(__m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2hf8_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)_mm256_undefined_si256(),
       (__mmask32)-1);
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtbiasph_phf8(
+static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtbiasph_hf8(
     __m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2hf8_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)(__m256i)__W, (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtbiasph_phf8(__mmask32 __U, __m512i __A, __m512h __B) {
+_mm512_maskz_cvtbiasph_hf8(__mmask32 __U, __m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2hf8_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)(__m256i)_mm256_setzero_si256(),
       (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_cvtbiassph_phf8(__m512i __A, __m512h __B) {
+_mm512_cvtbiassph_hf8(__m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2hf8s_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)_mm256_undefined_si256(),
       (__mmask32)-1);
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtbiassph_phf8(
+static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtbiassph_hf8(
     __m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2hf8s_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)(__m256i)__W, (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtbiassph_phf8(__mmask32 __U, __m512i __A, __m512h __B) {
+_mm512_maskz_cvtbiassph_hf8(__mmask32 __U, __m512i __A, __m512h __B) {
   return (__m256i)__builtin_ia32_vcvtbiasph2hf8s_512_mask(
       (__v64qi)__A, (__v32hf)__B, (__v32qi)(__m256i)_mm256_setzero_si256(),
       (__mmask32)__U);
 }
 
-static __inline__ __m512i __DEFAULT_FN_ATTRS512
-_mm512_cvtne2ph_pbf8(__m512h __A, __m512h __B) {
-  return (__m512i)__builtin_ia32_vcvtne2ph2bf8_512((__v32hf)(__A),
-                                                   (__v32hf)(__B));
+static __inline__ __m512i __DEFAULT_FN_ATTRS512 _mm512_cvt2ph_bf8(__m512h __A,
+                                                                  __m512h __B) {
+  return (__m512i)__builtin_ia32_vcvt2ph2bf8_512((__v32hf)(__A),
+                                                 (__v32hf)(__B));
 }
 
-static __inline__ __m512i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtne2ph_pbf8(
-    __m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
+static __inline__ __m512i __DEFAULT_FN_ATTRS512
+_mm512_mask_cvt2ph_bf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
   return (__m512i)__builtin_ia32_selectb_512(
-      (__mmask64)__U, (__v64qi)_mm512_cvtne2ph_pbf8(__A, __B), (__v64qi)__W);
+      (__mmask64)__U, (__v64qi)_mm512_cvt2ph_bf8(__A, __B), (__v64qi)__W);
 }
 
 static __inline__ __m512i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtne2ph_pbf8(__mmask64 __U, __m512h __A, __m512h __B) {
+_mm512_maskz_cvt2ph_bf8(__mmask64 __U, __m512h __A, __m512h __B) {
   return (__m512i)__builtin_ia32_selectb_512(
-      (__mmask64)__U, (__v64qi)_mm512_cvtne2ph_pbf8(__A, __B),
+      (__mmask64)__U, (__v64qi)_mm512_cvt2ph_bf8(__A, __B),
       (__v64qi)(__m512i)_mm512_setzero_si512());
 }
 
 static __inline__ __m512i __DEFAULT_FN_ATTRS512
-_mm512_cvtnes2ph_pbf8(__m512h __A, __m512h __B) {
-  return (__m512i)__builtin_ia32_vcvtne2ph2bf8s_512((__v32hf)(__A),
-                                                    (__v32hf)(__B));
+_mm512_cvts2ph_bf8(__m512h __A, __m512h __B) {
+  return (__m512i)__builtin_ia32_vcvt2ph2bf8s_512((__v32hf)(__A),
+                                                  (__v32hf)(__B));
 }
 
-static __inline__ __m512i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtnes2ph_pbf8(
-    __m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
+static __inline__ __m512i __DEFAULT_FN_ATTRS512
+_mm512_mask_cvts2ph_bf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
   return (__m512i)__builtin_ia32_selectb_512(
-      (__mmask64)__U, (__v64qi)_mm512_cvtnes2ph_pbf8(__A, __B), (__v64qi)__W);
+      (__mmask64)__U, (__v64qi)_mm512_cvts2ph_bf8(__A, __B), (__v64qi)__W);
 }
 
 static __inline__ __m512i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtnes2ph_pbf8(__mmask64 __U, __m512h __A, __m512h __B) {
+_mm512_maskz_cvts2ph_bf8(__mmask64 __U, __m512h __A, __m512h __B) {
   return (__m512i)__builtin_ia32_selectb_512(
-      (__mmask64)__U, (__v64qi)_mm512_cvtnes2ph_pbf8(__A, __B),
+      (__mmask64)__U, (__v64qi)_mm512_cvts2ph_bf8(__A, __B),
       (__v64qi)(__m512i)_mm512_setzero_si512());
 }
 
-static __inline__ __m512i __DEFAULT_FN_ATTRS512
-_mm512_cvtne2ph_phf8(__m512h __A, __m512h __B) {
-  return (__m512i)__builtin_ia32_vcvtne2ph2hf8_512((__v32hf)(__A),
-                                                   (__v32hf)(__B));
+static __inline__ __m512i __DEFAULT_FN_ATTRS512 _mm512_cvt2ph_hf8(__m512h __A,
+                                                                  __m512h __B) {
+  return (__m512i)__builtin_ia32_vcvt2ph2hf8_512((__v32hf)(__A),
+                                                 (__v32hf)(__B));
 }
 
-static __inline__ __m512i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtne2ph_phf8(
-    __m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
+static __inline__ __m512i __DEFAULT_FN_ATTRS512
+_mm512_mask_cvt2ph_hf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
   return (__m512i)__builtin_ia32_selectb_512(
-      (__mmask64)__U, (__v64qi)_mm512_cvtne2ph_phf8(__A, __B), (__v64qi)__W);
+      (__mmask64)__U, (__v64qi)_mm512_cvt2ph_hf8(__A, __B), (__v64qi)__W);
 }
 
 static __inline__ __m512i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtne2ph_phf8(__mmask64 __U, __m512h __A, __m512h __B) {
+_mm512_maskz_cvt2ph_hf8(__mmask64 __U, __m512h __A, __m512h __B) {
   return (__m512i)__builtin_ia32_selectb_512(
-      (__mmask64)__U, (__v64qi)_mm512_cvtne2ph_phf8(__A, __B),
+      (__mmask64)__U, (__v64qi)_mm512_cvt2ph_hf8(__A, __B),
       (__v64qi)(__m512i)_mm512_setzero_si512());
 }
 
 static __inline__ __m512i __DEFAULT_FN_ATTRS512
-_mm512_cvtnes2ph_phf8(__m512h __A, __m512h __B) {
-  return (__m512i)__builtin_ia32_vcvtne2ph2hf8s_512((__v32hf)(__A),
-                                                    (__v32hf)(__B));
+_mm512_cvts2ph_hf8(__m512h __A, __m512h __B) {
+  return (__m512i)__builtin_ia32_vcvt2ph2hf8s_512((__v32hf)(__A),
+                                                  (__v32hf)(__B));
 }
 
-static __inline__ __m512i __DEFAULT_FN_ATTRS512 _mm512_mask_cvtnes2ph_phf8(
-    __m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
+static __inline__ __m512i __DEFAULT_FN_ATTRS512
+_mm512_mask_cvts2ph_hf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
   return (__m512i)__builtin_ia32_selectb_512(
-      (__mmask64)__U, (__v64qi)_mm512_cvtnes2ph_phf8(__A, __B), (__v64qi)__W);
+      (__mmask64)__U, (__v64qi)_mm512_cvts2ph_hf8(__A, __B), (__v64qi)__W);
 }
 
 static __inline__ __m512i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtnes2ph_phf8(__mmask64 __U, __m512h __A, __m512h __B) {
+_mm512_maskz_cvts2ph_hf8(__mmask64 __U, __m512h __A, __m512h __B) {
   return (__m512i)__builtin_ia32_selectb_512(
-      (__mmask64)__U, (__v64qi)_mm512_cvtnes2ph_phf8(__A, __B),
+      (__mmask64)__U, (__v64qi)_mm512_cvts2ph_hf8(__A, __B),
       (__v64qi)(__m512i)_mm512_setzero_si512());
 }
 
-static __inline__ __m512h __DEFAULT_FN_ATTRS512
-_mm512_cvtnehf8_ph(__m256i __A) {
+static __inline__ __m512h __DEFAULT_FN_ATTRS512 _mm512_cvthf8(__m256i __A) {
   return (__m512h)__builtin_ia32_vcvthf8_2ph512_mask(
       (__v32qi)__A, (__v32hf)(__m512h)_mm512_undefined_ph(), (__mmask32)-1);
 }
 
 static __inline__ __m512h __DEFAULT_FN_ATTRS512
-_mm512_mask_cvtnehf8_ph(__m512h __W, __mmask32 __U, __m256i __A) {
+_mm512_mask_cvthf8(__m512h __W, __mmask32 __U, __m256i __A) {
   return (__m512h)__builtin_ia32_vcvthf8_2ph512_mask(
       (__v32qi)__A, (__v32hf)(__m512h)__W, (__mmask32)__U);
 }
 
 static __inline__ __m512h __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtnehf8_ph(__mmask32 __U, __m256i __A) {
+_mm512_maskz_cvthf8(__mmask32 __U, __m256i __A) {
   return (__m512h)__builtin_ia32_vcvthf8_2ph512_mask(
       (__v32qi)__A, (__v32hf)(__m512h)_mm512_setzero_ph(), (__mmask32)__U);
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_cvtneph_pbf8(__m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2bf8_512_mask(
+static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_cvtph_bf8(__m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2bf8_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)_mm256_undefined_si256(), (__mmask32)-1);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_mask_cvtneph_pbf8(__m256i __W, __mmask32 __U, __m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2bf8_512_mask(
+_mm512_mask_cvtph_bf8(__m256i __W, __mmask32 __U, __m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2bf8_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)__W, (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtneph_pbf8(__mmask32 __U, __m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2bf8_512_mask(
+_mm512_maskz_cvtph_bf8(__mmask32 __U, __m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2bf8_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)_mm256_setzero_si256(), (__mmask32)__U);
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_cvtnesph_pbf8(__m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2bf8s_512_mask(
+static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_cvtsph_bf8(__m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2bf8s_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)_mm256_undefined_si256(), (__mmask32)-1);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_mask_cvtnesph_pbf8(__m256i __W, __mmask32 __U, __m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2bf8s_512_mask(
+_mm512_mask_cvtsph_bf8(__m256i __W, __mmask32 __U, __m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2bf8s_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)__W, (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtnesph_pbf8(__mmask32 __U, __m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2bf8s_512_mask(
+_mm512_maskz_cvtsph_bf8(__mmask32 __U, __m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2bf8s_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)_mm256_setzero_si256(), (__mmask32)__U);
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_cvtneph_phf8(__m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2hf8_512_mask(
+static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_cvtph_hf8(__m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2hf8_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)_mm256_undefined_si256(), (__mmask32)-1);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_mask_cvtneph_phf8(__m256i __W, __mmask32 __U, __m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2hf8_512_mask(
+_mm512_mask_cvtph_hf8(__m256i __W, __mmask32 __U, __m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2hf8_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)__W, (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtneph_phf8(__mmask32 __U, __m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2hf8_512_mask(
+_mm512_maskz_cvtph_hf8(__mmask32 __U, __m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2hf8_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)_mm256_setzero_si256(), (__mmask32)__U);
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_cvtnesph_phf8(__m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2hf8s_512_mask(
+static __inline__ __m256i __DEFAULT_FN_ATTRS512 _mm512_cvtsph_hf8(__m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2hf8s_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)_mm256_undefined_si256(), (__mmask32)-1);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_mask_cvtnesph_phf8(__m256i __W, __mmask32 __U, __m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2hf8s_512_mask(
+_mm512_mask_cvtsph_hf8(__m256i __W, __mmask32 __U, __m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2hf8s_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)__W, (__mmask32)__U);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtnesph_phf8(__mmask32 __U, __m512h __A) {
-  return (__m256i)__builtin_ia32_vcvtneph2hf8s_512_mask(
+_mm512_maskz_cvtsph_hf8(__mmask32 __U, __m512h __A) {
+  return (__m256i)__builtin_ia32_vcvtph2hf8s_512_mask(
       (__v32hf)__A, (__v32qi)(__m256i)_mm256_setzero_si256(), (__mmask32)__U);
 }
 
-static __inline __m512h __DEFAULT_FN_ATTRS512 _mm512_cvtpbf8_ph(__m256i __A) {
+static __inline __m512h __DEFAULT_FN_ATTRS512 _mm512_cvtbf8_ph(__m256i __A) {
   return _mm512_castsi512_ph(_mm512_slli_epi16(_mm512_cvtepi8_epi16(__A), 8));
 }
 
 static __inline __m512h __DEFAULT_FN_ATTRS512
-_mm512_mask_cvtpbf8_ph(__m512h __S, __mmask32 __U, __m256i __A) {
+_mm512_mask_cvtbf8_ph(__m512h __S, __mmask32 __U, __m256i __A) {
   return _mm512_castsi512_ph(
       _mm512_mask_slli_epi16((__m512i)__S, __U, _mm512_cvtepi8_epi16(__A), 8));
 }
 
 static __inline __m512h __DEFAULT_FN_ATTRS512
-_mm512_maskz_cvtpbf8_ph(__mmask32 __U, __m256i __A) {
+_mm512_maskz_cvtbf8_ph(__mmask32 __U, __m256i __A) {
   return _mm512_castsi512_ph(
       _mm512_slli_epi16(_mm512_maskz_cvtepi8_epi16(__U, __A), 8));
 }
diff --git a/clang/lib/Headers/avx10_2bf16intrin.h b/clang/lib/Headers/avx10_2bf16intrin.h
index 0a427b9b7418b..199cc13ff7a1c 100644
--- a/clang/lib/Headers/avx10_2bf16intrin.h
+++ b/clang/lib/Headers/avx10_2bf16intrin.h
@@ -35,31 +35,31 @@ static __inline __m128bh __DEFAULT_FN_ATTRS128 _mm_setzero_pbh(void) {
   return __builtin_bit_cast(__m128bh, _mm_setzero_ps());
 }
 
-static __inline__ __m128 __DEFAULT_FN_ATTRS128 _mm_castpbf16_ps(__m128bh __a) {
+static __inline__ __m128 __DEFAULT_FN_ATTRS128 _mm_castbf16_ps(__m128bh __a) {
   return (__m128)__a;
 }
 
 static __inline__ __m256 __DEFAULT_FN_ATTRS256
-_mm256_castpbf16_ps(__m256bh __a) {
+_mm256_castbf16_ps(__m256bh __a) {
   return (__m256)__a;
 }
 
 static __inline__ __m256d __DEFAULT_FN_ATTRS256
-_mm256_castpbf16_pd(__m256bh __a) {
+_mm256_castbf16_pd(__m256bh __a) {
   return (__m256d)__a;
 }
 
-static __inline__ __m128d __DEFAULT_FN_ATTRS128 _mm_castpbf16_pd(__m128bh __a) {
+static __inline__ __m128d __DEFAULT_FN_ATTRS128 _mm_castbf16_pd(__m128bh __a) {
   return (__m128d)__a;
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_castpbf16_si128(__m128bh __a) {
+_mm_castbf16_si128(__m128bh __a) {
   return (__m128i)__a;
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS256
-_mm256_castpbf16_si256(__m256bh __a) {
+_mm256_castbf16_si256(__m256bh __a) {
   return (__m256i)__a;
 }
 
@@ -100,18 +100,18 @@ _mm256_castsi256_pbh(__m256i __a) {
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS256
-_mm256_castpbf16256_pbh128(__m256bh __a) {
+_mm256_castbf16256_pbh128(__m256bh __a) {
   return __builtin_shufflevector(__a, __a, 0, 1, 2, 3, 4, 5, 6, 7);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_castpbf16128_pbh256(__m128bh __a) {
+_mm256_castbf16128_pbh256(__m128bh __a) {
   return __builtin_shufflevector(__a, __a, 0, 1, 2, 3, 4, 5, 6, 7, -1, -1, -1,
                                  -1, -1, -1, -1, -1);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_zextpbf16128_pbh256(__m128bh __a) {
+_mm256_zextbf16128_pbh256(__m128bh __a) {
   return __builtin_shufflevector(__a, (__v8bf)_mm_setzero_pbh(), 0, 1, 2, 3, 4,
                                  5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15);
 }
@@ -309,153 +309,149 @@ _mm256_permutexvar_pbh(__m256i __A, __m256bh __B) {
   return (__m256bh)__builtin_ia32_permvarhi256((__v16hi)__B, (__v16hi)__A);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_addne_pbh(__m256bh __A, __m256bh __B) {
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_add_pbh(__m256bh __A,
+                                                                __m256bh __B) {
   return (__m256bh)((__v16bf)__A + (__v16bf)__B);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_mask_addne_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
+_mm256_mask_add_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
-      (__mmask16)__U, (__v16bf)_mm256_addne_pbh(__A, __B), (__v16bf)__W);
+      (__mmask16)__U, (__v16bf)_mm256_add_pbh(__A, __B), (__v16bf)__W);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_maskz_addne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
+_mm256_maskz_add_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
-      (__mmask16)__U, (__v16bf)_mm256_addne_pbh(__A, __B),
+      (__mmask16)__U, (__v16bf)_mm256_add_pbh(__A, __B),
       (__v16bf)_mm256_setzero_pbh());
 }
 
-static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_addne_pbh(__m128bh __A,
-                                                               __m128bh __B) {
+static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_add_pbh(__m128bh __A,
+                                                             __m128bh __B) {
   return (__m128bh)((__v8bf)__A + (__v8bf)__B);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask_addne_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
+_mm_mask_add_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, (__v8bf)_mm_addne_pbh(__A, __B), (__v8bf)__W);
+      (__mmask8)__U, (__v8bf)_mm_add_pbh(__A, __B), (__v8bf)__W);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_maskz_addne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
-  return (__m128bh)__builtin_ia32_selectpbf_128((__mmask8)__U,
-                                                (__v8bf)_mm_addne_pbh(__A, __B),
-                                                (__v8bf)_mm_setzero_pbh());
+_mm_maskz_add_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
+  return (__m128bh)__builtin_ia32_selectpbf_128(
+      (__mmask8)__U, (__v8bf)_mm_add_pbh(__A, __B), (__v8bf)_mm_setzero_pbh());
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_subne_pbh(__m256bh __A, __m256bh __B) {
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_sub_pbh(__m256bh __A,
+                                                                __m256bh __B) {
   return (__m256bh)((__v16bf)__A - (__v16bf)__B);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_mask_subne_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
+_mm256_mask_sub_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
-      (__mmask16)__U, (__v16bf)_mm256_subne_pbh(__A, __B), (__v16bf)__W);
+      (__mmask16)__U, (__v16bf)_mm256_sub_pbh(__A, __B), (__v16bf)__W);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_maskz_subne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
+_mm256_maskz_sub_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
-      (__mmask16)__U, (__v16bf)_mm256_subne_pbh(__A, __B),
+      (__mmask16)__U, (__v16bf)_mm256_sub_pbh(__A, __B),
       (__v16bf)_mm256_setzero_pbh());
 }
 
-static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_subne_pbh(__m128bh __A,
-                                                               __m128bh __B) {
+static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_sub_pbh(__m128bh __A,
+                                                             __m128bh __B) {
   return (__m128bh)((__v8bf)__A - (__v8bf)__B);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask_subne_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
+_mm_mask_sub_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, (__v8bf)_mm_subne_pbh(__A, __B), (__v8bf)__W);
+      (__mmask8)__U, (__v8bf)_mm_sub_pbh(__A, __B), (__v8bf)__W);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_maskz_subne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
-  return (__m128bh)__builtin_ia32_selectpbf_128((__mmask8)__U,
-                                                (__v8bf)_mm_subne_pbh(__A, __B),
-                                                (__v8bf)_mm_setzero_pbh());
+_mm_maskz_sub_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
+  return (__m128bh)__builtin_ia32_selectpbf_128(
+      (__mmask8)__U, (__v8bf)_mm_sub_pbh(__A, __B), (__v8bf)_mm_setzero_pbh());
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_mulne_pbh(__m256bh __A, __m256bh __B) {
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mul_pbh(__m256bh __A,
+                                                                __m256bh __B) {
   return (__m256bh)((__v16bf)__A * (__v16bf)__B);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_mask_mulne_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
+_mm256_mask_mul_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
-      (__mmask16)__U, (__v16bf)_mm256_mulne_pbh(__A, __B), (__v16bf)__W);
+      (__mmask16)__U, (__v16bf)_mm256_mul_pbh(__A, __B), (__v16bf)__W);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_maskz_mulne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
+_mm256_maskz_mul_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
-      (__mmask16)__U, (__v16bf)_mm256_mulne_pbh(__A, __B),
+      (__mmask16)__U, (__v16bf)_mm256_mul_pbh(__A, __B),
       (__v16bf)_mm256_setzero_pbh());
 }
 
-static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_mulne_pbh(__m128bh __A,
-                                                               __m128bh __B) {
+static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_mul_pbh(__m128bh __A,
+                                                             __m128bh __B) {
   return (__m128bh)((__v8bf)__A * (__v8bf)__B);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask_mulne_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
+_mm_mask_mul_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, (__v8bf)_mm_mulne_pbh(__A, __B), (__v8bf)__W);
+      (__mmask8)__U, (__v8bf)_mm_mul_pbh(__A, __B), (__v8bf)__W);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_maskz_mulne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
-  return (__m128bh)__builtin_ia32_selectpbf_128((__mmask8)__U,
-                                                (__v8bf)_mm_mulne_pbh(__A, __B),
-                                                (__v8bf)_mm_setzero_pbh());
+_mm_maskz_mul_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
+  return (__m128bh)__builtin_ia32_selectpbf_128(
+      (__mmask8)__U, (__v8bf)_mm_mul_pbh(__A, __B), (__v8bf)_mm_setzero_pbh());
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_divne_pbh(__m256bh __A, __m256bh __B) {
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_div_pbh(__m256bh __A,
+                                                                __m256bh __B) {
   return (__m256bh)((__v16bf)__A / (__v16bf)__B);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_mask_divne_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
+_mm256_mask_div_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
-      (__mmask16)__U, (__v16bf)_mm256_divne_pbh(__A, __B), (__v16bf)__W);
+      (__mmask16)__U, (__v16bf)_mm256_div_pbh(__A, __B), (__v16bf)__W);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_maskz_divne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
+_mm256_maskz_div_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
-      (__mmask16)__U, (__v16bf)_mm256_divne_pbh(__A, __B),
+      (__mmask16)__U, (__v16bf)_mm256_div_pbh(__A, __B),
       (__v16bf)_mm256_setzero_pbh());
 }
 
-static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_divne_pbh(__m128bh __A,
-                                                               __m128bh __B) {
+static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_div_pbh(__m128bh __A,
+                                                             __m128bh __B) {
   return (__m128bh)((__v8bf)__A / (__v8bf)__B);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask_divne_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
+_mm_mask_div_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, (__v8bf)_mm_divne_pbh(__A, __B), (__v8bf)__W);
+      (__mmask8)__U, (__v8bf)_mm_div_pbh(__A, __B), (__v8bf)__W);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_maskz_divne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
-  return (__m128bh)__builtin_ia32_selectpbf_128((__mmask8)__U,
-                                                (__v8bf)_mm_divne_pbh(__A, __B),
-                                                (__v8bf)_mm_setzero_pbh());
+_mm_maskz_div_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
+  return (__m128bh)__builtin_ia32_selectpbf_128(
+      (__mmask8)__U, (__v8bf)_mm_div_pbh(__A, __B), (__v8bf)_mm_setzero_pbh());
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_max_pbh(__m256bh __A,
                                                                 __m256bh __B) {
-  return (__m256bh)__builtin_ia32_vmaxpbf16256((__v16bf)__A, (__v16bf)__B);
+  return (__m256bh)__builtin_ia32_vmaxbf16256((__v16bf)__A, (__v16bf)__B);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
@@ -473,7 +469,7 @@ _mm256_maskz_max_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_max_pbh(__m128bh __A,
                                                              __m128bh __B) {
-  return (__m128bh)__builtin_ia32_vmaxpbf16128((__v8bf)__A, (__v8bf)__B);
+  return (__m128bh)__builtin_ia32_vmaxbf16128((__v8bf)__A, (__v8bf)__B);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
@@ -490,7 +486,7 @@ _mm_maskz_max_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_min_pbh(__m256bh __A,
                                                                 __m256bh __B) {
-  return (__m256bh)__builtin_ia32_vminpbf16256((__v16bf)__A, (__v16bf)__B);
+  return (__m256bh)__builtin_ia32_vminbf16256((__v16bf)__A, (__v16bf)__B);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
@@ -508,7 +504,7 @@ _mm256_maskz_min_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_min_pbh(__m128bh __A,
                                                              __m128bh __B) {
-  return (__m128bh)__builtin_ia32_vminpbf16128((__v8bf)__A, (__v8bf)__B);
+  return (__m128bh)__builtin_ia32_vminbf16128((__v8bf)__A, (__v8bf)__B);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
@@ -523,306 +519,306 @@ _mm_maskz_min_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
       (__mmask8)__U, (__v8bf)_mm_min_pbh(__A, __B), (__v8bf)_mm_setzero_pbh());
 }
 
-static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comeqsbh(__m128bh A,
-                                                         __m128bh B) {
-  return __builtin_ia32_vcomsbf16eq((__v8bf)A, (__v8bf)B);
+static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comieq_sbh(__m128bh A,
+                                                           __m128bh B) {
+  return __builtin_ia32_vcomisbf16eq((__v8bf)A, (__v8bf)B);
 }
 
-static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comltsbh(__m128bh A,
-                                                         __m128bh B) {
-  return __builtin_ia32_vcomsbf16lt((__v8bf)A, (__v8bf)B);
+static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comilt_sbh(__m128bh A,
+                                                           __m128bh B) {
+  return __builtin_ia32_vcomisbf16lt((__v8bf)A, (__v8bf)B);
 }
 
-static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comlesbh(__m128bh A,
-                                                         __m128bh B) {
-  return __builtin_ia32_vcomsbf16le((__v8bf)A, (__v8bf)B);
+static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comile_sbh(__m128bh A,
+                                                           __m128bh B) {
+  return __builtin_ia32_vcomisbf16le((__v8bf)A, (__v8bf)B);
 }
 
-static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comgtsbh(__m128bh A,
-                                                         __m128bh B) {
-  return __builtin_ia32_vcomsbf16gt((__v8bf)A, (__v8bf)B);
+static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comigt_sbh(__m128bh A,
+                                                           __m128bh B) {
+  return __builtin_ia32_vcomisbf16gt((__v8bf)A, (__v8bf)B);
 }
 
-static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comgesbh(__m128bh A,
-                                                         __m128bh B) {
-  return __builtin_ia32_vcomsbf16ge((__v8bf)A, (__v8bf)B);
+static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comige_sbh(__m128bh A,
+                                                           __m128bh B) {
+  return __builtin_ia32_vcomisbf16ge((__v8bf)A, (__v8bf)B);
 }
 
-static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comneqsbh(__m128bh A,
-                                                          __m128bh B) {
-  return __builtin_ia32_vcomsbf16neq((__v8bf)A, (__v8bf)B);
+static __inline__ int __DEFAULT_FN_ATTRS128 _mm_comineq_sbh(__m128bh A,
+                                                            __m128bh B) {
+  return __builtin_ia32_vcomisbf16neq((__v8bf)A, (__v8bf)B);
 }
 
 #define _mm256_cmp_pbh_mask(__A, __B, __P)                                     \
-  ((__mmask16)__builtin_ia32_vcmppbf16256_mask((__v16bf)(__m256bh)(__A),       \
-                                               (__v16bf)(__m256bh)(__B),       \
-                                               (int)(__P), (__mmask16) - 1))
+  ((__mmask16)__builtin_ia32_vcmpbf16256_mask((__v16bf)(__m256bh)(__A),        \
+                                              (__v16bf)(__m256bh)(__B),        \
+                                              (int)(__P), (__mmask16) - 1))
 
 #define _mm256_mask_cmp_pbh_mask(__U, __A, __B, __P)                           \
-  ((__mmask16)__builtin_ia32_vcmppbf16256_mask((__v16bf)(__m256bh)(__A),       \
-                                               (__v16bf)(__m256bh)(__B),       \
-                                               (int)(__P), (__mmask16)(__U)))
+  ((__mmask16)__builtin_ia32_vcmpbf16256_mask((__v16bf)(__m256bh)(__A),        \
+                                              (__v16bf)(__m256bh)(__B),        \
+                                              (int)(__P), (__mmask16)(__U)))
 
 #define _mm_cmp_pbh_mask(__A, __B, __P)                                        \
-  ((__mmask8)__builtin_ia32_vcmppbf16128_mask((__v8bf)(__m128bh)(__A),         \
-                                              (__v8bf)(__m128bh)(__B),         \
-                                              (int)(__P), (__mmask8) - 1))
+  ((__mmask8)__builtin_ia32_vcmpbf16128_mask((__v8bf)(__m128bh)(__A),          \
+                                             (__v8bf)(__m128bh)(__B),          \
+                                             (int)(__P), (__mmask8) - 1))
 
 #define _mm_mask_cmp_pbh_mask(__U, __A, __B, __P)                              \
-  ((__mmask8)__builtin_ia32_vcmppbf16128_mask((__v8bf)(__m128bh)(__A),         \
-                                              (__v8bf)(__m128bh)(__B),         \
-                                              (int)(__P), (__mmask8)(__U)))
+  ((__mmask8)__builtin_ia32_vcmpbf16128_mask((__v8bf)(__m128bh)(__A),          \
+                                             (__v8bf)(__m128bh)(__B),          \
+                                             (int)(__P), (__mmask8)(__U)))
 
 #define _mm256_mask_fpclass_pbh_mask(__U, __A, imm)                            \
-  ((__mmask16)__builtin_ia32_vfpclasspbf16256_mask(                            \
+  ((__mmask16)__builtin_ia32_vfpclassbf16256_mask(                             \
       (__v16bf)(__m256bh)(__A), (int)(imm), (__mmask16)(__U)))
 
 #define _mm256_fpclass_pbh_mask(__A, imm)                                      \
-  ((__mmask16)__builtin_ia32_vfpclasspbf16256_mask(                            \
+  ((__mmask16)__builtin_ia32_vfpclassbf16256_mask(                             \
       (__v16bf)(__m256bh)(__A), (int)(imm), (__mmask16) - 1))
 
 #define _mm_mask_fpclass_pbh_mask(__U, __A, imm)                               \
-  ((__mmask8)__builtin_ia32_vfpclasspbf16128_mask(                             \
-      (__v8bf)(__m128bh)(__A), (int)(imm), (__mmask8)(__U)))
+  ((__mmask8)__builtin_ia32_vfpclassbf16128_mask((__v8bf)(__m128bh)(__A),      \
+                                                 (int)(imm), (__mmask8)(__U)))
 
 #define _mm_fpclass_pbh_mask(__A, imm)                                         \
-  ((__mmask8)__builtin_ia32_vfpclasspbf16128_mask((__v8bf)(__m128bh)(__A),     \
-                                                  (int)(imm), (__mmask8) - 1))
+  ((__mmask8)__builtin_ia32_vfpclassbf16128_mask((__v8bf)(__m128bh)(__A),      \
+                                                 (int)(imm), (__mmask8) - 1))
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_scalef_pbh(__m256bh __A, __m256bh __B) {
-  return (__m256bh)__builtin_ia32_vscalefpbf16256_mask(
+  return (__m256bh)__builtin_ia32_vscalefbf16256_mask(
       (__v16bf)__A, (__v16bf)__B, (__v16bf)_mm256_undefined_pbh(),
       (__mmask16)-1);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask_scalef_pbh(
     __m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
-  return (__m256bh)__builtin_ia32_vscalefpbf16256_mask(
+  return (__m256bh)__builtin_ia32_vscalefbf16256_mask(
       (__v16bf)__A, (__v16bf)__B, (__v16bf)__W, (__mmask16)__U);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_maskz_scalef_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
-  return (__m256bh)__builtin_ia32_vscalefpbf16256_mask(
+  return (__m256bh)__builtin_ia32_vscalefbf16256_mask(
       (__v16bf)__A, (__v16bf)__B, (__v16bf)_mm256_setzero_pbh(),
       (__mmask16)__U);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_scalef_pbh(__m128bh __A,
                                                                 __m128bh __B) {
-  return (__m128bh)__builtin_ia32_vscalefpbf16128_mask(
+  return (__m128bh)__builtin_ia32_vscalefbf16128_mask(
       (__v8bf)__A, (__v8bf)__B, (__v8bf)_mm_undefined_pbh(), (__mmask8)-1);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
 _mm_mask_scalef_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
-  return (__m128bh)__builtin_ia32_vscalefpbf16128_mask(
+  return (__m128bh)__builtin_ia32_vscalefbf16128_mask(
       (__v8bf)__A, (__v8bf)__B, (__v8bf)__W, (__mmask8)__U);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
 _mm_maskz_scalef_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
-  return (__m128bh)__builtin_ia32_vscalefpbf16128_mask(
+  return (__m128bh)__builtin_ia32_vscalefbf16128_mask(
       (__v8bf)__A, (__v8bf)__B, (__v8bf)_mm_setzero_pbh(), (__mmask8)__U);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_rcp_pbh(__m256bh __A) {
-  return (__m256bh)__builtin_ia32_vrcppbf16256_mask(
+  return (__m256bh)__builtin_ia32_vrcpbf16256_mask(
       (__v16bf)__A, (__v16bf)_mm256_undefined_pbh(), (__mmask16)-1);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_mask_rcp_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
-  return (__m256bh)__builtin_ia32_vrcppbf16256_mask((__v16bf)__A, (__v16bf)__W,
-                                                    (__mmask16)__U);
+  return (__m256bh)__builtin_ia32_vrcpbf16256_mask((__v16bf)__A, (__v16bf)__W,
+                                                   (__mmask16)__U);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_maskz_rcp_pbh(__mmask16 __U, __m256bh __A) {
-  return (__m256bh)__builtin_ia32_vrcppbf16256_mask(
+  return (__m256bh)__builtin_ia32_vrcpbf16256_mask(
       (__v16bf)__A, (__v16bf)_mm256_setzero_pbh(), (__mmask16)__U);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_rcp_pbh(__m128bh __A) {
-  return (__m128bh)__builtin_ia32_vrcppbf16128_mask(
+  return (__m128bh)__builtin_ia32_vrcpbf16128_mask(
       (__v8bf)__A, (__v8bf)_mm_undefined_pbh(), (__mmask8)-1);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
 _mm_mask_rcp_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
-  return (__m128bh)__builtin_ia32_vrcppbf16128_mask((__v8bf)__A, (__v8bf)__W,
-                                                    (__mmask8)__U);
+  return (__m128bh)__builtin_ia32_vrcpbf16128_mask((__v8bf)__A, (__v8bf)__W,
+                                                   (__mmask8)__U);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
 _mm_maskz_rcp_pbh(__mmask8 __U, __m128bh __A) {
-  return (__m128bh)__builtin_ia32_vrcppbf16128_mask(
+  return (__m128bh)__builtin_ia32_vrcpbf16128_mask(
       (__v8bf)__A, (__v8bf)_mm_setzero_pbh(), (__mmask8)__U);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_getexp_pbh(__m256bh __A) {
-  return (__m256bh)__builtin_ia32_vgetexppbf16256_mask(
+  return (__m256bh)__builtin_ia32_vgetexpbf16256_mask(
       (__v16bf)__A, (__v16bf)_mm256_undefined_pbh(), (__mmask16)-1);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_mask_getexp_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
-  return (__m256bh)__builtin_ia32_vgetexppbf16256_mask(
+  return (__m256bh)__builtin_ia32_vgetexpbf16256_mask(
       (__v16bf)__A, (__v16bf)__W, (__mmask16)__U);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_maskz_getexp_pbh(__mmask16 __U, __m256bh __A) {
-  return (__m256bh)__builtin_ia32_vgetexppbf16256_mask(
+  return (__m256bh)__builtin_ia32_vgetexpbf16256_mask(
       (__v16bf)__A, (__v16bf)_mm256_setzero_pbh(), (__mmask16)__U);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_getexp_pbh(__m128bh __A) {
-  return (__m128bh)__builtin_ia32_vgetexppbf16128_mask(
+  return (__m128bh)__builtin_ia32_vgetexpbf16128_mask(
       (__v8bf)__A, (__v8bf)_mm_undefined_pbh(), (__mmask8)-1);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
 _mm_mask_getexp_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
-  return (__m128bh)__builtin_ia32_vgetexppbf16128_mask((__v8bf)__A, (__v8bf)__W,
-                                                       (__mmask8)__U);
+  return (__m128bh)__builtin_ia32_vgetexpbf16128_mask((__v8bf)__A, (__v8bf)__W,
+                                                      (__mmask8)__U);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
 _mm_maskz_getexp_pbh(__mmask8 __U, __m128bh __A) {
-  return (__m128bh)__builtin_ia32_vgetexppbf16128_mask(
+  return (__m128bh)__builtin_ia32_vgetexpbf16128_mask(
       (__v8bf)__A, (__v8bf)_mm_setzero_pbh(), (__mmask8)__U);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_rsqrt_pbh(__m256bh __A) {
-  return (__m256bh)__builtin_ia32_vrsqrtpbf16256_mask(
+  return (__m256bh)__builtin_ia32_vrsqrtbf16256_mask(
       (__v16bf)__A, (__v16bf)_mm256_undefined_pbh(), (__mmask16)-1);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_mask_rsqrt_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
-  return (__m256bh)__builtin_ia32_vrsqrtpbf16256_mask(
-      (__v16bf)__A, (__v16bf)__W, (__mmask16)__U);
+  return (__m256bh)__builtin_ia32_vrsqrtbf16256_mask((__v16bf)__A, (__v16bf)__W,
+                                                     (__mmask16)__U);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
 _mm256_maskz_rsqrt_pbh(__mmask16 __U, __m256bh __A) {
-  return (__m256bh)__builtin_ia32_vrsqrtpbf16256_mask(
+  return (__m256bh)__builtin_ia32_vrsqrtbf16256_mask(
       (__v16bf)__A, (__v16bf)_mm256_setzero_pbh(), (__mmask16)__U);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_rsqrt_pbh(__m128bh __A) {
-  return (__m128bh)__builtin_ia32_vrsqrtpbf16128_mask(
+  return (__m128bh)__builtin_ia32_vrsqrtbf16128_mask(
       (__v8bf)__A, (__v8bf)_mm_undefined_pbh(), (__mmask8)-1);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
 _mm_mask_rsqrt_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
-  return (__m128bh)__builtin_ia32_vrsqrtpbf16128_mask((__v8bf)__A, (__v8bf)__W,
-                                                      (__mmask8)__U);
+  return (__m128bh)__builtin_ia32_vrsqrtbf16128_mask((__v8bf)__A, (__v8bf)__W,
+                                                     (__mmask8)__U);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
 _mm_maskz_rsqrt_pbh(__mmask8 __U, __m128bh __A) {
-  return (__m128bh)__builtin_ia32_vrsqrtpbf16128_mask(
+  return (__m128bh)__builtin_ia32_vrsqrtbf16128_mask(
       (__v8bf)__A, (__v8bf)_mm_setzero_pbh(), (__mmask8)__U);
 }
 
-#define _mm256_reducene_pbh(__A, imm)                                          \
-  ((__m256bh)__builtin_ia32_vreducenepbf16256_mask(                            \
+#define _mm256_reduce_pbh(__A, imm)                                            \
+  ((__m256bh)__builtin_ia32_vreducebf16256_mask(                               \
       (__v16bf)(__m256bh)(__A), (int)(imm), (__v16bf)_mm256_undefined_pbh(),   \
       (__mmask16) - 1))
 
-#define _mm256_mask_reducene_pbh(__W, __U, __A, imm)                           \
-  ((__m256bh)__builtin_ia32_vreducenepbf16256_mask(                            \
+#define _mm256_mask_reduce_pbh(__W, __U, __A, imm)                             \
+  ((__m256bh)__builtin_ia32_vreducebf16256_mask(                               \
       (__v16bf)(__m256bh)(__A), (int)(imm), (__v16bf)(__m256bh)(__W),          \
       (__mmask16)(__U)))
 
-#define _mm256_maskz_reducene_pbh(__U, __A, imm)                               \
-  ((__m256bh)__builtin_ia32_vreducenepbf16256_mask(                            \
+#define _mm256_maskz_reduce_pbh(__U, __A, imm)                                 \
+  ((__m256bh)__builtin_ia32_vreducebf16256_mask(                               \
       (__v16bf)(__m256bh)(__A), (int)(imm), (__v16bf)_mm256_setzero_pbh(),     \
       (__mmask16)(__U)))
 
-#define _mm_reducene_pbh(__A, imm)                                             \
-  ((__m128bh)__builtin_ia32_vreducenepbf16128_mask(                            \
+#define _mm_reduce_pbh(__A, imm)                                               \
+  ((__m128bh)__builtin_ia32_vreducebf16128_mask(                               \
       (__v8bf)(__m128bh)(__A), (int)(imm), (__v8bf)_mm_undefined_pbh(),        \
       (__mmask8) - 1))
 
-#define _mm_mask_reducene_pbh(__W, __U, __A, imm)                              \
-  ((__m128bh)__builtin_ia32_vreducenepbf16128_mask(                            \
+#define _mm_mask_reduce_pbh(__W, __U, __A, imm)                                \
+  ((__m128bh)__builtin_ia32_vreducebf16128_mask(                               \
       (__v8bf)(__m128bh)(__A), (int)(imm), (__v8bf)(__m128bh)(__W),            \
       (__mmask8)(__U)))
 
-#define _mm_maskz_reducene_pbh(__U, __A, imm)                                  \
-  ((__m128bh)__builtin_ia32_vreducenepbf16128_mask(                            \
+#define _mm_maskz_reduce_pbh(__U, __A, imm)                                    \
+  ((__m128bh)__builtin_ia32_vreducebf16128_mask(                               \
       (__v8bf)(__m128bh)(__A), (int)(imm), (__v8bf)_mm_setzero_pbh(),          \
       (__mmask8)(__U)))
 
-#define _mm256_roundscalene_pbh(__A, imm)                                      \
-  ((__m256bh)__builtin_ia32_vrndscalenepbf16_256_mask(                         \
+#define _mm256_roundscale_pbh(__A, imm)                                        \
+  ((__m256bh)__builtin_ia32_vrndscalebf16_256_mask(                            \
       (__v16bf)(__m256bh)(__A), (int)(imm), (__v16bf)_mm256_setzero_pbh(),     \
       (__mmask16) - 1))
 
-#define _mm256_mask_roundscalene_pbh(__W, __U, __A, imm)                       \
-  ((__m256bh)__builtin_ia32_vrndscalenepbf16_256_mask(                         \
+#define _mm256_mask_roundscale_pbh(__W, __U, __A, imm)                         \
+  ((__m256bh)__builtin_ia32_vrndscalebf16_256_mask(                            \
       (__v16bf)(__m256bh)(__A), (int)(imm), (__v16bf)(__m256bh)(__W),          \
       (__mmask16)(__U)))
 
-#define _mm256_maskz_roundscalene_pbh(__U, __A, imm)                           \
-  ((__m256bh)__builtin_ia32_vrndscalenepbf16_256_mask(                         \
+#define _mm256_maskz_roundscale_pbh(__U, __A, imm)                             \
+  ((__m256bh)__builtin_ia32_vrndscalebf16_256_mask(                            \
       (__v16bf)(__m256bh)(__A), (int)(imm), (__v16bf)_mm256_setzero_pbh(),     \
       (__mmask16)(__U)))
 
-#define _mm_roundscalene_pbh(__A, imm)                                         \
-  ((__m128bh)__builtin_ia32_vrndscalenepbf16_128_mask(                         \
+#define _mm_roundscale_pbh(__A, imm)                                           \
+  ((__m128bh)__builtin_ia32_vrndscalebf16_128_mask(                            \
       (__v8bf)(__m128bh)(__A), (int)(imm), (__v8bf)_mm_setzero_pbh(),          \
       (__mmask8) - 1))
 
-#define _mm_mask_roundscalene_pbh(__W, __U, __A, imm)                          \
-  ((__m128bh)__builtin_ia32_vrndscalenepbf16_128_mask(                         \
+#define _mm_mask_roundscale_pbh(__W, __U, __A, imm)                            \
+  ((__m128bh)__builtin_ia32_vrndscalebf16_128_mask(                            \
       (__v8bf)(__m128bh)(__A), (int)(imm), (__v8bf)(__m128bh)(__W),            \
       (__mmask8)(__U)))
 
-#define _mm_maskz_roundscalene_pbh(__U, __A, imm)                              \
-  ((__m128bh)__builtin_ia32_vrndscalenepbf16_128_mask(                         \
+#define _mm_maskz_roundscale_pbh(__U, __A, imm)                                \
+  ((__m128bh)__builtin_ia32_vrndscalebf16_128_mask(                            \
       (__v8bf)(__m128bh)(__A), (int)(imm), (__v8bf)_mm_setzero_pbh(),          \
       (__mmask8)(__U)))
 
 #define _mm256_getmant_pbh(__A, __B, __C)                                      \
-  ((__m256bh)__builtin_ia32_vgetmantpbf16256_mask(                             \
+  ((__m256bh)__builtin_ia32_vgetmantbf16256_mask(                              \
       (__v16bf)(__m256bh)(__A), (int)(((__C) << 2) | (__B)),                   \
       (__v16bf)_mm256_undefined_pbh(), (__mmask16) - 1))
 
 #define _mm256_mask_getmant_pbh(__W, __U, __A, __B, __C)                       \
-  ((__m256bh)__builtin_ia32_vgetmantpbf16256_mask(                             \
+  ((__m256bh)__builtin_ia32_vgetmantbf16256_mask(                              \
       (__v16bf)(__m256bh)(__A), (int)(((__C) << 2) | (__B)),                   \
       (__v16bf)(__m256bh)(__W), (__mmask16)(__U)))
 
 #define _mm256_maskz_getmant_pbh(__U, __A, __B, __C)                           \
-  ((__m256bh)__builtin_ia32_vgetmantpbf16256_mask(                             \
+  ((__m256bh)__builtin_ia32_vgetmantbf16256_mask(                              \
       (__v16bf)(__m256bh)(__A), (int)(((__C) << 2) | (__B)),                   \
       (__v16bf)_mm256_setzero_pbh(), (__mmask16)(__U)))
 
 #define _mm_getmant_pbh(__A, __B, __C)                                         \
-  ((__m128bh)__builtin_ia32_vgetmantpbf16128_mask(                             \
+  ((__m128bh)__builtin_ia32_vgetmantbf16128_mask(                              \
       (__v8bf)(__m128bh)(__A), (int)(((__C) << 2) | (__B)),                    \
       (__v8bf)_mm_undefined_pbh(), (__mmask8) - 1))
 
 #define _mm_mask_getmant_pbh(__W, __U, __A, __B, __C)                          \
-  ((__m128bh)__builtin_ia32_vgetmantpbf16128_mask(                             \
+  ((__m128bh)__builtin_ia32_vgetmantbf16128_mask(                              \
       (__v8bf)(__m128bh)(__A), (int)(((__C) << 2) | (__B)),                    \
       (__v8bf)(__m128bh)(__W), (__mmask8)(__U)))
 
 #define _mm_maskz_getmant_pbh(__U, __A, __B, __C)                              \
-  ((__m128bh)__builtin_ia32_vgetmantpbf16128_mask(                             \
+  ((__m128bh)__builtin_ia32_vgetmantbf16128_mask(                              \
       (__v8bf)(__m128bh)(__A), (int)(((__C) << 2) | (__B)),                    \
       (__v8bf)_mm_setzero_pbh(), (__mmask8)(__U)))
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_sqrt_pbh(__m256bh __A) {
-  return (__m256bh)__builtin_ia32_vsqrtnepbf16256((__v16bf)__A);
+  return (__m256bh)__builtin_ia32_vsqrtbf16256((__v16bf)__A);
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
@@ -839,7 +835,7 @@ _mm256_maskz_sqrt_pbh(__mmask16 __U, __m256bh __A) {
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_sqrt_pbh(__m128bh __A) {
-  return (__m128bh)__builtin_ia32_vsqrtnepbf16((__v8bf)__A);
+  return (__m128bh)__builtin_ia32_vsqrtbf16((__v8bf)__A);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
@@ -855,232 +851,230 @@ _mm_maskz_sqrt_pbh(__mmask8 __U, __m128bh __A) {
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_fmaddne_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
+_mm256_fmadd_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_vfmaddnepbh256((__v16bf)__A, (__v16bf)__B,
                                                  (__v16bf)__C);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask_fmaddne_pbh(
-    __m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256
+_mm256_mask_fmadd_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fmaddne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
-      (__v16bf)__A);
+      _mm256_fmadd_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C), (__v16bf)__A);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask3_fmaddne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask3_fmadd_pbh(
     __m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fmaddne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
-      (__v16bf)__C);
+      _mm256_fmadd_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C), (__v16bf)__C);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_maskz_fmaddne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_maskz_fmadd_pbh(
     __mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fmaddne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
+      _mm256_fmadd_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
       (__v16bf)_mm256_setzero_pbh());
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_fmsubne_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
+_mm256_fmsub_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_vfmaddnepbh256((__v16bf)__A, (__v16bf)__B,
                                                  -(__v16bf)__C);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask_fmsubne_pbh(
-    __m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256
+_mm256_mask_fmsub_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fmsubne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
-      (__v16bf)__A);
+      _mm256_fmsub_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C), (__v16bf)__A);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask3_fmsubne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask3_fmsub_pbh(
     __m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fmsubne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
-      (__v16bf)__C);
+      _mm256_fmsub_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C), (__v16bf)__C);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_maskz_fmsubne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_maskz_fmsub_pbh(
     __mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fmsubne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
+      _mm256_fmsub_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
       (__v16bf)_mm256_setzero_pbh());
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_fnmaddne_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
+_mm256_fnmadd_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_vfmaddnepbh256((__v16bf)__A, -(__v16bf)__B,
                                                  (__v16bf)__C);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask_fnmaddne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask_fnmadd_pbh(
     __m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fnmaddne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
+      _mm256_fnmadd_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
       (__v16bf)__A);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask3_fnmaddne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask3_fnmadd_pbh(
     __m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fnmaddne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
+      _mm256_fnmadd_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
       (__v16bf)__C);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_maskz_fnmaddne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_maskz_fnmadd_pbh(
     __mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fnmaddne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
+      _mm256_fnmadd_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
       (__v16bf)_mm256_setzero_pbh());
 }
 
 static __inline__ __m256bh __DEFAULT_FN_ATTRS256
-_mm256_fnmsubne_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
+_mm256_fnmsub_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_vfmaddnepbh256((__v16bf)__A, -(__v16bf)__B,
                                                  -(__v16bf)__C);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask_fnmsubne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask_fnmsub_pbh(
     __m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fnmsubne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
+      _mm256_fnmsub_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
       (__v16bf)__A);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask3_fnmsubne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_mask3_fnmsub_pbh(
     __m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fnmsubne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
+      _mm256_fnmsub_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
       (__v16bf)__C);
 }
 
-static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_maskz_fnmsubne_pbh(
+static __inline__ __m256bh __DEFAULT_FN_ATTRS256 _mm256_maskz_fnmsub_pbh(
     __mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
   return (__m256bh)__builtin_ia32_selectpbf_256(
       (__mmask16)__U,
-      _mm256_fnmsubne_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
+      _mm256_fnmsub_pbh((__v16bf)__A, (__v16bf)__B, (__v16bf)__C),
       (__v16bf)_mm256_setzero_pbh());
 }
 
-static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_fmaddne_pbh(__m128bh __A,
-                                                                 __m128bh __B,
-                                                                 __m128bh __C) {
+static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_fmadd_pbh(__m128bh __A,
+                                                               __m128bh __B,
+                                                               __m128bh __C) {
   return (__m128bh)__builtin_ia32_vfmaddnepbh128((__v8bf)__A, (__v8bf)__B,
                                                  (__v8bf)__C);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask_fmaddne_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
+_mm_mask_fmadd_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fmaddne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fmadd_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)__A);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask3_fmaddne_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
+_mm_mask3_fmadd_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fmaddne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fmadd_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)__C);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_maskz_fmaddne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
+_mm_maskz_fmadd_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fmaddne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fmadd_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)_mm_setzero_pbh());
 }
 
-static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_fmsubne_pbh(__m128bh __A,
-                                                                 __m128bh __B,
-                                                                 __m128bh __C) {
+static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_fmsub_pbh(__m128bh __A,
+                                                               __m128bh __B,
+                                                               __m128bh __C) {
   return (__m128bh)__builtin_ia32_vfmaddnepbh128((__v8bf)__A, (__v8bf)__B,
                                                  -(__v8bf)__C);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask_fmsubne_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
+_mm_mask_fmsub_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fmsubne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fmsub_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)__A);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask3_fmsubne_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
+_mm_mask3_fmsub_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fmsubne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fmsub_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)__C);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_maskz_fmsubne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
+_mm_maskz_fmsub_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fmsubne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fmsub_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)_mm_setzero_pbh());
 }
 
-static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_fnmaddne_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
+static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_fnmadd_pbh(__m128bh __A,
+                                                                __m128bh __B,
+                                                                __m128bh __C) {
   return (__m128bh)__builtin_ia32_vfmaddnepbh128((__v8bf)__A, -(__v8bf)__B,
                                                  (__v8bf)__C);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask_fnmaddne_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
+_mm_mask_fnmadd_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fnmaddne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fnmadd_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)__A);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask3_fnmaddne_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
+_mm_mask3_fnmadd_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fnmaddne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fnmadd_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)__C);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_maskz_fnmaddne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
+_mm_maskz_fnmadd_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fnmaddne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fnmadd_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)_mm_setzero_pbh());
 }
 
-static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_fnmsubne_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
+static __inline__ __m128bh __DEFAULT_FN_ATTRS128 _mm_fnmsub_pbh(__m128bh __A,
+                                                                __m128bh __B,
+                                                                __m128bh __C) {
   return (__m128bh)__builtin_ia32_vfmaddnepbh128((__v8bf)__A, -(__v8bf)__B,
                                                  -(__v8bf)__C);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask_fnmsubne_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
+_mm_mask_fnmsub_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fnmsubne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fnmsub_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)__A);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_mask3_fnmsubne_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
+_mm_mask3_fnmsub_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fnmsubne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fnmsub_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)__C);
 }
 
 static __inline__ __m128bh __DEFAULT_FN_ATTRS128
-_mm_maskz_fnmsubne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
+_mm_maskz_fnmsub_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
   return (__m128bh)__builtin_ia32_selectpbf_128(
-      (__mmask8)__U, _mm_fnmsubne_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
+      (__mmask8)__U, _mm_fnmsub_pbh((__v8bf)__A, (__v8bf)__B, (__v8bf)__C),
       (__v8bf)_mm_setzero_pbh());
 }
 
diff --git a/clang/lib/Headers/avx10_2convertintrin.h b/clang/lib/Headers/avx10_2convertintrin.h
index efe8477cbbf9b..c67a5b890f195 100644
--- a/clang/lib/Headers/avx10_2convertintrin.h
+++ b/clang/lib/Headers/avx10_2convertintrin.h
@@ -77,516 +77,508 @@ _mm256_maskz_cvtx2ps_ph(__mmask16 __U, __m256 __A, __m256 __B) {
       (__v8sf)(A), (__v8sf)(B), (__v16hf)(_mm256_setzero_ph()),                \
       (__mmask16)(U), (const int)(R)))
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_cvtbiasph_pbf8(__m128i __A, __m128h __B) {
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtbiasph_bf8(__m128i __A,
+                                                                  __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)_mm_undefined_si128(), (__mmask8)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtbiasph_pbf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
+_mm_mask_cvtbiasph_bf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)(__m128i)__W, (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtbiasph_pbf8(__mmask8 __U, __m128i __A, __m128h __B) {
+_mm_maskz_cvtbiasph_bf8(__mmask8 __U, __m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)(__m128i)_mm_setzero_si128(),
       (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_cvtbiasph_pbf8(__m256i __A, __m256h __B) {
+_mm256_cvtbiasph_bf8(__m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)_mm_undefined_si128(),
       (__mmask16)-1);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtbiasph_pbf8(
+static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtbiasph_bf8(
     __m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)__W, (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtbiasph_pbf8(__mmask16 __U, __m256i __A, __m256h __B) {
+_mm256_maskz_cvtbiasph_bf8(__mmask16 __U, __m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)_mm_setzero_si128(),
       (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_cvtbiassph_pbf8(__m128i __A, __m128h __B) {
+_mm_cvtbiassph_bf8(__m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8s_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)_mm_undefined_si128(), (__mmask8)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtbiassph_pbf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
+_mm_mask_cvtbiassph_bf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8s_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)(__m128i)__W, (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtbiassph_pbf8(__mmask8 __U, __m128i __A, __m128h __B) {
+_mm_maskz_cvtbiassph_bf8(__mmask8 __U, __m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8s_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)(__m128i)_mm_setzero_si128(),
       (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_cvtbiassph_pbf8(__m256i __A, __m256h __B) {
+_mm256_cvtbiassph_bf8(__m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8s_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)_mm_undefined_si128(),
       (__mmask16)-1);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtbiassph_pbf8(
+static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtbiassph_bf8(
     __m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8s_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)__W, (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtbiassph_pbf8(__mmask16 __U, __m256i __A, __m256h __B) {
+_mm256_maskz_cvtbiassph_bf8(__mmask16 __U, __m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2bf8s_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)_mm_setzero_si128(),
       (__mmask16)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_cvtbiasph_phf8(__m128i __A, __m128h __B) {
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtbiasph_hf8(__m128i __A,
+                                                                  __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)_mm_undefined_si128(), (__mmask8)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtbiasph_phf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
+_mm_mask_cvtbiasph_hf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)(__m128i)__W, (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtbiasph_phf8(__mmask8 __U, __m128i __A, __m128h __B) {
+_mm_maskz_cvtbiasph_hf8(__mmask8 __U, __m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)(__m128i)_mm_setzero_si128(),
       (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_cvtbiasph_phf8(__m256i __A, __m256h __B) {
+_mm256_cvtbiasph_hf8(__m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)_mm_undefined_si128(),
       (__mmask16)-1);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtbiasph_phf8(
+static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtbiasph_hf8(
     __m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)__W, (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtbiasph_phf8(__mmask16 __U, __m256i __A, __m256h __B) {
+_mm256_maskz_cvtbiasph_hf8(__mmask16 __U, __m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)_mm_setzero_si128(),
       (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_cvtbiassph_phf8(__m128i __A, __m128h __B) {
+_mm_cvtbiassph_hf8(__m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8s_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)_mm_undefined_si128(), (__mmask8)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtbiassph_phf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
+_mm_mask_cvtbiassph_hf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8s_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)(__m128i)__W, (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtbiassph_phf8(__mmask8 __U, __m128i __A, __m128h __B) {
+_mm_maskz_cvtbiassph_hf8(__mmask8 __U, __m128i __A, __m128h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8s_128_mask(
       (__v16qi)__A, (__v8hf)__B, (__v16qi)(__m128i)_mm_setzero_si128(),
       (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_cvtbiassph_phf8(__m256i __A, __m256h __B) {
+_mm256_cvtbiassph_hf8(__m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8s_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)_mm_undefined_si128(),
       (__mmask16)-1);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtbiassph_phf8(
+static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtbiassph_hf8(
     __m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8s_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)__W, (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtbiassph_phf8(__mmask16 __U, __m256i __A, __m256h __B) {
+_mm256_maskz_cvtbiassph_hf8(__mmask16 __U, __m256i __A, __m256h __B) {
   return (__m128i)__builtin_ia32_vcvtbiasph2hf8s_256_mask(
       (__v32qi)__A, (__v16hf)__B, (__v16qi)(__m128i)_mm_setzero_si128(),
       (__mmask16)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtne2ph_pbf8(__m128h __A,
-                                                                  __m128h __B) {
-  return (__m128i)__builtin_ia32_vcvtne2ph2bf8_128((__v8hf)(__A),
-                                                   (__v8hf)(__B));
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvt2ph_bf8(__m128h __A,
+                                                               __m128h __B) {
+  return (__m128i)__builtin_ia32_vcvt2ph2bf8_128((__v8hf)(__A), (__v8hf)(__B));
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtne2ph_pbf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
+_mm_mask_cvt2ph_bf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
   return (__m128i)__builtin_ia32_selectb_128(
-      (__mmask16)__U, (__v16qi)_mm_cvtne2ph_pbf8(__A, __B), (__v16qi)__W);
+      (__mmask16)__U, (__v16qi)_mm_cvt2ph_bf8(__A, __B), (__v16qi)__W);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtne2ph_pbf8(__mmask16 __U, __m128h __A, __m128h __B) {
+_mm_maskz_cvt2ph_bf8(__mmask16 __U, __m128h __A, __m128h __B) {
   return (__m128i)__builtin_ia32_selectb_128(
-      (__mmask16)__U, (__v16qi)_mm_cvtne2ph_pbf8(__A, __B),
+      (__mmask16)__U, (__v16qi)_mm_cvt2ph_bf8(__A, __B),
       (__v16qi)(__m128i)_mm_setzero_si128());
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS256
-_mm256_cvtne2ph_pbf8(__m256h __A, __m256h __B) {
-  return (__m256i)__builtin_ia32_vcvtne2ph2bf8_256((__v16hf)(__A),
-                                                   (__v16hf)(__B));
+static __inline__ __m256i __DEFAULT_FN_ATTRS256 _mm256_cvt2ph_bf8(__m256h __A,
+                                                                  __m256h __B) {
+  return (__m256i)__builtin_ia32_vcvt2ph2bf8_256((__v16hf)(__A),
+                                                 (__v16hf)(__B));
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtne2ph_pbf8(
-    __m256i __W, __mmask32 __U, __m256h __A, __m256h __B) {
+static __inline__ __m256i __DEFAULT_FN_ATTRS256
+_mm256_mask_cvt2ph_bf8(__m256i __W, __mmask32 __U, __m256h __A, __m256h __B) {
   return (__m256i)__builtin_ia32_selectb_256(
-      (__mmask16)__U, (__v32qi)_mm256_cvtne2ph_pbf8(__A, __B), (__v32qi)__W);
+      (__mmask16)__U, (__v32qi)_mm256_cvt2ph_bf8(__A, __B), (__v32qi)__W);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtne2ph_pbf8(__mmask32 __U, __m256h __A, __m256h __B) {
+_mm256_maskz_cvt2ph_bf8(__mmask32 __U, __m256h __A, __m256h __B) {
   return (__m256i)__builtin_ia32_selectb_256(
-      (__mmask16)__U, (__v32qi)_mm256_cvtne2ph_pbf8(__A, __B),
+      (__mmask16)__U, (__v32qi)_mm256_cvt2ph_bf8(__A, __B),
       (__v32qi)(__m256i)_mm256_setzero_si256());
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_cvtnes2ph_pbf8(__m128h __A, __m128h __B) {
-  return (__m128i)__builtin_ia32_vcvtne2ph2bf8s_128((__v8hf)(__A),
-                                                    (__v8hf)(__B));
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvts2ph_bf8(__m128h __A,
+                                                                __m128h __B) {
+  return (__m128i)__builtin_ia32_vcvt2ph2bf8s_128((__v8hf)(__A), (__v8hf)(__B));
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtnes2ph_pbf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
+_mm_mask_cvts2ph_bf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
   return (__m128i)__builtin_ia32_selectb_128(
-      (__mmask16)__U, (__v16qi)_mm_cvtnes2ph_pbf8(__A, __B), (__v16qi)__W);
+      (__mmask16)__U, (__v16qi)_mm_cvts2ph_bf8(__A, __B), (__v16qi)__W);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtnes2ph_pbf8(__mmask16 __U, __m128h __A, __m128h __B) {
+_mm_maskz_cvts2ph_bf8(__mmask16 __U, __m128h __A, __m128h __B) {
   return (__m128i)__builtin_ia32_selectb_128(
-      (__mmask16)__U, (__v16qi)_mm_cvtnes2ph_pbf8(__A, __B),
+      (__mmask16)__U, (__v16qi)_mm_cvts2ph_bf8(__A, __B),
       (__v16qi)(__m128i)_mm_setzero_si128());
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS256
-_mm256_cvtnes2ph_pbf8(__m256h __A, __m256h __B) {
-  return (__m256i)__builtin_ia32_vcvtne2ph2bf8s_256((__v16hf)(__A),
-                                                    (__v16hf)(__B));
+_mm256_cvts2ph_bf8(__m256h __A, __m256h __B) {
+  return (__m256i)__builtin_ia32_vcvt2ph2bf8s_256((__v16hf)(__A),
+                                                  (__v16hf)(__B));
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtnes2ph_pbf8(
-    __m256i __W, __mmask32 __U, __m256h __A, __m256h __B) {
+static __inline__ __m256i __DEFAULT_FN_ATTRS256
+_mm256_mask_cvts2ph_bf8(__m256i __W, __mmask32 __U, __m256h __A, __m256h __B) {
   return (__m256i)__builtin_ia32_selectb_256(
-      (__mmask16)__U, (__v32qi)_mm256_cvtnes2ph_pbf8(__A, __B), (__v32qi)__W);
+      (__mmask16)__U, (__v32qi)_mm256_cvts2ph_bf8(__A, __B), (__v32qi)__W);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtnes2ph_pbf8(__mmask32 __U, __m256h __A, __m256h __B) {
+_mm256_maskz_cvts2ph_bf8(__mmask32 __U, __m256h __A, __m256h __B) {
   return (__m256i)__builtin_ia32_selectb_256(
-      (__mmask16)__U, (__v32qi)_mm256_cvtnes2ph_pbf8(__A, __B),
+      (__mmask16)__U, (__v32qi)_mm256_cvts2ph_bf8(__A, __B),
       (__v32qi)(__m256i)_mm256_setzero_si256());
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtne2ph_phf8(__m128h __A,
-                                                                  __m128h __B) {
-  return (__m128i)__builtin_ia32_vcvtne2ph2hf8_128((__v8hf)(__A),
-                                                   (__v8hf)(__B));
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvt2ph_hf8(__m128h __A,
+                                                               __m128h __B) {
+  return (__m128i)__builtin_ia32_vcvt2ph2hf8_128((__v8hf)(__A), (__v8hf)(__B));
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtne2ph_phf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
+_mm_mask_cvt2ph_hf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
   return (__m128i)__builtin_ia32_selectb_128(
-      (__mmask16)__U, (__v16qi)_mm_cvtne2ph_phf8(__A, __B), (__v16qi)__W);
+      (__mmask16)__U, (__v16qi)_mm_cvt2ph_hf8(__A, __B), (__v16qi)__W);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtne2ph_phf8(__mmask16 __U, __m128h __A, __m128h __B) {
+_mm_maskz_cvt2ph_hf8(__mmask16 __U, __m128h __A, __m128h __B) {
   return (__m128i)__builtin_ia32_selectb_128(
-      (__mmask16)__U, (__v16qi)_mm_cvtne2ph_phf8(__A, __B),
+      (__mmask16)__U, (__v16qi)_mm_cvt2ph_hf8(__A, __B),
       (__v16qi)(__m128i)_mm_setzero_si128());
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS256
-_mm256_cvtne2ph_phf8(__m256h __A, __m256h __B) {
-  return (__m256i)__builtin_ia32_vcvtne2ph2hf8_256((__v16hf)(__A),
-                                                   (__v16hf)(__B));
+static __inline__ __m256i __DEFAULT_FN_ATTRS256 _mm256_cvt2ph_hf8(__m256h __A,
+                                                                  __m256h __B) {
+  return (__m256i)__builtin_ia32_vcvt2ph2hf8_256((__v16hf)(__A),
+                                                 (__v16hf)(__B));
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtne2ph_phf8(
-    __m256i __W, __mmask32 __U, __m256h __A, __m256h __B) {
+static __inline__ __m256i __DEFAULT_FN_ATTRS256
+_mm256_mask_cvt2ph_hf8(__m256i __W, __mmask32 __U, __m256h __A, __m256h __B) {
   return (__m256i)__builtin_ia32_selectb_256(
-      (__mmask16)__U, (__v32qi)_mm256_cvtne2ph_phf8(__A, __B), (__v32qi)__W);
+      (__mmask16)__U, (__v32qi)_mm256_cvt2ph_hf8(__A, __B), (__v32qi)__W);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtne2ph_phf8(__mmask32 __U, __m256h __A, __m256h __B) {
+_mm256_maskz_cvt2ph_hf8(__mmask32 __U, __m256h __A, __m256h __B) {
   return (__m256i)__builtin_ia32_selectb_256(
-      (__mmask16)__U, (__v32qi)_mm256_cvtne2ph_phf8(__A, __B),
+      (__mmask16)__U, (__v32qi)_mm256_cvt2ph_hf8(__A, __B),
       (__v32qi)(__m256i)_mm256_setzero_si256());
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_cvtnes2ph_phf8(__m128h __A, __m128h __B) {
-  return (__m128i)__builtin_ia32_vcvtne2ph2hf8s_128((__v8hf)(__A),
-                                                    (__v8hf)(__B));
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvts2ph_hf8(__m128h __A,
+                                                                __m128h __B) {
+  return (__m128i)__builtin_ia32_vcvt2ph2hf8s_128((__v8hf)(__A), (__v8hf)(__B));
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtnes2ph_phf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
+_mm_mask_cvts2ph_hf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
   return (__m128i)__builtin_ia32_selectb_128(
-      (__mmask16)__U, (__v16qi)_mm_cvtnes2ph_phf8(__A, __B), (__v16qi)__W);
+      (__mmask16)__U, (__v16qi)_mm_cvts2ph_hf8(__A, __B), (__v16qi)__W);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtnes2ph_phf8(__mmask16 __U, __m128h __A, __m128h __B) {
+_mm_maskz_cvts2ph_hf8(__mmask16 __U, __m128h __A, __m128h __B) {
   return (__m128i)__builtin_ia32_selectb_128(
-      (__mmask16)__U, (__v16qi)_mm_cvtnes2ph_phf8(__A, __B),
+      (__mmask16)__U, (__v16qi)_mm_cvts2ph_hf8(__A, __B),
       (__v16qi)(__m128i)_mm_setzero_si128());
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS256
-_mm256_cvtnes2ph_phf8(__m256h __A, __m256h __B) {
-  return (__m256i)__builtin_ia32_vcvtne2ph2hf8s_256((__v16hf)(__A),
-                                                    (__v16hf)(__B));
+_mm256_cvts2ph_hf8(__m256h __A, __m256h __B) {
+  return (__m256i)__builtin_ia32_vcvt2ph2hf8s_256((__v16hf)(__A),
+                                                  (__v16hf)(__B));
 }
 
-static __inline__ __m256i __DEFAULT_FN_ATTRS256 _mm256_mask_cvtnes2ph_phf8(
-    __m256i __W, __mmask32 __U, __m256h __A, __m256h __B) {
+static __inline__ __m256i __DEFAULT_FN_ATTRS256
+_mm256_mask_cvts2ph_hf8(__m256i __W, __mmask32 __U, __m256h __A, __m256h __B) {
   return (__m256i)__builtin_ia32_selectb_256(
-      (__mmask16)__U, (__v32qi)_mm256_cvtnes2ph_phf8(__A, __B), (__v32qi)__W);
+      (__mmask16)__U, (__v32qi)_mm256_cvts2ph_hf8(__A, __B), (__v32qi)__W);
 }
 
 static __inline__ __m256i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtnes2ph_phf8(__mmask32 __U, __m256h __A, __m256h __B) {
+_mm256_maskz_cvts2ph_hf8(__mmask32 __U, __m256h __A, __m256h __B) {
   return (__m256i)__builtin_ia32_selectb_256(
-      (__mmask16)__U, (__v32qi)_mm256_cvtnes2ph_phf8(__A, __B),
+      (__mmask16)__U, (__v32qi)_mm256_cvts2ph_hf8(__A, __B),
       (__v32qi)(__m256i)_mm256_setzero_si256());
 }
 
-static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_cvtnehf8_ph(__m128i __A) {
+static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_cvthf8(__m128i __A) {
   return (__m128h)__builtin_ia32_vcvthf8_2ph128_mask(
       (__v16qi)__A, (__v8hf)(__m128h)_mm_undefined_ph(), (__mmask8)-1);
 }
 
-static __inline__ __m128h __DEFAULT_FN_ATTRS128
-_mm_mask_cvtnehf8_ph(__m128h __W, __mmask8 __U, __m128i __A) {
+static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_mask_cvthf8(__m128h __W,
+                                                                __mmask8 __U,
+                                                                __m128i __A) {
   return (__m128h)__builtin_ia32_vcvthf8_2ph128_mask(
       (__v16qi)__A, (__v8hf)(__m128h)__W, (__mmask8)__U);
 }
 
-static __inline__ __m128h __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtnehf8_ph(__mmask8 __U, __m128i __A) {
+static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_maskz_cvthf8(__mmask8 __U,
+                                                                 __m128i __A) {
   return (__m128h)__builtin_ia32_vcvthf8_2ph128_mask(
       (__v16qi)__A, (__v8hf)(__m128h)_mm_setzero_ph(), (__mmask8)__U);
 }
 
-static __inline__ __m256h __DEFAULT_FN_ATTRS256
-_mm256_cvtnehf8_ph(__m128i __A) {
+static __inline__ __m256h __DEFAULT_FN_ATTRS256 _mm256_cvthf8(__m128i __A) {
   return (__m256h)__builtin_ia32_vcvthf8_2ph256_mask(
       (__v16qi)__A, (__v16hf)(__m256h)_mm256_undefined_ph(), (__mmask16)-1);
 }
 
 static __inline__ __m256h __DEFAULT_FN_ATTRS256
-_mm256_mask_cvtnehf8_ph(__m256h __W, __mmask16 __U, __m128i __A) {
+_mm256_mask_cvthf8(__m256h __W, __mmask16 __U, __m128i __A) {
   return (__m256h)__builtin_ia32_vcvthf8_2ph256_mask(
       (__v16qi)__A, (__v16hf)(__m256h)__W, (__mmask16)__U);
 }
 
 static __inline__ __m256h __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtnehf8_ph(__mmask16 __U, __m128i __A) {
+_mm256_maskz_cvthf8(__mmask16 __U, __m128i __A) {
   return (__m256h)__builtin_ia32_vcvthf8_2ph256_mask(
       (__v16qi)__A, (__v16hf)(__m256h)_mm256_setzero_ph(), (__mmask16)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtneph_pbf8(__m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8_128_mask(
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtph_bf8(__m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)_mm_undefined_si128(), (__mmask8)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtneph_pbf8(__m128i __W, __mmask8 __U, __m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8_128_mask(
+_mm_mask_cvtph_bf8(__m128i __W, __mmask8 __U, __m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)__W, (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtneph_pbf8(__mmask8 __U, __m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8_128_mask(
+_mm_maskz_cvtph_bf8(__mmask8 __U, __m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)_mm_setzero_si128(), (__mmask8)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_cvtneph_pbf8(__m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8_256_mask(
+static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_cvtph_bf8(__m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)_mm_undefined_si128(), (__mmask16)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_mask_cvtneph_pbf8(__m128i __W, __mmask16 __U, __m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8_256_mask(
+_mm256_mask_cvtph_bf8(__m128i __W, __mmask16 __U, __m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)__W, (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtneph_pbf8(__mmask16 __U, __m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8_256_mask(
+_mm256_maskz_cvtph_bf8(__mmask16 __U, __m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)_mm_setzero_si128(), (__mmask16)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtnesph_pbf8(__m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8s_128_mask(
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtsph_bf8(__m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8s_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)_mm_undefined_si128(), (__mmask8)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtnesph_pbf8(__m128i __W, __mmask8 __U, __m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8s_128_mask(
+_mm_mask_cvtsph_bf8(__m128i __W, __mmask8 __U, __m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8s_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)__W, (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtnesph_pbf8(__mmask8 __U, __m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8s_128_mask(
+_mm_maskz_cvtsph_bf8(__mmask8 __U, __m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8s_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)_mm_setzero_si128(), (__mmask8)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_cvtnesph_pbf8(__m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8s_256_mask(
+static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_cvtsph_bf8(__m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8s_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)_mm_undefined_si128(), (__mmask16)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_mask_cvtnesph_pbf8(__m128i __W, __mmask16 __U, __m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8s_256_mask(
+_mm256_mask_cvtsph_bf8(__m128i __W, __mmask16 __U, __m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8s_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)__W, (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtnesph_pbf8(__mmask16 __U, __m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2bf8s_256_mask(
+_mm256_maskz_cvtsph_bf8(__mmask16 __U, __m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2bf8s_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)_mm_setzero_si128(), (__mmask16)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtneph_phf8(__m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8_128_mask(
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtph_hf8(__m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)_mm_undefined_si128(), (__mmask8)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtneph_phf8(__m128i __W, __mmask8 __U, __m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8_128_mask(
+_mm_mask_cvtph_hf8(__m128i __W, __mmask8 __U, __m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)__W, (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtneph_phf8(__mmask8 __U, __m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8_128_mask(
+_mm_maskz_cvtph_hf8(__mmask8 __U, __m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)_mm_setzero_si128(), (__mmask8)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_cvtneph_phf8(__m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8_256_mask(
+static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_cvtph_hf8(__m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)_mm_undefined_si128(), (__mmask16)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_mask_cvtneph_phf8(__m128i __W, __mmask16 __U, __m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8_256_mask(
+_mm256_mask_cvtph_hf8(__m128i __W, __mmask16 __U, __m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)__W, (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtneph_phf8(__mmask16 __U, __m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8_256_mask(
+_mm256_maskz_cvtph_hf8(__mmask16 __U, __m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)_mm_setzero_si128(), (__mmask16)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtnesph_phf8(__m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8s_128_mask(
+static __inline__ __m128i __DEFAULT_FN_ATTRS128 _mm_cvtsph_hf8(__m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8s_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)_mm_undefined_si128(), (__mmask8)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_mask_cvtnesph_phf8(__m128i __W, __mmask8 __U, __m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8s_128_mask(
+_mm_mask_cvtsph_hf8(__m128i __W, __mmask8 __U, __m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8s_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)__W, (__mmask8)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtnesph_phf8(__mmask8 __U, __m128h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8s_128_mask(
+_mm_maskz_cvtsph_hf8(__mmask8 __U, __m128h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8s_128_mask(
       (__v8hf)__A, (__v16qi)(__m128i)_mm_setzero_si128(), (__mmask8)__U);
 }
 
-static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_cvtnesph_phf8(__m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8s_256_mask(
+static __inline__ __m128i __DEFAULT_FN_ATTRS256 _mm256_cvtsph_hf8(__m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8s_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)_mm_undefined_si128(), (__mmask16)-1);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_mask_cvtnesph_phf8(__m128i __W, __mmask16 __U, __m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8s_256_mask(
+_mm256_mask_cvtsph_hf8(__m128i __W, __mmask16 __U, __m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8s_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)__W, (__mmask16)__U);
 }
 
 static __inline__ __m128i __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtnesph_phf8(__mmask16 __U, __m256h __A) {
-  return (__m128i)__builtin_ia32_vcvtneph2hf8s_256_mask(
+_mm256_maskz_cvtsph_hf8(__mmask16 __U, __m256h __A) {
+  return (__m128i)__builtin_ia32_vcvtph2hf8s_256_mask(
       (__v16hf)__A, (__v16qi)(__m128i)_mm_setzero_si128(), (__mmask16)__U);
 }
 
-static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_cvtpbf8_ph(__m128i __A) {
+static __inline__ __m128h __DEFAULT_FN_ATTRS128 _mm_cvtbf8_ph(__m128i __A) {
   return _mm_castsi128_ph(_mm_slli_epi16(_mm_cvtepi8_epi16(__A), 8));
 }
 
 static __inline__ __m128h __DEFAULT_FN_ATTRS128
-_mm_mask_cvtpbf8_ph(__m128h __S, __mmask8 __U, __m128i __A) {
+_mm_mask_cvtbf8_ph(__m128h __S, __mmask8 __U, __m128i __A) {
   return _mm_castsi128_ph(
       _mm_mask_slli_epi16((__m128i)__S, __U, _mm_cvtepi8_epi16(__A), 8));
 }
 
 static __inline__ __m128h __DEFAULT_FN_ATTRS128
-_mm_maskz_cvtpbf8_ph(__mmask8 __U, __m128i __A) {
+_mm_maskz_cvtbf8_ph(__mmask8 __U, __m128i __A) {
   return _mm_castsi128_ph(_mm_slli_epi16(_mm_maskz_cvtepi8_epi16(__U, __A), 8));
 }
 
-static __inline__ __m256h __DEFAULT_FN_ATTRS256 _mm256_cvtpbf8_ph(__m128i __A) {
+static __inline__ __m256h __DEFAULT_FN_ATTRS256 _mm256_cvtbf8_ph(__m128i __A) {
   return _mm256_castsi256_ph(_mm256_slli_epi16(_mm256_cvtepi8_epi16(__A), 8));
 }
 
 static __inline__ __m256h __DEFAULT_FN_ATTRS256
-_mm256_mask_cvtpbf8_ph(__m256h __S, __mmask16 __U, __m128i __A) {
+_mm256_mask_cvtbf8_ph(__m256h __S, __mmask16 __U, __m128i __A) {
   return _mm256_castsi256_ph(
       _mm256_mask_slli_epi16((__m256i)__S, __U, _mm256_cvtepi8_epi16(__A), 8));
 }
 
 static __inline__ __m256h __DEFAULT_FN_ATTRS256
-_mm256_maskz_cvtpbf8_ph(__mmask16 __U, __m128i __A) {
+_mm256_maskz_cvtbf8_ph(__mmask16 __U, __m128i __A) {
   return _mm256_castsi256_ph(
       _mm256_slli_epi16(_mm256_maskz_cvtepi8_epi16(__U, __A), 8));
 }
diff --git a/clang/lib/Lex/PPDirectives.cpp b/clang/lib/Lex/PPDirectives.cpp
index a23ad40884f24..a29b73f97ab7e 100644
--- a/clang/lib/Lex/PPDirectives.cpp
+++ b/clang/lib/Lex/PPDirectives.cpp
@@ -11,6 +11,8 @@
 ///
 //===----------------------------------------------------------------------===//
 
+#include "clang/Basic/AttributeCommonInfo.h"
+#include "clang/Basic/Attributes.h"
 #include "clang/Basic/CharInfo.h"
 #include "clang/Basic/DirectoryEntry.h"
 #include "clang/Basic/FileManager.h"
@@ -97,7 +99,8 @@ SourceRange Preprocessor::DiscardUntilEndOfDirective(Token &Tmp) {
 enum MacroDiag {
   MD_NoWarn,        //> Not a reserved identifier
   MD_KeywordDef,    //> Macro hides keyword, enabled by default
-  MD_ReservedMacro  //> #define of #undef reserved id, disabled by default
+  MD_ReservedMacro, //> #define of #undef reserved id, disabled by default
+  MD_ReservedAttributeIdentifier
 };
 
 /// Enumerates possible %select values for the pp_err_elif_after_else and
@@ -173,6 +176,22 @@ static bool isLanguageDefinedBuiltin(const SourceManager &SourceMgr,
   return false;
 }
 
+static bool isReservedCXXAttributeName(Preprocessor &PP, IdentifierInfo *II) {
+  const LangOptions &Lang = PP.getLangOpts();
+  if (Lang.CPlusPlus &&
+      hasAttribute(AttributeCommonInfo::AS_CXX11, /* Scope*/ nullptr, II,
+                   PP.getTargetInfo(), Lang, /*CheckPlugins*/ false) > 0) {
+    AttributeCommonInfo::AttrArgsInfo AttrArgsInfo =
+        AttributeCommonInfo::getCXX11AttrArgsInfo(II);
+    if (AttrArgsInfo == AttributeCommonInfo::AttrArgsInfo::Required)
+      return PP.isNextPPTokenLParen();
+
+    return !PP.isNextPPTokenLParen() ||
+           AttrArgsInfo == AttributeCommonInfo::AttrArgsInfo::Optional;
+  }
+  return false;
+}
+
 static MacroDiag shouldWarnOnMacroDef(Preprocessor &PP, IdentifierInfo *II) {
   const LangOptions &Lang = PP.getLangOpts();
   StringRef Text = II->getName();
@@ -182,6 +201,8 @@ static MacroDiag shouldWarnOnMacroDef(Preprocessor &PP, IdentifierInfo *II) {
     return MD_KeywordDef;
   if (Lang.CPlusPlus11 && (Text == "override" || Text == "final"))
     return MD_KeywordDef;
+  if (isReservedCXXAttributeName(PP, II))
+    return MD_ReservedAttributeIdentifier;
   return MD_NoWarn;
 }
 
@@ -190,6 +211,8 @@ static MacroDiag shouldWarnOnMacroUndef(Preprocessor &PP, IdentifierInfo *II) {
   // Do not warn on keyword undef.  It is generally harmless and widely used.
   if (isReservedInAllContexts(II->isReserved(Lang)))
     return MD_ReservedMacro;
+  if (isReservedCXXAttributeName(PP, II))
+    return MD_ReservedAttributeIdentifier;
   return MD_NoWarn;
 }
 
@@ -365,6 +388,9 @@ bool Preprocessor::CheckMacroName(Token &MacroNameTok, MacroUse isDefineUndef,
     }
     if (D == MD_ReservedMacro)
       Diag(MacroNameTok, diag::warn_pp_macro_is_reserved_id);
+    if (D == MD_ReservedAttributeIdentifier)
+      Diag(MacroNameTok, diag::warn_pp_macro_is_reserved_attribute_id)
+          << II->getName();
   }
 
   // Okay, we got a good identifier.
diff --git a/clang/lib/Lex/PPMacroExpansion.cpp b/clang/lib/Lex/PPMacroExpansion.cpp
index 347c13da0ad21..9cf29668f251f 100644
--- a/clang/lib/Lex/PPMacroExpansion.cpp
+++ b/clang/lib/Lex/PPMacroExpansion.cpp
@@ -1804,8 +1804,9 @@ void Preprocessor::ExpandBuiltinMacro(Token &Tok) {
                                            diag::err_feature_check_malformed);
         if (!II)
           return false;
-        else if (II->getBuiltinID() != 0) {
-          switch (II->getBuiltinID()) {
+        auto BuiltinID = II->getBuiltinID();
+        if (BuiltinID != 0) {
+          switch (BuiltinID) {
           case Builtin::BI__builtin_cpu_is:
             return getTargetInfo().supportsCpuIs();
           case Builtin::BI__builtin_cpu_init:
@@ -1818,8 +1819,11 @@ void Preprocessor::ExpandBuiltinMacro(Token &Tok) {
             // usual allocation and deallocation functions. Required by libc++
             return 201802;
           default:
+            // __has_builtin should return false for aux builtins.
+            if (getBuiltinInfo().isAuxBuiltinID(BuiltinID))
+              return false;
             return Builtin::evaluateRequiredTargetFeatures(
-                getBuiltinInfo().getRequiredFeatures(II->getBuiltinID()),
+                getBuiltinInfo().getRequiredFeatures(BuiltinID),
                 getTargetInfo().getTargetOpts().FeatureMap);
           }
           return true;
diff --git a/clang/lib/Sema/SemaLookup.cpp b/clang/lib/Sema/SemaLookup.cpp
index e18e3c197383e..5f8ffa71607bb 100644
--- a/clang/lib/Sema/SemaLookup.cpp
+++ b/clang/lib/Sema/SemaLookup.cpp
@@ -2914,7 +2914,57 @@ static void CollectEnclosingNamespace(Sema::AssociatedNamespaceSet &Namespaces,
   while (!Ctx->isFileContext() || Ctx->isInlineNamespace())
     Ctx = Ctx->getParent();
 
-  Namespaces.insert(Ctx->getPrimaryContext());
+  // Actually it is fine to always do `Namespaces.insert(Ctx);` simply. But it
+  // may cause more allocations in Namespaces and more unnecessary lookups. So
+  // we'd like to insert the representative namespace only.
+  DeclContext *PrimaryCtx = Ctx->getPrimaryContext();
+  Decl *PrimaryD = cast<Decl>(PrimaryCtx);
+  Decl *D = cast<Decl>(Ctx);
+  ASTContext &AST = D->getASTContext();
+
+  // TODO: Technically it is better to insert one namespace per module. e.g.,
+  //
+  // ```
+  // //--- first.cppm
+  // export module first;
+  // namespace ns { ... } // first namespace
+  //
+  // //--- m-partA.cppm
+  // export module m:partA;
+  // import first;
+  //
+  // namespace ns { ... }
+  // namespace ns { ... }
+  //
+  // //--- m-partB.cppm
+  // export module m:partB;
+  // import first;
+  // import :partA;
+  //
+  // namespace ns { ... }
+  // namespace ns { ... }
+  //
+  // ...
+  //
+  // //--- m-partN.cppm
+  // export module m:partN;
+  // import first;
+  // import :partA;
+  // ...
+  // import :part$(N-1);
+  //
+  // namespace ns { ... }
+  // namespace ns { ... }
+  //
+  // consume(ns::any_decl); // the lookup
+  // ```
+  //
+  // We should only insert once for all namespaces in module m.
+  if (D->isInNamedModule() &&
+      !AST.isInSameModule(D->getOwningModule(), PrimaryD->getOwningModule()))
+    Namespaces.insert(Ctx);
+  else
+    Namespaces.insert(PrimaryCtx);
 }
 
 // Add the associated classes and namespaces for argument-dependent
@@ -3675,7 +3725,9 @@ Sema::LookupLiteralOperator(Scope *S, LookupResult &R,
           TemplateArgumentLoc Arg(TemplateArgument(StringLit), StringLit);
           if (CheckTemplateArgument(
                   Params->getParam(0), Arg, FD, R.getNameLoc(), R.getNameLoc(),
-                  0, SugaredChecked, CanonicalChecked, CTAK_Specified) ||
+                  0, SugaredChecked, CanonicalChecked, CTAK_Specified,
+                  /*PartialOrdering=*/false,
+                  /*MatchedPackOnParmToNonPackOnArg=*/nullptr) ||
               Trap.hasErrorOccurred())
             IsTemplate = false;
         }
diff --git a/clang/lib/Sema/SemaOverload.cpp b/clang/lib/Sema/SemaOverload.cpp
index 23056ca5deba3..6ae9c51c06b31 100644
--- a/clang/lib/Sema/SemaOverload.cpp
+++ b/clang/lib/Sema/SemaOverload.cpp
@@ -6917,7 +6917,8 @@ void Sema::AddOverloadCandidate(
     OverloadCandidateSet &CandidateSet, bool SuppressUserConversions,
     bool PartialOverloading, bool AllowExplicit, bool AllowExplicitConversions,
     ADLCallKind IsADLCandidate, ConversionSequenceList EarlyConversions,
-    OverloadCandidateParamOrder PO, bool AggregateCandidateDeduction) {
+    OverloadCandidateParamOrder PO, bool AggregateCandidateDeduction,
+    bool HasMatchedPackOnParmToNonPackOnArg) {
   const FunctionProtoType *Proto
     = dyn_cast<FunctionProtoType>(Function->getType()->getAs<FunctionType>());
   assert(Proto && "Functions without a prototype cannot be overloaded");
@@ -6936,7 +6937,8 @@ void Sema::AddOverloadCandidate(
       AddMethodCandidate(Method, FoundDecl, Method->getParent(), QualType(),
                          Expr::Classification::makeSimpleLValue(), Args,
                          CandidateSet, SuppressUserConversions,
-                         PartialOverloading, EarlyConversions, PO);
+                         PartialOverloading, EarlyConversions, PO,
+                         HasMatchedPackOnParmToNonPackOnArg);
       return;
     }
     // We treat a constructor like a non-member function, since its object
@@ -6979,6 +6981,8 @@ void Sema::AddOverloadCandidate(
       CandidateSet.getRewriteInfo().getRewriteKind(Function, PO);
   Candidate.IsADLCandidate = llvm::to_underlying(IsADLCandidate);
   Candidate.ExplicitCallArguments = Args.size();
+  Candidate.HasMatchedPackOnParmToNonPackOnArg =
+      HasMatchedPackOnParmToNonPackOnArg;
 
   // Explicit functions are not actually candidates at all if we're not
   // allowing them in this context, but keep them around so we can point
@@ -7521,16 +7525,13 @@ void Sema::AddMethodCandidate(DeclAccessPair FoundDecl, QualType ObjectType,
   }
 }
 
-void
-Sema::AddMethodCandidate(CXXMethodDecl *Method, DeclAccessPair FoundDecl,
-                         CXXRecordDecl *ActingContext, QualType ObjectType,
-                         Expr::Classification ObjectClassification,
-                         ArrayRef<Expr *> Args,
-                         OverloadCandidateSet &CandidateSet,
-                         bool SuppressUserConversions,
-                         bool PartialOverloading,
-                         ConversionSequenceList EarlyConversions,
-                         OverloadCandidateParamOrder PO) {
+void Sema::AddMethodCandidate(
+    CXXMethodDecl *Method, DeclAccessPair FoundDecl,
+    CXXRecordDecl *ActingContext, QualType ObjectType,
+    Expr::Classification ObjectClassification, ArrayRef<Expr *> Args,
+    OverloadCandidateSet &CandidateSet, bool SuppressUserConversions,
+    bool PartialOverloading, ConversionSequenceList EarlyConversions,
+    OverloadCandidateParamOrder PO, bool HasMatchedPackOnParmToNonPackOnArg) {
   const FunctionProtoType *Proto
     = dyn_cast<FunctionProtoType>(Method->getType()->getAs<FunctionType>());
   assert(Proto && "Methods without a prototype cannot be overloaded");
@@ -7561,6 +7562,8 @@ Sema::AddMethodCandidate(CXXMethodDecl *Method, DeclAccessPair FoundDecl,
   Candidate.TookAddressOfOverload =
       CandidateSet.getKind() == OverloadCandidateSet::CSK_AddressOfOverloadSet;
   Candidate.ExplicitCallArguments = Args.size();
+  Candidate.HasMatchedPackOnParmToNonPackOnArg =
+      HasMatchedPackOnParmToNonPackOnArg;
 
   bool IgnoreExplicitObject =
       (Method->isExplicitObjectMemberFunction() &&
@@ -7731,8 +7734,8 @@ void Sema::AddMethodTemplateCandidate(
   ConversionSequenceList Conversions;
   if (TemplateDeductionResult Result = DeduceTemplateArguments(
           MethodTmpl, ExplicitTemplateArgs, Args, Specialization, Info,
-          PartialOverloading, /*AggregateDeductionCandidate=*/false, ObjectType,
-          ObjectClassification,
+          PartialOverloading, /*AggregateDeductionCandidate=*/false,
+          /*PartialOrdering=*/false, ObjectType, ObjectClassification,
           [&](ArrayRef<QualType> ParamTypes) {
             return CheckNonDependentConversions(
                 MethodTmpl, ParamTypes, Args, CandidateSet, Conversions,
@@ -7770,7 +7773,8 @@ void Sema::AddMethodTemplateCandidate(
   AddMethodCandidate(cast<CXXMethodDecl>(Specialization), FoundDecl,
                      ActingContext, ObjectType, ObjectClassification, Args,
                      CandidateSet, SuppressUserConversions, PartialOverloading,
-                     Conversions, PO);
+                     Conversions, PO,
+                     Info.hasMatchedPackOnParmToNonPackOnArg());
 }
 
 /// Determine whether a given function template has a simple explicit specifier
@@ -7816,6 +7820,7 @@ void Sema::AddTemplateOverloadCandidate(
   if (TemplateDeductionResult Result = DeduceTemplateArguments(
           FunctionTemplate, ExplicitTemplateArgs, Args, Specialization, Info,
           PartialOverloading, AggregateCandidateDeduction,
+          /*PartialOrdering=*/false,
           /*ObjectType=*/QualType(),
           /*ObjectClassification=*/Expr::Classification(),
           [&](ArrayRef<QualType> ParamTypes) {
@@ -7856,7 +7861,8 @@ void Sema::AddTemplateOverloadCandidate(
       Specialization, FoundDecl, Args, CandidateSet, SuppressUserConversions,
       PartialOverloading, AllowExplicit,
       /*AllowExplicitConversions=*/false, IsADLCandidate, Conversions, PO,
-      Info.AggregateDeductionCandidateHasMismatchedArity);
+      Info.AggregateDeductionCandidateHasMismatchedArity,
+      Info.hasMatchedPackOnParmToNonPackOnArg());
 }
 
 bool Sema::CheckNonDependentConversions(
@@ -7978,7 +7984,8 @@ void Sema::AddConversionCandidate(
     CXXConversionDecl *Conversion, DeclAccessPair FoundDecl,
     CXXRecordDecl *ActingContext, Expr *From, QualType ToType,
     OverloadCandidateSet &CandidateSet, bool AllowObjCConversionOnExplicit,
-    bool AllowExplicit, bool AllowResultConversion) {
+    bool AllowExplicit, bool AllowResultConversion,
+    bool HasMatchedPackOnParmToNonPackOnArg) {
   assert(!Conversion->getDescribedFunctionTemplate() &&
          "Conversion function templates use AddTemplateConversionCandidate");
   QualType ConvType = Conversion->getConversionType().getNonReferenceType();
@@ -8023,6 +8030,8 @@ void Sema::AddConversionCandidate(
   Candidate.FinalConversion.setAllToTypes(ToType);
   Candidate.Viable = true;
   Candidate.ExplicitCallArguments = 1;
+  Candidate.HasMatchedPackOnParmToNonPackOnArg =
+      HasMatchedPackOnParmToNonPackOnArg;
 
   // Explicit functions are not actually candidates at all if we're not
   // allowing them in this context, but keep them around so we can point
@@ -8224,7 +8233,8 @@ void Sema::AddTemplateConversionCandidate(
   assert(Specialization && "Missing function template specialization?");
   AddConversionCandidate(Specialization, FoundDecl, ActingDC, From, ToType,
                          CandidateSet, AllowObjCConversionOnExplicit,
-                         AllowExplicit, AllowResultConversion);
+                         AllowExplicit, AllowResultConversion,
+                         Info.hasMatchedPackOnParmToNonPackOnArg());
 }
 
 void Sema::AddSurrogateCandidate(CXXConversionDecl *Conversion,
@@ -10576,6 +10586,10 @@ bool clang::isBetterOverloadCandidate(
           isa<CXXConstructorDecl>(Cand2.Function))
     return isa<CXXConstructorDecl>(Cand1.Function);
 
+  if (Cand1.HasMatchedPackOnParmToNonPackOnArg !=
+      Cand2.HasMatchedPackOnParmToNonPackOnArg)
+    return Cand2.HasMatchedPackOnParmToNonPackOnArg;
+
   //    -- F1 is a non-template function and F2 is a function template
   //       specialization, or, if not that,
   bool Cand1IsSpecialization = Cand1.Function &&
diff --git a/clang/lib/Sema/SemaTemplate.cpp b/clang/lib/Sema/SemaTemplate.cpp
index 50b479052a25f..38196c5c2bc12 100644
--- a/clang/lib/Sema/SemaTemplate.cpp
+++ b/clang/lib/Sema/SemaTemplate.cpp
@@ -5204,7 +5204,8 @@ bool Sema::CheckTemplateArgument(
     unsigned ArgumentPackIndex,
     SmallVectorImpl<TemplateArgument> &SugaredConverted,
     SmallVectorImpl<TemplateArgument> &CanonicalConverted,
-    CheckTemplateArgumentKind CTAK) {
+    CheckTemplateArgumentKind CTAK, bool PartialOrdering,
+    bool *MatchedPackOnParmToNonPackOnArg) {
   // Check template type parameters.
   if (TemplateTypeParmDecl *TTP = dyn_cast<TemplateTypeParmDecl>(Param))
     return CheckTemplateTypeArgument(TTP, Arg, SugaredConverted,
@@ -5419,8 +5420,8 @@ bool Sema::CheckTemplateArgument(
 
   case TemplateArgument::Template:
   case TemplateArgument::TemplateExpansion:
-    if (CheckTemplateTemplateArgument(TempParm, Params, Arg,
-                                      /*IsDeduced=*/CTAK != CTAK_Specified))
+    if (CheckTemplateTemplateArgument(TempParm, Params, Arg, PartialOrdering,
+                                      MatchedPackOnParmToNonPackOnArg))
       return true;
 
     SugaredConverted.push_back(Arg.getArgument());
@@ -5494,7 +5495,7 @@ bool Sema::CheckTemplateArgumentList(
     SmallVectorImpl<TemplateArgument> &SugaredConverted,
     SmallVectorImpl<TemplateArgument> &CanonicalConverted,
     bool UpdateArgsWithConversions, bool *ConstraintsNotSatisfied,
-    bool PartialOrderingTTP) {
+    bool PartialOrderingTTP, bool *MatchedPackOnParmToNonPackOnArg) {
 
   if (ConstraintsNotSatisfied)
     *ConstraintsNotSatisfied = false;
@@ -5508,7 +5509,7 @@ bool Sema::CheckTemplateArgumentList(
 
   SourceLocation RAngleLoc = NewArgs.getRAngleLoc();
 
-  // C++ [temp.arg]p1:
+  // C++23 [temp.arg.general]p1:
   //   [...] The type and form of each template-argument specified in
   //   a template-id shall match the type and form specified for the
   //   corresponding parameter declared by the template in its
@@ -5527,8 +5528,7 @@ bool Sema::CheckTemplateArgumentList(
         DefaultArgs && ParamIdx >= DefaultArgs.StartPos) {
       // All written arguments should have been consumed by this point.
       assert(ArgIdx == NumArgs && "bad default argument deduction");
-      // FIXME: Don't ignore parameter packs.
-      if (ParamIdx == DefaultArgs.StartPos && !(*Param)->isParameterPack()) {
+      if (ParamIdx == DefaultArgs.StartPos) {
         assert(Param + DefaultArgs.Args.size() <= ParamEnd);
         // Default arguments from a DeducedTemplateName are already converted.
         for (const TemplateArgument &DefArg : DefaultArgs.Args) {
@@ -5570,60 +5570,69 @@ bool Sema::CheckTemplateArgumentList(
     }
 
     if (ArgIdx < NumArgs) {
-      // Check the template argument we were given.
-      if (CheckTemplateArgument(*Param, NewArgs[ArgIdx], Template, TemplateLoc,
-                                RAngleLoc, SugaredArgumentPack.size(),
-                                SugaredConverted, CanonicalConverted,
-                                CTAK_Specified))
-        return true;
-
-      CanonicalConverted.back().setIsDefaulted(
-          clang::isSubstitutedDefaultArgument(
-              Context, NewArgs[ArgIdx].getArgument(), *Param,
-              CanonicalConverted, Params->getDepth()));
-
-      bool PackExpansionIntoNonPack =
-          NewArgs[ArgIdx].getArgument().isPackExpansion() &&
-          (!(*Param)->isTemplateParameterPack() || getExpandedPackSize(*Param));
-      // CWG1430: Don't diagnose this pack expansion when partial
-      // ordering template template parameters. Some uses of the template could
-      // be valid, and invalid uses will be diagnosed later during
-      // instantiation.
-      if (PackExpansionIntoNonPack && !PartialOrderingTTP &&
-          (isa<TypeAliasTemplateDecl>(Template) ||
-           isa<ConceptDecl>(Template))) {
-        // CWG1430: we have a pack expansion as an argument to an
-        // alias template, and it's not part of a parameter pack. This
-        // can't be canonicalized, so reject it now.
-        // As for concepts - we cannot normalize constraints where this
-        // situation exists.
-        Diag(NewArgs[ArgIdx].getLocation(),
-             diag::err_template_expansion_into_fixed_list)
-          << (isa<ConceptDecl>(Template) ? 1 : 0)
-          << NewArgs[ArgIdx].getSourceRange();
-        NoteTemplateParameterLocation(**Param);
-        return true;
+      TemplateArgumentLoc &ArgLoc = NewArgs[ArgIdx];
+      bool NonPackParameter =
+          !(*Param)->isTemplateParameterPack() || getExpandedPackSize(*Param);
+      bool ArgIsExpansion = ArgLoc.getArgument().isPackExpansion();
+
+      if (ArgIsExpansion && PartialOrderingTTP) {
+        SmallVector<TemplateArgument, 4> Args(ParamEnd - Param);
+        for (TemplateParameterList::iterator First = Param; Param != ParamEnd;
+             ++Param) {
+          TemplateArgument &Arg = Args[Param - First];
+          Arg = ArgLoc.getArgument();
+          if (!(*Param)->isTemplateParameterPack() ||
+              getExpandedPackSize(*Param))
+            Arg = Arg.getPackExpansionPattern();
+          TemplateArgumentLoc NewArgLoc(Arg, ArgLoc.getLocInfo());
+          if (CheckTemplateArgument(*Param, NewArgLoc, Template, TemplateLoc,
+                                    RAngleLoc, SugaredArgumentPack.size(),
+                                    SugaredConverted, CanonicalConverted,
+                                    CTAK_Specified, /*PartialOrdering=*/false,
+                                    MatchedPackOnParmToNonPackOnArg))
+            return true;
+          Arg = NewArgLoc.getArgument();
+          CanonicalConverted.back().setIsDefaulted(
+              clang::isSubstitutedDefaultArgument(Context, Arg, *Param,
+                                                  CanonicalConverted,
+                                                  Params->getDepth()));
+        }
+        ArgLoc =
+            TemplateArgumentLoc(TemplateArgument::CreatePackCopy(Context, Args),
+                                ArgLoc.getLocInfo());
+      } else {
+        if (CheckTemplateArgument(*Param, ArgLoc, Template, TemplateLoc,
+                                  RAngleLoc, SugaredArgumentPack.size(),
+                                  SugaredConverted, CanonicalConverted,
+                                  CTAK_Specified, /*PartialOrdering=*/false,
+                                  MatchedPackOnParmToNonPackOnArg))
+          return true;
+        CanonicalConverted.back().setIsDefaulted(
+            clang::isSubstitutedDefaultArgument(Context, ArgLoc.getArgument(),
+                                                *Param, CanonicalConverted,
+                                                Params->getDepth()));
+        if (ArgIsExpansion && NonPackParameter) {
+          // CWG1430/CWG2686: we have a pack expansion as an argument to an
+          // alias template or concept, and it's not part of a parameter pack.
+          // This can't be canonicalized, so reject it now.
+          if (isa<TypeAliasTemplateDecl, ConceptDecl>(Template)) {
+            Diag(ArgLoc.getLocation(),
+                 diag::err_template_expansion_into_fixed_list)
+                << (isa<ConceptDecl>(Template) ? 1 : 0)
+                << ArgLoc.getSourceRange();
+            NoteTemplateParameterLocation(**Param);
+            return true;
+          }
+        }
       }
 
       // We're now done with this argument.
       ++ArgIdx;
 
-      if ((*Param)->isTemplateParameterPack()) {
-        // The template parameter was a template parameter pack, so take the
-        // deduced argument and place it on the argument pack. Note that we
-        // stay on the same template parameter so that we can deduce more
-        // arguments.
-        SugaredArgumentPack.push_back(SugaredConverted.pop_back_val());
-        CanonicalArgumentPack.push_back(CanonicalConverted.pop_back_val());
-      } else {
-        // Move to the next template parameter.
-        ++Param;
-      }
+      if (ArgIsExpansion && (PartialOrderingTTP || NonPackParameter)) {
+        // Directly convert the remaining arguments, because we don't know what
+        // parameters they'll match up with.
 
-      // If we just saw a pack expansion into a non-pack, then directly convert
-      // the remaining arguments, because we don't know what parameters they'll
-      // match up with.
-      if (PackExpansionIntoNonPack) {
         if (!SugaredArgumentPack.empty()) {
           // If we were part way through filling in an expanded parameter pack,
           // fall back to just producing individual arguments.
@@ -5649,6 +5658,17 @@ bool Sema::CheckTemplateArgumentList(
         return false;
       }
 
+      if ((*Param)->isTemplateParameterPack()) {
+        // The template parameter was a template parameter pack, so take the
+        // deduced argument and place it on the argument pack. Note that we
+        // stay on the same template parameter so that we can deduce more
+        // arguments.
+        SugaredArgumentPack.push_back(SugaredConverted.pop_back_val());
+        CanonicalArgumentPack.push_back(CanonicalConverted.pop_back_val());
+      } else {
+        // Move to the next template parameter.
+        ++Param;
+      }
       continue;
     }
 
@@ -5732,7 +5752,8 @@ bool Sema::CheckTemplateArgumentList(
     // Check the default template argument.
     if (CheckTemplateArgument(*Param, Arg, Template, TemplateLoc, RAngleLoc, 0,
                               SugaredConverted, CanonicalConverted,
-                              CTAK_Specified))
+                              CTAK_Specified, /*PartialOrdering=*/false,
+                              /*MatchedPackOnParmToNonPackOnArg=*/nullptr))
       return true;
 
     SugaredConverted.back().setIsDefaulted(true);
@@ -5753,8 +5774,9 @@ bool Sema::CheckTemplateArgumentList(
   // pack expansions; they might be empty. This can happen even if
   // PartialTemplateArgs is false (the list of arguments is complete but
   // still dependent).
-  if (ArgIdx < NumArgs && CurrentInstantiationScope &&
-      CurrentInstantiationScope->getPartiallySubstitutedPack()) {
+  if (PartialOrderingTTP ||
+      (CurrentInstantiationScope &&
+       CurrentInstantiationScope->getPartiallySubstitutedPack())) {
     while (ArgIdx < NumArgs &&
            NewArgs[ArgIdx].getArgument().isPackExpansion()) {
       const TemplateArgument &Arg = NewArgs[ArgIdx++].getArgument();
@@ -7321,10 +7343,10 @@ static void DiagnoseTemplateParameterListArityMismatch(
     Sema &S, TemplateParameterList *New, TemplateParameterList *Old,
     Sema::TemplateParameterListEqualKind Kind, SourceLocation TemplateArgLoc);
 
-bool Sema::CheckTemplateTemplateArgument(TemplateTemplateParmDecl *Param,
-                                         TemplateParameterList *Params,
-                                         TemplateArgumentLoc &Arg,
-                                         bool IsDeduced) {
+bool Sema::CheckTemplateTemplateArgument(
+    TemplateTemplateParmDecl *Param, TemplateParameterList *Params,
+    TemplateArgumentLoc &Arg, bool PartialOrdering,
+    bool *MatchedPackOnParmToNonPackOnArg) {
   TemplateName Name = Arg.getArgument().getAsTemplateOrTemplatePattern();
   auto [Template, DefaultArgs] = Name.getTemplateDeclAndDefaultArgs();
   if (!Template) {
@@ -7359,64 +7381,47 @@ bool Sema::CheckTemplateTemplateArgument(TemplateTemplateParmDecl *Param,
       << Template;
   }
 
+  if (!getLangOpts().RelaxedTemplateTemplateArgs)
+    return !TemplateParameterListsAreEqual(
+        Template->getTemplateParameters(), Params, /*Complain=*/true,
+        TPL_TemplateTemplateArgumentMatch, Arg.getLocation());
+
   // C++1z [temp.arg.template]p3: (DR 150)
   //   A template-argument matches a template template-parameter P when P
   //   is at least as specialized as the template-argument A.
-  if (getLangOpts().RelaxedTemplateTemplateArgs) {
-    // Quick check for the common case:
-    //   If P contains a parameter pack, then A [...] matches P if each of A's
-    //   template parameters matches the corresponding template parameter in
-    //   the template-parameter-list of P.
-    if (TemplateParameterListsAreEqual(
-            Template->getTemplateParameters(), Params, false,
-            TPL_TemplateTemplateArgumentMatch, Arg.getLocation()) &&
-        // If the argument has no associated constraints, then the parameter is
-        // definitely at least as specialized as the argument.
-        // Otherwise - we need a more thorough check.
-        !Template->hasAssociatedConstraints())
-      return false;
-
-    if (isTemplateTemplateParameterAtLeastAsSpecializedAs(
-            Params, Template, DefaultArgs, Arg.getLocation(), IsDeduced)) {
-      // P2113
-      // C++20[temp.func.order]p2
-      //   [...] If both deductions succeed, the partial ordering selects the
-      // more constrained template (if one exists) as determined below.
-      SmallVector<const Expr *, 3> ParamsAC, TemplateAC;
-      Params->getAssociatedConstraints(ParamsAC);
-      // C++2a[temp.arg.template]p3
-      //   [...] In this comparison, if P is unconstrained, the constraints on A
-      //   are not considered.
-      if (ParamsAC.empty())
-        return false;
+  if (!isTemplateTemplateParameterAtLeastAsSpecializedAs(
+          Params, Param, Template, DefaultArgs, Arg.getLocation(),
+          PartialOrdering, MatchedPackOnParmToNonPackOnArg))
+    return true;
+  // P2113
+  // C++20[temp.func.order]p2
+  //   [...] If both deductions succeed, the partial ordering selects the
+  // more constrained template (if one exists) as determined below.
+  SmallVector<const Expr *, 3> ParamsAC, TemplateAC;
+  Params->getAssociatedConstraints(ParamsAC);
+  // C++20[temp.arg.template]p3
+  //   [...] In this comparison, if P is unconstrained, the constraints on A
+  //   are not considered.
+  if (ParamsAC.empty())
+    return false;
 
-      Template->getAssociatedConstraints(TemplateAC);
+  Template->getAssociatedConstraints(TemplateAC);
 
-      bool IsParamAtLeastAsConstrained;
-      if (IsAtLeastAsConstrained(Param, ParamsAC, Template, TemplateAC,
-                                 IsParamAtLeastAsConstrained))
-        return true;
-      if (!IsParamAtLeastAsConstrained) {
-        Diag(Arg.getLocation(),
-             diag::err_template_template_parameter_not_at_least_as_constrained)
-            << Template << Param << Arg.getSourceRange();
-        Diag(Param->getLocation(), diag::note_entity_declared_at) << Param;
-        Diag(Template->getLocation(), diag::note_entity_declared_at)
-            << Template;
-        MaybeEmitAmbiguousAtomicConstraintsDiagnostic(Param, ParamsAC, Template,
-                                                      TemplateAC);
-        return true;
-      }
-      return false;
-    }
-    // FIXME: Produce better diagnostics for deduction failures.
+  bool IsParamAtLeastAsConstrained;
+  if (IsAtLeastAsConstrained(Param, ParamsAC, Template, TemplateAC,
+                             IsParamAtLeastAsConstrained))
+    return true;
+  if (!IsParamAtLeastAsConstrained) {
+    Diag(Arg.getLocation(),
+         diag::err_template_template_parameter_not_at_least_as_constrained)
+        << Template << Param << Arg.getSourceRange();
+    Diag(Param->getLocation(), diag::note_entity_declared_at) << Param;
+    Diag(Template->getLocation(), diag::note_entity_declared_at) << Template;
+    MaybeEmitAmbiguousAtomicConstraintsDiagnostic(Param, ParamsAC, Template,
+                                                  TemplateAC);
+    return true;
   }
-
-  return !TemplateParameterListsAreEqual(Template->getTemplateParameters(),
-                                         Params,
-                                         true,
-                                         TPL_TemplateTemplateArgumentMatch,
-                                         Arg.getLocation());
+  return false;
 }
 
 static Sema::SemaDiagnosticBuilder noteLocation(Sema &S, const NamedDecl &Decl,
@@ -9816,11 +9821,14 @@ DeclResult Sema::ActOnExplicitInstantiation(
 
   // Check that the template argument list is well-formed for this
   // template.
+  bool PrimaryHasMatchedPackOnParmToNonPackOnArg = false;
   SmallVector<TemplateArgument, 4> SugaredConverted, CanonicalConverted;
-  if (CheckTemplateArgumentList(ClassTemplate, TemplateNameLoc, TemplateArgs,
-                                /*DefaultArgs=*/{}, false, SugaredConverted,
-                                CanonicalConverted,
-                                /*UpdateArgsWithConversions=*/true))
+  if (CheckTemplateArgumentList(
+          ClassTemplate, TemplateNameLoc, TemplateArgs,
+          /*DefaultArgs=*/{}, false, SugaredConverted, CanonicalConverted,
+          /*UpdateArgsWithConversions=*/true,
+          /*ConstraintsNotSatisfied=*/nullptr, /*PartialOrderingTTP=*/false,
+          &PrimaryHasMatchedPackOnParmToNonPackOnArg))
     return true;
 
   // Find the class template specialization declaration that
@@ -9941,7 +9949,9 @@ DeclResult Sema::ActOnExplicitInstantiation(
     = cast_or_null<ClassTemplateSpecializationDecl>(
                                               Specialization->getDefinition());
   if (!Def)
-    InstantiateClassTemplateSpecialization(TemplateNameLoc, Specialization, TSK);
+    InstantiateClassTemplateSpecialization(
+        TemplateNameLoc, Specialization, TSK,
+        /*Complain=*/true, PrimaryHasMatchedPackOnParmToNonPackOnArg);
   else if (TSK == TSK_ExplicitInstantiationDefinition) {
     MarkVTableUsed(TemplateNameLoc, Specialization, true);
     Specialization->setPointOfInstantiation(Def->getPointOfInstantiation());
diff --git a/clang/lib/Sema/SemaTemplateDeduction.cpp b/clang/lib/Sema/SemaTemplateDeduction.cpp
index 1c1f6e30ab7b8..7882d7a755d34 100644
--- a/clang/lib/Sema/SemaTemplateDeduction.cpp
+++ b/clang/lib/Sema/SemaTemplateDeduction.cpp
@@ -145,7 +145,9 @@ static TemplateDeductionResult DeduceTemplateArgumentsByTypeMatch(
     PartialOrderingKind POK, bool DeducedFromArrayBound,
     bool *HasDeducedAnyParam);
 
-enum class PackFold { ParameterToArgument, ArgumentToParameter };
+/// What directions packs are allowed to match non-packs.
+enum class PackFold { ParameterToArgument, ArgumentToParameter, Both };
+
 static TemplateDeductionResult
 DeduceTemplateArguments(Sema &S, TemplateParameterList *TemplateParams,
                         ArrayRef<TemplateArgument> Ps,
@@ -1715,7 +1717,21 @@ static TemplateDeductionResult DeduceTemplateArgumentsByTypeMatch(
     DeducedTemplateArgument Result =
         checkDeducedTemplateArguments(S.Context, Deduced[Index], NewDeduced);
     if (Result.isNull()) {
-      Info.Param = cast<TemplateTypeParmDecl>(TemplateParams->getParam(Index));
+      // We can also get inconsistencies when matching NTTP type.
+      switch (NamedDecl *Param = TemplateParams->getParam(Index);
+              Param->getKind()) {
+      case Decl::TemplateTypeParm:
+        Info.Param = cast<TemplateTypeParmDecl>(Param);
+        break;
+      case Decl::NonTypeTemplateParm:
+        Info.Param = cast<NonTypeTemplateParmDecl>(Param);
+        break;
+      case Decl::TemplateTemplateParm:
+        Info.Param = cast<TemplateTemplateParmDecl>(Param);
+        break;
+      default:
+        llvm_unreachable("unexpected kind");
+      }
       Info.FirstArg = Deduced[Index];
       Info.SecondArg = NewDeduced;
       return TemplateDeductionResult::Inconsistent;
@@ -2555,8 +2571,31 @@ DeduceTemplateArguments(Sema &S, TemplateParameterList *TemplateParams,
     if (const NonTypeTemplateParmDecl *NTTP =
             getDeducedParameterFromExpr(Info, P.getAsExpr())) {
       switch (A.getKind()) {
+      case TemplateArgument::Expression: {
+        const Expr *E = A.getAsExpr();
+        // When checking NTTP, if either the parameter or the argument is
+        // dependent, as there would be otherwise nothing to deduce, we force
+        // the argument to the parameter type using this dependent implicit
+        // cast, in order to maintain invariants. Now we can deduce the
+        // resulting type from the original type, and deduce the original type
+        // against the parameter we are checking.
+        if (const auto *ICE = dyn_cast<ImplicitCastExpr>(E);
+            ICE && ICE->getCastKind() == clang::CK_Dependent) {
+          E = ICE->getSubExpr();
+          if (auto Result = DeduceTemplateArgumentsByTypeMatch(
+                  S, TemplateParams, ICE->getType(), E->getType(), Info,
+                  Deduced, TDF_SkipNonDependent,
+                  PartialOrdering ? PartialOrderingKind::NonCall
+                                  : PartialOrderingKind::None,
+                  /*DeducedFromArrayBound=*/false, HasDeducedAnyParam);
+              Result != TemplateDeductionResult::Success)
+            return Result;
+        }
+        return DeduceNonTypeTemplateArgument(
+            S, TemplateParams, NTTP, DeducedTemplateArgument(A), E->getType(),
+            Info, PartialOrdering, Deduced, HasDeducedAnyParam);
+      }
       case TemplateArgument::Integral:
-      case TemplateArgument::Expression:
       case TemplateArgument::StructuralValue:
         return DeduceNonTypeTemplateArgument(
             S, TemplateParams, NTTP, DeducedTemplateArgument(A),
@@ -2645,50 +2684,72 @@ DeduceTemplateArguments(Sema &S, TemplateParameterList *TemplateParams,
                         SmallVectorImpl<DeducedTemplateArgument> &Deduced,
                         bool NumberOfArgumentsMustMatch, bool PartialOrdering,
                         PackFold PackFold, bool *HasDeducedAnyParam) {
-  if (PackFold == PackFold::ArgumentToParameter)
-    std::swap(Ps, As);
+  bool FoldPackParameter = PackFold == PackFold::ParameterToArgument ||
+                           PackFold == PackFold::Both,
+       FoldPackArgument = PackFold == PackFold::ArgumentToParameter ||
+                          PackFold == PackFold::Both;
+
   // C++0x [temp.deduct.type]p9:
   //   If the template argument list of P contains a pack expansion that is not
   //   the last template argument, the entire template argument list is a
   //   non-deduced context.
-  if (hasPackExpansionBeforeEnd(Ps))
+  if (FoldPackParameter && hasPackExpansionBeforeEnd(Ps))
     return TemplateDeductionResult::Success;
 
   // C++0x [temp.deduct.type]p9:
   //   If P has a form that contains <T> or <i>, then each argument Pi of the
   //   respective template argument list P is compared with the corresponding
   //   argument Ai of the corresponding template argument list of A.
-  unsigned ArgIdx = 0, ParamIdx = 0;
-  for (; hasTemplateArgumentForDeduction(Ps, ParamIdx); ++ParamIdx) {
-    const TemplateArgument &P = Ps[ParamIdx];
-    if (!P.isPackExpansion()) {
+  for (unsigned ArgIdx = 0, ParamIdx = 0; /**/; /**/) {
+    if (!hasTemplateArgumentForDeduction(Ps, ParamIdx))
+      return !FoldPackParameter && hasTemplateArgumentForDeduction(As, ArgIdx)
+                 ? TemplateDeductionResult::MiscellaneousDeductionFailure
+                 : TemplateDeductionResult::Success;
+
+    if (!Ps[ParamIdx].isPackExpansion()) {
       // The simple case: deduce template arguments by matching Pi and Ai.
 
       // Check whether we have enough arguments.
       if (!hasTemplateArgumentForDeduction(As, ArgIdx))
-        return NumberOfArgumentsMustMatch
+        return !FoldPackArgument && NumberOfArgumentsMustMatch
                    ? TemplateDeductionResult::MiscellaneousDeductionFailure
                    : TemplateDeductionResult::Success;
 
-      // C++1z [temp.deduct.type]p9:
-      //   During partial ordering, if Ai was originally a pack expansion [and]
-      //   Pi is not a pack expansion, template argument deduction fails.
-      if (As[ArgIdx].isPackExpansion())
-        return TemplateDeductionResult::MiscellaneousDeductionFailure;
+      if (As[ArgIdx].isPackExpansion()) {
+        // C++1z [temp.deduct.type]p9:
+        //   During partial ordering, if Ai was originally a pack expansion
+        //   [and] Pi is not a pack expansion, template argument deduction
+        //   fails.
+        if (!FoldPackArgument)
+          return TemplateDeductionResult::MiscellaneousDeductionFailure;
+
+        TemplateArgument Pattern = As[ArgIdx].getPackExpansionPattern();
+        for (;;) {
+          // Deduce template parameters from the pattern.
+          if (auto Result = DeduceTemplateArguments(
+                  S, TemplateParams, Ps[ParamIdx], Pattern, Info,
+                  PartialOrdering, Deduced, HasDeducedAnyParam);
+              Result != TemplateDeductionResult::Success)
+            return Result;
 
-      // Perform deduction for this Pi/Ai pair.
-      TemplateArgument Pi = P, Ai = As[ArgIdx];
-      if (PackFold == PackFold::ArgumentToParameter)
-        std::swap(Pi, Ai);
-      if (auto Result = DeduceTemplateArguments(S, TemplateParams, Pi, Ai, Info,
-                                                PartialOrdering, Deduced,
-                                                HasDeducedAnyParam);
-          Result != TemplateDeductionResult::Success)
-        return Result;
+          ++ParamIdx;
+          if (!hasTemplateArgumentForDeduction(Ps, ParamIdx))
+            return TemplateDeductionResult::Success;
+          if (Ps[ParamIdx].isPackExpansion())
+            break;
+        }
+      } else {
+        // Perform deduction for this Pi/Ai pair.
+        if (auto Result = DeduceTemplateArguments(
+                S, TemplateParams, Ps[ParamIdx], As[ArgIdx], Info,
+                PartialOrdering, Deduced, HasDeducedAnyParam);
+            Result != TemplateDeductionResult::Success)
+          return Result;
 
-      // Move to the next argument.
-      ++ArgIdx;
-      continue;
+        ++ArgIdx;
+        ++ParamIdx;
+        continue;
+      }
     }
 
     // The parameter is a pack expansion.
@@ -2698,7 +2759,7 @@ DeduceTemplateArguments(Sema &S, TemplateParameterList *TemplateParams,
     //   each remaining argument in the template argument list of A. Each
     //   comparison deduces template arguments for subsequent positions in the
     //   template parameter packs expanded by Pi.
-    TemplateArgument Pattern = P.getPackExpansionPattern();
+    TemplateArgument Pattern = Ps[ParamIdx].getPackExpansionPattern();
 
     // Prepare to deduce the packs within the pattern.
     PackDeductionScope PackScope(S, TemplateParams, Deduced, Info, Pattern);
@@ -2709,13 +2770,16 @@ DeduceTemplateArguments(Sema &S, TemplateParameterList *TemplateParams,
     for (; hasTemplateArgumentForDeduction(As, ArgIdx) &&
            PackScope.hasNextElement();
          ++ArgIdx) {
-      TemplateArgument Pi = Pattern, Ai = As[ArgIdx];
-      if (PackFold == PackFold::ArgumentToParameter)
-        std::swap(Pi, Ai);
+      if (!As[ArgIdx].isPackExpansion()) {
+        if (!FoldPackParameter)
+          return TemplateDeductionResult::MiscellaneousDeductionFailure;
+        if (FoldPackArgument)
+          Info.setMatchedPackOnParmToNonPackOnArg();
+      }
       // Deduce template arguments from the pattern.
-      if (auto Result = DeduceTemplateArguments(S, TemplateParams, Pi, Ai, Info,
-                                                PartialOrdering, Deduced,
-                                                HasDeducedAnyParam);
+      if (auto Result = DeduceTemplateArguments(
+              S, TemplateParams, Pattern, As[ArgIdx], Info, PartialOrdering,
+              Deduced, HasDeducedAnyParam);
           Result != TemplateDeductionResult::Success)
         return Result;
 
@@ -2724,12 +2788,8 @@ DeduceTemplateArguments(Sema &S, TemplateParameterList *TemplateParams,
 
     // Build argument packs for each of the parameter packs expanded by this
     // pack expansion.
-    if (auto Result = PackScope.finish();
-        Result != TemplateDeductionResult::Success)
-      return Result;
+    return PackScope.finish();
   }
-
-  return TemplateDeductionResult::Success;
 }
 
 TemplateDeductionResult Sema::DeduceTemplateArguments(
@@ -2898,7 +2958,7 @@ Sema::getIdentityTemplateArgumentLoc(NamedDecl *TemplateParm,
 /// fully-converted template arguments.
 static bool ConvertDeducedTemplateArgument(
     Sema &S, NamedDecl *Param, DeducedTemplateArgument Arg, NamedDecl *Template,
-    TemplateDeductionInfo &Info, bool IsDeduced,
+    TemplateDeductionInfo &Info, bool IsDeduced, bool PartialOrdering,
     SmallVectorImpl<TemplateArgument> &SugaredOutput,
     SmallVectorImpl<TemplateArgument> &CanonicalOutput) {
   auto ConvertArg = [&](DeducedTemplateArgument Arg,
@@ -2909,15 +2969,20 @@ static bool ConvertDeducedTemplateArgument(
     TemplateArgumentLoc ArgLoc = S.getTrivialTemplateArgumentLoc(
         Arg, QualType(), Info.getLocation(), Param);
 
+    bool MatchedPackOnParmToNonPackOnArg = false;
     // Check the template argument, converting it as necessary.
-    return S.CheckTemplateArgument(
+    auto Res = S.CheckTemplateArgument(
         Param, ArgLoc, Template, Template->getLocation(),
         Template->getSourceRange().getEnd(), ArgumentPackIndex, SugaredOutput,
         CanonicalOutput,
         IsDeduced
             ? (Arg.wasDeducedFromArrayBound() ? Sema::CTAK_DeducedFromArrayBound
                                               : Sema::CTAK_Deduced)
-            : Sema::CTAK_Specified);
+            : Sema::CTAK_Specified,
+        PartialOrdering, &MatchedPackOnParmToNonPackOnArg);
+    if (MatchedPackOnParmToNonPackOnArg)
+      Info.setMatchedPackOnParmToNonPackOnArg();
+    return Res;
   };
 
   if (Arg.getKind() == TemplateArgument::Pack) {
@@ -3000,9 +3065,9 @@ static TemplateDeductionResult ConvertDeducedTemplateArguments(
     SmallVectorImpl<DeducedTemplateArgument> &Deduced,
     TemplateDeductionInfo &Info,
     SmallVectorImpl<TemplateArgument> &SugaredBuilder,
-    SmallVectorImpl<TemplateArgument> &CanonicalBuilder,
-    LocalInstantiationScope *CurrentInstantiationScope = nullptr,
-    unsigned NumAlreadyConverted = 0, bool *IsIncomplete = nullptr) {
+    SmallVectorImpl<TemplateArgument> &CanonicalBuilder, bool PartialOrdering,
+    LocalInstantiationScope *CurrentInstantiationScope,
+    unsigned NumAlreadyConverted, bool *IsIncomplete) {
   TemplateParameterList *TemplateParams = Template->getTemplateParameters();
 
   for (unsigned I = 0, N = TemplateParams->size(); I != N; ++I) {
@@ -3045,8 +3110,8 @@ static TemplateDeductionResult ConvertDeducedTemplateArguments(
       // We may have deduced this argument, so it still needs to be
       // checked and converted.
       if (ConvertDeducedTemplateArgument(S, Param, Deduced[I], Template, Info,
-                                         IsDeduced, SugaredBuilder,
-                                         CanonicalBuilder)) {
+                                         IsDeduced, PartialOrdering,
+                                         SugaredBuilder, CanonicalBuilder)) {
         Info.Param = makeTemplateParameter(Param);
         // FIXME: These template arguments are temporary. Free them!
         Info.reset(
@@ -3112,7 +3177,9 @@ static TemplateDeductionResult ConvertDeducedTemplateArguments(
     // Check whether we can actually use the default argument.
     if (S.CheckTemplateArgument(
             Param, DefArg, TD, TD->getLocation(), TD->getSourceRange().getEnd(),
-            0, SugaredBuilder, CanonicalBuilder, Sema::CTAK_Specified)) {
+            /*ArgumentPackIndex=*/0, SugaredBuilder, CanonicalBuilder,
+            Sema::CTAK_Specified, /*PartialOrdering=*/false,
+            /*MatchedPackOnParmToNonPackOnArg=*/nullptr)) {
       Info.Param = makeTemplateParameter(
                          const_cast<NamedDecl *>(TemplateParams->getParam(I)));
       // FIXME: These template arguments are temporary. Free them!
@@ -3220,7 +3287,9 @@ FinishTemplateArgumentDeduction(
   SmallVector<TemplateArgument, 4> SugaredBuilder, CanonicalBuilder;
   if (auto Result = ConvertDeducedTemplateArguments(
           S, Partial, IsPartialOrdering, Deduced, Info, SugaredBuilder,
-          CanonicalBuilder);
+          CanonicalBuilder, IsPartialOrdering,
+          /*CurrentInstantiationScope=*/nullptr, /*NumAlreadyConverted=*/0,
+          /*IsIncomplete=*/nullptr);
       Result != TemplateDeductionResult::Success)
     return Result;
 
@@ -3261,16 +3330,20 @@ FinishTemplateArgumentDeduction(
     return TemplateDeductionResult::SubstitutionFailure;
   }
 
+  bool MatchedPackOnParmToNonPackOnArg = false;
   bool ConstraintsNotSatisfied;
   SmallVector<TemplateArgument, 4> SugaredConvertedInstArgs,
       CanonicalConvertedInstArgs;
   if (S.CheckTemplateArgumentList(
           Template, Partial->getLocation(), InstArgs, /*DefaultArgs=*/{}, false,
           SugaredConvertedInstArgs, CanonicalConvertedInstArgs,
-          /*UpdateArgsWithConversions=*/true, &ConstraintsNotSatisfied))
+          /*UpdateArgsWithConversions=*/true, &ConstraintsNotSatisfied,
+          /*PartialOrderingTTP=*/false, &MatchedPackOnParmToNonPackOnArg))
     return ConstraintsNotSatisfied
                ? TemplateDeductionResult::ConstraintsNotSatisfied
                : TemplateDeductionResult::SubstitutionFailure;
+  if (MatchedPackOnParmToNonPackOnArg)
+    Info.setMatchedPackOnParmToNonPackOnArg();
 
   TemplateParameterList *TemplateParams = Template->getTemplateParameters();
   for (unsigned I = 0, E = TemplateParams->size(); I != E; ++I) {
@@ -3308,7 +3381,6 @@ static TemplateDeductionResult FinishTemplateArgumentDeduction(
   // Unevaluated SFINAE context.
   EnterExpressionEvaluationContext Unevaluated(
       S, Sema::ExpressionEvaluationContext::Unevaluated);
-  Sema::SFINAETrap Trap(S);
 
   Sema::ContextRAII SavedContext(S, getAsDeclContextOrEnclosing(Template));
 
@@ -3317,28 +3389,69 @@ static TemplateDeductionResult FinishTemplateArgumentDeduction(
   //   explicitly specified, template argument deduction fails.
   SmallVector<TemplateArgument, 4> SugaredBuilder, CanonicalBuilder;
   if (auto Result = ConvertDeducedTemplateArguments(
-          S, Template, /*IsDeduced*/ PartialOrdering, Deduced, Info,
-          SugaredBuilder, CanonicalBuilder,
+          S, Template, /*IsDeduced=*/PartialOrdering, Deduced, Info,
+          SugaredBuilder, CanonicalBuilder, PartialOrdering,
           /*CurrentInstantiationScope=*/nullptr,
-          /*NumAlreadyConverted=*/0U);
+          /*NumAlreadyConverted=*/0U, /*IsIncomplete=*/nullptr);
       Result != TemplateDeductionResult::Success)
     return Result;
 
   // Check that we produced the correct argument list.
-  TemplateParameterList *TemplateParams = Template->getTemplateParameters();
-  for (unsigned I = 0, E = TemplateParams->size(); I != E; ++I) {
-    TemplateArgument InstArg = CanonicalBuilder[I];
-    if (!isSameTemplateArg(S.Context, TemplateArgs[I], InstArg, PartialOrdering,
-                           /*PackExpansionMatchesPack=*/true)) {
-      Info.Param = makeTemplateParameter(TemplateParams->getParam(I));
-      Info.FirstArg = TemplateArgs[I];
-      Info.SecondArg = InstArg;
-      return TemplateDeductionResult::NonDeducedMismatch;
+  SmallVector<ArrayRef<TemplateArgument>, 4> PsStack{TemplateArgs},
+      AsStack{CanonicalBuilder};
+  for (;;) {
+    auto take = [](SmallVectorImpl<ArrayRef<TemplateArgument>> &Stack)
+        -> std::tuple<ArrayRef<TemplateArgument> &, TemplateArgument> {
+      while (!Stack.empty()) {
+        auto &Xs = Stack.back();
+        if (Xs.empty()) {
+          Stack.pop_back();
+          continue;
+        }
+        auto &X = Xs.front();
+        if (X.getKind() == TemplateArgument::Pack) {
+          Stack.emplace_back(X.getPackAsArray());
+          Xs = Xs.drop_front();
+          continue;
+        }
+        assert(!X.isNull());
+        return {Xs, X};
+      }
+      static constexpr ArrayRef<TemplateArgument> None;
+      return {const_cast<ArrayRef<TemplateArgument> &>(None),
+              TemplateArgument()};
+    };
+    auto [Ps, P] = take(PsStack);
+    auto [As, A] = take(AsStack);
+    if (P.isNull() && A.isNull())
+      break;
+    TemplateArgument PP = P.isPackExpansion() ? P.getPackExpansionPattern() : P,
+                     PA = A.isPackExpansion() ? A.getPackExpansionPattern() : A;
+    if (!isSameTemplateArg(S.Context, PP, PA, /*PartialOrdering=*/false)) {
+      if (!P.isPackExpansion() && !A.isPackExpansion()) {
+        Info.Param =
+            makeTemplateParameter(Template->getTemplateParameters()->getParam(
+                (PsStack.empty() ? TemplateArgs.end()
+                                 : PsStack.front().begin()) -
+                TemplateArgs.begin()));
+        Info.FirstArg = P;
+        Info.SecondArg = A;
+        return TemplateDeductionResult::NonDeducedMismatch;
+      }
+      if (P.isPackExpansion()) {
+        Ps = Ps.drop_front();
+        continue;
+      }
+      if (A.isPackExpansion()) {
+        As = As.drop_front();
+        continue;
+      }
     }
+    Ps = Ps.drop_front(P.isPackExpansion() ? 0 : 1);
+    As = As.drop_front(A.isPackExpansion() && !P.isPackExpansion() ? 0 : 1);
   }
-
-  if (Trap.hasErrorOccurred())
-    return TemplateDeductionResult::SubstitutionFailure;
+  assert(PsStack.empty());
+  assert(AsStack.empty());
 
   if (!PartialOrdering) {
     if (auto Result = CheckDeducedArgumentConstraints(
@@ -3360,7 +3473,6 @@ static TemplateDeductionResult FinishTemplateArgumentDeduction(
   // Unevaluated SFINAE context.
   EnterExpressionEvaluationContext Unevaluated(
       S, Sema::ExpressionEvaluationContext::Unevaluated);
-  Sema::SFINAETrap Trap(S);
 
   Sema::ContextRAII SavedContext(S, getAsDeclContextOrEnclosing(TD));
 
@@ -3369,20 +3481,15 @@ static TemplateDeductionResult FinishTemplateArgumentDeduction(
   //   explicitly specified, template argument deduction fails.
   SmallVector<TemplateArgument, 4> SugaredBuilder, CanonicalBuilder;
   if (auto Result = ConvertDeducedTemplateArguments(
-          S, TD, /*IsPartialOrdering=*/false, Deduced, Info, SugaredBuilder,
-          CanonicalBuilder);
-      Result != TemplateDeductionResult::Success)
-    return Result;
-
-  if (Trap.hasErrorOccurred())
-    return TemplateDeductionResult::SubstitutionFailure;
-
-  if (auto Result = CheckDeducedArgumentConstraints(S, TD, SugaredBuilder,
-                                                    CanonicalBuilder, Info);
+          S, TD, /*IsDeduced=*/false, Deduced, Info, SugaredBuilder,
+          CanonicalBuilder, /*PartialOrdering=*/false,
+          /*CurrentInstantiationScope=*/nullptr, /*NumAlreadyConverted=*/0,
+          /*IsIncomplete=*/nullptr);
       Result != TemplateDeductionResult::Success)
     return Result;
 
-  return TemplateDeductionResult::Success;
+  return ::CheckDeducedArgumentConstraints(S, TD, SugaredBuilder,
+                                           CanonicalBuilder, Info);
 }
 
 /// Perform template argument deduction to determine whether the given template
@@ -3429,16 +3536,20 @@ DeduceTemplateArguments(Sema &S, T *Partial,
   if (Inst.isInvalid())
     return TemplateDeductionResult::InstantiationDepth;
 
-  if (Trap.hasErrorOccurred())
-    return TemplateDeductionResult::SubstitutionFailure;
-
   TemplateDeductionResult Result;
   S.runWithSufficientStackSpace(Info.getLocation(), [&] {
     Result = ::FinishTemplateArgumentDeduction(S, Partial,
                                                /*IsPartialOrdering=*/false,
                                                TemplateArgs, Deduced, Info);
   });
-  return Result;
+
+  if (Result != TemplateDeductionResult::Success)
+    return Result;
+
+  if (Trap.hasErrorOccurred())
+    return TemplateDeductionResult::SubstitutionFailure;
+
+  return TemplateDeductionResult::Success;
 }
 
 TemplateDeductionResult
@@ -3494,14 +3605,18 @@ Sema::DeduceTemplateArgumentsFromType(TemplateDecl *TD, QualType FromType,
   if (Inst.isInvalid())
     return TemplateDeductionResult::InstantiationDepth;
 
-  if (Trap.hasErrorOccurred())
-    return TemplateDeductionResult::SubstitutionFailure;
-
   TemplateDeductionResult Result;
   runWithSufficientStackSpace(Info.getLocation(), [&] {
     Result = ::FinishTemplateArgumentDeduction(*this, TD, Deduced, Info);
   });
-  return Result;
+
+  if (Result != TemplateDeductionResult::Success)
+    return Result;
+
+  if (Trap.hasErrorOccurred())
+    return TemplateDeductionResult::SubstitutionFailure;
+
+  return TemplateDeductionResult::Success;
 }
 
 /// Determine whether the given type T is a simple-template-id type.
@@ -3907,7 +4022,8 @@ TemplateDeductionResult Sema::FinishTemplateArgumentDeduction(
     unsigned NumExplicitlySpecified, FunctionDecl *&Specialization,
     TemplateDeductionInfo &Info,
     SmallVectorImpl<OriginalCallArg> const *OriginalCallArgs,
-    bool PartialOverloading, llvm::function_ref<bool()> CheckNonDependent) {
+    bool PartialOverloading, bool PartialOrdering,
+    llvm::function_ref<bool()> CheckNonDependent) {
   // Unevaluated SFINAE context.
   EnterExpressionEvaluationContext Unevaluated(
       *this, Sema::ExpressionEvaluationContext::Unevaluated);
@@ -3930,9 +4046,10 @@ TemplateDeductionResult Sema::FinishTemplateArgumentDeduction(
   bool IsIncomplete = false;
   SmallVector<TemplateArgument, 4> SugaredBuilder, CanonicalBuilder;
   if (auto Result = ConvertDeducedTemplateArguments(
-          *this, FunctionTemplate, /*IsDeduced*/ true, Deduced, Info,
-          SugaredBuilder, CanonicalBuilder, CurrentInstantiationScope,
-          NumExplicitlySpecified, PartialOverloading ? &IsIncomplete : nullptr);
+          *this, FunctionTemplate, /*IsDeduced=*/true, Deduced, Info,
+          SugaredBuilder, CanonicalBuilder, PartialOrdering,
+          CurrentInstantiationScope, NumExplicitlySpecified,
+          PartialOverloading ? &IsIncomplete : nullptr);
       Result != TemplateDeductionResult::Success)
     return Result;
 
@@ -4463,7 +4580,8 @@ TemplateDeductionResult Sema::DeduceTemplateArguments(
     TemplateArgumentListInfo *ExplicitTemplateArgs, ArrayRef<Expr *> Args,
     FunctionDecl *&Specialization, TemplateDeductionInfo &Info,
     bool PartialOverloading, bool AggregateDeductionCandidate,
-    QualType ObjectType, Expr::Classification ObjectClassification,
+    bool PartialOrdering, QualType ObjectType,
+    Expr::Classification ObjectClassification,
     llvm::function_ref<bool(ArrayRef<QualType>)> CheckNonDependent) {
   if (FunctionTemplate->isInvalidDecl())
     return TemplateDeductionResult::Invalid;
@@ -4678,7 +4796,8 @@ TemplateDeductionResult Sema::DeduceTemplateArguments(
   runWithSufficientStackSpace(Info.getLocation(), [&] {
     Result = FinishTemplateArgumentDeduction(
         FunctionTemplate, Deduced, NumExplicitlySpecified, Specialization, Info,
-        &OriginalCallArgs, PartialOverloading, [&, CallingCtx]() {
+        &OriginalCallArgs, PartialOverloading, PartialOrdering,
+        [&, CallingCtx]() {
           ContextRAII SavedContext(*this, CallingCtx);
           return CheckNonDependent(ParamTypesForArgChecking);
         });
@@ -4790,9 +4909,10 @@ TemplateDeductionResult Sema::DeduceTemplateArguments(
 
   TemplateDeductionResult Result;
   runWithSufficientStackSpace(Info.getLocation(), [&] {
-    Result = FinishTemplateArgumentDeduction(FunctionTemplate, Deduced,
-                                             NumExplicitlySpecified,
-                                             Specialization, Info);
+    Result = FinishTemplateArgumentDeduction(
+        FunctionTemplate, Deduced, NumExplicitlySpecified, Specialization, Info,
+        /*OriginalCallArgs=*/nullptr, /*PartialOverloading=*/false,
+        /*PartialOrdering=*/true);
   });
   if (Result != TemplateDeductionResult::Success)
     return Result;
@@ -4972,9 +5092,10 @@ TemplateDeductionResult Sema::DeduceTemplateArguments(
   FunctionDecl *ConversionSpecialized = nullptr;
   TemplateDeductionResult Result;
   runWithSufficientStackSpace(Info.getLocation(), [&] {
-    Result = FinishTemplateArgumentDeduction(ConversionTemplate, Deduced, 0,
-                                             ConversionSpecialized, Info,
-                                             &OriginalCallArgs);
+    Result = FinishTemplateArgumentDeduction(
+        ConversionTemplate, Deduced, 0, ConversionSpecialized, Info,
+        &OriginalCallArgs, /*PartialOverloading=*/false,
+        /*PartialOrdering=*/false);
   });
   Specialization = cast_or_null<CXXConversionDecl>(ConversionSpecialized);
   return Result;
@@ -5551,7 +5672,8 @@ static TemplateDeductionResult FinishTemplateArgumentDeduction(
   SmallVector<TemplateArgument, 4> SugaredBuilder, CanonicalBuilder;
   if (auto Result = ConvertDeducedTemplateArguments(
           S, FTD, /*IsDeduced=*/true, Deduced, Info, SugaredBuilder,
-          CanonicalBuilder, /*CurrentInstantiationScope=*/nullptr,
+          CanonicalBuilder, /*PartialOrdering=*/true,
+          /*CurrentInstantiationScope=*/nullptr,
           /*NumAlreadyConverted=*/0, &IsIncomplete);
       Result != TemplateDeductionResult::Success)
     return Result;
@@ -6141,14 +6263,23 @@ static bool isAtLeastAsSpecializedAs(Sema &S, QualType T1, QualType T2,
     return false;
 
   const auto *TST1 = cast<TemplateSpecializationType>(T1);
-  bool AtLeastAsSpecialized;
+
+  Sema::SFINAETrap Trap(S);
+
+  TemplateDeductionResult Result;
   S.runWithSufficientStackSpace(Info.getLocation(), [&] {
-    AtLeastAsSpecialized =
-        FinishTemplateArgumentDeduction(
-            S, P2, /*IsPartialOrdering=*/true, TST1->template_arguments(),
-            Deduced, Info) == TemplateDeductionResult::Success;
+    Result = ::FinishTemplateArgumentDeduction(
+        S, P2, /*IsPartialOrdering=*/true, TST1->template_arguments(), Deduced,
+        Info);
   });
-  return AtLeastAsSpecialized;
+
+  if (Result != TemplateDeductionResult::Success)
+    return false;
+
+  if (Trap.hasErrorOccurred())
+    return false;
+
+  return true;
 }
 
 namespace {
@@ -6386,8 +6517,9 @@ bool Sema::isMoreSpecializedThanPrimary(
 }
 
 bool Sema::isTemplateTemplateParameterAtLeastAsSpecializedAs(
-    TemplateParameterList *P, TemplateDecl *AArg,
-    const DefaultArguments &DefaultArgs, SourceLocation Loc, bool IsDeduced) {
+    TemplateParameterList *P, TemplateDecl *PArg, TemplateDecl *AArg,
+    const DefaultArguments &DefaultArgs, SourceLocation ArgLoc,
+    bool PartialOrdering, bool *MatchedPackOnParmToNonPackOnArg) {
   // C++1z [temp.arg.template]p4: (DR 150)
   //   A template template-parameter P is at least as specialized as a
   //   template template-argument A if, given the following rewrite to two
@@ -6399,6 +6531,12 @@ bool Sema::isTemplateTemplateParameterAtLeastAsSpecializedAs(
   //
   TemplateParameterList *A = AArg->getTemplateParameters();
 
+  Sema::InstantiatingTemplate Inst(
+      *this, ArgLoc, Sema::InstantiatingTemplate::PartialOrderingTTP(), PArg,
+      SourceRange(P->getTemplateLoc(), P->getRAngleLoc()));
+  if (Inst.isInvalid())
+    return false;
+
   //   Given an invented class template X with the template parameter list of
   //   A (including default arguments):
   //    - Each function template has a single function parameter whose type is
@@ -6427,22 +6565,20 @@ bool Sema::isTemplateTemplateParameterAtLeastAsSpecializedAs(
     }
     PArgs.clear();
 
-    SFINAETrap Trap(*this);
     // C++1z [temp.arg.template]p3:
     //   If the rewrite produces an invalid type, then P is not at least as
     //   specialized as A.
-    SmallVector<TemplateArgument, 4> SugaredPArgs;
-    if (CheckTemplateArgumentList(AArg, Loc, PArgList, DefaultArgs, false,
-                                  SugaredPArgs, PArgs,
-                                  /*UpdateArgsWithConversions=*/true,
-                                  /*ConstraintsNotSatisfied=*/nullptr,
-                                  /*PartialOrderTTP=*/true) ||
-        Trap.hasErrorOccurred())
+    SmallVector<TemplateArgument, 4> CanonicalPArgs;
+    if (CheckTemplateArgumentList(
+            AArg, ArgLoc, PArgList, DefaultArgs, false, PArgs, CanonicalPArgs,
+            /*UpdateArgsWithConversions=*/true,
+            /*ConstraintsNotSatisfied=*/nullptr,
+            /*PartialOrderingTTP=*/true, MatchedPackOnParmToNonPackOnArg))
       return false;
   }
 
   // Determine whether P1 is at least as specialized as P2.
-  TemplateDeductionInfo Info(Loc, A->getDepth());
+  TemplateDeductionInfo Info(ArgLoc, A->getDepth());
   SmallVector<DeducedTemplateArgument, 4> Deduced;
   Deduced.resize(A->size());
 
@@ -6457,29 +6593,92 @@ bool Sema::isTemplateTemplateParameterAtLeastAsSpecializedAs(
   //   be inverted between Ps and As. On non-deduced context, matching needs to
   //   happen both ways, according to [temp.arg.template]p3, but this is
   //   currently implemented as a special case elsewhere.
-  if (::DeduceTemplateArguments(*this, A, AArgs, PArgs, Info, Deduced,
-                                /*NumberOfArgumentsMustMatch=*/false,
-                                /*PartialOrdering=*/true,
-                                IsDeduced ? PackFold::ArgumentToParameter
-                                          : PackFold::ParameterToArgument,
-                                /*HasDeducedAnyParam=*/nullptr) !=
-      TemplateDeductionResult::Success)
+  switch (::DeduceTemplateArguments(
+      *this, A, AArgs, PArgs, Info, Deduced,
+      /*NumberOfArgumentsMustMatch=*/false, /*PartialOrdering=*/true,
+      PartialOrdering ? PackFold::ArgumentToParameter : PackFold::Both,
+      /*HasDeducedAnyParam=*/nullptr)) {
+  case clang::TemplateDeductionResult::Success:
+    if (MatchedPackOnParmToNonPackOnArg &&
+        Info.hasMatchedPackOnParmToNonPackOnArg())
+      *MatchedPackOnParmToNonPackOnArg = true;
+    break;
+
+  case TemplateDeductionResult::MiscellaneousDeductionFailure:
+    Diag(AArg->getLocation(), diag::err_template_param_list_different_arity)
+        << (A->size() > P->size()) << /*isTemplateTemplateParameter=*/true
+        << SourceRange(A->getTemplateLoc(), P->getRAngleLoc());
     return false;
+  case TemplateDeductionResult::NonDeducedMismatch:
+    Diag(AArg->getLocation(), diag::err_non_deduced_mismatch)
+        << Info.FirstArg << Info.SecondArg;
+    return false;
+  case TemplateDeductionResult::Inconsistent:
+    Diag(getAsNamedDecl(Info.Param)->getLocation(),
+         diag::err_inconsistent_deduction)
+        << Info.FirstArg << Info.SecondArg;
+    return false;
+  case TemplateDeductionResult::AlreadyDiagnosed:
+    return false;
+
+  // None of these should happen for a plain deduction.
+  case TemplateDeductionResult::Invalid:
+  case TemplateDeductionResult::InstantiationDepth:
+  case TemplateDeductionResult::Incomplete:
+  case TemplateDeductionResult::IncompletePack:
+  case TemplateDeductionResult::Underqualified:
+  case TemplateDeductionResult::SubstitutionFailure:
+  case TemplateDeductionResult::DeducedMismatch:
+  case TemplateDeductionResult::DeducedMismatchNested:
+  case TemplateDeductionResult::TooManyArguments:
+  case TemplateDeductionResult::TooFewArguments:
+  case TemplateDeductionResult::InvalidExplicitArguments:
+  case TemplateDeductionResult::NonDependentConversionFailure:
+  case TemplateDeductionResult::ConstraintsNotSatisfied:
+  case TemplateDeductionResult::CUDATargetMismatch:
+    llvm_unreachable("Unexpected Result");
+  }
 
   SmallVector<TemplateArgument, 4> DeducedArgs(Deduced.begin(), Deduced.end());
-  Sema::InstantiatingTemplate Inst(*this, Info.getLocation(), AArg, DeducedArgs,
-                                   Info);
-  if (Inst.isInvalid())
-    return false;
 
-  bool AtLeastAsSpecialized;
+  TemplateDeductionResult TDK;
   runWithSufficientStackSpace(Info.getLocation(), [&] {
-    AtLeastAsSpecialized =
-        ::FinishTemplateArgumentDeduction(
-            *this, AArg, /*IsPartialOrdering=*/true, PArgs, Deduced, Info) ==
-        TemplateDeductionResult::Success;
+    TDK = ::FinishTemplateArgumentDeduction(
+        *this, AArg, /*IsPartialOrdering=*/true, PArgs, Deduced, Info);
   });
-  return AtLeastAsSpecialized;
+  switch (TDK) {
+  case TemplateDeductionResult::Success:
+    return true;
+
+  // It doesn't seem possible to get a non-deduced mismatch when partial
+  // ordering TTPs.
+  case TemplateDeductionResult::NonDeducedMismatch:
+    llvm_unreachable("Unexpected NonDeducedMismatch");
+
+  // Substitution failures should have already been diagnosed.
+  case TemplateDeductionResult::AlreadyDiagnosed:
+  case TemplateDeductionResult::SubstitutionFailure:
+  case TemplateDeductionResult::InstantiationDepth:
+    return false;
+
+  // None of these should happen when just converting deduced arguments.
+  case TemplateDeductionResult::Invalid:
+  case TemplateDeductionResult::Incomplete:
+  case TemplateDeductionResult::IncompletePack:
+  case TemplateDeductionResult::Inconsistent:
+  case TemplateDeductionResult::Underqualified:
+  case TemplateDeductionResult::DeducedMismatch:
+  case TemplateDeductionResult::DeducedMismatchNested:
+  case TemplateDeductionResult::TooManyArguments:
+  case TemplateDeductionResult::TooFewArguments:
+  case TemplateDeductionResult::InvalidExplicitArguments:
+  case TemplateDeductionResult::NonDependentConversionFailure:
+  case TemplateDeductionResult::ConstraintsNotSatisfied:
+  case TemplateDeductionResult::MiscellaneousDeductionFailure:
+  case TemplateDeductionResult::CUDATargetMismatch:
+    llvm_unreachable("Unexpected Result");
+  }
+  llvm_unreachable("Unexpected TDK");
 }
 
 namespace {
diff --git a/clang/lib/Sema/SemaTemplateInstantiate.cpp b/clang/lib/Sema/SemaTemplateInstantiate.cpp
index 839c4e8a28220..3dc5696bd3821 100644
--- a/clang/lib/Sema/SemaTemplateInstantiate.cpp
+++ b/clang/lib/Sema/SemaTemplateInstantiate.cpp
@@ -575,6 +575,7 @@ bool Sema::CodeSynthesisContext::isInstantiationRecord() const {
   case LambdaExpressionSubstitution:
   case BuildingDeductionGuides:
   case TypeAliasTemplateInstantiation:
+  case PartialOrderingTTP:
     return false;
 
   // This function should never be called when Kind's value is Memoization.
@@ -805,6 +806,11 @@ Sema::InstantiatingTemplate::InstantiatingTemplate(
           SemaRef, CodeSynthesisContext::BuildingDeductionGuides,
           PointOfInstantiation, InstantiationRange, Entity) {}
 
+Sema::InstantiatingTemplate::InstantiatingTemplate(
+    Sema &SemaRef, SourceLocation ArgLoc, PartialOrderingTTP,
+    TemplateDecl *PArg, SourceRange InstantiationRange)
+    : InstantiatingTemplate(SemaRef, CodeSynthesisContext::PartialOrderingTTP,
+                            ArgLoc, InstantiationRange, PArg) {}
 
 void Sema::pushCodeSynthesisContext(CodeSynthesisContext Ctx) {
   Ctx.SavedInNonInstantiationSFINAEContext = InNonInstantiationSFINAEContext;
@@ -1243,6 +1249,14 @@ void Sema::PrintInstantiationStack() {
           << cast<TypeAliasTemplateDecl>(Active->Entity)
           << Active->InstantiationRange;
       break;
+    case CodeSynthesisContext::PartialOrderingTTP:
+      Diags.Report(Active->PointOfInstantiation,
+                   diag::note_template_arg_template_params_mismatch);
+      if (SourceLocation ParamLoc = Active->Entity->getLocation();
+          ParamLoc.isValid())
+        Diags.Report(ParamLoc, diag::note_template_prev_declaration)
+            << /*isTemplateTemplateParam=*/true << Active->InstantiationRange;
+      break;
     }
   }
 }
@@ -1285,6 +1299,7 @@ std::optional<TemplateDeductionInfo *> Sema::isSFINAEContext() const {
     case CodeSynthesisContext::PriorTemplateArgumentSubstitution:
     case CodeSynthesisContext::DefaultTemplateArgumentChecking:
     case CodeSynthesisContext::RewritingOperatorAsSpaceship:
+    case CodeSynthesisContext::PartialOrderingTTP:
       // A default template argument instantiation and substitution into
       // template parameters with arguments for prior parameters may or may
       // not be a SFINAE context; look further up the stack.
@@ -4039,11 +4054,11 @@ bool Sema::usesPartialOrExplicitSpecialization(
 /// Get the instantiation pattern to use to instantiate the definition of a
 /// given ClassTemplateSpecializationDecl (either the pattern of the primary
 /// template or of a partial specialization).
-static ActionResult<CXXRecordDecl *>
-getPatternForClassTemplateSpecialization(
+static ActionResult<CXXRecordDecl *> getPatternForClassTemplateSpecialization(
     Sema &S, SourceLocation PointOfInstantiation,
     ClassTemplateSpecializationDecl *ClassTemplateSpec,
-    TemplateSpecializationKind TSK) {
+    TemplateSpecializationKind TSK,
+    bool PrimaryHasMatchedPackOnParmToNonPackOnArg) {
   Sema::InstantiatingTemplate Inst(S, PointOfInstantiation, ClassTemplateSpec);
   if (Inst.isInvalid())
     return {/*Invalid=*/true};
@@ -4066,7 +4081,7 @@ getPatternForClassTemplateSpecialization(
     //   specialization with the template argument lists of the partial
     //   specializations.
     typedef PartialSpecMatchResult MatchResult;
-    SmallVector<MatchResult, 4> Matched;
+    SmallVector<MatchResult, 4> Matched, ExtraMatched;
     SmallVector<ClassTemplatePartialSpecializationDecl *, 4> PartialSpecs;
     Template->getPartialSpecializations(PartialSpecs);
     TemplateSpecCandidateSet FailedCandidates(PointOfInstantiation);
@@ -4096,11 +4111,13 @@ getPatternForClassTemplateSpecialization(
             MakeDeductionFailureInfo(S.Context, Result, Info));
         (void)Result;
       } else {
-        Matched.push_back(PartialSpecMatchResult());
-        Matched.back().Partial = Partial;
-        Matched.back().Args = Info.takeCanonical();
+        auto &List =
+            Info.hasMatchedPackOnParmToNonPackOnArg() ? ExtraMatched : Matched;
+        List.push_back(MatchResult{Partial, Info.takeCanonical()});
       }
     }
+    if (Matched.empty() && PrimaryHasMatchedPackOnParmToNonPackOnArg)
+      Matched = std::move(ExtraMatched);
 
     // If we're dealing with a member template where the template parameters
     // have been instantiated, this provides the original template parameters
@@ -4203,7 +4220,8 @@ getPatternForClassTemplateSpecialization(
 bool Sema::InstantiateClassTemplateSpecialization(
     SourceLocation PointOfInstantiation,
     ClassTemplateSpecializationDecl *ClassTemplateSpec,
-    TemplateSpecializationKind TSK, bool Complain) {
+    TemplateSpecializationKind TSK, bool Complain,
+    bool PrimaryHasMatchedPackOnParmToNonPackOnArg) {
   // Perform the actual instantiation on the canonical declaration.
   ClassTemplateSpec = cast<ClassTemplateSpecializationDecl>(
       ClassTemplateSpec->getCanonicalDecl());
@@ -4211,8 +4229,9 @@ bool Sema::InstantiateClassTemplateSpecialization(
     return true;
 
   ActionResult<CXXRecordDecl *> Pattern =
-      getPatternForClassTemplateSpecialization(*this, PointOfInstantiation,
-                                               ClassTemplateSpec, TSK);
+      getPatternForClassTemplateSpecialization(
+          *this, PointOfInstantiation, ClassTemplateSpec, TSK,
+          PrimaryHasMatchedPackOnParmToNonPackOnArg);
   if (!Pattern.isUsable())
     return Pattern.isInvalid();
 
diff --git a/clang/lib/Sema/SemaX86.cpp b/clang/lib/Sema/SemaX86.cpp
index 7feca138e3e2c..392d60f640984 100644
--- a/clang/lib/Sema/SemaX86.cpp
+++ b/clang/lib/Sema/SemaX86.cpp
@@ -931,9 +931,9 @@ bool SemaX86::CheckBuiltinFunctionCall(const TargetInfo &TI, unsigned BuiltinID,
   case X86::BI__builtin_ia32_rndscaleps_mask:
   case X86::BI__builtin_ia32_rndscalepd_mask:
   case X86::BI__builtin_ia32_rndscaleph_mask:
-  case X86::BI__builtin_ia32_vrndscalenepbf16_128_mask:
-  case X86::BI__builtin_ia32_vrndscalenepbf16_256_mask:
-  case X86::BI__builtin_ia32_vrndscalenepbf16_mask:
+  case X86::BI__builtin_ia32_vrndscalebf16_128_mask:
+  case X86::BI__builtin_ia32_vrndscalebf16_256_mask:
+  case X86::BI__builtin_ia32_vrndscalebf16_mask:
   case X86::BI__builtin_ia32_reducepd128_mask:
   case X86::BI__builtin_ia32_reducepd256_mask:
   case X86::BI__builtin_ia32_reducepd512_mask:
@@ -943,9 +943,9 @@ bool SemaX86::CheckBuiltinFunctionCall(const TargetInfo &TI, unsigned BuiltinID,
   case X86::BI__builtin_ia32_reduceph128_mask:
   case X86::BI__builtin_ia32_reduceph256_mask:
   case X86::BI__builtin_ia32_reduceph512_mask:
-  case X86::BI__builtin_ia32_vreducenepbf16128_mask:
-  case X86::BI__builtin_ia32_vreducenepbf16256_mask:
-  case X86::BI__builtin_ia32_vreducenepbf16512_mask:
+  case X86::BI__builtin_ia32_vreducebf16128_mask:
+  case X86::BI__builtin_ia32_vreducebf16256_mask:
+  case X86::BI__builtin_ia32_vreducebf16512_mask:
   case X86::BI__builtin_ia32_vreducepd256_round_mask:
   case X86::BI__builtin_ia32_vreduceps256_round_mask:
   case X86::BI__builtin_ia32_vreduceph256_round_mask:
@@ -973,9 +973,9 @@ bool SemaX86::CheckBuiltinFunctionCall(const TargetInfo &TI, unsigned BuiltinID,
   case X86::BI__builtin_ia32_fpclassph128_mask:
   case X86::BI__builtin_ia32_fpclassph256_mask:
   case X86::BI__builtin_ia32_fpclassph512_mask:
-  case X86::BI__builtin_ia32_vfpclasspbf16128_mask:
-  case X86::BI__builtin_ia32_vfpclasspbf16256_mask:
-  case X86::BI__builtin_ia32_vfpclasspbf16512_mask:
+  case X86::BI__builtin_ia32_vfpclassbf16128_mask:
+  case X86::BI__builtin_ia32_vfpclassbf16256_mask:
+  case X86::BI__builtin_ia32_vfpclassbf16512_mask:
   case X86::BI__builtin_ia32_fpclasssd_mask:
   case X86::BI__builtin_ia32_fpclassss_mask:
   case X86::BI__builtin_ia32_fpclasssh_mask:
diff --git a/clang/lib/Serialization/ASTWriterDecl.cpp b/clang/lib/Serialization/ASTWriterDecl.cpp
index 54570dedb0b22..8b9ba04dce91c 100644
--- a/clang/lib/Serialization/ASTWriterDecl.cpp
+++ b/clang/lib/Serialization/ASTWriterDecl.cpp
@@ -27,6 +27,20 @@
 using namespace clang;
 using namespace serialization;
 
+//===----------------------------------------------------------------------===//
+// Utility functions
+//===----------------------------------------------------------------------===//
+
+namespace {
+
+// Helper function that returns true if the decl passed in the argument is
+// a defintion in dependent contxt.
+template <typename DT> bool isDefinitionInDependentContext(DT *D) {
+  return D->isDependentContext() && D->isThisDeclarationADefinition();
+}
+
+} // namespace
+
 //===----------------------------------------------------------------------===//
 // Declaration serialization
 //===----------------------------------------------------------------------===//
@@ -801,14 +815,14 @@ void ASTDeclWriter::VisitFunctionDecl(FunctionDecl *D) {
   }
 
   if (D->getFriendObjectKind()) {
-    // For a function defined inline within a class template, we have to force
-    // the canonical definition to be the one inside the canonical definition of
-    // the template. Remember this relation to deserialize them together.
-    if (auto *RD = dyn_cast<CXXRecordDecl>(D->getLexicalParent()))
-      if (RD->isDependentContext() && RD->isThisDeclarationADefinition()) {
-        Writer.RelatedDeclsMap[Writer.GetDeclRef(RD)].push_back(
-            Writer.GetDeclRef(D));
-      }
+    // For a friend function defined inline within a class template, we have to
+    // force the definition to be the one inside the definition of the template
+    // class. Remember this relation to deserialize them together.
+    if (auto *RD = dyn_cast<CXXRecordDecl>(D->getLexicalParent());
+        RD && isDefinitionInDependentContext(RD)) {
+      Writer.RelatedDeclsMap[Writer.GetDeclRef(RD)].push_back(
+          Writer.GetDeclRef(D));
+    }
   }
 
   Record.push_back(D->param_size());
@@ -1583,9 +1597,10 @@ void ASTDeclWriter::VisitCXXRecordDecl(CXXRecordDecl *D) {
     } else {
       Record.push_back(0);
     }
-    // For lambdas inside canonical FunctionDecl remember the mapping.
-    if (auto FD = llvm::dyn_cast_or_null<FunctionDecl>(D->getDeclContext());
-        FD && FD->isCanonicalDecl()) {
+    // For lambdas inside template functions, remember the mapping to
+    // deserialize them together.
+    if (auto *FD = llvm::dyn_cast_or_null<FunctionDecl>(D->getDeclContext());
+        FD && isDefinitionInDependentContext(FD)) {
       Writer.RelatedDeclsMap[Writer.GetDeclRef(FD)].push_back(
           Writer.GetDeclRef(D));
     }
diff --git a/clang/test/AST/ByteCode/new-delete.cpp b/clang/test/AST/ByteCode/new-delete.cpp
index 8466e9b88782f..a8f073aa03fc1 100644
--- a/clang/test/AST/ByteCode/new-delete.cpp
+++ b/clang/test/AST/ByteCode/new-delete.cpp
@@ -602,8 +602,7 @@ namespace std {
   using size_t = decltype(sizeof(0));
   template<typename T> struct allocator {
     constexpr T *allocate(size_t N) {
-      return (T*)__builtin_operator_new(sizeof(T) * N); // both-note 2{{allocation performed here}} \
-                                                        // #alloc
+      return (T*)__builtin_operator_new(sizeof(T) * N); // #alloc
     }
     constexpr void deallocate(void *p) {
       __builtin_operator_delete(p); // both-note 2{{std::allocator<...>::deallocate' used to delete pointer to object allocated with 'new'}} \
@@ -641,7 +640,7 @@ namespace OperatorNewDelete {
       p = new int[1]; // both-note {{heap allocation performed here}}
       break;
     case 2:
-      p = std::allocator<int>().allocate(1);
+      p = std::allocator<int>().allocate(1); // both-note 2{{heap allocation performed here}}
       break;
     }
     switch (dealloc_kind) {
@@ -838,6 +837,26 @@ namespace ToplevelScopeInTemplateArg {
   }
 }
 
+template <typename T>
+struct SS {
+    constexpr SS(unsigned long long N)
+    : data(nullptr){
+        data = alloc.allocate(N);  // #call
+        for(std::size_t i = 0; i < N; i ++)
+            std::construct_at<T>(data + i, i); // #construct_call
+    }
+    constexpr T operator[](std::size_t i) const {
+      return data[i];
+    }
+
+    constexpr ~SS() {
+        alloc.deallocate(data);
+    }
+    std::allocator<T> alloc;
+    T* data;
+};
+constexpr unsigned short ssmall = SS<unsigned short>(100)[42];
+
 #else
 /// Make sure we reject this prior to C++20
 constexpr int a() { // both-error {{never produces a constant expression}}
diff --git a/clang/test/CXX/temp/temp.arg/temp.arg.template/p3-0x.cpp b/clang/test/CXX/temp/temp.arg/temp.arg.template/p3-0x.cpp
index 19793fe826372..54fcfccad6f52 100644
--- a/clang/test/CXX/temp/temp.arg/temp.arg.template/p3-0x.cpp
+++ b/clang/test/CXX/temp/temp.arg/temp.arg.template/p3-0x.cpp
@@ -2,13 +2,13 @@
 
 template <class T> struct eval; // expected-note 3{{template is declared here}}
 
-template <template <class, class...> class TT, class T1, class... Rest> 
+template <template <class, class...> class TT, class T1, class... Rest>
 struct eval<TT<T1, Rest...>> { };
 
-template <class T1> struct A; 
-template <class T1, class T2> struct B; 
-template <int N> struct C; 
-template <class T1, int N> struct D; 
+template <class T1> struct A;
+template <class T1, class T2> struct B;
+template <int N> struct C;
+template <class T1, int N> struct D;
 template <class T1, class T2, int N = 17> struct E;
 
 eval<A<int>> eA;
@@ -17,27 +17,40 @@ eval<C<17>> eC; // expected-error{{implicit instantiation of undefined template
 eval<D<int, 17>> eD; // expected-error{{implicit instantiation of undefined template 'eval<D<int, 17>>'}}
 eval<E<int, float>> eE; // expected-error{{implicit instantiation of undefined template 'eval<E<int, float>>}}
 
-template<template <int ...N> class TT> struct X0 { }; // expected-note{{previous non-type template parameter with type 'int' is here}}
+template<
+  template <int ...N> // expected-error{{deduced non-type template argument does not have the same type as the corresponding template parameter ('int' vs 'void *')}}
+  class TT // expected-note {{previous template template parameter is here}}
+> struct X0 { };
+
 template<int I, int J, int ...Rest> struct X0a;
 template<int ...Rest> struct X0b;
-template<int I, long J> struct X0c; // expected-note{{template non-type parameter has a different type 'long' in template argument}}
+template<int I, long J> struct X0c;
+template<int I, short J> struct X0d;
+template<int I, void *J> struct X0e; // expected-note{{template parameter is declared here}}
 
 X0<X0a> inst_x0a;
 X0<X0b> inst_x0b;
-X0<X0c> inst_x0c; // expected-error{{template template argument has different template parameters than its corresponding template template parameter}}
+X0<X0c> inst_x0c;
+X0<X0d> inst_x0d;
+X0<X0e> inst_x0e; // expected-note{{template template argument has different template parameters than its corresponding template template parameter}}
+
+template<typename T,
+         template <T ...N> // expected-error{{deduced non-type template argument does not have the same type as the corresponding template parameter ('short' vs 'void *')}}
+         class TT // expected-note {{previous template template parameter is here}}
+> struct X1 { };
 
-template<typename T, 
-         template <T ...N> class TT>  // expected-note{{previous non-type template parameter with type 'short' is here}}
-struct X1 { };
 template<int I, int J, int ...Rest> struct X1a;
 template<long I, long ...Rest> struct X1b;
 template<short I, short J> struct X1c;
-template<short I, long J> struct X1d; // expected-note{{template non-type parameter has a different type 'long' in template argument}}
+template<short I, long J> struct X1d;
+template<short I, void *J> struct X1e; // expected-note{{template parameter is declared here}}
 
 X1<int, X1a> inst_x1a;
 X1<long, X1b> inst_x1b;
 X1<short, X1c> inst_x1c;
-X1<short, X1d> inst_x1d; // expected-error{{template template argument has different template parameters than its corresponding template template paramete}}
+X1<short, X1d> inst_sx1d;
+X1<int, X1d> inst_ix1d;
+X1<short, X1e> inst_x1e; // expected-note{{template template argument has different template parameters than its corresponding template template parameter}}
 
 template <int> class X2; // expected-note{{template is declared here}} \
                          // expected-note{{template is declared here}}
diff --git a/clang/test/CXX/temp/temp.param/p12.cpp b/clang/test/CXX/temp/temp.param/p12.cpp
index 7be38790905fa..8317e7f24152c 100644
--- a/clang/test/CXX/temp/temp.param/p12.cpp
+++ b/clang/test/CXX/temp/temp.param/p12.cpp
@@ -1,39 +1,40 @@
-// RUN: %clang_cc1 -fsyntax-only -verify %s 
-template<typename> struct Y1; // expected-note{{too few template parameters in template template argument}}
+// RUN: %clang_cc1 -fsyntax-only -verify %s
+template<typename> struct Y1; // expected-note{{template is declared here}}
 template<typename, int> struct Y2;
 
 // C++ [temp.param]p12:
-template<class T1, 
+template<class T1,
          class T2 = int> // expected-note{{previous default template argument defined here}}
   class B3;
 template<class T1, typename T2> class B3;
-template<class T1, 
+template<class T1,
          typename T2 = float> // expected-error{{template parameter redefines default argument}}
   class B3;
 
-template<template<class, int> class, 
+template<template<class, int> class,
          template<class> class = Y1> // expected-note{{previous default template argument defined here}}
   class B3t;
 
 template<template<class, int> class, template<class> class> class B3t;
 
-template<template<class, int> class, 
+template<template<class, int> class,
          template<class> class = Y1> // expected-error{{template parameter redefines default argument}}
   class B3t;
 
-template<int N, 
+template<int N,
          int M = 5> // expected-note{{previous default template argument defined here}}
   class B3n;
 
 template<int N, int M> class B3n;
 
-template<int N, 
+template<int N,
          int M = 7>  // expected-error{{template parameter redefines default argument}}
   class B3n;
 
 // Check validity of default arguments
-template<template<class, int> class // expected-note{{previous template template parameter is here}}
-           = Y1> // expected-error{{template template argument has different template parameters than its corresponding template template parameter}}
+template<template<class, int> class =// expected-note {{previous template template parameter is here}}
+           Y1> // expected-error{{too many template arguments for class template 'Y1'}}
+               // expected-note@-1 {{template template argument has different template parameters than its corresponding template template parameter}}
   class C1 {};
 
 C1<> c1; // expected-note{{while checking a default template argument}}
diff --git a/clang/test/CodeGen/AArch64/cpu-supports-target.c b/clang/test/CodeGen/AArch64/cpu-supports-target.c
index b185dda288108..6223db7c09253 100644
--- a/clang/test/CodeGen/AArch64/cpu-supports-target.c
+++ b/clang/test/CodeGen/AArch64/cpu-supports-target.c
@@ -1,27 +1,150 @@
+// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py UTC_ARGS: --check-attributes --check-globals all --version 5
 // RUN: %clang_cc1 -triple aarch64-none-linux-gnu -emit-llvm -o - %s | FileCheck %s
 
-int check_all_feature() {
+//.
+// CHECK: @__aarch64_cpu_features = external dso_local global { i64 }
+//.
+// CHECK: Function Attrs: noinline nounwind optnone
+// CHECK-LABEL: define dso_local i32 @check_all_features(
+// CHECK-SAME: ) #[[ATTR0:[0-9]+]] {
+// CHECK-NEXT:  [[ENTRY:.*:]]
+// CHECK-NEXT:    [[RETVAL:%.*]] = alloca i32, align 4
+// CHECK-NEXT:    [[TMP0:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP1:%.*]] = and i64 [[TMP0]], 66367
+// CHECK-NEXT:    [[TMP2:%.*]] = icmp eq i64 [[TMP1]], 66367
+// CHECK-NEXT:    [[TMP3:%.*]] = and i1 true, [[TMP2]]
+// CHECK-NEXT:    br i1 [[TMP3]], label %[[IF_THEN:.*]], label %[[IF_ELSE:.*]]
+// CHECK:       [[IF_THEN]]:
+// CHECK-NEXT:    store i32 1, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN:.*]]
+// CHECK:       [[IF_ELSE]]:
+// CHECK-NEXT:    [[TMP4:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP5:%.*]] = and i64 [[TMP4]], 14272
+// CHECK-NEXT:    [[TMP6:%.*]] = icmp eq i64 [[TMP5]], 14272
+// CHECK-NEXT:    [[TMP7:%.*]] = and i1 true, [[TMP6]]
+// CHECK-NEXT:    br i1 [[TMP7]], label %[[IF_THEN1:.*]], label %[[IF_ELSE2:.*]]
+// CHECK:       [[IF_THEN1]]:
+// CHECK-NEXT:    store i32 2, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE2]]:
+// CHECK-NEXT:    [[TMP8:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP9:%.*]] = and i64 [[TMP8]], 2065152
+// CHECK-NEXT:    [[TMP10:%.*]] = icmp eq i64 [[TMP9]], 2065152
+// CHECK-NEXT:    [[TMP11:%.*]] = and i1 true, [[TMP10]]
+// CHECK-NEXT:    br i1 [[TMP11]], label %[[IF_THEN3:.*]], label %[[IF_ELSE4:.*]]
+// CHECK:       [[IF_THEN3]]:
+// CHECK-NEXT:    store i32 3, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE4]]:
+// CHECK-NEXT:    [[TMP12:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP13:%.*]] = and i64 [[TMP12]], 288230376183169792
+// CHECK-NEXT:    [[TMP14:%.*]] = icmp eq i64 [[TMP13]], 288230376183169792
+// CHECK-NEXT:    [[TMP15:%.*]] = and i1 true, [[TMP14]]
+// CHECK-NEXT:    br i1 [[TMP15]], label %[[IF_THEN5:.*]], label %[[IF_ELSE6:.*]]
+// CHECK:       [[IF_THEN5]]:
+// CHECK-NEXT:    store i32 4, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE6]]:
+// CHECK-NEXT:    [[TMP16:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP17:%.*]] = and i64 [[TMP16]], 1275134720
+// CHECK-NEXT:    [[TMP18:%.*]] = icmp eq i64 [[TMP17]], 1275134720
+// CHECK-NEXT:    [[TMP19:%.*]] = and i1 true, [[TMP18]]
+// CHECK-NEXT:    br i1 [[TMP19]], label %[[IF_THEN7:.*]], label %[[IF_ELSE8:.*]]
+// CHECK:       [[IF_THEN7]]:
+// CHECK-NEXT:    store i32 5, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE8]]:
+// CHECK-NEXT:    [[TMP20:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP21:%.*]] = and i64 [[TMP20]], 52814742272
+// CHECK-NEXT:    [[TMP22:%.*]] = icmp eq i64 [[TMP21]], 52814742272
+// CHECK-NEXT:    [[TMP23:%.*]] = and i1 true, [[TMP22]]
+// CHECK-NEXT:    br i1 [[TMP23]], label %[[IF_THEN9:.*]], label %[[IF_ELSE10:.*]]
+// CHECK:       [[IF_THEN9]]:
+// CHECK-NEXT:    store i32 6, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE10]]:
+// CHECK-NEXT:    [[TMP24:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP25:%.*]] = and i64 [[TMP24]], 344671224576
+// CHECK-NEXT:    [[TMP26:%.*]] = icmp eq i64 [[TMP25]], 344671224576
+// CHECK-NEXT:    [[TMP27:%.*]] = and i1 true, [[TMP26]]
+// CHECK-NEXT:    br i1 [[TMP27]], label %[[IF_THEN11:.*]], label %[[IF_ELSE12:.*]]
+// CHECK:       [[IF_THEN11]]:
+// CHECK-NEXT:    store i32 7, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE12]]:
+// CHECK-NEXT:    [[TMP28:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP29:%.*]] = and i64 [[TMP28]], 3918083994400
+// CHECK-NEXT:    [[TMP30:%.*]] = icmp eq i64 [[TMP29]], 3918083994400
+// CHECK-NEXT:    [[TMP31:%.*]] = and i1 true, [[TMP30]]
+// CHECK-NEXT:    br i1 [[TMP31]], label %[[IF_THEN13:.*]], label %[[IF_ELSE14:.*]]
+// CHECK:       [[IF_THEN13]]:
+// CHECK-NEXT:    store i32 8, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE14]]:
+// CHECK-NEXT:    [[TMP32:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP33:%.*]] = and i64 [[TMP32]], 92359111017216
+// CHECK-NEXT:    [[TMP34:%.*]] = icmp eq i64 [[TMP33]], 92359111017216
+// CHECK-NEXT:    [[TMP35:%.*]] = and i1 true, [[TMP34]]
+// CHECK-NEXT:    br i1 [[TMP35]], label %[[IF_THEN15:.*]], label %[[IF_ELSE16:.*]]
+// CHECK:       [[IF_THEN15]]:
+// CHECK-NEXT:    store i32 9, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE16]]:
+// CHECK-NEXT:    [[TMP36:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP37:%.*]] = and i64 [[TMP36]], 10836786603360256
+// CHECK-NEXT:    [[TMP38:%.*]] = icmp eq i64 [[TMP37]], 10836786603360256
+// CHECK-NEXT:    [[TMP39:%.*]] = and i1 true, [[TMP38]]
+// CHECK-NEXT:    br i1 [[TMP39]], label %[[IF_THEN17:.*]], label %[[IF_ELSE18:.*]]
+// CHECK:       [[IF_THEN17]]:
+// CHECK-NEXT:    store i32 10, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE18]]:
+// CHECK-NEXT:    [[TMP40:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP41:%.*]] = and i64 [[TMP40]], 54047593709241088
+// CHECK-NEXT:    [[TMP42:%.*]] = icmp eq i64 [[TMP41]], 54047593709241088
+// CHECK-NEXT:    [[TMP43:%.*]] = and i1 true, [[TMP42]]
+// CHECK-NEXT:    br i1 [[TMP43]], label %[[IF_THEN19:.*]], label %[[IF_ELSE20:.*]]
+// CHECK:       [[IF_THEN19]]:
+// CHECK-NEXT:    store i32 11, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE20]]:
+// CHECK-NEXT:    [[TMP44:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP45:%.*]] = and i64 [[TMP44]], 216177180294578944
+// CHECK-NEXT:    [[TMP46:%.*]] = icmp eq i64 [[TMP45]], 216177180294578944
+// CHECK-NEXT:    [[TMP47:%.*]] = and i1 true, [[TMP46]]
+// CHECK-NEXT:    br i1 [[TMP47]], label %[[IF_THEN21:.*]], label %[[IF_ELSE22:.*]]
+// CHECK:       [[IF_THEN21]]:
+// CHECK-NEXT:    store i32 12, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE22]]:
+// CHECK-NEXT:    store i32 0, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[RETURN]]:
+// CHECK-NEXT:    [[TMP48:%.*]] = load i32, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    ret i32 [[TMP48]]
+//
+int check_all_features() {
   if (__builtin_cpu_supports("rng+flagm+flagm2+fp16fml+dotprod+sm4"))
     return 1;
-  else if (__builtin_cpu_supports("rdm+lse+fp+simd+crc+sha1+sha2+sha3"))
+  else if (__builtin_cpu_supports("rdm+lse+fp+simd+crc+sha2+sha3"))
     return 2;
-  else if (__builtin_cpu_supports("aes+pmull+fp16+dit+dpb+dpb2+jscvt"))
+  else if (__builtin_cpu_supports("aes+fp16+dit+dpb+dpb2+jscvt"))
     return 3;
   else if (__builtin_cpu_supports("fcma+rcpc+rcpc2+rcpc3+frintts"))
     return 4;
   else if (__builtin_cpu_supports("i8mm+bf16+sve"))
     return 5;
-  else if (__builtin_cpu_supports("sve+ebf16+i8mm+f32mm+f64mm"))
+  else if (__builtin_cpu_supports("sve+bf16+i8mm+f32mm+f64mm"))
     return 6;
-  else if (__builtin_cpu_supports("sve2+sve2-aes+sve2-pmull128"))
+  else if (__builtin_cpu_supports("sve2+sve2-aes"))
     return 7;
   else if (__builtin_cpu_supports("sve2-bitperm+sve2-sha3+sve2-sm4"))
     return 8;
   else if (__builtin_cpu_supports("sme+memtag+sb"))
     return 9;
-  else if (__builtin_cpu_supports("predres+ssbs+ssbs2+bti+ls64+ls64_v"))
+  else if (__builtin_cpu_supports("predres+ssbs+bti+ls64"))
     return 10;
-  else if (__builtin_cpu_supports("ls64_accdata+wfxt+sme-f64f64"))
+  else if (__builtin_cpu_supports("wfxt+sme-f64f64"))
     return 11;
   else if (__builtin_cpu_supports("sme-i16i64+sme2"))
     return 12;
@@ -29,16 +152,62 @@ int check_all_feature() {
     return 0;
 }
 
-// CHECK-LABEL: define dso_local i32 @neon_code() #1
+// CHECK: Function Attrs: noinline nounwind optnone
+// CHECK-LABEL: define dso_local i32 @neon_code(
+// CHECK-SAME: ) #[[ATTR1:[0-9]+]] {
+// CHECK-NEXT:  [[ENTRY:.*:]]
+// CHECK-NEXT:    ret i32 1
+//
 int __attribute__((target("simd"))) neon_code() { return 1; }
 
-// CHECK-LABEL: define dso_local i32 @sve_code() #2
+// CHECK: Function Attrs: noinline nounwind optnone
+// CHECK-LABEL: define dso_local i32 @sve_code(
+// CHECK-SAME: ) #[[ATTR2:[0-9]+]] {
+// CHECK-NEXT:  [[ENTRY:.*:]]
+// CHECK-NEXT:    ret i32 2
+//
 int __attribute__((target("sve"))) sve_code() { return 2; }
 
-// CHECK-LABEL: define dso_local i32 @code() #0
+// CHECK: Function Attrs: noinline nounwind optnone
+// CHECK-LABEL: define dso_local i32 @code(
+// CHECK-SAME: ) #[[ATTR0]] {
+// CHECK-NEXT:  [[ENTRY:.*:]]
+// CHECK-NEXT:    ret i32 3
+//
 int code() { return 3; }
 
-// CHECK-LABEL: define dso_local i32 @test_versions() #0
+// CHECK: Function Attrs: noinline nounwind optnone
+// CHECK-LABEL: define dso_local i32 @test_versions(
+// CHECK-SAME: ) #[[ATTR0]] {
+// CHECK-NEXT:  [[ENTRY:.*:]]
+// CHECK-NEXT:    [[RETVAL:%.*]] = alloca i32, align 4
+// CHECK-NEXT:    [[TMP0:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP1:%.*]] = and i64 [[TMP0]], 1073807616
+// CHECK-NEXT:    [[TMP2:%.*]] = icmp eq i64 [[TMP1]], 1073807616
+// CHECK-NEXT:    [[TMP3:%.*]] = and i1 true, [[TMP2]]
+// CHECK-NEXT:    br i1 [[TMP3]], label %[[IF_THEN:.*]], label %[[IF_ELSE:.*]]
+// CHECK:       [[IF_THEN]]:
+// CHECK-NEXT:    [[CALL:%.*]] = call i32 @sve_code()
+// CHECK-NEXT:    store i32 [[CALL]], ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN:.*]]
+// CHECK:       [[IF_ELSE]]:
+// CHECK-NEXT:    [[TMP4:%.*]] = load i64, ptr @__aarch64_cpu_features, align 8
+// CHECK-NEXT:    [[TMP5:%.*]] = and i64 [[TMP4]], 768
+// CHECK-NEXT:    [[TMP6:%.*]] = icmp eq i64 [[TMP5]], 768
+// CHECK-NEXT:    [[TMP7:%.*]] = and i1 true, [[TMP6]]
+// CHECK-NEXT:    br i1 [[TMP7]], label %[[IF_THEN1:.*]], label %[[IF_ELSE3:.*]]
+// CHECK:       [[IF_THEN1]]:
+// CHECK-NEXT:    [[CALL2:%.*]] = call i32 @neon_code()
+// CHECK-NEXT:    store i32 [[CALL2]], ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[IF_ELSE3]]:
+// CHECK-NEXT:    [[CALL4:%.*]] = call i32 @code()
+// CHECK-NEXT:    store i32 [[CALL4]], ptr [[RETVAL]], align 4
+// CHECK-NEXT:    br label %[[RETURN]]
+// CHECK:       [[RETURN]]:
+// CHECK-NEXT:    [[TMP8:%.*]] = load i32, ptr [[RETVAL]], align 4
+// CHECK-NEXT:    ret i32 [[TMP8]]
+//
 int test_versions() {
   if (__builtin_cpu_supports("sve"))
     return sve_code();
@@ -47,6 +216,12 @@ int test_versions() {
   else
     return code();
 }
-// CHECK: attributes #0 = { noinline nounwind optnone "no-trapping-math"="true" "stack-protector-buffer-size"="8" }
-// CHECK: attributes #1 = { noinline nounwind optnone "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+fp-armv8,+neon" }
-// CHECK: attributes #2 = { noinline nounwind optnone "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+fp-armv8,+fullfp16,+sve" }
+
+//.
+// CHECK: attributes #[[ATTR0]] = { noinline nounwind optnone "no-trapping-math"="true" "stack-protector-buffer-size"="8" }
+// CHECK: attributes #[[ATTR1]] = { noinline nounwind optnone "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+fp-armv8,+neon" }
+// CHECK: attributes #[[ATTR2]] = { noinline nounwind optnone "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-features"="+fp-armv8,+fullfp16,+sve" }
+//.
+// CHECK: [[META0:![0-9]+]] = !{i32 1, !"wchar_size", i32 4}
+// CHECK: [[META1:![0-9]+]] = !{!"{{.*}}clang version {{.*}}"}
+//.
diff --git a/clang/test/CodeGen/RISCV/riscv-inline-asm.c b/clang/test/CodeGen/RISCV/riscv-inline-asm.c
index 9da306807ed0d..f2031e0adcbcb 100644
--- a/clang/test/CodeGen/RISCV/riscv-inline-asm.c
+++ b/clang/test/CodeGen/RISCV/riscv-inline-asm.c
@@ -46,6 +46,14 @@ double_xlen_t test_R_wide_scalar(double_xlen_t p) {
   return ret;
 }
 
+double_xlen_t test_cR_wide_scalar(double_xlen_t p) {
+// CHECK-LABEL: define{{.*}} {{i128|i64}} @test_cR_wide_scalar(
+// CHECK: call {{i128|i64}} asm sideeffect "", "=^cR,^cR"({{i128|i64}} %{{.*}})
+  double_xlen_t ret;
+  asm volatile("" : "=cR"(ret) : "cR"(p));
+  return ret;
+}
+
 void test_I(void) {
 // CHECK-LABEL: define{{.*}} void @test_I()
 // CHECK: call void asm sideeffect "", "I"(i32 2047)
diff --git a/clang/test/CodeGen/X86/avx10_2_512bf16-builtins.c b/clang/test/CodeGen/X86/avx10_2_512bf16-builtins.c
index b00859c174fba..78405d63984f6 100644
--- a/clang/test/CodeGen/X86/avx10_2_512bf16-builtins.c
+++ b/clang/test/CodeGen/X86/avx10_2_512bf16-builtins.c
@@ -146,22 +146,22 @@ __m512bh test_mm512_setr_pbh(__bf16 bf1, __bf16 bf2, __bf16 bf3, __bf16 bf4,
                         bf25, bf26, bf27, bf28, bf29, bf30, bf31, bf32);
 }
 
-__m512 test_mm512_castpbf16_ps(__m512bh A) {
-  // CHECK-LABEL: test_mm512_castpbf16_ps
+__m512 test_mm512_castbf16_ps(__m512bh A) {
+  // CHECK-LABEL: test_mm512_castbf16_ps
   // CHECK: bitcast <32 x bfloat> %{{.*}} to <16 x float>
-  return _mm512_castpbf16_ps(A);
+  return _mm512_castbf16_ps(A);
 }
 
-__m512d test_mm512_castpbf16_pd(__m512bh A) {
-  // CHECK-LABEL: test_mm512_castpbf16_pd
+__m512d test_mm512_castbf16_pd(__m512bh A) {
+  // CHECK-LABEL: test_mm512_castbf16_pd
   // CHECK: bitcast <32 x bfloat> %{{.*}} to <8 x double>
-  return _mm512_castpbf16_pd(A);
+  return _mm512_castbf16_pd(A);
 }
 
-__m512i test_mm512_castpbf16_si512(__m512bh A) {
-  // CHECK-LABEL: test_mm512_castpbf16_si512
+__m512i test_mm512_castbf16_si512(__m512bh A) {
+  // CHECK-LABEL: test_mm512_castbf16_si512
   // CHECK: bitcast <32 x bfloat> %{{.*}} to <8 x i64>
-  return _mm512_castpbf16_si512(A);
+  return _mm512_castbf16_si512(A);
 }
 
 __m512bh test_mm512_castps_pbh(__m512 A) {
@@ -182,40 +182,40 @@ __m512bh test_mm512_castsi512_pbh(__m512i A) {
   return _mm512_castsi512_pbh(A);
 }
 
-__m128bh test_mm512_castpbf16512_pbh128(__m512bh __a) {
-  // CHECK-LABEL: test_mm512_castpbf16512_pbh128
+__m128bh test_mm512_castbf16512_pbh128(__m512bh __a) {
+  // CHECK-LABEL: test_mm512_castbf16512_pbh128
   // CHECK: shufflevector <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
-  return _mm512_castpbf16512_pbh128(__a);
+  return _mm512_castbf16512_pbh128(__a);
 }
 
-__m256bh test_mm512_castpbf16512_pbh256(__m512bh __a) {
-  // CHECK-LABEL: test_mm512_castpbf16512_pbh256
+__m256bh test_mm512_castbf16512_pbh256(__m512bh __a) {
+  // CHECK-LABEL: test_mm512_castbf16512_pbh256
   // CHECK: shufflevector <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
-  return _mm512_castpbf16512_pbh256(__a);
+  return _mm512_castbf16512_pbh256(__a);
 }
 
-__m512bh test_mm512_castpbf16128_pbh512(__m128bh __a) {
-  // CHECK-LABEL: test_mm512_castpbf16128_pbh512
+__m512bh test_mm512_castbf16128_pbh512(__m128bh __a) {
+  // CHECK-LABEL: test_mm512_castbf16128_pbh512
   // CHECK: shufflevector <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison>
-  return _mm512_castpbf16128_pbh512(__a);
+  return _mm512_castbf16128_pbh512(__a);
 }
 
-__m512bh test_mm512_castpbf16256_pbh512(__m256bh __a) {
-  // CHECK-LABEL: test_mm512_castpbf16256_pbh512
+__m512bh test_mm512_castbf16256_pbh512(__m256bh __a) {
+  // CHECK-LABEL: test_mm512_castbf16256_pbh512
   // CHECK: shufflevector <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison>
-  return _mm512_castpbf16256_pbh512(__a);
+  return _mm512_castbf16256_pbh512(__a);
 }
 
-__m512bh test_mm512_zextpbf16128_pbh512(__m128bh __a) {
-  // CHECK-LABEL: test_mm512_zextpbf16128_pbh512
+__m512bh test_mm512_zextbf16128_pbh512(__m128bh __a) {
+  // CHECK-LABEL: test_mm512_zextbf16128_pbh512
   // CHECK: shufflevector <8 x bfloat> %{{.*}}, <8 x bfloat> {{.*}}, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
-  return _mm512_zextpbf16128_pbh512(__a);
+  return _mm512_zextbf16128_pbh512(__a);
 }
 
-__m512bh test_mm512_zextpbf16256_pbh512(__m256bh __a) {
-  // CHECK-LABEL: test_mm512_zextpbf16256_pbh512
+__m512bh test_mm512_zextbf16256_pbh512(__m256bh __a) {
+  // CHECK-LABEL: test_mm512_zextbf16256_pbh512
   // CHECK: shufflevector <16 x bfloat> %{{.*}}, <16 x bfloat> {{.*}}, <32 x i32>
-  return _mm512_zextpbf16256_pbh512(__a);
+  return _mm512_zextbf16256_pbh512(__a);
 }
 
 __m512bh test_mm512_abs_pbh(__m512bh a) {
@@ -277,110 +277,110 @@ __m512bh test_mm512_permutexvar_epi16(__m512i __A, __m512bh __B) {
   return _mm512_permutexvar_pbh(__A, __B);
 }
 
-__m512bh test_mm512_addne_pbh(__m512bh __A, __m512bh __B) {
-  // CHECK-LABEL: @test_mm512_addne_pbh
+__m512bh test_mm512_add_pbh(__m512bh __A, __m512bh __B) {
+  // CHECK-LABEL: @test_mm512_add_pbh
   // CHECK: %{{.*}} = fadd <32 x bfloat> %{{.*}}, %{{.*}}
-  return _mm512_addne_pbh(__A, __B);
+  return _mm512_add_pbh(__A, __B);
 }
 
-__m512bh test_mm512_mask_addne_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
+__m512bh test_mm512_mask_add_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK: %{{.*}} = fadd <32 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask_addne_pbh(__W, __U, __A, __B);
+  return _mm512_mask_add_pbh(__W, __U, __A, __B);
 }
 
-__m512bh test_mm512_maskz_addne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
+__m512bh test_mm512_maskz_add_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK: %{{.*}} = fadd <32 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_maskz_addne_pbh(__U, __A, __B);
+  return _mm512_maskz_add_pbh(__U, __A, __B);
 }
 
-__m512bh test_mm512_subne_pbh(__m512bh __A, __m512bh __B) {
-  // CHECK-LABEL: @test_mm512_subne_pbh
+__m512bh test_mm512_sub_pbh(__m512bh __A, __m512bh __B) {
+  // CHECK-LABEL: @test_mm512_sub_pbh
   // CHECK: %{{.*}} = fsub <32 x bfloat> %{{.*}}, %{{.*}}
-  return _mm512_subne_pbh(__A, __B);
+  return _mm512_sub_pbh(__A, __B);
 }
 
-__m512bh test_mm512_mask_subne_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
+__m512bh test_mm512_mask_sub_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK: %{{.*}} = fsub <32 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask_subne_pbh(__W, __U, __A, __B);
+  return _mm512_mask_sub_pbh(__W, __U, __A, __B);
 }
 
-__m512bh test_mm512_maskz_subne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
+__m512bh test_mm512_maskz_sub_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK: %{{.*}} = fsub <32 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_maskz_subne_pbh(__U, __A, __B);
+  return _mm512_maskz_sub_pbh(__U, __A, __B);
 }
 
-__m512bh test_mm512_mulne_pbh(__m512bh __A, __m512bh __B) {
-  // CHECK-LABEL: @test_mm512_mulne_pbh
+__m512bh test_mm512_mul_pbh(__m512bh __A, __m512bh __B) {
+  // CHECK-LABEL: @test_mm512_mul_pbh
   // CHECK: %{{.*}} = fmul <32 x bfloat> %{{.*}}, %{{.*}}
-  return _mm512_mulne_pbh(__A, __B);
+  return _mm512_mul_pbh(__A, __B);
 }
 
-__m512bh test_mm512_mask_mulne_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
+__m512bh test_mm512_mask_mul_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK: %{{.*}} = fmul <32 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask_mulne_pbh(__W, __U, __A, __B);
+  return _mm512_mask_mul_pbh(__W, __U, __A, __B);
 }
 
-__m512bh test_mm512_maskz_mulne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
+__m512bh test_mm512_maskz_mul_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK: %{{.*}} = fmul <32 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_maskz_mulne_pbh(__U, __A, __B);
+  return _mm512_maskz_mul_pbh(__U, __A, __B);
 }
 
-__m512bh test_mm512_divne_pbh(__m512bh __A, __m512bh __B) {
-  // CHECK-LABEL: @test_mm512_divne_pbh
+__m512bh test_mm512_div_pbh(__m512bh __A, __m512bh __B) {
+  // CHECK-LABEL: @test_mm512_div_pbh
   // CHECK: %{{.*}} = fdiv <32 x bfloat> %{{.*}}, %{{.*}}
-  return _mm512_divne_pbh(__A, __B);
+  return _mm512_div_pbh(__A, __B);
 }
 
-__m512bh test_mm512_mask_divne_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
+__m512bh test_mm512_mask_div_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK: %{{.*}} = fdiv <32 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask_divne_pbh(__W, __U, __A, __B);
+  return _mm512_mask_div_pbh(__W, __U, __A, __B);
 }
 
-__m512bh test_mm512_maskz_divne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
+__m512bh test_mm512_maskz_div_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK: %{{.*}} = fdiv <32 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_maskz_divne_pbh(__U, __A, __B);
+  return _mm512_maskz_div_pbh(__U, __A, __B);
 }
 
 __m512bh test_mm512_max_pbh(__m512bh __A, __m512bh __B) {
   // CHECK-LABEL: @test_mm512_max_pbh
-  // CHECK: @llvm.x86.avx10.vmaxpbf16512(
+  // CHECK: @llvm.x86.avx10.vmaxbf16512(
   return _mm512_max_pbh(__A, __B);
 }
 
 __m512bh test_mm512_mask_max_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
-  // CHECK: @llvm.x86.avx10.vmaxpbf16512
+  // CHECK: @llvm.x86.avx10.vmaxbf16512
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
   return _mm512_mask_max_pbh(__W, __U, __A, __B);
 }
 
 __m512bh test_mm512_maskz_max_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
-  // CHECK: @llvm.x86.avx10.vmaxpbf16512
+  // CHECK: @llvm.x86.avx10.vmaxbf16512
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
   return _mm512_maskz_max_pbh(__U, __A, __B);
 }
 
 __m512bh test_mm512_min_pbh(__m512bh __A, __m512bh __B) {
   // CHECK-LABEL: @test_mm512_min_pbh
-  // CHECK: @llvm.x86.avx10.vminpbf16512(
+  // CHECK: @llvm.x86.avx10.vminbf16512(
   return _mm512_min_pbh(__A, __B);
 }
 
 __m512bh test_mm512_mask_min_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
-  // CHECK: @llvm.x86.avx10.vminpbf16512
+  // CHECK: @llvm.x86.avx10.vminbf16512
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
   return _mm512_mask_min_pbh(__W, __U, __A, __B);
 }
 
 __m512bh test_mm512_maskz_min_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
-  // CHECK: @llvm.x86.avx10.vminpbf16512
+  // CHECK: @llvm.x86.avx10.vminbf16512
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
   return _mm512_maskz_min_pbh(__U, __A, __B);
 }
@@ -802,139 +802,139 @@ __mmask32 test_mm512_mask_cmp_pbh_mask_true_us(__mmask32 m, __m512bh a, __m512bh
 
 __mmask32 test_mm512_mask_fpclass_pbh_mask(__mmask32 __U, __m512bh __A) {
   // CHECK-LABEL: @test_mm512_mask_fpclass_pbh_mask
-  // CHECK: @llvm.x86.avx10.fpclass.nepbf16.512
+  // CHECK: @llvm.x86.avx10.fpclass.bf16.512
   return _mm512_mask_fpclass_pbh_mask(__U, __A, 4);
 }
 
 __mmask32 test_mm512_fpclass_pbh_mask(__m512bh __A) {
   // CHECK-LABEL: @test_mm512_fpclass_pbh_mask
-  // CHECK: @llvm.x86.avx10.fpclass.nepbf16.512
+  // CHECK: @llvm.x86.avx10.fpclass.bf16.512
   return _mm512_fpclass_pbh_mask(__A, 4);
 }
 
 __m512bh test_mm512_scalef_pbh(__m512bh __A, __m512bh __B) {
   // CHECK-LABEL: @test_mm512_scalef_pbh
-  // CHECK: @llvm.x86.avx10.mask.scalef.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.scalef.bf16.512
   return _mm512_scalef_pbh(__A, __B);
 }
 
 __m512bh test_mm512_mask_scalef_pbh(__m512bh __W, __mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK-LABEL: @test_mm512_mask_scalef_pbh
-  // CHECK: @llvm.x86.avx10.mask.scalef.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.scalef.bf16.512
   return _mm512_mask_scalef_pbh(__W, __U, __A, __B);
 }
 
 __m512bh test_mm512_maskz_scalef_pbh(__mmask32 __U, __m512bh __A, __m512bh __B) {
   // CHECK-LABEL: @test_mm512_maskz_scalef_pbh
-  // CHECK: @llvm.x86.avx10.mask.scalef.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.scalef.bf16.512
   return _mm512_maskz_scalef_pbh(__U, __A, __B);
 }
 
 __m512bh test_mm512_rcp_pbh(__m512bh __A) {
   // CHECK-LABEL: @test_mm512_rcp_pbh
-  // CHECK: @llvm.x86.avx10.mask.rcp.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.rcp.bf16.512
   return _mm512_rcp_pbh(__A);
 }
 
 __m512bh test_mm512_mask_rcp_pbh(__m512bh __W, __mmask32 __U, __m512bh __A) {
   // CHECK-LABEL: @test_mm512_mask_rcp_pbh
-  // CHECK: @llvm.x86.avx10.mask.rcp.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.rcp.bf16.512
   return (__m512bh)_mm512_mask_rcp_pbh(__W, __U, __A);
 }
 
 __m512bh test_mm512_maskz_rcp_pbh(__mmask32 __U, __m512bh __A) {
   // CHECK-LABEL: @test_mm512_maskz_rcp_pbh
-  // CHECK: @llvm.x86.avx10.mask.rcp.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.rcp.bf16.512
   return _mm512_maskz_rcp_pbh(__U, __A);
 }
 
 __m512bh test_mm512_getexp_pbh(__m512bh __A) {
   // CHECK-LABEL: @test_mm512_getexp_pbh
-  // CHECK: @llvm.x86.avx10.mask.getexp.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.getexp.bf16.512
   return _mm512_getexp_pbh(__A);
 }
 
 __m512bh test_mm512_mask_getexp_pbh(__m512bh __W, __mmask32 __U, __m512bh __A) {
   // CHECK-LABEL: @test_mm512_mask_getexp_pbh
-  // CHECK: @llvm.x86.avx10.mask.getexp.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.getexp.bf16.512
   return _mm512_mask_getexp_pbh(__W, __U, __A);
 }
 
 __m512bh test_mm512_maskz_getexp_pbh(__mmask32 __U, __m512bh __A) {
   // CHECK-LABEL: @test_mm512_maskz_getexp_pbh
-  // CHECK: @llvm.x86.avx10.mask.getexp.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.getexp.bf16.512
   return _mm512_maskz_getexp_pbh(__U, __A);
 }
 
 __m512bh test_mm512_rsqrt_pbh(__m512bh __A) {
   // CHECK-LABEL: @test_mm512_rsqrt_pbh
-  // CHECK: @llvm.x86.avx10.mask.rsqrt.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.rsqrt.bf16.512
   return _mm512_rsqrt_pbh(__A);
 }
 
 __m512bh test_mm512_mask_rsqrt_pbh(__m512bh __W, __mmask32 __U, __m512bh __A) {
   // CHECK-LABEL: @test_mm512_mask_rsqrt_pbh
-  // CHECK: @llvm.x86.avx10.mask.rsqrt.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.rsqrt.bf16.512
   return (__m512bh)_mm512_mask_rsqrt_pbh(__W, __U, __A);
 }
 
 __m512bh test_mm512_maskz_rsqrt_pbh(__mmask32 __U, __m512bh __A) {
   // CHECK-LABEL: @test_mm512_maskz_rsqrt_pbh
-  // CHECK: @llvm.x86.avx10.mask.rsqrt.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.rsqrt.bf16.512
   return _mm512_maskz_rsqrt_pbh(__U, __A);
 }
 
-__m512bh test_mm512_reducene_pbh(__m512bh __A) {
-  // CHECK-LABEL: @test_mm512_reducene_pbh
-  // CHECK: @llvm.x86.avx10.mask.reduce.nepbf16.512
-  return _mm512_reducene_pbh(__A, 3);
+__m512bh test_mm512_reduce_pbh(__m512bh __A) {
+  // CHECK-LABEL: @test_mm512_reduce_pbh
+  // CHECK: @llvm.x86.avx10.mask.reduce.bf16.512
+  return _mm512_reduce_pbh(__A, 3);
 }
 
-__m512bh test_mm512_mask_reducene_pbh(__m512bh __W, __mmask16 __U, __m512bh __A) {
-  // CHECK-LABEL: @test_mm512_mask_reducene_pbh
-  // CHECK: @llvm.x86.avx10.mask.reduce.nepbf16.512
-  return _mm512_mask_reducene_pbh(__W, __U, __A, 1);
+__m512bh test_mm512_mask_reduce_pbh(__m512bh __W, __mmask16 __U, __m512bh __A) {
+  // CHECK-LABEL: @test_mm512_mask_reduce_pbh
+  // CHECK: @llvm.x86.avx10.mask.reduce.bf16.512
+  return _mm512_mask_reduce_pbh(__W, __U, __A, 1);
 }
 
-__m512bh test_mm512_maskz_reducene_pbh(__mmask16 __U, __m512bh __A) {
-  // CHECK-LABEL: @test_mm512_maskz_reducene_pbh
-  // CHECK: @llvm.x86.avx10.mask.reduce.nepbf16.512
-  return _mm512_maskz_reducene_pbh(__U, __A, 1);
+__m512bh test_mm512_maskz_reduce_pbh(__mmask16 __U, __m512bh __A) {
+  // CHECK-LABEL: @test_mm512_maskz_reduce_pbh
+  // CHECK: @llvm.x86.avx10.mask.reduce.bf16.512
+  return _mm512_maskz_reduce_pbh(__U, __A, 1);
 }
 
-__m512bh test_mm512_roundscalene_pbh(__m512bh __A) {
-  // CHECK-LABEL: @test_mm512_roundscalene_pbh
-  // CHECK: @llvm.x86.avx10.mask.rndscale.nepbf16.512
-  return _mm512_roundscalene_pbh(__A, 3);
+__m512bh test_mm512_roundscale_pbh(__m512bh __A) {
+  // CHECK-LABEL: @test_mm512_roundscale_pbh
+  // CHECK: @llvm.x86.avx10.mask.rndscale.bf16.512
+  return _mm512_roundscale_pbh(__A, 3);
 }
 
-__m512bh test_mm512_mask_roundscalene_pbh(__m512bh __W, __mmask16 __U, __m512bh __A) {
-  // CHECK-LABEL: @test_mm512_mask_roundscalene_pbh
-  // CHECK: @llvm.x86.avx10.mask.rndscale.nepbf16.512
-  return _mm512_mask_roundscalene_pbh(__W, __U, __A, 1);
+__m512bh test_mm512_mask_roundscale_pbh(__m512bh __W, __mmask16 __U, __m512bh __A) {
+  // CHECK-LABEL: @test_mm512_mask_roundscale_pbh
+  // CHECK: @llvm.x86.avx10.mask.rndscale.bf16.512
+  return _mm512_mask_roundscale_pbh(__W, __U, __A, 1);
 }
 
-__m512bh test_mm512_maskz_roundscalene_pbh(__mmask16 __U, __m512bh __A) {
-  // CHECK-LABEL: @test_mm512_maskz_roundscalene_pbh
-  // CHECK: @llvm.x86.avx10.mask.rndscale.nepbf16.512
-  return _mm512_maskz_roundscalene_pbh(__U, __A, 1 );
+__m512bh test_mm512_maskz_roundscale_pbh(__mmask16 __U, __m512bh __A) {
+  // CHECK-LABEL: @test_mm512_maskz_roundscale_pbh
+  // CHECK: @llvm.x86.avx10.mask.rndscale.bf16.512
+  return _mm512_maskz_roundscale_pbh(__U, __A, 1 );
 }
 
 __m512bh test_mm512_getmant_pbh(__m512bh __A) {
   // CHECK-LABEL: @test_mm512_getmant_pbh
-  // CHECK: @llvm.x86.avx10.mask.getmant.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.getmant.bf16.512
   return _mm512_getmant_pbh(__A, _MM_MANT_NORM_p5_2, _MM_MANT_SIGN_nan);
 }
 
 __m512bh test_mm512_mask_getmant_pbh(__m512bh __W, __mmask32 __U, __m512bh __A) {
   // CHECK-LABEL: @test_mm512_mask_getmant_pbh
-  // CHECK: @llvm.x86.avx10.mask.getmant.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.getmant.bf16.512
   return _mm512_mask_getmant_pbh(__W, __U, __A, _MM_MANT_NORM_p5_2, _MM_MANT_SIGN_nan);
 }
 
 __m512bh test_mm512_maskz_getmant_pbh(__mmask32 __U, __m512bh __A) {
   // CHECK-LABEL: @test_mm512_maskz_getmant_pbh
-  // CHECK: @llvm.x86.avx10.mask.getmant.nepbf16.512
+  // CHECK: @llvm.x86.avx10.mask.getmant.bf16.512
   return _mm512_maskz_getmant_pbh(__U, __A, _MM_MANT_NORM_p5_2, _MM_MANT_SIGN_nan);
 }
 
@@ -960,126 +960,126 @@ __m512bh test_mm512_maskz_sqrt_pbh(__mmask32 __U, __m512bh __A) {
   return _mm512_maskz_sqrt_pbh(__U, __A);
 }
 
-__m512bh test_mm512_fmaddne_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_fmaddne_pbh
+__m512bh test_mm512_fmadd_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_fmadd_pbh
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
-  return _mm512_fmaddne_pbh(__A, __B, __C);
+  return _mm512_fmadd_pbh(__A, __B, __C);
 }
 
-__m512bh test_mm512_mask_fmaddne_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_mask_fmaddne_pbh
+__m512bh test_mm512_mask_fmadd_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_mask_fmadd_pbh
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask_fmaddne_pbh(__A, __U, __B, __C);
+  return _mm512_mask_fmadd_pbh(__A, __U, __B, __C);
 }
 
-__m512bh test_mm512_mask3_fmaddne_pbh(__m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
-  // CHECK-LABEL: @test_mm512_mask3_fmaddne_pbh
+__m512bh test_mm512_mask3_fmadd_pbh(__m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
+  // CHECK-LABEL: @test_mm512_mask3_fmadd_pbh
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask3_fmaddne_pbh(__A, __B, __C, __U);
+  return _mm512_mask3_fmadd_pbh(__A, __B, __C, __U);
 }
 
-__m512bh test_mm512_maskz_fmaddne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_maskz_fmaddne_pbh
+__m512bh test_mm512_maskz_fmadd_pbh(__mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_maskz_fmadd_pbh
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_maskz_fmaddne_pbh(__U, __A, __B, __C);
+  return _mm512_maskz_fmadd_pbh(__U, __A, __B, __C);
 }
 
-__m512bh test_mm512_fmsubne_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_fmsubne_pbh
+__m512bh test_mm512_fmsub_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
-  return _mm512_fmsubne_pbh(__A, __B, __C);
+  return _mm512_fmsub_pbh(__A, __B, __C);
 }
 
-__m512bh test_mm512_mask_fmsubne_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_mask_fmsubne_pbh
+__m512bh test_mm512_mask_fmsub_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_mask_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask_fmsubne_pbh(__A, __U, __B, __C);
+  return _mm512_mask_fmsub_pbh(__A, __U, __B, __C);
 }
 
-__m512bh test_mm512_mask3_fmsubne_pbh(__m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
-  // CHECK-LABEL: @test_mm512_mask3_fmsubne_pbh
+__m512bh test_mm512_mask3_fmsub_pbh(__m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
+  // CHECK-LABEL: @test_mm512_mask3_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask3_fmsubne_pbh(__A, __B, __C, __U);
+  return _mm512_mask3_fmsub_pbh(__A, __B, __C, __U);
 }
 
-__m512bh test_mm512_maskz_fmsubne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_maskz_fmsubne_pbh
+__m512bh test_mm512_maskz_fmsub_pbh(__mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_maskz_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_maskz_fmsubne_pbh(__U, __A, __B, __C);
+  return _mm512_maskz_fmsub_pbh(__U, __A, __B, __C);
 }
 
-__m512bh test_mm512_fnmaddne_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_fnmaddne_pbh
+__m512bh test_mm512_fnmadd_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
-  return _mm512_fnmaddne_pbh(__A, __B, __C);
+  return _mm512_fnmadd_pbh(__A, __B, __C);
 }
 
-__m512bh test_mm512_mask_fnmaddne_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_mask_fnmaddne_pbh
+__m512bh test_mm512_mask_fnmadd_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_mask_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask_fnmaddne_pbh(__A, __U, __B, __C);
+  return _mm512_mask_fnmadd_pbh(__A, __U, __B, __C);
 }
 
-__m512bh test_mm512_mask3_fnmaddne_pbh(__m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
-  // CHECK-LABEL: @test_mm512_mask3_fnmaddne_pbh
+__m512bh test_mm512_mask3_fnmadd_pbh(__m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
+  // CHECK-LABEL: @test_mm512_mask3_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask3_fnmaddne_pbh(__A, __B, __C, __U);
+  return _mm512_mask3_fnmadd_pbh(__A, __B, __C, __U);
 }
 
-__m512bh test_mm512_maskz_fnmaddne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_maskz_fnmaddne_pbh
+__m512bh test_mm512_maskz_fnmadd_pbh(__mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_maskz_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_maskz_fnmaddne_pbh(__U, __A, __B, __C);
+  return _mm512_maskz_fnmadd_pbh(__U, __A, __B, __C);
 }
 
-__m512bh test_mm512_fnmsubne_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_fnmsubne_pbh
+__m512bh test_mm512_fnmsub_pbh(__m512bh __A, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
-  return _mm512_fnmsubne_pbh(__A, __B, __C);
+  return _mm512_fnmsub_pbh(__A, __B, __C);
 }
 
-__m512bh test_mm512_mask_fnmsubne_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_mask_fnmsubne_pbh
+__m512bh test_mm512_mask_fnmsub_pbh(__m512bh __A, __mmask32 __U, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_mask_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask_fnmsubne_pbh(__A, __U, __B, __C);
+  return _mm512_mask_fnmsub_pbh(__A, __U, __B, __C);
 }
 
-__m512bh test_mm512_mask3_fnmsubne_pbh(__m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
-  // CHECK-LABEL: @test_mm512_mask3_fnmsubne_pbh
+__m512bh test_mm512_mask3_fnmsub_pbh(__m512bh __A, __m512bh __B, __m512bh __C, __mmask32 __U) {
+  // CHECK-LABEL: @test_mm512_mask3_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_mask3_fnmsubne_pbh(__A, __B, __C, __U);
+  return _mm512_mask3_fnmsub_pbh(__A, __B, __C, __U);
 }
 
-__m512bh test_mm512_maskz_fnmsubne_pbh(__mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
-  // CHECK-LABEL: @test_mm512_maskz_fnmsubne_pbh
+__m512bh test_mm512_maskz_fnmsub_pbh(__mmask32 __U, __m512bh __A, __m512bh __B, __m512bh __C) {
+  // CHECK-LABEL: @test_mm512_maskz_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}})
   // CHECK: select <32 x i1> %{{.*}}, <32 x bfloat> %{{.*}}, <32 x bfloat> %{{.*}}
-  return _mm512_maskz_fnmsubne_pbh(__U, __A, __B, __C);
+  return _mm512_maskz_fnmsub_pbh(__U, __A, __B, __C);
 }
diff --git a/clang/test/CodeGen/X86/avx10_2_512convert-builtins.c b/clang/test/CodeGen/X86/avx10_2_512convert-builtins.c
index 6662e0cbf8a91..22503c640a727 100644
--- a/clang/test/CodeGen/X86/avx10_2_512convert-builtins.c
+++ b/clang/test/CodeGen/X86/avx10_2_512convert-builtins.c
@@ -41,278 +41,278 @@ __m512h test_mm512_maskz_cvtx_round2ps_ph(__mmask32 __U, __m512 __A, __m512 __B)
   return _mm512_maskz_cvtx_round2ps_ph(__U, __A, __B, _MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC);
 }
 
-__m256i test_mm512_cvtbiasph_pbf8(__m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_cvtbiasph_pbf8(
+__m256i test_mm512_cvtbiasph_bf8(__m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_cvtbiasph_bf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8512(
-  return _mm512_cvtbiasph_pbf8(__A, __B);
+  return _mm512_cvtbiasph_bf8(__A, __B);
 }
 
-__m256i test_mm512_mask_cvtbiasph_pbf8(__m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_mask_cvtbiasph_pbf8(
+__m256i test_mm512_mask_cvtbiasph_bf8(__m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_mask_cvtbiasph_bf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8512(
-  return _mm512_mask_cvtbiasph_pbf8(__W, __U, __A, __B);
+  return _mm512_mask_cvtbiasph_bf8(__W, __U, __A, __B);
 }
 
-__m256i test_mm512_maskz_cvtbiasph_pbf8(__mmask32 __U, __m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtbiasph_pbf8(
+__m256i test_mm512_maskz_cvtbiasph_bf8(__mmask32 __U, __m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvtbiasph_bf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8512(
-  return _mm512_maskz_cvtbiasph_pbf8(__U, __A, __B);
+  return _mm512_maskz_cvtbiasph_bf8(__U, __A, __B);
 }
 
-__m256i test_mm512_cvtbiassph_pbf8(__m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_cvtbiassph_pbf8(
+__m256i test_mm512_cvtbiassph_bf8(__m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_cvtbiassph_bf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8s512(
-  return _mm512_cvtbiassph_pbf8(__A, __B);
+  return _mm512_cvtbiassph_bf8(__A, __B);
 }
 
-__m256i test_mm512_mask_cvtbiassph_pbf8(__m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_mask_cvtbiassph_pbf8(
+__m256i test_mm512_mask_cvtbiassph_bf8(__m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_mask_cvtbiassph_bf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8s512(
-  return _mm512_mask_cvtbiassph_pbf8(__W, __U, __A, __B);
+  return _mm512_mask_cvtbiassph_bf8(__W, __U, __A, __B);
 }
 
-__m256i test_mm512_maskz_cvtbiassph_pbf8(__mmask32 __U, __m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtbiassph_pbf8(
+__m256i test_mm512_maskz_cvtbiassph_bf8(__mmask32 __U, __m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvtbiassph_bf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8s512(
-  return _mm512_maskz_cvtbiassph_pbf8(__U, __A, __B);
+  return _mm512_maskz_cvtbiassph_bf8(__U, __A, __B);
 }
 
-__m256i test_mm512_cvtbiasph_phf8(__m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_cvtbiasph_phf8(
+__m256i test_mm512_cvtbiasph_hf8(__m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_cvtbiasph_hf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8512(
-  return _mm512_cvtbiasph_phf8(__A, __B);
+  return _mm512_cvtbiasph_hf8(__A, __B);
 }
 
-__m256i test_mm512_mask_cvtbiasph_phf8(__m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_mask_cvtbiasph_phf8(
+__m256i test_mm512_mask_cvtbiasph_hf8(__m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_mask_cvtbiasph_hf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8512(
-  return _mm512_mask_cvtbiasph_phf8(__W, __U, __A, __B);
+  return _mm512_mask_cvtbiasph_hf8(__W, __U, __A, __B);
 }
 
-__m256i test_mm512_maskz_cvtbiasph_phf8(__mmask32 __U, __m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtbiasph_phf8(
+__m256i test_mm512_maskz_cvtbiasph_hf8(__mmask32 __U, __m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvtbiasph_hf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8512(
-  return _mm512_maskz_cvtbiasph_phf8(__U, __A, __B);
+  return _mm512_maskz_cvtbiasph_hf8(__U, __A, __B);
 }
 
-__m256i test_mm512_cvtbiassph_phf8(__m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_cvtbiassph_phf8(
+__m256i test_mm512_cvtbiassph_hf8(__m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_cvtbiassph_hf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8s512(
-  return _mm512_cvtbiassph_phf8(__A, __B);
+  return _mm512_cvtbiassph_hf8(__A, __B);
 }
 
-__m256i test_mm512_mask_cvtbiassph_phf8(__m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_mask_cvtbiassph_phf8(
+__m256i test_mm512_mask_cvtbiassph_hf8(__m256i __W, __mmask32 __U, __m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_mask_cvtbiassph_hf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8s512(
-  return _mm512_mask_cvtbiassph_phf8(__W, __U, __A, __B);
+  return _mm512_mask_cvtbiassph_hf8(__W, __U, __A, __B);
 }
 
-__m256i test_mm512_maskz_cvtbiassph_phf8(__mmask32 __U, __m512i __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtbiassph_phf8(
+__m256i test_mm512_maskz_cvtbiassph_hf8(__mmask32 __U, __m512i __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvtbiassph_hf8(
   // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8s512(
-  return _mm512_maskz_cvtbiassph_phf8(__U, __A, __B);
+  return _mm512_maskz_cvtbiassph_hf8(__U, __A, __B);
 }
 
-__m512i test_mm512_cvtne2ph_pbf8(__m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_cvtne2ph_pbf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8512(
-  return _mm512_cvtne2ph_pbf8(__A, __B);
+__m512i test_mm512_cvt2ph_bf8(__m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_cvt2ph_bf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8512(
+  return _mm512_cvt2ph_bf8(__A, __B);
 }
 
-__m512i test_mm512_mask_cvtne2ph_pbf8(__m512i __W, __mmask32 __U, __m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_mask_cvtne2ph_pbf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8512(
+__m512i test_mm512_mask_cvt2ph_bf8(__m512i __W, __mmask32 __U, __m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_mask_cvt2ph_bf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8512(
   // CHECK: select <64 x i1> %{{.*}}, <64 x i8> %{{.*}}, <64 x i8> %{{.*}}
   // CHECK: ret <8 x i64> %{{.*}}
-  return _mm512_mask_cvtne2ph_pbf8(__W, __U, __A, __B);
+  return _mm512_mask_cvt2ph_bf8(__W, __U, __A, __B);
 }
 
-__m512i test_mm512_maskz_cvtne2ph_pbf8(__mmask32 __U, __m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtne2ph_pbf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8512(
+__m512i test_mm512_maskz_cvt2ph_bf8(__mmask32 __U, __m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvt2ph_bf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8512(
   // CHECK: zeroinitializer
   // CHECK: select <64 x i1> %{{.*}}, <64 x i8> %{{.*}}, <64 x i8> %{{.*}}
-  return _mm512_maskz_cvtne2ph_pbf8(__U, __A, __B);
+  return _mm512_maskz_cvt2ph_bf8(__U, __A, __B);
 }
 
-__m512i test_mm512_cvtnes2ph_pbf8(__m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_cvtnes2ph_pbf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s512(
-  return _mm512_cvtnes2ph_pbf8(__A, __B);
+__m512i test_mm512_cvts2ph_bf8(__m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_cvts2ph_bf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8s512(
+  return _mm512_cvts2ph_bf8(__A, __B);
 }
 
-__m512i test_mm512_mask_cvtnes2ph_pbf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_mask_cvtnes2ph_pbf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s512(
+__m512i test_mm512_mask_cvts2ph_bf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_mask_cvts2ph_bf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8s512(
   // CHECK: select <64 x i1> %{{.*}}, <64 x i8> %{{.*}}, <64 x i8> %{{.*}}
   // CHECK: ret <8 x i64> %{{.*}}
-  return _mm512_mask_cvtnes2ph_pbf8(__W, __U, __A, __B);
+  return _mm512_mask_cvts2ph_bf8(__W, __U, __A, __B);
 }
 
-__m512i test_mm512_maskz_cvtnes2ph_pbf8(__mmask64 __U, __m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtnes2ph_pbf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s512(
+__m512i test_mm512_maskz_cvts2ph_bf8(__mmask64 __U, __m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvts2ph_bf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8s512(
   // CHECK: zeroinitializer
   // CHECK: select <64 x i1> %{{.*}}, <64 x i8> %{{.*}}, <64 x i8> %{{.*}}
-  return _mm512_maskz_cvtnes2ph_pbf8(__U, __A, __B);
+  return _mm512_maskz_cvts2ph_bf8(__U, __A, __B);
 }
 
-__m512i test_mm512_cvtne2ph_phf8(__m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_cvtne2ph_phf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8512(
-  return _mm512_cvtne2ph_phf8(__A, __B);
+__m512i test_mm512_cvt2ph_hf8(__m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_cvt2ph_hf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8512(
+  return _mm512_cvt2ph_hf8(__A, __B);
 }
 
-__m512i test_mm512_mask_cvtne2ph_phf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_mask_cvtne2ph_phf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8512(
+__m512i test_mm512_mask_cvt2ph_hf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_mask_cvt2ph_hf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8512(
   // CHECK: select <64 x i1> %{{.*}}, <64 x i8> %{{.*}}, <64 x i8> %{{.*}}
   // CHECK: ret <8 x i64> %{{.*}}
-  return _mm512_mask_cvtne2ph_phf8(__W, __U, __A, __B);
+  return _mm512_mask_cvt2ph_hf8(__W, __U, __A, __B);
 }
 
-__m512i test_mm512_maskz_cvtne2ph_phf8(__mmask64 __U, __m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtne2ph_phf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8512(
+__m512i test_mm512_maskz_cvt2ph_hf8(__mmask64 __U, __m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvt2ph_hf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8512(
   // CHECK: zeroinitializer
   // CHECK: select <64 x i1> %{{.*}}, <64 x i8> %{{.*}}, <64 x i8> %{{.*}}
-  return _mm512_maskz_cvtne2ph_phf8(__U, __A, __B);
+  return _mm512_maskz_cvt2ph_hf8(__U, __A, __B);
 }
 
-__m512i test_mm512_cvtnes2ph_phf8(__m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_cvtnes2ph_phf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s512(
-  return _mm512_cvtnes2ph_phf8(__A, __B);
+__m512i test_mm512_cvts2ph_hf8(__m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_cvts2ph_hf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8s512(
+  return _mm512_cvts2ph_hf8(__A, __B);
 }
 
-__m512i test_mm512_mask_cvtnes2ph_phf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_mask_cvtnes2ph_phf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s512(
+__m512i test_mm512_mask_cvts2ph_hf8(__m512i __W, __mmask64 __U, __m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_mask_cvts2ph_hf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8s512(
   // CHECK: select <64 x i1> %{{.*}}, <64 x i8> %{{.*}}, <64 x i8> %{{.*}}
   // CHECK: ret <8 x i64> %{{.*}}
-  return _mm512_mask_cvtnes2ph_phf8(__W, __U, __A, __B);
+  return _mm512_mask_cvts2ph_hf8(__W, __U, __A, __B);
 }
 
-__m512i test_mm512_maskz_cvtnes2ph_phf8(__mmask64 __U, __m512h __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtnes2ph_phf8(
-  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s512(
+__m512i test_mm512_maskz_cvts2ph_hf8(__mmask64 __U, __m512h __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvts2ph_hf8(
+  // CHECK: call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8s512(
   // CHECK: zeroinitializer
   // CHECK: select <64 x i1> %{{.*}}, <64 x i8> %{{.*}}, <64 x i8> %{{.*}}
-  return _mm512_maskz_cvtnes2ph_phf8(__U, __A, __B);
+  return _mm512_maskz_cvts2ph_hf8(__U, __A, __B);
 }
 
-__m512h test_mm512_cvtnehf8_ph(__m256i __A) {
-  // CHECK-LABEL: @test_mm512_cvtnehf8_ph(
+__m512h test_mm512_cvthf8(__m256i __A) {
+  // CHECK-LABEL: @test_mm512_cvthf8(
   // CHECK: call <32 x half> @llvm.x86.avx10.mask.vcvthf82ph512(
-  return _mm512_cvtnehf8_ph(__A);
+  return _mm512_cvthf8(__A);
 }
 
-__m512h test_mm512_mask_cvtnehf8_ph(__m512h __A, __mmask32 __B, __m256i __C) {
-  // CHECK-LABEL: @test_mm512_mask_cvtnehf8_ph(
+__m512h test_mm512_mask_cvthf8(__m512h __A, __mmask32 __B, __m256i __C) {
+  // CHECK-LABEL: @test_mm512_mask_cvthf8(
   // CHECK: call <32 x half> @llvm.x86.avx10.mask.vcvthf82ph512(
-  return _mm512_mask_cvtnehf8_ph(__A, __B, __C);
+  return _mm512_mask_cvthf8(__A, __B, __C);
 }
 
-__m512h test_mm512_maskz_cvtnehf8_ph(__mmask32 __A, __m256i __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtnehf8_ph(
+__m512h test_mm512_maskz_cvthf8(__mmask32 __A, __m256i __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvthf8(
   // CHECK: call <32 x half> @llvm.x86.avx10.mask.vcvthf82ph512(
-  return _mm512_maskz_cvtnehf8_ph(__A, __B);
+  return _mm512_maskz_cvthf8(__A, __B);
 }
 
-__m256i test_mm512_cvtneph_pbf8(__m512h __A) {
-  // CHECK-LABEL: @test_mm512_cvtneph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8512(
-  return _mm512_cvtneph_pbf8(__A);
+__m256i test_mm512_cvtph_bf8(__m512h __A) {
+  // CHECK-LABEL: @test_mm512_cvtph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8512(
+  return _mm512_cvtph_bf8(__A);
 }
 
-__m256i test_mm512_mask_cvtneph_pbf8(__m256i __A, __mmask32 __B, __m512h __C) {
-  // CHECK-LABEL: @test_mm512_mask_cvtneph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8512(
-  return _mm512_mask_cvtneph_pbf8(__A, __B, __C);
+__m256i test_mm512_mask_cvtph_bf8(__m256i __A, __mmask32 __B, __m512h __C) {
+  // CHECK-LABEL: @test_mm512_mask_cvtph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8512(
+  return _mm512_mask_cvtph_bf8(__A, __B, __C);
 }
 
-__m256i test_mm512_maskz_cvtneph_pbf8(__mmask32 __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtneph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8512(
-  return _mm512_maskz_cvtneph_pbf8(__A, __B);
+__m256i test_mm512_maskz_cvtph_bf8(__mmask32 __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvtph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8512(
+  return _mm512_maskz_cvtph_bf8(__A, __B);
 }
 
-__m256i test_mm512_cvtnesph_pbf8(__m512h __A) {
-  // CHECK-LABEL: @test_mm512_cvtnesph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s512(
-  return _mm512_cvtnesph_pbf8(__A);
+__m256i test_mm512_cvtsph_bf8(__m512h __A) {
+  // CHECK-LABEL: @test_mm512_cvtsph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s512(
+  return _mm512_cvtsph_bf8(__A);
 }
 
-__m256i test_mm512_mask_cvtnesph_pbf8(__m256i __A, __mmask32 __B, __m512h __C) {
-  // CHECK-LABEL: @test_mm512_mask_cvtnesph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s512(
-  return _mm512_mask_cvtnesph_pbf8(__A, __B, __C);
+__m256i test_mm512_mask_cvtsph_bf8(__m256i __A, __mmask32 __B, __m512h __C) {
+  // CHECK-LABEL: @test_mm512_mask_cvtsph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s512(
+  return _mm512_mask_cvtsph_bf8(__A, __B, __C);
 }
 
-__m256i test_mm512_maskz_cvtnesph_pbf8(__mmask32 __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtnesph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s512(
-  return _mm512_maskz_cvtnesph_pbf8(__A, __B);
+__m256i test_mm512_maskz_cvtsph_bf8(__mmask32 __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvtsph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s512(
+  return _mm512_maskz_cvtsph_bf8(__A, __B);
 }
 
-__m256i test_mm512_cvtneph_phf8(__m512h __A) {
-  // CHECK-LABEL: @test_mm512_cvtneph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8512(
-  return _mm512_cvtneph_phf8(__A);
+__m256i test_mm512_cvtph_hf8(__m512h __A) {
+  // CHECK-LABEL: @test_mm512_cvtph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8512(
+  return _mm512_cvtph_hf8(__A);
 }
 
-__m256i test_mm512_mask_cvtneph_phf8(__m256i __A, __mmask32 __B, __m512h __C) {
-  // CHECK-LABEL: @test_mm512_mask_cvtneph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8512(
-  return _mm512_mask_cvtneph_phf8(__A, __B, __C);
+__m256i test_mm512_mask_cvtph_hf8(__m256i __A, __mmask32 __B, __m512h __C) {
+  // CHECK-LABEL: @test_mm512_mask_cvtph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8512(
+  return _mm512_mask_cvtph_hf8(__A, __B, __C);
 }
 
-__m256i test_mm512_maskz_cvtneph_phf8(__mmask32 __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtneph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8512(
-  return _mm512_maskz_cvtneph_phf8(__A, __B);
+__m256i test_mm512_maskz_cvtph_hf8(__mmask32 __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvtph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8512(
+  return _mm512_maskz_cvtph_hf8(__A, __B);
 }
 
-__m256i test_mm512_cvtnesph_phf8(__m512h __A) {
-  // CHECK-LABEL: @test_mm512_cvtnesph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s512(
-  return _mm512_cvtnesph_phf8(__A);
+__m256i test_mm512_cvtsph_hf8(__m512h __A) {
+  // CHECK-LABEL: @test_mm512_cvtsph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s512(
+  return _mm512_cvtsph_hf8(__A);
 }
 
-__m256i test_mm512_mask_cvtnesph_phf8(__m256i __A, __mmask32 __B, __m512h __C) {
-  // CHECK-LABEL: @test_mm512_mask_cvtnesph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s512(
-  return _mm512_mask_cvtnesph_phf8(__A, __B, __C);
+__m256i test_mm512_mask_cvtsph_hf8(__m256i __A, __mmask32 __B, __m512h __C) {
+  // CHECK-LABEL: @test_mm512_mask_cvtsph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s512(
+  return _mm512_mask_cvtsph_hf8(__A, __B, __C);
 }
 
-__m256i test_mm512_maskz_cvtnesph_phf8(__mmask32 __A, __m512h __B) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtnesph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s512(
-  return _mm512_maskz_cvtnesph_phf8(__A, __B);
+__m256i test_mm512_maskz_cvtsph_hf8(__mmask32 __A, __m512h __B) {
+  // CHECK-LABEL: @test_mm512_maskz_cvtsph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s512(
+  return _mm512_maskz_cvtsph_hf8(__A, __B);
 }
 
-__m512h test_mm512_cvtpbf8_ph(__m256i A) {
-  // CHECK-LABEL: @test_mm512_cvtpbf8_ph
+__m512h test_mm512_cvtbf8_ph(__m256i A) {
+  // CHECK-LABEL: @test_mm512_cvtbf8_ph
   // CHECK: sext <32 x i8> %{{.*}} to <32 x i16>
   // CHECK: @llvm.x86.avx512.pslli.w.512
   // CHECK: ret <32 x half> %{{.*}}
-  return _mm512_cvtpbf8_ph(A);
+  return _mm512_cvtbf8_ph(A);
 }
 
-__m512h test_mm512_mask_cvtpbf8_ph(__m512h S, __mmask32 M, __m256i A) {
-  // CHECK-LABEL: @test_mm512_mask_cvtpbf8_ph
+__m512h test_mm512_mask_cvtbf8_ph(__m512h S, __mmask32 M, __m256i A) {
+  // CHECK-LABEL: @test_mm512_mask_cvtbf8_ph
   // CHECK: sext <32 x i8> %{{.*}} to <32 x i16>
   // CHECK: @llvm.x86.avx512.pslli.w.512
   // CHECK: select <32 x i1> %{{.*}}, <32 x i16> %{{.*}}, <32 x i16> %{{.*}}
   // CHECK: ret <32 x half> %{{.*}}
-  return _mm512_mask_cvtpbf8_ph(S, M, A);
+  return _mm512_mask_cvtbf8_ph(S, M, A);
 }
 
-__m512h test_mm512_maskz_cvtpbf8_ph(__mmask32 M, __m256i A) {
-  // CHECK-LABEL: @test_mm512_maskz_cvtpbf8_ph
+__m512h test_mm512_maskz_cvtbf8_ph(__mmask32 M, __m256i A) {
+  // CHECK-LABEL: @test_mm512_maskz_cvtbf8_ph
   // CHECK: sext <32 x i8> %{{.*}} to <32 x i16>
   // CHECK: select <32 x i1> %{{.*}}, <32 x i16> %{{.*}}, <32 x i16> %{{.*}}
   // CHECK: @llvm.x86.avx512.pslli.w.512
   // CHECK: ret <32 x half> %{{.*}}
-  return _mm512_maskz_cvtpbf8_ph(M, A);
+  return _mm512_maskz_cvtbf8_ph(M, A);
 }
diff --git a/clang/test/CodeGen/X86/avx10_2bf16-builtins.c b/clang/test/CodeGen/X86/avx10_2bf16-builtins.c
index 9935137ca8677..3cc9e1d4233b0 100644
--- a/clang/test/CodeGen/X86/avx10_2bf16-builtins.c
+++ b/clang/test/CodeGen/X86/avx10_2bf16-builtins.c
@@ -164,28 +164,28 @@ __m256bh test_mm256_setr_pbh(__bf16 bf1, __bf16 bf2, __bf16 bf3, __bf16 bf4,
                         bf9, bf10, bf11, bf12, bf13, bf14, bf15, bf16);
 }
 
-__m128 test_mm_castpbf16_ps(__m128bh A) {
-  // CHECK-LABEL: test_mm_castpbf16_ps
+__m128 test_mm_castbf16_ps(__m128bh A) {
+  // CHECK-LABEL: test_mm_castbf16_ps
   // CHECK: bitcast <8 x bfloat> %{{.*}} to <4 x float>
-  return _mm_castpbf16_ps(A);
+  return _mm_castbf16_ps(A);
 }
 
-__m256 test_mm256_castpbf16_ps(__m256bh A) {
-  // CHECK-LABEL: test_mm256_castpbf16_ps
+__m256 test_mm256_castbf16_ps(__m256bh A) {
+  // CHECK-LABEL: test_mm256_castbf16_ps
   // CHECK: bitcast <16 x bfloat> %{{.*}} to <8 x float>
-  return _mm256_castpbf16_ps(A);
+  return _mm256_castbf16_ps(A);
 }
 
-__m128i test_mm_castpbf16_si128(__m128bh A) {
-  // CHECK-LABEL: test_mm_castpbf16_si128
+__m128i test_mm_castbf16_si128(__m128bh A) {
+  // CHECK-LABEL: test_mm_castbf16_si128
   // CHECK: bitcast <8 x bfloat> %{{.*}} to <2 x i64>
-  return _mm_castpbf16_si128(A);
+  return _mm_castbf16_si128(A);
 }
 
-__m256i test_mm256_castpbf16_si256(__m256bh A) {
-  // CHECK-LABEL: test_mm256_castpbf16_si256
+__m256i test_mm256_castbf16_si256(__m256bh A) {
+  // CHECK-LABEL: test_mm256_castbf16_si256
   // CHECK: bitcast <16 x bfloat> %{{.*}} to <4 x i64>
-  return _mm256_castpbf16_si256(A);
+  return _mm256_castbf16_si256(A);
 }
 
 __m128bh test_mm_castps_pbh(__m128 A) {
@@ -224,34 +224,34 @@ __m256bh test_mm256_castsi256_pbh(__m256i A) {
   return _mm256_castsi256_pbh(A);
 }
 
-__m128d test_mm_castpbf16_pd(__m128bh A) {
-  // CHECK-LABEL: test_mm_castpbf16_pd
+__m128d test_mm_castbf16_pd(__m128bh A) {
+  // CHECK-LABEL: test_mm_castbf16_pd
   // CHECK: bitcast <8 x bfloat> %{{.*}} to <2 x double>
-  return _mm_castpbf16_pd(A);
+  return _mm_castbf16_pd(A);
 }
 
-__m128bh test_mm256_castpbf16256_pbh128(__m256bh __a) {
-  // CHECK-LABEL: test_mm256_castpbf16256_pbh128
+__m128bh test_mm256_castbf16256_pbh128(__m256bh __a) {
+  // CHECK-LABEL: test_mm256_castbf16256_pbh128
   // CHECK: shufflevector <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
-  return _mm256_castpbf16256_pbh128(__a);
+  return _mm256_castbf16256_pbh128(__a);
 }
 
-__m256bh test_mm256_castpbf16128_pbh256(__m128bh __a) {
-  // CHECK-LABEL: test_mm256_castpbf16128_pbh256
+__m256bh test_mm256_castbf16128_pbh256(__m128bh __a) {
+  // CHECK-LABEL: test_mm256_castbf16128_pbh256
   // CHECK: shufflevector <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison, i32 poison>
-  return _mm256_castpbf16128_pbh256(__a);
+  return _mm256_castbf16128_pbh256(__a);
 }
 
-__m256d test_mm256_castpbf16_pd(__m256bh A) {
-  // CHECK-LABEL: test_mm256_castpbf16_pd
+__m256d test_mm256_castbf16_pd(__m256bh A) {
+  // CHECK-LABEL: test_mm256_castbf16_pd
   // CHECK: bitcast <16 x bfloat> %{{.*}} to <4 x double>
-  return _mm256_castpbf16_pd(A);
+  return _mm256_castbf16_pd(A);
 }
 
-__m256bh test_mm256_zextpbf16128_pbh256(__m128bh __a) {
-  // CHECK-LABEL: test_mm256_zextpbf16128_pbh256
+__m256bh test_mm256_zextbf16128_pbh256(__m128bh __a) {
+  // CHECK-LABEL: test_mm256_zextbf16128_pbh256
   // CHECK: shufflevector <8 x bfloat> %{{.*}}, <8 x bfloat> {{.*}}, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
-  return _mm256_zextpbf16128_pbh256(__a);
+  return _mm256_zextbf16128_pbh256(__a);
 }
 
 __m128bh test_mm_abs_pbh(__m128bh a) {
@@ -432,256 +432,256 @@ __m256bh test_mm256_permutexvar_pbh(__m256i __A, __m256bh __B) {
   return _mm256_permutexvar_pbh(__A, __B);
 }
 
-__m256bh test_mm256_addne_pbh(__m256bh __A, __m256bh __B) {
-  // CHECK-LABEL: @test_mm256_addne_pbh
+__m256bh test_mm256_add_pbh(__m256bh __A, __m256bh __B) {
+  // CHECK-LABEL: @test_mm256_add_pbh
   // CHECK: %{{.*}} = fadd <16 x bfloat> %{{.*}}, %{{.*}}
-  return _mm256_addne_pbh(__A, __B);
+  return _mm256_add_pbh(__A, __B);
 }
 
-__m256bh test_mm256_mask_addne_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
+__m256bh test_mm256_mask_add_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK: %{{.*}} = fadd <16 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return (__m256bh)_mm256_mask_addne_pbh(__W, __U, __A, __B);
+  return (__m256bh)_mm256_mask_add_pbh(__W, __U, __A, __B);
 }
 
-__m256bh test_mm256_maskz_addne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
+__m256bh test_mm256_maskz_add_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK: %{{.*}} = fadd <16 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_maskz_addne_pbh(__U, __A, __B);
+  return _mm256_maskz_add_pbh(__U, __A, __B);
 }
 
-__m128bh test_mm_addne_pbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: @test_mm_addne_pbh
+__m128bh test_mm_add_pbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: @test_mm_add_pbh
   // CHECK: %{{.*}} = fadd <8 x bfloat> %{{.*}}, %{{.*}}
-  return _mm_addne_pbh(__A, __B);
+  return _mm_add_pbh(__A, __B);
 }
 
-__m128bh test_mm_mask_addne_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
+__m128bh test_mm_mask_add_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
   // CHECK: %{{.*}} = fadd <8 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return (__m128bh)_mm_mask_addne_pbh(__W, __U, __A, __B);
+  return (__m128bh)_mm_mask_add_pbh(__W, __U, __A, __B);
 }
 
-__m128bh test_mm_maskz_addne_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
+__m128bh test_mm_maskz_add_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
   // CHECK: %{{.*}} = fadd <8 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_maskz_addne_pbh(__U, __A, __B);
+  return _mm_maskz_add_pbh(__U, __A, __B);
 }
 
-__m256bh test_mm256_subne_pbh(__m256bh __A, __m256bh __B) {
-  // CHECK-LABEL: @test_mm256_subne_pbh
+__m256bh test_mm256_sub_pbh(__m256bh __A, __m256bh __B) {
+  // CHECK-LABEL: @test_mm256_sub_pbh
   // CHECK: %{{.*}} = fsub <16 x bfloat> %{{.*}}, %{{.*}}
-  return _mm256_subne_pbh(__A, __B);
+  return _mm256_sub_pbh(__A, __B);
 }
 
-__m256bh test_mm256_mask_subne_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
+__m256bh test_mm256_mask_sub_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK: %{{.*}} = fsub <16 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return (__m256bh)_mm256_mask_subne_pbh(__W, __U, __A, __B);
+  return (__m256bh)_mm256_mask_sub_pbh(__W, __U, __A, __B);
 }
 
-__m256bh test_mm256_maskz_subne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
+__m256bh test_mm256_maskz_sub_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK: %{{.*}} = fsub <16 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_maskz_subne_pbh(__U, __A, __B);
+  return _mm256_maskz_sub_pbh(__U, __A, __B);
 }
 
-__m128bh test_mm_subne_pbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: @test_mm_subne_pbh
+__m128bh test_mm_sub_pbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: @test_mm_sub_pbh
   // CHECK: %{{.*}} = fsub <8 x bfloat> %{{.*}}, %{{.*}}
-  return _mm_subne_pbh(__A, __B);
+  return _mm_sub_pbh(__A, __B);
 }
 
-__m128bh test_mm_mask_subne_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
+__m128bh test_mm_mask_sub_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
   // CHECK: %{{.*}} = fsub <8 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return (__m128bh)_mm_mask_subne_pbh(__W, __U, __A, __B);
+  return (__m128bh)_mm_mask_sub_pbh(__W, __U, __A, __B);
 }
 
-__m128bh test_mm_maskz_subne_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
+__m128bh test_mm_maskz_sub_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
   // CHECK: %{{.*}} = fsub <8 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_maskz_subne_pbh(__U, __A, __B);
+  return _mm_maskz_sub_pbh(__U, __A, __B);
 }
 
-__m256bh test_mm256_mulne_pbh(__m256bh __A, __m256bh __B) {
-  // CHECK-LABEL: @test_mm256_mulne_pbh
+__m256bh test_mm256_mul_pbh(__m256bh __A, __m256bh __B) {
+  // CHECK-LABEL: @test_mm256_mul_pbh
   // CHECK: %{{.*}} = fmul <16 x bfloat> %{{.*}}, %{{.*}}
-  return _mm256_mulne_pbh(__A, __B);
+  return _mm256_mul_pbh(__A, __B);
 }
 
-__m256bh test_mm256_mask_mulne_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
+__m256bh test_mm256_mask_mul_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK: %{{.*}} = fmul <16 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return (__m256bh)_mm256_mask_mulne_pbh(__W, __U, __A, __B);
+  return (__m256bh)_mm256_mask_mul_pbh(__W, __U, __A, __B);
 }
 
-__m256bh test_mm256_maskz_mulne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
+__m256bh test_mm256_maskz_mul_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK: %{{.*}} = fmul <16 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_maskz_mulne_pbh(__U, __A, __B);
+  return _mm256_maskz_mul_pbh(__U, __A, __B);
 }
 
-__m128bh test_mm_mulne_pbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: @test_mm_mulne_pbh
+__m128bh test_mm_mul_pbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: @test_mm_mul_pbh
   // CHECK: %{{.*}} = fmul <8 x bfloat> %{{.*}}, %{{.*}}
-  return _mm_mulne_pbh(__A, __B);
+  return _mm_mul_pbh(__A, __B);
 }
 
-__m128bh test_mm_mask_mulne_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
+__m128bh test_mm_mask_mul_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
   // CHECK: %{{.*}} = fmul <8 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return (__m128bh)_mm_mask_mulne_pbh(__W, __U, __A, __B);
+  return (__m128bh)_mm_mask_mul_pbh(__W, __U, __A, __B);
 }
 
-__m128bh test_mm_maskz_mulne_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
+__m128bh test_mm_maskz_mul_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
   // CHECK: %{{.*}} = fmul <8 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_maskz_mulne_pbh(__U, __A, __B);
+  return _mm_maskz_mul_pbh(__U, __A, __B);
 }
 
-__m256bh test_mm256_divne_pbh(__m256bh __A, __m256bh __B) {
-  // CHECK-LABEL: @test_mm256_divne_pbh
+__m256bh test_mm256_div_pbh(__m256bh __A, __m256bh __B) {
+  // CHECK-LABEL: @test_mm256_div_pbh
   // CHECK: %{{.*}} = fdiv <16 x bfloat> %{{.*}}, %{{.*}}
-  return _mm256_divne_pbh(__A, __B);
+  return _mm256_div_pbh(__A, __B);
 }
 
-__m256bh test_mm256_mask_divne_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
+__m256bh test_mm256_mask_div_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK: %{{.*}} = fdiv <16 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return (__m256bh)_mm256_mask_divne_pbh(__W, __U, __A, __B);
+  return (__m256bh)_mm256_mask_div_pbh(__W, __U, __A, __B);
 }
 
-__m256bh test_mm256_maskz_divne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
+__m256bh test_mm256_maskz_div_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK: %{{.*}} = fdiv <16 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_maskz_divne_pbh(__U, __A, __B);
+  return _mm256_maskz_div_pbh(__U, __A, __B);
 }
 
-__m128bh test_mm_divne_pbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: @test_mm_divne_pbh
+__m128bh test_mm_div_pbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: @test_mm_div_pbh
   // CHECK: %{{.*}} = fdiv <8 x bfloat> %{{.*}}, %{{.*}}
-  return _mm_divne_pbh(__A, __B);
+  return _mm_div_pbh(__A, __B);
 }
 
-__m128bh test_mm_mask_divne_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
+__m128bh test_mm_mask_div_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
   // CHECK: %{{.*}} = fdiv <8 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return (__m128bh)_mm_mask_divne_pbh(__W, __U, __A, __B);
+  return (__m128bh)_mm_mask_div_pbh(__W, __U, __A, __B);
 }
 
-__m128bh test_mm_maskz_divne_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
+__m128bh test_mm_maskz_div_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
   // CHECK: %{{.*}} = fdiv <8 x bfloat> %{{.*}}, %{{.*}}
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_maskz_divne_pbh(__U, __A, __B);
+  return _mm_maskz_div_pbh(__U, __A, __B);
 }
 
 __m256bh test_mm256_max_pbh(__m256bh __A, __m256bh __B) {
   // CHECK-LABEL: @test_mm256_max_pbh
-  // CHECK: @llvm.x86.avx10.vmaxpbf16256(
+  // CHECK: @llvm.x86.avx10.vmaxbf16256(
   return _mm256_max_pbh(__A, __B);
 }
 
 __m256bh test_mm256_mask_max_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
-  // CHECK: @llvm.x86.avx10.vmaxpbf16256
+  // CHECK: @llvm.x86.avx10.vmaxbf16256
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
   return (__m256bh)_mm256_mask_max_pbh(__W, __U, __A, __B);
 }
 
 __m256bh test_mm256_maskz_max_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
-  // CHECK: @llvm.x86.avx10.vmaxpbf16256
+  // CHECK: @llvm.x86.avx10.vmaxbf16256
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
   return _mm256_maskz_max_pbh(__U, __A, __B);
 }
 
 __m128bh test_mm_max_pbh(__m128bh __A, __m128bh __B) {
   // CHECK-LABEL: @test_mm_max_pbh
-  // CHECK: @llvm.x86.avx10.vmaxpbf16128(
+  // CHECK: @llvm.x86.avx10.vmaxbf16128(
   return _mm_max_pbh(__A, __B);
 }
 
 __m128bh test_mm_mask_max_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
-  // CHECK: @llvm.x86.avx10.vmaxpbf16128
+  // CHECK: @llvm.x86.avx10.vmaxbf16128
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
   return (__m128bh)_mm_mask_max_pbh(__W, __U, __A, __B);
 }
 
 __m128bh test_mm_maskz_max_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
-  // CHECK: @llvm.x86.avx10.vmaxpbf16128
+  // CHECK: @llvm.x86.avx10.vmaxbf16128
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
   return _mm_maskz_max_pbh(__U, __A, __B);
 }
 
 __m256bh test_mm256_min_pbh(__m256bh __A, __m256bh __B) {
   // CHECK-LABEL: @test_mm256_min_pbh
-  // CHECK: @llvm.x86.avx10.vminpbf16256(
+  // CHECK: @llvm.x86.avx10.vminbf16256(
   return _mm256_min_pbh(__A, __B);
 }
 
 __m256bh test_mm256_mask_min_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
-  // CHECK: @llvm.x86.avx10.vminpbf16256
+  // CHECK: @llvm.x86.avx10.vminbf16256
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
   return (__m256bh)_mm256_mask_min_pbh(__W, __U, __A, __B);
 }
 
 __m256bh test_mm256_maskz_min_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
-  // CHECK: @llvm.x86.avx10.vminpbf16256
+  // CHECK: @llvm.x86.avx10.vminbf16256
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
   return _mm256_maskz_min_pbh(__U, __A, __B);
 }
 
 __m128bh test_mm_min_pbh(__m128bh __A, __m128bh __B) {
   // CHECK-LABEL: @test_mm_min_pbh
-  // CHECK: @llvm.x86.avx10.vminpbf16128(
+  // CHECK: @llvm.x86.avx10.vminbf16128(
   return _mm_min_pbh(__A, __B);
 }
 
 __m128bh test_mm_mask_min_pbh(__m128bh __W, __mmask16 __U, __m128bh __A, __m128bh __B) {
-  // CHECK: @llvm.x86.avx10.vminpbf16128
+  // CHECK: @llvm.x86.avx10.vminbf16128
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
   return (__m128bh)_mm_mask_min_pbh(__W, __U, __A, __B);
 }
 
 __m128bh test_mm_maskz_min_pbh(__mmask16 __U, __m128bh __A, __m128bh __B) {
-  // CHECK: @llvm.x86.avx10.vminpbf16128
+  // CHECK: @llvm.x86.avx10.vminbf16128
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
   return _mm_maskz_min_pbh(__U, __A, __B);
 }
 
-int test_mm_comeqsbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: test_mm_comeqsbh
-  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomsbf16eq(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
-  return _mm_comeqsbh(__A, __B);
+int test_mm_comieq_sbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: test_mm_comieq_sbh
+  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomisbf16eq(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
+  return _mm_comieq_sbh(__A, __B);
 }
 
-int test_mm_comltsbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: test_mm_comltsbh
-  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomsbf16lt(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
-  return _mm_comltsbh(__A, __B);
+int test_mm_comilt_sbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: test_mm_comilt_sbh
+  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomisbf16lt(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
+  return _mm_comilt_sbh(__A, __B);
 }
 
-int test_mm_comlesbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: test_mm_comlesbh
-  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomsbf16le(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
-  return _mm_comlesbh(__A, __B);
+int test_mm_comile_sbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: test_mm_comile_sbh
+  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomisbf16le(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
+  return _mm_comile_sbh(__A, __B);
 }
 
-int test_mm_comgtsbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: test_mm_comgtsbh
-  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomsbf16gt(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
-  return _mm_comgtsbh(__A, __B);
+int test_mm_comigt_sbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: test_mm_comigt_sbh
+  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomisbf16gt(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
+  return _mm_comigt_sbh(__A, __B);
 }
 
-int test_mm_comgesbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: test_mm_comgesbh
-  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomsbf16ge(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
-  return _mm_comgesbh(__A, __B);
+int test_mm_comige_sbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: test_mm_comige_sbh
+  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomisbf16ge(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
+  return _mm_comige_sbh(__A, __B);
 }
 
-int test_mm_comneqsbh(__m128bh __A, __m128bh __B) {
-  // CHECK-LABEL: test_mm_comneqsbh
-  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomsbf16neq(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
-  return _mm_comneqsbh(__A, __B);
+int test_mm_comineq_sbh(__m128bh __A, __m128bh __B) {
+  // CHECK-LABEL: test_mm_comineq_sbh
+  // CHECK: %{{.}} = call i32 @llvm.x86.avx10.vcomisbf16neq(<8 x bfloat> %{{.}}, <8 x bfloat> %{{.}})
+  return _mm_comineq_sbh(__A, __B);
 }
 
 __mmask16 test_mm256_cmp_pbh_mask_eq_oq(__m256bh a, __m256bh b) {
@@ -1519,151 +1519,151 @@ __mmask8 test_mm_mask_cmp_pbh_mask_true_us(__mmask8 m, __m128bh a, __m128bh b) {
 
 __mmask16 test_mm256_mask_fpclass_pbh_mask(__mmask16 __U, __m256bh __A) {
   // CHECK-LABEL: @test_mm256_mask_fpclass_pbh_mask
-  // CHECK: @llvm.x86.avx10.fpclass.nepbf16.256
+  // CHECK: @llvm.x86.avx10.fpclass.bf16.256
   return _mm256_mask_fpclass_pbh_mask(__U, __A, 4);
 }
 
 __mmask16 test_mm256_fpclass_pbh_mask(__m256bh __A) {
   // CHECK-LABEL: @test_mm256_fpclass_pbh_mask
-  // CHECK: @llvm.x86.avx10.fpclass.nepbf16.256
+  // CHECK: @llvm.x86.avx10.fpclass.bf16.256
   return _mm256_fpclass_pbh_mask(__A, 4);
 }
 
 __mmask8 test_mm_mask_fpclass_pbh_mask(__mmask8 __U, __m128bh __A) {
   // CHECK-LABEL: @test_mm_mask_fpclass_pbh_mask
-  // CHECK: @llvm.x86.avx10.fpclass.nepbf16.128
+  // CHECK: @llvm.x86.avx10.fpclass.bf16.128
   return _mm_mask_fpclass_pbh_mask(__U, __A, 4);
 }
 
 __mmask8 test_mm_fpclass_pbh_mask(__m128bh __A) {
   // CHECK-LABEL: @test_mm_fpclass_pbh_mask
-  // CHECK: @llvm.x86.avx10.fpclass.nepbf16.128
+  // CHECK: @llvm.x86.avx10.fpclass.bf16.128
   return _mm_fpclass_pbh_mask(__A, 4);
 }
 
 __m256bh test_mm256_scalef_pbh(__m256bh __A, __m256bh __B) {
   // CHECK-LABEL: @test_mm256_scalef_pbh
-  // CHECK: @llvm.x86.avx10.mask.scalef.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.scalef.bf16.256
   return _mm256_scalef_pbh(__A, __B);
 }
 
 __m256bh test_mm256_mask_scalef_pbh(__m256bh __W, __mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK-LABEL: @test_mm256_mask_scalef_pbh
-  // CHECK: @llvm.x86.avx10.mask.scalef.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.scalef.bf16.256
   return _mm256_mask_scalef_pbh(__W, __U, __A, __B);
 }
 
 __m256bh test_mm256_maskz_scalef_pbh(__mmask16 __U, __m256bh __A, __m256bh __B) {
   // CHECK-LABEL: @test_mm256_maskz_scalef_pbh
-  // CHECK: @llvm.x86.avx10.mask.scalef.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.scalef.bf16.256
   return _mm256_maskz_scalef_pbh(__U, __A, __B);
 }
 
 __m256bh test_mm256_rcp_pbh(__m256bh __A) {
   // CHECK-LABEL: @test_mm256_rcp_pbh
-  // CHECK: @llvm.x86.avx10.mask.rcp.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.rcp.bf16.256
   return _mm256_rcp_pbh(__A);
 }
 
 __m256bh test_mm256_mask_rcp_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
   // CHECK-LABEL: @test_mm256_mask_rcp_pbh
-  // CHECK: @llvm.x86.avx10.mask.rcp.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.rcp.bf16.256
   return (__m256bh)_mm256_mask_rcp_pbh(__W, __U, __A);
 }
 
 __m256bh test_mm256_maskz_rcp_pbh(__mmask16 __U, __m256bh __A) {
   // CHECK-LABEL: @test_mm256_maskz_rcp_pbh
-  // CHECK: @llvm.x86.avx10.mask.rcp.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.rcp.bf16.256
   return _mm256_maskz_rcp_pbh(__U, __A);
 }
 
 __m256bh test_mm256_getexp_pbh(__m256bh __A) {
   // CHECK-LABEL: @test_mm256_getexp_pbh
-  // CHECK: @llvm.x86.avx10.mask.getexp.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.getexp.bf16.256
   return _mm256_getexp_pbh(__A);
 }
 
 __m256bh test_mm256_mask_getexp_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
   // CHECK-LABEL: @test_mm256_mask_getexp_pbh
-  // CHECK: @llvm.x86.avx10.mask.getexp.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.getexp.bf16.256
   return _mm256_mask_getexp_pbh(__W, __U, __A);
 }
 
 __m256bh test_mm256_maskz_getexp_pbh(__mmask16 __U, __m256bh __A) {
   // CHECK-LABEL: @test_mm256_maskz_getexp_pbh
-  // CHECK: @llvm.x86.avx10.mask.getexp.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.getexp.bf16.256
   return _mm256_maskz_getexp_pbh(__U, __A);
 }
 
 __m256bh test_mm256_rsqrt_pbh(__m256bh __A) {
   // CHECK-LABEL: @test_mm256_rsqrt_pbh
-  // CHECK: @llvm.x86.avx10.mask.rsqrt.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.rsqrt.bf16.256
   return _mm256_rsqrt_pbh(__A);
 }
 
 __m256bh test_mm256_mask_rsqrt_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
   // CHECK-LABEL: @test_mm256_mask_rsqrt_pbh
-  // CHECK: @llvm.x86.avx10.mask.rsqrt.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.rsqrt.bf16.256
   return (__m256bh)_mm256_mask_rsqrt_pbh(__W, __U, __A);
 }
 
 __m256bh test_mm256_maskz_rsqrt_pbh(__mmask16 __U, __m256bh __A) {
   // CHECK-LABEL: @test_mm256_maskz_rsqrt_pbh
-  // CHECK: @llvm.x86.avx10.mask.rsqrt.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.rsqrt.bf16.256
   return _mm256_maskz_rsqrt_pbh(__U, __A);
 }
 
-__m256bh test_mm256_reducene_pbh(__m256bh __A) {
-  // CHECK-LABEL: @test_mm256_reducene_pbh
-  // CHECK: @llvm.x86.avx10.mask.reduce.nepbf16.256
-  return _mm256_reducene_pbh(__A, 3);
+__m256bh test_mm256_reduce_pbh(__m256bh __A) {
+  // CHECK-LABEL: @test_mm256_reduce_pbh
+  // CHECK: @llvm.x86.avx10.mask.reduce.bf16.256
+  return _mm256_reduce_pbh(__A, 3);
 }
 
-__m256bh test_mm256_mask_reducene_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
-  // CHECK-LABEL: @test_mm256_mask_reducene_pbh
-  // CHECK: @llvm.x86.avx10.mask.reduce.nepbf16.256
-  return _mm256_mask_reducene_pbh(__W, __U, __A, 1);
+__m256bh test_mm256_mask_reduce_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
+  // CHECK-LABEL: @test_mm256_mask_reduce_pbh
+  // CHECK: @llvm.x86.avx10.mask.reduce.bf16.256
+  return _mm256_mask_reduce_pbh(__W, __U, __A, 1);
 }
 
-__m256bh test_mm256_maskz_reducene_pbh(__mmask16 __U, __m256bh __A) {
-  // CHECK-LABEL: @test_mm256_maskz_reducene_pbh
-  // CHECK: @llvm.x86.avx10.mask.reduce.nepbf16.256
-  return _mm256_maskz_reducene_pbh(__U, __A, 1);
+__m256bh test_mm256_maskz_reduce_pbh(__mmask16 __U, __m256bh __A) {
+  // CHECK-LABEL: @test_mm256_maskz_reduce_pbh
+  // CHECK: @llvm.x86.avx10.mask.reduce.bf16.256
+  return _mm256_maskz_reduce_pbh(__U, __A, 1);
 }
 
-__m256bh test_mm256_roundscalene_pbh(__m256bh __A) {
-  // CHECK-LABEL: @test_mm256_roundscalene_pbh
-  // CHECK: @llvm.x86.avx10.mask.rndscale.nepbf16.256
-  return _mm256_roundscalene_pbh(__A, 3);
+__m256bh test_mm256_roundscale_pbh(__m256bh __A) {
+  // CHECK-LABEL: @test_mm256_roundscale_pbh
+  // CHECK: @llvm.x86.avx10.mask.rndscale.bf16.256
+  return _mm256_roundscale_pbh(__A, 3);
 }
 
-__m256bh test_mm256_mask_roundscalene_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
-  // CHECK-LABEL: @test_mm256_mask_roundscalene_pbh
-  // CHECK: @llvm.x86.avx10.mask.rndscale.nepbf16.256
-  return _mm256_mask_roundscalene_pbh(__W, __U, __A, 1);
+__m256bh test_mm256_mask_roundscale_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
+  // CHECK-LABEL: @test_mm256_mask_roundscale_pbh
+  // CHECK: @llvm.x86.avx10.mask.rndscale.bf16.256
+  return _mm256_mask_roundscale_pbh(__W, __U, __A, 1);
 }
 
-__m256bh test_mm256_maskz_roundscalene_pbh(__mmask16 __U, __m256bh __A) {
-  // CHECK-LABEL: @test_mm256_maskz_roundscalene_pbh
-  // CHECK: @llvm.x86.avx10.mask.rndscale.nepbf16.256
-  return _mm256_maskz_roundscalene_pbh(__U, __A, 1 );
+__m256bh test_mm256_maskz_roundscale_pbh(__mmask16 __U, __m256bh __A) {
+  // CHECK-LABEL: @test_mm256_maskz_roundscale_pbh
+  // CHECK: @llvm.x86.avx10.mask.rndscale.bf16.256
+  return _mm256_maskz_roundscale_pbh(__U, __A, 1 );
 }
 
 __m256bh test_mm256_getmant_pbh(__m256bh __A) {
   // CHECK-LABEL: @test_mm256_getmant_pbh
-  // CHECK: @llvm.x86.avx10.mask.getmant.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.getmant.bf16.256
   return _mm256_getmant_pbh(__A, _MM_MANT_NORM_p5_2, _MM_MANT_SIGN_nan);
 }
 
 __m256bh test_mm256_mask_getmant_pbh(__m256bh __W, __mmask16 __U, __m256bh __A) {
   // CHECK-LABEL: @test_mm256_mask_getmant_pbh
-  // CHECK: @llvm.x86.avx10.mask.getmant.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.getmant.bf16.256
   return _mm256_mask_getmant_pbh(__W, __U, __A, _MM_MANT_NORM_p5_2, _MM_MANT_SIGN_nan);
 }
 
 __m256bh test_mm256_maskz_getmant_pbh(__mmask16 __U, __m256bh __A) {
   // CHECK-LABEL: @test_mm256_maskz_getmant_pbh
-  // CHECK: @llvm.x86.avx10.mask.getmant.nepbf16.256
+  // CHECK: @llvm.x86.avx10.mask.getmant.bf16.256
   return _mm256_maskz_getmant_pbh(__U, __A, _MM_MANT_NORM_p5_2, _MM_MANT_SIGN_nan);
 }
 
@@ -1689,127 +1689,127 @@ __m256bh test_mm256_maskz_sqrt_pbh(__mmask16 __U, __m256bh __A) {
 
 __m128bh test_mm_scalef_pbh(__m128bh __A, __m128bh __B) {
   // CHECK-LABEL: @test_mm_scalef_pbh
-  // CHECK: @llvm.x86.avx10.mask.scalef.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.scalef.bf16.128
   return _mm_scalef_pbh(__A, __B);
 }
 
 __m128bh test_mm_mask_scalef_pbh(__m128bh __W, __mmask8 __U, __m128bh __A, __m128bh __B) {
   // CHECK-LABEL: @test_mm_mask_scalef_pbh
-  // CHECK: @llvm.x86.avx10.mask.scalef.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.scalef.bf16.128
   return _mm_mask_scalef_pbh(__W, __U, __A, __B);
 }
 
 __m128bh test_mm_maskz_scalef_pbh(__mmask8 __U, __m128bh __A, __m128bh __B) {
   // CHECK-LABEL: @test_mm_maskz_scalef_pbh
-  // CHECK: @llvm.x86.avx10.mask.scalef.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.scalef.bf16.128
   return _mm_maskz_scalef_pbh(__U, __A, __B);
 }
 
 __m128bh test_mm_rcp_pbh(__m128bh __A) {
   // CHECK-LABEL: @test_mm_rcp_pbh
-  // CHECK: @llvm.x86.avx10.mask.rcp.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.rcp.bf16.128
   return _mm_rcp_pbh(__A);
 }
 
 __m128bh test_mm_mask_rcp_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
   // CHECK-LABEL: @test_mm_mask_rcp_pbh
-  // CHECK: @llvm.x86.avx10.mask.rcp.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.rcp.bf16.128
   return (__m128bh)_mm_mask_rcp_pbh(__W, __U, __A);
 }
 
 __m128bh test_mm_maskz_rcp_pbh(__mmask8 __U, __m128bh __A) {
   // CHECK-LABEL: @test_mm_maskz_rcp_pbh
-  // CHECK: @llvm.x86.avx10.mask.rcp.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.rcp.bf16.128
   return _mm_maskz_rcp_pbh(__U, __A);
 }
 
 __m128bh test_mm_getexp_pbh(__m128bh __A) {
   // CHECK-LABEL: @test_mm_getexp_pbh
-  // CHECK: @llvm.x86.avx10.mask.getexp.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.getexp.bf16.128
   return _mm_getexp_pbh(__A);
 }
 
 __m128bh test_mm_mask_getexp_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
   // CHECK-LABEL: @test_mm_mask_getexp_pbh
-  // CHECK: @llvm.x86.avx10.mask.getexp.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.getexp.bf16.128
   return _mm_mask_getexp_pbh(__W, __U, __A);
 }
 
 __m128bh test_mm_maskz_getexp_pbh(__mmask8 __U, __m128bh __A) {
   // CHECK-LABEL: @test_mm_maskz_getexp_pbh
-  // CHECK: @llvm.x86.avx10.mask.getexp.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.getexp.bf16.128
   return _mm_maskz_getexp_pbh(__U, __A);
 }
 
 __m128bh test_mm_rsqrt_pbh(__m128bh __A) {
   // CHECK-LABEL: @test_mm_rsqrt_pbh
-  // CHECK: @llvm.x86.avx10.mask.rsqrt.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.rsqrt.bf16.128
   return _mm_rsqrt_pbh(__A);
 }
 
 __m128bh test_mm_mask_rsqrt_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
   // CHECK-LABEL: @test_mm_mask_rsqrt_pbh
-  // CHECK: @llvm.x86.avx10.mask.rsqrt.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.rsqrt.bf16.128
   return (__m128bh)_mm_mask_rsqrt_pbh(__W, __U, __A);
 }
 
 __m128bh test_mm_maskz_rsqrt_pbh(__mmask8 __U, __m128bh __A) {
   // CHECK-LABEL: @test_mm_maskz_rsqrt_pbh
-  // CHECK: @llvm.x86.avx10.mask.rsqrt.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.rsqrt.bf16.128
   return _mm_maskz_rsqrt_pbh(__U, __A);
 }
 
-__m128bh test_mm_reducene_pbh(__m128bh __A) {
-  // CHECK-LABEL: @test_mm_reducene_pbh
-  // CHECK: @llvm.x86.avx10.mask.reduce.nepbf16.128
-  return _mm_reducene_pbh(__A, 3);
+__m128bh test_mm_reduce_pbh(__m128bh __A) {
+  // CHECK-LABEL: @test_mm_reduce_pbh
+  // CHECK: @llvm.x86.avx10.mask.reduce.bf16.128
+  return _mm_reduce_pbh(__A, 3);
 }
 
-__m128bh test_mm_mask_reducene_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
-  // CHECK-LABEL: @test_mm_mask_reducene_pbh
-  // CHECK: @llvm.x86.avx10.mask.reduce.nepbf16.128
-  return _mm_mask_reducene_pbh(__W, __U, __A, 1);
+__m128bh test_mm_mask_reduce_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
+  // CHECK-LABEL: @test_mm_mask_reduce_pbh
+  // CHECK: @llvm.x86.avx10.mask.reduce.bf16.128
+  return _mm_mask_reduce_pbh(__W, __U, __A, 1);
 }
 
-__m128bh test_mm_maskz_reducene_pbh(__mmask8 __U, __m128bh __A) {
-  // CHECK-LABEL: @test_mm_maskz_reducene_pbh
-  // CHECK: @llvm.x86.avx10.mask.reduce.nepbf16.128
-  return _mm_maskz_reducene_pbh(__U, __A, 1);
+__m128bh test_mm_maskz_reduce_pbh(__mmask8 __U, __m128bh __A) {
+  // CHECK-LABEL: @test_mm_maskz_reduce_pbh
+  // CHECK: @llvm.x86.avx10.mask.reduce.bf16.128
+  return _mm_maskz_reduce_pbh(__U, __A, 1);
 }
 
-__m128bh test_mm_roundscalene_pbh(__m128bh __A) {
-  // CHECK-LABEL: @test_mm_roundscalene_pbh
-  // CHECK: @llvm.x86.avx10.mask.rndscale.nepbf16.128
-  return _mm_roundscalene_pbh(__A, 3);
+__m128bh test_mm_roundscale_pbh(__m128bh __A) {
+  // CHECK-LABEL: @test_mm_roundscale_pbh
+  // CHECK: @llvm.x86.avx10.mask.rndscale.bf16.128
+  return _mm_roundscale_pbh(__A, 3);
 }
 
-__m128bh test_mm_mask_roundscalene_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
-  // CHECK-LABEL: @test_mm_mask_roundscalene_pbh
-  // CHECK: @llvm.x86.avx10.mask.rndscale.nepbf16.128
-  return _mm_mask_roundscalene_pbh(__W, __U, __A, 1);
+__m128bh test_mm_mask_roundscale_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
+  // CHECK-LABEL: @test_mm_mask_roundscale_pbh
+  // CHECK: @llvm.x86.avx10.mask.rndscale.bf16.128
+  return _mm_mask_roundscale_pbh(__W, __U, __A, 1);
 }
 
-__m128bh test_mm_maskz_roundscalene_pbh(__mmask8 __U, __m128bh __A) {
-  // CHECK-LABEL: @test_mm_maskz_roundscalene_pbh
-  // CHECK: @llvm.x86.avx10.mask.rndscale.nepbf16.128
-  return _mm_maskz_roundscalene_pbh(__U, __A, 1 );
+__m128bh test_mm_maskz_roundscale_pbh(__mmask8 __U, __m128bh __A) {
+  // CHECK-LABEL: @test_mm_maskz_roundscale_pbh
+  // CHECK: @llvm.x86.avx10.mask.rndscale.bf16.128
+  return _mm_maskz_roundscale_pbh(__U, __A, 1 );
 }
 
 __m128bh test_mm_getmant_pbh(__m128bh __A) {
   // CHECK-LABEL: @test_mm_getmant_pbh
-  // CHECK: @llvm.x86.avx10.mask.getmant.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.getmant.bf16.128
   return _mm_getmant_pbh(__A, _MM_MANT_NORM_p5_2, _MM_MANT_SIGN_nan);
 }
 
 __m128bh test_mm_mask_getmant_pbh(__m128bh __W, __mmask8 __U, __m128bh __A) {
   // CHECK-LABEL: @test_mm_mask_getmant_pbh
-  // CHECK: @llvm.x86.avx10.mask.getmant.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.getmant.bf16.128
   return _mm_mask_getmant_pbh(__W, __U, __A, _MM_MANT_NORM_p5_2, _MM_MANT_SIGN_nan);
 }
 
 __m128bh test_mm_maskz_getmant_pbh(__mmask8 __U, __m128bh __A) {
   // CHECK-LABEL: @test_mm_maskz_getmant_pbh
-  // CHECK: @llvm.x86.avx10.mask.getmant.nepbf16.128
+  // CHECK: @llvm.x86.avx10.mask.getmant.bf16.128
   return _mm_maskz_getmant_pbh(__U, __A, _MM_MANT_NORM_p5_2, _MM_MANT_SIGN_nan);
 }
 
@@ -1833,250 +1833,250 @@ __m128bh test_mm_maskz_sqrt_pbh(__mmask8 __U, __m128bh __A) {
   return _mm_maskz_sqrt_pbh(__U, __A);
 }
 
-__m256bh test_mm256_fmaddne_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_fmaddne_pbh
+__m256bh test_mm256_fmadd_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_fmadd_pbh
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
-  return _mm256_fmaddne_pbh(__A, __B, __C);
+  return _mm256_fmadd_pbh(__A, __B, __C);
 }
 
-__m256bh test_mm256_mask_fmaddne_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_mask_fmaddne_pbh
+__m256bh test_mm256_mask_fmadd_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_mask_fmadd_pbh
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_mask_fmaddne_pbh(__A, __U, __B, __C);
+  return _mm256_mask_fmadd_pbh(__A, __U, __B, __C);
 }
 
-__m256bh test_mm256_mask3_fmaddne_pbh(__m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
-  // CHECK-LABEL: @test_mm256_mask3_fmaddne_pbh
+__m256bh test_mm256_mask3_fmadd_pbh(__m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
+  // CHECK-LABEL: @test_mm256_mask3_fmadd_pbh
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_mask3_fmaddne_pbh(__A, __B, __C, __U);
+  return _mm256_mask3_fmadd_pbh(__A, __B, __C, __U);
 }
 
-__m256bh test_mm256_maskz_fmaddne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_maskz_fmaddne_pbh
+__m256bh test_mm256_maskz_fmadd_pbh(__mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_maskz_fmadd_pbh
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_maskz_fmaddne_pbh(__U, __A, __B, __C);
+  return _mm256_maskz_fmadd_pbh(__U, __A, __B, __C);
 }
 
-__m256bh test_mm256_fmsubne_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_fmsubne_pbh
+__m256bh test_mm256_fmsub_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
-  return _mm256_fmsubne_pbh(__A, __B, __C);
+  return _mm256_fmsub_pbh(__A, __B, __C);
 }
 
-__m256bh test_mm256_mask_fmsubne_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_mask_fmsubne_pbh
+__m256bh test_mm256_mask_fmsub_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_mask_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_mask_fmsubne_pbh(__A, __U, __B, __C);
+  return _mm256_mask_fmsub_pbh(__A, __U, __B, __C);
 }
 
-__m256bh test_mm256_mask3_fmsubne_pbh(__m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
-  // CHECK-LABEL: @test_mm256_mask3_fmsubne_pbh
+__m256bh test_mm256_mask3_fmsub_pbh(__m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
+  // CHECK-LABEL: @test_mm256_mask3_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_mask3_fmsubne_pbh(__A, __B, __C, __U);
+  return _mm256_mask3_fmsub_pbh(__A, __B, __C, __U);
 }
 
-__m256bh test_mm256_maskz_fmsubne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_maskz_fmsubne_pbh
+__m256bh test_mm256_maskz_fmsub_pbh(__mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_maskz_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_maskz_fmsubne_pbh(__U, __A, __B, __C);
+  return _mm256_maskz_fmsub_pbh(__U, __A, __B, __C);
 }
 
-__m256bh test_mm256_fnmaddne_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_fnmaddne_pbh
+__m256bh test_mm256_fnmadd_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
-  return _mm256_fnmaddne_pbh(__A, __B, __C);
+  return _mm256_fnmadd_pbh(__A, __B, __C);
 }
 
-__m256bh test_mm256_mask_fnmaddne_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_mask_fnmaddne_pbh
+__m256bh test_mm256_mask_fnmadd_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_mask_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_mask_fnmaddne_pbh(__A, __U, __B, __C);
+  return _mm256_mask_fnmadd_pbh(__A, __U, __B, __C);
 }
 
-__m256bh test_mm256_mask3_fnmaddne_pbh(__m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
-  // CHECK-LABEL: @test_mm256_mask3_fnmaddne_pbh
+__m256bh test_mm256_mask3_fnmadd_pbh(__m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
+  // CHECK-LABEL: @test_mm256_mask3_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_mask3_fnmaddne_pbh(__A, __B, __C, __U);
+  return _mm256_mask3_fnmadd_pbh(__A, __B, __C, __U);
 }
 
-__m256bh test_mm256_maskz_fnmaddne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_maskz_fnmaddne_pbh
+__m256bh test_mm256_maskz_fnmadd_pbh(__mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_maskz_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_maskz_fnmaddne_pbh(__U, __A, __B, __C);
+  return _mm256_maskz_fnmadd_pbh(__U, __A, __B, __C);
 }
 
-__m256bh test_mm256_fnmsubne_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_fnmsubne_pbh
+__m256bh test_mm256_fnmsub_pbh(__m256bh __A, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
-  return _mm256_fnmsubne_pbh(__A, __B, __C);
+  return _mm256_fnmsub_pbh(__A, __B, __C);
 }
 
-__m256bh test_mm256_mask_fnmsubne_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_mask_fnmsubne_pbh
+__m256bh test_mm256_mask_fnmsub_pbh(__m256bh __A, __mmask16 __U, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_mask_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_mask_fnmsubne_pbh(__A, __U, __B, __C);
+  return _mm256_mask_fnmsub_pbh(__A, __U, __B, __C);
 }
 
-__m256bh test_mm256_mask3_fnmsubne_pbh(__m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
-  // CHECK-LABEL: @test_mm256_mask3_fnmsubne_pbh
+__m256bh test_mm256_mask3_fnmsub_pbh(__m256bh __A, __m256bh __B, __m256bh __C, __mmask16 __U) {
+  // CHECK-LABEL: @test_mm256_mask3_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_mask3_fnmsubne_pbh(__A, __B, __C, __U);
+  return _mm256_mask3_fnmsub_pbh(__A, __B, __C, __U);
 }
 
-__m256bh test_mm256_maskz_fnmsubne_pbh(__mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
-  // CHECK-LABEL: @test_mm256_maskz_fnmsubne_pbh
+__m256bh test_mm256_maskz_fnmsub_pbh(__mmask16 __U, __m256bh __A, __m256bh __B, __m256bh __C) {
+  // CHECK-LABEL: @test_mm256_maskz_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}})
   // CHECK: select <16 x i1> %{{.*}}, <16 x bfloat> %{{.*}}, <16 x bfloat> %{{.*}}
-  return _mm256_maskz_fnmsubne_pbh(__U, __A, __B, __C);
+  return _mm256_maskz_fnmsub_pbh(__U, __A, __B, __C);
 }
 
-__m128bh test_mm_fmaddne_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_fmaddne_pbh
+__m128bh test_mm_fmadd_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_fmadd_pbh
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
-  return _mm_fmaddne_pbh(__A, __B, __C);
+  return _mm_fmadd_pbh(__A, __B, __C);
 }
 
-__m128bh test_mm_mask_fmaddne_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_mask_fmaddne_pbh
+__m128bh test_mm_mask_fmadd_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_mask_fmadd_pbh
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_mask_fmaddne_pbh(__A, __U, __B, __C);
+  return _mm_mask_fmadd_pbh(__A, __U, __B, __C);
 }
 
-__m128bh test_mm_mask3_fmaddne_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
-  // CHECK-LABEL: @test_mm_mask3_fmaddne_pbh
+__m128bh test_mm_mask3_fmadd_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
+  // CHECK-LABEL: @test_mm_mask3_fmadd_pbh
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_mask3_fmaddne_pbh(__A, __B, __C, __U);
+  return _mm_mask3_fmadd_pbh(__A, __B, __C, __U);
 }
 
-__m128bh test_mm_maskz_fmaddne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_maskz_fmaddne_pbh
+__m128bh test_mm_maskz_fmadd_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_maskz_fmadd_pbh
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_maskz_fmaddne_pbh(__U, __A, __B, __C);
+  return _mm_maskz_fmadd_pbh(__U, __A, __B, __C);
 }
 
-__m128bh test_mm_fmsubne_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_fmsubne_pbh
+__m128bh test_mm_fmsub_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
-  return _mm_fmsubne_pbh(__A, __B, __C);
+  return _mm_fmsub_pbh(__A, __B, __C);
 }
 
-__m128bh test_mm_mask_fmsubne_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_mask_fmsubne_pbh
+__m128bh test_mm_mask_fmsub_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_mask_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_mask_fmsubne_pbh(__A, __U, __B, __C);
+  return _mm_mask_fmsub_pbh(__A, __U, __B, __C);
 }
 
-__m128bh test_mm_mask3_fmsubne_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
-  // CHECK-LABEL: @test_mm_mask3_fmsubne_pbh
+__m128bh test_mm_mask3_fmsub_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
+  // CHECK-LABEL: @test_mm_mask3_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_mask3_fmsubne_pbh(__A, __B, __C, __U);
+  return _mm_mask3_fmsub_pbh(__A, __B, __C, __U);
 }
 
-__m128bh test_mm_maskz_fmsubne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_maskz_fmsubne_pbh
+__m128bh test_mm_maskz_fmsub_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_maskz_fmsub_pbh
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_maskz_fmsubne_pbh(__U, __A, __B, __C);
+  return _mm_maskz_fmsub_pbh(__U, __A, __B, __C);
 }
 
-__m128bh test_mm_fnmaddne_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_fnmaddne_pbh
+__m128bh test_mm_fnmadd_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
-  return _mm_fnmaddne_pbh(__A, __B, __C);
+  return _mm_fnmadd_pbh(__A, __B, __C);
 }
 
-__m128bh test_mm_mask_fnmaddne_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_mask_fnmaddne_pbh
+__m128bh test_mm_mask_fnmadd_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_mask_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_mask_fnmaddne_pbh(__A, __U, __B, __C);
+  return _mm_mask_fnmadd_pbh(__A, __U, __B, __C);
 }
 
-__m128bh test_mm_mask3_fnmaddne_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
-  // CHECK-LABEL: @test_mm_mask3_fnmaddne_pbh
+__m128bh test_mm_mask3_fnmadd_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
+  // CHECK-LABEL: @test_mm_mask3_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_mask3_fnmaddne_pbh(__A, __B, __C, __U);
+  return _mm_mask3_fnmadd_pbh(__A, __B, __C, __U);
 }
 
-__m128bh test_mm_maskz_fnmaddne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_maskz_fnmaddne_pbh
+__m128bh test_mm_maskz_fnmadd_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_maskz_fnmadd_pbh
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_maskz_fnmaddne_pbh(__U, __A, __B, __C);
+  return _mm_maskz_fnmadd_pbh(__U, __A, __B, __C);
 }
 
-__m128bh test_mm_fnmsubne_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_fnmsubne_pbh
+__m128bh test_mm_fnmsub_pbh(__m128bh __A, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
-  return _mm_fnmsubne_pbh(__A, __B, __C);
+  return _mm_fnmsub_pbh(__A, __B, __C);
 }
 
-__m128bh test_mm_mask_fnmsubne_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_mask_fnmsubne_pbh
+__m128bh test_mm_mask_fnmsub_pbh(__m128bh __A, __mmask8 __U, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_mask_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_mask_fnmsubne_pbh(__A, __U, __B, __C);
+  return _mm_mask_fnmsub_pbh(__A, __U, __B, __C);
 }
 
-__m128bh test_mm_mask3_fnmsubne_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
-  // CHECK-LABEL: @test_mm_mask3_fnmsubne_pbh
+__m128bh test_mm_mask3_fnmsub_pbh(__m128bh __A, __m128bh __B, __m128bh __C, __mmask8 __U) {
+  // CHECK-LABEL: @test_mm_mask3_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_mask3_fnmsubne_pbh(__A, __B, __C, __U);
+  return _mm_mask3_fnmsub_pbh(__A, __B, __C, __U);
 }
 
-__m128bh test_mm_maskz_fnmsubne_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
-  // CHECK-LABEL: @test_mm_maskz_fnmsubne_pbh
+__m128bh test_mm_maskz_fnmsub_pbh(__mmask8 __U, __m128bh __A, __m128bh __B, __m128bh __C) {
+  // CHECK-LABEL: @test_mm_maskz_fnmsub_pbh
   // CHECK: fneg
   // CHECK: fneg
   // CHECK: call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}})
   // CHECK: select <8 x i1> %{{.*}}, <8 x bfloat> %{{.*}}, <8 x bfloat> %{{.*}}
-  return _mm_maskz_fnmsubne_pbh(__U, __A, __B, __C);
+  return _mm_maskz_fnmsub_pbh(__U, __A, __B, __C);
 }
diff --git a/clang/test/CodeGen/X86/avx10_2convert-builtins.c b/clang/test/CodeGen/X86/avx10_2convert-builtins.c
index 8086c1b5d3399..efd9a31c40875 100644
--- a/clang/test/CodeGen/X86/avx10_2convert-builtins.c
+++ b/clang/test/CodeGen/X86/avx10_2convert-builtins.c
@@ -59,554 +59,554 @@ __m256h test_mm256_maskz_cvtx_round2ps_ph(__mmask8 __U, __m256 __A, __m256 __B)
   return _mm256_maskz_cvtx_round2ps_ph(__U, __A, __B, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
 }
 
-__m128i test_mm_cvtbiasph_pbf8(__m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_cvtbiasph_pbf8(
+__m128i test_mm_cvtbiasph_bf8(__m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_cvtbiasph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8128(
-  return _mm_cvtbiasph_pbf8(__A, __B);
+  return _mm_cvtbiasph_bf8(__A, __B);
 }
 
-__m128i test_mm_mask_cvtbiasph_pbf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_mask_cvtbiasph_pbf8(
+__m128i test_mm_mask_cvtbiasph_bf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_mask_cvtbiasph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8128(
-  return _mm_mask_cvtbiasph_pbf8(__W, __U, __A, __B);
+  return _mm_mask_cvtbiasph_bf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm_maskz_cvtbiasph_pbf8(__mmask8 __U, __m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtbiasph_pbf8(
+__m128i test_mm_maskz_cvtbiasph_bf8(__mmask8 __U, __m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvtbiasph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8128(
-  return _mm_maskz_cvtbiasph_pbf8(__U, __A, __B);
+  return _mm_maskz_cvtbiasph_bf8(__U, __A, __B);
 }
 
-__m128i test_mm256_cvtbiasph_pbf8(__m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_cvtbiasph_pbf8(
+__m128i test_mm256_cvtbiasph_bf8(__m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_cvtbiasph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8256(
-  return _mm256_cvtbiasph_pbf8(__A, __B);
+  return _mm256_cvtbiasph_bf8(__A, __B);
 }
 
-__m128i test_mm256_mask_cvtbiasph_pbf8(__m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_mask_cvtbiasph_pbf8(
+__m128i test_mm256_mask_cvtbiasph_bf8(__m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_mask_cvtbiasph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8256(
-  return _mm256_mask_cvtbiasph_pbf8(__W, __U, __A, __B);
+  return _mm256_mask_cvtbiasph_bf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm256_maskz_cvtbiasph_pbf8(__mmask16 __U, __m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtbiasph_pbf8(
+__m128i test_mm256_maskz_cvtbiasph_bf8(__mmask16 __U, __m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtbiasph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8256(
-  return _mm256_maskz_cvtbiasph_pbf8(__U, __A, __B);
+  return _mm256_maskz_cvtbiasph_bf8(__U, __A, __B);
 }
 
-__m128i test_mm_cvtbiassph_pbf8(__m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_cvtbiassph_pbf8(
+__m128i test_mm_cvtbiassph_bf8(__m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_cvtbiassph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8s128(
-  return _mm_cvtbiassph_pbf8(__A, __B);
+  return _mm_cvtbiassph_bf8(__A, __B);
 }
 
-__m128i test_mm_mask_cvtbiassph_pbf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_mask_cvtbiassph_pbf8(
+__m128i test_mm_mask_cvtbiassph_bf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_mask_cvtbiassph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8s128(
-  return _mm_mask_cvtbiassph_pbf8(__W, __U, __A, __B);
+  return _mm_mask_cvtbiassph_bf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm_maskz_cvtbiassph_pbf8(__mmask8 __U, __m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtbiassph_pbf8(
+__m128i test_mm_maskz_cvtbiassph_bf8(__mmask8 __U, __m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvtbiassph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8s128(
-  return _mm_maskz_cvtbiassph_pbf8(__U, __A, __B);
+  return _mm_maskz_cvtbiassph_bf8(__U, __A, __B);
 }
 
-__m128i test_mm256_cvtbiassph_pbf8(__m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_cvtbiassph_pbf8(
+__m128i test_mm256_cvtbiassph_bf8(__m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_cvtbiassph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8s256(
-  return _mm256_cvtbiassph_pbf8(__A, __B);
+  return _mm256_cvtbiassph_bf8(__A, __B);
 }
 
-__m128i test_mm256_mask_cvtbiassph_pbf8(__m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_mask_cvtbiassph_pbf8(
+__m128i test_mm256_mask_cvtbiassph_bf8(__m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_mask_cvtbiassph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8s256(
-  return _mm256_mask_cvtbiassph_pbf8(__W, __U, __A, __B);
+  return _mm256_mask_cvtbiassph_bf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm256_maskz_cvtbiassph_pbf8(__mmask16 __U, __m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtbiassph_pbf8(
+__m128i test_mm256_maskz_cvtbiassph_bf8(__mmask16 __U, __m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtbiassph_bf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2bf8s256(
-  return _mm256_maskz_cvtbiassph_pbf8(__U, __A, __B);
+  return _mm256_maskz_cvtbiassph_bf8(__U, __A, __B);
 }
 
-__m128i test_mm_cvtbiasph_phf8(__m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_cvtbiasph_phf8(
+__m128i test_mm_cvtbiasph_hf8(__m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_cvtbiasph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8128(
-  return _mm_cvtbiasph_phf8(__A, __B);
+  return _mm_cvtbiasph_hf8(__A, __B);
 }
 
-__m128i test_mm_mask_cvtbiasph_phf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_mask_cvtbiasph_phf8(
+__m128i test_mm_mask_cvtbiasph_hf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_mask_cvtbiasph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8128(
-  return _mm_mask_cvtbiasph_phf8(__W, __U, __A, __B);
+  return _mm_mask_cvtbiasph_hf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm_maskz_cvtbiasph_phf8(__mmask8 __U, __m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtbiasph_phf8(
+__m128i test_mm_maskz_cvtbiasph_hf8(__mmask8 __U, __m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvtbiasph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8128(
-  return _mm_maskz_cvtbiasph_phf8(__U, __A, __B);
+  return _mm_maskz_cvtbiasph_hf8(__U, __A, __B);
 }
 
-__m128i test_mm256_cvtbiasph_phf8(__m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_cvtbiasph_phf8(
+__m128i test_mm256_cvtbiasph_hf8(__m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_cvtbiasph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8256(
-  return _mm256_cvtbiasph_phf8(__A, __B);
+  return _mm256_cvtbiasph_hf8(__A, __B);
 }
 
-__m128i test_mm256_mask_cvtbiasph_phf8(__m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_mask_cvtbiasph_phf8(
+__m128i test_mm256_mask_cvtbiasph_hf8(__m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_mask_cvtbiasph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8256(
-  return _mm256_mask_cvtbiasph_phf8(__W, __U, __A, __B);
+  return _mm256_mask_cvtbiasph_hf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm256_maskz_cvtbiasph_phf8(__mmask16 __U, __m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtbiasph_phf8(
+__m128i test_mm256_maskz_cvtbiasph_hf8(__mmask16 __U, __m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtbiasph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8256(
-  return _mm256_maskz_cvtbiasph_phf8(__U, __A, __B);
+  return _mm256_maskz_cvtbiasph_hf8(__U, __A, __B);
 }
 
-__m128i test_mm_cvtbiassph_phf8(__m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_cvtbiassph_phf8(
+__m128i test_mm_cvtbiassph_hf8(__m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_cvtbiassph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8s128(
-  return _mm_cvtbiassph_phf8(__A, __B);
+  return _mm_cvtbiassph_hf8(__A, __B);
 }
 
-__m128i test_mm_mask_cvtbiassph_phf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_mask_cvtbiassph_phf8(
+__m128i test_mm_mask_cvtbiassph_hf8(__m128i __W, __mmask8 __U, __m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_mask_cvtbiassph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8s128(
-  return _mm_mask_cvtbiassph_phf8(__W, __U, __A, __B);
+  return _mm_mask_cvtbiassph_hf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm_maskz_cvtbiassph_phf8(__mmask8 __U, __m128i __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtbiassph_phf8(
+__m128i test_mm_maskz_cvtbiassph_hf8(__mmask8 __U, __m128i __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvtbiassph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8s128(
-  return _mm_maskz_cvtbiassph_phf8(__U, __A, __B);
+  return _mm_maskz_cvtbiassph_hf8(__U, __A, __B);
 }
 
-__m128i test_mm256_cvtbiassph_phf8(__m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_cvtbiassph_phf8(
+__m128i test_mm256_cvtbiassph_hf8(__m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_cvtbiassph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8s256(
-  return _mm256_cvtbiassph_phf8(__A, __B);
+  return _mm256_cvtbiassph_hf8(__A, __B);
 }
 
-__m128i test_mm256_mask_cvtbiassph_phf8(__m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_mask_cvtbiassph_phf8(
+__m128i test_mm256_mask_cvtbiassph_hf8(__m128i __W, __mmask16 __U, __m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_mask_cvtbiassph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8s256(
-  return _mm256_mask_cvtbiassph_phf8(__W, __U, __A, __B);
+  return _mm256_mask_cvtbiassph_hf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm256_maskz_cvtbiassph_phf8(__mmask16 __U, __m256i __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtbiassph_phf8(
+__m128i test_mm256_maskz_cvtbiassph_hf8(__mmask16 __U, __m256i __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtbiassph_hf8(
   // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtbiasph2hf8s256(
-  return _mm256_maskz_cvtbiassph_phf8(__U, __A, __B);
+  return _mm256_maskz_cvtbiassph_hf8(__U, __A, __B);
 }
 
-__m128i test_mm_cvtne2ph_pbf8(__m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_cvtne2ph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8128(
-  return _mm_cvtne2ph_pbf8(__A, __B);
+__m128i test_mm_cvt2ph_bf8(__m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_cvt2ph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8128(
+  return _mm_cvt2ph_bf8(__A, __B);
 }
 
-__m128i test_mm_mask_cvtne2ph_pbf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_mask_cvtne2ph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8128(
+__m128i test_mm_mask_cvt2ph_bf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_mask_cvt2ph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8128(
   // CHECK: select <16 x i1> %{{.*}}, <16 x i8> %{{.*}}, <16 x i8> %{{.*}}
   // CHECK: ret <2 x i64> %{{.*}}
-  return _mm_mask_cvtne2ph_pbf8(__W, __U, __A, __B);
+  return _mm_mask_cvt2ph_bf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm_maskz_cvtne2ph_pbf8(__mmask16 __U, __m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtne2ph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8128(
+__m128i test_mm_maskz_cvt2ph_bf8(__mmask16 __U, __m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvt2ph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8128(
   // CHECK: zeroinitializer
   // CHECK: select <16 x i1> %{{.*}}, <16 x i8> %{{.*}}, <16 x i8> %{{.*}}
-  return _mm_maskz_cvtne2ph_pbf8(__U, __A, __B);
+  return _mm_maskz_cvt2ph_bf8(__U, __A, __B);
 }
 
-__m256i test_mm256_cvtne2ph_pbf8(__m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_cvtne2ph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8256(
-  return _mm256_cvtne2ph_pbf8(__A, __B);
+__m256i test_mm256_cvt2ph_bf8(__m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_cvt2ph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8256(
+  return _mm256_cvt2ph_bf8(__A, __B);
 }
 
-__m256i test_mm256_mask_cvtne2ph_pbf8(__m256i __W, __mmask16 __U, __m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_mask_cvtne2ph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8256(
+__m256i test_mm256_mask_cvt2ph_bf8(__m256i __W, __mmask16 __U, __m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_mask_cvt2ph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8256(
   // CHECK: select <32 x i1> %{{.*}}, <32 x i8> %{{.*}}, <32 x i8> %{{.*}}
   // CHECK: ret <4 x i64> %{{.*}}
-  return _mm256_mask_cvtne2ph_pbf8(__W, __U, __A, __B);
+  return _mm256_mask_cvt2ph_bf8(__W, __U, __A, __B);
 }
 
-__m256i test_mm256_maskz_cvtne2ph_pbf8(__mmask16 __U, __m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtne2ph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8256(
+__m256i test_mm256_maskz_cvt2ph_bf8(__mmask16 __U, __m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvt2ph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8256(
   // CHECK: zeroinitializer
   // CHECK: select <32 x i1> %{{.*}}, <32 x i8> %{{.*}}, <32 x i8> %{{.*}}
-  return _mm256_maskz_cvtne2ph_pbf8(__U, __A, __B);
+  return _mm256_maskz_cvt2ph_bf8(__U, __A, __B);
 }
 
-__m128i test_mm_cvtnes2ph_pbf8(__m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_cvtnes2ph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s128(
-  return _mm_cvtnes2ph_pbf8(__A, __B);
+__m128i test_mm_cvts2ph_bf8(__m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_cvts2ph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8s128(
+  return _mm_cvts2ph_bf8(__A, __B);
 }
 
-__m128i test_mm_mask_cvtnes2ph_pbf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_mask_cvtnes2ph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s128(
+__m128i test_mm_mask_cvts2ph_bf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_mask_cvts2ph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8s128(
   // CHECK: select <16 x i1> %{{.*}}, <16 x i8> %{{.*}}, <16 x i8> %{{.*}}
   // CHECK: ret <2 x i64> %{{.*}}
-  return _mm_mask_cvtnes2ph_pbf8(__W, __U, __A, __B);
+  return _mm_mask_cvts2ph_bf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm_maskz_cvtnes2ph_pbf8(__mmask16 __U, __m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtnes2ph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s128(
+__m128i test_mm_maskz_cvts2ph_bf8(__mmask16 __U, __m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvts2ph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8s128(
   // CHECK: zeroinitializer
   // CHECK: select <16 x i1> %{{.*}}, <16 x i8> %{{.*}}, <16 x i8> %{{.*}}
-  return _mm_maskz_cvtnes2ph_pbf8(__U, __A, __B);
+  return _mm_maskz_cvts2ph_bf8(__U, __A, __B);
 }
 
-__m256i test_mm256_cvtnes2ph_pbf8(__m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_cvtnes2ph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s256(
-  return _mm256_cvtnes2ph_pbf8(__A, __B);
+__m256i test_mm256_cvts2ph_bf8(__m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_cvts2ph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8s256(
+  return _mm256_cvts2ph_bf8(__A, __B);
 }
 
-__m256i test_mm256_mask_cvtnes2ph_pbf8(__m256i __W, __mmask16 __U, __m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_mask_cvtnes2ph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s256(
+__m256i test_mm256_mask_cvts2ph_bf8(__m256i __W, __mmask16 __U, __m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_mask_cvts2ph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8s256(
   // CHECK: select <32 x i1> %{{.*}}, <32 x i8> %{{.*}}, <32 x i8> %{{.*}}
   // CHECK: ret <4 x i64> %{{.*}}
-  return _mm256_mask_cvtnes2ph_pbf8(__W, __U, __A, __B);
+  return _mm256_mask_cvts2ph_bf8(__W, __U, __A, __B);
 }
 
-__m256i test_mm256_maskz_cvtnes2ph_pbf8(__mmask16 __U, __m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtnes2ph_pbf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s256(
+__m256i test_mm256_maskz_cvts2ph_bf8(__mmask16 __U, __m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvts2ph_bf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8s256(
   // CHECK: zeroinitializer
   // CHECK: select <32 x i1> %{{.*}}, <32 x i8> %{{.*}}, <32 x i8> %{{.*}}
-  return _mm256_maskz_cvtnes2ph_pbf8(__U, __A, __B);
+  return _mm256_maskz_cvts2ph_bf8(__U, __A, __B);
 }
 
-__m128i test_mm_cvtne2ph_phf8(__m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_cvtne2ph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8128(
-  return _mm_cvtne2ph_phf8(__A, __B);
+__m128i test_mm_cvt2ph_hf8(__m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_cvt2ph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8128(
+  return _mm_cvt2ph_hf8(__A, __B);
 }
 
-__m128i test_mm_mask_cvtne2ph_phf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_mask_cvtne2ph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8128(
+__m128i test_mm_mask_cvt2ph_hf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_mask_cvt2ph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8128(
   // CHECK: select <16 x i1> %{{.*}}, <16 x i8> %{{.*}}, <16 x i8> %{{.*}}
   // CHECK: ret <2 x i64> %{{.*}}
-  return _mm_mask_cvtne2ph_phf8(__W, __U, __A, __B);
+  return _mm_mask_cvt2ph_hf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm_maskz_cvtne2ph_phf8(__mmask16 __U, __m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtne2ph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8128(
+__m128i test_mm_maskz_cvt2ph_hf8(__mmask16 __U, __m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvt2ph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8128(
   // CHECK: zeroinitializer
   // CHECK: select <16 x i1> %{{.*}}, <16 x i8> %{{.*}}, <16 x i8> %{{.*}}
-  return _mm_maskz_cvtne2ph_phf8(__U, __A, __B);
+  return _mm_maskz_cvt2ph_hf8(__U, __A, __B);
 }
 
-__m256i test_mm256_cvtne2ph_phf8(__m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_cvtne2ph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8256(
-  return _mm256_cvtne2ph_phf8(__A, __B);
+__m256i test_mm256_cvt2ph_hf8(__m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_cvt2ph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8256(
+  return _mm256_cvt2ph_hf8(__A, __B);
 }
 
-__m256i test_mm256_mask_cvtne2ph_phf8(__m256i __W, __mmask16 __U, __m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_mask_cvtne2ph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8256(
+__m256i test_mm256_mask_cvt2ph_hf8(__m256i __W, __mmask16 __U, __m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_mask_cvt2ph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8256(
   // CHECK: select <32 x i1> %{{.*}}, <32 x i8> %{{.*}}, <32 x i8> %{{.*}}
   // CHECK: ret <4 x i64> %{{.*}}
-  return _mm256_mask_cvtne2ph_phf8(__W, __U, __A, __B);
+  return _mm256_mask_cvt2ph_hf8(__W, __U, __A, __B);
 }
 
-__m256i test_mm256_maskz_cvtne2ph_phf8(__mmask16 __U, __m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtne2ph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8256(
+__m256i test_mm256_maskz_cvt2ph_hf8(__mmask16 __U, __m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvt2ph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8256(
   // CHECK: zeroinitializer
   // CHECK: select <32 x i1> %{{.*}}, <32 x i8> %{{.*}}, <32 x i8> %{{.*}}
-  return _mm256_maskz_cvtne2ph_phf8(__U, __A, __B);
+  return _mm256_maskz_cvt2ph_hf8(__U, __A, __B);
 }
 
-__m128i test_mm_cvtnes2ph_phf8(__m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_cvtnes2ph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s128(
-  return _mm_cvtnes2ph_phf8(__A, __B);
+__m128i test_mm_cvts2ph_hf8(__m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_cvts2ph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8s128(
+  return _mm_cvts2ph_hf8(__A, __B);
 }
 
-__m128i test_mm_mask_cvtnes2ph_phf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_mask_cvtnes2ph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s128(
+__m128i test_mm_mask_cvts2ph_hf8(__m128i __W, __mmask16 __U, __m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_mask_cvts2ph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8s128(
   // CHECK: select <16 x i1> %{{.*}}, <16 x i8> %{{.*}}, <16 x i8> %{{.*}}
   // CHECK: ret <2 x i64> %{{.*}}
-  return _mm_mask_cvtnes2ph_phf8(__W, __U, __A, __B);
+  return _mm_mask_cvts2ph_hf8(__W, __U, __A, __B);
 }
 
-__m128i test_mm_maskz_cvtnes2ph_phf8(__mmask16 __U, __m128h __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtnes2ph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s128(
+__m128i test_mm_maskz_cvts2ph_hf8(__mmask16 __U, __m128h __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvts2ph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8s128(
   // CHECK: zeroinitializer
   // CHECK: select <16 x i1> %{{.*}}, <16 x i8> %{{.*}}, <16 x i8> %{{.*}}
-  return _mm_maskz_cvtnes2ph_phf8(__U, __A, __B);
+  return _mm_maskz_cvts2ph_hf8(__U, __A, __B);
 }
 
-__m256i test_mm256_cvtnes2ph_phf8(__m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_cvtnes2ph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s256(
-  return _mm256_cvtnes2ph_phf8(__A, __B);
+__m256i test_mm256_cvts2ph_hf8(__m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_cvts2ph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8s256(
+  return _mm256_cvts2ph_hf8(__A, __B);
 }
 
-__m256i test_mm256_mask_cvtnes2ph_phf8(__m256i __W, __mmask16 __U, __m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_mask_cvtnes2ph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s256(
+__m256i test_mm256_mask_cvts2ph_hf8(__m256i __W, __mmask16 __U, __m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_mask_cvts2ph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8s256(
   // CHECK: select <32 x i1> %{{.*}}, <32 x i8> %{{.*}}, <32 x i8> %{{.*}}
   // CHECK: ret <4 x i64> %{{.*}}
-  return _mm256_mask_cvtnes2ph_phf8(__W, __U, __A, __B);
+  return _mm256_mask_cvts2ph_hf8(__W, __U, __A, __B);
 }
 
-__m256i test_mm256_maskz_cvtnes2ph_phf8(__mmask16 __U, __m256h __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtnes2ph_phf8(
-  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s256(
+__m256i test_mm256_maskz_cvts2ph_hf8(__mmask16 __U, __m256h __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvts2ph_hf8(
+  // CHECK: call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8s256(
   // CHECK: zeroinitializer
   // CHECK: select <32 x i1> %{{.*}}, <32 x i8> %{{.*}}, <32 x i8> %{{.*}}
-  return _mm256_maskz_cvtnes2ph_phf8(__U, __A, __B);
+  return _mm256_maskz_cvts2ph_hf8(__U, __A, __B);
 }
 
-__m128h test_mm_cvtnehf8_ph(__m128i __A) {
-  // CHECK-LABEL: @test_mm_cvtnehf8_ph(
+__m128h test_mm_cvthf8(__m128i __A) {
+  // CHECK-LABEL: @test_mm_cvthf8(
   // CHECK: call <8 x half> @llvm.x86.avx10.mask.vcvthf82ph128(
-  return _mm_cvtnehf8_ph(__A);
+  return _mm_cvthf8(__A);
 }
 
-__m128h test_mm_mask_cvtnehf8_ph(__m128h __A, __mmask8 __B, __m128i __C) {
-  // CHECK-LABEL: @test_mm_mask_cvtnehf8_ph(
+__m128h test_mm_mask_cvthf8(__m128h __A, __mmask8 __B, __m128i __C) {
+  // CHECK-LABEL: @test_mm_mask_cvthf8(
   // CHECK: call <8 x half> @llvm.x86.avx10.mask.vcvthf82ph128(
-  return _mm_mask_cvtnehf8_ph(__A, __B, __C);
+  return _mm_mask_cvthf8(__A, __B, __C);
 }
 
-__m128h test_mm_maskz_cvtnehf8_ph(__mmask8 __A, __m128i __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtnehf8_ph(
+__m128h test_mm_maskz_cvthf8(__mmask8 __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvthf8(
   // CHECK: call <8 x half> @llvm.x86.avx10.mask.vcvthf82ph128(
-  return _mm_maskz_cvtnehf8_ph(__A, __B);
+  return _mm_maskz_cvthf8(__A, __B);
 }
 
-__m256h test_mm256_cvtnehf8_ph(__m128i __A) {
-  // CHECK-LABEL: @test_mm256_cvtnehf8_ph(
+__m256h test_mm256_cvthf8(__m128i __A) {
+  // CHECK-LABEL: @test_mm256_cvthf8(
   // CHECK: call <16 x half> @llvm.x86.avx10.mask.vcvthf82ph256(
-  return _mm256_cvtnehf8_ph(__A);
+  return _mm256_cvthf8(__A);
 }
 
-__m256h test_mm256_mask_cvtnehf8_ph(__m256h __A, __mmask16 __B, __m128i __C) {
-  // CHECK-LABEL: @test_mm256_mask_cvtnehf8_ph(
+__m256h test_mm256_mask_cvthf8(__m256h __A, __mmask16 __B, __m128i __C) {
+  // CHECK-LABEL: @test_mm256_mask_cvthf8(
   // CHECK: call <16 x half> @llvm.x86.avx10.mask.vcvthf82ph256(
-  return _mm256_mask_cvtnehf8_ph(__A, __B, __C);
+  return _mm256_mask_cvthf8(__A, __B, __C);
 }
 
-__m256h test_mm256_maskz_cvtnehf8_ph(__mmask16 __A, __m128i __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtnehf8_ph(
+__m256h test_mm256_maskz_cvthf8(__mmask16 __A, __m128i __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvthf8(
   // CHECK: call <16 x half> @llvm.x86.avx10.mask.vcvthf82ph256(
-  return _mm256_maskz_cvtnehf8_ph(__A, __B);
+  return _mm256_maskz_cvthf8(__A, __B);
 }
 
-__m128i test_mm_cvtneph_pbf8(__m128h __A) {
-  // CHECK-LABEL: @test_mm_cvtneph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8128(
-  return _mm_cvtneph_pbf8(__A);
+__m128i test_mm_cvtph_bf8(__m128h __A) {
+  // CHECK-LABEL: @test_mm_cvtph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8128(
+  return _mm_cvtph_bf8(__A);
 }
 
-__m128i test_mm_mask_cvtneph_pbf8(__m128i __A, __mmask8 __B, __m128h __C) {
-  // CHECK-LABEL: @test_mm_mask_cvtneph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8128(
-  return _mm_mask_cvtneph_pbf8(__A, __B, __C);
+__m128i test_mm_mask_cvtph_bf8(__m128i __A, __mmask8 __B, __m128h __C) {
+  // CHECK-LABEL: @test_mm_mask_cvtph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8128(
+  return _mm_mask_cvtph_bf8(__A, __B, __C);
 }
 
-__m128i test_mm_maskz_cvtneph_pbf8(__mmask8 __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtneph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8128(
-  return _mm_maskz_cvtneph_pbf8(__A, __B);
+__m128i test_mm_maskz_cvtph_bf8(__mmask8 __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvtph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8128(
+  return _mm_maskz_cvtph_bf8(__A, __B);
 }
 
-__m128i test_mm256_cvtneph_pbf8(__m256h __A) {
-  // CHECK-LABEL: @test_mm256_cvtneph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8256(
-  return _mm256_cvtneph_pbf8(__A);
+__m128i test_mm256_cvtph_bf8(__m256h __A) {
+  // CHECK-LABEL: @test_mm256_cvtph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8256(
+  return _mm256_cvtph_bf8(__A);
 }
 
-__m128i test_mm256_mask_cvtneph_pbf8(__m128i __A, __mmask16 __B, __m256h __C) {
-  // CHECK-LABEL: @test_mm256_mask_cvtneph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8256(
-  return _mm256_mask_cvtneph_pbf8(__A, __B, __C);
+__m128i test_mm256_mask_cvtph_bf8(__m128i __A, __mmask16 __B, __m256h __C) {
+  // CHECK-LABEL: @test_mm256_mask_cvtph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8256(
+  return _mm256_mask_cvtph_bf8(__A, __B, __C);
 }
 
-__m128i test_mm256_maskz_cvtneph_pbf8(__mmask16 __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtneph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8256(
-  return _mm256_maskz_cvtneph_pbf8(__A, __B);
+__m128i test_mm256_maskz_cvtph_bf8(__mmask16 __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8256(
+  return _mm256_maskz_cvtph_bf8(__A, __B);
 }
 
-__m128i test_mm_cvtnesph_pbf8(__m128h __A) {
-  // CHECK-LABEL: @test_mm_cvtnesph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s128(
-  return _mm_cvtnesph_pbf8(__A);
+__m128i test_mm_cvtsph_bf8(__m128h __A) {
+  // CHECK-LABEL: @test_mm_cvtsph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s128(
+  return _mm_cvtsph_bf8(__A);
 }
 
-__m128i test_mm_mask_cvtnesph_pbf8(__m128i __A, __mmask8 __B, __m128h __C) {
-  // CHECK-LABEL: @test_mm_mask_cvtnesph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s128(
-  return _mm_mask_cvtnesph_pbf8(__A, __B, __C);
+__m128i test_mm_mask_cvtsph_bf8(__m128i __A, __mmask8 __B, __m128h __C) {
+  // CHECK-LABEL: @test_mm_mask_cvtsph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s128(
+  return _mm_mask_cvtsph_bf8(__A, __B, __C);
 }
 
-__m128i test_mm_maskz_cvtnesph_pbf8(__mmask8 __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtnesph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s128(
-  return _mm_maskz_cvtnesph_pbf8(__A, __B);
+__m128i test_mm_maskz_cvtsph_bf8(__mmask8 __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvtsph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s128(
+  return _mm_maskz_cvtsph_bf8(__A, __B);
 }
 
-__m128i test_mm256_cvtnesph_pbf8(__m256h __A) {
-  // CHECK-LABEL: @test_mm256_cvtnesph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s256(
-  return _mm256_cvtnesph_pbf8(__A);
+__m128i test_mm256_cvtsph_bf8(__m256h __A) {
+  // CHECK-LABEL: @test_mm256_cvtsph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s256(
+  return _mm256_cvtsph_bf8(__A);
 }
 
-__m128i test_mm256_mask_cvtnesph_pbf8(__m128i __A, __mmask16 __B, __m256h __C) {
-  // CHECK-LABEL: @test_mm256_mask_cvtnesph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s256(
-  return _mm256_mask_cvtnesph_pbf8(__A, __B, __C);
+__m128i test_mm256_mask_cvtsph_bf8(__m128i __A, __mmask16 __B, __m256h __C) {
+  // CHECK-LABEL: @test_mm256_mask_cvtsph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s256(
+  return _mm256_mask_cvtsph_bf8(__A, __B, __C);
 }
 
-__m128i test_mm256_maskz_cvtnesph_pbf8(__mmask16 __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtnesph_pbf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s256(
-  return _mm256_maskz_cvtnesph_pbf8(__A, __B);
+__m128i test_mm256_maskz_cvtsph_bf8(__mmask16 __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtsph_bf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s256(
+  return _mm256_maskz_cvtsph_bf8(__A, __B);
 }
 
-__m128i test_mm_cvtneph_phf8(__m128h __A) {
-  // CHECK-LABEL: @test_mm_cvtneph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8128(
-  return _mm_cvtneph_phf8(__A);
+__m128i test_mm_cvtph_hf8(__m128h __A) {
+  // CHECK-LABEL: @test_mm_cvtph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8128(
+  return _mm_cvtph_hf8(__A);
 }
 
-__m128i test_mm_mask_cvtneph_phf8(__m128i __A, __mmask8 __B, __m128h __C) {
-  // CHECK-LABEL: @test_mm_mask_cvtneph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8128(
-  return _mm_mask_cvtneph_phf8(__A, __B, __C);
+__m128i test_mm_mask_cvtph_hf8(__m128i __A, __mmask8 __B, __m128h __C) {
+  // CHECK-LABEL: @test_mm_mask_cvtph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8128(
+  return _mm_mask_cvtph_hf8(__A, __B, __C);
 }
 
-__m128i test_mm_maskz_cvtneph_phf8(__mmask8 __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtneph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8128(
-  return _mm_maskz_cvtneph_phf8(__A, __B);
+__m128i test_mm_maskz_cvtph_hf8(__mmask8 __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvtph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8128(
+  return _mm_maskz_cvtph_hf8(__A, __B);
 }
 
-__m128i test_mm256_cvtneph_phf8(__m256h __A) {
-  // CHECK-LABEL: @test_mm256_cvtneph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8256(
-  return _mm256_cvtneph_phf8(__A);
+__m128i test_mm256_cvtph_hf8(__m256h __A) {
+  // CHECK-LABEL: @test_mm256_cvtph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8256(
+  return _mm256_cvtph_hf8(__A);
 }
 
-__m128i test_mm256_mask_cvtneph_phf8(__m128i __A, __mmask16 __B, __m256h __C) {
-  // CHECK-LABEL: @test_mm256_mask_cvtneph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8256(
-  return _mm256_mask_cvtneph_phf8(__A, __B, __C);
+__m128i test_mm256_mask_cvtph_hf8(__m128i __A, __mmask16 __B, __m256h __C) {
+  // CHECK-LABEL: @test_mm256_mask_cvtph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8256(
+  return _mm256_mask_cvtph_hf8(__A, __B, __C);
 }
 
-__m128i test_mm256_maskz_cvtneph_phf8(__mmask16 __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtneph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8256(
-  return _mm256_maskz_cvtneph_phf8(__A, __B);
+__m128i test_mm256_maskz_cvtph_hf8(__mmask16 __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8256(
+  return _mm256_maskz_cvtph_hf8(__A, __B);
 }
 
-__m128i test_mm_cvtnesph_phf8(__m128h __A) {
-  // CHECK-LABEL: @test_mm_cvtnesph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s128(
-  return _mm_cvtnesph_phf8(__A);
+__m128i test_mm_cvtsph_hf8(__m128h __A) {
+  // CHECK-LABEL: @test_mm_cvtsph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s128(
+  return _mm_cvtsph_hf8(__A);
 }
 
-__m128i test_mm_mask_cvtnesph_phf8(__m128i __A, __mmask8 __B, __m128h __C) {
-  // CHECK-LABEL: @test_mm_mask_cvtnesph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s128(
-  return _mm_mask_cvtnesph_phf8(__A, __B, __C);
+__m128i test_mm_mask_cvtsph_hf8(__m128i __A, __mmask8 __B, __m128h __C) {
+  // CHECK-LABEL: @test_mm_mask_cvtsph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s128(
+  return _mm_mask_cvtsph_hf8(__A, __B, __C);
 }
 
-__m128i test_mm_maskz_cvtnesph_phf8(__mmask8 __A, __m128h __B) {
-  // CHECK-LABEL: @test_mm_maskz_cvtnesph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s128(
-  return _mm_maskz_cvtnesph_phf8(__A, __B);
+__m128i test_mm_maskz_cvtsph_hf8(__mmask8 __A, __m128h __B) {
+  // CHECK-LABEL: @test_mm_maskz_cvtsph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s128(
+  return _mm_maskz_cvtsph_hf8(__A, __B);
 }
 
-__m128i test_mm256_cvtnesph_phf8(__m256h __A) {
-  // CHECK-LABEL: @test_mm256_cvtnesph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s256(
-  return _mm256_cvtnesph_phf8(__A);
+__m128i test_mm256_cvtsph_hf8(__m256h __A) {
+  // CHECK-LABEL: @test_mm256_cvtsph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s256(
+  return _mm256_cvtsph_hf8(__A);
 }
 
-__m128i test_mm256_mask_cvtnesph_phf8(__m128i __A, __mmask16 __B, __m256h __C) {
-  // CHECK-LABEL: @test_mm256_mask_cvtnesph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s256(
-  return _mm256_mask_cvtnesph_phf8(__A, __B, __C);
+__m128i test_mm256_mask_cvtsph_hf8(__m128i __A, __mmask16 __B, __m256h __C) {
+  // CHECK-LABEL: @test_mm256_mask_cvtsph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s256(
+  return _mm256_mask_cvtsph_hf8(__A, __B, __C);
 }
 
-__m128i test_mm256_maskz_cvtnesph_phf8(__mmask16 __A, __m256h __B) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtnesph_phf8(
-  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s256(
-  return _mm256_maskz_cvtnesph_phf8(__A, __B);
+__m128i test_mm256_maskz_cvtsph_hf8(__mmask16 __A, __m256h __B) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtsph_hf8(
+  // CHECK: call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s256(
+  return _mm256_maskz_cvtsph_hf8(__A, __B);
 }
 
-__m256h test_mm256_cvtpbf8_ph(__m128i A) {
-  // CHECK-LABEL: @test_mm256_cvtpbf8_ph
+__m256h test_mm256_cvtbf8_ph(__m128i A) {
+  // CHECK-LABEL: @test_mm256_cvtbf8_ph
   // CHECK: sext <16 x i8> %{{.*}} to <16 x i16>
   // CHECK: @llvm.x86.avx2.pslli.w
   // CHECK: ret <16 x half> %{{.*}}
-  return _mm256_cvtpbf8_ph(A);
+  return _mm256_cvtbf8_ph(A);
 }
 
-__m256h test_mm256_mask_cvtpbf8_ph(__m256h S, __mmask16 M, __m128i A) {
-  // CHECK-LABEL: @test_mm256_mask_cvtpbf8_ph
+__m256h test_mm256_mask_cvtbf8_ph(__m256h S, __mmask16 M, __m128i A) {
+  // CHECK-LABEL: @test_mm256_mask_cvtbf8_ph
   // CHECK: sext <16 x i8> %{{.*}} to <16 x i16>
   // CHECK: @llvm.x86.avx2.pslli.w
   // CHECK: select <16 x i1> %{{.*}}, <16 x i16> %{{.*}}, <16 x i16> %{{.*}}
   // CHECK: ret <16 x half> %{{.*}}
-  return _mm256_mask_cvtpbf8_ph(S, M, A);
+  return _mm256_mask_cvtbf8_ph(S, M, A);
 }
 
-__m256h test_mm256_maskz_cvtpbf8_ph(__mmask16 M, __m128i A) {
-  // CHECK-LABEL: @test_mm256_maskz_cvtpbf8_ph
+__m256h test_mm256_maskz_cvtbf8_ph(__mmask16 M, __m128i A) {
+  // CHECK-LABEL: @test_mm256_maskz_cvtbf8_ph
   // CHECK: sext <16 x i8> %{{.*}} to <16 x i16>
   // CHECK: select <16 x i1> %{{.*}}, <16 x i16> %{{.*}}, <16 x i16> %{{.*}}
   // CHECK: @llvm.x86.avx2.pslli.w
   // CHECK: ret <16 x half> %{{.*}}
-  return _mm256_maskz_cvtpbf8_ph(M, A);
+  return _mm256_maskz_cvtbf8_ph(M, A);
 }
 
-__m128h test_mm_cvtpbf8_ph(__m128i A) {
-  // CHECK-LABEL: @test_mm_cvtpbf8_ph
+__m128h test_mm_cvtbf8_ph(__m128i A) {
+  // CHECK-LABEL: @test_mm_cvtbf8_ph
   // CHECK: sext <8 x i8> %{{.*}} to <8 x i16>
   // CHECK: @llvm.x86.sse2.pslli.w
   // CHECK: ret <8 x half> %{{.*}}
-  return _mm_cvtpbf8_ph(A);
+  return _mm_cvtbf8_ph(A);
 }
 
-__m128h test_mm_mask_cvtpbf8_ph(__m128h S, __mmask8 M, __m128i A) {
-  // CHECK-LABEL: @test_mm_mask_cvtpbf8_ph
+__m128h test_mm_mask_cvtbf8_ph(__m128h S, __mmask8 M, __m128i A) {
+  // CHECK-LABEL: @test_mm_mask_cvtbf8_ph
   // CHECK: sext <8 x i8> %{{.*}} to <8 x i16>
   // CHECK: @llvm.x86.sse2.pslli.w
   // CHECK: select <8 x i1> %{{.*}}, <8 x i16> %{{.*}}, <8 x i16> %{{.*}}
   // CHECK: ret <8 x half> %{{.*}}
-  return _mm_mask_cvtpbf8_ph(S, M, A);
+  return _mm_mask_cvtbf8_ph(S, M, A);
 }
 
-__m128h test_mm_maskz_cvtpbf8_ph(__mmask8 M, __m128i A) {
-  // CHECK-LABEL: @test_mm_maskz_cvtpbf8_ph
+__m128h test_mm_maskz_cvtbf8_ph(__mmask8 M, __m128i A) {
+  // CHECK-LABEL: @test_mm_maskz_cvtbf8_ph
   // CHECK: sext <8 x i8> %{{.*}} to <8 x i16>
   // CHECK: select <8 x i1> %{{.*}}, <8 x i16> %{{.*}}, <8 x i16> %{{.*}}
   // CHECK: @llvm.x86.sse2.pslli.w
   // CHECK: ret <8 x half> %{{.*}}
-  return _mm_maskz_cvtpbf8_ph(M, A);
+  return _mm_maskz_cvtbf8_ph(M, A);
 }
diff --git a/clang/test/Driver/cuda-cross-compiling.c b/clang/test/Driver/cuda-cross-compiling.c
index baf3704830031..7817e462c47be 100644
--- a/clang/test/Driver/cuda-cross-compiling.c
+++ b/clang/test/Driver/cuda-cross-compiling.c
@@ -63,8 +63,12 @@
 //
 // RUN: %clang -target nvptx64-nvidia-cuda -march=sm_70 %s -### 2>&1 \
 // RUN:   | FileCheck -check-prefix=LOWERING %s
+// RUN: %clang -target nvptx64-nvidia-cuda -march=sm_70 -flto -c %s -### 2>&1 \
+// RUN:   | FileCheck -check-prefix=LOWERING-LTO %s
 
 // LOWERING: -cc1" "-triple" "nvptx64-nvidia-cuda" {{.*}} "-mllvm" "--nvptx-lower-global-ctor-dtor"
+// LOWERING: clang-nvlink-wrapper{{.*}} "-mllvm" "--nvptx-lower-global-ctor-dtor"
+// LOWERING-LTO-NOT: "--nvptx-lower-global-ctor-dtor"
 
 //
 // Test passing arguments directly to nvlink.
diff --git a/clang/test/Driver/fno-plt.c b/clang/test/Driver/fno-plt.c
new file mode 100644
index 0000000000000..c7bd7130593be
--- /dev/null
+++ b/clang/test/Driver/fno-plt.c
@@ -0,0 +1,10 @@
+// RUN: %clang -### -c --target=aarch64 -fno-plt -Werror %s 2>&1 | FileCheck %s --check-prefix=NOPLT
+// RUN: %clang -### -c --target=x86_64 -fno-plt -Werror %s 2>&1 | FileCheck %s --check-prefix=NOPLT
+
+// RUN: %clang -### -c --target=aarch64 -fno-plt -fplt -Werror %s 2>&1 | FileCheck %s --check-prefix=DEFAULT
+// RUN: %clang -### -c --target=powerpc64 -fno-plt %s 2>&1 | FileCheck %s --check-prefixes=WARN,DEFAULT
+// RUN: %clang -### -c --target=aarch64-windows -fno-plt %s 2>&1 | FileCheck %s --check-prefixes=WARN,DEFAULT
+
+// WARN: warning: argument unused during compilation: '-fno-plt' [-Wunused-command-line-argument]
+// NOPLT: "-fno-plt"
+// DEFAULT-NOT: "-fno-plt"
diff --git a/clang/test/Headers/__cpuidex_conflict.c b/clang/test/Headers/__cpuidex_conflict.c
index 8687a6aa2f897..0f5e6e5e0a0ff 100644
--- a/clang/test/Headers/__cpuidex_conflict.c
+++ b/clang/test/Headers/__cpuidex_conflict.c
@@ -3,7 +3,9 @@
 // RUN: %clang_cc1 %s -ffreestanding -fms-extensions -fms-compatibility \
 // RUN:  -fms-compatibility-version=19.00 -triple x86_64-pc-windows-msvc -emit-llvm -o -
 // %clang_cc1 %s -ffreestanding -triple x86_64-w64-windows-gnu -fms-extensions -emit-llvm -o -
-// RUN: %clang_cc1 %s -ffreestanding -fopenmp -fopenmp-is-target-device -aux-triple x86_64-unknown-linux-gnu
+//
+// FIXME: See https://github.com/llvm/llvm-project/pull/121839
+// RUN: not %clang_cc1 %s -ffreestanding -fopenmp -fopenmp-is-target-device -aux-triple x86_64-unknown-linux-gnu
 
 typedef __SIZE_TYPE__ size_t;
 
diff --git a/clang/test/Headers/crash-instantiated-in-scope-cxx-modules5.cpp b/clang/test/Headers/crash-instantiated-in-scope-cxx-modules5.cpp
new file mode 100644
index 0000000000000..352e0125fe434
--- /dev/null
+++ b/clang/test/Headers/crash-instantiated-in-scope-cxx-modules5.cpp
@@ -0,0 +1,92 @@
+// RUN: rm -fR %t
+// RUN: split-file %s %t
+// RUN: cd %t
+// RUN: %clang_cc1 -verify -std=c++20 -Werror=uninitialized -xc++ -emit-module module.cppmap -fmodule-name=mock_resolver -o mock_resolver.pcm
+// RUN: %clang_cc1 -verify -std=c++20 -Werror=uninitialized -xc++ -emit-module module.cppmap -fmodule-name=sql_internal -o sql_internal.pcm
+// RUN: %clang_cc1 -verify -std=c++20 -Werror=uninitialized -xc++ -fmodule-file=mock_resolver.pcm -fmodule-file=sql_internal.pcm main.cc -o main.o
+
+//--- module.cppmap
+module "mock_resolver" {
+  export *
+  module "mock_resolver.h" {
+    export *
+    header "mock_resolver.h"
+  }
+}
+
+module "sql_internal" {
+  export *
+  module "sql_transform_builder.h" {
+    export *
+    header "sql_transform_builder.h"
+  }
+}
+
+//--- set_bits2.h
+// expected-no-diagnostics
+#pragma once
+
+template <typename T>
+void fwd(const T& x) {}
+
+namespace vox::bitset {
+
+template <typename TFunc>
+void ForEachSetBit2(const TFunc&) {
+  fwd([](int) {
+    const int bit_index_base = 0;
+    (void)[&](int) {
+      int v = bit_index_base;
+    };
+  });
+}
+
+}  // namespace vox::bitset
+
+//--- sql_transform_builder.h
+// expected-no-diagnostics
+#pragma once
+
+#include "set_bits2.h"
+
+class QualifyingSet3 {
+ public:
+  void GetIndexes() const {
+    vox::bitset::ForEachSetBit2([]() {});
+  }
+};
+
+template <typename T>
+void DoTransform() {
+  vox::bitset::ForEachSetBit2([]() {});
+}
+
+//--- mock_resolver.h
+// expected-no-diagnostics
+#pragma once 
+#include "set_bits2.h"
+
+class QualifyingSet2 {
+ public:
+  void GetIndexes() const {
+    vox::bitset::ForEachSetBit2([]() {});
+  }
+};
+
+//--- main.cc
+// expected-no-diagnostics
+#include "sql_transform_builder.h"
+
+template <typename Callable>
+void get(const Callable& fn) {
+  fwd<Callable>(fn);
+}
+
+namespace {
+
+void test() {
+  get([]() {});
+  DoTransform<int>();
+}
+
+} // namespace
diff --git a/clang/test/Modules/cxx-templates.cpp b/clang/test/Modules/cxx-templates.cpp
index 7b41a0b0bfb2c..b197f319e0d15 100644
--- a/clang/test/Modules/cxx-templates.cpp
+++ b/clang/test/Modules/cxx-templates.cpp
@@ -40,23 +40,14 @@ void g() {
 
   template_param_kinds_1<0>(); // ok, from cxx-templates-a.h
   template_param_kinds_1<int>(); // ok, from cxx-templates-b.h
-
-  template_param_kinds_2<Tmpl_T_C>(); // expected-error {{no matching function}}
-  // expected-note@Inputs/cxx-templates-a.h:11 {{invalid explicitly-specified argument}}
-  // expected-note@Inputs/cxx-templates-b.h:11 {{invalid explicitly-specified argument}}
+  template_param_kinds_2<Tmpl_T_C>(); // ok, from cxx-templates-b.h
 
   template_param_kinds_2<Tmpl_T_I_I>(); // expected-error {{ambiguous}}
   // expected-note@Inputs/cxx-templates-a.h:11 {{candidate}}
   // expected-note@Inputs/cxx-templates-b.h:11 {{candidate}}
 
-  // FIXME: This should be valid, but we incorrectly match the template template
-  // argument against both template template parameters.
-  template_param_kinds_3<Tmpl_T_T_A>(); // expected-error {{ambiguous}}
-  // expected-note@Inputs/cxx-templates-a.h:12 {{candidate}}
-  // expected-note@Inputs/cxx-templates-b.h:12 {{candidate}}
-  template_param_kinds_3<Tmpl_T_T_B>(); // expected-error {{ambiguous}}
-  // expected-note@Inputs/cxx-templates-a.h:12 {{candidate}}
-  // expected-note@Inputs/cxx-templates-b.h:12 {{candidate}}
+  template_param_kinds_3<Tmpl_T_T_A>();
+  template_param_kinds_3<Tmpl_T_T_B>();
 
   // Trigger the instantiation of a template in 'a' that uses a type defined in
   // 'common'. That type is not visible here.
diff --git a/clang/test/Modules/empty.modulemap b/clang/test/Modules/empty.modulemap
index f2d37c19d77bc..8cad8b67b9115 100644
--- a/clang/test/Modules/empty.modulemap
+++ b/clang/test/Modules/empty.modulemap
@@ -13,8 +13,8 @@
 // The module file should be identical each time we produce it.
 // RUN: diff %t/base.pcm %t/check.pcm
 //
-// We expect an empty module to be less than 60KB (and at least 10K, for now).
+// We expect an empty module to be less than 70KB (and at least 10K, for now).
 // RUN: wc -c %t/base.pcm | FileCheck --check-prefix=CHECK-SIZE %s
-// CHECK-SIZE: {{(^|[^0-9])[1-5][0-9][0-9][0-9][0-9]($|[^0-9])}}
+// CHECK-SIZE: {{(^|[^0-9])[1-6][0-9][0-9][0-9][0-9]($|[^0-9])}}
 
 module empty { header "Inputs/empty.h" export * }
diff --git a/clang/test/Modules/module-local-hidden-friend-2.cppm b/clang/test/Modules/module-local-hidden-friend-2.cppm
new file mode 100644
index 0000000000000..d415e495abb21
--- /dev/null
+++ b/clang/test/Modules/module-local-hidden-friend-2.cppm
@@ -0,0 +1,43 @@
+// RUN: rm -rf %t
+// RUN: split-file %s %t
+// RUN: cd %t
+//
+// RUN: %clang_cc1 -std=c++20 %t/a.cppm -emit-module-interface -o %t/a.pcm
+// RUN: %clang_cc1 -std=c++20 %t/b.cppm -emit-module-interface -o %t/b.pcm \
+// RUN:     -fmodule-file=a=%t/a.pcm
+// RUN: %clang_cc1 -std=c++20 %t/use.cc -fmodule-file=a=%t/a.pcm -fmodule-file=b=%t/b.pcm \
+// RUN:     -fsyntax-only -verify
+//
+// RUN: %clang_cc1 -std=c++20 %t/a.cppm -emit-reduced-module-interface -o %t/a.pcm
+// RUN: %clang_cc1 -std=c++20 %t/b.cppm -emit-reduced-module-interface -o %t/b.pcm \
+// RUN:     -fmodule-file=a=%t/a.pcm
+// RUN: %clang_cc1 -std=c++20 %t/use.cc -fmodule-file=a=%t/a.pcm -fmodule-file=b=%t/b.pcm \
+// RUN:     -fsyntax-only -verify
+
+//--- a.cppm
+export module a;
+
+namespace n {
+}
+
+//--- b.cppm
+export module b;
+import a;
+
+namespace n {
+struct monostate {
+	friend bool operator==(monostate, monostate) = default;
+};
+
+export struct wrapper {
+	friend bool operator==(wrapper const &, wrapper const &) = default;
+
+	monostate m_value;
+};
+}
+
+//--- use.cc
+// expected-no-diagnostics
+import b;
+
+static_assert(n::wrapper() == n::wrapper());
diff --git a/clang/test/Preprocessor/builtin_aux_info.cpp b/clang/test/Preprocessor/builtin_aux_info.cpp
new file mode 100644
index 0000000000000..60c8c6c492479
--- /dev/null
+++ b/clang/test/Preprocessor/builtin_aux_info.cpp
@@ -0,0 +1,18 @@
+// RUN: %clang_cc1 -fopenmp -triple=spirv64 -fopenmp-is-target-device \
+// RUN: -aux-triple x86_64-linux-unknown -E %s | FileCheck -implicit-check-not=BAD %s
+
+// RUN: %clang_cc1 -fopenmp -triple=nvptx64 -fopenmp-is-target-device \
+// RUN: -aux-triple x86_64-linux-unknown -E %s | FileCheck -implicit-check-not=BAD %s
+
+// RUN: %clang_cc1 -fopenmp -triple=amdgcn-amd-amdhsa -fopenmp-is-target-device \
+// RUN: -aux-triple x86_64-linux-unknown -E %s | FileCheck -implicit-check-not=BAD %s
+
+// RUN: %clang_cc1 -fopenmp -triple=aarch64 -fopenmp-is-target-device \
+// RUN: -aux-triple x86_64-linux-unknown -E %s | FileCheck -implicit-check-not=BAD %s
+
+// CHECK: GOOD
+#if __has_builtin(__builtin_ia32_pause)
+  BAD
+#else
+  GOOD
+#endif
diff --git a/clang/test/Preprocessor/macro-reserved-attrs-cxx11.cpp b/clang/test/Preprocessor/macro-reserved-attrs-cxx11.cpp
new file mode 100644
index 0000000000000..ab48f1b46df98
--- /dev/null
+++ b/clang/test/Preprocessor/macro-reserved-attrs-cxx11.cpp
@@ -0,0 +1,100 @@
+// RUN: %clang_cc1 -triple x86_64-linux-gnu -std=c++11 -Wreserved-attribute-identifier -fsyntax-only -verify %s -DTEST1
+// RUN: %clang_cc1 -triple x86_64-linux-gnu -std=c++11 -Wreserved-attribute-identifier -fsyntax-only -verify %s -DTEST2
+// RUN: %clang_cc1 -triple x86_64-linux-gnu -std=c++11 -Wreserved-attribute-identifier -fsyntax-only -verify %s -DTEST3
+// RUN: %clang_cc1 -triple x86_64-linux-gnu -std=c++11 -Wreserved-attribute-identifier -fsyntax-only -verify %s -DTEST4
+
+#ifdef TEST1
+
+#define assume
+#undef assume
+
+#define noreturn // expected-warning {{noreturn is a reserved attribute identifier}}
+#undef noreturn  // expected-warning {{noreturn is a reserved attribute identifier}}
+
+#define carries_dependency // expected-warning {{carries_dependency is a reserved attribute identifier}}
+#undef carries_dependency  // expected-warning {{carries_dependency is a reserved attribute identifier}}
+
+#define deprecated // expected-warning {{deprecated is a reserved attribute identifier}}
+#undef deprecated  // expected-warning {{deprecated is a reserved attribute identifier}}
+
+#define fallthrough // expected-warning {{fallthrough is a reserved attribute identifier}}
+#undef fallthrough  // expected-warning {{fallthrough is a reserved attribute identifier}}
+
+#define likely // expected-warning {{likely is a reserved attribute identifier}}
+#undef likely  // expected-warning {{likely is a reserved attribute identifier}}
+
+#define no_unique_address // expected-warning {{no_unique_address is a reserved attribute identifier}}
+#undef no_unique_address  // expected-warning {{no_unique_address is a reserved attribute identifier}}
+
+#define unlikely // expected-warning {{unlikely is a reserved attribute identifier}}
+#undef unlikely  // expected-warning {{unlikely is a reserved attribute identifier}}
+
+#define maybe_unused // expected-warning {{maybe_unused is a reserved attribute identifier}}
+#undef maybe_unused  // expected-warning {{maybe_unused is a reserved attribute identifier}}
+
+#define nodiscard // expected-warning {{nodiscard is a reserved attribute identifier}}
+#undef nodiscard  // expected-warning {{nodiscard is a reserved attribute identifier}}
+
+#elif TEST2
+
+#define assume "test"
+#undef assume
+
+#define noreturn "test" // expected-warning {{noreturn is a reserved attribute identifier}}
+#undef noreturn         // expected-warning {{noreturn is a reserved attribute identifier}}
+
+#define carries_dependency "test" // expected-warning {{carries_dependency is a reserved attribute identifier}}
+#undef carries_dependency         // expected-warning {{carries_dependency is a reserved attribute identifier}}
+
+#define deprecated "test" // expected-warning {{deprecated is a reserved attribute identifier}}
+#undef deprecated         // expected-warning {{deprecated is a reserved attribute identifier}}
+
+#define fallthrough "test" // expected-warning {{fallthrough is a reserved attribute identifier}}
+#undef fallthrough         // expected-warning {{fallthrough is a reserved attribute identifier}}
+
+#define likely "test" // expected-warning {{likely is a reserved attribute identifier}}
+#undef likely         // expected-warning {{likely is a reserved attribute identifier}}
+
+#define no_unique_address "test" // expected-warning {{no_unique_address is a reserved attribute identifier}}
+#undef no_unique_address         // expected-warning {{no_unique_address is a reserved attribute identifier}}
+
+#define unlikely "test" // expected-warning {{unlikely is a reserved attribute identifier}}
+#undef unlikely         // expected-warning {{unlikely is a reserved attribute identifier}}
+
+#define maybe_unused "test" // expected-warning {{maybe_unused is a reserved attribute identifier}}
+#undef maybe_unused         // expected-warning {{maybe_unused is a reserved attribute identifier}}
+
+#define nodiscard "test" // expected-warning {{nodiscard is a reserved attribute identifier}}
+#undef nodiscard         // expected-warning {{nodiscard is a reserved attribute identifier}}
+
+#elif TEST3
+
+#define assume() "test"     // expected-warning {{assume is a reserved attribute identifier}}
+#define deprecated() "test" // expected-warning {{deprecated is a reserved attribute identifier}}
+#define nodiscard() "test"  // expected-warning {{nodiscard is a reserved attribute identifier}}
+#define noreturn() "test"
+#define carries_dependency() "test"
+#define fallthrough() "test"
+#define likely() "test"
+#define no_unique_address() "test"
+#define unlikely() "test"
+#define maybe_unused() "test"
+
+#elif TEST4
+
+#define assume()     // expected-warning {{assume is a reserved attribute identifier}}
+#define deprecated() // expected-warning {{deprecated is a reserved attribute identifier}}
+#define nodiscard()  // expected-warning {{nodiscard is a reserved attribute identifier}}
+#define noreturn()
+#define carries_dependency()
+#define fallthrough()
+#define likely()
+#define no_unique_address()
+#define unlikely()
+#define maybe_unused()
+
+#else
+
+#error Unknown test
+
+#endif
diff --git a/clang/test/SemaCXX/cxx2a-constexpr-dynalloc.cpp b/clang/test/SemaCXX/cxx2a-constexpr-dynalloc.cpp
index 6d9c0b607d8a6..ed8cbbbfe7067 100644
--- a/clang/test/SemaCXX/cxx2a-constexpr-dynalloc.cpp
+++ b/clang/test/SemaCXX/cxx2a-constexpr-dynalloc.cpp
@@ -12,10 +12,9 @@ static_assert(alloc_from_user_code()); // expected-error {{constant expression}}
 
 namespace std {
   using size_t = decltype(sizeof(0));
-  // FIXME: It would be preferable to point these notes at the location of the call to allocator<...>::[de]allocate instead
   template<typename T> struct allocator {
     constexpr T *allocate(size_t N) {
-      return (T*)NEW(sizeof(T) * N); // expected-note 3{{heap allocation}} expected-note {{not deallocated}}
+      return (T*)NEW(sizeof(T) * N);
     }
     constexpr void deallocate(void *p) {
       DELETE(p); // #dealloc expected-note 2{{'std::allocator<...>::deallocate' used to delete pointer to object allocated with 'new'}}
@@ -59,7 +58,7 @@ constexpr bool mismatched(int alloc_kind, int dealloc_kind) {
     p = new int[1]; // expected-note {{heap allocation}}
     break;
   case 2:
-    p = std::allocator<int>().allocate(1);
+    p = std::allocator<int>().allocate(1); // expected-note 2{{heap allocation}}
     break;
   }
   switch (dealloc_kind) {
@@ -81,8 +80,10 @@ static_assert(mismatched(2, 0)); // expected-error {{constant expression}} expec
 static_assert(mismatched(2, 1)); // expected-error {{constant expression}} expected-note {{in call}}
 static_assert(mismatched(2, 2));
 
-constexpr int *escape = std::allocator<int>().allocate(3); // expected-error {{constant expression}} expected-note {{pointer to subobject of heap-allocated}}
-constexpr int leak = (std::allocator<int>().allocate(3), 0); // expected-error {{constant expression}}
+constexpr int *escape = std::allocator<int>().allocate(3); // expected-error {{constant expression}} expected-note {{pointer to subobject of heap-allocated}} \
+                                                           // expected-note {{heap allocation performed here}}
+constexpr int leak = (std::allocator<int>().allocate(3), 0); // expected-error {{constant expression}} \
+                                                             // expected-note {{not deallocated}}
 constexpr int no_lifetime_start = (*std::allocator<int>().allocate(1) = 1); // expected-error {{constant expression}} expected-note {{assignment to object outside its lifetime}}
 constexpr int no_deallocate_nullptr = (std::allocator<int>().deallocate(nullptr), 1); // expected-error {{constant expression}} expected-note {{in call}}
 // expected-note@#dealloc {{'std::allocator<...>::deallocate' used to delete a null pointer}}
diff --git a/clang/test/SemaCXX/make_integer_seq.cpp b/clang/test/SemaCXX/make_integer_seq.cpp
index 8f72ce15eef47..71b7b8260d4ab 100644
--- a/clang/test/SemaCXX/make_integer_seq.cpp
+++ b/clang/test/SemaCXX/make_integer_seq.cpp
@@ -48,6 +48,5 @@ using illformed2 = ErrorSeq<int, -5>; // expected-note{{in instantiation}}
 template <typename T, T N> void f() {}
 __make_integer_seq<f, int, 0> x; // expected-error{{template template parameter must be a class template or type alias template}}
 
-__make_integer_seq<__make_integer_seq, int, 10> PR28494; // expected-error{{different template parameters}}
-// expected-note@make_integer_seq.cpp:* {{template parameter has a different kind}}
-// expected-note@make_integer_seq.cpp:* {{previous template template parameter is here}}
+__make_integer_seq<__make_integer_seq, int, 10> PR28494; // expected-note{{different template parameters}}
+// expected-error@make_integer_seq.cpp:* {{template argument for template template parameter must be a class template or type alias template}}
diff --git a/clang/test/SemaTemplate/cwg2398.cpp b/clang/test/SemaTemplate/cwg2398.cpp
index 6dc7af6ea1789..21a1b89ce79b4 100644
--- a/clang/test/SemaTemplate/cwg2398.cpp
+++ b/clang/test/SemaTemplate/cwg2398.cpp
@@ -106,12 +106,10 @@ namespace type_pack3 {
   template<class T3> struct B;
 
   template<template<class T4              > class TT1, class T5              > struct B<TT1<T5        >>;
-  // new-note@-1 {{template is declared here}}
-  template<template<class T6, class ...T7s> class TT2, class T8, class ...T9s> struct B<TT2<T8, T9s...>>;
-  // old-note@-1 {{template is declared here}}
+
+  template<template<class T6, class ...T7s> class TT2, class T8, class ...T9s> struct B<TT2<T8, T9s...>> {};
 
   template struct B<A<int>>;
-  // expected-error@-1 {{explicit instantiation of undefined template}}
 } // namespace type_pack3
 
 namespace gcc_issue {
@@ -158,16 +156,14 @@ namespace ttp_defaults {
 namespace ttp_only {
   template <template <class...    > class TT1> struct A      { static constexpr int V = 0; };
   template <template <class       > class TT2> struct A<TT2> { static constexpr int V = 1; };
-  // new-note@-1 {{partial specialization matches}}
   template <template <class, class> class TT3> struct A<TT3> { static constexpr int V = 2; };
-  // new-note@-1 {{partial specialization matches}}
 
   template <class ...          > struct B;
   template <class              > struct C;
   template <class, class       > struct D;
   template <class, class, class> struct E;
 
-  static_assert(A<B>::V == 0); // new-error {{ambiguous partial specializations}}
+  static_assert(A<B>::V == 0);
   static_assert(A<C>::V == 1);
   static_assert(A<D>::V == 2);
   static_assert(A<E>::V == 0);
@@ -364,6 +360,152 @@ namespace classes {
   } // namespace defaulted
 } // namespace classes
 
+namespace packs {
+  namespace t1 {
+    // FIXME: This should be rejected
+    template<template<int, int...> class> struct A {};
+    // old-note@-1 {{previous non-type template parameter with type 'int' is here}}
+
+    template<char> struct B;
+    // old-note@-1 {{template non-type parameter has a different type 'char' in template argument}}
+
+    template struct A<B>;
+    // old-error@-1 {{has different template parameters}}
+  } // namespace t1
+  namespace t2 {
+    template<template<char, int...> class> struct A {};
+    // old-note@-1 {{previous non-type template parameter with type 'char' is here}}
+
+    template<int> struct B;
+    // old-note@-1 {{template non-type parameter has a different type 'int' in template argument}}
+
+    template struct A<B>;
+    // old-error@-1 {{has different template parameters}}
+  } // namespace t2
+  namespace t3 {
+    // FIXME: This should be rejected
+    template<template<int...> class> struct A {};
+    // old-note@-1 {{previous non-type template parameter with type 'int' is here}}
+
+    template<char> struct B;
+    // old-note@-1 {{template non-type parameter has a different type 'char' in template argument}}
+
+    template struct A<B>;
+    // old-error@-1 {{has different template parameters}}
+  } // namespace t3
+  namespace t4 {
+    template<template<char...> class> struct A {};
+    // old-note@-1 {{previous non-type template parameter with type 'char' is here}}
+
+    template<int> struct B;
+    // old-note@-1 {{template non-type parameter has a different type 'int' in template argument}}
+
+    template struct A<B>;
+    // old-error@-1 {{has different template parameters}}
+  } // namespace t4
+} // namespace packs
+
+namespace fun_tmpl_call {
+  namespace match_func {
+    template <template <class> class TT> void f(TT<int>) {};
+    // old-note@-1 {{has different template parameters}}
+    template <class...> struct A {};
+    void test() { f(A<int>()); }
+    // old-error@-1 {{no matching function for call to 'f'}}
+  } // namespace match_func
+  namespace order_func_nonpack {
+    template <template <class> class TT> void f(TT<int>) {}
+    template <template <class...> class TT> void f(TT<int>) = delete;
+
+    template <class> struct A {};
+    void test() { f(A<int>()); }
+  } // namespace order_func_nonpack
+  namespace order_func_pack {
+    template <template <class> class TT> void f(TT<int>) = delete;
+    template <template <class...> class TT> void f(TT<int>) {}
+
+    template <class...> struct A {};
+    void test() { f(A<int>()); }
+  } // namespace order_func_pack
+  namespace match_method {
+    struct A {
+      template <template <class> class TT> void f(TT<int>) {};
+      // old-note@-1 {{has different template parameters}}
+    };
+    template <class...> struct B {};
+    void test() { A().f(B<int>()); }
+    // old-error@-1 {{no matching member function for call to 'f'}}
+  } // namespace t2
+  namespace order_method_nonpack {
+    struct A {
+      template <template <class> class TT> void f(TT<int>) {}
+      template <template <class...> class TT> void f(TT<int>) = delete;
+    };
+    template <class> struct B {};
+    void test() { A().f(B<int>()); }
+  } // namespace order_method_nonpack
+  namespace order_method_pack {
+    struct A {
+      template <template <class> class TT> void f(TT<int>) = delete;
+      template <template <class...> class TT> void f(TT<int>) {}
+    };
+    template <class...> struct B {};
+    void test() { A().f(B<int>()); }
+  } // namespace order_method_pack
+  namespace match_conv {
+    struct A {
+      template <template <class> class TT> operator TT<int>() { return {}; }
+      // old-note@-1 {{different template parameters}}
+    };
+    template <class...> struct B {};
+    // old-note@-1 2{{not viable}}
+    void test() { B<int> b = A(); }
+    // old-error@-1 {{no viable conversion from 'A' to 'B<int>'}}
+  } // namespace match_conv
+  namespace order_conv_nonpack {
+    struct A {
+      template <template <class> class TT> operator TT<int>() { return {}; };
+      template <template <class...> class TT> operator TT<int>() = delete;
+    };
+    template <class> struct B {};
+    void test() { B<int> b = A(); }
+  } // namespace order_conv_nonpack
+  namespace order_conv_pack {
+    struct A {
+      template <template <class> class TT> operator TT<int>() = delete;
+      template <template <class...> class TT> operator TT<int>() { return {}; }
+    };
+    template <class...> struct B {};
+    void test() { B<int> b = A(); }
+  } // namespace order_conv_pack
+  namespace regression1 {
+    template <template <class, class...> class TT, class T1, class... T2s>
+    void f(TT<T1, T2s...>) {}
+    template <class> struct A {};
+    void test() { f(A<int>()); }
+  } // namespace regression1
+} // namespace fun_tmpl_packs
+
+namespace partial {
+  namespace t1 {
+    template<template<class... T1s> class TT1> struct A {};
+
+    template<template<class T2> class TT2> struct A<TT2>;
+
+    template<class... T3s> struct B;
+    template struct A<B>;
+  } // namespace t1
+  namespace t2 {
+    template<template<class... T1s> class TT1> struct A;
+
+    template<template<class T2> class TT2> struct A<TT2> {};
+
+    template<class T3> struct B;
+    template struct A<B>;
+  } // namespace t1
+
+} // namespace partial
+
 namespace regression1 {
   template <typename T, typename Y> struct map {};
   template <typename T> class foo {};
@@ -380,6 +522,93 @@ namespace regression1 {
   }
 } // namespace regression1
 
+namespace constraints {
+  template <class T> concept C1 = true;
+  // new-note@-1 {{similar constraint expression here}}
+  // new-note@-2 2{{similar constraint expressions not considered equivalent}}
+
+  template <class T> concept C2 = C1<T> && true;
+  // new-note@-1 2{{similar constraint expression here}}
+
+  template <class T> concept D1 = true;
+  // new-note@-1 {{similar constraint expressions not considered equivalent}}
+
+  namespace t1 {
+    template<template<C1, class... T1s> class TT1> // new-note {{TT1' declared here}}
+    struct A {};
+    template<D1, class T2> struct B {}; // new-note {{'B' declared here}}
+    template struct A<B>;
+    // new-error@-1 {{'B' is more constrained than template template parameter 'TT1'}}
+  } // namespace t1
+  namespace t2 {
+    template<template<C2, class... T1s> class TT1> struct A {};
+    template<C1, class T2> struct B {};
+    template struct A<B>;
+  } // namespace t2
+  namespace t3 {
+    template<template<C1, class... T1s> class TT1> // new-note {{'TT1' declared here}}
+    struct A {};
+    template<C2, class T2> struct B {}; // new-note {{'B' declared here}}
+    template struct A<B>;
+    // new-error@-1 {{'B' is more constrained than template template parameter 'TT1'}}
+  } // namespace t2
+  namespace t4 {
+    // FIXME: This should be accepted.
+    template<template<C1... T1s> class TT1> // new-note {{'TT1' declared here}}
+    struct A {};
+    template<C1 T2> struct B {}; // new-note {{'B' declared here}}
+    template struct A<B>;
+    // new-error@-1 {{'B' is more constrained than template template parameter 'TT1'}}
+  } // namespace t4
+  namespace t5 {
+    // FIXME: This should be accepted
+    template<template<C2... T1s> class TT1> // new-note {{'TT1' declared here}}
+    struct A {};
+    template<C1 T2> struct B {}; // new-note {{'B' declared here}}
+    template struct A<B>;
+    // new-error@-1 {{'B' is more constrained than template template parameter 'TT1'}}
+  } // namespace t5
+  namespace t6 {
+    template<template<C1... T1s> class TT1> // new-note {{'TT1' declared here}}
+    struct A {};
+    template<C2 T2> struct B {}; // new-note {{'B' declared here}}
+    template struct A<B>;
+    // new-error@-1 {{'B' is more constrained than template template parameter 'TT1'}}
+  } // namespace t6
+  namespace t7 {
+    template<template<class... T1s> class TT1>
+    struct A {};
+    template<C1 T2> struct B {};
+    template struct A<B>;
+  } // namespace t7
+  namespace t8 {
+    template<template<C1... T1s> class TT1>
+    struct A {};
+    template<class T2> struct B {};
+    template struct A<B>;
+  } // namespace t8
+  namespace t9 {
+    template<template<C1... T1s> class TT1> // new-note {{'TT1' declared here}}
+    struct A {};
+    template<D1 T2> struct B {}; // new-note {{'B' declared here}}
+    template struct A<B>;
+    // new-error@-1 {{'B' is more constrained than template template parameter 'TT1'}}
+  } // namespace t9
+  namespace t10 {
+    template<template<class...> requires C1<int> class TT1> // new-note {{'TT1' declared here}}
+    struct A {};
+
+    template<class> requires C2<int> struct B {}; // new-note {{'B' declared here}}
+    template struct A<B>;
+    // new-error@-1 {{'B' is more constrained than template template parameter 'TT1'}}
+  } // namespace t10
+  namespace t11 {
+    template<template<class...> requires C2<int> class TT1> struct A {};
+    template<class> requires C1<int> struct B {};
+    template struct A<B>;
+  } // namespace t11
+} // namespace constraints
+
 namespace regression2 {
   template <class> struct D {};
 
@@ -389,3 +618,33 @@ namespace regression2 {
   template <typename, int> struct Matrix;
   template struct D<Matrix<double, 3>>;
 } // namespace regression2
+
+namespace nttp_auto {
+  namespace t1 {
+    template <template <auto... Va> class TT> struct A {};
+    template <int Vi, short Vs> struct B;
+    template struct A<B>;
+  } // namespace t1
+  namespace t2 {
+    // FIXME: Shouldn't accept parameters after a parameter pack.
+    template<template<auto... Va1, auto Va2> class> struct A {};
+    // new-error@-1 {{deduced non-type template argument does not have the same type as the corresponding template parameter ('auto' vs 'int')}}
+    // expected-note@-2 {{previous template template parameter is here}}
+    template<int... Vi> struct B;
+    // new-note@-1 {{template parameter is declared here}}
+    // old-note@-2 {{too few template parameters}}
+    template struct A<B>;
+    // new-note@-1 {{different template parameters}}
+    // old-error@-2 {{different template parameters}}
+  } // namespace t2
+  namespace t3 {
+    // FIXME: Shouldn't accept parameters after a parameter pack.
+    template<template<auto... Va1, auto... Va2> class> struct A {};
+    // new-error@-1 {{deduced non-type template argument does not have the same type as the corresponding template parameter ('auto' vs 'int')}}
+    // new-note@-2 {{previous template template parameter is here}}
+    template<int... Vi> struct B;
+    // new-note@-1 {{template parameter is declared here}}
+    template struct A<B>;
+    // new-note@-1 {{different template parameters}}
+  } // namespace t3
+} // namespace nttp_auto
diff --git a/clang/test/SemaTemplate/temp_arg_nontype.cpp b/clang/test/SemaTemplate/temp_arg_nontype.cpp
index f360aa14950ed..8b270b22a12b4 100644
--- a/clang/test/SemaTemplate/temp_arg_nontype.cpp
+++ b/clang/test/SemaTemplate/temp_arg_nontype.cpp
@@ -387,12 +387,11 @@ namespace PR17696 {
 
 namespace partial_order_different_types {
   template<int, int, typename T, typename, T> struct A;
-  template<int N, typename T, typename U, T V> struct A<0, N, T, U, V>; // expected-note {{matches}}
-  // FIXME: It appears that this partial specialization should be ill-formed as
-  // it is not more specialized than the primary template. V is not deducible
-  // because it does not have the same type as the corresponding parameter.
-  template<int N, typename T, typename U, U V> struct A<0, N, T, U, V> {}; // expected-note {{matches}}
-  A<0, 0, int, int, 0> a; // expected-error {{ambiguous}}
+  // expected-note@-1 {{template is declared here}}
+  template<int N, typename T, typename U, T V> struct A<0, N, T, U, V> {};
+  template<int N, typename T, typename U, U V> struct A<0, N, T, U, V>;
+  // expected-error@-1 {{class template partial specialization is not more specialized than the primary template}}
+  A<0, 0, int, int, 0> a;
 }
 
 namespace partial_order_references {
@@ -458,13 +457,24 @@ namespace dependent_nested_partial_specialization {
 namespace nondependent_default_arg_ordering {
   int n, m;
   template<typename A, A B = &n> struct X {};
+
   template<typename A> void f(X<A>);
+  // expected-note@-1 {{candidate function}}
   template<typename A> void f(X<A, &m>);
+  // expected-note@-1 {{candidate function}}
   template<typename A, A B> void f(X<A, B>);
+  // expected-note@-1 2{{candidate function}}
   template<template<typename U, U> class T, typename A, int *B> void f(T<A, B>);
+  // expected-note@-1 2{{candidate function}}
+
+  // FIXME: When partial ordering, we get an inconsistent deduction between
+  // `A` (type-parameter-0-0) and `int *`, when deducing the first parameter.
+  // The deduction mechanism needs to be extended to be able to correctly
+  // handle these cases where the argument's template parameters appear in
+  // the result.
   void g() {
-    X<int *, &n> x; f(x);
-    X<int *, &m> y; f(y);
+    X<int *, &n> x; f(x); // expected-error {{call to 'f' is ambiguous}}
+    X<int *, &m> y; f(y); // expected-error {{call to 'f' is ambiguous}}
   }
 }
 
diff --git a/clang/test/SemaTemplate/temp_arg_template.cpp b/clang/test/SemaTemplate/temp_arg_template.cpp
index a7236669276aa..9908af5e78669 100644
--- a/clang/test/SemaTemplate/temp_arg_template.cpp
+++ b/clang/test/SemaTemplate/temp_arg_template.cpp
@@ -1,33 +1,40 @@
 // RUN: %clang_cc1 -fsyntax-only -verify=expected,precxx17 %std_cxx98-14 %s
 // RUN: %clang_cc1 -fsyntax-only -verify=expected,cxx17 -std=c++17 %s
 
-template<template<typename T> class X> struct A; // expected-note 2{{previous template template parameter is here}}
+template<template<typename T> class X> struct A; // #A
+// expected-note@-1 2{{previous template template parameter is here}}
 
 template<template<typename T, int I> class X> struct B; // expected-note{{previous template template parameter is here}}
 
-template<template<int I> class X> struct C;  // expected-note {{previous non-type template parameter with type 'int' is here}}
+template<template<int I> class X> struct C;
+// precxx17-error@-1 {{deduced non-type template argument does not have the same type as the corresponding template parameter ('int' vs 'const int &')}}
+// cxx17-error@-2 {{conversion from 'int' to 'const int &' in converted constant expression would bind reference to a temporary}}
+// expected-note@-3 {{previous template template parameter is here}}
 
-template<class> struct X; // expected-note{{too few template parameters in template template argument}}
-template<int N> struct Y; // expected-note{{template parameter has a different kind in template argument}}
+template<class> struct X; // expected-note {{template is declared here}}
+template<int N> struct Y; // expected-note {{template parameter is declared here}}
 template<long N> struct Ylong;
-template<const int &N> struct Yref; // expected-note{{template non-type parameter has a different type 'const int &' in template argument}}
+template<const int &N> struct Yref; // precxx17-note {{template parameter is declared here}}
 
 namespace N {
   template<class> struct Z;
 }
-template<class, class> struct TooMany; // expected-note{{too many template parameters in template template argument}}
+template<class, class> struct TooMany; // expected-note{{template is declared here}}
 
 
 A<X> *a1;
 A<N::Z> *a2;
 A< ::N::Z> *a3;
 
-A<Y> *a4; // expected-error{{template template argument has different template parameters than its corresponding template template parameter}}
-A<TooMany> *a5; // expected-error{{template template argument has different template parameters than its corresponding template template parameter}}
-B<X> *a6; // expected-error{{template template argument has different template parameters than its corresponding template template parameter}}
+A<Y> *a4; // expected-error@#A {{template argument for non-type template parameter must be an expression}}
+          // expected-note@-1 {{different template parameters}}
+A<TooMany> *a5; // expected-error {{too few template arguments for class template 'TooMany'}}
+                // expected-note@-1 {{different template parameters}}
+B<X> *a6; // expected-error {{too many template arguments for class template 'X'}}
+          // expected-note@-1 {{different template parameters}}
 C<Y> *a7;
 C<Ylong> *a8;
-C<Yref> *a9; // expected-error{{template template argument has different template parameters than its corresponding template template parameter}}
+C<Yref> *a9; // expected-note {{different template parameters}}
 
 template<typename T> void f(int);
 
@@ -103,9 +110,9 @@ void foo() {
 
 namespace CheckDependentNonTypeParamTypes {
   template<template<typename T, typename U, T v> class X> struct A {
+    // expected-note@-1 {{previous template template parameter is here}}
     void f() {
-      X<int, void*, 3> x; // precxx17-error {{does not refer to any declaration}} \
-                             cxx17-error {{value of type 'int' is not implicitly convertible to 'void *'}}
+      X<int, void*, 3> x;
     }
     void g() {
       X<int, long, 3> x;
@@ -124,15 +131,16 @@ namespace CheckDependentNonTypeParamTypes {
     }
   };
 
-  template<typename T, typename U, U v> struct B { // precxx17-note {{parameter}}
+  template<typename T, typename U, U v> struct B {
+    // expected-error@-1 {{conflicting deduction 'U' against 'T' for parameter}}
     static const U value = v;
   };
 
   // FIXME: This should probably be rejected, but the rules are at best unclear.
-  A<B> ab;
+  A<B> ab; // expected-note {{different template parameters}}
 
   void use() {
-    ab.f(); // expected-note {{instantiation of}}
+    ab.f();
     ab.g();
     ab.h();
   }
diff --git a/clang/test/SemaTemplate/temp_arg_template_p0522.cpp b/clang/test/SemaTemplate/temp_arg_template_p0522.cpp
index 6f6568b9ab776..dcfc7b5b27288 100644
--- a/clang/test/SemaTemplate/temp_arg_template_p0522.cpp
+++ b/clang/test/SemaTemplate/temp_arg_template_p0522.cpp
@@ -1,14 +1,16 @@
 // RUN: %clang_cc1 -fsyntax-only -verify -std=c++20 %s
 
-// expected-note@temp_arg_template_p0522.cpp:* 1+{{}}
+// expected-note@temp_arg_template_p0522.cpp:* 1+{{template is declared here}}
+// expected-note@temp_arg_template_p0522.cpp:* 1+{{template parameter is declared here}}
+// expected-note@temp_arg_template_p0522.cpp:* 1+{{previous template template parameter is here}}
 
-template<template<int> typename> struct Ti;
-template<template<int...> typename> struct TPi;
+template<template<int> typename> struct Ti; // #Ti
+template<template<int...> typename> struct TPi; // #TPi
 template<template<int, int...> typename> struct TiPi;
 template<template<int..., int...> typename> struct TPiPi; // FIXME: Why is this not ill-formed?
 
-template<typename T, template<T> typename> struct tT0;
-template<template<typename T, T> typename> struct Tt0;
+template<typename T, template<T> typename> struct tT0; // #tT0
+template<template<typename T, T> typename> struct Tt0; // #Tt0
 
 template<template<typename> typename> struct Tt;
 template<template<typename, typename...> typename> struct TtPt;
@@ -19,8 +21,8 @@ template<int, int> struct ii;
 template<int...> struct Pi;
 template<int, int, int...> struct iiPi;
 
-template<int, typename = int> struct iDt;
-template<int, typename> struct it;
+template<int, typename = int> struct iDt; // #iDt
+template<int, typename> struct it; // #it
 
 template<typename T, T v> struct t0;
 
@@ -31,10 +33,14 @@ namespace IntParam {
         Ti<iDi>,
         Ti<Pi>,
         Ti<iDt>>;
-  using err1 = Ti<ii>; // expected-error {{different template parameters}}
-  using err2 = Ti<iiPi>; // expected-error {{different template parameters}}
-  using err3 = Ti<t0>; // expected-error {{different template parameters}}
-  using err4 = Ti<it>; // expected-error {{different template parameters}}
+  using err1 = Ti<ii>; // expected-error {{too few template arguments for class template 'ii'}}
+                       // expected-note@-1 {{different template parameters}}
+  using err2 = Ti<iiPi>; // expected-error {{too few template arguments for class template 'iiPi'}}
+                         // expected-note@-1 {{different template parameters}}
+  using err3 = Ti<t0>; // expected-error@#Ti {{template argument for template type parameter must be a type}}
+                       // expected-note@-1 {{different template parameters}}
+  using err4 = Ti<it>; // expected-error {{too few template arguments for class template 'it'}}
+                       // expected-note@-1 {{different template parameters}}
 }
 
 // These are accepted by the backwards-compatibility "parameter pack in
@@ -42,9 +48,12 @@ namespace IntParam {
 namespace IntPackParam {
   using ok = TPi<Pi>;
   using ok_compat = Pt<TPi<i>, TPi<iDi>, TPi<ii>, TPi<iiPi>>;
-  using err1 = TPi<t0>; // expected-error {{different template parameters}}
-  using err2 = TPi<iDt>; // expected-error {{different template parameters}}
-  using err3 = TPi<it>; // expected-error {{different template parameters}}
+  using err1 = TPi<t0>; // expected-error@#TPi {{template argument for template type parameter must be a type}}
+                        // expected-note@-1 {{different template parameters}}
+  using err2 = TPi<iDt>; // expected-error@#TPi {{template argument for template type parameter must be a type}}
+                         // expected-note@-1 {{different template parameters}}
+  using err3 = TPi<it>; // expected-error@#TPi {{template argument for template type parameter must be a type}}
+                        // expected-note@-1 {{different template parameters}}
 }
 
 namespace IntAndPackParam {
@@ -55,42 +64,50 @@ namespace IntAndPackParam {
 
 namespace DependentType {
   using ok = Pt<tT0<int, i>, tT0<int, iDi>>;
-  using err1 = tT0<int, ii>; // expected-error {{different template parameters}}
+  using err1 = tT0<int, ii>; // expected-error {{too few template arguments for class template 'ii'}}
+                             // expected-note@-1 {{different template parameters}}
   using err2 = tT0<short, i>; // FIXME: should this be OK?
   using err2a = tT0<long long, i>; // FIXME: should this be OK (if long long is larger than int)?
-  using err2b = tT0<void*, i>; // expected-error {{different template parameters}}
-  using err3 = tT0<short, t0>; // expected-error {{different template parameters}}
+  using err2b = tT0<void*, i>; // expected-error@#tT0 {{value of type 'void *' is not implicitly convertible to 'int'}}
+                               // expected-note@-1 {{different template parameters}}
+  using err3 = tT0<short, t0>; // expected-error@#tT0 {{template argument for template type parameter must be a type}}
+                               // expected-note@-1 {{different template parameters}}
 
   using ok2 = Tt0<t0>;
-  using err4 = Tt0<it>; // expected-error {{different template parameters}}
+  using err4 = Tt0<it>; // expected-error@#Tt0 {{template argument for non-type template parameter must be an expression}}
+                        // expected-note@-1 {{different template parameters}}
 }
 
 namespace Auto {
-  template<template<int> typename T> struct TInt {};
-  template<template<int*> typename T> struct TIntPtr {};
+  template<template<int> typename T> struct TInt {}; // #TInt
+  template<template<int*> typename T> struct TIntPtr {}; // #TIntPtr
   template<template<auto> typename T> struct TAuto {};
   template<template<auto*> typename T> struct TAutoPtr {};
   template<template<decltype(auto)> typename T> struct TDecltypeAuto {};
   template<auto> struct Auto;
-  template<auto*> struct AutoPtr;
+  template<auto*> struct AutoPtr; // #AutoPtr
   template<decltype(auto)> struct DecltypeAuto;
   template<int> struct Int;
   template<int*> struct IntPtr;
 
   TInt<Auto> ia;
-  TInt<AutoPtr> iap; // FIXME: ill-formed (?)
+  TInt<AutoPtr> iap; // expected-error@#TInt {{non-type template parameter '' with type 'auto *' has incompatible initializer of type 'int'}}
+                     // expected-note@-1 {{different template parameters}}
   TInt<DecltypeAuto> ida;
   TInt<Int> ii;
-  TInt<IntPtr> iip; // expected-error {{different template parameters}}
+  TInt<IntPtr> iip; // expected-error@#TInt {{conversion from 'int' to 'int *' is not allowed in a converted constant expression}}
+                    // expected-note@-1 {{different template parameters}}
 
   TIntPtr<Auto> ipa;
   TIntPtr<AutoPtr> ipap;
   TIntPtr<DecltypeAuto> ipda;
-  TIntPtr<Int> ipi; // expected-error {{different template parameters}}
+  TIntPtr<Int> ipi; // expected-error@#TIntPtr {{value of type 'int *' is not implicitly convertible to 'int'}}
+                    // expected-note@-1 {{different template parameters}}
   TIntPtr<IntPtr> ipip;
 
   TAuto<Auto> aa;
-  TAuto<AutoPtr> aap; // FIXME: ill-formed (?)
+  TAuto<AutoPtr> aap; // expected-error@#AutoPtr {{could not match 'auto *' against 'auto'}}
+                      // expected-note@-1 {{different template parameters}}
   TAuto<Int> ai; // FIXME: ill-formed (?)
   TAuto<IntPtr> aip; // FIXME: ill-formed (?)
 
@@ -111,7 +128,8 @@ namespace Auto {
   // parameters (such as 'user-defined-type &') that are not valid 'auto'
   // parameters.
   TDecltypeAuto<Auto> daa;
-  TDecltypeAuto<AutoPtr> daap; // FIXME: should probably be ill-formed
+  TDecltypeAuto<AutoPtr> daap; // expected-error@#AutoPtr {{could not match 'auto *' against 'decltype(auto)'}}
+                               // expected-note@-1 {{different template parameters}}
 
   int n;
   template<auto A, decltype(A) B = &n> struct SubstFailure;
@@ -128,7 +146,7 @@ namespace GH62529 {
 } // namespace GH62529
 
 namespace GH101394 {
-  struct X {};
+  struct X {}; // #X
   struct Y {
     constexpr Y(const X &) {}
   };
@@ -139,8 +157,12 @@ namespace GH101394 {
     template struct A<B>;
   } // namespace t1
   namespace t2 {
-    template<template<Y> class> struct A {};
-    template<X> struct B;
-    template struct A<B>; // expected-error {{different template parameters}}
+    template<template<Y> class> struct A {}; // #A
+    template<X> struct B; // #B
+    template struct A<B>;
+    // expected-error@#A {{no viable conversion from 'const Y' to 'X'}}
+    // expected-note@-2  {{different template parameters}}
+    // expected-note@#X 2{{not viable}}
+    // expected-note@#B  {{passing argument to parameter here}}
   } // namespace t2
 } // namespace GH101394
diff --git a/clang/test/Templight/templight-empty-entries-fix.cpp b/clang/test/Templight/templight-empty-entries-fix.cpp
index e17be9012e59c..d13b748068efe 100644
--- a/clang/test/Templight/templight-empty-entries-fix.cpp
+++ b/clang/test/Templight/templight-empty-entries-fix.cpp
@@ -314,6 +314,18 @@ void foo() {
 // CHECK: {{^orig:[ ]+'.*templight-empty-entries-fix.cpp:289:35'$}}
 // CHECK: {{^poi:[ ]+''$}}
 // CHECK-LABEL: {{^---$}}
+// CHECK: {{^name:[ ]+unnamed template template parameter 0 of d$}}
+// CHECK: {{^kind:[ ]+PartialOrderingTTP$}}
+// CHECK: {{^event:[ ]+Begin$}}
+// CHECK: {{^orig:[ ]+'.*templight-empty-entries-fix.cpp:289:35'$}}
+// CHECK: {{^poi:[ ]+'.*templight-empty-entries-fix.cpp:295:5'$}}
+// CHECK-LABEL: {{^---$}}
+// CHECK: {{^name:[ ]+unnamed template template parameter 0 of d$}}
+// CHECK: {{^kind:[ ]+PartialOrderingTTP$}}
+// CHECK: {{^event:[ ]+End$}}
+// CHECK: {{^orig:[ ]+'.*templight-empty-entries-fix.cpp:289:35'$}}
+// CHECK: {{^poi:[ ]+'.*templight-empty-entries-fix.cpp:295:5'$}}
+// CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+d$}}
 // CHECK: {{^kind:[ ]+ExplicitTemplateArgumentSubstitution$}}
 // CHECK: {{^event:[ ]+End$}}
diff --git a/clang/test/Templight/templight-prior-template-arg.cpp b/clang/test/Templight/templight-prior-template-arg.cpp
index e9b1dd47bb603..14bcb6a4d48f6 100644
--- a/clang/test/Templight/templight-prior-template-arg.cpp
+++ b/clang/test/Templight/templight-prior-template-arg.cpp
@@ -10,63 +10,76 @@ class B {};
 // CHECK: {{^kind:[ ]+PriorTemplateArgumentSubstitution$}}
 // CHECK: {{^event:[ ]+Begin$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:5:40'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:1'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:1'$}}
 // CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+'B::Outer'$}}
 // CHECK: {{^kind:[ ]+PriorTemplateArgumentSubstitution$}}
 // CHECK: {{^event:[ ]+End$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:5:40'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:1'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:1'$}}
+//
+// CHECK-LABEL: {{^---$}}
+// CHECK: {{^name:[ ]+'B::Outer'$}}
+// CHECK: {{^kind:[ ]+PartialOrderingTTP$}}
+// CHECK: {{^event:[ ]+Begin$}}
+// CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:5:40'}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:3'$}}
+// CHECK-LABEL: {{^---$}}
+// CHECK: {{^name:[ ]+'B::Outer'$}}
+// CHECK: {{^kind:[ ]+PartialOrderingTTP$}}
+// CHECK: {{^event:[ ]+End$}}
+// CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:5:40'}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:3'$}}
 //
 // CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+'B<A>'$}}
 // CHECK: {{^kind:[ ]+TemplateInstantiation$}}
 // CHECK: {{^event:[ ]+Begin$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:6:7'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:6'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:6'$}}
 // CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+'B<A>'$}}
 // CHECK: {{^kind:[ ]+TemplateInstantiation$}}
 // CHECK: {{^event:[ ]+End$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:6:7'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:6'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:6'$}}
 //
 // CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+'B<A>'$}}
 // CHECK: {{^kind:[ ]+TemplateInstantiation$}}
 // CHECK: {{^event:[ ]+Begin$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:6:7'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:6'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:6'$}}
 // CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+'B<A>'$}}
 // CHECK: {{^kind:[ ]+TemplateInstantiation$}}
 // CHECK: {{^event:[ ]+End$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:6:7'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:6'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:6'$}}
 //
 // CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+'B<A>'$}}
 // CHECK: {{^kind:[ ]+Memoization$}}
 // CHECK: {{^event:[ ]+Begin$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:6:7'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:6'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:6'$}}
 // CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+'B<A>'$}}
 // CHECK: {{^kind:[ ]+Memoization$}}
 // CHECK: {{^event:[ ]+End$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:6:7'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:6'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:6'$}}
 //
 // CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+'B<A>'$}}
 // CHECK: {{^kind:[ ]+Memoization$}}
 // CHECK: {{^event:[ ]+Begin$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:6:7'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:6'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:6'$}}
 // CHECK-LABEL: {{^---$}}
 // CHECK: {{^name:[ ]+'B<A>'$}}
 // CHECK: {{^kind:[ ]+Memoization$}}
 // CHECK: {{^event:[ ]+End$}}
 // CHECK: {{^orig:[ ]+'.*templight-prior-template-arg.cpp:6:7'}}
-// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:72:6'$}}
+// CHECK: {{^poi:[ ]+'.*templight-prior-template-arg.cpp:85:6'$}}
 B<A> b;
diff --git a/clang/test/lit.cfg.py b/clang/test/lit.cfg.py
index 7e7934d5fe0f5..e4b39c4f71597 100644
--- a/clang/test/lit.cfg.py
+++ b/clang/test/lit.cfg.py
@@ -33,6 +33,7 @@
     ".m",
     ".mm",
     ".cu",
+    ".cuh",
     ".hip",
     ".hlsl",
     ".ll",
diff --git a/clang/unittests/Format/FormatTest.cpp b/clang/unittests/Format/FormatTest.cpp
index 61aa140dfdc9c..265461561d201 100644
--- a/clang/unittests/Format/FormatTest.cpp
+++ b/clang/unittests/Format/FormatTest.cpp
@@ -2084,7 +2084,6 @@ TEST_F(FormatTest, SeparatePointerReferenceAlignment) {
                Style);
 
   Style.PointerAlignment = FormatStyle::PAS_Left;
-  Style.ReferenceAlignment = FormatStyle::RAS_Pointer;
   verifyFormat("int* f1(int* a, int& b, int&& c);", Style);
   verifyFormat("int& f2(int&& c, int* a, int& b);", Style);
   verifyFormat("int&& f3(int& b, int&& c, int* a);", Style);
@@ -2118,6 +2117,7 @@ TEST_F(FormatTest, SeparatePointerReferenceAlignment) {
       "function<int(int&)> res1 = [](int& a) { return 0000000000000; },\n"
       "                    res2 = [](int& a) { return 0000000000000; };",
       Style);
+  verifyFormat("[](decltype(foo)& Bar) {}", Style);
 
   Style.AlignConsecutiveDeclarations.Enabled = true;
   Style.AlignConsecutiveDeclarations.AlignFunctionPointers = true;
diff --git a/clang/utils/TableGen/ClangAttrEmitter.cpp b/clang/utils/TableGen/ClangAttrEmitter.cpp
index cc6a8eaebd44e..de12c7062666a 100644
--- a/clang/utils/TableGen/ClangAttrEmitter.cpp
+++ b/clang/utils/TableGen/ClangAttrEmitter.cpp
@@ -3743,6 +3743,36 @@ void EmitClangRegularKeywordAttributeInfo(const RecordKeeper &Records,
   OS << "#undef KEYWORD_ATTRIBUTE\n";
 }
 
+void EmitCXX11AttributeInfo(const RecordKeeper &Records, raw_ostream &OS) {
+  OS << "#if defined(CXX11_ATTR_ARGS_INFO)\n";
+  for (auto *R : Records.getAllDerivedDefinitions("Attr")) {
+    for (const FlattenedSpelling &SI : GetFlattenedSpellings(*R)) {
+      if (SI.variety() == "CXX11" && SI.nameSpace().empty()) {
+        unsigned RequiredArgs = 0;
+        unsigned OptionalArgs = 0;
+        for (const auto *Arg : R->getValueAsListOfDefs("Args")) {
+          if (Arg->getValueAsBit("Fake"))
+            continue;
+
+          if (Arg->getValueAsBit("Optional"))
+            OptionalArgs++;
+          else
+            RequiredArgs++;
+        }
+        OS << ".Case(\"" << SI.getSpellingRecord().getValueAsString("Name")
+           << "\","
+           << "AttributeCommonInfo::AttrArgsInfo::"
+           << (RequiredArgs   ? "Required"
+               : OptionalArgs ? "Optional"
+                              : "None")
+           << ")"
+           << "\n";
+      }
+    }
+  }
+  OS << "#endif // CXX11_ATTR_ARGS_INFO\n";
+}
+
 // Emits the list of spellings for attributes.
 void EmitClangAttrHasAttrImpl(const RecordKeeper &Records, raw_ostream &OS) {
   emitSourceFileHeader("Code to implement the __has_attribute logic", OS,
diff --git a/clang/utils/TableGen/NeonEmitter.cpp b/clang/utils/TableGen/NeonEmitter.cpp
index d7d649dd2456d..49633bb7b7f58 100644
--- a/clang/utils/TableGen/NeonEmitter.cpp
+++ b/clang/utils/TableGen/NeonEmitter.cpp
@@ -1592,24 +1592,10 @@ Intrinsic::DagEmitter::emitDagCast(const DagInit *DI, bool IsBitCast) {
   }
 
   std::string S;
-  if (IsBitCast) {
-    // Emit a reinterpret cast. The second operand must be an lvalue, so create
-    // a temporary.
-    std::string N = "reint";
-    unsigned I = 0;
-    while (Intr.Variables.find(N) != Intr.Variables.end())
-      N = "reint" + utostr(++I);
-    Intr.Variables[N] = Variable(R.first, N + Intr.VariablePostfix);
-
-    Intr.OS << R.first.str() << " " << Intr.Variables[N].getName() << " = "
-            << R.second << ";";
-    Intr.emitNewLine();
-
-    S = "*(" + castToType.str() + " *) &" + Intr.Variables[N].getName() + "";
-  } else {
-    // Emit a normal (static) cast.
+  if (IsBitCast)
+    S = "__builtin_bit_cast(" + castToType.str() + ", " + R.second + ")";
+  else
     S = "(" + castToType.str() + ")(" + R.second + ")";
-  }
 
   return std::make_pair(castToType, S);
 }
diff --git a/clang/utils/TableGen/TableGen.cpp b/clang/utils/TableGen/TableGen.cpp
index 8b8eadbe7f7e5..569d7a6a3ac8b 100644
--- a/clang/utils/TableGen/TableGen.cpp
+++ b/clang/utils/TableGen/TableGen.cpp
@@ -69,6 +69,7 @@ enum ActionType {
   GenClangOpenCLBuiltins,
   GenClangOpenCLBuiltinHeader,
   GenClangOpenCLBuiltinTests,
+  GenCXX11AttributeInfo,
   GenArmNeon,
   GenArmFP16,
   GenArmBF16,
@@ -228,6 +229,8 @@ cl::opt<ActionType> Action(
                    "Generate OpenCL builtin header"),
         clEnumValN(GenClangOpenCLBuiltinTests, "gen-clang-opencl-builtin-tests",
                    "Generate OpenCL builtin declaration tests"),
+        clEnumValN(GenCXX11AttributeInfo, "gen-cxx11-attribute-info",
+                   "Generate CXX11 attributes info"),
         clEnumValN(GenArmNeon, "gen-arm-neon", "Generate arm_neon.h for clang"),
         clEnumValN(GenArmFP16, "gen-arm-fp16", "Generate arm_fp16.h for clang"),
         clEnumValN(GenArmBF16, "gen-arm-bf16", "Generate arm_bf16.h for clang"),
@@ -336,6 +339,9 @@ bool ClangTableGenMain(raw_ostream &OS, const RecordKeeper &Records) {
   case GenClangAttrSubjectMatchRulesParserStringSwitches:
     EmitClangAttrSubjectMatchRulesParserStringSwitches(Records, OS);
     break;
+  case GenCXX11AttributeInfo:
+    EmitCXX11AttributeInfo(Records, OS);
+    break;
   case GenClangAttrImpl:
     EmitClangAttrImpl(Records, OS);
     break;
diff --git a/clang/utils/TableGen/TableGenBackends.h b/clang/utils/TableGen/TableGenBackends.h
index 0448c94de08e3..03ed3dad93631 100644
--- a/clang/utils/TableGen/TableGenBackends.h
+++ b/clang/utils/TableGen/TableGenBackends.h
@@ -49,6 +49,8 @@ void EmitClangAttrParserStringSwitches(const llvm::RecordKeeper &Records,
                                        llvm::raw_ostream &OS);
 void EmitClangAttrSubjectMatchRulesParserStringSwitches(
     const llvm::RecordKeeper &Records, llvm::raw_ostream &OS);
+void EmitCXX11AttributeInfo(const llvm::RecordKeeper &Records,
+                            llvm::raw_ostream &OS);
 void EmitClangAttrClass(const llvm::RecordKeeper &Records,
                         llvm::raw_ostream &OS);
 void EmitClangAttrImpl(const llvm::RecordKeeper &Records,
diff --git a/clang/www/cxx_dr_status.html b/clang/www/cxx_dr_status.html
index 472f4fbd97537..69ddd5e58b921 100755
--- a/clang/www/cxx_dr_status.html
+++ b/clang/www/cxx_dr_status.html
@@ -17749,6 +17749,30 @@ <h2 id="cxxdr">C++ defect report implementation status</h2>
     <td>open</td>
     <td>Deduction in <I>type-constraint</I>s</td>
     <td align="center">Not resolved</td>
+  </tr>
+  <tr class="open" id="2983">
+    <td><a href="https://cplusplus.github.io/CWG/issues/2983.html">2983</a></td>
+    <td>open</td>
+    <td>Non-type template parameters are not variables</td>
+    <td align="center">Not resolved</td>
+  </tr>
+  <tr class="open" id="2984">
+    <td><a href="https://cplusplus.github.io/CWG/issues/2984.html">2984</a></td>
+    <td>open</td>
+    <td>Value-dependent structured bindings</td>
+    <td align="center">Not resolved</td>
+  </tr>
+  <tr class="open" id="2985">
+    <td><a href="https://cplusplus.github.io/CWG/issues/2985.html">2985</a></td>
+    <td>open</td>
+    <td>Unclear rules for reference initialization with conversion</td>
+    <td align="center">Not resolved</td>
+  </tr>
+  <tr class="open" id="2986">
+    <td><a href="https://cplusplus.github.io/CWG/issues/2986.html">2986</a></td>
+    <td>open</td>
+    <td>Creating objects within a mutable member of a const object</td>
+    <td align="center">Not resolved</td>
   </tr></table>
 
 </div>
diff --git a/compiler-rt/lib/asan/tests/asan_test.cpp b/compiler-rt/lib/asan/tests/asan_test.cpp
index 09d71569f89bb..56377bde1c8de 100644
--- a/compiler-rt/lib/asan/tests/asan_test.cpp
+++ b/compiler-rt/lib/asan/tests/asan_test.cpp
@@ -1166,13 +1166,9 @@ TEST(AddressSanitizer, DISABLED_StressStackReuseAndExceptionsTest) {
 
 #if !defined(_WIN32)
 TEST(AddressSanitizer, MlockTest) {
-#if !defined(__ANDROID__) || __ANDROID_API__ >= 17
   EXPECT_EQ(0, mlockall(MCL_CURRENT));
-#endif
-  EXPECT_EQ(0, mlock((void*)0x12345, 0x5678));
-#if !defined(__ANDROID__) || __ANDROID_API__ >= 17
+  EXPECT_EQ(0, mlock((void *)0x12345, 0x5678));
   EXPECT_EQ(0, munlockall());
-#endif
   EXPECT_EQ(0, munlock((void*)0x987, 0x654));
 }
 #endif
diff --git a/compiler-rt/lib/lsan/lsan_common_linux.cpp b/compiler-rt/lib/lsan/lsan_common_linux.cpp
index 7a0b2f038be0d..6fd54bbea3c72 100644
--- a/compiler-rt/lib/lsan/lsan_common_linux.cpp
+++ b/compiler-rt/lib/lsan/lsan_common_linux.cpp
@@ -93,11 +93,6 @@ static int ProcessGlobalRegionsCallback(struct dl_phdr_info *info, size_t size,
   return 0;
 }
 
-#if SANITIZER_ANDROID && __ANDROID_API__ < 21
-extern "C" __attribute__((weak)) int dl_iterate_phdr(
-    int (*)(struct dl_phdr_info *, size_t, void *), void *);
-#endif
-
 // Scans global variables for heap pointers.
 void ProcessGlobalRegions(Frontier *frontier) {
   if (!flags()->use_globals) return;
diff --git a/compiler-rt/lib/rtsan/rtsan_interceptors_posix.cpp b/compiler-rt/lib/rtsan/rtsan_interceptors_posix.cpp
index a01354781272d..1b499f2194f21 100644
--- a/compiler-rt/lib/rtsan/rtsan_interceptors_posix.cpp
+++ b/compiler-rt/lib/rtsan/rtsan_interceptors_posix.cpp
@@ -46,6 +46,9 @@ void OSSpinLockLock(volatile OSSpinLock *__lock);
 #include <pthread.h>
 #include <stdarg.h>
 #include <stdio.h>
+#if SANITIZER_LINUX
+#include <sys/inotify.h>
+#endif
 #include <sys/select.h>
 #include <sys/socket.h>
 #include <sys/stat.h>
@@ -520,6 +523,50 @@ INTERCEPTOR(ssize_t, pwrite64, int fd, const void *buf, size_t count,
 #define RTSAN_MAYBE_INTERCEPT_PWRITE64
 #endif // SANITIZER_INTERCEPT_PWRITE64
 
+#if SANITIZER_INTERCEPT_PREADV
+INTERCEPTOR(ssize_t, preadv, int fd, const struct iovec *iov, int count,
+            off_t offset) {
+  __rtsan_notify_intercepted_call("preadv");
+  return REAL(preadv)(fd, iov, count, offset);
+}
+#define RTSAN_MAYBE_INTERCEPT_PREADV INTERCEPT_FUNCTION(preadv)
+#else
+#define RTSAN_MAYBE_INTERCEPT_PREADV
+#endif
+
+#if SANITIZER_INTERCEPT_PREADV64
+INTERCEPTOR(ssize_t, preadv64, int fd, const struct iovec *iov, int count,
+            off_t offset) {
+  __rtsan_notify_intercepted_call("preadv64");
+  return REAL(preadv)(fd, iov, count, offset);
+}
+#define RTSAN_MAYBE_INTERCEPT_PREADV64 INTERCEPT_FUNCTION(preadv64)
+#else
+#define RTSAN_MAYBE_INTERCEPT_PREADV64
+#endif
+
+#if SANITIZER_INTERCEPT_PWRITEV
+INTERCEPTOR(ssize_t, pwritev, int fd, const struct iovec *iov, int count,
+            off_t offset) {
+  __rtsan_notify_intercepted_call("pwritev");
+  return REAL(pwritev)(fd, iov, count, offset);
+}
+#define RTSAN_MAYBE_INTERCEPT_PWRITEV INTERCEPT_FUNCTION(pwritev)
+#else
+#define RTSAN_MAYBE_INTERCEPT_PWRITEV
+#endif
+
+#if SANITIZER_INTERCEPT_PWRITEV64
+INTERCEPTOR(ssize_t, pwritev64, int fd, const struct iovec *iov, int count,
+            off_t offset) {
+  __rtsan_notify_intercepted_call("pwritev64");
+  return REAL(pwritev64)(fd, iov, count, offset);
+}
+#define RTSAN_MAYBE_INTERCEPT_PWRITEV64 INTERCEPT_FUNCTION(pwritev64)
+#else
+#define RTSAN_MAYBE_INTERCEPT_PWRITEV64
+#endif
+
 INTERCEPTOR(ssize_t, writev, int fd, const struct iovec *iov, int iovcnt) {
   __rtsan_notify_intercepted_call("writev");
   return REAL(writev)(fd, iov, iovcnt);
@@ -1130,6 +1177,39 @@ INTERCEPTOR(int, kevent64, int kq, const struct kevent64_s *changelist,
 #define RTSAN_MAYBE_INTERCEPT_KEVENT64
 #endif // SANITIZER_INTERCEPT_KQUEUE
 
+#if SANITIZER_LINUX
+INTERCEPTOR(int, inotify_init) {
+  __rtsan_notify_intercepted_call("inotify_init");
+  return REAL(inotify_init)();
+}
+
+INTERCEPTOR(int, inotify_init1, int flags) {
+  __rtsan_notify_intercepted_call("inotify_init1");
+  return REAL(inotify_init1)(flags);
+}
+
+INTERCEPTOR(int, inotify_add_watch, int fd, const char *path, uint32_t mask) {
+  __rtsan_notify_intercepted_call("inotify_add_watch");
+  return REAL(inotify_add_watch)(fd, path, mask);
+}
+
+INTERCEPTOR(int, inotify_rm_watch, int fd, int wd) {
+  __rtsan_notify_intercepted_call("inotify_rm_watch");
+  return REAL(inotify_rm_watch)(fd, wd);
+}
+#define RTSAN_MAYBE_INTERCEPT_INOTIFY_INIT INTERCEPT_FUNCTION(inotify_init)
+#define RTSAN_MAYBE_INTERCEPT_INOTIFY_INIT1 INTERCEPT_FUNCTION(inotify_init1)
+#define RTSAN_MAYBE_INTERCEPT_INOTIFY_ADD_WATCH                                \
+  INTERCEPT_FUNCTION(inotify_add_watch)
+#define RTSAN_MAYBE_INTERCEPT_INOTIFY_RM_WATCH                                 \
+  INTERCEPT_FUNCTION(inotify_rm_watch)
+#else
+#define RTSAN_MAYBE_INTERCEPT_INOTIFY_INIT
+#define RTSAN_MAYBE_INTERCEPT_INOTIFY_INIT1
+#define RTSAN_MAYBE_INTERCEPT_INOTIFY_ADD_WATCH
+#define RTSAN_MAYBE_INTERCEPT_INOTIFY_RM_WATCH
+#endif
+
 INTERCEPTOR(int, pipe, int pipefd[2]) {
   __rtsan_notify_intercepted_call("pipe");
   return REAL(pipe)(pipefd);
@@ -1265,9 +1345,13 @@ void __rtsan::InitializeInterceptors() {
   INTERCEPT_FUNCTION(write);
   INTERCEPT_FUNCTION(pread);
   RTSAN_MAYBE_INTERCEPT_PREAD64;
+  RTSAN_MAYBE_INTERCEPT_PREADV;
+  RTSAN_MAYBE_INTERCEPT_PREADV64;
   INTERCEPT_FUNCTION(readv);
   INTERCEPT_FUNCTION(pwrite);
   RTSAN_MAYBE_INTERCEPT_PWRITE64;
+  RTSAN_MAYBE_INTERCEPT_PWRITEV;
+  RTSAN_MAYBE_INTERCEPT_PWRITEV64;
   INTERCEPT_FUNCTION(writev);
   INTERCEPT_FUNCTION(fwrite);
   INTERCEPT_FUNCTION(fclose);
@@ -1367,6 +1451,11 @@ void __rtsan::InitializeInterceptors() {
   RTSAN_MAYBE_INTERCEPT_KEVENT;
   RTSAN_MAYBE_INTERCEPT_KEVENT64;
 
+  RTSAN_MAYBE_INTERCEPT_INOTIFY_INIT;
+  RTSAN_MAYBE_INTERCEPT_INOTIFY_INIT1;
+  RTSAN_MAYBE_INTERCEPT_INOTIFY_ADD_WATCH;
+  RTSAN_MAYBE_INTERCEPT_INOTIFY_RM_WATCH;
+
   INTERCEPT_FUNCTION(pipe);
   INTERCEPT_FUNCTION(mkfifo);
 
diff --git a/compiler-rt/lib/rtsan/tests/rtsan_test_interceptors_posix.cpp b/compiler-rt/lib/rtsan/tests/rtsan_test_interceptors_posix.cpp
index 981766c85f965..a4f2b92b7c494 100644
--- a/compiler-rt/lib/rtsan/tests/rtsan_test_interceptors_posix.cpp
+++ b/compiler-rt/lib/rtsan/tests/rtsan_test_interceptors_posix.cpp
@@ -43,6 +43,9 @@
 #include <poll.h>
 #include <pthread.h>
 #include <stdio.h>
+#if SANITIZER_LINUX
+#include <sys/inotify.h>
+#endif
 #include <sys/ioctl.h>
 #include <sys/mman.h>
 #include <sys/socket.h>
@@ -879,6 +882,30 @@ TEST_F(RtsanOpenedFileTest, PreadDiesWhenRealtime) {
   ExpectNonRealtimeSurvival(Func);
 }
 
+#if SANITIZER_INTERCEPT_PREADV
+TEST_F(RtsanOpenedFileTest, PreadvDiesWhenRealtime) {
+  auto Func = [this]() {
+    char c{};
+    iovec iov{&c, sizeof(c)};
+    preadv(GetOpenFd(), &iov, 1, 0);
+  };
+  ExpectRealtimeDeath(Func, MAYBE_APPEND_64("preadv"));
+  ExpectNonRealtimeSurvival(Func);
+}
+#endif
+
+#if SANITIZER_INTERCEPT_PWRITEV
+TEST_F(RtsanOpenedFileTest, PwritevDiesWhenRealtime) {
+  auto Func = [this]() {
+    char c{};
+    iovec iov{&c, sizeof(c)};
+    pwritev(GetOpenFd(), &iov, 1, 0);
+  };
+  ExpectRealtimeDeath(Func, MAYBE_APPEND_64("pwritev"));
+  ExpectNonRealtimeSurvival(Func);
+}
+#endif
+
 TEST_F(RtsanOpenedFileTest, ReadvDiesWhenRealtime) {
   auto Func = [this]() {
     char c{};
@@ -1481,6 +1508,38 @@ TEST_F(KqueueTest, Kevent64DiesWhenRealtime) {
 }
 #endif // SANITIZER_INTERCEPT_KQUEUE
 
+#if SANITIZER_LINUX
+TEST(TestRtsanInterceptors, InotifyInitDiesWhenRealtime) {
+  auto Func = []() { inotify_init(); };
+  ExpectRealtimeDeath(Func, "inotify_init");
+  ExpectNonRealtimeSurvival(Func);
+}
+
+TEST(TestRtsanInterceptors, InotifyInit1DiesWhenRealtime) {
+  auto Func = []() { inotify_init1(0); };
+  ExpectRealtimeDeath(Func, "inotify_init1");
+  ExpectNonRealtimeSurvival(Func);
+}
+
+TEST(TestRtsanInterceptors, InotifyAddWatchDiesWhenRealtime) {
+  int fd = inotify_init();
+  EXPECT_THAT(fd, Ne(-1));
+  auto Func = [fd]() {
+    inotify_add_watch(fd, "/tmp/rtsan_inotify", IN_CREATE);
+  };
+  ExpectRealtimeDeath(Func, "inotify_add_watch");
+  ExpectNonRealtimeSurvival(Func);
+}
+
+TEST(TestRtsanInterceptors, InotifyRmWatchDiesWhenRealtime) {
+  int fd = inotify_init();
+  EXPECT_THAT(fd, Ne(-1));
+  auto Func = [fd]() { inotify_rm_watch(fd, -1); };
+  ExpectRealtimeDeath(Func, "inotify_rm_watch");
+  ExpectNonRealtimeSurvival(Func);
+}
+#endif
+
 TEST(TestRtsanInterceptors, MkfifoDiesWhenRealtime) {
   auto Func = []() { mkfifo("/tmp/rtsan_test_fifo", 0); };
   ExpectRealtimeDeath(Func, "mkfifo");
diff --git a/compiler-rt/lib/sanitizer_common/sanitizer_common.h b/compiler-rt/lib/sanitizer_common/sanitizer_common.h
index 0b5e68c5fd797..d9e7ded593feb 100644
--- a/compiler-rt/lib/sanitizer_common/sanitizer_common.h
+++ b/compiler-rt/lib/sanitizer_common/sanitizer_common.h
@@ -927,7 +927,6 @@ typedef void (*RangeIteratorCallback)(uptr begin, uptr end, void *arg);
 
 enum AndroidApiLevel {
   ANDROID_NOT_ANDROID = 0,
-  ANDROID_KITKAT = 19,
   ANDROID_LOLLIPOP_MR1 = 22,
   ANDROID_POST_LOLLIPOP = 23
 };
diff --git a/compiler-rt/lib/sanitizer_common/sanitizer_getauxval.h b/compiler-rt/lib/sanitizer_common/sanitizer_getauxval.h
index 38439e44f611e..910590b627c27 100644
--- a/compiler-rt/lib/sanitizer_common/sanitizer_getauxval.h
+++ b/compiler-rt/lib/sanitizer_common/sanitizer_getauxval.h
@@ -21,22 +21,21 @@
 
 #if SANITIZER_LINUX || SANITIZER_FUCHSIA
 
-# if (__GLIBC_PREREQ(2, 16) || (SANITIZER_ANDROID && __ANDROID_API__ >= 21) || \
-      SANITIZER_FUCHSIA) &&                                                    \
-     !SANITIZER_GO
-#  define SANITIZER_USE_GETAUXVAL 1
-# else
-#  define SANITIZER_USE_GETAUXVAL 0
-# endif
-
-# if SANITIZER_USE_GETAUXVAL
-#  include <sys/auxv.h>
-# else
+#  if (__GLIBC_PREREQ(2, 16) || SANITIZER_ANDROID || SANITIZER_FUCHSIA) && \
+      !SANITIZER_GO
+#    define SANITIZER_USE_GETAUXVAL 1
+#  else
+#    define SANITIZER_USE_GETAUXVAL 0
+#  endif
+
+#  if SANITIZER_USE_GETAUXVAL
+#    include <sys/auxv.h>
+#  else
 // The weak getauxval definition allows to check for the function at runtime.
 // This is useful for Android, when compiled at a lower API level yet running
 // on a more recent platform that offers the function.
 extern "C" SANITIZER_WEAK_ATTRIBUTE unsigned long getauxval(unsigned long type);
-# endif
+#  endif
 
 #elif SANITIZER_NETBSD
 
diff --git a/compiler-rt/lib/sanitizer_common/sanitizer_linux.cpp b/compiler-rt/lib/sanitizer_common/sanitizer_linux.cpp
index 04b095dca904a..997b95f343d41 100644
--- a/compiler-rt/lib/sanitizer_common/sanitizer_linux.cpp
+++ b/compiler-rt/lib/sanitizer_common/sanitizer_linux.cpp
@@ -1849,11 +1849,6 @@ int internal_uname(struct utsname *buf) {
 #  endif
 
 #  if SANITIZER_ANDROID
-#    if __ANDROID_API__ < 21
-extern "C" __attribute__((weak)) int dl_iterate_phdr(
-    int (*)(struct dl_phdr_info *, size_t, void *), void *);
-#    endif
-
 static int dl_iterate_phdr_test_cb(struct dl_phdr_info *info, size_t size,
                                    void *data) {
   // Any name starting with "lib" indicates a bug in L where library base names
@@ -1869,9 +1864,7 @@ static int dl_iterate_phdr_test_cb(struct dl_phdr_info *info, size_t size,
 static atomic_uint32_t android_api_level;
 
 static AndroidApiLevel AndroidDetectApiLevelStatic() {
-#    if __ANDROID_API__ <= 19
-  return ANDROID_KITKAT;
-#    elif __ANDROID_API__ <= 22
+#    if __ANDROID_API__ <= 22
   return ANDROID_LOLLIPOP_MR1;
 #    else
   return ANDROID_POST_LOLLIPOP;
@@ -1879,8 +1872,6 @@ static AndroidApiLevel AndroidDetectApiLevelStatic() {
 }
 
 static AndroidApiLevel AndroidDetectApiLevel() {
-  if (!&dl_iterate_phdr)
-    return ANDROID_KITKAT;  // K or lower
   bool base_name_seen = false;
   dl_iterate_phdr(dl_iterate_phdr_test_cb, &base_name_seen);
   if (base_name_seen)
diff --git a/compiler-rt/lib/sanitizer_common/sanitizer_linux_libcdep.cpp b/compiler-rt/lib/sanitizer_common/sanitizer_linux_libcdep.cpp
index 62b1dc43dce13..e11eff13cd326 100644
--- a/compiler-rt/lib/sanitizer_common/sanitizer_linux_libcdep.cpp
+++ b/compiler-rt/lib/sanitizer_common/sanitizer_linux_libcdep.cpp
@@ -773,11 +773,6 @@ static int dl_iterate_phdr_cb(dl_phdr_info *info, size_t size, void *arg) {
   return 0;
 }
 
-#  if SANITIZER_ANDROID && __ANDROID_API__ < 21
-extern "C" __attribute__((weak)) int dl_iterate_phdr(
-    int (*)(struct dl_phdr_info *, size_t, void *), void *);
-#  endif
-
 static bool requiresProcmaps() {
 #  if SANITIZER_ANDROID && __ANDROID_API__ <= 22
   // Fall back to /proc/maps if dl_iterate_phdr is unavailable or broken.
@@ -940,11 +935,8 @@ extern "C" SANITIZER_WEAK_ATTRIBUTE int __android_log_write(int prio,
 void WriteOneLineToSyslog(const char *s) {
   if (&async_safe_write_log) {
     async_safe_write_log(SANITIZER_ANDROID_LOG_INFO, GetProcessName(), s);
-  } else if (AndroidGetApiLevel() > ANDROID_KITKAT) {
-    syslog(LOG_INFO, "%s", s);
   } else {
-    CHECK(&__android_log_write);
-    __android_log_write(SANITIZER_ANDROID_LOG_INFO, nullptr, s);
+    syslog(LOG_INFO, "%s", s);
   }
 }
 
diff --git a/compiler-rt/lib/sanitizer_common/sanitizer_mac.cpp b/compiler-rt/lib/sanitizer_common/sanitizer_mac.cpp
index c8a0afccb254e..d15f30c61b586 100644
--- a/compiler-rt/lib/sanitizer_common/sanitizer_mac.cpp
+++ b/compiler-rt/lib/sanitizer_common/sanitizer_mac.cpp
@@ -45,7 +45,7 @@ extern char **environ;
 #    define SANITIZER_OS_TRACE 0
 #  endif
 
-// import new crash reporting api
+// Integrate with CrashReporter library if available
 #  if defined(__has_include) && __has_include(<CrashReporterClient.h>)
 #    define HAVE_CRASHREPORTERCLIENT_H 1
 #    include <CrashReporterClient.h>
@@ -796,8 +796,13 @@ static char crashreporter_info_buff[__sanitizer::kErrorMessageBufferSize] = {};
 static Mutex crashreporter_info_mutex;
 
 extern "C" {
-// Integrate with crash reporter libraries.
+
 #if HAVE_CRASHREPORTERCLIENT_H
+// Available in CRASHREPORTER_ANNOTATIONS_VERSION 5+
+#    ifdef CRASHREPORTER_ANNOTATIONS_INITIALIZER
+CRASHREPORTER_ANNOTATIONS_INITIALIZER()
+#    else
+// Support for older CrashRerporter annotiations
 CRASH_REPORTER_CLIENT_HIDDEN
 struct crashreporter_annotations_t gCRAnnotations
     __attribute__((section("__DATA," CRASHREPORTER_ANNOTATIONS_SECTION))) = {
@@ -808,17 +813,17 @@ struct crashreporter_annotations_t gCRAnnotations
         0,
         0,
         0,
-#if CRASHREPORTER_ANNOTATIONS_VERSION > 4
+#      if CRASHREPORTER_ANNOTATIONS_VERSION > 4
         0,
-#endif
+#      endif
 };
-
-#else
-// fall back to old crashreporter api
+#    endif
+#  else
+// Revert to previous crash reporter API if client header is not available
 static const char *__crashreporter_info__ __attribute__((__used__)) =
     &crashreporter_info_buff[0];
 asm(".desc ___crashreporter_info__, 0x10");
-#endif
+#endif  // HAVE_CRASHREPORTERCLIENT_H
 
 }  // extern "C"
 
diff --git a/compiler-rt/lib/sanitizer_common/sanitizer_platform_limits_posix.cpp b/compiler-rt/lib/sanitizer_common/sanitizer_platform_limits_posix.cpp
index ddd67cb43524d..a5311d266b0c4 100644
--- a/compiler-rt/lib/sanitizer_common/sanitizer_platform_limits_posix.cpp
+++ b/compiler-rt/lib/sanitizer_common/sanitizer_platform_limits_posix.cpp
@@ -1093,7 +1093,7 @@ CHECK_SIZE_AND_OFFSET(cmsghdr, cmsg_len);
 CHECK_SIZE_AND_OFFSET(cmsghdr, cmsg_level);
 CHECK_SIZE_AND_OFFSET(cmsghdr, cmsg_type);
 
-#if SANITIZER_LINUX && (__ANDROID_API__ >= 21 || __GLIBC_PREREQ (2, 14))
+#  if SANITIZER_LINUX && (SANITIZER_ANDROID || __GLIBC_PREREQ(2, 14))
 CHECK_TYPE_SIZE(mmsghdr);
 CHECK_SIZE_AND_OFFSET(mmsghdr, msg_hdr);
 CHECK_SIZE_AND_OFFSET(mmsghdr, msg_len);
diff --git a/compiler-rt/test/profile/Linux/Inputs/instrprof-value-merge.c b/compiler-rt/test/profile/Linux/Inputs/instrprof-value-merge.c
index 6f5b4790cca56..3efbcf26e81ff 100644
--- a/compiler-rt/test/profile/Linux/Inputs/instrprof-value-merge.c
+++ b/compiler-rt/test/profile/Linux/Inputs/instrprof-value-merge.c
@@ -54,6 +54,8 @@ int main(int argc, char *argv[]) {
 // CHECK-NEXT: Total functions: 3
 // CHECK-NEXT: Maximum function count: 327
 // CHECK-NEXT: Maximum internal block count: 297
+// CHECK-NEXT: Total number of blocks: 8
+// CHECK-NEXT: Total count: 805
 // CHECK-NEXT: Statistics for indirect call sites profile:
 // CHECK-NEXT:   Total number of sites: 3
 // CHECK-NEXT:   Total number of sites with values: 3
diff --git a/compiler-rt/test/profile/Linux/binary-id.c b/compiler-rt/test/profile/Linux/binary-id.c
index 9bff9004e97a7..93a6852e626eb 100644
--- a/compiler-rt/test/profile/Linux/binary-id.c
+++ b/compiler-rt/test/profile/Linux/binary-id.c
@@ -62,6 +62,8 @@ int main() {
 // BINARY-ID-RAW-PROF-NEXT: Total functions: 3
 // BINARY-ID-RAW-PROF-NEXT: Maximum function count: 1
 // BINARY-ID-RAW-PROF-NEXT: Maximum internal block count: 0
+// BINARY-ID-RAW-PROF-NEXT: Total number of blocks: 3
+// BINARY-ID-RAW-PROF-NEXT: Total count: 3
 // BINARY-ID-RAW-PROF-NEXT: Binary IDs:
 // BINARY-ID-RAW-PROF-NEXT: {{[0-9a-f]+}}
 
@@ -69,6 +71,8 @@ int main() {
 // BINARY-ID-MERGE-PROF-NEXT: Total functions: 3
 // BINARY-ID-MERGE-PROF-NEXT: Maximum function count: 3
 // BINARY-ID-MERGE-PROF-NEXT: Maximum internal block count: 0
+// BINARY-ID-MERGE-PROF-NEXT: Total number of blocks: 3
+// BINARY-ID-MERGE-PROF-NEXT: Total count: 9
 // BINARY-ID-MERGE-PROF-NEXT: Binary IDs:
 // BINARY-ID-MERGE-PROF-NEXT: {{[0-9a-f]+}}
 
@@ -76,6 +80,8 @@ int main() {
 // BINARY-ID-INDEXED-PROF-NEXT: Total functions: 3
 // BINARY-ID-INDEXED-PROF-NEXT: Maximum function count: 3
 // BINARY-ID-INDEXED-PROF-NEXT: Maximum internal block count: 0
+// BINARY-ID-INDEXED-PROF-NEXT: Total number of blocks: 3
+// BINARY-ID-INDEXED-PROF-NEXT: Total count: 9
 // BINARY-ID-INDEXED-PROF-NEXT: Binary IDs:
 // BINARY-ID-INDEXED-PROF-NEXT: {{[0-9a-f]+}}
 
@@ -83,6 +89,8 @@ int main() {
 // BINARY-ID-SHARE-RAW-PROF-NEXT: Total functions: 3
 // BINARY-ID-SHARE-RAW-PROF-NEXT: Maximum function count: 1
 // BINARY-ID-SHARE-RAW-PROF-NEXT: Maximum internal block count: 0
+// BINARY-ID-SHARE-RAW-PROF-NEXT: Total number of blocks: 3
+// BINARY-ID-SHARE-RAW-PROF-NEXT: Total count: 3
 // BINARY-ID-SHARE-RAW-PROF-NEXT: Binary IDs:
 // BINARY-ID-SHARE-RAW-PROF-NEXT: {{[0-9a-f]+}}
 // BINARY-ID-SHARE-RAW-PROF-NEXT: {{[0-9a-f]+}}
@@ -92,6 +100,8 @@ int main() {
 // BINARY-ID-SHARE-INDEXED-PROF-NEXT: Total functions: 3
 // BINARY-ID-SHARE-INDEXED-PROF-NEXT: Maximum function count: 1
 // BINARY-ID-SHARE-INDEXED-PROF-NEXT: Maximum internal block count: 0
+// BINARY-ID-SHARE-INDEXED-PROF-NEXT: Total number of blocks: 3
+// BINARY-ID-SHARE-INDEXED-PROF-NEXT: Total count: 3
 // BINARY-ID-SHARE-INDEXED-PROF-NEXT: Binary IDs:
 // BINARY-ID-SHARE-INDEXED-PROF-NEXT: {{[0-9a-f]+}}
 // BINARY-ID-SHARE-INDEXED-PROF-NEXT: {{[0-9a-f]+}}
diff --git a/compiler-rt/test/profile/Linux/profile-version.c b/compiler-rt/test/profile/Linux/profile-version.c
index bffc602387ad5..7e20d1bee6cc5 100644
--- a/compiler-rt/test/profile/Linux/profile-version.c
+++ b/compiler-rt/test/profile/Linux/profile-version.c
@@ -25,10 +25,14 @@ int main() {
 // RAW-PROF-NEXT: Total functions: 3
 // RAW-PROF-NEXT: Maximum function count: 1
 // RAW-PROF-NEXT: Maximum internal block count: 0
+// RAW-PROF-NEXT: Total number of blocks: 3
+// RAW-PROF-NEXT: Total count: 3
 // RAW-PROF-NEXT: Profile version: {{[0-9]+}}
 
 // INDEXED-PROF: Instrumentation level: Front-end
 // INDEXED-PROF-NEXT: Total functions: 3
 // INDEXED-PROF-NEXT: Maximum function count: 3
 // INDEXED-PROF-NEXT: Maximum internal block count: 0
+// INDEXED-PROF-NEXT: Total number of blocks: 3
+// INDEXED-PROF-NEXT: Total count: 9
 // INDEXED-PROF-NEXT: Profile version: {{[0-9]+}}
diff --git a/compiler-rt/test/tysan/ignorelist.c b/compiler-rt/test/tysan/ignorelist.c
new file mode 100644
index 0000000000000..6f6039c47318c
--- /dev/null
+++ b/compiler-rt/test/tysan/ignorelist.c
@@ -0,0 +1,35 @@
+// RUN: %clang_tysan %s -o %t && %run %t 10 >%t.out.0 2>&1
+// RUN: FileCheck --check-prefixes=CHECK,CHECK-BOTH %s < %t.out.0
+// RUN: echo "fun:typeViolationignored" > %tmp
+// RUN: echo "src:*ignorelist.h" > %tmp
+// RUN: %clang_tysan -fsanitize-ignorelist=%tmp %s -o %t && %run %t 10 >%t.out 2>&1
+// RUN: FileCheck --check-prefixes=CHECK-IGNORELIST,CHECK-BOTH %s < %t.out
+
+#include "ignorelist.h"
+#include <stdio.h>
+#include <stdlib.h>
+
+void typeViolationIgnored(float *fPtr) { printf("As int: %d\n", *(int *)fPtr); }
+
+void typeViolation(int *fPtr) { printf("As float: %f\n", *(float *)fPtr); }
+
+int main() {
+  float *f = (float *)malloc(sizeof(float));
+  *f = 413.0f;
+  typeViolationIgnored(f);
+  // CHECK: TypeSanitizer: type-aliasing-violation on address 0x{{.*}}
+  // CHECK-NEXT: READ of size 4 at 0x{{.*}} with type int accesses an existing object of type float
+  // CHECK-IGNORELIST-NOT: TypeSanitizer: type-aliasing-violation on address 0x{{.*}}
+
+  int *i = (int *)malloc(sizeof(int));
+  *i = 612;
+  typeViolation(i);
+  // CHECK-BOTH: TypeSanitizer: type-aliasing-violation on address 0x{{.*}}
+  // CHECK-BOTH: READ of size 4 at 0x{{.*}} with type float accesses an existing object of type int
+
+  typeViolationMultiFile((void *)i);
+  // CHECK: TypeSanitizer: type-aliasing-violation on address 0x{{.*}}
+  // CHECK-IGNORELIST-NOT: TypeSanitizer: type-aliasing-violation on address 0x{{.*}}
+
+  return 0;
+}
diff --git a/compiler-rt/test/tysan/ignorelist.h b/compiler-rt/test/tysan/ignorelist.h
new file mode 100644
index 0000000000000..bc0cde711fd76
--- /dev/null
+++ b/compiler-rt/test/tysan/ignorelist.h
@@ -0,0 +1,7 @@
+// Used as part of the ignorelist.c test
+// tests if the "src:" ignorelist directive works
+#include <stdio.h>
+
+void typeViolationMultiFile(void *value) {
+  printf("As long: %ld\n", *(long *)value);
+}
diff --git a/compiler-rt/test/tysan/preprocessor.c b/compiler-rt/test/tysan/preprocessor.c
new file mode 100644
index 0000000000000..b8b87f4e7ef29
--- /dev/null
+++ b/compiler-rt/test/tysan/preprocessor.c
@@ -0,0 +1,30 @@
+// RUN: %clang_tysan -O0 %s -o %t && %run %t >%t.out 2>&1 && FileCheck --check-prefix=CHECK-SANITIZED %s < %t.out
+// RUN: %clang_tysan -DNOSAN -O0 %s -o %t && %run %t >%t.out 2>&1 && FileCheck --check-prefix=CHECK-NOSAN %s < %t.out
+// RUN: %clang -O0 %s -o %t && %run %t >%t.out 2>&1 && FileCheck --check-prefix=CHECK-SIMPLE %s < %t.out
+
+#include <stdio.h>
+
+#if __has_feature(type_sanitizer)
+
+#  ifdef NOSAN
+__attribute__((no_sanitize("type")))
+#  endif
+int main(){
+
+  int value = 42;
+  printf("As float: %f\n", *(float *)&value);
+  // CHECK-SANITIZED: ERROR: TypeSanitizer
+  // CHECK-NOSAN-NOT: ERROR: TypeSanitizer
+
+  return 0;
+}
+
+#else
+
+int main() {
+  printf("Nothing interesting here\n");
+  return 0;
+}
+// CHECK-SIMPLE: Nothing interesting here
+
+#endif
diff --git a/flang/include/flang/Optimizer/Dialect/FIRTypes.td b/flang/include/flang/Optimizer/Dialect/FIRTypes.td
index 6ae74f16a72d3..41e765c1cb7b9 100644
--- a/flang/include/flang/Optimizer/Dialect/FIRTypes.td
+++ b/flang/include/flang/Optimizer/Dialect/FIRTypes.td
@@ -579,7 +579,7 @@ def IsBaseBoxTypePred
 def fir_BaseBoxType : Type<IsBaseBoxTypePred, "fir.box or fir.class type">;
 
 // Generalized FIR and standard dialect types representing intrinsic types
-def AnyIntegerLike : TypeConstraint<Or<[SignlessIntegerLike.predicate,
+def AnyIntegerLike : TypeConstraint<Or<[SignlessIntegerOrIndexLike.predicate,
     AnySignedInteger.predicate, AnyUnsignedInteger.predicate,
     fir_IntegerType.predicate, fir_UnsignedType.predicate]>, "any integer">;
 def AnyLogicalLike : TypeConstraint<Or<[BoolLike.predicate,
diff --git a/flang/include/flang/Runtime/CUDA/pointer.h b/flang/include/flang/Runtime/CUDA/pointer.h
index db5242696303f..78c7a1a92b7ea 100644
--- a/flang/include/flang/Runtime/CUDA/pointer.h
+++ b/flang/include/flang/Runtime/CUDA/pointer.h
@@ -21,6 +21,26 @@ int RTDECL(CUFPointerAllocate)(Descriptor &, int64_t stream = -1,
     bool hasStat = false, const Descriptor *errMsg = nullptr,
     const char *sourceFile = nullptr, int sourceLine = 0);
 
+/// Perform allocation of the descriptor with synchronization of it when
+/// necessary.
+int RTDECL(CUFPointerAllocateSync)(Descriptor &, int64_t stream = -1,
+    bool hasStat = false, const Descriptor *errMsg = nullptr,
+    const char *sourceFile = nullptr, int sourceLine = 0);
+
+/// Perform allocation of the descriptor without synchronization. Assign data
+/// from source.
+int RTDEF(CUFPointerAllocateSource)(Descriptor &pointer,
+    const Descriptor &source, int64_t stream = -1, bool hasStat = false,
+    const Descriptor *errMsg = nullptr, const char *sourceFile = nullptr,
+    int sourceLine = 0);
+
+/// Perform allocation of the descriptor with synchronization of it when
+/// necessary. Assign data from source.
+int RTDEF(CUFPointerAllocateSourceSync)(Descriptor &pointer,
+    const Descriptor &source, int64_t stream = -1, bool hasStat = false,
+    const Descriptor *errMsg = nullptr, const char *sourceFile = nullptr,
+    int sourceLine = 0);
+
 } // extern "C"
 
 } // namespace Fortran::runtime::cuda
diff --git a/flang/lib/Optimizer/Builder/IntrinsicCall.cpp b/flang/lib/Optimizer/Builder/IntrinsicCall.cpp
index 63c013dda95e6..db9918c265164 100644
--- a/flang/lib/Optimizer/Builder/IntrinsicCall.cpp
+++ b/flang/lib/Optimizer/Builder/IntrinsicCall.cpp
@@ -1027,8 +1027,10 @@ static constexpr MathOperation mathOperations[] = {
     {"abs", "cabs", genFuncType<Ty::Real<8>, Ty::Complex<8>>,
      genComplexMathOp<mlir::complex::AbsOp>},
     {"abs", RTNAME_STRING(CAbsF128), FuncTypeReal16Complex16, genLibF128Call},
-    {"acos", "acosf", genFuncType<Ty::Real<4>, Ty::Real<4>>, genLibCall},
-    {"acos", "acos", genFuncType<Ty::Real<8>, Ty::Real<8>>, genLibCall},
+    {"acos", "acosf", genFuncType<Ty::Real<4>, Ty::Real<4>>,
+     genMathOp<mlir::math::AcosOp>},
+    {"acos", "acos", genFuncType<Ty::Real<8>, Ty::Real<8>>,
+     genMathOp<mlir::math::AcosOp>},
     {"acos", RTNAME_STRING(AcosF128), FuncTypeReal16Real16, genLibF128Call},
     {"acos", "cacosf", genFuncType<Ty::Complex<4>, Ty::Complex<4>>, genLibCall},
     {"acos", "cacos", genFuncType<Ty::Complex<8>, Ty::Complex<8>>, genLibCall},
diff --git a/flang/lib/Optimizer/CodeGen/BoxedProcedure.cpp b/flang/lib/Optimizer/CodeGen/BoxedProcedure.cpp
index ad7272eaa9d3f..c7c2dcede8aa6 100644
--- a/flang/lib/Optimizer/CodeGen/BoxedProcedure.cpp
+++ b/flang/lib/Optimizer/CodeGen/BoxedProcedure.cpp
@@ -69,11 +69,9 @@ class BoxprocTypeRewriter : public mlir::TypeConverter {
       return false;
     }
     if (auto recTy = mlir::dyn_cast<RecordType>(ty)) {
-      auto visited = visitedTypes.find(ty);
-      if (visited != visitedTypes.end())
+      auto [visited, inserted] = visitedTypes.try_emplace(ty, false);
+      if (!inserted)
         return visited->second;
-      [[maybe_unused]] auto newIt = visitedTypes.try_emplace(ty, false);
-      assert(newIt.second && "expected ty to not be in the map");
       bool wasAlreadyVisitingRecordType = needConversionIsVisitingRecordType;
       needConversionIsVisitingRecordType = true;
       bool result = false;
diff --git a/flang/lib/Optimizer/Transforms/CUFOpConversion.cpp b/flang/lib/Optimizer/Transforms/CUFOpConversion.cpp
index 23248f6d12622..7292ce741b85b 100644
--- a/flang/lib/Optimizer/Transforms/CUFOpConversion.cpp
+++ b/flang/lib/Optimizer/Transforms/CUFOpConversion.cpp
@@ -172,28 +172,33 @@ struct CUFAllocateOpConversion
         isPointer = true;
 
     if (hasDoubleDescriptors(op)) {
-      if (isPointer)
-        TODO(loc, "pointer allocation with double descriptors");
       // Allocation for module variable are done with custom runtime entry point
       // so the descriptors can be synchronized.
       mlir::func::FuncOp func;
-      if (op.getSource())
-        func = fir::runtime::getRuntimeFunc<mkRTKey(
-            CUFAllocatableAllocateSourceSync)>(loc, builder);
-      else
+      if (op.getSource()) {
+        func = isPointer ? fir::runtime::getRuntimeFunc<mkRTKey(
+                               CUFPointerAllocateSourceSync)>(loc, builder)
+                         : fir::runtime::getRuntimeFunc<mkRTKey(
+                               CUFAllocatableAllocateSourceSync)>(loc, builder);
+      } else {
         func =
-            fir::runtime::getRuntimeFunc<mkRTKey(CUFAllocatableAllocateSync)>(
-                loc, builder);
+            isPointer
+                ? fir::runtime::getRuntimeFunc<mkRTKey(CUFPointerAllocateSync)>(
+                      loc, builder)
+                : fir::runtime::getRuntimeFunc<mkRTKey(
+                      CUFAllocatableAllocateSync)>(loc, builder);
+      }
       return convertOpToCall<cuf::AllocateOp>(op, rewriter, func);
     }
 
     mlir::func::FuncOp func;
     if (op.getSource()) {
-      if (isPointer)
-        TODO(loc, "pointer allocation with source");
       func =
-          fir::runtime::getRuntimeFunc<mkRTKey(CUFAllocatableAllocateSource)>(
-              loc, builder);
+          isPointer
+              ? fir::runtime::getRuntimeFunc<mkRTKey(CUFPointerAllocateSource)>(
+                    loc, builder)
+              : fir::runtime::getRuntimeFunc<mkRTKey(
+                    CUFAllocatableAllocateSource)>(loc, builder);
     } else {
       func =
           isPointer
diff --git a/flang/lib/Semantics/check-cuda.cpp b/flang/lib/Semantics/check-cuda.cpp
index d8a5639227648..c85a84ea5527f 100644
--- a/flang/lib/Semantics/check-cuda.cpp
+++ b/flang/lib/Semantics/check-cuda.cpp
@@ -520,7 +520,8 @@ void CUDAChecker::Enter(const parser::SeparateModuleSubprogram &x) {
 
 static int DoConstructTightNesting(
     const parser::DoConstruct *doConstruct, const parser::Block *&innerBlock) {
-  if (!doConstruct || !doConstruct->IsDoNormal()) {
+  if (!doConstruct ||
+      (!doConstruct->IsDoNormal() && !doConstruct->IsDoConcurrent())) {
     return 0;
   }
   innerBlock = &std::get<parser::Block>(doConstruct->t);
@@ -553,7 +554,8 @@ static void CheckReduce(
         case parser::ReductionOperator::Operator::Multiply:
         case parser::ReductionOperator::Operator::Max:
         case parser::ReductionOperator::Operator::Min:
-          isOk = cat == TypeCategory::Integer || cat == TypeCategory::Real;
+          isOk = cat == TypeCategory::Integer || cat == TypeCategory::Real ||
+              cat == TypeCategory::Complex;
           break;
         case parser::ReductionOperator::Operator::Iand:
         case parser::ReductionOperator::Operator::Ior:
diff --git a/flang/runtime/CUDA/pointer.cpp b/flang/runtime/CUDA/pointer.cpp
index 0c5d3a5a6297d..3252410bd8d2c 100644
--- a/flang/runtime/CUDA/pointer.cpp
+++ b/flang/runtime/CUDA/pointer.cpp
@@ -7,8 +7,11 @@
 //===----------------------------------------------------------------------===//
 
 #include "flang/Runtime/CUDA/pointer.h"
+#include "../assign-impl.h"
 #include "../stat.h"
 #include "../terminator.h"
+#include "flang/Runtime/CUDA/descriptor.h"
+#include "flang/Runtime/CUDA/memmove-function.h"
 #include "flang/Runtime/pointer.h"
 
 #include "cuda_runtime.h"
@@ -33,6 +36,50 @@ int RTDEF(CUFPointerAllocate)(Descriptor &desc, int64_t stream, bool hasStat,
   return stat;
 }
 
+int RTDEF(CUFPointerAllocateSync)(Descriptor &desc, int64_t stream,
+    bool hasStat, const Descriptor *errMsg, const char *sourceFile,
+    int sourceLine) {
+  int stat{RTNAME(CUFPointerAllocate)(
+      desc, stream, hasStat, errMsg, sourceFile, sourceLine)};
+#ifndef RT_DEVICE_COMPILATION
+  // Descriptor synchronization is only done when the allocation is done
+  // from the host.
+  if (stat == StatOk) {
+    void *deviceAddr{
+        RTNAME(CUFGetDeviceAddress)((void *)&desc, sourceFile, sourceLine)};
+    RTNAME(CUFDescriptorSync)
+    ((Descriptor *)deviceAddr, &desc, sourceFile, sourceLine);
+  }
+#endif
+  return stat;
+}
+
+int RTDEF(CUFPointerAllocateSource)(Descriptor &pointer,
+    const Descriptor &source, int64_t stream, bool hasStat,
+    const Descriptor *errMsg, const char *sourceFile, int sourceLine) {
+  int stat{RTNAME(CUFPointerAllocate)(
+      pointer, stream, hasStat, errMsg, sourceFile, sourceLine)};
+  if (stat == StatOk) {
+    Terminator terminator{sourceFile, sourceLine};
+    Fortran::runtime::DoFromSourceAssign(
+        pointer, source, terminator, &MemmoveHostToDevice);
+  }
+  return stat;
+}
+
+int RTDEF(CUFPointerAllocateSourceSync)(Descriptor &pointer,
+    const Descriptor &source, int64_t stream, bool hasStat,
+    const Descriptor *errMsg, const char *sourceFile, int sourceLine) {
+  int stat{RTNAME(CUFPointerAllocateSync)(
+      pointer, stream, hasStat, errMsg, sourceFile, sourceLine)};
+  if (stat == StatOk) {
+    Terminator terminator{sourceFile, sourceLine};
+    Fortran::runtime::DoFromSourceAssign(
+        pointer, source, terminator, &MemmoveHostToDevice);
+  }
+  return stat;
+}
+
 RT_EXT_API_GROUP_END
 
 } // extern "C"
diff --git a/flang/test/Driver/fast-math.f90 b/flang/test/Driver/fast-math.f90
index 47175488b98bc..e677432bc04fa 100644
--- a/flang/test/Driver/fast-math.f90
+++ b/flang/test/Driver/fast-math.f90
@@ -1,6 +1,11 @@
 ! Test for correct forwarding of fast-math flags from the compiler driver to the
 ! frontend driver
 
+! Check warning message for Ofast deprecation
+! RUN: %flang -Ofast -### %s -o %t 2>&1 | FileCheck %s
+! CHECK: warning: argument '-Ofast' is deprecated; use '-O3 -ffast-math -fstack-arrays' for the same behavior, or '-O3
+! -fstack-arrays' to enable only conforming optimizations [-Wdeprecated-ofast]
+
 ! -Ofast => -ffast-math -O3 -fstack-arrays
 ! RUN: %flang -Ofast -fsyntax-only -### %s -o %t 2>&1 \
 ! RUN:     | FileCheck --check-prefix=CHECK-OFAST %s
diff --git a/flang/test/Fir/CUDA/cuda-allocate.fir b/flang/test/Fir/CUDA/cuda-allocate.fir
index 2ac9498d35541..b8457b846716e 100644
--- a/flang/test/Fir/CUDA/cuda-allocate.fir
+++ b/flang/test/Fir/CUDA/cuda-allocate.fir
@@ -192,4 +192,67 @@ func.func @_QPp_alloc() {
 // CHECK-LABEL: func.func @_QPp_alloc()
 // CHECK: fir.call @_FortranACUFPointerAllocate
 
+func.func @_QPpointer_source() {
+  %c0_i64 = arith.constant 0 : i64
+  %c1_i32 = arith.constant 1 : i32
+  %c0_i32 = arith.constant 0 : i32
+  %c1 = arith.constant 1 : index
+  %c0 = arith.constant 0 : index
+  %0 = fir.alloca !fir.box<!fir.ptr<!fir.array<?x?xf32>>> {bindc_name = "a", uniq_name = "_QFpointer_sourceEa"}
+  %4 = fir.declare %0 {fortran_attrs = #fir.var_attrs<allocatable>, uniq_name = "_QFpointer_sourceEa"} : (!fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>) -> !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>
+  %5 = cuf.alloc !fir.box<!fir.ptr<!fir.array<?x?xf32>>> {bindc_name = "a_d", data_attr = #cuf.cuda<device>, uniq_name = "_QFpointer_sourceEa_d"} -> !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>
+  %7 = fir.declare %5 {data_attr = #cuf.cuda<device>, fortran_attrs = #fir.var_attrs<pointer>, uniq_name = "_QFpointer_sourceEa_d"} : (!fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>) -> !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>
+  %8 = fir.load %4 : !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>
+  %22 = cuf.allocate %7 : !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>> source(%8 : !fir.box<!fir.ptr<!fir.array<?x?xf32>>>) {data_attr = #cuf.cuda<device>} -> i32
+  return
+}
+
+// CHECK-LABEL: func.func @_QPpointer_source()
+// CHECK: _FortranACUFPointerAllocateSource
+
+fir.global @_QMdataEb2 {data_attr = #cuf.cuda<device>} : !fir.box<!fir.ptr<!fir.array<?xi32>>> {
+  %c0 = arith.constant 0 : index
+  %0 = fir.zero_bits !fir.ptr<!fir.array<?xi32>>
+  %1 = fir.shape %c0 : (index) -> !fir.shape<1>
+  %2 = fir.embox %0(%1) {allocator_idx = 2 : i32} : (!fir.ptr<!fir.array<?xi32>>, !fir.shape<1>) -> !fir.box<!fir.ptr<!fir.array<?xi32>>>
+  fir.has_value %2 : !fir.box<!fir.ptr<!fir.array<?xi32>>>
+}
+
+func.func @_QQpointer_sync() attributes {fir.bindc_name = "test"} {
+  %c0_i32 = arith.constant 0 : i32
+  %c10_i32 = arith.constant 10 : i32
+  %c1 = arith.constant 1 : index
+  %0 = fir.address_of(@_QMdataEb2) : !fir.ref<!fir.box<!fir.ptr<!fir.array<?xi32>>>>
+  %1 = fir.declare %0 {data_attr = #cuf.cuda<device>, fortran_attrs = #fir.var_attrs<pointer>, uniq_name = "_QMdataEb"} : (!fir.ref<!fir.box<!fir.ptr<!fir.array<?xi32>>>>) -> (!fir.ref<!fir.box<!fir.ptr<!fir.array<?xi32>>>>)
+  %2 = fir.convert %1 : (!fir.ref<!fir.box<!fir.ptr<!fir.array<?xi32>>>>) -> !fir.ref<!fir.box<none>>
+  %3 = fir.convert %c1 : (index) -> i64
+  %4 = fir.convert %c10_i32 : (i32) -> i64
+  fir.call @_FortranAAllocatableSetBounds(%2, %c0_i32, %3, %4) fastmath<contract> : (!fir.ref<!fir.box<none>>, i32, i64, i64) -> ()
+  %6 = cuf.allocate %1 : !fir.ref<!fir.box<!fir.ptr<!fir.array<?xi32>>>> {data_attr = #cuf.cuda<device>} -> i32
+  return
+}
+
+// CHECK-LABEL: func.func @_QQpointer_sync()
+// CHECK: _FortranACUFPointerAllocateSync
+
+fir.global @_QMmod1Ea_d2 {data_attr = #cuf.cuda<device>} : !fir.box<!fir.ptr<!fir.array<?x?xf32>>> {
+  %c0 = arith.constant 0 : index
+  %0 = fir.zero_bits !fir.ptr<!fir.array<?x?xf32>>
+  %1 = fir.shape %c0, %c0 : (index, index) -> !fir.shape<2>
+  %2 = fir.embox %0(%1) {allocator_idx = 2 : i32} : (!fir.ptr<!fir.array<?x?xf32>>, !fir.shape<2>) -> !fir.box<!fir.ptr<!fir.array<?x?xf32>>>
+  fir.has_value %2 : !fir.box<!fir.ptr<!fir.array<?x?xf32>>>
+}
+func.func @_QMmod1Ppointer_source_global() {
+  %0 = fir.address_of(@_QMmod1Ea_d2) : !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>
+  %1 = fir.declare %0 {data_attr = #cuf.cuda<device>, fortran_attrs = #fir.var_attrs<pointer>, uniq_name = "_QMmod1Ea_d"} : (!fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>) -> !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>
+  %2 = fir.alloca !fir.box<!fir.ptr<!fir.array<?x?xf32>>> {bindc_name = "a", uniq_name = "_QMmod1Fallocate_source_globalEa"}
+  %6 = fir.declare %2 {fortran_attrs = #fir.var_attrs<allocatable>, uniq_name = "_QMmod1Fallocate_source_globalEa"} : (!fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>) -> !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>
+  %7 = fir.load %6 : !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>>
+  %21 = cuf.allocate %1 : !fir.ref<!fir.box<!fir.ptr<!fir.array<?x?xf32>>>> source(%7 : !fir.box<!fir.ptr<!fir.array<?x?xf32>>>) {data_attr = #cuf.cuda<device>} -> i32
+  return
+}
+
+// CHECK-LABEL: func.func @_QMmod1Ppointer_source_global()
+// CHECK: fir.call @_FortranACUFPointerAllocateSourceSync
+
 } // end of module
diff --git a/flang/test/Lower/HLFIR/elemental-intrinsics.f90 b/flang/test/Lower/HLFIR/elemental-intrinsics.f90
index dd79688663cba..689f0a08ca7ab 100644
--- a/flang/test/Lower/HLFIR/elemental-intrinsics.f90
+++ b/flang/test/Lower/HLFIR/elemental-intrinsics.f90
@@ -15,7 +15,7 @@ subroutine simple_elemental(x,y)
 ! CHECK:  ^bb0(%[[VAL_9:.*]]: index):
 ! CHECK:    %[[VAL_10:.*]] = hlfir.designate %[[VAL_7]]#0 (%[[VAL_9]])  : (!fir.ref<!fir.array<100xf32>>, index) -> !fir.ref<f32>
 ! CHECK:    %[[VAL_11:.*]] = fir.load %[[VAL_10]] : !fir.ref<f32>
-! CHECK:    %[[VAL_12:.*]] = fir.call @acosf(%[[VAL_11]]) fastmath<contract> : (f32) -> f32
+! CHECK:    %[[VAL_12:.*]] = math.acos %[[VAL_11]] fastmath<contract> : f32
 ! CHECK:    hlfir.yield_element %[[VAL_12]] : f32
 ! CHECK:  }
 ! CHECK: hlfir.assign
diff --git a/flang/test/Lower/Intrinsics/acos.f90 b/flang/test/Lower/Intrinsics/acos.f90
index d2ef8e1cef0a8..849d36ad1323b 100644
--- a/flang/test/Lower/Intrinsics/acos.f90
+++ b/flang/test/Lower/Intrinsics/acos.f90
@@ -1,9 +1,9 @@
-! RUN: bbc -emit-fir %s -o - --math-runtime=fast | FileCheck --check-prefixes=ALL %s
-! RUN: %flang_fc1 -emit-fir -mllvm -math-runtime=fast %s -o - | FileCheck --check-prefixes=ALL %s
-! RUN: bbc -emit-fir %s -o - --math-runtime=relaxed | FileCheck --check-prefixes=ALL %s
-! RUN: %flang_fc1 -emit-fir -mllvm -math-runtime=relaxed %s -o - | FileCheck --check-prefixes=ALL %s
-! RUN: bbc -emit-fir %s -o - --math-runtime=precise | FileCheck --check-prefixes=ALL %s
-! RUN: %flang_fc1 -emit-fir -mllvm -math-runtime=precise %s -o - | FileCheck --check-prefixes=ALL %s
+! RUN: bbc -emit-fir %s -o - --math-runtime=fast | FileCheck --check-prefixes=ALL,FAST %s
+! RUN: %flang_fc1 -emit-fir -mllvm -math-runtime=fast %s -o - | FileCheck --check-prefixes=ALL,FAST %s
+! RUN: bbc -emit-fir %s -o - --math-runtime=relaxed | FileCheck --check-prefixes=ALL,RELAXED %s
+! RUN: %flang_fc1 -emit-fir -mllvm -math-runtime=relaxed %s -o - | FileCheck --check-prefixes=ALL,RELAXED %s
+! RUN: bbc -emit-fir %s -o - --math-runtime=precise | FileCheck --check-prefixes=ALL,PRECISE %s
+! RUN: %flang_fc1 -emit-fir -mllvm -math-runtime=precise %s -o - | FileCheck --check-prefixes=ALL,PRECISE %s
 
 function test_real4(x)
   real :: x, test_real4
@@ -11,15 +11,9 @@ function test_real4(x)
 end function
 
 ! ALL-LABEL: @_QPtest_real4
-! ALL: {{%[A-Za-z0-9._]+}} = fir.call @acosf({{%[A-Za-z0-9._]+}}) {{.*}}: (f32) -> f32
-
-function test_real8(x)
-  real(8) :: x, test_real8
-  test_real8 = acos(x)
-end function
-
-! ALL-LABEL: @_QPtest_real8
-! ALL: {{%[A-Za-z0-9._]+}} = fir.call @acos({{%[A-Za-z0-9._]+}}) {{.*}}: (f64) -> f64
+! FAST: {{%[A-Za-z0-9._]+}} = math.acos {{%[A-Za-z0-9._]+}} {{.*}}: f32
+! RELAXED: {{%[A-Za-z0-9._]+}} = math.acos {{%[A-Za-z0-9._]+}} {{.*}}: f32
+! PRECISE: {{%[A-Za-z0-9._]+}} = fir.call @acosf({{%[A-Za-z0-9._]+}}) {{.*}}: (f32) -> f32
 
 function test_complex4(x)
   complex :: x, test_complex4
@@ -37,3 +31,15 @@ function test_complex8(x)
 ! ALL-LABEL: @_QPtest_complex8
 ! ALL: {{%[A-Za-z0-9._]+}} = fir.call @cacos({{%[A-Za-z0-9._]+}}) {{.*}}: (complex<f64>) -> complex<f64>
 
+function test_real8(x)
+  real(8) :: x, test_real8
+  test_real8 = acos(x)
+end function
+
+! ALL-LABEL: @_QPtest_real8
+! FAST: {{%[A-Za-z0-9._]+}} = math.acos {{%[A-Za-z0-9._]+}} {{.*}}: f64
+! RELAXED: {{%[A-Za-z0-9._]+}} = math.acos {{%[A-Za-z0-9._]+}} {{.*}}: f64
+! PRECISE: {{%[A-Za-z0-9._]+}} = fir.call @acos({{%[A-Za-z0-9._]+}}) {{.*}}: (f64) -> f64
+
+! PRECISE-DAG: func.func private @acosf(f32) -> f32 attributes {fir.bindc_name = "acosf", fir.runtime}
+! PRECISE-DAG: func.func private @acos(f64) -> f64 attributes {fir.bindc_name = "acos", fir.runtime}
diff --git a/flang/test/Lower/dummy-procedure.f90 b/flang/test/Lower/dummy-procedure.f90
index 6874e8eca90b9..a84c351b1166b 100644
--- a/flang/test/Lower/dummy-procedure.f90
+++ b/flang/test/Lower/dummy-procedure.f90
@@ -154,7 +154,7 @@ subroutine todo3(dummy_proc)
 
 ! CHECK-LABEL: func private @fir.acos.f32.ref_f32(%arg0: !fir.ref<f32>) -> f32
   !CHECK: %[[load:.*]] = fir.load %arg0
-  !CHECK: %[[res:.*]] = fir.call @acosf(%[[load]]) fastmath<contract> : (f32) -> f32
+  !CHECK: %[[res:.*]] = math.acos %[[load]] fastmath<contract> : f32
   !CHECK: return %[[res]] : f32
 
 ! CHECK-LABEL: func private @fir.atan2.f32.ref_f32.ref_f32(
diff --git a/flang/test/Lower/trigonometric-intrinsics.f90 b/flang/test/Lower/trigonometric-intrinsics.f90
index 731ec6bbf6855..d1edd4ef48dc3 100644
--- a/flang/test/Lower/trigonometric-intrinsics.f90
+++ b/flang/test/Lower/trigonometric-intrinsics.f90
@@ -87,6 +87,34 @@ subroutine cos_testcd(z)
   z = cos(z)
 end subroutine
 
+! CHECK-LABEL: acos_testr
+subroutine acos_testr(a, b)
+  real :: a, b
+! CHECK: fir.call @fir.acos.contract.f32.f32
+  b = acos(a)
+end subroutine
+
+! CHECK-LABEL: acos_testd
+subroutine acos_testd(a, b)
+  real(kind=8) :: a, b
+! CHECK: fir.call @fir.acos.contract.f64.f64
+  b = acos(a)
+end subroutine
+
+! CHECK-LABEL: acos_testc
+subroutine acos_testc(z)
+  complex :: z
+! CHECK: fir.call @fir.acos.contract.z32.z32
+  z = acos(z)
+end subroutine
+
+! CHECK-LABEL: acos_testcd
+subroutine acos_testcd(z)
+  complex(kind=8) :: z
+! CHECK: fir.call @fir.acos.contract.z64.z64
+  z = acos(z)
+end subroutine
+
 ! CHECK-LABEL: cosh_testr
 subroutine cosh_testr(a, b)
   real :: a, b
@@ -211,6 +239,18 @@ subroutine sinh_testcd(z)
 ! CMPLX-FAST: complex.cos %{{.*}} : complex<f64>
 ! CMPLX-PRECISE: fir.call @ccos
 
+! CHECK-LABEL: @fir.acos.contract.f32.f32
+! CHECK: math.acos {{.*}} : f32
+
+! CHECK-LABEL: @fir.acos.contract.f64.f64
+! CHECK: math.acos {{.*}} : f64
+
+! CHECK-LABEL: @fir.acos.contract.z32.z32
+! CHECK: fir.call @cacosf
+
+! CHECK-LABEL: @fir.acos.contract.z64.z64
+! CHECK: fir.call @cacos
+
 ! CHECK-LABEL: @fir.cosh.contract.f32.f32
 ! CHECK: math.cosh {{.*}} : f32
 
diff --git a/flang/test/Semantics/cuf09.cuf b/flang/test/Semantics/cuf09.cuf
index 06c9070fcbcd0..fda8938b8ffc0 100644
--- a/flang/test/Semantics/cuf09.cuf
+++ b/flang/test/Semantics/cuf09.cuf
@@ -130,7 +130,6 @@ program main
   do
     exit
   end do
-  !ERROR: !$CUF KERNEL DO (1) must be followed by a DO construct with tightly nested outer levels of counted DO loops
   !$cuf kernel do <<< 1, 2 >>>
   do concurrent (j=1:10)
   end do
diff --git a/flang/test/Semantics/reduce.cuf b/flang/test/Semantics/reduce.cuf
index 92d12ab149010..0ee7fa097432c 100644
--- a/flang/test/Semantics/reduce.cuf
+++ b/flang/test/Semantics/reduce.cuf
@@ -1,5 +1,5 @@
 ! RUN: %python %S/test_errors.py %s %flang_fc1
-subroutine s(n,m,a,l)
+subroutine s(n,m,a,l,c)
   integer, intent(in) :: n
   integer, device, intent(in) :: m(n)
   real, device, intent(in) :: a(n)
@@ -7,6 +7,8 @@ subroutine s(n,m,a,l)
   integer j, mr
   real ar
   logical lr
+  complex :: cr
+  complex, device, intent(in) :: c(n)
 !$cuf kernel do <<<*,*>>> reduce (+:mr,ar)
   do j=1,n; mr = mr + m(j); ar = ar + a(j); end do
 !ERROR: !$CUF KERNEL DO REDUCE operation is not acceptable for a variable with type LOGICAL(4)
@@ -69,4 +71,6 @@ subroutine s(n,m,a,l)
 !ERROR: !$CUF KERNEL DO REDUCE operation is not acceptable for a variable with type REAL(4)
 !$cuf kernel do <<<*,*>>> reduce (.or.:mr,ar)
   do j=1,n; end do
+!$cuf kernel do <<<*,*>>> reduce (+:cr) ! ok complex type
+  do j=1,n; cr = cr + c(j); end do
 end
diff --git a/libc/benchmarks/distributions/README.md b/libc/benchmarks/distributions/README.md
index 135ba7bc82221..9c665885419dc 100644
--- a/libc/benchmarks/distributions/README.md
+++ b/libc/benchmarks/distributions/README.md
@@ -31,4 +31,4 @@ As identified in the [automemcpy](https://research.google/pubs/pub50338/) paper:
 
 ## Note
 
-Except for `GoogleD`, all distributions are gathered over one week worth of data.
\ No newline at end of file
+Except for `GoogleD`, all distributions are gathered over one week worth of data.
diff --git a/libc/benchmarks/gpu/CMakeLists.txt b/libc/benchmarks/gpu/CMakeLists.txt
index 5fa3e44e8d48c..b58f4fd8b1a42 100644
--- a/libc/benchmarks/gpu/CMakeLists.txt
+++ b/libc/benchmarks/gpu/CMakeLists.txt
@@ -10,7 +10,7 @@ function(add_benchmark benchmark_name)
     "LINK_LIBRARIES;DEPENDS" # Multi-value arguments
     ${ARGN}
   )
-  
+
   if(NOT libc.src.time.clock IN_LIST TARGET_LLVMLIBC_ENTRYPOINTS)
     message(FATAL_ERROR "target does not support clock")
   endif()
diff --git a/libc/cmake/modules/LLVMLibCCompileOptionRules.cmake b/libc/cmake/modules/LLVMLibCCompileOptionRules.cmake
index 1795639011936..12420db331961 100644
--- a/libc/cmake/modules/LLVMLibCCompileOptionRules.cmake
+++ b/libc/cmake/modules/LLVMLibCCompileOptionRules.cmake
@@ -28,6 +28,13 @@ function(_get_compile_options_from_flags output_var)
       elseif(LIBC_TARGET_ARCHITECTURE_IS_RISCV64)
         list(APPEND compile_options "-D__LIBC_RISCV_USE_FMA")
       endif()
+      # For clang, we will build the math functions with `-fno-math-errno` so that
+      # __builtin_fma* will generate the fused-mutliply-add instructions.  We
+      # don't put the control flag to the public config yet, and see if it makes
+      # sense to just enable this flag by default.
+      if(LIBC_ADD_FNO_MATH_ERRNO)
+        list(APPEND compile_options "-fno-math-errno")
+      endif()
     endif()
     if(ADD_ROUND_OPT_FLAG)
       if(LIBC_TARGET_ARCHITECTURE_IS_X86_64)
diff --git a/libc/cmake/modules/LLVMLibCTestRules.cmake b/libc/cmake/modules/LLVMLibCTestRules.cmake
index 96fa6c3a707e4..10bb9c9487d63 100644
--- a/libc/cmake/modules/LLVMLibCTestRules.cmake
+++ b/libc/cmake/modules/LLVMLibCTestRules.cmake
@@ -1,6 +1,11 @@
 function(_get_common_test_compile_options output_var c_test flags)
   _get_compile_options_from_flags(compile_flags ${flags})
 
+  # Remove -fno-math-errno if it was added.
+  if(LIBC_ADD_FNO_MATH_ERRNO)
+    list(REMOVE_ITEM compile_options "-fno-math-errno")
+  endif()
+
   set(compile_options
       ${LIBC_COMPILE_OPTIONS_DEFAULT}
       ${LIBC_TEST_COMPILE_OPTIONS_DEFAULT}
diff --git a/libc/config/baremetal/riscv/entrypoints.txt b/libc/config/baremetal/riscv/entrypoints.txt
index 6dc5df830eb00..667ab40dca999 100644
--- a/libc/config/baremetal/riscv/entrypoints.txt
+++ b/libc/config/baremetal/riscv/entrypoints.txt
@@ -463,7 +463,7 @@ if(LIBC_COMPILER_HAS_FIXED_POINT)
     libc.src.stdfix.kbits
     libc.src.stdfix.ukbits
     libc.src.stdfix.lkbits
-    libc.src.stdfix.ulkbits   
+    libc.src.stdfix.ulkbits
   )
 endif()
 
diff --git a/libc/config/gpu/amdgpu/entrypoints.txt b/libc/config/gpu/amdgpu/entrypoints.txt
index 7a1982808dfeb..756b2cdc7496e 100644
--- a/libc/config/gpu/amdgpu/entrypoints.txt
+++ b/libc/config/gpu/amdgpu/entrypoints.txt
@@ -261,6 +261,7 @@ set(TARGET_LIBC_ENTRYPOINTS
     libc.src.time.nanosleep
 
     # wchar.h entrypoints
+    libc.src.wchar.wcslen
     libc.src.wchar.wctob
 
     # locale.h entrypoints
diff --git a/libc/config/gpu/nvptx/entrypoints.txt b/libc/config/gpu/nvptx/entrypoints.txt
index 059dc9b20d6dd..6b25dae158cc9 100644
--- a/libc/config/gpu/nvptx/entrypoints.txt
+++ b/libc/config/gpu/nvptx/entrypoints.txt
@@ -261,6 +261,7 @@ set(TARGET_LIBC_ENTRYPOINTS
     libc.src.time.nanosleep
 
     # wchar.h entrypoints
+    libc.src.wchar.wcslen
     libc.src.wchar.wctob
 
     # locale.h entrypoints
diff --git a/libc/config/linux/aarch64/entrypoints.txt b/libc/config/linux/aarch64/entrypoints.txt
index f5ba341411768..09eb51a3f8fc6 100644
--- a/libc/config/linux/aarch64/entrypoints.txt
+++ b/libc/config/linux/aarch64/entrypoints.txt
@@ -350,6 +350,7 @@ set(TARGET_LIBC_ENTRYPOINTS
     libc.src.unistd.write
 
     # wchar.h entrypoints
+    libc.src.wchar.wcslen
     libc.src.wchar.wctob
 
     # sys/uio.h entrypoints
@@ -439,7 +440,7 @@ set(TARGET_LIBM_ENTRYPOINTS
     libc.src.math.fabs
     libc.src.math.fabsf
     libc.src.math.fabsl
-    libc.src.math.fadd 
+    libc.src.math.fadd
     libc.src.math.faddl
     libc.src.math.fadd
     libc.src.math.fdim
diff --git a/libc/config/linux/arm/entrypoints.txt b/libc/config/linux/arm/entrypoints.txt
index 83f4dfaaa2d0f..42ea803baac04 100644
--- a/libc/config/linux/arm/entrypoints.txt
+++ b/libc/config/linux/arm/entrypoints.txt
@@ -215,7 +215,7 @@ set(TARGET_LIBM_ENTRYPOINTS
     libc.src.complex.cproj
     libc.src.complex.cprojf
     libc.src.complex.cprojl
-    
+
     # fenv.h entrypoints
     libc.src.fenv.feclearexcept
     libc.src.fenv.fedisableexcept
@@ -268,7 +268,7 @@ set(TARGET_LIBM_ENTRYPOINTS
     libc.src.math.fabs
     libc.src.math.fabsf
     libc.src.math.fabsl
-    libc.src.math.fadd 
+    libc.src.math.fadd
     libc.src.math.faddl
     libc.src.math.fadd
     libc.src.math.fdim
diff --git a/libc/config/linux/riscv/entrypoints.txt b/libc/config/linux/riscv/entrypoints.txt
index 49a8d61b93802..14a05a2f3fbf2 100644
--- a/libc/config/linux/riscv/entrypoints.txt
+++ b/libc/config/linux/riscv/entrypoints.txt
@@ -346,6 +346,7 @@ set(TARGET_LIBC_ENTRYPOINTS
     libc.src.unistd.write
 
     # wchar.h entrypoints
+    libc.src.wchar.wcslen
     libc.src.wchar.wctob
 )
 
@@ -432,7 +433,7 @@ set(TARGET_LIBM_ENTRYPOINTS
     libc.src.math.fabs
     libc.src.math.fabsf
     libc.src.math.fabsl
-    libc.src.math.fadd 
+    libc.src.math.fadd
     libc.src.math.faddl
     libc.src.math.fadd
     libc.src.math.fdim
@@ -630,7 +631,7 @@ if(LIBC_TYPES_HAS_CFLOAT128)
   )
 endif()
 
-if(LIBC_TYPES_HAS_FLOAT128)    
+if(LIBC_TYPES_HAS_FLOAT128)
   list(APPEND TARGET_LIBM_ENTRYPOINTS
     # math.h C23 _Float128 entrypoints
     libc.src.math.canonicalizef128
diff --git a/libc/config/linux/x86_64/entrypoints.txt b/libc/config/linux/x86_64/entrypoints.txt
index 0c1ae9561a7e6..366e4d34294d1 100644
--- a/libc/config/linux/x86_64/entrypoints.txt
+++ b/libc/config/linux/x86_64/entrypoints.txt
@@ -349,8 +349,9 @@ set(TARGET_LIBC_ENTRYPOINTS
     libc.src.unistd.write
 
     # wchar.h entrypoints
-    libc.src.wchar.wctob
     libc.src.wchar.btowc
+    libc.src.wchar.wcslen
+    libc.src.wchar.wctob
 
     # sys/uio.h entrypoints
     libc.src.sys.uio.writev
@@ -377,7 +378,7 @@ set(TARGET_LIBM_ENTRYPOINTS
     libc.src.complex.cproj
     libc.src.complex.cprojf
     libc.src.complex.cprojl
-    
+
     # fenv.h entrypoints
     libc.src.fenv.feclearexcept
     libc.src.fenv.fedisableexcept
@@ -440,7 +441,7 @@ set(TARGET_LIBM_ENTRYPOINTS
     libc.src.math.fabs
     libc.src.math.fabsf
     libc.src.math.fabsl
-    libc.src.math.fadd 
+    libc.src.math.fadd
     libc.src.math.faddl
     libc.src.math.fadd
     libc.src.math.fdim
@@ -756,7 +757,7 @@ if(LIBC_TYPES_HAS_CFLOAT128)
 endif()
 
 if(LIBC_TYPES_HAS_FLOAT128)
-  list(APPEND TARGET_LIBM_ENTRYPOINTS    
+  list(APPEND TARGET_LIBM_ENTRYPOINTS
     # math.h C23 _Float128 entrypoints
     libc.src.math.canonicalizef128
     libc.src.math.ceilf128
diff --git a/libc/docs/CMakeLists.txt b/libc/docs/CMakeLists.txt
index 04eaa7f1b8a5d..bb8e3e96e47ca 100644
--- a/libc/docs/CMakeLists.txt
+++ b/libc/docs/CMakeLists.txt
@@ -62,6 +62,7 @@ if (SPHINX_FOUND)
       termios
       threads
       uchar
+      unistd
       wchar
       wctype
     )
diff --git a/libc/docs/dev/printf_behavior.rst b/libc/docs/dev/printf_behavior.rst
index f5507c4d16758..01ab128a1f238 100644
--- a/libc/docs/dev/printf_behavior.rst
+++ b/libc/docs/dev/printf_behavior.rst
@@ -173,7 +173,7 @@ If a number passed as a field width or precision value is out of range for an
 int, then it will be treated as the largest value in the int range
 (e.g. "%-999999999999.999999999999s" is the same as "%-2147483647.2147483647s").
 
-If the field width is set to INT_MIN by using the '*' form, 
+If the field width is set to INT_MIN by using the '*' form,
 e.g. printf("%*d", INT_MIN, 1), it will be treated as INT_MAX, since -INT_MIN is
 not representable as an int.
 
diff --git a/libc/docs/dev/undefined_behavior.rst b/libc/docs/dev/undefined_behavior.rst
index d0d882b7010e3..60fda51e86452 100644
--- a/libc/docs/dev/undefined_behavior.rst
+++ b/libc/docs/dev/undefined_behavior.rst
@@ -78,8 +78,8 @@ POSIX.1 leaves that when the name of a shared memory object does not begin with
 Handling of NULL arguments to the 's' format specifier
 ------------------------------------------------------
 The C standard does not specify behavior for ``printf("%s", NULL)``. We will
-print the string literal ``(null)`` unless using the 
-``LIBC_COPT_PRINTF_NO_NULLPTR_CHECKS`` option described in :ref:`printf 
+print the string literal ``(null)`` unless using the
+``LIBC_COPT_PRINTF_NO_NULLPTR_CHECKS`` option described in :ref:`printf
 behavior<printf_behavior>`.
 
 Unknown Math Rounding Direction
diff --git a/libc/docs/gpu/rpc.rst b/libc/docs/gpu/rpc.rst
index 0d169c7db9a50..3f312bb9281b3 100644
--- a/libc/docs/gpu/rpc.rst
+++ b/libc/docs/gpu/rpc.rst
@@ -253,7 +253,7 @@ linked in by forwarding the static library to the device-side link job.
 Extensions
 ----------
 
-The opcode is a 32-bit integer that must be unique to the requested operation. 
-All opcodes used by ``libc`` internally have the character ``c`` in the most 
+The opcode is a 32-bit integer that must be unique to the requested operation.
+All opcodes used by ``libc`` internally have the character ``c`` in the most
 significant byte. Any other opcode is available for use outside of the ``libc``
 implementation.
diff --git a/libc/docs/headers/index.rst b/libc/docs/headers/index.rst
index 4a66d68ed902d..d08552d223252 100644
--- a/libc/docs/headers/index.rst
+++ b/libc/docs/headers/index.rst
@@ -34,6 +34,7 @@ Implementation Status
    threads
    time
    uchar
+   unistd
    wchar
    wctype
 ..
diff --git a/libc/docs/platform_support.rst b/libc/docs/platform_support.rst
index 2ce3d7282b304..4643d82e2308b 100644
--- a/libc/docs/platform_support.rst
+++ b/libc/docs/platform_support.rst
@@ -12,7 +12,7 @@ For Linux, we support kernel versions as listed on
 date), ``stable``, and ``mainline`` versions. We actively adopt new features
 from ``linux-next``.
 
-For Windows, we plan to support products within their lifecycle. Please refer to 
+For Windows, we plan to support products within their lifecycle. Please refer to
 `Search Product and Services Lifecycle Information <https://learn.microsoft.com/en-us/lifecycle/products/?products=windows>`_ for more information.
 
 LLVM-libc does not guarantee backward compatibility with operating systems that
diff --git a/libc/fuzzing/__support/CMakeLists.txt b/libc/fuzzing/__support/CMakeLists.txt
index d4b324db716f6..7742ee43860d5 100644
--- a/libc/fuzzing/__support/CMakeLists.txt
+++ b/libc/fuzzing/__support/CMakeLists.txt
@@ -22,7 +22,7 @@ add_libc_fuzzer(
     libc.src.__support.HashTable.table
   COMPILE_OPTIONS
     -D__LIBC_EXPLICIT_SIMD_OPT
-) 
+)
 
 # TODO: FreeListHeap uses the _end symbol which conflicts with the _end symbol
 # defined by GPU start.cpp files so for now we exclude this fuzzer on GPU.
diff --git a/libc/include/llvm-libc-types/CMakeLists.txt b/libc/include/llvm-libc-types/CMakeLists.txt
index ee734eafce362..6cbaa1ac0b30c 100644
--- a/libc/include/llvm-libc-types/CMakeLists.txt
+++ b/libc/include/llvm-libc-types/CMakeLists.txt
@@ -102,15 +102,15 @@ add_header(__getoptargv_t HDR __getoptargv_t.h)
 add_header(wchar_t HDR wchar_t.h)
 add_header(char8_t HDR char8_t.h)
 add_header(
-    char16_t 
-  HDR 
+    char16_t
+  HDR
     char16_t.h
   DEPENDS
     libc.include.llvm-libc-macros.stdint_macros
 )
 add_header(
-    char32_t 
-  HDR 
+    char32_t
+  HDR
     char32_t.h
   DEPENDS
     libc.include.llvm-libc-macros.stdint_macros
@@ -145,8 +145,8 @@ add_header(cfloat16 HDR cfloat16.h)
 add_header(fsblkcnt_t HDR fsblkcnt_t.h)
 add_header(fsfilcnt_t HDR fsfilcnt_t.h)
 add_header(
-  struct_statvfs 
-HDR 
+  struct_statvfs
+HDR
   struct_statvfs.h
 DEPENDS
   .fsblkcnt_t
diff --git a/libc/include/pthread.yaml b/libc/include/pthread.yaml
index 4f386bdd11cfd..5b27e68d2f2d8 100644
--- a/libc/include/pthread.yaml
+++ b/libc/include/pthread.yaml
@@ -402,7 +402,7 @@ functions:
   - name: pthread_setspecific
     standards:
       - POSIX
-    return_type: void *
+    return_type: int
     arguments:
       - type: pthread_key_t
       - type: const void *
diff --git a/libc/include/stdfix.yaml b/libc/include/stdfix.yaml
index 7b3bdba082dd5..9663ac0c7df4d 100644
--- a/libc/include/stdfix.yaml
+++ b/libc/include/stdfix.yaml
@@ -1,7 +1,7 @@
 header: stdfix.h
 header_template: stdfix.h.def
 macros: []
-types: 
+types:
   - type_name: stdfix-types
 enums: []
 objects: []
diff --git a/libc/include/sys/uio.yaml b/libc/include/sys/uio.yaml
index 808d8ec790198..87c5bdff48245 100644
--- a/libc/include/sys/uio.yaml
+++ b/libc/include/sys/uio.yaml
@@ -1,7 +1,7 @@
 header: sys/uio.h
 header_template: uio.h.def
 macros: []
-types: 
+types:
   - type_name: struct_iovec
   - type_name: ssize_t
 enums: []
diff --git a/libc/include/wchar.yaml b/libc/include/wchar.yaml
index 27a5926b57455..0ac9aa29f0a18 100644
--- a/libc/include/wchar.yaml
+++ b/libc/include/wchar.yaml
@@ -9,9 +9,21 @@ types:
 enums: []
 objects: []
 functions:
+  - name: wcslen
+    standards:
+      - stdc
+    return_type: size_t
+    arguments:
+      - type: const wchar_t *
   - name: wctob
     standards:
       - stdc
     return_type: int
     arguments:
       - type: wint_t
+  - name: btowc
+    standards:
+      - stdc
+    return_type: wint_t
+    arguments:
+      - type: int
diff --git a/libc/src/__support/CPP/CMakeLists.txt b/libc/src/__support/CPP/CMakeLists.txt
index 15fad9de0ed6d..d2ba00a5384da 100644
--- a/libc/src/__support/CPP/CMakeLists.txt
+++ b/libc/src/__support/CPP/CMakeLists.txt
@@ -83,7 +83,7 @@ add_header_library(
     .string_view
     libc.hdr.func.free
     libc.hdr.func.malloc
-    libc.hdr.func.realloc 
+    libc.hdr.func.realloc
     libc.src.__support.common
     libc.src.__support.integer_to_string
     libc.src.string.memory_utils.inline_memcpy
@@ -203,7 +203,7 @@ add_object_library(
   DEPENDS
     libc.hdr.func.free
     libc.hdr.func.malloc
-    libc.hdr.func.aligned_alloc 
+    libc.hdr.func.aligned_alloc
     libc.src.__support.common
     libc.src.__support.macros.properties.os
 )
diff --git a/libc/src/__support/threads/linux/CMakeLists.txt b/libc/src/__support/threads/linux/CMakeLists.txt
index 47598d98c9886..364e7e2b90585 100644
--- a/libc/src/__support/threads/linux/CMakeLists.txt
+++ b/libc/src/__support/threads/linux/CMakeLists.txt
@@ -79,7 +79,7 @@ add_object_library(
     .futex_utils
     libc.config.app_h
     libc.include.sys_syscall
-    libc.hdr.fcntl_macros  
+    libc.hdr.fcntl_macros
     libc.src.errno.errno
     libc.src.__support.CPP.atomic
     libc.src.__support.CPP.stringstream
diff --git a/libc/src/__support/threads/spin_lock.h b/libc/src/__support/threads/spin_lock.h
index e176ad9eeac2a..3b424b30425a7 100644
--- a/libc/src/__support/threads/spin_lock.h
+++ b/libc/src/__support/threads/spin_lock.h
@@ -34,7 +34,7 @@ class SpinLock {
     // .LBB0_2:                          |                  jmp     .LBB0_4
     //         isb                       |         .LBB0_2:
     // .LBB0_3:                          |                  pause
-    //         ldrb    w9, [x0]          |         .LBB0_3:       
+    //         ldrb    w9, [x0]          |         .LBB0_3:
     //         tbnz    w9, #0, .LBB0_2   |                  movzx   eax, byte ptr [rdi]
     //         b       .LBB0_1           |                  test    al, 1
     // .LBB0_4:                          |                  jne     .LBB0_2
diff --git a/libc/src/__support/time/windows/CMakeLists.txt b/libc/src/__support/time/windows/CMakeLists.txt
index dd0ac2f2f79ae..f31dfbdf26040 100644
--- a/libc/src/__support/time/windows/CMakeLists.txt
+++ b/libc/src/__support/time/windows/CMakeLists.txt
@@ -1,5 +1,5 @@
 add_header_library(
-  performance_counter 
+  performance_counter
   HDRS
     performance_counter.h
   DEPENDS
diff --git a/libc/src/math/nvptx/CMakeLists.txt b/libc/src/math/nvptx/CMakeLists.txt
index 577d8147df433..e85e17b6701fe 100644
--- a/libc/src/math/nvptx/CMakeLists.txt
+++ b/libc/src/math/nvptx/CMakeLists.txt
@@ -9,7 +9,7 @@ if(CUDAToolkit_FOUND)
   if (EXISTS ${libdevice_path})
     message(STATUS "Found the CUDA device library. Implementations falling back "
                    "to the vendor libraries will be resolved statically.")
-    set(bitcode_link_flags 
+    set(bitcode_link_flags
         "SHELL:-Xclang -mlink-builtin-bitcode -Xclang ${libdevice_path}")
   endif()
 else()
diff --git a/libc/src/stdlib/CMakeLists.txt b/libc/src/stdlib/CMakeLists.txt
index 40ba9ead9a7ae..73a9fbf1e2ddc 100644
--- a/libc/src/stdlib/CMakeLists.txt
+++ b/libc/src/stdlib/CMakeLists.txt
@@ -539,7 +539,7 @@ add_entrypoint_object(
     libc.src.__support.OSUtil.osutil
 )
 
-# TODO: Move all exit functions to linux specific 
+# TODO: Move all exit functions to linux specific
 
 if(TARGET libc.src.__support.threads.mutex)
 add_header_library(
@@ -563,7 +563,7 @@ add_entrypoint_object(
   HDRS
     atexit.h
   CXX_STANDARD
-    20 # For constinit 
+    20 # For constinit
   DEPENDS
     .exit_handler
 )
@@ -575,7 +575,7 @@ add_entrypoint_object(
   HDRS
     at_quick_exit.h
   CXX_STANDARD
-    20 # For constinit 
+    20 # For constinit
   DEPENDS
     .exit_handler
     .atexit
diff --git a/libc/src/string/CMakeLists.txt b/libc/src/string/CMakeLists.txt
index e3faa543e630c..2c607bf8ea895 100644
--- a/libc/src/string/CMakeLists.txt
+++ b/libc/src/string/CMakeLists.txt
@@ -17,9 +17,11 @@ add_header_library(
   DEPENDS
     .memory_utils.inline_bzero
     .memory_utils.inline_memcpy
+    libc.hdr.types.size_t
     libc.include.stdlib
-    libc.src.__support.common
     libc.src.__support.CPP.bitset
+    libc.src.__support.CPP.type_traits
+    libc.src.__support.common
   ${string_config_options}
 )
 
diff --git a/libc/src/string/string_utils.h b/libc/src/string/string_utils.h
index fc617bd18e8f6..583d35014d398 100644
--- a/libc/src/string/string_utils.h
+++ b/libc/src/string/string_utils.h
@@ -14,12 +14,13 @@
 #ifndef LLVM_LIBC_SRC_STRING_STRING_UTILS_H
 #define LLVM_LIBC_SRC_STRING_STRING_UTILS_H
 
+#include "hdr/types/size_t.h"
 #include "src/__support/CPP/bitset.h"
+#include "src/__support/CPP/type_traits.h" // cpp::is_same_v
 #include "src/__support/macros/config.h"
 #include "src/__support/macros/optimization.h" // LIBC_UNLIKELY
 #include "src/string/memory_utils/inline_bzero.h"
 #include "src/string/memory_utils/inline_memcpy.h"
-#include <stddef.h> // For size_t
 
 namespace LIBC_NAMESPACE_DECL {
 namespace internal {
@@ -79,24 +80,21 @@ LIBC_INLINE size_t string_length_wide_read(const char *src) {
   return char_ptr - src;
 }
 
-LIBC_INLINE size_t string_length_byte_read(const char *src) {
-  size_t length;
-  for (length = 0; *src; ++src, ++length)
-    ;
-  return length;
-}
-
 // Returns the length of a string, denoted by the first occurrence
 // of a null terminator.
-LIBC_INLINE size_t string_length(const char *src) {
+template <typename T> LIBC_INLINE size_t string_length(const T *src) {
 #ifdef LIBC_COPT_STRING_UNSAFE_WIDE_READ
   // Unsigned int is the default size for most processors, and on x86-64 it
   // performs better than larger sizes when the src pointer can't be assumed to
   // be aligned to a word boundary, so it's the size we use for reading the
   // string a block at a time.
-  return string_length_wide_read<unsigned int>(src);
+  if constexpr (cpp::is_same_v<T, char>)
+    return string_length_wide_read<unsigned int>(src);
 #else
-  return string_length_byte_read(src);
+  size_t length;
+  for (length = 0; *src; ++src, ++length)
+    ;
+  return length;
 #endif
 }
 
diff --git a/libc/src/wchar/CMakeLists.txt b/libc/src/wchar/CMakeLists.txt
index d4c98ea527a8f..703db75b5b194 100644
--- a/libc/src/wchar/CMakeLists.txt
+++ b/libc/src/wchar/CMakeLists.txt
@@ -1,3 +1,14 @@
+add_entrypoint_object(
+  wcslen
+  SRCS
+    wcslen.cpp
+  HDRS
+    wcslen.h
+  DEPENDS
+    libc.hdr.types.size_t
+    libc.hdr.types.wchar_t
+    libc.src.string.string_utils
+)
 
 add_entrypoint_object(
   wctob
diff --git a/libc/src/wchar/wcslen.cpp b/libc/src/wchar/wcslen.cpp
new file mode 100644
index 0000000000000..5889e27f9729e
--- /dev/null
+++ b/libc/src/wchar/wcslen.cpp
@@ -0,0 +1,23 @@
+//===-- Implementation of wcslen ------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#include "src/wchar/wcslen.h"
+
+#include "hdr/types/size_t.h"
+#include "hdr/types/wchar_t.h"
+#include "src/__support/common.h"
+#include "src/__support/macros/config.h"
+#include "src/string/string_utils.h" // string_length_trivial
+
+namespace LIBC_NAMESPACE_DECL {
+
+LLVM_LIBC_FUNCTION(size_t, wcslen, (const wchar_t *src)) {
+  return internal::string_length(src);
+}
+
+} // namespace LIBC_NAMESPACE_DECL
diff --git a/libc/src/wchar/wcslen.h b/libc/src/wchar/wcslen.h
new file mode 100644
index 0000000000000..8b2e7f50b007e
--- /dev/null
+++ b/libc/src/wchar/wcslen.h
@@ -0,0 +1,22 @@
+//===-- Implementation header for wcslen ----------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#ifndef LLVM_LIBC_SRC_WCHAR_WCSLEN_H
+#define LLVM_LIBC_SRC_WCHAR_WCSLEN_H
+
+#include "hdr/types/size_t.h"
+#include "hdr/types/wchar_t.h"
+#include "src/__support/macros/config.h"
+
+namespace LIBC_NAMESPACE_DECL {
+
+size_t wcslen(const wchar_t *src);
+
+} // namespace LIBC_NAMESPACE_DECL
+
+#endif // LLVM_LIBC_SRC_WCHAR_WCSLEN_H
diff --git a/libc/test/src/__support/File/CMakeLists.txt b/libc/test/src/__support/File/CMakeLists.txt
index 04205166bf533..a11f52978f35f 100644
--- a/libc/test/src/__support/File/CMakeLists.txt
+++ b/libc/test/src/__support/File/CMakeLists.txt
@@ -16,7 +16,7 @@ add_libc_test(
   DEPENDS
     libc.include.stdio
     libc.hdr.types.size_t
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.__support.CPP.new
     libc.src.__support.File.file
 )
diff --git a/libc/test/src/math/CMakeLists.txt b/libc/test/src/math/CMakeLists.txt
index ae8518ee4b4cc..bbcdf2363c1e2 100644
--- a/libc/test/src/math/CMakeLists.txt
+++ b/libc/test/src/math/CMakeLists.txt
@@ -104,7 +104,7 @@ add_fp_unittest(
   SRCS
     sinf16_test.cpp
   DEPENDS
-    libc.src.math.sinf16  
+    libc.src.math.sinf16
 )
 
 add_fp_unittest(
@@ -198,7 +198,7 @@ add_fp_unittest(
   SRCS
     tanf16_test.cpp
   DEPENDS
-    libc.src.math.tanf16  
+    libc.src.math.tanf16
 )
 
 add_fp_unittest(
diff --git a/libc/test/src/math/smoke/CMakeLists.txt b/libc/test/src/math/smoke/CMakeLists.txt
index e23e7f41222d4..e4501eb75fa48 100644
--- a/libc/test/src/math/smoke/CMakeLists.txt
+++ b/libc/test/src/math/smoke/CMakeLists.txt
@@ -129,7 +129,7 @@ add_fp_unittest(
     tanf16_test.cpp
   DEPENDS
     libc.src.errno.errno
-    libc.src.math.tanf16 
+    libc.src.math.tanf16
 )
 
 add_fp_unittest(
diff --git a/libc/test/src/signal/CMakeLists.txt b/libc/test/src/signal/CMakeLists.txt
index 87aa42faae8e5..a27f5b8f1000e 100644
--- a/libc/test/src/signal/CMakeLists.txt
+++ b/libc/test/src/signal/CMakeLists.txt
@@ -62,7 +62,7 @@ add_libc_unittest(
     sigaddset_test.cpp
   DEPENDS
     libc.include.signal
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.signal.sigaddset
     libc.test.UnitTest.ErrnoSetterMatcher
 )
@@ -89,7 +89,7 @@ add_libc_unittest(
     sigfillset_test.cpp
   DEPENDS
     libc.include.signal
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.signal.raise
     libc.src.signal.sigfillset
     libc.src.signal.sigprocmask
@@ -104,7 +104,7 @@ add_libc_unittest(
     sigdelset_test.cpp
   DEPENDS
     libc.include.signal
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.signal.raise
     libc.src.signal.sigdelset
     libc.src.signal.sigfillset
diff --git a/libc/test/src/stdfix/CMakeLists.txt b/libc/test/src/stdfix/CMakeLists.txt
index 60e38c9098c38..90d20438edb4b 100644
--- a/libc/test/src/stdfix/CMakeLists.txt
+++ b/libc/test/src/stdfix/CMakeLists.txt
@@ -57,7 +57,7 @@ foreach(suffix IN ITEMS hr r lr hk k lk uhr ur ulr uhk uk ulk)
       libc.src.stdfix.round${suffix}
       libc.src.__support.fixed_point.fx_bits
   )
-  
+
   add_libc_test(
     ${suffix}bits_test
     SUITE
diff --git a/libc/test/src/sys/resource/CMakeLists.txt b/libc/test/src/sys/resource/CMakeLists.txt
index 32186de4b111b..0a0f35bcbe556 100644
--- a/libc/test/src/sys/resource/CMakeLists.txt
+++ b/libc/test/src/sys/resource/CMakeLists.txt
@@ -11,7 +11,7 @@ add_libc_unittest(
   DEPENDS
     libc.include.fcntl
     libc.include.sys_resource
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.fcntl.open
     libc.src.sys.resource.getrlimit
     libc.src.sys.resource.setrlimit
diff --git a/libc/test/src/sys/select/CMakeLists.txt b/libc/test/src/sys/select/CMakeLists.txt
index 2b465d32c2c33..ff677926c7b6e 100644
--- a/libc/test/src/sys/select/CMakeLists.txt
+++ b/libc/test/src/sys/select/CMakeLists.txt
@@ -9,7 +9,7 @@ add_libc_unittest(
     select_ui_test.cpp
   DEPENDS
     libc.include.unistd
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.sys.select.select
     libc.src.unistd.read
 )
@@ -22,7 +22,7 @@ add_libc_unittest(
     select_failure_test.cpp
   DEPENDS
     libc.include.unistd
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.sys.select.select
     libc.src.unistd.read
     libc.test.UnitTest.ErrnoSetterMatcher
diff --git a/libc/test/src/sys/sendfile/CMakeLists.txt b/libc/test/src/sys/sendfile/CMakeLists.txt
index ceaa4accdd06e..06c61bca4255e 100644
--- a/libc/test/src/sys/sendfile/CMakeLists.txt
+++ b/libc/test/src/sys/sendfile/CMakeLists.txt
@@ -11,7 +11,7 @@ add_libc_unittest(
   DEPENDS
     libc.hdr.fcntl_macros
     libc.include.sys_stat
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.fcntl.open
     libc.src.sys.sendfile.sendfile
     libc.src.unistd.close
diff --git a/libc/test/src/sys/wait/CMakeLists.txt b/libc/test/src/sys/wait/CMakeLists.txt
index db737a46f0d0f..9acd74d9ce32c 100644
--- a/libc/test/src/sys/wait/CMakeLists.txt
+++ b/libc/test/src/sys/wait/CMakeLists.txt
@@ -8,7 +8,7 @@ add_libc_unittest(
     waitpid_test.cpp
   DEPENDS
     libc.include.sys_wait
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.sys.wait.waitpid
 )
 
@@ -20,6 +20,6 @@ add_libc_unittest(
     wait4_test.cpp
   DEPENDS
     libc.include.sys_wait
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.sys.wait.wait4
 )
diff --git a/libc/test/src/unistd/CMakeLists.txt b/libc/test/src/unistd/CMakeLists.txt
index c3eebdf2a877d..b01cce931a1eb 100644
--- a/libc/test/src/unistd/CMakeLists.txt
+++ b/libc/test/src/unistd/CMakeLists.txt
@@ -29,7 +29,7 @@ add_libc_unittest(
     libc.src.errno.errno
     libc.src.unistd.chdir
     libc.src.unistd.close
-    libc.src.fcntl.open 
+    libc.src.fcntl.open
     libc.test.UnitTest.ErrnoSetterMatcher
 )
 
@@ -427,7 +427,7 @@ add_libc_unittest(
     libc.include.unistd
     libc.hdr.fcntl_macros
     libc.include.sys_syscall
-    libc.src.errno.errno 
+    libc.src.errno.errno
     libc.src.unistd.__llvm_libc_syscall
     libc.test.UnitTest.ErrnoSetterMatcher
 )
diff --git a/libc/test/src/wchar/CMakeLists.txt b/libc/test/src/wchar/CMakeLists.txt
index 3cc404b9c86fc..d41e328fc9d90 100644
--- a/libc/test/src/wchar/CMakeLists.txt
+++ b/libc/test/src/wchar/CMakeLists.txt
@@ -1,5 +1,17 @@
 add_custom_target(libc_wchar_unittests)
 
+add_libc_test(
+  wcslen_test
+  SUITE
+    libc_wchar_unittests
+  SRCS
+    wcslen_test.cpp
+  DEPENDS
+    libc.hdr.types.size_t
+    libc.hdr.types.wchar_t
+    libc.src.wchar.wcslen
+)
+
 add_libc_test(
   btowc_test
   SUITE
diff --git a/libc/test/src/wchar/wcslen_test.cpp b/libc/test/src/wchar/wcslen_test.cpp
new file mode 100644
index 0000000000000..9cf446564c07e
--- /dev/null
+++ b/libc/test/src/wchar/wcslen_test.cpp
@@ -0,0 +1,20 @@
+//===-- Unittests for wcslen ----------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#include "hdr/types/size_t.h"
+#include "hdr/types/wchar_t.h"
+#include "src/wchar/wcslen.h"
+#include "test/UnitTest/Test.h"
+
+TEST(LlvmLibcWCSLenTest, EmptyString) {
+  ASSERT_EQ(size_t{0}, LIBC_NAMESPACE::wcslen(L""));
+}
+
+TEST(LlvmLibcWCSLenTest, AnyString) {
+  ASSERT_EQ(size_t{12}, LIBC_NAMESPACE::wcslen(L"Hello World!"));
+}
diff --git a/libc/utils/docgen/aio.yaml b/libc/utils/docgen/aio.yaml
index 2c381558676a1..e30c76c9dc05c 100644
--- a/libc/utils/docgen/aio.yaml
+++ b/libc/utils/docgen/aio.yaml
@@ -15,7 +15,7 @@ macros:
     in-latest-posix: ''
   LIO_WRITE:
     in-latest-posix: ''
-    
+
 functions:
   aio_cancel:
     in-latest-posix: ''
diff --git a/libc/utils/docgen/net/if.yaml b/libc/utils/docgen/net/if.yaml
index 085d27b2bb94f..ad0ad62b3f9a9 100644
--- a/libc/utils/docgen/net/if.yaml
+++ b/libc/utils/docgen/net/if.yaml
@@ -10,4 +10,4 @@ functions:
 
 macros:
   IF_NAMESIZE:
-    in-latest-posix: ''
\ No newline at end of file
+    in-latest-posix: ''
diff --git a/libc/utils/docgen/netinet/in.yaml b/libc/utils/docgen/netinet/in.yaml
index 69cab90181841..513a4eda689ee 100644
--- a/libc/utils/docgen/netinet/in.yaml
+++ b/libc/utils/docgen/netinet/in.yaml
@@ -56,4 +56,4 @@ macros:
   IN6_IS_ADDR_MC_ORGLOCAL:
     in-latest-posix: ''
   IN6_IS_ADDR_MC_GLOBAL:
-    in-latest-posix: ''
\ No newline at end of file
+    in-latest-posix: ''
diff --git a/libc/utils/docgen/sys/resource.yaml b/libc/utils/docgen/sys/resource.yaml
index 0b8ac21985326..2d7c34133b9d1 100644
--- a/libc/utils/docgen/sys/resource.yaml
+++ b/libc/utils/docgen/sys/resource.yaml
@@ -40,4 +40,4 @@ macros:
   RUSAGE_SELF:
     in-latest-posix: ''
   RUSAGE_CHILDREN:
-    in-latest-posix: ''
\ No newline at end of file
+    in-latest-posix: ''
diff --git a/libc/utils/docgen/sys/stat.yaml b/libc/utils/docgen/sys/stat.yaml
index 86dc84a1e06d2..7d38dabac1318 100644
--- a/libc/utils/docgen/sys/stat.yaml
+++ b/libc/utils/docgen/sys/stat.yaml
@@ -42,7 +42,7 @@ macros:
     in-latest-posix: ''
   S_IXGRP:
     in-latest-posix: ''
-  
+
   S_IRWXO:
     in-latest-posix: ''
   S_IROTH:
@@ -115,4 +115,4 @@ functions:
   umask:
     in-latest-posix: ''
   utimensat:
-    in-latest-posix: ''
\ No newline at end of file
+    in-latest-posix: ''
diff --git a/libc/utils/docgen/sys/time.yaml b/libc/utils/docgen/sys/time.yaml
index a1d19c3fc636c..1e3909adafea3 100644
--- a/libc/utils/docgen/sys/time.yaml
+++ b/libc/utils/docgen/sys/time.yaml
@@ -2,4 +2,4 @@ functions:
   select:
     in-latest-posix: ''
   utimes:
-    in-latest-posix: ''
\ No newline at end of file
+    in-latest-posix: ''
diff --git a/libc/utils/docgen/sys/wait.yaml b/libc/utils/docgen/sys/wait.yaml
index 91d67ad4a358b..3a50638ea4ac9 100644
--- a/libc/utils/docgen/sys/wait.yaml
+++ b/libc/utils/docgen/sys/wait.yaml
@@ -34,4 +34,4 @@ macros:
   WUNTRACED:
     in-latest-posix: ''
   WCORE_DUMPED:
-    in-latest-posix: ''
\ No newline at end of file
+    in-latest-posix: ''
diff --git a/libc/utils/docgen/termios.yaml b/libc/utils/docgen/termios.yaml
index 81dd8da9f240c..107b36423de09 100644
--- a/libc/utils/docgen/termios.yaml
+++ b/libc/utils/docgen/termios.yaml
@@ -31,7 +31,7 @@ macros:
     in-latest-posix: ''
   IGNBRK:
     in-latest-posix: ''
-  IGNCR: 
+  IGNCR:
     in-latest-posix: ''
   IGNPAR:
     in-latest-posix: ''
@@ -64,7 +64,7 @@ macros:
     in-latest-posix: ''
   OFILL:
     in-latest-posix: ''
-    
+
   NLDLY:
     in-latest-posix: ''
   NL0:
@@ -139,7 +139,7 @@ macros:
     in-latest-posix: ''
   B2400:
     in-latest-posix: ''
-  B4800:  
+  B4800:
     in-latest-posix: ''
   B9600:
     in-latest-posix: ''
@@ -231,13 +231,13 @@ functions:
     in-latest-posix: ''
   tcgetattr:
     in-latest-posix: ''
-  tcgetsid: 
+  tcgetsid:
     in-latest-posix: ''
   tcgetwinsize:
     in-latest-posix: ''
   tcsendbreak:
     in-latest-posix: ''
-  tcsetattr: 
+  tcsetattr:
     in-latest-posix: ''
   tcsetwinsize:
-    in-latest-posix: ''
\ No newline at end of file
+    in-latest-posix: ''
diff --git a/libc/utils/docgen/unistd.yaml b/libc/utils/docgen/unistd.yaml
new file mode 100644
index 0000000000000..5cdb1351322e0
--- /dev/null
+++ b/libc/utils/docgen/unistd.yaml
@@ -0,0 +1,685 @@
+macros:
+  _POSIX_VERSION:
+    in-latest-posix: ""
+  _POSIX2_VERSION:
+    in-latest-posix: ""
+  _POSIX_SUBPROFILE:
+    in-latest-posix: ""
+  _XOPEN_VERSION:
+    in-latest-posix: ""
+
+  _POSIX_ADVISORY_INFO:
+    in-latest-posix: ""
+  _POSIX_ASYNCHRONOUS_IO:
+    in-latest-posix: ""
+  _POSIX_BARRIERS:
+    in-latest-posix: ""
+  _POSIX_CHOWN_RESTRICTED:
+    in-latest-posix: ""
+  _POSIX_CLOCK_SELECTION:
+    in-latest-posix: ""
+  _POSIX_CPUTIME:
+    in-latest-posix: ""
+  _POSIX_DEVICE_CONTROL:
+    in-latest-posix: ""
+  _POSIX_FSYNC:
+    in-latest-posix: ""
+  _POSIX_IPV6:
+    in-latest-posix: ""
+  _POSIX_JOB_CONTROL:
+    in-latest-posix: ""
+  _POSIX_MAPPED_FILES:
+    in-latest-posix: ""
+  _POSIX_MEMLOCK:
+    in-latest-posix: ""
+  _POSIX_MEMLOCK_RANGE:
+    in-latest-posix: ""
+  _POSIX_MEMORY_PROTECTION:
+    in-latest-posix: ""
+  _POSIX_MESSAGE_PASSING:
+    in-latest-posix: ""
+  _POSIX_MONOTONIC_CLOCK:
+    in-latest-posix: ""
+  _POSIX_NO_TRUNC:
+    in-latest-posix: ""
+  _POSIX_PRIORITIZED_IO:
+    in-latest-posix: ""
+  _POSIX_PRIORITY_SCHEDULING:
+    in-latest-posix: ""
+  _POSIX_RAW_SOCKETS:
+    in-latest-posix: ""
+  _POSIX_READER_WRITER_LOCKS:
+    in-latest-posix: ""
+  _POSIX_REALTIME_SIGNALS:
+    in-latest-posix: ""
+  _POSIX_REGEXP:
+    in-latest-posix: ""
+  _POSIX_SAVED_IDS:
+    in-latest-posix: ""
+  _POSIX_SEMAPHORES:
+    in-latest-posix: ""
+  _POSIX_SHARED_MEMORY_OBJECTS:
+    in-latest-posix: ""
+  _POSIX_SHELL:
+    in-latest-posix: ""
+  _POSIX_SPAWN:
+    in-latest-posix: ""
+  _POSIX_SPIN_LOCKS:
+    in-latest-posix: ""
+  _POSIX_SPORADIC_SERVER:
+    in-latest-posix: ""
+  _POSIX_SYNCHRONIZED_IO:
+    in-latest-posix: ""
+  _POSIX_THREAD_ATTR_STACKADDR:
+    in-latest-posix: ""
+  _POSIX_THREAD_ATTR_STACKSIZE:
+    in-latest-posix: ""
+  _POSIX_THREAD_CPUTIME:
+    in-latest-posix: ""
+  _POSIX_THREAD_PRIO_INHERIT:
+    in-latest-posix: ""
+  _POSIX_THREAD_PRIO_PROTECT:
+    in-latest-posix: ""
+  _POSIX_THREAD_PRIORITY_SCHEDULING:
+    in-latest-posix: ""
+  _POSIX_THREAD_PROCESS_SHARED:
+    in-latest-posix: ""
+  _POSIX_THREAD_ROBUST_PRIO_INHERIT:
+    in-latest-posix: ""
+  _POSIX_THREAD_ROBUST_PRIO_PROTECT:
+    in-latest-posix: ""
+  _POSIX_THREAD_SAFE_FUNCTIONS:
+    in-latest-posix: ""
+  _POSIX_THREAD_SPORADIC_SERVER:
+    in-latest-posix: ""
+  _POSIX_THREADS:
+    in-latest-posix: ""
+  _POSIX_TIMEOUTS:
+    in-latest-posix: ""
+  _POSIX_TIMERS:
+    in-latest-posix: ""
+  _POSIX_TYPED_MEMORY_OBJECTS:
+    in-latest-posix: ""
+  _POSIX_V7_ILP32_OFF32:
+    in-latest-posix: ""
+  _POSIX_V7_ILP32_OFFBIG:
+    in-latest-posix: ""
+  _POSIX_V7_LP64_OFF64:
+    in-latest-posix: ""
+  _POSIX_V7_LPBIG_OFFBIG:
+    in-latest-posix: ""
+  _POSIX_V8_ILP32_OFF32:
+    in-latest-posix: ""
+  _POSIX_V8_ILP32_OFFBIG:
+    in-latest-posix: ""
+  _POSIX_V8_LP64_OFF64:
+    in-latest-posix: ""
+  _POSIX_V8_LPBIG_OFFBIG:
+    in-latest-posix: ""
+
+  _POSIX2_C_BIND:
+    in-latest-posix: ""
+  _POSIX2_C_DEV:
+    in-latest-posix: ""
+  _POSIX2_CHAR_TERM:
+    in-latest-posix: ""
+  _POSIX2_FORT_RUN:
+    in-latest-posix: ""
+  _POSIX2_LOCALEDEF:
+    in-latest-posix: ""
+  _POSIX2_SW_DEV:
+    in-latest-posix: ""
+  _POSIX2_UPE:
+    in-latest-posix: ""
+  _XOPEN_CRYPT:
+    in-latest-posix: ""
+  _XOPEN_ENH_I18N:
+    in-latest-posix: ""
+  _XOPEN_REALTIME:
+    in-latest-posix: ""
+  _XOPEN_REALTIME_THREADS:
+    in-latest-posix: ""
+  _XOPEN_SHM:
+    in-latest-posix: ""
+  _XOPEN_UNIX:
+    in-latest-posix: ""
+  _XOPEN_UUCP:
+    in-latest-posix: ""
+
+  _POSIX_ASYNC_IO:
+    in-latest-posix: ""
+  _POSIX_FALLOC:
+    in-latest-posix: ""
+  _POSIX_PRIO_IO:
+    in-latest-posix: ""
+  _POSIX_SYNC_IO:
+    in-latest-posix: ""
+  _POSIX_TIMESTAMP_RESOLUTION:
+    in-latest-posix: ""
+  _POSIX2_SYMLINKS:
+    in-latest-posix: ""
+
+  F_OK:
+    in-latest-posix: ""
+  R_OK:
+    in-latest-posix: ""
+  W_OK:
+    in-latest-posix: ""
+  X_OK:
+    in-latest-posix: ""
+
+  _CS_PATH:
+    in-latest-posix: ""
+  _CS_POSIX_V8_ILP32_OFF32_CFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_ILP32_OFF32_LDFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_ILP32_OFF32_LIBS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_ILP32_OFFBIG_CFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_ILP32_OFFBIG_LDFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_ILP32_OFFBIG_LIBS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_LP64_OFF64_CFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_LP64_OFF64_LDFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_LP64_OFF64_LIBS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_LPBIG_OFFBIG_CFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_LPBIG_OFFBIG_LDFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_LPBIG_OFFBIG_LIBS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_THREADS_CFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_THREADS_LDFLAGS:
+    in-latest-posix: ""
+  _CS_POSIX_V8_WIDTH_RESTRICTED_ENVS:
+    in-latest-posix: ""
+  _CS_V8_ENV:
+    in-latest-posix: ""
+
+  SEEK_END:
+    in-latest-posix: ""
+  SEEK_SET:
+    in-latest-posix: ""
+
+  F_LOCK:
+    in-latest-posix: ""
+  F_TEST:
+    in-latest-posix: ""
+  F_TLOCK:
+    in-latest-posix: ""
+  F_ULOCK:
+    in-latest-posix: ""
+
+  _PC_2_SYMLINKS:
+    in-latest-posix: ""
+  _PC_ALLOC_SIZE_MIN:
+    in-latest-posix: ""
+  _PC_ASYNC_IO:
+    in-latest-posix: ""
+  _PC_CHOWN_RESTRICTED:
+    in-latest-posix: ""
+  _PC_FALLOC:
+    in-latest-posix: ""
+  _PC_FILESIZEBITS:
+    in-latest-posix: ""
+  _PC_LINK_MAX:
+    in-latest-posix: ""
+  _PC_MAX_CANON:
+    in-latest-posix: ""
+  _PC_MAX_INPUT:
+    in-latest-posix: ""
+  _PC_NAME_MAX:
+    in-latest-posix: ""
+  _PC_NO_TRUNC:
+    in-latest-posix: ""
+  _PC_PATH_MAX:
+    in-latest-posix: ""
+  _PC_PIPE_BUF:
+    in-latest-posix: ""
+  _PC_PRIO_IO:
+    in-latest-posix: ""
+  _PC_REC_INCR_XFER_SIZE:
+    in-latest-posix: ""
+  _PC_REC_MAX_XFER_SIZE:
+    in-latest-posix: ""
+  _PC_REC_MIN_XFER_SIZE:
+    in-latest-posix: ""
+  _PC_REC_XFER_ALIGN:
+    in-latest-posix: ""
+  _PC_SYMLINK_MAX:
+    in-latest-posix: ""
+  _PC_SYNC_IO:
+    in-latest-posix: ""
+  _PC_TEXTDOMAIN_MAX:
+    in-latest-posix: ""
+  _PC_TIMESTAMP_RESOLUTION:
+    in-latest-posix: ""
+  _PC_VDISABLE:
+    in-latest-posix: ""
+
+  _SC_2_C_BIND:
+    in-latest-posix: ""
+  _SC_2_C_DEV:
+    in-latest-posix: ""
+  _SC_2_CHAR_TERM:
+    in-latest-posix: ""
+  _SC_2_FORT_RUN:
+    in-latest-posix: ""
+  _SC_2_LOCALEDEF:
+    in-latest-posix: ""
+  _SC_2_SW_DEV:
+    in-latest-posix: ""
+  _SC_2_UPE:
+    in-latest-posix: ""
+  _SC_2_VERSION:
+    in-latest-posix: ""
+  _SC_ADVISORY_INFO:
+    in-latest-posix: ""
+  _SC_AIO_LISTIO_MAX:
+    in-latest-posix: ""
+  _SC_AIO_MAX:
+    in-latest-posix: ""
+  _SC_AIO_PRIO_DELTA_MAX:
+    in-latest-posix: ""
+  _SC_ARG_MAX:
+    in-latest-posix: ""
+  _SC_ASYNCHRONOUS_IO:
+    in-latest-posix: ""
+  _SC_ATEXIT_MAX:
+    in-latest-posix: ""
+  _SC_BARRIERS:
+    in-latest-posix: ""
+  _SC_BC_BASE_MAX:
+    in-latest-posix: ""
+  _SC_BC_DIM_MAX:
+    in-latest-posix: ""
+  _SC_BC_SCALE_MAX:
+    in-latest-posix: ""
+  _SC_BC_STRING_MAX:
+    in-latest-posix: ""
+  _SC_CHILD_MAX:
+    in-latest-posix: ""
+  _SC_CLK_TCK:
+    in-latest-posix: ""
+  _SC_CLOCK_SELECTION:
+    in-latest-posix: ""
+  _SC_COLL_WEIGHTS_MAX:
+    in-latest-posix: ""
+  _SC_CPUTIME:
+    in-latest-posix: ""
+  _SC_DELAYTIMER_MAX:
+    in-latest-posix: ""
+  _SC_DEVICE_CONTROL:
+    in-latest-posix: ""
+  _SC_EXPR_NEST_MAX:
+    in-latest-posix: ""
+  _SC_FSYNC:
+    in-latest-posix: ""
+  _SC_GETGR_R_SIZE_MAX:
+    in-latest-posix: ""
+  _SC_GETPW_R_SIZE_MAX:
+    in-latest-posix: ""
+  _SC_HOST_NAME_MAX:
+    in-latest-posix: ""
+  _SC_IOV_MAX:
+    in-latest-posix: ""
+  _SC_IPV6:
+    in-latest-posix: ""
+  _SC_JOB_CONTROL:
+    in-latest-posix: ""
+  _SC_LINE_MAX:
+    in-latest-posix: ""
+  _SC_LOGIN_NAME_MAX:
+    in-latest-posix: ""
+  _SC_MAPPED_FILES:
+    in-latest-posix: ""
+  _SC_MEMLOCK:
+    in-latest-posix: ""
+  _SC_MEMLOCK_RANGE:
+    in-latest-posix: ""
+  _SC_MEMORY_PROTECTION:
+    in-latest-posix: ""
+  _SC_MESSAGE_PASSING:
+    in-latest-posix: ""
+  _SC_MONOTONIC_CLOCK:
+    in-latest-posix: ""
+  _SC_MQ_OPEN_MAX:
+    in-latest-posix: ""
+  _SC_MQ_PRIO_MAX:
+    in-latest-posix: ""
+  _SC_NGROUPS_MAX:
+    in-latest-posix: ""
+  _SC_NPROCESSORS_CONF:
+    in-latest-posix: ""
+  _SC_NPROCESSORS_ONLN:
+    in-latest-posix: ""
+  _SC_NSIG:
+    in-latest-posix: ""
+  _SC_OPEN_MAX:
+    in-latest-posix: ""
+  _SC_PAGE_SIZE:
+    in-latest-posix: ""
+  _SC_PAGESIZE:
+    in-latest-posix: ""
+  _SC_PRIORITIZED_IO:
+    in-latest-posix: ""
+  _SC_PRIORITY_SCHEDULING:
+    in-latest-posix: ""
+  _SC_RAW_SOCKETS:
+    in-latest-posix: ""
+  _SC_RE_DUP_MAX:
+    in-latest-posix: ""
+  _SC_READER_WRITER_LOCKS:
+    in-latest-posix: ""
+  _SC_REALTIME_SIGNALS:
+    in-latest-posix: ""
+  _SC_REGEXP:
+    in-latest-posix: ""
+  _SC_RTSIG_MAX:
+    in-latest-posix: ""
+  _SC_SAVED_IDS:
+    in-latest-posix: ""
+  _SC_SEM_NSEMS_MAX:
+    in-latest-posix: ""
+  _SC_SEM_VALUE_MAX:
+    in-latest-posix: ""
+  _SC_SEMAPHORES:
+    in-latest-posix: ""
+  _SC_SHARED_MEMORY_OBJECTS:
+    in-latest-posix: ""
+  _SC_SHELL:
+    in-latest-posix: ""
+  _SC_SIGQUEUE_MAX:
+    in-latest-posix: ""
+  _SC_SPAWN:
+    in-latest-posix: ""
+  _SC_SPIN_LOCKS:
+    in-latest-posix: ""
+  _SC_SPORADIC_SERVER:
+    in-latest-posix: ""
+  _SC_SS_REPL_MAX:
+    in-latest-posix: ""
+  _SC_STREAM_MAX:
+    in-latest-posix: ""
+  _SC_SYMLOOP_MAX:
+    in-latest-posix: ""
+  _SC_SYNCHRONIZED_IO:
+    in-latest-posix: ""
+  _SC_THREAD_ATTR_STACKADDR:
+    in-latest-posix: ""
+  _SC_THREAD_ATTR_STACKSIZE:
+    in-latest-posix: ""
+  _SC_THREAD_CPUTIME:
+    in-latest-posix: ""
+  _SC_THREAD_DESTRUCTOR_ITERATIONS:
+    in-latest-posix: ""
+  _SC_THREAD_KEYS_MAX:
+    in-latest-posix: ""
+  _SC_THREAD_PRIO_INHERIT:
+    in-latest-posix: ""
+  _SC_THREAD_PRIO_PROTECT:
+    in-latest-posix: ""
+  _SC_THREAD_PRIORITY_SCHEDULING:
+    in-latest-posix: ""
+  _SC_THREAD_PROCESS_SHARED:
+    in-latest-posix: ""
+  _SC_THREAD_ROBUST_PRIO_INHERIT:
+    in-latest-posix: ""
+  _SC_THREAD_ROBUST_PRIO_PROTECT:
+    in-latest-posix: ""
+  _SC_THREAD_SAFE_FUNCTIONS:
+    in-latest-posix: ""
+  _SC_THREAD_SPORADIC_SERVER:
+    in-latest-posix: ""
+  _SC_THREAD_STACK_MIN:
+    in-latest-posix: ""
+  _SC_THREAD_THREADS_MAX:
+    in-latest-posix: ""
+  _SC_THREADS:
+    in-latest-posix: ""
+  _SC_TIMEOUTS:
+    in-latest-posix: ""
+  _SC_TIMER_MAX:
+    in-latest-posix: ""
+  _SC_TIMERS:
+    in-latest-posix: ""
+  _SC_TTY_NAME_MAX:
+    in-latest-posix: ""
+  _SC_TYPED_MEMORY_OBJECTS:
+    in-latest-posix: ""
+  _SC_TZNAME_MAX:
+    in-latest-posix: ""
+  _SC_V8_ILP32_OFF32:
+    in-latest-posix: ""
+  _SC_V8_ILP32_OFFBIG:
+    in-latest-posix: ""
+  _SC_V8_LP64_OFF64:
+    in-latest-posix: ""
+  _SC_V8_LPBIG_OFFBIG:
+    in-latest-posix: ""
+  _SC_V7_ILP32_OFF32:
+    in-latest-posix: ""
+  _SC_V7_ILP32_OFFBIG:
+    in-latest-posix: ""
+  _SC_V7_LP64_OFF64:
+    in-latest-posix: ""
+  _SC_V7_LPBIG_OFFBIG:
+    in-latest-posix: ""
+  _SC_VERSION:
+    in-latest-posix: ""
+  _SC_XOPEN_CRYPT:
+    in-latest-posix: ""
+  _SC_XOPEN_ENH_I18N:
+    in-latest-posix: ""
+  _SC_XOPEN_REALTIME:
+    in-latest-posix: ""
+  _SC_XOPEN_REALTIME_THREADS:
+    in-latest-posix: ""
+  _SC_XOPEN_SHM:
+    in-latest-posix: ""
+  _SC_XOPEN_UNIX:
+    in-latest-posix: ""
+  _SC_XOPEN_UUCP:
+    in-latest-posix: ""
+  _SC_XOPEN_VERSION:
+    in-latest-posix: ""
+
+  STDERR_FILENO:
+    in-latest-posix: ""
+  STDIN_FILENO:
+    in-latest-posix: ""
+  STDOUT_FILENO:
+    in-latest-posix: ""
+  _POSIX_VDISABLE:
+    in-latest-posix: ""
+  POSIX_CLOSE_RESTART:
+    in-latest-posix: ""
+
+functions:
+  access:
+    in-latest-posix: ""
+  alarm:
+    in-latest-posix: ""
+  chdir:
+    in-latest-posix: ""
+  chown:
+    in-latest-posix: ""
+  close:
+    in-latest-posix: ""
+  confstr:
+    in-latest-posix: ""
+  crypt:
+    in-latest-posix: ""
+  dup:
+    in-latest-posix: ""
+  dup2:
+    in-latest-posix: ""
+  dup3:
+    in-latest-posix: ""
+  _exit:
+    in-latest-posix: ""
+  encrypt:
+    in-latest-posix: ""
+  execl:
+    in-latest-posix: ""
+  execle:
+    in-latest-posix: ""
+  execlp:
+    in-latest-posix: ""
+  execv:
+    in-latest-posix: ""
+  execve:
+    in-latest-posix: ""
+  execvp:
+    in-latest-posix: ""
+  faccessat:
+    in-latest-posix: ""
+  fchdir:
+    in-latest-posix: ""
+  fchown:
+    in-latest-posix: ""
+  fchownat:
+    in-latest-posix: ""
+  fdatasync:
+    in-latest-posix: ""
+  fexecve:
+    in-latest-posix: ""
+  _Fork:
+    in-latest-posix: ""
+  fork:
+    in-latest-posix: ""
+  fpathconf:
+    in-latest-posix: ""
+  fsync:
+    in-latest-posix: ""
+  ftruncate:
+    in-latest-posix: ""
+  getcwd:
+    in-latest-posix: ""
+  getegid:
+    in-latest-posix: ""
+  getentropy:
+    in-latest-posix: ""
+  geteuid:
+    in-latest-posix: ""
+  getgid:
+    in-latest-posix: ""
+  getgroups:
+    in-latest-posix: ""
+  gethostid:
+    in-latest-posix: ""
+  gethostname:
+    in-latest-posix: ""
+  getlogin:
+    in-latest-posix: ""
+  getlogin_r:
+    in-latest-posix: ""
+  getopt:
+    in-latest-posix: ""
+  getpgid:
+    in-latest-posix: ""
+  getpgrp:
+    in-latest-posix: ""
+  getpid:
+    in-latest-posix: ""
+  getppid:
+    in-latest-posix: ""
+  getresgid:
+    in-latest-posix: ""
+  getresuid:
+    in-latest-posix: ""
+  getsid:
+    in-latest-posix: ""
+  getuid:
+    in-latest-posix: ""
+  isatty:
+    in-latest-posix: ""
+  lchown:
+    in-latest-posix: ""
+  link:
+    in-latest-posix: ""
+  linkat:
+    in-latest-posix: ""
+  lockf:
+    in-latest-posix: ""
+  lseek:
+    in-latest-posix: ""
+  nice:
+    in-latest-posix: ""
+  pathconf:
+    in-latest-posix: ""
+  pause:
+    in-latest-posix: ""
+  pipe:
+    in-latest-posix: ""
+  pipe2:
+    in-latest-posix: ""
+  posix_close:
+    in-latest-posix: ""
+  pread:
+    in-latest-posix: ""
+  pwrite:
+    in-latest-posix: ""
+  read:
+    in-latest-posix: ""
+  readlink:
+    in-latest-posix: ""
+  readlinkat:
+    in-latest-posix: ""
+  rmdir:
+    in-latest-posix: ""
+  setegid:
+    in-latest-posix: ""
+  seteuid:
+    in-latest-posix: ""
+  setgid:
+    in-latest-posix: ""
+  setpgid:
+    in-latest-posix: ""
+  setregid:
+    in-latest-posix: ""
+  setresgid:
+    in-latest-posix: ""
+  setresuid:
+    in-latest-posix: ""
+  setreuid:
+    in-latest-posix: ""
+  setsid:
+    in-latest-posix: ""
+  setuid:
+    in-latest-posix: ""
+  sleep:
+    in-latest-posix: ""
+  swab:
+    in-latest-posix: ""
+  symlink:
+    in-latest-posix: ""
+  symlinkat:
+    in-latest-posix: ""
+  sync:
+    in-latest-posix: ""
+  sysconf:
+    in-latest-posix: ""
+  tcgetpgrp:
+    in-latest-posix: ""
+  tcsetpgrp:
+    in-latest-posix: ""
+  truncate:
+    in-latest-posix: ""
+  ttyname:
+    in-latest-posix: ""
+  ttyname_r:
+    in-latest-posix: ""
+  unlink:
+    in-latest-posix: ""
+  unlinkat:
+    in-latest-posix: ""
+  write:
+    in-latest-posix: ""
diff --git a/libc/utils/mathtools/worst_case.sollya b/libc/utils/mathtools/worst_case.sollya
index 3a8d11b3da44d..7cb549c760257 100644
--- a/libc/utils/mathtools/worst_case.sollya
+++ b/libc/utils/mathtools/worst_case.sollya
@@ -1,6 +1,6 @@
 // Implement WorstCase functions to compute the worst case for x mod C, with
 // the exponent of x ranges from emin to emax, and precision of x is p.
-// Adapted to Sollya from the Maple function in 
+// Adapted to Sollya from the Maple function in
 //   J-M. Muller, "Elementary Functions", 3rd ed, Section 11.3.2.
 //
 // Some examples:
@@ -8,7 +8,7 @@
 // 1) Worst case for trig range reduction fast passes:
 //
 // Single precision
-// > WorstCase(24, -6, 32, pi/32, 128); 
+// > WorstCase(24, -6, 32, pi/32, 128);
 // numbermin :  10741887
 // expmin    :  7
 // Worst case:  0x1.47d0fep30
diff --git a/libclc/amdgpu/lib/SOURCES b/libclc/amdgpu/lib/SOURCES
index b11cbdecf27b9..24f099d049cd3 100644
--- a/libclc/amdgpu/lib/SOURCES
+++ b/libclc/amdgpu/lib/SOURCES
@@ -10,5 +10,4 @@ math/half_log2.cl
 math/half_recip.cl
 math/half_rsqrt.cl
 math/half_sqrt.cl
-math/nextafter.cl
 math/sqrt.cl
diff --git a/libclc/amdgpu/lib/math/nextafter.cl b/libclc/amdgpu/lib/math/nextafter.cl
deleted file mode 100644
index 6dc117b8cdd64..0000000000000
--- a/libclc/amdgpu/lib/math/nextafter.cl
+++ /dev/null
@@ -1,15 +0,0 @@
-#include <clc/clc.h>
-#include <clc/clcmacro.h>
-#include <math/clc_nextafter.h>
-
-_CLC_DEFINE_BINARY_BUILTIN(float, nextafter, __clc_nextafter, float, float)
-
-#ifdef cl_khr_fp64
-#pragma OPENCL EXTENSION cl_khr_fp64 : enable
-_CLC_DEFINE_BINARY_BUILTIN(double, nextafter, __clc_nextafter, double, double)
-#endif
-
-#ifdef cl_khr_fp16
-#pragma OPENCL EXTENSION cl_khr_fp16 : enable
-_CLC_DEFINE_BINARY_BUILTIN(half, nextafter, __clc_nextafter, half, half)
-#endif
diff --git a/libclc/clc/include/clc/clcmacro.h b/libclc/clc/include/clc/clcmacro.h
index 676560e9efcb4..14399811bad93 100644
--- a/libclc/clc/include/clc/clcmacro.h
+++ b/libclc/clc/include/clc/clcmacro.h
@@ -159,6 +159,34 @@
   _CLC_BINARY_VECTORIZE(_CLC_OVERLOAD _CLC_DEF, RET_TYPE, FUNCTION, ARG1_TYPE, \
                         ARG2_TYPE)
 
+// FIXME: Make _CLC_DEFINE_BINARY_BUILTIN avoid scalarization by default, and
+// introduce an explicit scalarizing version.
+#define _CLC_DEFINE_BINARY_BUILTIN_NO_SCALARIZE(RET_TYPE, FUNCTION, BUILTIN,   \
+                                                ARG1_TYPE, ARG2_TYPE)          \
+  _CLC_DEF _CLC_OVERLOAD RET_TYPE FUNCTION(ARG1_TYPE x, ARG2_TYPE y) {         \
+    return BUILTIN(x, y);                                                      \
+  }                                                                            \
+  _CLC_DEF _CLC_OVERLOAD RET_TYPE##2 FUNCTION(ARG1_TYPE##2 x,                  \
+                                              ARG2_TYPE##2 y) {                \
+    return BUILTIN(x, y);                                                      \
+  }                                                                            \
+  _CLC_DEF _CLC_OVERLOAD RET_TYPE##3 FUNCTION(ARG1_TYPE##3 x,                  \
+                                              ARG2_TYPE##3 y) {                \
+    return BUILTIN(x, y);                                                      \
+  }                                                                            \
+  _CLC_DEF _CLC_OVERLOAD RET_TYPE##4 FUNCTION(ARG1_TYPE##4 x,                  \
+                                              ARG2_TYPE##4 y) {                \
+    return BUILTIN(x, y);                                                      \
+  }                                                                            \
+  _CLC_DEF _CLC_OVERLOAD RET_TYPE##8 FUNCTION(ARG1_TYPE##8 x,                  \
+                                              ARG2_TYPE##8 y) {                \
+    return BUILTIN(x, y);                                                      \
+  }                                                                            \
+  _CLC_DEF _CLC_OVERLOAD RET_TYPE##16 FUNCTION(ARG1_TYPE##16 x,                \
+                                               ARG2_TYPE##16 y) {              \
+    return BUILTIN(x, y);                                                      \
+  }
+
 #define _CLC_DEFINE_BINARY_BUILTIN_WITH_SCALAR_SECOND_ARG(                     \
     RET_TYPE, FUNCTION, BUILTIN, ARG1_TYPE, ARG2_TYPE)                         \
   _CLC_DEFINE_BINARY_BUILTIN(RET_TYPE, FUNCTION, BUILTIN, ARG1_TYPE,           \
diff --git a/libclc/clc/include/clc/math/binary_decl_with_scalar_second_arg.inc b/libclc/clc/include/clc/math/binary_decl_with_scalar_second_arg.inc
new file mode 100644
index 0000000000000..92b7b287f64bb
--- /dev/null
+++ b/libclc/clc/include/clc/math/binary_decl_with_scalar_second_arg.inc
@@ -0,0 +1,4 @@
+_CLC_OVERLOAD _CLC_DECL __CLC_GENTYPE __CLC_FUNCTION(__CLC_GENTYPE a,
+                                                     __CLC_GENTYPE b);
+_CLC_OVERLOAD _CLC_DECL __CLC_GENTYPE __CLC_FUNCTION(__CLC_GENTYPE a,
+                                                     __CLC_SCALAR_GENTYPE b);
diff --git a/libclc/clc/include/clc/math/clc_nextafter.h b/libclc/clc/include/clc/math/clc_nextafter.h
new file mode 100644
index 0000000000000..599c022c6682b
--- /dev/null
+++ b/libclc/clc/include/clc/math/clc_nextafter.h
@@ -0,0 +1,12 @@
+#ifndef __CLC_MATH_CLC_NEXTAFTER_H__
+#define __CLC_MATH_CLC_NEXTAFTER_H__
+
+#define __CLC_BODY <clc/shared/binary_decl.inc>
+#define __CLC_FUNCTION __clc_nextafter
+
+#include <clc/math/gentype.inc>
+
+#undef __CLC_BODY
+#undef __CLC_FUNCTION
+
+#endif // __CLC_MATH_CLC_NEXTAFTER_H__
diff --git a/libclc/clc/include/clc/relational/clc_isnan.h b/libclc/clc/include/clc/relational/clc_isnan.h
index 3200e593c5cff..2483a1ab25578 100644
--- a/libclc/clc/include/clc/relational/clc_isnan.h
+++ b/libclc/clc/include/clc/relational/clc_isnan.h
@@ -1,11 +1,6 @@
 #ifndef __CLC_RELATIONAL_CLC_ISNAN_H__
 #define __CLC_RELATIONAL_CLC_ISNAN_H__
 
-#if defined(CLC_CLSPV) || defined(CLC_SPIRV)
-// clspv and spir-v targets provide their own OpenCL-compatible isnan
-#define __clc_isnan isnan
-#else
-
 #include <clc/clcfunc.h>
 #include <clc/clctypes.h>
 
@@ -37,6 +32,4 @@ _CLC_VECTOR_ISNAN_DECL(short, half)
 #undef _CLC_ISNAN_DECL
 #undef _CLC_VECTOR_ISNAN_DECL
 
-#endif
-
 #endif // __CLC_RELATIONAL_CLC_ISNAN_H__
diff --git a/libclc/clc/include/clc/shared/binary_decl.inc b/libclc/clc/include/clc/shared/binary_decl.inc
new file mode 100644
index 0000000000000..50fd1df34fd24
--- /dev/null
+++ b/libclc/clc/include/clc/shared/binary_decl.inc
@@ -0,0 +1,2 @@
+_CLC_OVERLOAD _CLC_DECL __CLC_GENTYPE __CLC_FUNCTION(__CLC_GENTYPE x,
+                                                     __CLC_GENTYPE y);
diff --git a/libclc/clc/lib/clspv/SOURCES b/libclc/clc/lib/clspv/SOURCES
index c3fc03c0b3dd5..81f90a24d00d6 100644
--- a/libclc/clc/lib/clspv/SOURCES
+++ b/libclc/clc/lib/clspv/SOURCES
@@ -2,6 +2,7 @@
 ../generic/math/clc_fabs.cl
 ../generic/math/clc_floor.cl
 ../generic/math/clc_mad.cl
+../generic/math/clc_nextafter.cl
 ../generic/math/clc_rint.cl
 ../generic/math/clc_trunc.cl
 ../generic/relational/clc_select.cl
diff --git a/libclc/clc/lib/generic/SOURCES b/libclc/clc/lib/generic/SOURCES
index 877a0a390a745..59dad8e860689 100644
--- a/libclc/clc/lib/generic/SOURCES
+++ b/libclc/clc/lib/generic/SOURCES
@@ -8,6 +8,7 @@ math/clc_ceil.cl
 math/clc_fabs.cl
 math/clc_floor.cl
 math/clc_mad.cl
+math/clc_nextafter.cl
 math/clc_rint.cl
 math/clc_trunc.cl
 relational/clc_all.cl
diff --git a/libclc/clc/lib/generic/math/clc_nextafter.cl b/libclc/clc/lib/generic/math/clc_nextafter.cl
new file mode 100644
index 0000000000000..58125485bf684
--- /dev/null
+++ b/libclc/clc/lib/generic/math/clc_nextafter.cl
@@ -0,0 +1,62 @@
+#include <clc/clcmacro.h>
+#include <clc/internal/clc.h>
+#include <clc/relational/clc_isnan.h>
+
+// This file provides OpenCL C implementations of __clc_nextafter for
+// targets that don't support the clang builtin.
+
+#define CLC_AS_TYPE(x) __clc_as_##x
+
+#define NEXTAFTER(FLOAT_TYPE, UINT_TYPE, INT_TYPE, INT_TYPE_SCALAR)            \
+  _CLC_OVERLOAD _CLC_DEF FLOAT_TYPE __clc_nextafter(FLOAT_TYPE x,              \
+                                                    FLOAT_TYPE y) {            \
+    const UINT_TYPE sign_bit = (UINT_TYPE)1                                    \
+                               << (sizeof(INT_TYPE_SCALAR) * 8 - 1);           \
+    const UINT_TYPE sign_bit_mask = sign_bit - (UINT_TYPE)1;                   \
+    INT_TYPE ix = CLC_AS_TYPE(INT_TYPE)(x);                                    \
+    UINT_TYPE ax = CLC_AS_TYPE(UINT_TYPE)(ix) & sign_bit_mask;                 \
+    INT_TYPE mx = CLC_AS_TYPE(INT_TYPE)(sign_bit) - ix;                        \
+    mx = CLC_AS_TYPE(INT_TYPE)(ix) < (INT_TYPE)0 ? mx : ix;                    \
+    INT_TYPE iy = CLC_AS_TYPE(INT_TYPE)(y);                                    \
+    UINT_TYPE ay = CLC_AS_TYPE(UINT_TYPE)(iy) & sign_bit_mask;                 \
+    INT_TYPE my = CLC_AS_TYPE(INT_TYPE)(sign_bit) - iy;                        \
+    my = iy < (INT_TYPE)0 ? my : iy;                                           \
+    INT_TYPE t = mx + (mx < my ? (INT_TYPE)1 : (INT_TYPE)-1);                  \
+    INT_TYPE r = CLC_AS_TYPE(INT_TYPE)(sign_bit) - t;                          \
+    r = t < (INT_TYPE)0 ? r : t;                                               \
+    r = __clc_isnan(x) ? ix : r;                                               \
+    r = __clc_isnan(y) ? CLC_AS_TYPE(INT_TYPE)(iy) : r;                        \
+    r = ((ax | ay) == (UINT_TYPE)0 || ix == iy) ? iy : r;                      \
+    return CLC_AS_TYPE(FLOAT_TYPE)(r);                                         \
+  }
+
+NEXTAFTER(float, uint, int, int)
+NEXTAFTER(float2, uint2, int2, int)
+NEXTAFTER(float3, uint3, int3, int)
+NEXTAFTER(float4, uint4, int4, int)
+NEXTAFTER(float8, uint8, int8, int)
+NEXTAFTER(float16, uint16, int16, int)
+
+#ifdef cl_khr_fp64
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
+
+NEXTAFTER(double, ulong, long, long)
+NEXTAFTER(double2, ulong2, long2, long)
+NEXTAFTER(double3, ulong3, long3, long)
+NEXTAFTER(double4, ulong4, long4, long)
+NEXTAFTER(double8, ulong8, long8, long)
+NEXTAFTER(double16, ulong16, long16, long)
+
+#endif
+
+#ifdef cl_khr_fp16
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+
+NEXTAFTER(half, ushort, short, short)
+NEXTAFTER(half2, ushort2, short2, short)
+NEXTAFTER(half3, ushort3, short3, short)
+NEXTAFTER(half4, ushort4, short4, short)
+NEXTAFTER(half8, ushort8, short8, short)
+NEXTAFTER(half16, ushort16, short16, short)
+
+#endif
diff --git a/libclc/clc/lib/spirv/SOURCES b/libclc/clc/lib/spirv/SOURCES
index 55d109478faac..813b1e3d69937 100644
--- a/libclc/clc/lib/spirv/SOURCES
+++ b/libclc/clc/lib/spirv/SOURCES
@@ -6,6 +6,7 @@
 ../generic/math/clc_fabs.cl
 ../generic/math/clc_floor.cl
 ../generic/math/clc_mad.cl
+../generic/math/clc_nextafter.cl
 ../generic/math/clc_rint.cl
 ../generic/math/clc_trunc.cl
 ../generic/relational/clc_select.cl
diff --git a/libclc/clc/lib/spirv64/SOURCES b/libclc/clc/lib/spirv64/SOURCES
index 55d109478faac..813b1e3d69937 100644
--- a/libclc/clc/lib/spirv64/SOURCES
+++ b/libclc/clc/lib/spirv64/SOURCES
@@ -6,6 +6,7 @@
 ../generic/math/clc_fabs.cl
 ../generic/math/clc_floor.cl
 ../generic/math/clc_mad.cl
+../generic/math/clc_nextafter.cl
 ../generic/math/clc_rint.cl
 ../generic/math/clc_trunc.cl
 ../generic/relational/clc_select.cl
diff --git a/libclc/clspv/lib/SOURCES b/libclc/clspv/lib/SOURCES
index 7c369aa379e98..0d6091ce20e44 100644
--- a/libclc/clspv/lib/SOURCES
+++ b/libclc/clspv/lib/SOURCES
@@ -1,5 +1,4 @@
 math/fma.cl
-math/nextafter.cl
 shared/vstore_half.cl
 subnormal_config.cl
 ../../generic/lib/geometric/distance.cl
@@ -21,7 +20,6 @@ subnormal_config.cl
 ../../generic/lib/math/clc_fmod.cl
 ../../generic/lib/math/clc_hypot.cl
 ../../generic/lib/math/clc_ldexp.cl
-../../generic/lib/math/clc_nextafter.cl
 ../../generic/lib/math/clc_pow.cl
 ../../generic/lib/math/clc_pown.cl
 ../../generic/lib/math/clc_powr.cl
@@ -71,6 +69,7 @@ subnormal_config.cl
 ../../generic/lib/math/minmag.cl
 ../../generic/lib/math/modf.cl
 ../../generic/lib/math/nan.cl
+../../generic/lib/math/nextafter.cl
 ../../generic/lib/math/pow.cl
 ../../generic/lib/math/pown.cl
 ../../generic/lib/math/powr.cl
diff --git a/libclc/clspv/lib/math/nextafter.cl b/libclc/clspv/lib/math/nextafter.cl
deleted file mode 100644
index f05e748213620..0000000000000
--- a/libclc/clspv/lib/math/nextafter.cl
+++ /dev/null
@@ -1,5 +0,0 @@
-#include <clc/clc.h>
-#include <math/clc_nextafter.h>
-
-#define __CLC_BODY <nextafter.inc>
-#include <clc/math/gentype.inc>
diff --git a/libclc/clspv/lib/math/nextafter.inc b/libclc/clspv/lib/math/nextafter.inc
deleted file mode 100644
index ee39be53b1e17..0000000000000
--- a/libclc/clspv/lib/math/nextafter.inc
+++ /dev/null
@@ -1,3 +0,0 @@
-_CLC_DEF _CLC_OVERLOAD __CLC_GENTYPE nextafter(__CLC_GENTYPE x, __CLC_GENTYPE y) {
-  return __clc_nextafter(x, y);
-}
diff --git a/libclc/generic/include/clc/math/binary_decl.inc b/libclc/generic/include/clc/math/binary_decl.inc
deleted file mode 100644
index 41f07c3b014b7..0000000000000
--- a/libclc/generic/include/clc/math/binary_decl.inc
+++ /dev/null
@@ -1,2 +0,0 @@
-_CLC_OVERLOAD _CLC_DECL __CLC_GENTYPE __CLC_FUNCTION(__CLC_GENTYPE a, __CLC_GENTYPE b);
-_CLC_OVERLOAD _CLC_DECL __CLC_GENTYPE __CLC_FUNCTION(__CLC_GENTYPE a, __CLC_SCALAR_GENTYPE b);
diff --git a/libclc/generic/include/clc/math/fmax.h b/libclc/generic/include/clc/math/fmax.h
index 71ee859be4f94..2bb475851bae9 100644
--- a/libclc/generic/include/clc/math/fmax.h
+++ b/libclc/generic/include/clc/math/fmax.h
@@ -1,4 +1,4 @@
-#define __CLC_BODY <clc/math/binary_decl.inc>
+#define __CLC_BODY <clc/math/binary_decl_with_scalar_second_arg.inc>
 #define __CLC_FUNCTION fmax
 
 #include <clc/math/gentype.inc>
diff --git a/libclc/generic/include/clc/math/fmin.h b/libclc/generic/include/clc/math/fmin.h
index d45f572e08b02..71154cc67b99b 100644
--- a/libclc/generic/include/clc/math/fmin.h
+++ b/libclc/generic/include/clc/math/fmin.h
@@ -1,4 +1,4 @@
-#define __CLC_BODY <clc/math/binary_decl.inc>
+#define __CLC_BODY <clc/math/binary_decl_with_scalar_second_arg.inc>
 #define __CLC_FUNCTION fmin
 
 #include <clc/math/gentype.inc>
diff --git a/libclc/generic/include/math/clc_nextafter.h b/libclc/generic/include/math/clc_nextafter.h
deleted file mode 100644
index 2b674b7079568..0000000000000
--- a/libclc/generic/include/math/clc_nextafter.h
+++ /dev/null
@@ -1,7 +0,0 @@
-#define __CLC_BODY <clc/math/binary_decl.inc>
-#define __CLC_FUNCTION __clc_nextafter
-
-#include <clc/math/gentype.inc>
-
-#undef __CLC_BODY
-#undef __CLC_FUNCTION
diff --git a/libclc/generic/lib/SOURCES b/libclc/generic/lib/SOURCES
index 579e909e53d46..217e3bca48b7a 100644
--- a/libclc/generic/lib/SOURCES
+++ b/libclc/generic/lib/SOURCES
@@ -159,7 +159,6 @@ math/native_sin.cl
 math/native_sqrt.cl
 math/native_tan.cl
 math/tables.cl
-math/clc_nextafter.cl
 math/nextafter.cl
 math/clc_pow.cl
 math/pow.cl
diff --git a/libclc/generic/lib/math/clc_nextafter.cl b/libclc/generic/lib/math/clc_nextafter.cl
deleted file mode 100644
index 623eb11c18c3b..0000000000000
--- a/libclc/generic/lib/math/clc_nextafter.cl
+++ /dev/null
@@ -1,49 +0,0 @@
-#include <clc/clc.h>
-#include <clc/clcmacro.h>
-#include <clc/relational/clc_isnan.h>
-
-// This file provides OpenCL C implementations of nextafter for
-// targets that don't support the clang builtin.
-
-#define AS_TYPE(x) as_##x
-
-#define NEXTAFTER(FLOAT_TYPE, UINT_TYPE, INT_TYPE)                             \
-  _CLC_OVERLOAD _CLC_DEF FLOAT_TYPE __clc_nextafter(FLOAT_TYPE x,              \
-                                                    FLOAT_TYPE y) {            \
-    const UINT_TYPE sign_bit = (UINT_TYPE)1 << (sizeof(INT_TYPE) * 8 - 1);     \
-    const UINT_TYPE sign_bit_mask = sign_bit - 1;                              \
-    INT_TYPE ix = AS_TYPE(INT_TYPE)(x);                                        \
-    INT_TYPE ax = ix & sign_bit_mask;                                          \
-    INT_TYPE mx = sign_bit - ix;                                               \
-    mx = ix < 0 ? mx : ix;                                                     \
-    INT_TYPE iy = AS_TYPE(INT_TYPE)(y);                                        \
-    INT_TYPE ay = iy & sign_bit_mask;                                          \
-    INT_TYPE my = sign_bit - iy;                                               \
-    my = iy < 0 ? my : iy;                                                     \
-    INT_TYPE t = mx + (mx < my ? 1 : -1);                                      \
-    INT_TYPE r = sign_bit - t;                                                 \
-    r = t < 0 ? r : t;                                                         \
-    r = __clc_isnan(x) ? ix : r;                                               \
-    r = __clc_isnan(y) ? iy : r;                                               \
-    r = ((ax | ay) == 0 | ix == iy) ? iy : r;                                  \
-    return AS_TYPE(FLOAT_TYPE)(r);                                             \
-  }
-
-NEXTAFTER(float, uint, int)
-_CLC_BINARY_VECTORIZE(_CLC_OVERLOAD _CLC_DEF, float, __clc_nextafter, float,
-                      float)
-
-#ifdef cl_khr_fp64
-#pragma OPENCL EXTENSION cl_khr_fp64 : enable
-
-NEXTAFTER(double, ulong, long)
-_CLC_BINARY_VECTORIZE(_CLC_OVERLOAD _CLC_DEF, double, __clc_nextafter, double,
-                      double)
-#endif
-
-#ifdef cl_khr_fp16
-#pragma OPENCL EXTENSION cl_khr_fp16 : enable
-
-NEXTAFTER(half, ushort, short)
-_CLC_BINARY_VECTORIZE(_CLC_OVERLOAD _CLC_DEF, half, __clc_nextafter, half, half)
-#endif
diff --git a/libclc/generic/lib/math/nextafter.cl b/libclc/generic/lib/math/nextafter.cl
index cbe54cd4e2662..e0a7b4e457dc0 100644
--- a/libclc/generic/lib/math/nextafter.cl
+++ b/libclc/generic/lib/math/nextafter.cl
@@ -1,12 +1,24 @@
 #include <clc/clc.h>
-#include "../clcmacro.h"
+#include <clc/clcmacro.h>
+#include <clc/math/clc_nextafter.h>
 
-_CLC_DEFINE_BINARY_BUILTIN(float, nextafter, __builtin_nextafterf, float, float)
+_CLC_DEFINE_BINARY_BUILTIN_NO_SCALARIZE(float, nextafter, __clc_nextafter,
+                                        float, float)
 
 #ifdef cl_khr_fp64
 
 #pragma OPENCL EXTENSION cl_khr_fp64 : enable
 
-_CLC_DEFINE_BINARY_BUILTIN(double, nextafter, __builtin_nextafter, double, double)
+_CLC_DEFINE_BINARY_BUILTIN_NO_SCALARIZE(double, nextafter, __clc_nextafter,
+                                        double, double)
+
+#endif
+
+#ifdef cl_khr_fp16
+
+#pragma OPENCL EXTENSION cl_khr_fp16 : enable
+
+_CLC_DEFINE_BINARY_BUILTIN_NO_SCALARIZE(half, nextafter, __clc_nextafter, half,
+                                        half)
 
 #endif
diff --git a/libclc/ptx/lib/SOURCES b/libclc/ptx/lib/SOURCES
deleted file mode 100644
index ff5bff2cea544..0000000000000
--- a/libclc/ptx/lib/SOURCES
+++ /dev/null
@@ -1 +0,0 @@
-math/nextafter.cl
diff --git a/libclc/ptx/lib/math/nextafter.cl b/libclc/ptx/lib/math/nextafter.cl
deleted file mode 100644
index 809eecac53d8c..0000000000000
--- a/libclc/ptx/lib/math/nextafter.cl
+++ /dev/null
@@ -1,10 +0,0 @@
-#include <clc/clc.h>
-#include <clc/clcmacro.h>
-#include <math/clc_nextafter.h>
-
-_CLC_DEFINE_BINARY_BUILTIN(float, nextafter, __clc_nextafter, float, float)
-
-#ifdef cl_khr_fp64
-#pragma OPENCL EXTENSION cl_khr_fp64 : enable
-_CLC_DEFINE_BINARY_BUILTIN(double, nextafter, __clc_nextafter, double, double)
-#endif
diff --git a/libcxx/include/__algorithm/pstl.h b/libcxx/include/__algorithm/pstl.h
index 71e7f28476e4b..aa7b49de933c3 100644
--- a/libcxx/include/__algorithm/pstl.h
+++ b/libcxx/include/__algorithm/pstl.h
@@ -18,7 +18,7 @@
 _LIBCPP_PUSH_MACROS
 #include <__undef_macros>
 
-#if !defined(_LIBCPP_HAS_NO_INCOMPLETE_PSTL) && _LIBCPP_STD_VER >= 17
+#if _LIBCPP_HAS_EXPERIMENTAL_PSTL && _LIBCPP_STD_VER >= 17
 
 #  include <__functional/operations.h>
 #  include <__iterator/cpp17_iterator_concepts.h>
@@ -656,7 +656,7 @@ _LIBCPP_HIDE_FROM_ABI _ForwardOutIterator transform(
 
 _LIBCPP_END_NAMESPACE_STD
 
-#endif // !defined(_LIBCPP_HAS_NO_INCOMPLETE_PSTL) && _LIBCPP_STD_VER >= 17
+#endif // _LIBCPP_HAS_EXPERIMENTAL_PSTL && _LIBCPP_STD_VER >= 17
 
 _LIBCPP_POP_MACROS
 
diff --git a/libcxx/include/__chrono/convert_to_tm.h b/libcxx/include/__chrono/convert_to_tm.h
index 46e3650e390ea..8a16c4f996a86 100644
--- a/libcxx/include/__chrono/convert_to_tm.h
+++ b/libcxx/include/__chrono/convert_to_tm.h
@@ -175,7 +175,7 @@ _LIBCPP_HIDE_FROM_ABI _Tm __convert_to_tm(const _ChronoT& __value) {
       if (__value.hours().count() > std::numeric_limits<decltype(__result.tm_hour)>::max())
         std::__throw_format_error("Formatting hh_mm_ss, encountered an hour overflow");
     __result.tm_hour = __value.hours().count();
-#  if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#  if _LIBCPP_HAS_EXPERIMENTAL_TZDB
   } else if constexpr (same_as<_ChronoT, chrono::sys_info>) {
     // Has no time information.
   } else if constexpr (same_as<_ChronoT, chrono::local_info>) {
@@ -185,7 +185,7 @@ _LIBCPP_HIDE_FROM_ABI _Tm __convert_to_tm(const _ChronoT& __value) {
     return std::__convert_to_tm<_Tm>(
         chrono::sys_time<typename _ChronoT::duration>{__value.get_local_time().time_since_epoch()});
 #    endif
-#  endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#  endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
   } else
     static_assert(sizeof(_ChronoT) == 0, "Add the missing type specialization");
 
diff --git a/libcxx/include/__chrono/exception.h b/libcxx/include/__chrono/exception.h
index 64484fb551b77..1eb5b1b62d92c 100644
--- a/libcxx/include/__chrono/exception.h
+++ b/libcxx/include/__chrono/exception.h
@@ -14,7 +14,7 @@
 
 #include <version>
 // Enable the contents of the header only when libc++ was built with experimental features enabled.
-#if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  include <__chrono/calendar.h>
 #  include <__chrono/local_info.h>
@@ -130,6 +130,6 @@ template <class _Duration>
 
 _LIBCPP_END_NAMESPACE_STD
 
-#endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #endif // _LIBCPP___CHRONO_EXCEPTION_H
diff --git a/libcxx/include/__chrono/formatter.h b/libcxx/include/__chrono/formatter.h
index 1086dde381955..400eb8c7fdcd2 100644
--- a/libcxx/include/__chrono/formatter.h
+++ b/libcxx/include/__chrono/formatter.h
@@ -143,7 +143,7 @@ __format_sub_seconds(basic_stringstream<_CharT>& __sstr, const chrono::hh_mm_ss<
                    __value.fractional_width);
 }
 
-#    if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB) && _LIBCPP_HAS_TIME_ZONE_DATABASE && _LIBCPP_HAS_FILESYSTEM
+#    if _LIBCPP_HAS_EXPERIMENTAL_TZDB && _LIBCPP_HAS_TIME_ZONE_DATABASE && _LIBCPP_HAS_FILESYSTEM
 template <class _CharT, class _Duration, class _TimeZonePtr>
 _LIBCPP_HIDE_FROM_ABI void
 __format_sub_seconds(basic_stringstream<_CharT>& __sstr, const chrono::zoned_time<_Duration, _TimeZonePtr>& __value) {
@@ -155,7 +155,7 @@ template <class _Tp>
 consteval bool __use_fraction() {
   if constexpr (__is_time_point<_Tp>)
     return chrono::hh_mm_ss<typename _Tp::duration>::fractional_width;
-#    if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB) && _LIBCPP_HAS_TIME_ZONE_DATABASE && _LIBCPP_HAS_FILESYSTEM
+#    if _LIBCPP_HAS_EXPERIMENTAL_TZDB && _LIBCPP_HAS_TIME_ZONE_DATABASE && _LIBCPP_HAS_FILESYSTEM
   else if constexpr (__is_specialization_v<_Tp, chrono::zoned_time>)
     return chrono::hh_mm_ss<typename _Tp::duration>::fractional_width;
 #    endif
@@ -227,7 +227,7 @@ struct _LIBCPP_HIDE_FROM_ABI __time_zone {
 
 template <class _Tp>
 _LIBCPP_HIDE_FROM_ABI __time_zone __convert_to_time_zone([[maybe_unused]] const _Tp& __value) {
-#    if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    if _LIBCPP_HAS_EXPERIMENTAL_TZDB
   if constexpr (same_as<_Tp, chrono::sys_info>)
     return {__value.abbrev, __value.offset};
 #      if _LIBCPP_HAS_TIME_ZONE_DATABASE && _LIBCPP_HAS_FILESYSTEM
@@ -235,7 +235,7 @@ _LIBCPP_HIDE_FROM_ABI __time_zone __convert_to_time_zone([[maybe_unused]] const
     return __formatter::__convert_to_time_zone(__value.get_info());
 #      endif
   else
-#    endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
     return {"UTC", chrono::seconds{0}};
 }
 
@@ -443,7 +443,7 @@ _LIBCPP_HIDE_FROM_ABI constexpr bool __weekday_ok(const _Tp& __value) {
     return __value.weekday().ok();
   else if constexpr (__is_hh_mm_ss<_Tp>)
     return true;
-#    if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    if _LIBCPP_HAS_EXPERIMENTAL_TZDB
   else if constexpr (same_as<_Tp, chrono::sys_info>)
     return true;
   else if constexpr (same_as<_Tp, chrono::local_info>)
@@ -452,7 +452,7 @@ _LIBCPP_HIDE_FROM_ABI constexpr bool __weekday_ok(const _Tp& __value) {
   else if constexpr (__is_specialization_v<_Tp, chrono::zoned_time>)
     return true;
 #      endif
-#    endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
   else
     static_assert(sizeof(_Tp) == 0, "Add the missing type specialization");
 }
@@ -493,7 +493,7 @@ _LIBCPP_HIDE_FROM_ABI constexpr bool __weekday_name_ok(const _Tp& __value) {
     return __value.weekday().ok();
   else if constexpr (__is_hh_mm_ss<_Tp>)
     return true;
-#    if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    if _LIBCPP_HAS_EXPERIMENTAL_TZDB
   else if constexpr (same_as<_Tp, chrono::sys_info>)
     return true;
   else if constexpr (same_as<_Tp, chrono::local_info>)
@@ -502,7 +502,7 @@ _LIBCPP_HIDE_FROM_ABI constexpr bool __weekday_name_ok(const _Tp& __value) {
   else if constexpr (__is_specialization_v<_Tp, chrono::zoned_time>)
     return true;
 #      endif
-#    endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
   else
     static_assert(sizeof(_Tp) == 0, "Add the missing type specialization");
 }
@@ -543,7 +543,7 @@ _LIBCPP_HIDE_FROM_ABI constexpr bool __date_ok(const _Tp& __value) {
     return __value.ok();
   else if constexpr (__is_hh_mm_ss<_Tp>)
     return true;
-#    if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    if _LIBCPP_HAS_EXPERIMENTAL_TZDB
   else if constexpr (same_as<_Tp, chrono::sys_info>)
     return true;
   else if constexpr (same_as<_Tp, chrono::local_info>)
@@ -552,7 +552,7 @@ _LIBCPP_HIDE_FROM_ABI constexpr bool __date_ok(const _Tp& __value) {
   else if constexpr (__is_specialization_v<_Tp, chrono::zoned_time>)
     return true;
 #      endif
-#    endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
   else
     static_assert(sizeof(_Tp) == 0, "Add the missing type specialization");
 }
@@ -593,7 +593,7 @@ _LIBCPP_HIDE_FROM_ABI constexpr bool __month_name_ok(const _Tp& __value) {
     return __value.month().ok();
   else if constexpr (__is_hh_mm_ss<_Tp>)
     return true;
-#    if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    if _LIBCPP_HAS_EXPERIMENTAL_TZDB
   else if constexpr (same_as<_Tp, chrono::sys_info>)
     return true;
   else if constexpr (same_as<_Tp, chrono::local_info>)
@@ -602,7 +602,7 @@ _LIBCPP_HIDE_FROM_ABI constexpr bool __month_name_ok(const _Tp& __value) {
   else if constexpr (__is_specialization_v<_Tp, chrono::zoned_time>)
     return true;
 #      endif
-#    endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
   else
     static_assert(sizeof(_Tp) == 0, "Add the missing type specialization");
 }
@@ -940,7 +940,7 @@ struct formatter<chrono::hh_mm_ss<_Duration>, _CharT> : public __formatter_chron
   }
 };
 
-#    if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 template <__fmt_char_type _CharT>
 struct formatter<chrono::sys_info, _CharT> : public __formatter_chrono<_CharT> {
 public:
@@ -976,7 +976,7 @@ struct formatter<chrono::zoned_time<_Duration, _TimeZonePtr>, _CharT> : public _
   }
 };
 #      endif // _LIBCPP_HAS_TIME_ZONE_DATABASE && _LIBCPP_HAS_FILESYSTEM
-#    endif   // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    endif   // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  endif // if _LIBCPP_STD_VER >= 20
 
diff --git a/libcxx/include/__chrono/leap_second.h b/libcxx/include/__chrono/leap_second.h
index b01d9fbca8c2f..1857bef80376e 100644
--- a/libcxx/include/__chrono/leap_second.h
+++ b/libcxx/include/__chrono/leap_second.h
@@ -14,7 +14,7 @@
 
 #include <version>
 // Enable the contents of the header only when libc++ was built with experimental features enabled.
-#if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  include <__chrono/duration.h>
 #  include <__chrono/system_clock.h>
@@ -126,6 +126,6 @@ class leap_second {
 
 _LIBCPP_END_NAMESPACE_STD
 
-#endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #endif // _LIBCPP___CHRONO_LEAP_SECOND_H
diff --git a/libcxx/include/__chrono/local_info.h b/libcxx/include/__chrono/local_info.h
index cfe1448904d3f..31cf77761d6ae 100644
--- a/libcxx/include/__chrono/local_info.h
+++ b/libcxx/include/__chrono/local_info.h
@@ -14,7 +14,7 @@
 
 #include <version>
 // Enable the contents of the header only when libc++ was built with experimental features enabled.
-#if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  include <__chrono/sys_info.h>
 #  include <__config>
@@ -45,6 +45,6 @@ struct local_info {
 
 _LIBCPP_END_NAMESPACE_STD
 
-#endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #endif // _LIBCPP___CHRONO_LOCAL_INFO_H
diff --git a/libcxx/include/__chrono/ostream.h b/libcxx/include/__chrono/ostream.h
index ca6d1605d0f87..41884647f927d 100644
--- a/libcxx/include/__chrono/ostream.h
+++ b/libcxx/include/__chrono/ostream.h
@@ -269,7 +269,7 @@ operator<<(basic_ostream<_CharT, _Traits>& __os, const hh_mm_ss<_Duration> __hms
   return __os << std::format(__os.getloc(), _LIBCPP_STATICALLY_WIDEN(_CharT, "{:L%T}"), __hms);
 }
 
-#    if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 template <class _CharT, class _Traits>
 _LIBCPP_HIDE_FROM_ABI basic_ostream<_CharT, _Traits>&
@@ -314,7 +314,7 @@ operator<<(basic_ostream<_CharT, _Traits>& __os, const zoned_time<_Duration, _Ti
   return __os << std::format(__os.getloc(), _LIBCPP_STATICALLY_WIDEN(_CharT, "{:L%F %T %Z}"), __tp);
 }
 #      endif
-#    endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#    endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 } // namespace chrono
 
diff --git a/libcxx/include/__chrono/sys_info.h b/libcxx/include/__chrono/sys_info.h
index 11536cbde3a37..81e37f2b803f2 100644
--- a/libcxx/include/__chrono/sys_info.h
+++ b/libcxx/include/__chrono/sys_info.h
@@ -14,7 +14,7 @@
 
 #include <version>
 // Enable the contents of the header only when libc++ was built with experimental features enabled.
-#if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  include <__chrono/duration.h>
 #  include <__chrono/system_clock.h>
@@ -46,6 +46,6 @@ struct sys_info {
 
 _LIBCPP_END_NAMESPACE_STD
 
-#endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #endif // _LIBCPP___CHRONO_SYS_INFO_H
diff --git a/libcxx/include/__chrono/time_zone.h b/libcxx/include/__chrono/time_zone.h
index 3bfe482a14624..ab5c22eceaaf1 100644
--- a/libcxx/include/__chrono/time_zone.h
+++ b/libcxx/include/__chrono/time_zone.h
@@ -14,7 +14,7 @@
 
 #include <version>
 // Enable the contents of the header only when libc++ was built with experimental features enabled.
-#if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  include <__chrono/calendar.h>
 #  include <__chrono/duration.h>
@@ -176,6 +176,6 @@ _LIBCPP_END_NAMESPACE_STD
 
 _LIBCPP_POP_MACROS
 
-#endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #endif // _LIBCPP___CHRONO_TIME_ZONE_H
diff --git a/libcxx/include/__chrono/time_zone_link.h b/libcxx/include/__chrono/time_zone_link.h
index a408bff5decc1..cae40b07c2ca6 100644
--- a/libcxx/include/__chrono/time_zone_link.h
+++ b/libcxx/include/__chrono/time_zone_link.h
@@ -14,7 +14,7 @@
 
 #include <version>
 // Enable the contents of the header only when libc++ was built with experimental features enabled.
-#if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  include <__compare/strong_order.h>
 #  include <__config>
@@ -74,6 +74,6 @@ _LIBCPP_END_NAMESPACE_STD
 
 _LIBCPP_POP_MACROS
 
-#endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #endif // _LIBCPP___CHRONO_TIME_ZONE_LINK_H
diff --git a/libcxx/include/__chrono/tzdb.h b/libcxx/include/__chrono/tzdb.h
index 8052043e64765..fb85f66b01968 100644
--- a/libcxx/include/__chrono/tzdb.h
+++ b/libcxx/include/__chrono/tzdb.h
@@ -14,7 +14,7 @@
 
 #include <version>
 // Enable the contents of the header only when libc++ was built with experimental features enabled.
-#if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  include <__algorithm/ranges_lower_bound.h>
 #  include <__chrono/leap_second.h>
@@ -91,6 +91,6 @@ _LIBCPP_END_NAMESPACE_STD
 
 _LIBCPP_POP_MACROS
 
-#endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #endif // _LIBCPP___CHRONO_TZDB_H
diff --git a/libcxx/include/__chrono/tzdb_list.h b/libcxx/include/__chrono/tzdb_list.h
index 9c507764c97a7..2b83a6df1daf8 100644
--- a/libcxx/include/__chrono/tzdb_list.h
+++ b/libcxx/include/__chrono/tzdb_list.h
@@ -14,7 +14,7 @@
 
 #include <version>
 // Enable the contents of the header only when libc++ was built with experimental features enabled.
-#if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  include <__chrono/time_zone.h>
 #  include <__chrono/tzdb.h>
@@ -103,6 +103,6 @@ _LIBCPP_AVAILABILITY_TZDB _LIBCPP_EXPORTED_FROM_ABI const tzdb& reload_tzdb();
 
 _LIBCPP_END_NAMESPACE_STD
 
-#endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #endif // _LIBCPP___CHRONO_TZDB_LIST_H
diff --git a/libcxx/include/__chrono/zoned_time.h b/libcxx/include/__chrono/zoned_time.h
index 1deba10d96ae8..8db687a422ab1 100644
--- a/libcxx/include/__chrono/zoned_time.h
+++ b/libcxx/include/__chrono/zoned_time.h
@@ -14,7 +14,7 @@
 
 #include <version>
 // Enable the contents of the header only when libc++ was built with experimental features enabled.
-#if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#if _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #  include <__chrono/calendar.h>
 #  include <__chrono/duration.h>
@@ -223,6 +223,6 @@ _LIBCPP_END_NAMESPACE_STD
 
 _LIBCPP_POP_MACROS
 
-#endif // !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#endif // _LIBCPP_HAS_EXPERIMENTAL_TZDB
 
 #endif // _LIBCPP___CHRONO_ZONED_TIME_H
diff --git a/libcxx/include/__compare/compare_three_way_result.h b/libcxx/include/__compare/compare_three_way_result.h
index d7508073433af..6ee2eff00302d 100644
--- a/libcxx/include/__compare/compare_three_way_result.h
+++ b/libcxx/include/__compare/compare_three_way_result.h
@@ -33,7 +33,8 @@ struct _LIBCPP_HIDE_FROM_ABI __compare_three_way_result<
 };
 
 template <class _Tp, class _Up = _Tp>
-struct _LIBCPP_TEMPLATE_VIS compare_three_way_result : __compare_three_way_result<_Tp, _Up, void> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS compare_three_way_result
+    : __compare_three_way_result<_Tp, _Up, void> {};
 
 template <class _Tp, class _Up = _Tp>
 using compare_three_way_result_t = typename compare_three_way_result<_Tp, _Up>::type;
diff --git a/libcxx/include/__config b/libcxx/include/__config
index 5d5c90d7b87a7..30b2d147dc563 100644
--- a/libcxx/include/__config
+++ b/libcxx/include/__config
@@ -198,12 +198,16 @@ _LIBCPP_HARDENING_MODE_DEBUG
 
 // Incomplete features get their own specific disabling flags. This makes it
 // easier to grep for target specific flags once the feature is complete.
-#  if !defined(_LIBCPP_ENABLE_EXPERIMENTAL) && !defined(_LIBCPP_BUILDING_LIBRARY)
-#    define _LIBCPP_HAS_NO_INCOMPLETE_PSTL
-#    define _LIBCPP_HAS_NO_EXPERIMENTAL_TZDB
-#    define _LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM
+#  if defined(_LIBCPP_ENABLE_EXPERIMENTAL) || defined(_LIBCPP_BUILDING_LIBRARY)
+#    define _LIBCPP_HAS_EXPERIMENTAL_LIBRARY 1
+#  else
+#    define _LIBCPP_HAS_EXPERIMENTAL_LIBRARY 0
 #  endif
 
+#  define _LIBCPP_HAS_EXPERIMENTAL_PSTL _LIBCPP_HAS_EXPERIMENTAL_LIBRARY
+#  define _LIBCPP_HAS_EXPERIMENTAL_TZDB _LIBCPP_HAS_EXPERIMENTAL_LIBRARY
+#  define _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM _LIBCPP_HAS_EXPERIMENTAL_LIBRARY
+
 #  if defined(__MVS__)
 #    include <features.h> // for __NATIVE_ASCII_F
 #  endif
@@ -1168,6 +1172,13 @@ typedef __char32_t char32_t;
 
 #  define _LIBCPP_NODEBUG [[__gnu__::__nodebug__]]
 
+#  if __has_cpp_attribute(_Clang::__no_specializations__)
+#    define _LIBCPP_NO_SPECIALIZATIONS                                                                                 \
+      [[_Clang::__no_specializations__("Users are not allowed to specialize this standard library entity")]]
+#  else
+#    define _LIBCPP_NO_SPECIALIZATIONS
+#  endif
+
 #  if __has_attribute(__standalone_debug__)
 #    define _LIBCPP_STANDALONE_DEBUG __attribute__((__standalone_debug__))
 #  else
diff --git a/libcxx/include/__format/format_arg.h b/libcxx/include/__format/format_arg.h
index 1c530fd5a5d03..10f0ba9928ce7 100644
--- a/libcxx/include/__format/format_arg.h
+++ b/libcxx/include/__format/format_arg.h
@@ -277,7 +277,7 @@ class __basic_format_arg_value {
 };
 
 template <class _Context>
-class _LIBCPP_TEMPLATE_VIS basic_format_arg {
+class _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS basic_format_arg {
 public:
   class _LIBCPP_TEMPLATE_VIS handle;
 
diff --git a/libcxx/include/__numeric/pstl.h b/libcxx/include/__numeric/pstl.h
index 7557686a3663d..22d971ac3b483 100644
--- a/libcxx/include/__numeric/pstl.h
+++ b/libcxx/include/__numeric/pstl.h
@@ -18,7 +18,7 @@
 _LIBCPP_PUSH_MACROS
 #include <__undef_macros>
 
-#if !defined(_LIBCPP_HAS_NO_INCOMPLETE_PSTL) && _LIBCPP_STD_VER >= 17
+#if _LIBCPP_HAS_EXPERIMENTAL_PSTL && _LIBCPP_STD_VER >= 17
 
 #  include <__functional/identity.h>
 #  include <__functional/operations.h>
@@ -167,7 +167,7 @@ _LIBCPP_HIDE_FROM_ABI _Tp transform_reduce(
 
 _LIBCPP_END_NAMESPACE_STD
 
-#endif // !defined(_LIBCPP_HAS_NO_INCOMPLETE_PSTL) && _LIBCPP_STD_VER >= 17
+#endif // _LIBCPP_HAS_EXPERIMENTAL_PSTL && _LIBCPP_STD_VER >= 17
 
 _LIBCPP_POP_MACROS
 
diff --git a/libcxx/include/__ranges/range_adaptor.h b/libcxx/include/__ranges/range_adaptor.h
index d944a83406ba7..4bcb53e1a5846 100644
--- a/libcxx/include/__ranges/range_adaptor.h
+++ b/libcxx/include/__ranges/range_adaptor.h
@@ -85,7 +85,7 @@ template <_RangeAdaptorClosure _Closure, _RangeAdaptorClosure _OtherClosure>
 #  if _LIBCPP_STD_VER >= 23
 template <class _Tp>
   requires is_class_v<_Tp> && same_as<_Tp, remove_cv_t<_Tp>>
-class range_adaptor_closure : public __range_adaptor_closure<_Tp> {};
+class _LIBCPP_NO_SPECIALIZATIONS range_adaptor_closure : public __range_adaptor_closure<_Tp> {};
 #  endif // _LIBCPP_STD_VER >= 23
 
 } // namespace ranges
diff --git a/libcxx/include/__type_traits/add_cv_quals.h b/libcxx/include/__type_traits/add_cv_quals.h
index 6f671397622ad..3fbc8d935d26c 100644
--- a/libcxx/include/__type_traits/add_cv_quals.h
+++ b/libcxx/include/__type_traits/add_cv_quals.h
@@ -18,7 +18,7 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS add_const {
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS add_const {
   using type _LIBCPP_NODEBUG = const _Tp;
 };
 
@@ -28,7 +28,7 @@ using add_const_t = typename add_const<_Tp>::type;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS add_cv {
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS add_cv {
   using type _LIBCPP_NODEBUG = const volatile _Tp;
 };
 
@@ -38,7 +38,7 @@ using add_cv_t = typename add_cv<_Tp>::type;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS add_volatile {
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS add_volatile {
   using type _LIBCPP_NODEBUG = volatile _Tp;
 };
 
diff --git a/libcxx/include/__type_traits/add_lvalue_reference.h b/libcxx/include/__type_traits/add_lvalue_reference.h
index b1ee6ed73c8ac..f861420a10e05 100644
--- a/libcxx/include/__type_traits/add_lvalue_reference.h
+++ b/libcxx/include/__type_traits/add_lvalue_reference.h
@@ -40,7 +40,7 @@ using __add_lvalue_reference_t = typename __add_lvalue_reference_impl<_Tp>::type
 #endif // __has_builtin(__add_lvalue_reference)
 
 template <class _Tp>
-struct add_lvalue_reference {
+struct _LIBCPP_NO_SPECIALIZATIONS add_lvalue_reference {
   using type _LIBCPP_NODEBUG = __add_lvalue_reference_t<_Tp>;
 };
 
diff --git a/libcxx/include/__type_traits/add_pointer.h b/libcxx/include/__type_traits/add_pointer.h
index b53d8eae708e2..d10b5cf70c64d 100644
--- a/libcxx/include/__type_traits/add_pointer.h
+++ b/libcxx/include/__type_traits/add_pointer.h
@@ -41,7 +41,7 @@ using __add_pointer_t = typename __add_pointer_impl<_Tp>::type;
 #endif // !defined(_LIBCPP_WORKAROUND_OBJCXX_COMPILER_INTRINSICS) && __has_builtin(__add_pointer)
 
 template <class _Tp>
-struct add_pointer {
+struct _LIBCPP_NO_SPECIALIZATIONS add_pointer {
   using type _LIBCPP_NODEBUG = __add_pointer_t<_Tp>;
 };
 
diff --git a/libcxx/include/__type_traits/add_rvalue_reference.h b/libcxx/include/__type_traits/add_rvalue_reference.h
index d844ccc1f539d..ed4f8633bce1f 100644
--- a/libcxx/include/__type_traits/add_rvalue_reference.h
+++ b/libcxx/include/__type_traits/add_rvalue_reference.h
@@ -40,7 +40,7 @@ using __add_rvalue_reference_t = typename __add_rvalue_reference_impl<_Tp>::type
 #endif // __has_builtin(__add_rvalue_reference)
 
 template <class _Tp>
-struct add_rvalue_reference {
+struct _LIBCPP_NO_SPECIALIZATIONS add_rvalue_reference {
   using type = __add_rvalue_reference_t<_Tp>;
 };
 
diff --git a/libcxx/include/__type_traits/aligned_storage.h b/libcxx/include/__type_traits/aligned_storage.h
index 3c39a351e3501..a5851c37fde61 100644
--- a/libcxx/include/__type_traits/aligned_storage.h
+++ b/libcxx/include/__type_traits/aligned_storage.h
@@ -68,7 +68,7 @@ struct __find_max_align<__type_list<_Head, _Tail...>, _Len>
           __select_align<_Len, _Head::value, __find_max_align<__type_list<_Tail...>, _Len>::value>::value> {};
 
 template <size_t _Len, size_t _Align = __find_max_align<__all_types, _Len>::value>
-struct _LIBCPP_DEPRECATED_IN_CXX23 _LIBCPP_TEMPLATE_VIS aligned_storage {
+struct _LIBCPP_DEPRECATED_IN_CXX23 _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS aligned_storage {
   union _ALIGNAS(_Align) type {
     unsigned char __data[(_Len + _Align - 1) / _Align * _Align];
   };
diff --git a/libcxx/include/__type_traits/aligned_union.h b/libcxx/include/__type_traits/aligned_union.h
index fa7d985b56dd3..1223dc25e40a0 100644
--- a/libcxx/include/__type_traits/aligned_union.h
+++ b/libcxx/include/__type_traits/aligned_union.h
@@ -33,7 +33,7 @@ struct __static_max<_I0, _I1, _In...> {
 };
 
 template <size_t _Len, class _Type0, class... _Types>
-struct _LIBCPP_DEPRECATED_IN_CXX23 aligned_union {
+struct _LIBCPP_DEPRECATED_IN_CXX23 _LIBCPP_NO_SPECIALIZATIONS aligned_union {
   static const size_t alignment_value =
       __static_max<_LIBCPP_PREFERRED_ALIGNOF(_Type0), _LIBCPP_PREFERRED_ALIGNOF(_Types)...>::value;
   static const size_t __len = __static_max<_Len, sizeof(_Type0), sizeof(_Types)...>::value;
diff --git a/libcxx/include/__type_traits/alignment_of.h b/libcxx/include/__type_traits/alignment_of.h
index 8871c8ce110d6..9801cac2cadd2 100644
--- a/libcxx/include/__type_traits/alignment_of.h
+++ b/libcxx/include/__type_traits/alignment_of.h
@@ -20,11 +20,12 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS alignment_of : public integral_constant<size_t, _LIBCPP_ALIGNOF(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS alignment_of
+    : public integral_constant<size_t, _LIBCPP_ALIGNOF(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr size_t alignment_of_v = _LIBCPP_ALIGNOF(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr size_t alignment_of_v = _LIBCPP_ALIGNOF(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/conditional.h b/libcxx/include/__type_traits/conditional.h
index 5b5445a837427..20460c7f2e39c 100644
--- a/libcxx/include/__type_traits/conditional.h
+++ b/libcxx/include/__type_traits/conditional.h
@@ -36,13 +36,19 @@ template <bool _Cond, class _IfRes, class _ElseRes>
 using _If _LIBCPP_NODEBUG = typename _IfImpl<_Cond>::template _Select<_IfRes, _ElseRes>;
 
 template <bool _Bp, class _If, class _Then>
-struct _LIBCPP_TEMPLATE_VIS conditional {
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS conditional {
   using type _LIBCPP_NODEBUG = _If;
 };
+
+_LIBCPP_DIAGNOSTIC_PUSH
+#if __has_warning("-Winvalid-specialization")
+_LIBCPP_CLANG_DIAGNOSTIC_IGNORED("-Winvalid-specialization")
+#endif
 template <class _If, class _Then>
 struct _LIBCPP_TEMPLATE_VIS conditional<false, _If, _Then> {
   using type _LIBCPP_NODEBUG = _Then;
 };
+_LIBCPP_DIAGNOSTIC_POP
 
 #if _LIBCPP_STD_VER >= 14
 template <bool _Bp, class _IfRes, class _ElseRes>
diff --git a/libcxx/include/__type_traits/conjunction.h b/libcxx/include/__type_traits/conjunction.h
index 4001d6c12d5df..ad9656acd47ec 100644
--- a/libcxx/include/__type_traits/conjunction.h
+++ b/libcxx/include/__type_traits/conjunction.h
@@ -47,16 +47,21 @@ struct __all : _IsSame<__all_dummy<_Pred...>, __all_dummy<((void)_Pred, true)...
 #if _LIBCPP_STD_VER >= 17
 
 template <class...>
-struct conjunction : true_type {};
+struct _LIBCPP_NO_SPECIALIZATIONS conjunction : true_type {};
 
+_LIBCPP_DIAGNOSTIC_PUSH
+#  if __has_warning("-Winvalid-specialization")
+_LIBCPP_CLANG_DIAGNOSTIC_IGNORED("-Winvalid-specialization")
+#  endif
 template <class _Arg>
 struct conjunction<_Arg> : _Arg {};
 
 template <class _Arg, class... _Args>
 struct conjunction<_Arg, _Args...> : conditional_t<!bool(_Arg::value), _Arg, conjunction<_Args...>> {};
+_LIBCPP_DIAGNOSTIC_POP
 
 template <class... _Args>
-inline constexpr bool conjunction_v = conjunction<_Args...>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool conjunction_v = conjunction<_Args...>::value;
 
 #endif // _LIBCPP_STD_VER >= 17
 
diff --git a/libcxx/include/__type_traits/decay.h b/libcxx/include/__type_traits/decay.h
index da0c4d340e9bb..2fd73d3dde45d 100644
--- a/libcxx/include/__type_traits/decay.h
+++ b/libcxx/include/__type_traits/decay.h
@@ -30,7 +30,7 @@ template <class _Tp>
 using __decay_t _LIBCPP_NODEBUG = __decay(_Tp);
 
 template <class _Tp>
-struct decay {
+struct _LIBCPP_NO_SPECIALIZATIONS decay {
   using type _LIBCPP_NODEBUG = __decay_t<_Tp>;
 };
 
diff --git a/libcxx/include/__type_traits/disjunction.h b/libcxx/include/__type_traits/disjunction.h
index d579de9b98439..8e7a38413a985 100644
--- a/libcxx/include/__type_traits/disjunction.h
+++ b/libcxx/include/__type_traits/disjunction.h
@@ -46,10 +46,10 @@ using _Or _LIBCPP_NODEBUG = typename _OrImpl<sizeof...(_Args) != 0>::template _R
 #if _LIBCPP_STD_VER >= 17
 
 template <class... _Args>
-struct disjunction : _Or<_Args...> {};
+struct _LIBCPP_NO_SPECIALIZATIONS disjunction : _Or<_Args...> {};
 
 template <class... _Args>
-inline constexpr bool disjunction_v = _Or<_Args...>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool disjunction_v = _Or<_Args...>::value;
 
 #endif // _LIBCPP_STD_VER >= 17
 
diff --git a/libcxx/include/__type_traits/enable_if.h b/libcxx/include/__type_traits/enable_if.h
index 77da9622ca28f..b572092542d4a 100644
--- a/libcxx/include/__type_traits/enable_if.h
+++ b/libcxx/include/__type_traits/enable_if.h
@@ -18,11 +18,17 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <bool, class _Tp = void>
-struct _LIBCPP_TEMPLATE_VIS enable_if {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS enable_if{};
+
+_LIBCPP_DIAGNOSTIC_PUSH
+#if __has_warning("-Winvalid-specialization")
+_LIBCPP_CLANG_DIAGNOSTIC_IGNORED("-Winvalid-specialization")
+#endif
 template <class _Tp>
 struct _LIBCPP_TEMPLATE_VIS enable_if<true, _Tp> {
   typedef _Tp type;
 };
+_LIBCPP_DIAGNOSTIC_POP
 
 template <bool _Bp, class _Tp = void>
 using __enable_if_t _LIBCPP_NODEBUG = typename enable_if<_Bp, _Tp>::type;
diff --git a/libcxx/include/__type_traits/extent.h b/libcxx/include/__type_traits/extent.h
index 1c34a4db1c4b5..6f3db916f96dc 100644
--- a/libcxx/include/__type_traits/extent.h
+++ b/libcxx/include/__type_traits/extent.h
@@ -22,11 +22,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__array_extent)
 
 template <class _Tp, size_t _Dim = 0>
-struct _LIBCPP_TEMPLATE_VIS extent : integral_constant<size_t, __array_extent(_Tp, _Dim)> {};
+struct _LIBCPP_NO_SPECIALIZATIONS _LIBCPP_TEMPLATE_VIS extent : integral_constant<size_t, __array_extent(_Tp, _Dim)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp, unsigned _Ip = 0>
-inline constexpr size_t extent_v = __array_extent(_Tp, _Ip);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr size_t extent_v = __array_extent(_Tp, _Ip);
 #  endif
 
 #else // __has_builtin(__array_extent)
diff --git a/libcxx/include/__type_traits/has_unique_object_representation.h b/libcxx/include/__type_traits/has_unique_object_representation.h
index 98c440c16bf26..d92fef0b5d2ba 100644
--- a/libcxx/include/__type_traits/has_unique_object_representation.h
+++ b/libcxx/include/__type_traits/has_unique_object_representation.h
@@ -22,7 +22,7 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if _LIBCPP_STD_VER >= 17
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS has_unique_object_representations
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS has_unique_object_representations
     // TODO: We work around a Clang and GCC bug in __has_unique_object_representations by using remove_all_extents
     //       even though it should not be necessary. This was reported to the compilers:
     //         - Clang: https://github.com/llvm/llvm-project/issues/95311
@@ -31,7 +31,8 @@ struct _LIBCPP_TEMPLATE_VIS has_unique_object_representations
     : public integral_constant<bool, __has_unique_object_representations(remove_all_extents_t<_Tp>)> {};
 
 template <class _Tp>
-inline constexpr bool has_unique_object_representations_v = __has_unique_object_representations(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool has_unique_object_representations_v =
+    __has_unique_object_representations(_Tp);
 
 #endif
 
diff --git a/libcxx/include/__type_traits/has_virtual_destructor.h b/libcxx/include/__type_traits/has_virtual_destructor.h
index 4ce96e649e67a..98fa3cf692398 100644
--- a/libcxx/include/__type_traits/has_virtual_destructor.h
+++ b/libcxx/include/__type_traits/has_virtual_destructor.h
@@ -19,11 +19,12 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS has_virtual_destructor : public integral_constant<bool, __has_virtual_destructor(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS has_virtual_destructor
+    : public integral_constant<bool, __has_virtual_destructor(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool has_virtual_destructor_v = __has_virtual_destructor(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool has_virtual_destructor_v = __has_virtual_destructor(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/integral_constant.h b/libcxx/include/__type_traits/integral_constant.h
index b8c75c546aa94..8feeff630d874 100644
--- a/libcxx/include/__type_traits/integral_constant.h
+++ b/libcxx/include/__type_traits/integral_constant.h
@@ -18,7 +18,7 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp, _Tp __v>
-struct _LIBCPP_TEMPLATE_VIS integral_constant {
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS integral_constant {
   static inline _LIBCPP_CONSTEXPR const _Tp value = __v;
   typedef _Tp value_type;
   typedef integral_constant type;
diff --git a/libcxx/include/__type_traits/invoke.h b/libcxx/include/__type_traits/invoke.h
index 013293bec49b9..ba4d539ee20b0 100644
--- a/libcxx/include/__type_traits/invoke.h
+++ b/libcxx/include/__type_traits/invoke.h
@@ -278,34 +278,37 @@ _LIBCPP_HIDE_FROM_ABI _LIBCPP_CONSTEXPR_SINCE_CXX20 _Ret __invoke_r(_Args&&... _
 // is_invocable
 
 template <class _Fn, class... _Args>
-struct _LIBCPP_TEMPLATE_VIS is_invocable : bool_constant<__is_invocable_v<_Fn, _Args...>> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_invocable : bool_constant<__is_invocable_v<_Fn, _Args...>> {};
 
 template <class _Ret, class _Fn, class... _Args>
-struct _LIBCPP_TEMPLATE_VIS is_invocable_r : bool_constant<__is_invocable_r_v<_Ret, _Fn, _Args...>> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_invocable_r
+    : bool_constant<__is_invocable_r_v<_Ret, _Fn, _Args...>> {};
 
 template <class _Fn, class... _Args>
-inline constexpr bool is_invocable_v = __is_invocable_v<_Fn, _Args...>;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_invocable_v = __is_invocable_v<_Fn, _Args...>;
 
 template <class _Ret, class _Fn, class... _Args>
-inline constexpr bool is_invocable_r_v = __is_invocable_r_v<_Ret, _Fn, _Args...>;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_invocable_r_v = __is_invocable_r_v<_Ret, _Fn, _Args...>;
 
 // is_nothrow_invocable
 
 template <class _Fn, class... _Args>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_invocable : bool_constant<__nothrow_invokable<_Fn, _Args...>::value> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_invocable
+    : bool_constant<__nothrow_invokable<_Fn, _Args...>::value> {};
 
 template <class _Ret, class _Fn, class... _Args>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_invocable_r : bool_constant<__nothrow_invokable_r<_Ret, _Fn, _Args...>::value> {
-};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_invocable_r
+    : bool_constant<__nothrow_invokable_r<_Ret, _Fn, _Args...>::value> {};
 
 template <class _Fn, class... _Args>
-inline constexpr bool is_nothrow_invocable_v = is_nothrow_invocable<_Fn, _Args...>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_invocable_v = is_nothrow_invocable<_Fn, _Args...>::value;
 
 template <class _Ret, class _Fn, class... _Args>
-inline constexpr bool is_nothrow_invocable_r_v = is_nothrow_invocable_r<_Ret, _Fn, _Args...>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_invocable_r_v =
+    is_nothrow_invocable_r<_Ret, _Fn, _Args...>::value;
 
 template <class _Fn, class... _Args>
-struct _LIBCPP_TEMPLATE_VIS invoke_result : __invoke_result<_Fn, _Args...> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS invoke_result : __invoke_result<_Fn, _Args...> {};
 
 template <class _Fn, class... _Args>
 using invoke_result_t = typename invoke_result<_Fn, _Args...>::type;
diff --git a/libcxx/include/__type_traits/is_abstract.h b/libcxx/include/__type_traits/is_abstract.h
index 4aa456be1c48e..20b9e56cd60eb 100644
--- a/libcxx/include/__type_traits/is_abstract.h
+++ b/libcxx/include/__type_traits/is_abstract.h
@@ -19,11 +19,12 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_abstract : public integral_constant<bool, __is_abstract(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_abstract
+    : public integral_constant<bool, __is_abstract(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_abstract_v = __is_abstract(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_abstract_v = __is_abstract(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_aggregate.h b/libcxx/include/__type_traits/is_aggregate.h
index 4e0988071adee..b5098ee1bcf1a 100644
--- a/libcxx/include/__type_traits/is_aggregate.h
+++ b/libcxx/include/__type_traits/is_aggregate.h
@@ -21,10 +21,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if _LIBCPP_STD_VER >= 17
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_aggregate : public integral_constant<bool, __is_aggregate(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_aggregate
+    : public integral_constant<bool, __is_aggregate(_Tp)> {};
 
 template <class _Tp>
-inline constexpr bool is_aggregate_v = __is_aggregate(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_aggregate_v = __is_aggregate(_Tp);
 
 #endif // _LIBCPP_STD_VER >= 17
 
diff --git a/libcxx/include/__type_traits/is_arithmetic.h b/libcxx/include/__type_traits/is_arithmetic.h
index c9713e1840a7b..fcb31e9f5d5da 100644
--- a/libcxx/include/__type_traits/is_arithmetic.h
+++ b/libcxx/include/__type_traits/is_arithmetic.h
@@ -21,12 +21,12 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_arithmetic
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_arithmetic
     : public integral_constant<bool, is_integral<_Tp>::value || is_floating_point<_Tp>::value> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_arithmetic_v = is_arithmetic<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_arithmetic_v = is_arithmetic<_Tp>::value;
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_array.h b/libcxx/include/__type_traits/is_array.h
index f34204e19ed89..0bde0aa970f88 100644
--- a/libcxx/include/__type_traits/is_array.h
+++ b/libcxx/include/__type_traits/is_array.h
@@ -23,11 +23,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
     (!defined(_LIBCPP_COMPILER_CLANG_BASED) || (defined(_LIBCPP_CLANG_VER) && _LIBCPP_CLANG_VER >= 1900))
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_array : _BoolConstant<__is_array(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_array : _BoolConstant<__is_array(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_array_v = __is_array(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_array_v = __is_array(_Tp);
 #  endif
 
 #else
diff --git a/libcxx/include/__type_traits/is_assignable.h b/libcxx/include/__type_traits/is_assignable.h
index cfb4699777878..2a87bcc673e51 100644
--- a/libcxx/include/__type_traits/is_assignable.h
+++ b/libcxx/include/__type_traits/is_assignable.h
@@ -21,30 +21,30 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp, class _Up>
-struct _LIBCPP_TEMPLATE_VIS is_assignable : _BoolConstant<__is_assignable(_Tp, _Up)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_assignable : _BoolConstant<__is_assignable(_Tp, _Up)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp, class _Arg>
-inline constexpr bool is_assignable_v = __is_assignable(_Tp, _Arg);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_assignable_v = __is_assignable(_Tp, _Arg);
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_copy_assignable
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_copy_assignable
     : public integral_constant<bool,
                                __is_assignable(__add_lvalue_reference_t<_Tp>, __add_lvalue_reference_t<const _Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_copy_assignable_v = is_copy_assignable<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_copy_assignable_v = is_copy_assignable<_Tp>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_move_assignable
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_move_assignable
     : public integral_constant<bool, __is_assignable(__add_lvalue_reference_t<_Tp>, __add_rvalue_reference_t<_Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_move_assignable_v = is_move_assignable<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_move_assignable_v = is_move_assignable<_Tp>::value;
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_base_of.h b/libcxx/include/__type_traits/is_base_of.h
index 488b63719eb60..a48b8caded721 100644
--- a/libcxx/include/__type_traits/is_base_of.h
+++ b/libcxx/include/__type_traits/is_base_of.h
@@ -19,21 +19,23 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Bp, class _Dp>
-struct _LIBCPP_TEMPLATE_VIS is_base_of : public integral_constant<bool, __is_base_of(_Bp, _Dp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_base_of
+    : public integral_constant<bool, __is_base_of(_Bp, _Dp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Bp, class _Dp>
-inline constexpr bool is_base_of_v = __is_base_of(_Bp, _Dp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_base_of_v = __is_base_of(_Bp, _Dp);
 #endif
 
 #if _LIBCPP_STD_VER >= 26
 #  if __has_builtin(__builtin_is_virtual_base_of)
 
 template <class _Base, class _Derived>
-struct _LIBCPP_TEMPLATE_VIS is_virtual_base_of : public bool_constant<__builtin_is_virtual_base_of(_Base, _Derived)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_virtual_base_of
+    : public bool_constant<__builtin_is_virtual_base_of(_Base, _Derived)> {};
 
 template <class _Base, class _Derived>
-inline constexpr bool is_virtual_base_of_v = __builtin_is_virtual_base_of(_Base, _Derived);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_virtual_base_of_v = __builtin_is_virtual_base_of(_Base, _Derived);
 
 #  endif
 #endif
diff --git a/libcxx/include/__type_traits/is_bounded_array.h b/libcxx/include/__type_traits/is_bounded_array.h
index fd794eb9a6935..a853cc6d821ed 100644
--- a/libcxx/include/__type_traits/is_bounded_array.h
+++ b/libcxx/include/__type_traits/is_bounded_array.h
@@ -27,12 +27,18 @@ inline const bool __is_bounded_array_v<_Tp[_Np]> = true;
 #if _LIBCPP_STD_VER >= 20
 
 template <class>
-struct _LIBCPP_TEMPLATE_VIS is_bounded_array : false_type {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_bounded_array : false_type {};
+
+_LIBCPP_DIAGNOSTIC_PUSH
+#  if __has_warning("-Winvalid-specialization")
+_LIBCPP_CLANG_DIAGNOSTIC_IGNORED("-Winvalid-specialization")
+#  endif
 template <class _Tp, size_t _Np>
 struct _LIBCPP_TEMPLATE_VIS is_bounded_array<_Tp[_Np]> : true_type {};
+_LIBCPP_DIAGNOSTIC_POP
 
 template <class _Tp>
-inline constexpr bool is_bounded_array_v = is_bounded_array<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_bounded_array_v = is_bounded_array<_Tp>::value;
 
 #endif
 
diff --git a/libcxx/include/__type_traits/is_class.h b/libcxx/include/__type_traits/is_class.h
index 034f76a7865e3..5fce840058c05 100644
--- a/libcxx/include/__type_traits/is_class.h
+++ b/libcxx/include/__type_traits/is_class.h
@@ -19,11 +19,11 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_class : public integral_constant<bool, __is_class(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_class : public integral_constant<bool, __is_class(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_class_v = __is_class(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_class_v = __is_class(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_compound.h b/libcxx/include/__type_traits/is_compound.h
index cd208ceab2886..6dc22f8a91116 100644
--- a/libcxx/include/__type_traits/is_compound.h
+++ b/libcxx/include/__type_traits/is_compound.h
@@ -22,11 +22,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_compound)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_compound : _BoolConstant<__is_compound(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_compound : _BoolConstant<__is_compound(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_compound_v = __is_compound(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_compound_v = __is_compound(_Tp);
 #  endif
 
 #else // __has_builtin(__is_compound)
diff --git a/libcxx/include/__type_traits/is_const.h b/libcxx/include/__type_traits/is_const.h
index 47ef70872b790..78f98f3a96d4f 100644
--- a/libcxx/include/__type_traits/is_const.h
+++ b/libcxx/include/__type_traits/is_const.h
@@ -21,11 +21,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_const)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_const : _BoolConstant<__is_const(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_const : _BoolConstant<__is_const(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_const_v = __is_const(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_const_v = __is_const(_Tp);
 #  endif
 
 #else
diff --git a/libcxx/include/__type_traits/is_constructible.h b/libcxx/include/__type_traits/is_constructible.h
index 567bd165c7152..6c7636e0bb509 100644
--- a/libcxx/include/__type_traits/is_constructible.h
+++ b/libcxx/include/__type_traits/is_constructible.h
@@ -21,37 +21,39 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp, class... _Args>
-struct _LIBCPP_TEMPLATE_VIS is_constructible : public integral_constant<bool, __is_constructible(_Tp, _Args...)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_constructible
+    : public integral_constant<bool, __is_constructible(_Tp, _Args...)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp, class... _Args>
-inline constexpr bool is_constructible_v = __is_constructible(_Tp, _Args...);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_constructible_v = __is_constructible(_Tp, _Args...);
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_copy_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_copy_constructible
     : public integral_constant<bool, __is_constructible(_Tp, __add_lvalue_reference_t<const _Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_copy_constructible_v = is_copy_constructible<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_copy_constructible_v = is_copy_constructible<_Tp>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_move_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_move_constructible
     : public integral_constant<bool, __is_constructible(_Tp, __add_rvalue_reference_t<_Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_move_constructible_v = is_move_constructible<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_move_constructible_v = is_move_constructible<_Tp>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_default_constructible : public integral_constant<bool, __is_constructible(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_default_constructible
+    : public integral_constant<bool, __is_constructible(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_default_constructible_v = __is_constructible(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_default_constructible_v = __is_constructible(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_convertible.h b/libcxx/include/__type_traits/is_convertible.h
index 414c2a6d6a0de..61f6cf644124e 100644
--- a/libcxx/include/__type_traits/is_convertible.h
+++ b/libcxx/include/__type_traits/is_convertible.h
@@ -19,11 +19,12 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _T1, class _T2>
-struct _LIBCPP_TEMPLATE_VIS is_convertible : public integral_constant<bool, __is_convertible(_T1, _T2)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_convertible
+    : public integral_constant<bool, __is_convertible(_T1, _T2)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _From, class _To>
-inline constexpr bool is_convertible_v = __is_convertible(_From, _To);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_convertible_v = __is_convertible(_From, _To);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_destructible.h b/libcxx/include/__type_traits/is_destructible.h
index 3248b07d36ee6..5fe923d303c53 100644
--- a/libcxx/include/__type_traits/is_destructible.h
+++ b/libcxx/include/__type_traits/is_destructible.h
@@ -25,11 +25,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_destructible)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_destructible : _BoolConstant<__is_destructible(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_destructible : _BoolConstant<__is_destructible(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_destructible_v = __is_destructible(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_destructible_v = __is_destructible(_Tp);
 #  endif
 
 #else // __has_builtin(__is_destructible)
diff --git a/libcxx/include/__type_traits/is_empty.h b/libcxx/include/__type_traits/is_empty.h
index 951d93b5a2f10..8e66cd97a9f28 100644
--- a/libcxx/include/__type_traits/is_empty.h
+++ b/libcxx/include/__type_traits/is_empty.h
@@ -19,11 +19,11 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_empty : public integral_constant<bool, __is_empty(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_empty : public integral_constant<bool, __is_empty(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_empty_v = __is_empty(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_empty_v = __is_empty(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_enum.h b/libcxx/include/__type_traits/is_enum.h
index 2fab6db2c8d50..bc210ea289e62 100644
--- a/libcxx/include/__type_traits/is_enum.h
+++ b/libcxx/include/__type_traits/is_enum.h
@@ -19,20 +19,20 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_enum : public integral_constant<bool, __is_enum(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_enum : public integral_constant<bool, __is_enum(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_enum_v = __is_enum(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_enum_v = __is_enum(_Tp);
 #endif
 
 #if _LIBCPP_STD_VER >= 23
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_scoped_enum : bool_constant<__is_scoped_enum(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_scoped_enum : bool_constant<__is_scoped_enum(_Tp)> {};
 
 template <class _Tp>
-inline constexpr bool is_scoped_enum_v = __is_scoped_enum(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_scoped_enum_v = __is_scoped_enum(_Tp);
 
 #endif // _LIBCPP_STD_VER >= 23
 
diff --git a/libcxx/include/__type_traits/is_execution_policy.h b/libcxx/include/__type_traits/is_execution_policy.h
index a2d876db03092..84393e83a8efc 100644
--- a/libcxx/include/__type_traits/is_execution_policy.h
+++ b/libcxx/include/__type_traits/is_execution_policy.h
@@ -21,7 +21,7 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class>
-inline constexpr bool is_execution_policy_v = false;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_execution_policy_v = false;
 
 template <class>
 inline constexpr bool __is_unsequenced_execution_policy_impl = false;
diff --git a/libcxx/include/__type_traits/is_final.h b/libcxx/include/__type_traits/is_final.h
index 499c5e3a1edca..19d3ac3ecd35f 100644
--- a/libcxx/include/__type_traits/is_final.h
+++ b/libcxx/include/__type_traits/is_final.h
@@ -23,12 +23,12 @@ struct _LIBCPP_TEMPLATE_VIS __libcpp_is_final : public integral_constant<bool, _
 
 #if _LIBCPP_STD_VER >= 14
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_final : public integral_constant<bool, __is_final(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_final : public integral_constant<bool, __is_final(_Tp)> {};
 #endif
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_final_v = __is_final(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_final_v = __is_final(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_floating_point.h b/libcxx/include/__type_traits/is_floating_point.h
index add34782dfa09..563ecce891f22 100644
--- a/libcxx/include/__type_traits/is_floating_point.h
+++ b/libcxx/include/__type_traits/is_floating_point.h
@@ -27,11 +27,12 @@ template <>          struct __libcpp_is_floating_point<long double> : public tru
 // clang-format on
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_floating_point : public __libcpp_is_floating_point<__remove_cv_t<_Tp> > {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_floating_point
+    : public __libcpp_is_floating_point<__remove_cv_t<_Tp> > {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_floating_point_v = is_floating_point<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_floating_point_v = is_floating_point<_Tp>::value;
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_function.h b/libcxx/include/__type_traits/is_function.h
index 98fedd0ad96d9..63b842b26c4ce 100644
--- a/libcxx/include/__type_traits/is_function.h
+++ b/libcxx/include/__type_traits/is_function.h
@@ -19,11 +19,11 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_function : integral_constant<bool, __is_function(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_function : integral_constant<bool, __is_function(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_function_v = __is_function(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_function_v = __is_function(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_fundamental.h b/libcxx/include/__type_traits/is_fundamental.h
index 55f8e41f75f45..03e25474bea77 100644
--- a/libcxx/include/__type_traits/is_fundamental.h
+++ b/libcxx/include/__type_traits/is_fundamental.h
@@ -23,11 +23,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_fundamental)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_fundamental : _BoolConstant<__is_fundamental(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_fundamental : _BoolConstant<__is_fundamental(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_fundamental_v = __is_fundamental(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_fundamental_v = __is_fundamental(_Tp);
 #  endif
 
 #else // __has_builtin(__is_fundamental)
diff --git a/libcxx/include/__type_traits/is_implicit_lifetime.h b/libcxx/include/__type_traits/is_implicit_lifetime.h
index 2aba420bd2b59..8b992095f105b 100644
--- a/libcxx/include/__type_traits/is_implicit_lifetime.h
+++ b/libcxx/include/__type_traits/is_implicit_lifetime.h
@@ -22,10 +22,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #  if __has_builtin(__builtin_is_implicit_lifetime)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_implicit_lifetime : public bool_constant<__builtin_is_implicit_lifetime(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_implicit_lifetime
+    : public bool_constant<__builtin_is_implicit_lifetime(_Tp)> {};
 
 template <class _Tp>
-inline constexpr bool is_implicit_lifetime_v = __builtin_is_implicit_lifetime(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_implicit_lifetime_v = __builtin_is_implicit_lifetime(_Tp);
 
 #  endif
 #endif
diff --git a/libcxx/include/__type_traits/is_integral.h b/libcxx/include/__type_traits/is_integral.h
index 763b6ac3d1077..6ae9b31a8e9b6 100644
--- a/libcxx/include/__type_traits/is_integral.h
+++ b/libcxx/include/__type_traits/is_integral.h
@@ -50,11 +50,11 @@ template <>          struct __libcpp_is_integral<__uint128_t>        { enum { va
 #if __has_builtin(__is_integral)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_integral : _BoolConstant<__is_integral(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_integral : _BoolConstant<__is_integral(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_integral_v = __is_integral(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_integral_v = __is_integral(_Tp);
 #  endif
 
 #else
diff --git a/libcxx/include/__type_traits/is_literal_type.h b/libcxx/include/__type_traits/is_literal_type.h
index 10e23bceffbda..e78343ee2f0be 100644
--- a/libcxx/include/__type_traits/is_literal_type.h
+++ b/libcxx/include/__type_traits/is_literal_type.h
@@ -20,12 +20,12 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 
 #if _LIBCPP_STD_VER <= 17 || defined(_LIBCPP_ENABLE_CXX20_REMOVED_TYPE_TRAITS)
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS
-_LIBCPP_DEPRECATED_IN_CXX17 is_literal_type : public integral_constant<bool, __is_literal_type(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_DEPRECATED_IN_CXX17 _LIBCPP_NO_SPECIALIZATIONS is_literal_type
+    : public integral_constant<bool, __is_literal_type(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-_LIBCPP_DEPRECATED_IN_CXX17 inline constexpr bool is_literal_type_v = __is_literal_type(_Tp);
+_LIBCPP_DEPRECATED_IN_CXX17 _LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_literal_type_v = __is_literal_type(_Tp);
 #  endif // _LIBCPP_STD_VER >= 17
 #endif   // _LIBCPP_STD_VER <= 17 || defined(_LIBCPP_ENABLE_CXX20_REMOVED_TYPE_TRAITS)
 
diff --git a/libcxx/include/__type_traits/is_member_pointer.h b/libcxx/include/__type_traits/is_member_pointer.h
index 3e2753ac4228c..8a4f1fe0c736f 100644
--- a/libcxx/include/__type_traits/is_member_pointer.h
+++ b/libcxx/include/__type_traits/is_member_pointer.h
@@ -19,23 +19,25 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_member_pointer : _BoolConstant<__is_member_pointer(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_member_pointer : _BoolConstant<__is_member_pointer(_Tp)> {};
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_member_object_pointer : _BoolConstant<__is_member_object_pointer(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_member_object_pointer
+    : _BoolConstant<__is_member_object_pointer(_Tp)> {};
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_member_function_pointer : _BoolConstant<__is_member_function_pointer(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_member_function_pointer
+    : _BoolConstant<__is_member_function_pointer(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_member_pointer_v = __is_member_pointer(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_member_pointer_v = __is_member_pointer(_Tp);
 
 template <class _Tp>
-inline constexpr bool is_member_object_pointer_v = __is_member_object_pointer(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_member_object_pointer_v = __is_member_object_pointer(_Tp);
 
 template <class _Tp>
-inline constexpr bool is_member_function_pointer_v = __is_member_function_pointer(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_member_function_pointer_v = __is_member_function_pointer(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_nothrow_assignable.h b/libcxx/include/__type_traits/is_nothrow_assignable.h
index 7e00c741f83e3..4727deb6c3f85 100644
--- a/libcxx/include/__type_traits/is_nothrow_assignable.h
+++ b/libcxx/include/__type_traits/is_nothrow_assignable.h
@@ -21,34 +21,34 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp, class _Arg>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_assignable : public integral_constant<bool, __is_nothrow_assignable(_Tp, _Arg)> {
-};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_assignable
+    : public integral_constant<bool, __is_nothrow_assignable(_Tp, _Arg)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp, class _Arg>
-inline constexpr bool is_nothrow_assignable_v = __is_nothrow_assignable(_Tp, _Arg);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_assignable_v = __is_nothrow_assignable(_Tp, _Arg);
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_copy_assignable
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_copy_assignable
     : public integral_constant<
           bool,
           __is_nothrow_assignable(__add_lvalue_reference_t<_Tp>, __add_lvalue_reference_t<const _Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_nothrow_copy_assignable_v = is_nothrow_copy_assignable<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_copy_assignable_v = is_nothrow_copy_assignable<_Tp>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_move_assignable
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_move_assignable
     : public integral_constant<bool,
                                __is_nothrow_assignable(__add_lvalue_reference_t<_Tp>, __add_rvalue_reference_t<_Tp>)> {
 };
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_nothrow_move_assignable_v = is_nothrow_move_assignable<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_move_assignable_v = is_nothrow_move_assignable<_Tp>::value;
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_nothrow_constructible.h b/libcxx/include/__type_traits/is_nothrow_constructible.h
index 58d2b2475140b..1e4eebd006ec1 100644
--- a/libcxx/include/__type_traits/is_nothrow_constructible.h
+++ b/libcxx/include/__type_traits/is_nothrow_constructible.h
@@ -21,39 +21,42 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template < class _Tp, class... _Args>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_constructible
     : public integral_constant<bool, __is_nothrow_constructible(_Tp, _Args...)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp, class... _Args>
-inline constexpr bool is_nothrow_constructible_v = is_nothrow_constructible<_Tp, _Args...>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_constructible_v =
+    is_nothrow_constructible<_Tp, _Args...>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_copy_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_copy_constructible
     : public integral_constant< bool, __is_nothrow_constructible(_Tp, __add_lvalue_reference_t<const _Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_nothrow_copy_constructible_v = is_nothrow_copy_constructible<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_copy_constructible_v =
+    is_nothrow_copy_constructible<_Tp>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_move_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_move_constructible
     : public integral_constant<bool, __is_nothrow_constructible(_Tp, __add_rvalue_reference_t<_Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_nothrow_move_constructible_v = is_nothrow_move_constructible<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_move_constructible_v =
+    is_nothrow_move_constructible<_Tp>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_default_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_default_constructible
     : public integral_constant<bool, __is_nothrow_constructible(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_nothrow_default_constructible_v = __is_nothrow_constructible(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_default_constructible_v = __is_nothrow_constructible(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_nothrow_convertible.h b/libcxx/include/__type_traits/is_nothrow_convertible.h
index bfc5a94cbadec..8b1aacf8f2876 100644
--- a/libcxx/include/__type_traits/is_nothrow_convertible.h
+++ b/libcxx/include/__type_traits/is_nothrow_convertible.h
@@ -29,10 +29,10 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #  if __has_builtin(__is_nothrow_convertible)
 
 template <class _Tp, class _Up>
-struct is_nothrow_convertible : bool_constant<__is_nothrow_convertible(_Tp, _Up)> {};
+struct _LIBCPP_NO_SPECIALIZATIONS is_nothrow_convertible : bool_constant<__is_nothrow_convertible(_Tp, _Up)> {};
 
 template <class _Tp, class _Up>
-inline constexpr bool is_nothrow_convertible_v = __is_nothrow_convertible(_Tp, _Up);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_convertible_v = __is_nothrow_convertible(_Tp, _Up);
 
 #  else // __has_builtin(__is_nothrow_convertible)
 
diff --git a/libcxx/include/__type_traits/is_nothrow_destructible.h b/libcxx/include/__type_traits/is_nothrow_destructible.h
index 41271a38f3711..a363ad6b4af3b 100644
--- a/libcxx/include/__type_traits/is_nothrow_destructible.h
+++ b/libcxx/include/__type_traits/is_nothrow_destructible.h
@@ -24,7 +24,8 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_nothrow_destructible)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_destructible : integral_constant<bool, __is_nothrow_destructible(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_destructible
+    : integral_constant<bool, __is_nothrow_destructible(_Tp)> {};
 
 #else
 
@@ -55,7 +56,7 @@ struct _LIBCPP_TEMPLATE_VIS is_nothrow_destructible<_Tp&&> : public true_type {}
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_nothrow_destructible_v = is_nothrow_destructible<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_destructible_v = is_nothrow_destructible<_Tp>::value;
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_null_pointer.h b/libcxx/include/__type_traits/is_null_pointer.h
index abc5d142562f1..fc6c6a69de338 100644
--- a/libcxx/include/__type_traits/is_null_pointer.h
+++ b/libcxx/include/__type_traits/is_null_pointer.h
@@ -24,11 +24,12 @@ inline const bool __is_null_pointer_v = __is_same(__remove_cv(_Tp), nullptr_t);
 
 #if _LIBCPP_STD_VER >= 14
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_null_pointer : integral_constant<bool, __is_null_pointer_v<_Tp>> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_null_pointer
+    : integral_constant<bool, __is_null_pointer_v<_Tp>> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_null_pointer_v = __is_null_pointer_v<_Tp>;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_null_pointer_v = __is_null_pointer_v<_Tp>;
 #  endif
 #endif // _LIBCPP_STD_VER >= 14
 
diff --git a/libcxx/include/__type_traits/is_object.h b/libcxx/include/__type_traits/is_object.h
index ec04508402ce5..eba4ab5cb8806 100644
--- a/libcxx/include/__type_traits/is_object.h
+++ b/libcxx/include/__type_traits/is_object.h
@@ -19,11 +19,11 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_object : _BoolConstant<__is_object(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_object : _BoolConstant<__is_object(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_object_v = __is_object(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_object_v = __is_object(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_pod.h b/libcxx/include/__type_traits/is_pod.h
index 5888fbf457d8b..a57662400394a 100644
--- a/libcxx/include/__type_traits/is_pod.h
+++ b/libcxx/include/__type_traits/is_pod.h
@@ -19,11 +19,11 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_pod : public integral_constant<bool, __is_pod(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_pod : public integral_constant<bool, __is_pod(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_pod_v = __is_pod(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_pod_v = __is_pod(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_pointer.h b/libcxx/include/__type_traits/is_pointer.h
index 9701e57807cf6..5647bf4045ff3 100644
--- a/libcxx/include/__type_traits/is_pointer.h
+++ b/libcxx/include/__type_traits/is_pointer.h
@@ -22,11 +22,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_pointer)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_pointer : _BoolConstant<__is_pointer(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_pointer : _BoolConstant<__is_pointer(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_pointer_v = __is_pointer(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_pointer_v = __is_pointer(_Tp);
 #  endif
 
 #else // __has_builtin(__is_pointer)
diff --git a/libcxx/include/__type_traits/is_polymorphic.h b/libcxx/include/__type_traits/is_polymorphic.h
index d122e1c87775b..17e9c21c0d6a1 100644
--- a/libcxx/include/__type_traits/is_polymorphic.h
+++ b/libcxx/include/__type_traits/is_polymorphic.h
@@ -19,11 +19,12 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_polymorphic : public integral_constant<bool, __is_polymorphic(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_polymorphic
+    : public integral_constant<bool, __is_polymorphic(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_polymorphic_v = __is_polymorphic(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_polymorphic_v = __is_polymorphic(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_reference.h b/libcxx/include/__type_traits/is_reference.h
index cc157a438e491..564e888b77c13 100644
--- a/libcxx/include/__type_traits/is_reference.h
+++ b/libcxx/include/__type_traits/is_reference.h
@@ -19,26 +19,28 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_reference : _BoolConstant<__is_reference(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_reference : _BoolConstant<__is_reference(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_reference_v = __is_reference(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_reference_v = __is_reference(_Tp);
 #endif
 
 #if __has_builtin(__is_lvalue_reference) && __has_builtin(__is_rvalue_reference)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_lvalue_reference : _BoolConstant<__is_lvalue_reference(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_lvalue_reference : _BoolConstant<__is_lvalue_reference(_Tp)> {
+};
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_rvalue_reference : _BoolConstant<__is_rvalue_reference(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_rvalue_reference : _BoolConstant<__is_rvalue_reference(_Tp)> {
+};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_lvalue_reference_v = __is_lvalue_reference(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_lvalue_reference_v = __is_lvalue_reference(_Tp);
 template <class _Tp>
-inline constexpr bool is_rvalue_reference_v = __is_rvalue_reference(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_rvalue_reference_v = __is_rvalue_reference(_Tp);
 #  endif
 
 #else // __has_builtin(__is_lvalue_reference)
diff --git a/libcxx/include/__type_traits/is_same.h b/libcxx/include/__type_traits/is_same.h
index 400f870904d2d..befab8999ae26 100644
--- a/libcxx/include/__type_traits/is_same.h
+++ b/libcxx/include/__type_traits/is_same.h
@@ -19,11 +19,11 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp, class _Up>
-struct _LIBCPP_TEMPLATE_VIS is_same : _BoolConstant<__is_same(_Tp, _Up)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_same : _BoolConstant<__is_same(_Tp, _Up)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp, class _Up>
-inline constexpr bool is_same_v = __is_same(_Tp, _Up);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_same_v = __is_same(_Tp, _Up);
 #endif
 
 // _IsSame<T,U> has the same effect as is_same<T,U> but instantiates fewer types:
diff --git a/libcxx/include/__type_traits/is_scalar.h b/libcxx/include/__type_traits/is_scalar.h
index 242023a6877c9..6ef57e1dd22d5 100644
--- a/libcxx/include/__type_traits/is_scalar.h
+++ b/libcxx/include/__type_traits/is_scalar.h
@@ -26,11 +26,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_scalar)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_scalar : _BoolConstant<__is_scalar(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_scalar : _BoolConstant<__is_scalar(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_scalar_v = __is_scalar(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_scalar_v = __is_scalar(_Tp);
 #  endif
 
 #else // __has_builtin(__is_scalar)
diff --git a/libcxx/include/__type_traits/is_signed.h b/libcxx/include/__type_traits/is_signed.h
index fd6f93e182362..535324fdbfc14 100644
--- a/libcxx/include/__type_traits/is_signed.h
+++ b/libcxx/include/__type_traits/is_signed.h
@@ -23,11 +23,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_signed)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_signed : _BoolConstant<__is_signed(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_signed : _BoolConstant<__is_signed(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_signed_v = __is_signed(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_signed_v = __is_signed(_Tp);
 #  endif
 
 #else // __has_builtin(__is_signed)
diff --git a/libcxx/include/__type_traits/is_standard_layout.h b/libcxx/include/__type_traits/is_standard_layout.h
index 76484f3e2a301..e70d0f365416e 100644
--- a/libcxx/include/__type_traits/is_standard_layout.h
+++ b/libcxx/include/__type_traits/is_standard_layout.h
@@ -19,11 +19,12 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_standard_layout : public integral_constant<bool, __is_standard_layout(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_standard_layout
+    : public integral_constant<bool, __is_standard_layout(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_standard_layout_v = __is_standard_layout(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_standard_layout_v = __is_standard_layout(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_swappable.h b/libcxx/include/__type_traits/is_swappable.h
index aa5eecd9abe0f..c7527814cffb9 100644
--- a/libcxx/include/__type_traits/is_swappable.h
+++ b/libcxx/include/__type_traits/is_swappable.h
@@ -74,30 +74,33 @@ inline const bool __is_nothrow_swappable_with_v<_Tp, _Up, true> =
 #if _LIBCPP_STD_VER >= 17
 
 template <class _Tp, class _Up>
-inline constexpr bool is_swappable_with_v = __is_swappable_with_v<_Tp, _Up>;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_swappable_with_v = __is_swappable_with_v<_Tp, _Up>;
 
 template <class _Tp, class _Up>
-struct _LIBCPP_TEMPLATE_VIS is_swappable_with : bool_constant<is_swappable_with_v<_Tp, _Up>> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_swappable_with
+    : bool_constant<is_swappable_with_v<_Tp, _Up>> {};
 
 template <class _Tp>
-inline constexpr bool is_swappable_v =
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_swappable_v =
     is_swappable_with_v<__add_lvalue_reference_t<_Tp>, __add_lvalue_reference_t<_Tp>>;
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_swappable : bool_constant<is_swappable_v<_Tp>> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_swappable : bool_constant<is_swappable_v<_Tp>> {};
 
 template <class _Tp, class _Up>
-inline constexpr bool is_nothrow_swappable_with_v = __is_nothrow_swappable_with_v<_Tp, _Up>;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_swappable_with_v = __is_nothrow_swappable_with_v<_Tp, _Up>;
 
 template <class _Tp, class _Up>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_swappable_with : bool_constant<is_nothrow_swappable_with_v<_Tp, _Up>> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_swappable_with
+    : bool_constant<is_nothrow_swappable_with_v<_Tp, _Up>> {};
 
 template <class _Tp>
-inline constexpr bool is_nothrow_swappable_v =
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_nothrow_swappable_v =
     is_nothrow_swappable_with_v<__add_lvalue_reference_t<_Tp>, __add_lvalue_reference_t<_Tp>>;
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_nothrow_swappable : bool_constant<is_nothrow_swappable_v<_Tp>> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_nothrow_swappable
+    : bool_constant<is_nothrow_swappable_v<_Tp>> {};
 
 #endif // _LIBCPP_STD_VER >= 17
 
diff --git a/libcxx/include/__type_traits/is_trivial.h b/libcxx/include/__type_traits/is_trivial.h
index 0007c7446d5e5..a4ca2d6b26d0e 100644
--- a/libcxx/include/__type_traits/is_trivial.h
+++ b/libcxx/include/__type_traits/is_trivial.h
@@ -19,11 +19,12 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_trivial : public integral_constant<bool, __is_trivial(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_trivial : public integral_constant<bool, __is_trivial(_Tp)> {
+};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_trivial_v = __is_trivial(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivial_v = __is_trivial(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_trivially_assignable.h b/libcxx/include/__type_traits/is_trivially_assignable.h
index 7720c3e637506..d91b6d89c7e21 100644
--- a/libcxx/include/__type_traits/is_trivially_assignable.h
+++ b/libcxx/include/__type_traits/is_trivially_assignable.h
@@ -21,33 +21,36 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp, class _Arg>
-struct is_trivially_assignable : integral_constant<bool, __is_trivially_assignable(_Tp, _Arg)> {};
+struct _LIBCPP_NO_SPECIALIZATIONS is_trivially_assignable
+    : integral_constant<bool, __is_trivially_assignable(_Tp, _Arg)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp, class _Arg>
-inline constexpr bool is_trivially_assignable_v = __is_trivially_assignable(_Tp, _Arg);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivially_assignable_v = __is_trivially_assignable(_Tp, _Arg);
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_trivially_copy_assignable
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_trivially_copy_assignable
     : public integral_constant<
           bool,
           __is_trivially_assignable(__add_lvalue_reference_t<_Tp>, __add_lvalue_reference_t<const _Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_trivially_copy_assignable_v = is_trivially_copy_assignable<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivially_copy_assignable_v =
+    is_trivially_copy_assignable<_Tp>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_trivially_move_assignable
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_trivially_move_assignable
     : public integral_constant<
           bool,
           __is_trivially_assignable(__add_lvalue_reference_t<_Tp>, __add_rvalue_reference_t<_Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_trivially_move_assignable_v = is_trivially_move_assignable<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivially_move_assignable_v =
+    is_trivially_move_assignable<_Tp>::value;
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_trivially_constructible.h b/libcxx/include/__type_traits/is_trivially_constructible.h
index 3a77e9fe164da..4a212d462b63f 100644
--- a/libcxx/include/__type_traits/is_trivially_constructible.h
+++ b/libcxx/include/__type_traits/is_trivially_constructible.h
@@ -21,39 +21,43 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp, class... _Args>
-struct _LIBCPP_TEMPLATE_VIS is_trivially_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_trivially_constructible
     : integral_constant<bool, __is_trivially_constructible(_Tp, _Args...)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp, class... _Args>
-inline constexpr bool is_trivially_constructible_v = __is_trivially_constructible(_Tp, _Args...);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivially_constructible_v =
+    __is_trivially_constructible(_Tp, _Args...);
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_trivially_copy_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_trivially_copy_constructible
     : public integral_constant<bool, __is_trivially_constructible(_Tp, __add_lvalue_reference_t<const _Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_trivially_copy_constructible_v = is_trivially_copy_constructible<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivially_copy_constructible_v =
+    is_trivially_copy_constructible<_Tp>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_trivially_move_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_trivially_move_constructible
     : public integral_constant<bool, __is_trivially_constructible(_Tp, __add_rvalue_reference_t<_Tp>)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_trivially_move_constructible_v = is_trivially_move_constructible<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivially_move_constructible_v =
+    is_trivially_move_constructible<_Tp>::value;
 #endif
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_trivially_default_constructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_trivially_default_constructible
     : public integral_constant<bool, __is_trivially_constructible(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_trivially_default_constructible_v = __is_trivially_constructible(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivially_default_constructible_v =
+    __is_trivially_constructible(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_trivially_copyable.h b/libcxx/include/__type_traits/is_trivially_copyable.h
index 8eb3ba7581af1..72f1d6beae5d4 100644
--- a/libcxx/include/__type_traits/is_trivially_copyable.h
+++ b/libcxx/include/__type_traits/is_trivially_copyable.h
@@ -20,11 +20,12 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_trivially_copyable : public integral_constant<bool, __is_trivially_copyable(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_trivially_copyable
+    : public integral_constant<bool, __is_trivially_copyable(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_trivially_copyable_v = __is_trivially_copyable(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivially_copyable_v = __is_trivially_copyable(_Tp);
 #endif
 
 template <class _Tp>
diff --git a/libcxx/include/__type_traits/is_trivially_destructible.h b/libcxx/include/__type_traits/is_trivially_destructible.h
index 5f9652f2a5011..3bca575528e66 100644
--- a/libcxx/include/__type_traits/is_trivially_destructible.h
+++ b/libcxx/include/__type_traits/is_trivially_destructible.h
@@ -22,7 +22,7 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_trivially_destructible)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_trivially_destructible
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_trivially_destructible
     : public integral_constant<bool, __is_trivially_destructible(_Tp)> {};
 
 #elif __has_builtin(__has_trivial_destructor)
@@ -39,7 +39,7 @@ struct _LIBCPP_TEMPLATE_VIS is_trivially_destructible
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_trivially_destructible_v = is_trivially_destructible<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_trivially_destructible_v = is_trivially_destructible<_Tp>::value;
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_unbounded_array.h b/libcxx/include/__type_traits/is_unbounded_array.h
index b0879476bd23e..65a6e1a5276ab 100644
--- a/libcxx/include/__type_traits/is_unbounded_array.h
+++ b/libcxx/include/__type_traits/is_unbounded_array.h
@@ -26,12 +26,18 @@ inline const bool __is_unbounded_array_v<_Tp[]> = true;
 #if _LIBCPP_STD_VER >= 20
 
 template <class>
-struct _LIBCPP_TEMPLATE_VIS is_unbounded_array : false_type {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_unbounded_array : false_type {};
+
+_LIBCPP_DIAGNOSTIC_PUSH
+#  if __has_warning("-Winvalid-specialization")
+_LIBCPP_CLANG_DIAGNOSTIC_IGNORED("-Winvalid-specialization")
+#  endif
 template <class _Tp>
 struct _LIBCPP_TEMPLATE_VIS is_unbounded_array<_Tp[]> : true_type {};
+_LIBCPP_DIAGNOSTIC_POP
 
 template <class _Tp>
-inline constexpr bool is_unbounded_array_v = is_unbounded_array<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_unbounded_array_v = is_unbounded_array<_Tp>::value;
 
 #endif
 
diff --git a/libcxx/include/__type_traits/is_union.h b/libcxx/include/__type_traits/is_union.h
index 1f009d993545b..4be5ae0118397 100644
--- a/libcxx/include/__type_traits/is_union.h
+++ b/libcxx/include/__type_traits/is_union.h
@@ -19,11 +19,11 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_union : public integral_constant<bool, __is_union(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_union : public integral_constant<bool, __is_union(_Tp)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_union_v = __is_union(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_union_v = __is_union(_Tp);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_unsigned.h b/libcxx/include/__type_traits/is_unsigned.h
index 48c5751ed70d8..be855ee1d7fde 100644
--- a/libcxx/include/__type_traits/is_unsigned.h
+++ b/libcxx/include/__type_traits/is_unsigned.h
@@ -23,11 +23,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_unsigned)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_unsigned : _BoolConstant<__is_unsigned(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_unsigned : _BoolConstant<__is_unsigned(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_unsigned_v = __is_unsigned(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_unsigned_v = __is_unsigned(_Tp);
 #  endif
 
 #else // __has_builtin(__is_unsigned)
diff --git a/libcxx/include/__type_traits/is_void.h b/libcxx/include/__type_traits/is_void.h
index 562faae9fba2c..48d73ce49ac5c 100644
--- a/libcxx/include/__type_traits/is_void.h
+++ b/libcxx/include/__type_traits/is_void.h
@@ -19,11 +19,11 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_void : _BoolConstant<__is_same(__remove_cv(_Tp), void)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_void : _BoolConstant<__is_same(__remove_cv(_Tp), void)> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_void_v = __is_same(__remove_cv(_Tp), void);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_void_v = __is_same(__remove_cv(_Tp), void);
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/is_volatile.h b/libcxx/include/__type_traits/is_volatile.h
index 87960a819c8fc..033d1e3f3b865 100644
--- a/libcxx/include/__type_traits/is_volatile.h
+++ b/libcxx/include/__type_traits/is_volatile.h
@@ -21,11 +21,11 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 #if __has_builtin(__is_volatile)
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS is_volatile : _BoolConstant<__is_volatile(_Tp)> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS is_volatile : _BoolConstant<__is_volatile(_Tp)> {};
 
 #  if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr bool is_volatile_v = __is_volatile(_Tp);
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool is_volatile_v = __is_volatile(_Tp);
 #  endif
 
 #else
diff --git a/libcxx/include/__type_traits/make_signed.h b/libcxx/include/__type_traits/make_signed.h
index 42614a420f9fb..dff23d880dc30 100644
--- a/libcxx/include/__type_traits/make_signed.h
+++ b/libcxx/include/__type_traits/make_signed.h
@@ -70,7 +70,7 @@ using __make_signed_t = __copy_cv_t<_Tp, typename __make_signed<__remove_cv_t<_T
 #endif // __has_builtin(__make_signed)
 
 template <class _Tp>
-struct make_signed {
+struct _LIBCPP_NO_SPECIALIZATIONS make_signed {
   using type _LIBCPP_NODEBUG = __make_signed_t<_Tp>;
 };
 
diff --git a/libcxx/include/__type_traits/make_unsigned.h b/libcxx/include/__type_traits/make_unsigned.h
index 50928b03b0eb6..a83baa658e294 100644
--- a/libcxx/include/__type_traits/make_unsigned.h
+++ b/libcxx/include/__type_traits/make_unsigned.h
@@ -72,7 +72,7 @@ using __make_unsigned_t = __copy_cv_t<_Tp, typename __make_unsigned<__remove_cv_
 #endif // __has_builtin(__make_unsigned)
 
 template <class _Tp>
-struct make_unsigned {
+struct _LIBCPP_NO_SPECIALIZATIONS make_unsigned {
   using type _LIBCPP_NODEBUG = __make_unsigned_t<_Tp>;
 };
 
diff --git a/libcxx/include/__type_traits/negation.h b/libcxx/include/__type_traits/negation.h
index a72e62d3f96e0..a745a999a8bfb 100644
--- a/libcxx/include/__type_traits/negation.h
+++ b/libcxx/include/__type_traits/negation.h
@@ -23,9 +23,9 @@ struct _Not : _BoolConstant<!_Pred::value> {};
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-struct negation : _Not<_Tp> {};
+struct _LIBCPP_NO_SPECIALIZATIONS negation : _Not<_Tp> {};
 template <class _Tp>
-inline constexpr bool negation_v = !_Tp::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr bool negation_v = !_Tp::value;
 #endif // _LIBCPP_STD_VER >= 17
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/rank.h b/libcxx/include/__type_traits/rank.h
index aeeedec40dee5..1745660ce5ef7 100644
--- a/libcxx/include/__type_traits/rank.h
+++ b/libcxx/include/__type_traits/rank.h
@@ -28,17 +28,23 @@ struct rank : integral_constant<size_t, __array_rank(_Tp)> {};
 #else
 
 template <class _Tp>
-struct _LIBCPP_TEMPLATE_VIS rank : public integral_constant<size_t, 0> {};
+struct _LIBCPP_TEMPLATE_VIS _LIBCPP_NO_SPECIALIZATIONS rank : public integral_constant<size_t, 0> {};
+
+_LIBCPP_DIAGNOSTIC_PUSH
+#  if __has_warning("-Winvalid-specialization")
+_LIBCPP_CLANG_DIAGNOSTIC_IGNORED("-Winvalid-specialization")
+#  endif
 template <class _Tp>
 struct _LIBCPP_TEMPLATE_VIS rank<_Tp[]> : public integral_constant<size_t, rank<_Tp>::value + 1> {};
 template <class _Tp, size_t _Np>
 struct _LIBCPP_TEMPLATE_VIS rank<_Tp[_Np]> : public integral_constant<size_t, rank<_Tp>::value + 1> {};
+_LIBCPP_DIAGNOSTIC_POP
 
 #endif // __has_builtin(__array_rank)
 
 #if _LIBCPP_STD_VER >= 17
 template <class _Tp>
-inline constexpr size_t rank_v = rank<_Tp>::value;
+_LIBCPP_NO_SPECIALIZATIONS inline constexpr size_t rank_v = rank<_Tp>::value;
 #endif
 
 _LIBCPP_END_NAMESPACE_STD
diff --git a/libcxx/include/__type_traits/remove_all_extents.h b/libcxx/include/__type_traits/remove_all_extents.h
index d46a3228b4ab5..cb40ea4e4e1e0 100644
--- a/libcxx/include/__type_traits/remove_all_extents.h
+++ b/libcxx/include/__type_traits/remove_all_extents.h
@@ -20,7 +20,7 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 
 #if __has_builtin(__remove_all_extents)
 template <class _Tp>
-struct remove_all_extents {
+struct _LIBCPP_NO_SPECIALIZATIONS remove_all_extents {
   using type _LIBCPP_NODEBUG = __remove_all_extents(_Tp);
 };
 
diff --git a/libcxx/include/__type_traits/remove_const.h b/libcxx/include/__type_traits/remove_const.h
index 6250d9f531170..37315c5229ee8 100644
--- a/libcxx/include/__type_traits/remove_const.h
+++ b/libcxx/include/__type_traits/remove_const.h
@@ -19,7 +19,7 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 
 #if __has_builtin(__remove_const)
 template <class _Tp>
-struct remove_const {
+struct _LIBCPP_NO_SPECIALIZATIONS remove_const {
   using type _LIBCPP_NODEBUG = __remove_const(_Tp);
 };
 
diff --git a/libcxx/include/__type_traits/remove_cv.h b/libcxx/include/__type_traits/remove_cv.h
index 16848e6d71128..0beaf3367ecba 100644
--- a/libcxx/include/__type_traits/remove_cv.h
+++ b/libcxx/include/__type_traits/remove_cv.h
@@ -18,7 +18,7 @@
 _LIBCPP_BEGIN_NAMESPACE_STD
 
 template <class _Tp>
-struct remove_cv {
+struct _LIBCPP_NO_SPECIALIZATIONS remove_cv {
   using type _LIBCPP_NODEBUG = __remove_cv(_Tp);
 };
 
diff --git a/libcxx/include/__type_traits/remove_cvref.h b/libcxx/include/__type_traits/remove_cvref.h
index 25ee853aaf2fc..760deddca946d 100644
--- a/libcxx/include/__type_traits/remove_cvref.h
+++ b/libcxx/include/__type_traits/remove_cvref.h
@@ -36,7 +36,7 @@ using __is_same_uncvref _LIBCPP_NODEBUG = _IsSame<__remove_cvref_t<_Tp>, __remov
 
 #if _LIBCPP_STD_VER >= 20
 template <class _Tp>
-struct remove_cvref {
+struct _LIBCPP_NO_SPECIALIZATIONS remove_cvref {
   using type _LIBCPP_NODEBUG = __remove_cvref(_Tp);
 };
 
diff --git a/libcxx/include/__type_traits/remove_extent.h b/libcxx/include/__type_traits/remove_extent.h
index 95a7971d7a9c2..636e392c9b107 100644
--- a/libcxx/include/__type_traits/remove_extent.h
+++ b/libcxx/include/__type_traits/remove_extent.h
@@ -20,7 +20,7 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 
 #if __has_builtin(__remove_extent)
 template <class _Tp>
-struct remove_extent {
+struct _LIBCPP_NO_SPECIALIZATIONS remove_extent {
   using type _LIBCPP_NODEBUG = __remove_extent(_Tp);
 };
 
diff --git a/libcxx/include/__type_traits/remove_pointer.h b/libcxx/include/__type_traits/remove_pointer.h
index 47cd1cd1d80fa..2f7ac151e9376 100644
--- a/libcxx/include/__type_traits/remove_pointer.h
+++ b/libcxx/include/__type_traits/remove_pointer.h
@@ -19,7 +19,7 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 
 #if !defined(_LIBCPP_WORKAROUND_OBJCXX_COMPILER_INTRINSICS) && __has_builtin(__remove_pointer)
 template <class _Tp>
-struct remove_pointer {
+struct _LIBCPP_NO_SPECIALIZATIONS remove_pointer {
   using type _LIBCPP_NODEBUG = __remove_pointer(_Tp);
 };
 
diff --git a/libcxx/include/__type_traits/remove_reference.h b/libcxx/include/__type_traits/remove_reference.h
index f68815691ac0f..7cc3ca1705de2 100644
--- a/libcxx/include/__type_traits/remove_reference.h
+++ b/libcxx/include/__type_traits/remove_reference.h
@@ -19,7 +19,7 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 
 #if __has_builtin(__remove_reference_t)
 template <class _Tp>
-struct remove_reference {
+struct _LIBCPP_NO_SPECIALIZATIONS remove_reference {
   using type _LIBCPP_NODEBUG = __remove_reference_t(_Tp);
 };
 
diff --git a/libcxx/include/__type_traits/remove_volatile.h b/libcxx/include/__type_traits/remove_volatile.h
index 099945df01241..5d73f7e5d241c 100644
--- a/libcxx/include/__type_traits/remove_volatile.h
+++ b/libcxx/include/__type_traits/remove_volatile.h
@@ -19,7 +19,7 @@ _LIBCPP_BEGIN_NAMESPACE_STD
 
 #if __has_builtin(__remove_volatile)
 template <class _Tp>
-struct remove_volatile {
+struct _LIBCPP_NO_SPECIALIZATIONS remove_volatile {
   using type _LIBCPP_NODEBUG = __remove_volatile(_Tp);
 };
 
diff --git a/libcxx/include/__type_traits/type_identity.h b/libcxx/include/__type_traits/type_identity.h
index b0b5a1277d596..f526aef4d5b2f 100644
--- a/libcxx/include/__type_traits/type_identity.h
+++ b/libcxx/include/__type_traits/type_identity.h
@@ -27,7 +27,7 @@ using __type_identity_t _LIBCPP_NODEBUG = typename __type_identity<_Tp>::type;
 
 #if _LIBCPP_STD_VER >= 20
 template <class _Tp>
-struct type_identity {
+struct _LIBCPP_NO_SPECIALIZATIONS type_identity {
   typedef _Tp type;
 };
 template <class _Tp>
diff --git a/libcxx/include/__type_traits/underlying_type.h b/libcxx/include/__type_traits/underlying_type.h
index 16e7501dee17d..45a9b40e3e4c9 100644
--- a/libcxx/include/__type_traits/underlying_type.h
+++ b/libcxx/include/__type_traits/underlying_type.h
@@ -30,7 +30,7 @@ struct __underlying_type_impl<_Tp, true> {
 };
 
 template <class _Tp>
-struct underlying_type : __underlying_type_impl<_Tp, is_enum<_Tp>::value> {};
+struct _LIBCPP_NO_SPECIALIZATIONS underlying_type : __underlying_type_impl<_Tp, is_enum<_Tp>::value> {};
 
 #if _LIBCPP_STD_VER >= 14
 template <class _Tp>
diff --git a/libcxx/include/__type_traits/unwrap_ref.h b/libcxx/include/__type_traits/unwrap_ref.h
index 11a069d663023..e8ca2b5028f6c 100644
--- a/libcxx/include/__type_traits/unwrap_ref.h
+++ b/libcxx/include/__type_traits/unwrap_ref.h
@@ -34,13 +34,13 @@ using __unwrap_ref_decay_t _LIBCPP_NODEBUG = typename __unwrap_reference<__decay
 
 #if _LIBCPP_STD_VER >= 20
 template <class _Tp>
-struct unwrap_reference : __unwrap_reference<_Tp> {};
+struct _LIBCPP_NO_SPECIALIZATIONS unwrap_reference : __unwrap_reference<_Tp> {};
 
 template <class _Tp>
 using unwrap_reference_t = typename unwrap_reference<_Tp>::type;
 
 template <class _Tp>
-struct unwrap_ref_decay : unwrap_reference<__decay_t<_Tp> > {};
+struct _LIBCPP_NO_SPECIALIZATIONS unwrap_ref_decay : unwrap_reference<__decay_t<_Tp> > {};
 
 template <class _Tp>
 using unwrap_ref_decay_t = __unwrap_ref_decay_t<_Tp>;
diff --git a/libcxx/include/execution b/libcxx/include/execution
index 7c695997cd047..88fca9af6e33c 100644
--- a/libcxx/include/execution
+++ b/libcxx/include/execution
@@ -45,7 +45,7 @@ namespace std {
 #    pragma GCC system_header
 #  endif
 
-#  if !defined(_LIBCPP_HAS_NO_INCOMPLETE_PSTL) && _LIBCPP_STD_VER >= 17
+#  if _LIBCPP_HAS_EXPERIMENTAL_PSTL && _LIBCPP_STD_VER >= 17
 
 _LIBCPP_BEGIN_NAMESPACE_STD
 
@@ -96,6 +96,10 @@ inline constexpr unsequenced_policy unseq{__disable_user_instantiations_tag{}};
 
 } // namespace execution
 
+_LIBCPP_DIAGNOSTIC_PUSH
+#    if __has_warning("-Winvalid-specialization")
+_LIBCPP_CLANG_DIAGNOSTIC_IGNORED("-Winvalid-specialization")
+#    endif
 template <>
 inline constexpr bool is_execution_policy_v<execution::sequenced_policy> = true;
 
@@ -107,6 +111,7 @@ inline constexpr bool is_execution_policy_v<execution::parallel_unsequenced_poli
 
 template <>
 inline constexpr bool is_execution_policy_v<execution::__unsequenced_policy> = true;
+_LIBCPP_DIAGNOSTIC_POP
 
 template <>
 inline constexpr bool __is_parallel_execution_policy_impl<execution::parallel_policy> = true;
@@ -121,8 +126,13 @@ template <>
 inline constexpr bool __is_unsequenced_execution_policy_impl<execution::parallel_unsequenced_policy> = true;
 
 #    if _LIBCPP_STD_VER >= 20
+_LIBCPP_DIAGNOSTIC_PUSH
+#      if __has_warning("-Winvalid-specialization")
+_LIBCPP_CLANG_DIAGNOSTIC_IGNORED("-Winvalid-specialization")
+#      endif
 template <>
 inline constexpr bool is_execution_policy_v<execution::unsequenced_policy> = true;
+_LIBCPP_DIAGNOSTIC_POP
 
 template <>
 inline constexpr bool __is_unsequenced_execution_policy_impl<execution::unsequenced_policy> = true;
@@ -130,7 +140,7 @@ inline constexpr bool __is_unsequenced_execution_policy_impl<execution::unsequen
 #    endif
 
 template <class _Tp>
-struct is_execution_policy : bool_constant<is_execution_policy_v<_Tp>> {};
+struct _LIBCPP_NO_SPECIALIZATIONS is_execution_policy : bool_constant<is_execution_policy_v<_Tp>> {};
 
 template <class _ExecutionPolicy>
 _LIBCPP_HIDE_FROM_ABI auto __remove_parallel_policy(const _ExecutionPolicy&) {
@@ -143,7 +153,7 @@ _LIBCPP_HIDE_FROM_ABI auto __remove_parallel_policy(const _ExecutionPolicy&) {
 
 _LIBCPP_END_NAMESPACE_STD
 
-#  endif // !defined(_LIBCPP_HAS_NO_INCOMPLETE_PSTL) && _LIBCPP_STD_VER >= 17
+#  endif // _LIBCPP_HAS_EXPERIMENTAL_PSTL && _LIBCPP_STD_VER >= 17
 
 #  if !defined(_LIBCPP_REMOVE_TRANSITIVE_INCLUDES) && _LIBCPP_STD_VER <= 20
 #    include <cstddef>
diff --git a/libcxx/include/iosfwd b/libcxx/include/iosfwd
index 708134daf98c9..80f3e2d5cf2bc 100644
--- a/libcxx/include/iosfwd
+++ b/libcxx/include/iosfwd
@@ -143,7 +143,7 @@ typedef fpos<mbstate_t> u8streampos;
 typedef fpos<mbstate_t> u16streampos;
 typedef fpos<mbstate_t> u32streampos;
 
-#  if _LIBCPP_STD_VER >= 20 && !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+#  if _LIBCPP_STD_VER >= 20 && _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 
 template <class _CharT, class _Traits = char_traits<_CharT>, class _Allocator = allocator<_CharT>>
 class basic_syncbuf;
@@ -161,7 +161,7 @@ using osyncstream = basic_osyncstream<char>;
 using wosyncstream = basic_osyncstream<wchar_t>;
 #    endif
 
-#  endif // _LIBCPP_STD_VER >= 20 && !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+#  endif // _LIBCPP_STD_VER >= 20 && _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 
 template <class _CharT, class _Traits>
 class __save_flags {
diff --git a/libcxx/include/syncstream b/libcxx/include/syncstream
index 82761be765420..089d461450b37 100644
--- a/libcxx/include/syncstream
+++ b/libcxx/include/syncstream
@@ -150,7 +150,7 @@ _LIBCPP_PUSH_MACROS
 
 _LIBCPP_BEGIN_NAMESPACE_STD
 
-#    if _LIBCPP_STD_VER >= 20 && !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+#    if _LIBCPP_STD_VER >= 20 && _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 
 // [syncstream.syncbuf.overview]/1
 //   Class template basic_syncbuf stores character data written to it,
@@ -512,7 +512,7 @@ using std::osyncstream;
 using std::wosyncstream;
 #      endif
 
-#    endif // _LIBCPP_STD_VER >= 20 && !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+#    endif // _LIBCPP_STD_VER >= 20 && _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 
 _LIBCPP_END_NAMESPACE_STD
 
diff --git a/libcxx/include/variant b/libcxx/include/variant
index 6c7be7f8f1eb5..3786d9524020b 100644
--- a/libcxx/include/variant
+++ b/libcxx/include/variant
@@ -1156,7 +1156,7 @@ visit(_Visitor&& __visitor, _Vs&&... __vs);
 #    endif
 
 template <class... _Types>
-class _LIBCPP_TEMPLATE_VIS _LIBCPP_DECLSPEC_EMPTY_BASES variant
+class _LIBCPP_TEMPLATE_VIS _LIBCPP_DECLSPEC_EMPTY_BASES _LIBCPP_NO_SPECIALIZATIONS variant
     : private __sfinae_ctor_base< __all<is_copy_constructible_v<_Types>...>::value,
                                   __all<is_move_constructible_v<_Types>...>::value>,
       private __sfinae_assign_base<
diff --git a/libcxx/include/version b/libcxx/include/version
index f5b5e7a906f50..57d6ec629d27c 100644
--- a/libcxx/include/version
+++ b/libcxx/include/version
@@ -454,7 +454,7 @@ __cpp_lib_void_t                                        201411L <type_traits>
 # define __cpp_lib_starts_ends_with                     201711L
 # undef  __cpp_lib_string_view
 # define __cpp_lib_string_view                          201803L
-# if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+# if _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 #   define __cpp_lib_syncbuf                            201803L
 # endif
 # define __cpp_lib_three_way_comparison                 201907L
diff --git a/libcxx/modules/std/iosfwd.inc b/libcxx/modules/std/iosfwd.inc
index 81bdddec8afef..61ed3af6e86ae 100644
--- a/libcxx/modules/std/iosfwd.inc
+++ b/libcxx/modules/std/iosfwd.inc
@@ -18,7 +18,7 @@ export namespace std {
   using std::u8streampos;
 #endif
 
-#ifndef _LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM
+#if _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
   using std::basic_osyncstream;
   using std::basic_syncbuf;
 #endif
@@ -26,7 +26,7 @@ export namespace std {
   using std::istreambuf_iterator;
   using std::ostreambuf_iterator;
 
-#ifndef _LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM
+#if _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
   using std::osyncstream;
   using std::syncbuf;
 
@@ -34,7 +34,7 @@ export namespace std {
   using std::wosyncstream;
   using std::wsyncbuf;
 #  endif
-#endif // _LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM
+#endif // _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 
   using std::fpos;
 } // namespace std
diff --git a/libcxx/modules/std/syncstream.inc b/libcxx/modules/std/syncstream.inc
index ed4cae04d1b8b..0c3c640433444 100644
--- a/libcxx/modules/std/syncstream.inc
+++ b/libcxx/modules/std/syncstream.inc
@@ -8,7 +8,7 @@
 //===----------------------------------------------------------------------===//
 
 export namespace std {
-#if _LIBCPP_HAS_LOCALIZATION && !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+#if _LIBCPP_HAS_LOCALIZATION && _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
   using std::basic_syncbuf;
 
   // [syncstream.syncbuf.special], specialized algorithms
@@ -24,5 +24,5 @@ export namespace std {
 #  if _LIBCPP_HAS_WIDE_CHARACTERS
   using std::wosyncstream;
 #  endif
-#endif // _LIBCPP_HAS_LOCALIZATION && !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+#endif // _LIBCPP_HAS_LOCALIZATION && _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 } // namespace std
diff --git a/libcxx/test/libcxx/algorithms/no_specializations.verify.cpp b/libcxx/test/libcxx/algorithms/no_specializations.verify.cpp
new file mode 100644
index 0000000000000..5b2475252b602
--- /dev/null
+++ b/libcxx/test/libcxx/algorithms/no_specializations.verify.cpp
@@ -0,0 +1,28 @@
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+// UNSUPPORTED: c++03, c++11, c++14
+
+// UNSUPPORTED: libcpp-has-no-incomplete-pstl
+
+// Check that user-specializations are diagnosed
+// See [execpol.type]/3
+
+#include <execution>
+
+#if !__has_warning("-Winvalid-specializations")
+// expected-no-diagnostics
+#else
+struct S {};
+
+template <>
+struct std::is_execution_policy<S>; // expected-error {{cannot be specialized}}
+
+template <>
+constexpr bool std::is_execution_policy_v<S> = false; // expected-error {{cannot be specialized}}
+#endif
diff --git a/libcxx/test/libcxx/experimental/fexperimental-library.compile.pass.cpp b/libcxx/test/libcxx/experimental/fexperimental-library.compile.pass.cpp
index fd06886bf2e53..3cf497da233fb 100644
--- a/libcxx/test/libcxx/experimental/fexperimental-library.compile.pass.cpp
+++ b/libcxx/test/libcxx/experimental/fexperimental-library.compile.pass.cpp
@@ -14,16 +14,18 @@
 
 // ADDITIONAL_COMPILE_FLAGS: -fexperimental-library
 
+// XFAIL: FROZEN-CXX03-HEADERS-FIXME
+
 #include <version>
 
-#ifdef _LIBCPP_HAS_NO_INCOMPLETE_PSTL
+#if !_LIBCPP_HAS_EXPERIMENTAL_PSTL
 #  error "-fexperimental-library should enable the PSTL"
 #endif
 
-#ifdef _LIBCPP_HAS_NO_EXPERIMENTAL_TZDB
+#if !_LIBCPP_HAS_EXPERIMENTAL_TZDB
 #  error "-fexperimental-library should enable the chrono TZDB"
 #endif
 
-#ifdef _LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM
+#if !_LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 #  error "-fexperimental-library should enable the syncstream header"
 #endif
diff --git a/libcxx/test/libcxx/language.support/no_specializations.verify.cpp b/libcxx/test/libcxx/language.support/no_specializations.verify.cpp
new file mode 100644
index 0000000000000..b7b75b7e9a00d
--- /dev/null
+++ b/libcxx/test/libcxx/language.support/no_specializations.verify.cpp
@@ -0,0 +1,23 @@
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+// UNSUPPORTED: c++03, c++11, c++14, c++17
+
+// Check that user-specializations are diagnosed
+// See [cmp.result]/1
+
+#include <compare>
+
+#if !__has_warning("-Winvalid-specialization")
+// expected-no-diagnostics
+#else
+struct S {};
+
+template <>
+struct std::compare_three_way_result<S>; // expected-error {{cannot be specialized}}
+#endif
diff --git a/libcxx/test/libcxx/ranges/no_specializations.verify.cpp b/libcxx/test/libcxx/ranges/no_specializations.verify.cpp
new file mode 100644
index 0000000000000..69d458a920558
--- /dev/null
+++ b/libcxx/test/libcxx/ranges/no_specializations.verify.cpp
@@ -0,0 +1,23 @@
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+// UNSUPPORTED: c++03, c++11, c++14, c++17
+
+// Check that user-specializations are diagnosed
+// See [range.adaptor.object]/5
+
+#include <ranges>
+
+#if !__has_warning("-Winvalid-specialization")
+// expected-no-diagnostics
+#else
+struct S {};
+
+template <>
+class std::ranges::range_adaptor_closure<S>; // expected-error {{cannot be specialized}}
+#endif
diff --git a/libcxx/test/libcxx/type_traits/is_specialization.verify.cpp b/libcxx/test/libcxx/type_traits/is_specialization.verify.cpp
index 3593c2e095db9..51bff6df96a53 100644
--- a/libcxx/test/libcxx/type_traits/is_specialization.verify.cpp
+++ b/libcxx/test/libcxx/type_traits/is_specialization.verify.cpp
@@ -17,5 +17,5 @@
 #include <array>
 #include <utility>
 
-// expected-error-re@*:* {{{{could not match _Size against 'type-parameter-0-0'|different template parameters}}}}
+// expected-error-re@*:* {{{{could not match _Size against 'type-parameter-0-0'|different template parameters|template argument for non-type template parameter must be an expression}}}}
 static_assert(!std::__is_specialization_v<std::pair<int, std::size_t>, std::array>);
diff --git a/libcxx/test/libcxx/type_traits/no_specializations.verify.cpp b/libcxx/test/libcxx/type_traits/no_specializations.verify.cpp
new file mode 100644
index 0000000000000..e6d960667e8c0
--- /dev/null
+++ b/libcxx/test/libcxx/type_traits/no_specializations.verify.cpp
@@ -0,0 +1,176 @@
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+// UNSUPPORTED: c++03, c++11, c++14
+
+// Check that user-specializations are diagnosed
+// See [meta.rqmts]/4, [meta.trans.other]/5, [meta.trans.other]/7
+
+#include <type_traits>
+
+#include "test_macros.h"
+
+#if !__has_warning("-Winvalid-specialization")
+// expected-no-diagnostics
+#else
+struct S {};
+
+#  define SPECIALIZE_TRAIT(Trait)                                                                                      \
+    template <>                                                                                                        \
+    struct std::Trait<S>
+
+SPECIALIZE_TRAIT(add_const);            // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(add_cv);               // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(add_volatile);         // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(add_lvalue_reference); // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(add_rvalue_reference); // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(add_pointer);          // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(decay);                // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(invoke_result);        // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(make_unsigned);        // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(remove_all_extents);   // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(remove_const);         // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(remove_cv);            // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(remove_cvref);         // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(remove_extent);        // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(remove_pointer);       // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(remove_reference);     // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(remove_volatile);      // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(type_identity);        // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(underlying_type);      // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(unwrap_reference);     // expected-error {{cannot be specialized}}
+SPECIALIZE_TRAIT(unwrap_ref_decay);     // expected-error {{cannot be specialized}}
+
+#  undef SPECIALIZE_TRAIT
+#  define SPECIALIZE_UTT(Trait)                                                                                        \
+    template <>                                                                                                        \
+    struct std::Trait<S>;                                                                                              \
+    template <>                                                                                                        \
+    inline constexpr bool std::Trait##_v<S> = false
+
+#  define SPECIALIZE_BTT(Trait)                                                                                        \
+    template <>                                                                                                        \
+    struct std::Trait<S, S>;                                                                                           \
+    template <>                                                                                                        \
+    inline constexpr bool std::Trait##_v<S, S> = false
+
+SPECIALIZE_UTT(alignment_of);                       // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(conjunction);                        // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(disjunction);                        // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(extent);                             // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(has_unique_object_representations);  // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_abstract);                        // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_aggregate);                       // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_arithmetic);                      // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_array);                           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_assignable);                      // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_base_of);                         // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_class);                           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_compound);                        // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_const);                           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_constructible);                   // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_convertible);                     // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_copy_assignable);                 // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_copy_constructible);              // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_default_constructible);           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_destructible);                    // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_empty);                           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_enum);                            // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_final);                           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_floating_point);                  // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_function);                        // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_fundamental);                     // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_integral);                        // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_invocable);                       // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_invocable_r);                     // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_lvalue_reference);                // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_member_pointer);                  // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_member_object_pointer);           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_member_function_pointer);         // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_move_assignable);                 // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_move_constructible);              // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_nothrow_assignable);              // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_nothrow_constructible);           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_nothrow_convertible);             // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_nothrow_copy_assignable);         // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_nothrow_copy_constructible);      // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_nothrow_default_constructible);   // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_nothrow_destructible);            // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_nothrow_move_assignable);         // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_nothrow_move_constructible);      // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_nothrow_invocable);               // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_nothrow_invocable_r);             // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_nothrow_swappable);               // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_nothrow_swappable_with);          // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_null_pointer);                    // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_object);                          // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_pod);                             // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_pointer);                         // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_polymorphic);                     // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_reference);                       // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_rvalue_reference);                // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_same);                            // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_scalar);                          // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_signed);                          // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_standard_layout);                 // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_swappable);                       // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_swappable_with);                  // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_trivial);                         // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_BTT(is_trivially_assignable);            // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_trivially_constructible);         // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_trivially_copy_assignable);       // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_trivially_copy_constructible);    // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_trivially_copyable);              // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_trivially_default_constructible); // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_trivially_destructible);          // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_trivially_move_assignable);       // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_trivially_move_constructible);    // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_unbounded_array);                 // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_union);                           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_unsigned);                        // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_void);                            // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_volatile);                        // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(negation);                           // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(rank);                               // expected-error 2 {{cannot be specialized}}
+
+#  if TEST_STD_VER <= 17
+SPECIALIZE_UTT(is_literal_type); // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(result_of);       // expected-error 2 {{cannot be specialized}}
+#  endif
+
+#  if TEST_STD_VER >= 20
+SPECIALIZE_UTT(is_bounded_array); // expected-error 2 {{cannot be specialized}}
+#  endif
+
+#  if TEST_STD_VER >= 23
+SPECIALIZE_UTT(is_implicit_lifetime); // expected-error 2 {{cannot be specialized}}
+SPECIALIZE_UTT(is_scoped_enum);       // expected-error 2 {{cannot be specialized}}
+#  endif
+
+#  if TEST_STD_VER >= 26
+SPECIALIZE_BTT(is_virtual_base_of); // expected-error 2 {{cannot be specialized}}
+#  endif
+
+#  undef SPECIALIZE_UTT
+#  undef SPECIALIZE_BTT
+
+template <>
+struct std::aligned_storage<1, 3>; // expected-error {{cannot be specialized}}
+
+template <>
+struct std::aligned_union<1, S>; // expected-error {{cannot be specialized}}
+
+template <>
+struct std::conditional<true, S, S>; // expected-error {{cannot be specialized}}
+
+template <>
+struct std::enable_if<true, S>; // expected-error {{cannot be specialized}}
+
+template <>
+struct std::integral_constant<S, {}>; // expected-error {{cannot be specialized}}
+#endif
diff --git a/libcxx/test/libcxx/utilities/format/no_specializations.verify.cpp b/libcxx/test/libcxx/utilities/format/no_specializations.verify.cpp
new file mode 100644
index 0000000000000..e1acbaf16f5b4
--- /dev/null
+++ b/libcxx/test/libcxx/utilities/format/no_specializations.verify.cpp
@@ -0,0 +1,23 @@
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+// UNSUPPORTED: c++03, c++11, c++14, c++17
+
+// Check that user-specializations are diagnosed
+// See [format.arg]/2
+
+#include <format>
+
+#if !__has_warning("-Winvalid-specialization")
+// expected-no-diagnostics
+#else
+struct S {};
+
+template <>
+class std::basic_format_arg<S>; // expected-error {{cannot be specialized}}
+#endif
diff --git a/libcxx/test/libcxx/utilities/no_specializations.verify.cpp b/libcxx/test/libcxx/utilities/no_specializations.verify.cpp
new file mode 100644
index 0000000000000..d4743f4fd3f90
--- /dev/null
+++ b/libcxx/test/libcxx/utilities/no_specializations.verify.cpp
@@ -0,0 +1,23 @@
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+// UNSUPPORTED: c++03, c++11, c++14
+
+// Check that user-specializations are diagnosed
+// See [variant.variant.general]/4
+
+#include <variant>
+
+#if !__has_warning("-Winvalid-specialization")
+// expected-no-diagnostics
+#else
+struct S {};
+
+template <>
+class std::variant<S>; // expected-error {{cannot be specialized}}
+#endif
diff --git a/libcxx/test/std/language.support/support.limits/support.limits.general/syncstream.version.compile.pass.cpp b/libcxx/test/std/language.support/support.limits/support.limits.general/syncstream.version.compile.pass.cpp
index 88769d2770b1b..9cf763701ffc0 100644
--- a/libcxx/test/std/language.support/support.limits/support.limits.general/syncstream.version.compile.pass.cpp
+++ b/libcxx/test/std/language.support/support.limits/support.limits.general/syncstream.version.compile.pass.cpp
@@ -44,7 +44,7 @@
 
 #elif TEST_STD_VER == 20
 
-# if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+# if !defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 #   ifndef __cpp_lib_syncbuf
 #     error "__cpp_lib_syncbuf should be defined in c++20"
 #   endif
@@ -53,13 +53,13 @@
 #   endif
 # else
 #   ifdef __cpp_lib_syncbuf
-#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)' is not met!"
+#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM' is not met!"
 #   endif
 # endif
 
 #elif TEST_STD_VER == 23
 
-# if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+# if !defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 #   ifndef __cpp_lib_syncbuf
 #     error "__cpp_lib_syncbuf should be defined in c++23"
 #   endif
@@ -68,13 +68,13 @@
 #   endif
 # else
 #   ifdef __cpp_lib_syncbuf
-#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)' is not met!"
+#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM' is not met!"
 #   endif
 # endif
 
 #elif TEST_STD_VER > 23
 
-# if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+# if !defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 #   ifndef __cpp_lib_syncbuf
 #     error "__cpp_lib_syncbuf should be defined in c++26"
 #   endif
@@ -83,7 +83,7 @@
 #   endif
 # else
 #   ifdef __cpp_lib_syncbuf
-#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)' is not met!"
+#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM' is not met!"
 #   endif
 # endif
 
diff --git a/libcxx/test/std/language.support/support.limits/support.limits.general/version.version.compile.pass.cpp b/libcxx/test/std/language.support/support.limits/support.limits.general/version.version.compile.pass.cpp
index 7c03955df681d..605788f559d3c 100644
--- a/libcxx/test/std/language.support/support.limits/support.limits.general/version.version.compile.pass.cpp
+++ b/libcxx/test/std/language.support/support.limits/support.limits.general/version.version.compile.pass.cpp
@@ -4434,7 +4434,7 @@
 #   error "__cpp_lib_submdspan should not be defined before c++26"
 # endif
 
-# if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+# if !defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 #   ifndef __cpp_lib_syncbuf
 #     error "__cpp_lib_syncbuf should be defined in c++20"
 #   endif
@@ -4443,7 +4443,7 @@
 #   endif
 # else
 #   ifdef __cpp_lib_syncbuf
-#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)' is not met!"
+#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM' is not met!"
 #   endif
 # endif
 
@@ -6040,7 +6040,7 @@
 #   error "__cpp_lib_submdspan should not be defined before c++26"
 # endif
 
-# if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+# if !defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 #   ifndef __cpp_lib_syncbuf
 #     error "__cpp_lib_syncbuf should be defined in c++23"
 #   endif
@@ -6049,7 +6049,7 @@
 #   endif
 # else
 #   ifdef __cpp_lib_syncbuf
-#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)' is not met!"
+#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM' is not met!"
 #   endif
 # endif
 
@@ -7961,7 +7961,7 @@
 #   endif
 # endif
 
-# if !defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)
+# if !defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM
 #   ifndef __cpp_lib_syncbuf
 #     error "__cpp_lib_syncbuf should be defined in c++26"
 #   endif
@@ -7970,7 +7970,7 @@
 #   endif
 # else
 #   ifdef __cpp_lib_syncbuf
-#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)' is not met!"
+#     error "__cpp_lib_syncbuf should not be defined when the requirement '!defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM' is not met!"
 #   endif
 # endif
 
diff --git a/libcxx/test/support/test_macros.h b/libcxx/test/support/test_macros.h
index 676c865914b40..858bbaa2d6d83 100644
--- a/libcxx/test/support/test_macros.h
+++ b/libcxx/test/support/test_macros.h
@@ -451,7 +451,10 @@ inline Tp const& DoNotOptimize(Tp const& value) {
 #  define TEST_HAS_NO_RANDOM_DEVICE
 #endif
 
-#if defined(_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB)
+#ifdef _LIBCPP_USE_FROZEN_CXX03_HEADERS
+// This is a C++20 feature, so it's never available anyways
+#  define TEST_HAS_NO_EXPERIMENTAL_TZDB
+#elif defined(_LIBCPP_VERSION) && !_LIBCPP_HAS_EXPERIMENTAL_TZDB
 #  define TEST_HAS_NO_EXPERIMENTAL_TZDB
 #endif
 
diff --git a/libcxx/test/tools/clang_tidy_checks/internal_ftm_use.cpp b/libcxx/test/tools/clang_tidy_checks/internal_ftm_use.cpp
index ade82b6ac9f77..2b18654864bbb 100644
--- a/libcxx/test/tools/clang_tidy_checks/internal_ftm_use.cpp
+++ b/libcxx/test/tools/clang_tidy_checks/internal_ftm_use.cpp
@@ -25,12 +25,6 @@ std::array valid_macros{
 
     // Testing macros
     "_LIBCPP_HAS_NO_PRAGMA_SYSTEM_HEADER",
-
-    // Experimental features
-    "_LIBCPP_HAS_NO_EXPERIMENTAL_TZDB",
-    "_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM",
-    "_LIBCPP_HAS_NO_EXPERIMENTAL_STOP_TOKEN",
-    "_LIBCPP_HAS_NO_INCOMPLETE_PSTL",
 };
 
 class internal_ftm_use_callbacks : public clang::PPCallbacks {
diff --git a/libcxx/utils/generate_feature_test_macro_components.py b/libcxx/utils/generate_feature_test_macro_components.py
index dae827f5de50c..c4065cdc1afef 100755
--- a/libcxx/utils/generate_feature_test_macro_components.py
+++ b/libcxx/utils/generate_feature_test_macro_components.py
@@ -1300,8 +1300,8 @@ def add_version_header(tc):
             "name": "__cpp_lib_syncbuf",
             "values": {"c++20": 201803},
             "headers": ["syncstream"],
-            "test_suite_guard": "!defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)",
-            "libcxx_guard": "!defined(_LIBCPP_HAS_NO_EXPERIMENTAL_SYNCSTREAM)",
+            "test_suite_guard": "!defined(_LIBCPP_VERSION) || _LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM",
+            "libcxx_guard": "_LIBCPP_HAS_EXPERIMENTAL_SYNCSTREAM",
         },
         {
             "name": "__cpp_lib_text_encoding",
diff --git a/lld/ELF/InputFiles.cpp b/lld/ELF/InputFiles.cpp
index c44773d0b7dab..c3c6812c26202 100644
--- a/lld/ELF/InputFiles.cpp
+++ b/lld/ELF/InputFiles.cpp
@@ -1025,9 +1025,18 @@ InputSectionBase *ObjFile<ELFT>::createInputSection(uint32_t idx,
     // Therefore, we make LLD always add PT_GNU_STACK unless it is
     // explicitly told to do otherwise (by -z execstack). Because the stack
     // executable-ness is controlled solely by command line options,
-    // .note.GNU-stack sections are simply ignored.
-    if (name == ".note.GNU-stack")
+    // .note.GNU-stack sections are, with one exception, ignored. Report
+    // an error if we encounter an executable .note.GNU-stack to force the
+    // user to explicitly request an executable stack.
+    if (name == ".note.GNU-stack") {
+      if ((sec.sh_flags & SHF_EXECINSTR) && !ctx.arg.relocatable &&
+          ctx.arg.zGnustack != GnuStackKind::Exec) {
+        Err(ctx) << this
+                 << ": requires an executable stack, but -z execstack is not "
+                    "specified";
+      }
       return &InputSection::discarded;
+    }
 
     // Object files that use processor features such as Intel Control-Flow
     // Enforcement (CET) or AArch64 Branch Target Identification BTI, use a
diff --git a/lld/MachO/Config.h b/lld/MachO/Config.h
index d41ca5382c692..f8dcc84e4ee1b 100644
--- a/lld/MachO/Config.h
+++ b/lld/MachO/Config.h
@@ -143,6 +143,7 @@ struct Configuration {
   bool timeTraceEnabled = false;
   bool dataConst = false;
   bool dedupStrings = true;
+  bool dedupSymbolStrings = true;
   bool deadStripDuplicates = false;
   bool omitDebugInfo = false;
   bool warnDylibInstallName = false;
diff --git a/lld/MachO/Driver.cpp b/lld/MachO/Driver.cpp
index 31630ba7d69de..4f6c9b4ddc798 100644
--- a/lld/MachO/Driver.cpp
+++ b/lld/MachO/Driver.cpp
@@ -1806,6 +1806,7 @@ bool link(ArrayRef<const char *> argsArr, llvm::raw_ostream &stdoutOS,
   config->keepICFStabs = args.hasArg(OPT_keep_icf_stabs);
   config->dedupStrings =
       args.hasFlag(OPT_deduplicate_strings, OPT_no_deduplicate_strings, true);
+  config->dedupSymbolStrings = !args.hasArg(OPT_no_deduplicate_symbol_strings);
   config->deadStripDuplicates = args.hasArg(OPT_dead_strip_duplicates);
   config->warnDylibInstallName = args.hasFlag(
       OPT_warn_dylib_install_name, OPT_no_warn_dylib_install_name, false);
diff --git a/lld/MachO/Options.td b/lld/MachO/Options.td
index 4c89f96c3ebaa..9001e85582c12 100644
--- a/lld/MachO/Options.td
+++ b/lld/MachO/Options.td
@@ -1476,3 +1476,8 @@ def no_warn_duplicate_libraries : Flag<["-"], "no_warn_duplicate_libraries">,
     HelpText<"Do not warn if the input contains duplicate library options.">,
     Flags<[HelpHidden]>,
     Group<grp_ignored_silently>;
+
+// Add this with the other flags in the rare options group
+def no_deduplicate_symbol_strings : Flag<["-"], "no-deduplicate-symbol-strings">,
+    HelpText<"Do not deduplicate strings in the symbol string table. Might result in larger binaries but slightly faster link times.">,
+    Group<grp_rare>;
diff --git a/lld/MachO/SyntheticSections.cpp b/lld/MachO/SyntheticSections.cpp
index 97164e5992b8c..60b57bb3a192c 100644
--- a/lld/MachO/SyntheticSections.cpp
+++ b/lld/MachO/SyntheticSections.cpp
@@ -1541,7 +1541,14 @@ StringTableSection::StringTableSection()
 
 uint32_t StringTableSection::addString(StringRef str) {
   uint32_t strx = size;
-  strings.push_back(str); // TODO: consider deduplicating strings
+  if (config->dedupSymbolStrings) {
+    llvm::CachedHashStringRef hashedStr(str);
+    auto [it, inserted] = stringMap.try_emplace(hashedStr, strx);
+    if (!inserted)
+      return it->second;
+  }
+
+  strings.push_back(str);
   size += str.size() + 1; // account for null terminator
   return strx;
 }
diff --git a/lld/MachO/SyntheticSections.h b/lld/MachO/SyntheticSections.h
index af99f22788d6e..5796b0790c83a 100644
--- a/lld/MachO/SyntheticSections.h
+++ b/lld/MachO/SyntheticSections.h
@@ -447,6 +447,7 @@ class StringTableSection final : public LinkEditSection {
   // match its behavior here since some tools depend on it.
   // Consequently, the empty string will be at index 1, not zero.
   std::vector<StringRef> strings{" "};
+  llvm::DenseMap<llvm::CachedHashStringRef, uint32_t> stringMap;
   size_t size = 2;
 };
 
diff --git a/lld/test/ELF/gnustack.s b/lld/test/ELF/gnustack.s
index 828e09328c892..29e81538b6cab 100644
--- a/lld/test/ELF/gnustack.s
+++ b/lld/test/ELF/gnustack.s
@@ -1,17 +1,20 @@
 # REQUIRES: x86
-# RUN: llvm-mc -filetype=obj -triple=x86_64-unknown-linux %s -o %t1
+# RUN: rm -rf %t && split-file %s %t && cd %t
+# RUN: llvm-mc -filetype=obj -triple=x86_64 a.s -o a.o
+# RUN: llvm-mc -filetype=obj -triple=x86_64 x.s -o x.o
+# RUN: llvm-mc -filetype=obj -triple=x86_64 nox.s -o nox.o
 
-# RUN: ld.lld %t1 -z execstack -o %t
-# RUN: llvm-readobj --program-headers -S %t | FileCheck --check-prefix=RWX %s
+# RUN: ld.lld a.o -z execstack -o out
+# RUN: llvm-readobj --program-headers -S out | FileCheck --check-prefix=RWX %s
 
-# RUN: ld.lld %t1 -o %t
-# RUN: llvm-readobj --program-headers -S %t | FileCheck --check-prefix=RW %s
+# RUN: ld.lld a.o -o out
+# RUN: llvm-readobj --program-headers -S out | FileCheck --check-prefix=RW %s
 
-# RUN: ld.lld %t1 -o %t -z noexecstack
-# RUN: llvm-readobj --program-headers -S %t | FileCheck --check-prefix=RW %s
+# RUN: ld.lld a.o -o out -z noexecstack
+# RUN: llvm-readobj --program-headers -S out | FileCheck --check-prefix=RW %s
 
-# RUN: ld.lld %t1 -o %t -z nognustack
-# RUN: llvm-readobj --program-headers -s %t | FileCheck --check-prefix=NOGNUSTACK %s
+# RUN: ld.lld a.o -o out -z nognustack
+# RUN: llvm-readobj --program-headers -s out | FileCheck --check-prefix=NOGNUSTACK %s
 
 # RW:      Type: PT_GNU_STACK
 # RW-NEXT: Offset: 0x0
@@ -40,5 +43,19 @@
 
 # NOGNUSTACK-NOT: Type: PT_GNU_STACK
 
+# RUN: not ld.lld a.o x.o nox.o x.o 2>&1 | FileCheck %s --check-prefix=ERR --implicit-check-not=error:
+# RUN: not ld.lld a.o x.o nox.o x.o -z nognustack 2>&1 | FileCheck %s --check-prefix=ERR --implicit-check-not=error:
+# ERR-COUNT-2: error: x.o: requires an executable stack, but -z execstack is not specified
+
+# RUN: ld.lld a.o x.o nox.o x.o -z execstack --fatal-warnings
+# RUN: ld.lld -r x.o --fatal-warnings
+
+#--- a.s
 .globl _start
 _start:
+
+#--- x.s
+.section .note.GNU-stack,"x"
+
+#--- nox.s
+.section .note.GNU-stack,""
diff --git a/lld/test/MachO/cfstring-dedup.s b/lld/test/MachO/cfstring-dedup.s
index fb121cde3e958..4f490ba4380e1 100644
--- a/lld/test/MachO/cfstring-dedup.s
+++ b/lld/test/MachO/cfstring-dedup.s
@@ -7,6 +7,17 @@
 # RUN: %lld -dylib -framework CoreFoundation %t/foo1.o %t/foo2.o -o %t/foo
 # RUN: llvm-objdump --no-print-imm-hex --macho --rebase --bind --syms -d %t/foo | FileCheck %s --check-prefix=LITERALS
 
+# Check that string deduplication for symbol names is working
+# RUN: %lld -dylib -framework CoreFoundation %t/foo1.o %t/foo2.o -o %t/foo_no_dedup -no-deduplicate-symbol-strings
+# RUN: llvm-strings %t/foo | FileCheck %s --check-prefix=CHECK-DEDUP
+# RUN: llvm-strings %t/foo_no_dedup | FileCheck %s --check-prefix=CHECK-NO-DEDUP
+# CHECK-DEDUP: _named_cfstring
+# CHECK-DEDUP-NOT: _named_cfstring
+# CHECK-NO-DEDUP: _named_cfstring
+# CHECK-NO-DEDUP: _named_cfstring
+# CHECK-NO-DEDUP-NOT: _named_cfstring
+
+
 # CHECK:       (__TEXT,__text) section
 # CHECK-NEXT:  _foo1:
 # CHECK-NEXT:  _foo2:
diff --git a/lldb/cmake/modules/LLDBConfig.cmake b/lldb/cmake/modules/LLDBConfig.cmake
index 9bb37f5967d4f..747f7e6038181 100644
--- a/lldb/cmake/modules/LLDBConfig.cmake
+++ b/lldb/cmake/modules/LLDBConfig.cmake
@@ -306,9 +306,4 @@ else()
     set(LLDB_CAN_USE_DEBUGSERVER OFF)
 endif()
 
-if ((CMAKE_SYSTEM_NAME MATCHES "Android") AND LLVM_BUILD_STATIC AND
-    ((ANDROID_ABI MATCHES "armeabi") OR (ANDROID_ABI MATCHES "mips")))
-  add_definitions(-DANDROID_USE_ACCEPT_WORKAROUND)
-endif()
-
 include(LLDBGenerateConfig)
diff --git a/lldb/include/lldb/Host/Time.h b/lldb/include/lldb/Host/Time.h
index aee4c43247c5a..2ca5a4026884b 100644
--- a/lldb/include/lldb/Host/Time.h
+++ b/lldb/include/lldb/Host/Time.h
@@ -11,15 +11,6 @@
 #ifndef LLDB_HOST_TIME_H
 #define LLDB_HOST_TIME_H
 
-#ifdef __ANDROID__
-#include <android/api-level.h>
-#endif
-
-#if defined(__ANDROID_API__) && __ANDROID_API__ < 21
-#include <time64.h>
-extern time_t timegm(struct tm *t);
-#else
 #include <ctime>
-#endif
 
 #endif // LLDB_HOST_TIME_H
diff --git a/lldb/include/lldb/Symbol/Function.h b/lldb/include/lldb/Symbol/Function.h
index d0b27269568b0..f3b956139f3c5 100644
--- a/lldb/include/lldb/Symbol/Function.h
+++ b/lldb/include/lldb/Symbol/Function.h
@@ -428,7 +428,7 @@ class Function : public UserID, public SymbolContextScope {
   ///     The section offset based address for this function.
   Function(CompileUnit *comp_unit, lldb::user_id_t func_uid,
            lldb::user_id_t func_type_uid, const Mangled &mangled,
-           Type *func_type, AddressRanges ranges);
+           Type *func_type, Address address, AddressRanges ranges);
 
   /// Destructor.
   ~Function() override;
diff --git a/lldb/source/Expression/DWARFExpression.cpp b/lldb/source/Expression/DWARFExpression.cpp
index 1d826e341e2c4..f48f3ab9307dd 100644
--- a/lldb/source/Expression/DWARFExpression.cpp
+++ b/lldb/source/Expression/DWARFExpression.cpp
@@ -132,10 +132,35 @@ static llvm::Error ReadRegisterValueAsScalar(RegisterContext *reg_ctx,
 /// are made on the state of \p data after this call.
 static lldb::offset_t GetOpcodeDataSize(const DataExtractor &data,
                                         const lldb::offset_t data_offset,
-                                        const uint8_t op,
+                                        const LocationAtom op,
                                         const DWARFUnit *dwarf_cu) {
   lldb::offset_t offset = data_offset;
   switch (op) {
+  // Only used in LLVM metadata.
+  case DW_OP_LLVM_fragment:
+  case DW_OP_LLVM_convert:
+  case DW_OP_LLVM_tag_offset:
+  case DW_OP_LLVM_entry_value:
+  case DW_OP_LLVM_implicit_pointer:
+  case DW_OP_LLVM_arg:
+  case DW_OP_LLVM_extract_bits_sext:
+  case DW_OP_LLVM_extract_bits_zext:
+    break;
+  // Vendor extensions:
+  case DW_OP_HP_is_value:
+  case DW_OP_HP_fltconst4:
+  case DW_OP_HP_fltconst8:
+  case DW_OP_HP_mod_range:
+  case DW_OP_HP_unmod_range:
+  case DW_OP_HP_tls:
+  case DW_OP_INTEL_bit_piece:
+  case DW_OP_WASM_location:
+  case DW_OP_WASM_location_int:
+  case DW_OP_APPLE_uninit:
+  case DW_OP_PGI_omp_thread_num:
+  case DW_OP_hi_user:
+    break;
+
   case DW_OP_addr:
   case DW_OP_call_ref: // 0x9a 1 address sized offset of DIE (DWARF3)
     return data.GetAddressByteSize();
@@ -246,6 +271,7 @@ static lldb::offset_t GetOpcodeDataSize(const DataExtractor &data,
   case DW_OP_pick:        // 0x15 1 1-byte stack index
   case DW_OP_deref_size:  // 0x94 1 1-byte size of data retrieved
   case DW_OP_xderef_size: // 0x95 1 1-byte size of data retrieved
+  case DW_OP_deref_type:  // 0xa6 1 1-byte constant
     return 1;
 
   // Opcodes with a single 2 byte arguments
@@ -268,7 +294,6 @@ static lldb::offset_t GetOpcodeDataSize(const DataExtractor &data,
     return 8;
 
   // All opcodes that have a single ULEB (signed or unsigned) argument
-  case DW_OP_addrx:           // 0xa1 1 ULEB128 index
   case DW_OP_constu:          // 0x10 1 ULEB128 constant
   case DW_OP_consts:          // 0x11 1 SLEB128 constant
   case DW_OP_plus_uconst:     // 0x23 1 ULEB128 addend
@@ -307,14 +332,20 @@ static lldb::offset_t GetOpcodeDataSize(const DataExtractor &data,
   case DW_OP_regx:            // 0x90 1 ULEB128 register
   case DW_OP_fbreg:           // 0x91 1 SLEB128 offset
   case DW_OP_piece:           // 0x93 1 ULEB128 size of piece addressed
+  case DW_OP_convert:         // 0xa8 1 ULEB128 offset
+  case DW_OP_reinterpret:     // 0xa9 1 ULEB128 offset
+  case DW_OP_addrx:           // 0xa1 1 ULEB128 index
+  case DW_OP_constx:          // 0xa2 1 ULEB128 index
+  case DW_OP_xderef_type:     // 0xa7 1 ULEB128 index
   case DW_OP_GNU_addr_index:  // 0xfb 1 ULEB128 index
   case DW_OP_GNU_const_index: // 0xfc 1 ULEB128 index
     data.Skip_LEB128(&offset);
     return offset - data_offset;
 
   // All opcodes that have a 2 ULEB (signed or unsigned) arguments
-  case DW_OP_bregx:     // 0x92 2 ULEB128 register followed by SLEB128 offset
-  case DW_OP_bit_piece: // 0x9d ULEB128 bit size, ULEB128 bit offset (DWARF3);
+  case DW_OP_bregx:       // 0x92 2 ULEB128 register followed by SLEB128 offset
+  case DW_OP_bit_piece:   // 0x9d ULEB128 bit size, ULEB128 bit offset (DWARF3);
+  case DW_OP_regval_type: // 0xa5 ULEB128 + ULEB128
     data.Skip_LEB128(&offset);
     data.Skip_LEB128(&offset);
     return offset - data_offset;
@@ -327,6 +358,13 @@ static lldb::offset_t GetOpcodeDataSize(const DataExtractor &data,
     return offset - data_offset;
   }
 
+  case DW_OP_implicit_pointer: // 0xa0 4-byte (or 8-byte for DWARF 64) constant
+                               // + LEB128
+  {
+    data.Skip_LEB128(&offset);
+    return DWARFUnit::GetAddressByteSize(dwarf_cu) + offset - data_offset;
+  }
+
   case DW_OP_GNU_entry_value:
   case DW_OP_entry_value: // 0xa3 ULEB128 size + variable-length block
   {
@@ -334,20 +372,32 @@ static lldb::offset_t GetOpcodeDataSize(const DataExtractor &data,
     return (offset - data_offset) + subexpr_len;
   }
 
-  default:
-    if (!dwarf_cu) {
-      return LLDB_INVALID_OFFSET;
-    }
+  case DW_OP_const_type: // 0xa4 ULEB128 + size + variable-length block
+  {
+    data.Skip_LEB128(&offset);
+    uint8_t length = data.GetU8(&offset);
+    return (offset - data_offset) + length;
+  }
+
+  case DW_OP_LLVM_user: // 0xe9: ULEB128 + variable length constant
+  {
+    uint64_t constants = data.GetULEB128(&offset);
+    return (offset - data_offset) + constants;
+  }
+  }
+
+  if (dwarf_cu)
     return dwarf_cu->GetSymbolFileDWARF().GetVendorDWARFOpcodeSize(
         data, data_offset, op);
-  }
+
+  return LLDB_INVALID_OFFSET;
 }
 
 llvm::Expected<lldb::addr_t>
 DWARFExpression::GetLocation_DW_OP_addr(const DWARFUnit *dwarf_cu) const {
   lldb::offset_t offset = 0;
   while (m_data.ValidOffset(offset)) {
-    const uint8_t op = m_data.GetU8(&offset);
+    const LocationAtom op = static_cast<LocationAtom>(m_data.GetU8(&offset));
 
     if (op == DW_OP_addr)
       return m_data.GetAddress(&offset);
@@ -376,7 +426,7 @@ bool DWARFExpression::Update_DW_OP_addr(const DWARFUnit *dwarf_cu,
                                         lldb::addr_t file_addr) {
   lldb::offset_t offset = 0;
   while (m_data.ValidOffset(offset)) {
-    const uint8_t op = m_data.GetU8(&offset);
+    const LocationAtom op = static_cast<LocationAtom>(m_data.GetU8(&offset));
 
     if (op == DW_OP_addr) {
       const uint32_t addr_byte_size = m_data.GetAddressByteSize();
@@ -434,7 +484,7 @@ bool DWARFExpression::ContainsThreadLocalStorage(
     const DWARFUnit *dwarf_cu) const {
   lldb::offset_t offset = 0;
   while (m_data.ValidOffset(offset)) {
-    const uint8_t op = m_data.GetU8(&offset);
+    const LocationAtom op = static_cast<LocationAtom>(m_data.GetU8(&offset));
 
     if (op == DW_OP_form_tls_address || op == DW_OP_GNU_push_tls_address)
       return true;
@@ -465,7 +515,7 @@ bool DWARFExpression::LinkThreadLocalStorage(
   lldb::addr_t const_value = 0;
   size_t const_byte_size = 0;
   while (m_data.ValidOffset(offset)) {
-    const uint8_t op = m_data.GetU8(&offset);
+    const LocationAtom op = static_cast<LocationAtom>(m_data.GetU8(&offset));
 
     bool decoded_data = false;
     switch (op) {
diff --git a/lldb/source/Host/CMakeLists.txt b/lldb/source/Host/CMakeLists.txt
index e0cd8569bf957..cdfb6184f2219 100644
--- a/lldb/source/Host/CMakeLists.txt
+++ b/lldb/source/Host/CMakeLists.txt
@@ -113,7 +113,6 @@ else()
     if (CMAKE_SYSTEM_NAME MATCHES "Android")
       add_host_subdirectory(android
         android/HostInfoAndroid.cpp
-        android/LibcGlue.cpp
         )
     endif()
   elseif (CMAKE_SYSTEM_NAME MATCHES "FreeBSD")
diff --git a/lldb/source/Host/android/LibcGlue.cpp b/lldb/source/Host/android/LibcGlue.cpp
deleted file mode 100644
index 877d735823fee..0000000000000
--- a/lldb/source/Host/android/LibcGlue.cpp
+++ /dev/null
@@ -1,28 +0,0 @@
-//===-- LibcGlue.cpp ------------------------------------------------------===//
-//
-// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
-// See https://llvm.org/LICENSE.txt for license information.
-// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
-//
-//===----------------------------------------------------------------------===//
-
-// This files adds functions missing from libc on earlier versions of Android
-
-#include <android/api-level.h>
-
-#include <sys/syscall.h>
-
-#if __ANDROID_API__ < 21
-
-#include <csignal>
-#include <fcntl.h>
-#include <sys/stat.h>
-#include <sys/types.h>
-
-#include "lldb/Host/Time.h"
-
-time_t timegm(struct tm *t) { return (time_t)timegm64(t); }
-
-int posix_openpt(int flags) { return open("/dev/ptmx", flags); }
-
-#endif
diff --git a/lldb/source/Host/common/Host.cpp b/lldb/source/Host/common/Host.cpp
index 7b2bae74e196f..fdb623667bc25 100644
--- a/lldb/source/Host/common/Host.cpp
+++ b/lldb/source/Host/common/Host.cpp
@@ -352,7 +352,6 @@ bool Host::ResolveExecutableInBundle(FileSpec &file) { return false; }
 
 FileSpec Host::GetModuleFileSpecForHostAddress(const void *host_addr) {
   FileSpec module_filespec;
-#if !defined(__ANDROID__)
   Dl_info info;
   if (::dladdr(host_addr, &info)) {
     if (info.dli_fname) {
@@ -360,7 +359,6 @@ FileSpec Host::GetModuleFileSpecForHostAddress(const void *host_addr) {
       FileSystem::Instance().Resolve(module_filespec);
     }
   }
-#endif
   return module_filespec;
 }
 
diff --git a/lldb/source/Host/common/Socket.cpp b/lldb/source/Host/common/Socket.cpp
index 0ccff41a55206..296c2273ba419 100644
--- a/lldb/source/Host/common/Socket.cpp
+++ b/lldb/source/Host/common/Socket.cpp
@@ -472,23 +472,7 @@ Status Socket::Accept(const Timeout<std::micro> &timeout, Socket *&socket) {
 NativeSocket Socket::AcceptSocket(NativeSocket sockfd, struct sockaddr *addr,
                                   socklen_t *addrlen, Status &error) {
   error.Clear();
-#if defined(ANDROID_USE_ACCEPT_WORKAROUND)
-  // Hack:
-  // This enables static linking lldb-server to an API 21 libc, but still
-  // having it run on older devices. It is necessary because API 21 libc's
-  // implementation of accept() uses the accept4 syscall(), which is not
-  // available in older kernels. Using an older libc would fix this issue, but
-  // introduce other ones, as the old libraries were quite buggy.
-  int fd = syscall(__NR_accept, sockfd, addr, addrlen);
-  if (fd >= 0) {
-    int flags = ::fcntl(fd, F_GETFD);
-    if (flags != -1 && ::fcntl(fd, F_SETFD, flags | FD_CLOEXEC) != -1)
-      return fd;
-    SetLastError(error);
-    close(fd);
-  }
-  return fd;
-#elif defined(SOCK_CLOEXEC) && defined(HAVE_ACCEPT4)
+#if defined(SOCK_CLOEXEC) && defined(HAVE_ACCEPT4)
   int flags = SOCK_CLOEXEC;
   NativeSocket fd = llvm::sys::RetryAfterSignal(
       static_cast<NativeSocket>(-1), ::accept4, sockfd, addr, addrlen, flags);
diff --git a/lldb/source/Host/posix/DomainSocket.cpp b/lldb/source/Host/posix/DomainSocket.cpp
index be8fcdf2c8f2c..6c490cdda47ed 100644
--- a/lldb/source/Host/posix/DomainSocket.cpp
+++ b/lldb/source/Host/posix/DomainSocket.cpp
@@ -20,14 +20,6 @@
 using namespace lldb;
 using namespace lldb_private;
 
-#ifdef __ANDROID__
-// Android does not have SUN_LEN
-#ifndef SUN_LEN
-#define SUN_LEN(ptr)                                                           \
-  (offsetof(struct sockaddr_un, sun_path) + strlen((ptr)->sun_path))
-#endif
-#endif // #ifdef __ANDROID__
-
 static const int kDomain = AF_UNIX;
 static const int kType = SOCK_STREAM;
 
diff --git a/lldb/source/Host/posix/HostInfoPosix.cpp b/lldb/source/Host/posix/HostInfoPosix.cpp
index 193f584900b63..879dccfd353be 100644
--- a/lldb/source/Host/posix/HostInfoPosix.cpp
+++ b/lldb/source/Host/posix/HostInfoPosix.cpp
@@ -86,13 +86,6 @@ std::optional<std::string> HostInfoPosix::GetOSBuildString() {
   return std::string(un.release);
 }
 
-#ifdef __ANDROID__
-#include <android/api-level.h>
-#endif
-#if defined(__ANDROID_API__) && __ANDROID_API__ < 21
-#define USE_GETPWUID
-#endif
-
 namespace {
 class PosixUserIDResolver : public UserIDResolver {
 protected:
@@ -107,14 +100,6 @@ struct PasswdEntry {
 };
 
 static std::optional<PasswdEntry> GetPassword(id_t uid) {
-#ifdef USE_GETPWUID
-  // getpwuid_r is missing from android-9
-  // The caller should provide some thread safety by making sure no one calls
-  // this function concurrently, because using getpwuid is ultimately not
-  // thread-safe as we don't know who else might be calling it.
-  if (auto *user_info_ptr = ::getpwuid(uid))
-    return PasswdEntry{user_info_ptr->pw_name, user_info_ptr->pw_shell};
-#else
   struct passwd user_info;
   struct passwd *user_info_ptr = &user_info;
   char user_buffer[PATH_MAX];
@@ -124,7 +109,6 @@ static std::optional<PasswdEntry> GetPassword(id_t uid) {
       user_info_ptr) {
     return PasswdEntry{user_info_ptr->pw_name, user_info_ptr->pw_shell};
   }
-#endif
   return std::nullopt;
 }
 
@@ -135,7 +119,7 @@ std::optional<std::string> PosixUserIDResolver::DoGetUserName(id_t uid) {
 }
 
 std::optional<std::string> PosixUserIDResolver::DoGetGroupName(id_t gid) {
-#ifndef __ANDROID__
+#if !defined(__ANDROID__) || __ANDROID_API__ >= 24
   char group_buffer[PATH_MAX];
   size_t group_buffer_size = sizeof(group_buffer);
   struct group group_info;
diff --git a/lldb/source/Host/posix/ProcessLauncherPosixFork.cpp b/lldb/source/Host/posix/ProcessLauncherPosixFork.cpp
index 7b8b42a4b7fe0..7d856954684c4 100644
--- a/lldb/source/Host/posix/ProcessLauncherPosixFork.cpp
+++ b/lldb/source/Host/posix/ProcessLauncherPosixFork.cpp
@@ -24,14 +24,7 @@
 #include <csignal>
 #include <sstream>
 
-#ifdef __ANDROID__
-#include <android/api-level.h>
-#define PT_TRACE_ME PTRACE_TRACEME
-#endif
-
-#if defined(__ANDROID_API__) && __ANDROID_API__ < 15
-#include <linux/personality.h>
-#elif defined(__linux__)
+#if defined(__linux__)
 #include <sys/personality.h>
 #endif
 
diff --git a/lldb/source/Host/windows/PipeWindows.cpp b/lldb/source/Host/windows/PipeWindows.cpp
index 21e30f0ae8738..e95007ae8fd16 100644
--- a/lldb/source/Host/windows/PipeWindows.cpp
+++ b/lldb/source/Host/windows/PipeWindows.cpp
@@ -71,9 +71,8 @@ Status PipeWindows::CreateNew(bool child_process_inherit) {
   // cannot get overlapped i/o on Windows without using a named pipe.  So we
   // synthesize a unique name.
   uint32_t serial = g_pipe_serial.fetch_add(1);
-  std::string pipe_name;
-  llvm::raw_string_ostream pipe_name_stream(pipe_name);
-  pipe_name_stream << "lldb.pipe." << ::GetCurrentProcessId() << "." << serial;
+  std::string pipe_name = llvm::formatv(
+      "lldb.pipe.{0}.{1}.{2}", GetCurrentProcessId(), &g_pipe_serial, serial);
 
   return CreateNew(pipe_name.c_str(), child_process_inherit);
 }
diff --git a/lldb/source/Plugins/ObjectContainer/BSD-Archive/ObjectContainerBSDArchive.cpp b/lldb/source/Plugins/ObjectContainer/BSD-Archive/ObjectContainerBSDArchive.cpp
index b202898ff438a..6e5617664f7fe 100644
--- a/lldb/source/Plugins/ObjectContainer/BSD-Archive/ObjectContainerBSDArchive.cpp
+++ b/lldb/source/Plugins/ObjectContainer/BSD-Archive/ObjectContainerBSDArchive.cpp
@@ -8,7 +8,7 @@
 
 #include "ObjectContainerBSDArchive.h"
 
-#if defined(_WIN32) || defined(__ANDROID__) || defined(_AIX)
+#if defined(_WIN32) || defined(_AIX)
 // Defines from ar, missing on Windows
 #define SARMAG 8
 #define ARFMAG "`\n"
diff --git a/lldb/source/Plugins/Process/Linux/NativeThreadLinux.cpp b/lldb/source/Plugins/Process/Linux/NativeThreadLinux.cpp
index de047ee214c11..a6d6a78357fe5 100644
--- a/lldb/source/Plugins/Process/Linux/NativeThreadLinux.cpp
+++ b/lldb/source/Plugins/Process/Linux/NativeThreadLinux.cpp
@@ -326,14 +326,14 @@ void NativeThreadLinux::AnnotateSyncTagCheckFault(lldb::addr_t fault_addr) {
   }
 
   // We assume that the stop description is currently:
-  // signal SIGSEGV: sync tag check fault (fault address: <addr>)
+  // signal SIGSEGV: sync tag check fault (fault address=<addr>)
   // Remove the closing )
   m_stop_description.pop_back();
 
   std::stringstream ss;
   std::unique_ptr<MemoryTagManager> manager(std::move(details->manager));
 
-  ss << " logical tag: 0x" << std::hex << manager->GetLogicalTag(fault_addr);
+  ss << " logical tag=0x" << std::hex << manager->GetLogicalTag(fault_addr);
 
   std::vector<uint8_t> allocation_tag_data;
   // The fault address may not be granule aligned. ReadMemoryTags will granule
@@ -347,7 +347,7 @@ void NativeThreadLinux::AnnotateSyncTagCheckFault(lldb::addr_t fault_addr) {
     llvm::Expected<std::vector<lldb::addr_t>> allocation_tag =
         manager->UnpackTagsData(allocation_tag_data, 1);
     if (allocation_tag) {
-      ss << " allocation tag: 0x" << std::hex << allocation_tag->front() << ")";
+      ss << " allocation tag=0x" << std::hex << allocation_tag->front() << ")";
     } else {
       llvm::consumeError(allocation_tag.takeError());
       ss << ")";
diff --git a/lldb/source/Plugins/SymbolFile/Breakpad/SymbolFileBreakpad.cpp b/lldb/source/Plugins/SymbolFile/Breakpad/SymbolFileBreakpad.cpp
index 45c8f121db2bc..c7229568e1a0c 100644
--- a/lldb/source/Plugins/SymbolFile/Breakpad/SymbolFileBreakpad.cpp
+++ b/lldb/source/Plugins/SymbolFile/Breakpad/SymbolFileBreakpad.cpp
@@ -251,11 +251,11 @@ FunctionSP SymbolFileBreakpad::GetOrCreateFunction(CompileUnit &comp_unit) {
     addr_t address = record->Address + base;
     SectionSP section_sp = list->FindSectionContainingFileAddress(address);
     if (section_sp) {
-      AddressRange func_range(
-          section_sp, address - section_sp->GetFileAddress(), record->Size);
+      Address func_addr(section_sp, address - section_sp->GetFileAddress());
       // Use the CU's id because every CU has only one function inside.
-      func_sp = std::make_shared<Function>(&comp_unit, id, 0, func_name,
-                                           nullptr, AddressRanges{func_range});
+      func_sp = std::make_shared<Function>(
+          &comp_unit, id, 0, func_name, nullptr, func_addr,
+          AddressRanges{AddressRange(func_addr, record->Size)});
       comp_unit.AddFunction(func_sp);
     }
   }
diff --git a/lldb/source/Plugins/SymbolFile/CTF/SymbolFileCTF.cpp b/lldb/source/Plugins/SymbolFile/CTF/SymbolFileCTF.cpp
index 15e8d38e7f334..0feb927c5c948 100644
--- a/lldb/source/Plugins/SymbolFile/CTF/SymbolFileCTF.cpp
+++ b/lldb/source/Plugins/SymbolFile/CTF/SymbolFileCTF.cpp
@@ -829,7 +829,7 @@ size_t SymbolFileCTF::ParseFunctions(CompileUnit &cu) {
       lldb::user_id_t func_uid = m_functions.size();
       FunctionSP function_sp = std::make_shared<Function>(
           &cu, func_uid, function_type_uid, symbol->GetMangled(), type_sp.get(),
-          AddressRanges{func_range});
+          symbol->GetAddress(), AddressRanges{func_range});
       m_functions.emplace_back(function_sp);
       cu.AddFunction(function_sp);
     }
diff --git a/lldb/source/Plugins/SymbolFile/DWARF/DWARFASTParserClang.cpp b/lldb/source/Plugins/SymbolFile/DWARF/DWARFASTParserClang.cpp
index f54b7fc9cdad2..e77188bfbd2e4 100644
--- a/lldb/source/Plugins/SymbolFile/DWARF/DWARFASTParserClang.cpp
+++ b/lldb/source/Plugins/SymbolFile/DWARF/DWARFASTParserClang.cpp
@@ -173,7 +173,9 @@ GetCXXObjectParameter(const DWARFDIE &subprogram,
   if (!DeclKindIsCXXClass(containing_decl_ctx.getDeclKind()))
     return {};
 
-  // FIXME: if subprogram has a explicit DW_AT_object_pointer, use it.
+  if (DWARFDIE object_parameter =
+          subprogram.GetAttributeValueAsReferenceDIE(DW_AT_object_pointer))
+    return object_parameter;
 
   // If no DW_AT_object_pointer was specified, assume the implicit object
   // parameter is the first parameter to the function, is called "this" and is
@@ -215,11 +217,6 @@ static unsigned GetCXXMethodCVQuals(const DWARFDIE &subprogram,
     return 0;
 
   uint32_t encoding_mask = this_type->GetEncodingMask();
-
-  // FIXME: explicit object parameters need not to be pointers
-  if (!(encoding_mask & (1u << Type::eEncodingIsPointerUID)))
-    return 0;
-
   unsigned cv_quals = 0;
   if (encoding_mask & (1u << Type::eEncodingIsConstUID))
     cv_quals |= clang::Qualifiers::Const;
@@ -2465,10 +2462,29 @@ Function *DWARFASTParserClang::ParseFunctionFromDWARF(
     assert(func_type == nullptr || func_type != DIE_IS_BEING_PARSED);
 
     const user_id_t func_user_id = die.GetID();
+
+    // The base address of the scope for any of the debugging information
+    // entries listed above is given by either the DW_AT_low_pc attribute or the
+    // first address in the first range entry in the list of ranges given by the
+    // DW_AT_ranges attribute.
+    //   -- DWARFv5, Section 2.17 Code Addresses, Ranges and Base Addresses
+    //
+    // If no DW_AT_entry_pc attribute is present, then the entry address is
+    // assumed to be the same as the base address of the containing scope.
+    //   -- DWARFv5, Section 2.18 Entry Address
+    //
+    // We currently don't support Debug Info Entries with
+    // DW_AT_low_pc/DW_AT_entry_pc and DW_AT_ranges attributes (the latter
+    // attributes are ignored even though they should be used for the address of
+    // the function), but compilers also don't emit that kind of information. If
+    // this becomes a problem we need to plumb these attributes separately.
+    Address func_addr = func_ranges[0].GetBaseAddress();
+
     func_sp = std::make_shared<Function>(
         &comp_unit,
         func_user_id, // UserID is the DIE offset
-        func_user_id, func_name, func_type, std::move(func_ranges));
+        func_user_id, func_name, func_type, std::move(func_addr),
+        std::move(func_ranges));
 
     if (func_sp.get() != nullptr) {
       if (frame_base.IsValid())
diff --git a/lldb/source/Plugins/SymbolFile/DWARF/DWARFDebugInfoEntry.cpp b/lldb/source/Plugins/SymbolFile/DWARF/DWARFDebugInfoEntry.cpp
index aafdd2ec68309..5b23f2e63fe6d 100644
--- a/lldb/source/Plugins/SymbolFile/DWARF/DWARFDebugInfoEntry.cpp
+++ b/lldb/source/Plugins/SymbolFile/DWARF/DWARFDebugInfoEntry.cpp
@@ -263,10 +263,9 @@ bool DWARFDebugInfoEntry::GetDIENamesAndRanges(
   }
 
   if (set_frame_base_loclist_addr && !ranges.empty()) {
-    // TODO: Use the first range instead.
-    dw_addr_t lowest_range_pc = llvm::min_element(ranges)->LowPC;
-    assert(lowest_range_pc >= cu->GetBaseAddress());
-    frame_base->SetFuncFileAddress(lowest_range_pc);
+    dw_addr_t file_addr = ranges.begin()->LowPC;
+    assert(file_addr >= cu->GetBaseAddress());
+    frame_base->SetFuncFileAddress(file_addr);
   }
 
   if (ranges.empty() || name == nullptr || mangled == nullptr) {
diff --git a/lldb/source/Plugins/SymbolFile/DWARF/SymbolFileDWARF.cpp b/lldb/source/Plugins/SymbolFile/DWARF/SymbolFileDWARF.cpp
index ad5005b660c64..afc37f517559e 100644
--- a/lldb/source/Plugins/SymbolFile/DWARF/SymbolFileDWARF.cpp
+++ b/lldb/source/Plugins/SymbolFile/DWARF/SymbolFileDWARF.cpp
@@ -3174,8 +3174,7 @@ size_t SymbolFileDWARF::ParseBlocksRecursive(Function &func) {
                 /*check_hi_lo_pc=*/true)) {
       if (ranges->empty())
         return 0;
-      // TODO: Use the first range instead.
-      dw_addr_t function_file_addr = llvm::min_element(*ranges)->LowPC;
+      dw_addr_t function_file_addr = ranges->begin()->LowPC;
       if (function_file_addr != LLDB_INVALID_ADDRESS)
         ParseBlocksRecursive(*comp_unit, &func.GetBlock(false),
                              function_die.GetFirstChild(), function_file_addr);
@@ -3214,9 +3213,8 @@ size_t SymbolFileDWARF::ParseVariablesForContext(const SymbolContext &sc) {
       if (llvm::Expected<llvm::DWARFAddressRangesVector> ranges =
               function_die.GetDIE()->GetAttributeAddressRanges(
                   function_die.GetCU(), /*check_hi_lo_pc=*/true)) {
-        // TODO: Use the first range element instead.
         if (!ranges->empty())
-          func_lo_pc = llvm::min_element(*ranges)->LowPC;
+          func_lo_pc = ranges->begin()->LowPC;
       } else {
         LLDB_LOG_ERROR(GetLog(DWARFLog::DebugInfo), ranges.takeError(),
                        "DIE({1:x}): {0}", function_die.GetID());
diff --git a/lldb/source/Plugins/SymbolFile/NativePDB/SymbolFileNativePDB.cpp b/lldb/source/Plugins/SymbolFile/NativePDB/SymbolFileNativePDB.cpp
index 53c4c126658ba..6338f12402b73 100644
--- a/lldb/source/Plugins/SymbolFile/NativePDB/SymbolFileNativePDB.cpp
+++ b/lldb/source/Plugins/SymbolFile/NativePDB/SymbolFileNativePDB.cpp
@@ -483,9 +483,8 @@ lldb::FunctionSP SymbolFileNativePDB::CreateFunction(PdbCompilandSymId func_id,
   if (file_vm_addr == LLDB_INVALID_ADDRESS || file_vm_addr == 0)
     return nullptr;
 
-  AddressRange func_range(file_vm_addr, sol.length,
-                          comp_unit.GetModule()->GetSectionList());
-  if (!func_range.GetBaseAddress().IsValid())
+  Address func_addr(file_vm_addr, comp_unit.GetModule()->GetSectionList());
+  if (!func_addr.IsValid())
     return nullptr;
 
   ProcSym proc(static_cast<SymbolRecordKind>(sym_record.kind()));
@@ -500,7 +499,8 @@ lldb::FunctionSP SymbolFileNativePDB::CreateFunction(PdbCompilandSymId func_id,
   Mangled mangled(proc.Name);
   FunctionSP func_sp = std::make_shared<Function>(
       &comp_unit, toOpaqueUid(func_id), toOpaqueUid(sig_id), mangled,
-      func_type.get(), AddressRanges{func_range});
+      func_type.get(), func_addr,
+      AddressRanges{AddressRange(func_addr, sol.length)});
 
   comp_unit.AddFunction(func_sp);
 
@@ -1279,9 +1279,7 @@ bool SymbolFileNativePDB::ParseLineTable(CompileUnit &comp_unit) {
     if (file_vm_addr == LLDB_INVALID_ADDRESS)
       continue;
 
-    AddressRange func_range(file_vm_addr, sol.length,
-                            comp_unit.GetModule()->GetSectionList());
-    Address func_base = func_range.GetBaseAddress();
+    Address func_base(file_vm_addr, comp_unit.GetModule()->GetSectionList());
     PdbCompilandSymId func_id{modi, record_offset};
 
     // Iterate all S_INLINESITEs in the function.
diff --git a/lldb/source/Plugins/SymbolFile/PDB/SymbolFilePDB.cpp b/lldb/source/Plugins/SymbolFile/PDB/SymbolFilePDB.cpp
index b7854c05d345a..293be12ee6333 100644
--- a/lldb/source/Plugins/SymbolFile/PDB/SymbolFilePDB.cpp
+++ b/lldb/source/Plugins/SymbolFile/PDB/SymbolFilePDB.cpp
@@ -296,10 +296,9 @@ SymbolFilePDB::ParseCompileUnitFunctionForPDBFunc(const PDBSymbolFunc &pdb_func,
     return nullptr;
 
   auto func_length = pdb_func.getLength();
-  AddressRange func_range =
-      AddressRange(file_vm_addr, func_length,
-                   GetObjectFile()->GetModule()->GetSectionList());
-  if (!func_range.GetBaseAddress().IsValid())
+  Address func_addr(file_vm_addr,
+                    GetObjectFile()->GetModule()->GetSectionList());
+  if (!func_addr.IsValid())
     return nullptr;
 
   lldb_private::Type *func_type = ResolveTypeUID(pdb_func.getSymIndexId());
@@ -312,7 +311,7 @@ SymbolFilePDB::ParseCompileUnitFunctionForPDBFunc(const PDBSymbolFunc &pdb_func,
 
   FunctionSP func_sp = std::make_shared<Function>(
       &comp_unit, pdb_func.getSymIndexId(), func_type_uid, mangled, func_type,
-      AddressRanges{func_range});
+      func_addr, AddressRanges{AddressRange(func_addr, func_length)});
 
   comp_unit.AddFunction(func_sp);
 
diff --git a/lldb/source/Plugins/SymbolFile/Symtab/SymbolFileSymtab.cpp b/lldb/source/Plugins/SymbolFile/Symtab/SymbolFileSymtab.cpp
index e1e11d274d6e4..4cd46440b10bd 100644
--- a/lldb/source/Plugins/SymbolFile/Symtab/SymbolFileSymtab.cpp
+++ b/lldb/source/Plugins/SymbolFile/Symtab/SymbolFileSymtab.cpp
@@ -179,14 +179,14 @@ size_t SymbolFileSymtab::ParseFunctions(CompileUnit &comp_unit) {
               }
             }
 
-            FunctionSP func_sp(
-                new Function(&comp_unit,
-                             symbol_idx,       // UserID is the DIE offset
-                             LLDB_INVALID_UID, // We don't have any type info
-                                               // for this function
-                             curr_symbol->GetMangled(), // Linker/mangled name
-                             nullptr, // no return type for a code symbol...
-                             AddressRanges{func_range}));
+            FunctionSP func_sp(new Function(
+                &comp_unit,
+                symbol_idx,                // UserID is the DIE offset
+                LLDB_INVALID_UID,          // We don't have any type info
+                                           // for this function
+                curr_symbol->GetMangled(), // Linker/mangled name
+                nullptr, // no return type for a code symbol...
+                curr_symbol->GetAddress(), AddressRanges{func_range}));
 
             if (func_sp.get() != nullptr) {
               comp_unit.AddFunction(func_sp);
diff --git a/lldb/source/Symbol/Function.cpp b/lldb/source/Symbol/Function.cpp
index 15879f05a0ff0..11a43a9172ea6 100644
--- a/lldb/source/Symbol/Function.cpp
+++ b/lldb/source/Symbol/Function.cpp
@@ -276,10 +276,10 @@ AddressRange CollapseRanges(llvm::ArrayRef<AddressRange> ranges) {
 //
 Function::Function(CompileUnit *comp_unit, lldb::user_id_t func_uid,
                    lldb::user_id_t type_uid, const Mangled &mangled, Type *type,
-                   AddressRanges ranges)
+                   Address address, AddressRanges ranges)
     : UserID(func_uid), m_comp_unit(comp_unit), m_type_uid(type_uid),
       m_type(type), m_mangled(mangled), m_block(*this, func_uid),
-      m_range(CollapseRanges(ranges)), m_address(m_range.GetBaseAddress()),
+      m_range(CollapseRanges(ranges)), m_address(std::move(address)),
       m_prologue_byte_size(0) {
   assert(comp_unit != nullptr);
   lldb::addr_t base_file_addr = m_address.GetFileAddress();
diff --git a/lldb/source/Target/DynamicRegisterInfo.cpp b/lldb/source/Target/DynamicRegisterInfo.cpp
index 1a817449fa958..9ad98a41c688c 100644
--- a/lldb/source/Target/DynamicRegisterInfo.cpp
+++ b/lldb/source/Target/DynamicRegisterInfo.cpp
@@ -460,8 +460,8 @@ void DynamicRegisterInfo::Finalize(const ArchSpec &arch) {
   // Now update all value_regs with each register info as needed
   const size_t num_regs = m_regs.size();
   for (size_t i = 0; i < num_regs; ++i) {
-    if (m_value_regs_map.find(i) != m_value_regs_map.end())
-      m_regs[i].value_regs = m_value_regs_map[i].data();
+    if (auto it = m_value_regs_map.find(i); it != m_value_regs_map.end())
+      m_regs[i].value_regs = it->second.data();
     else
       m_regs[i].value_regs = nullptr;
   }
@@ -509,8 +509,9 @@ void DynamicRegisterInfo::Finalize(const ArchSpec &arch) {
 
   // Now update all invalidate_regs with each register info as needed
   for (size_t i = 0; i < num_regs; ++i) {
-    if (m_invalidate_regs_map.find(i) != m_invalidate_regs_map.end())
-      m_regs[i].invalidate_regs = m_invalidate_regs_map[i].data();
+    if (auto it = m_invalidate_regs_map.find(i);
+        it != m_invalidate_regs_map.end())
+      m_regs[i].invalidate_regs = it->second.data();
     else
       m_regs[i].invalidate_regs = nullptr;
   }
diff --git a/lldb/source/Target/UnixSignals.cpp b/lldb/source/Target/UnixSignals.cpp
index bee3a63818259..da661003925c7 100644
--- a/lldb/source/Target/UnixSignals.cpp
+++ b/lldb/source/Target/UnixSignals.cpp
@@ -163,7 +163,7 @@ UnixSignals::GetSignalDescription(int32_t signo, std::optional<int32_t> code,
           break;
         case SignalCodePrintOption::Address:
           if (addr)
-            strm << " (fault address: 0x" << std::hex << *addr << ")";
+            strm << " (fault address=0x" << std::hex << *addr << ")";
           break;
         case SignalCodePrintOption::Bounds:
           if (lower && upper && addr) {
@@ -172,9 +172,9 @@ UnixSignals::GetSignalDescription(int32_t signo, std::optional<int32_t> code,
             else
               strm << "upper bound violation ";
 
-            strm << "(fault address: 0x" << std::hex << *addr;
-            strm << ", lower bound: 0x" << std::hex << *lower;
-            strm << ", upper bound: 0x" << std::hex << *upper;
+            strm << "(fault address=0x" << std::hex << *addr;
+            strm << ", lower bound=0x" << std::hex << *lower;
+            strm << ", upper bound=0x" << std::hex << *upper;
             strm << ")";
           } else
             strm << sc.m_description.str();
diff --git a/lldb/test/API/commands/expression/import-std-module/vector-dbg-info-content/TestDbgInfoContentVectorFromStdModule.py b/lldb/test/API/commands/expression/import-std-module/vector-dbg-info-content/TestDbgInfoContentVectorFromStdModule.py
index 759077302bfca..1c32222e64f14 100644
--- a/lldb/test/API/commands/expression/import-std-module/vector-dbg-info-content/TestDbgInfoContentVectorFromStdModule.py
+++ b/lldb/test/API/commands/expression/import-std-module/vector-dbg-info-content/TestDbgInfoContentVectorFromStdModule.py
@@ -23,6 +23,13 @@ def test(self):
 
         self.runCmd("settings set target.import-std-module true")
 
+        if self.expectedCompiler(["clang"]) and self.expectedCompilerVersion(
+            [">", "16.0"]
+        ):
+            vector_type = "std::vector<Foo>"
+        else:
+            vector_type = "std::vector<Foo, std::allocator<Foo> >"
+
         size_type = "size_type"
         value_type = "value_type"
         iterator = "iterator"
@@ -34,14 +41,13 @@ def test(self):
             ValueCheck(name="current"),
         ]
 
-        self.expect(
-            "expr a",
-            patterns=[
-                """\(std::vector<Foo(, std::allocator<Foo> )*>\) \$0 = size=3 \{
-  \[0\] = \(a = 3\)
-  \[1\] = \(a = 1\)
-  \[2\] = \(a = 2\)
-\}"""
+        self.expect_expr(
+            "a",
+            result_type=vector_type,
+            result_children=[
+                ValueCheck(children=[ValueCheck(value="3")]),
+                ValueCheck(children=[ValueCheck(value="1")]),
+                ValueCheck(children=[ValueCheck(value="2")]),
             ],
         )
 
diff --git a/lldb/test/API/commands/expression/import-std-module/vector-of-vectors/TestVectorOfVectorsFromStdModule.py b/lldb/test/API/commands/expression/import-std-module/vector-of-vectors/TestVectorOfVectorsFromStdModule.py
index e18785ec1359c..a1f33271f39d2 100644
--- a/lldb/test/API/commands/expression/import-std-module/vector-of-vectors/TestVectorOfVectorsFromStdModule.py
+++ b/lldb/test/API/commands/expression/import-std-module/vector-of-vectors/TestVectorOfVectorsFromStdModule.py
@@ -17,26 +17,42 @@ def test(self):
             self, "// Set break point at this line.", lldb.SBFileSpec("main.cpp")
         )
 
+        if self.expectedCompiler(["clang"]) and self.expectedCompilerVersion(
+            [">", "16.0"]
+        ):
+            vector_type = "std::vector<int>"
+            vector_of_vector_type = "std::vector<std::vector<int> >"
+        else:
+            vector_type = "std::vector<int>"
+            vector_of_vector_type = (
+                "std::vector<std::vector<int>, std::allocator<std::vector<int> > >"
+            )
+
         size_type = "size_type"
         value_type = "value_type"
 
         self.runCmd("settings set target.import-std-module true")
 
-        self.expect(
-            "expr a",
-            patterns=[
-                """\(std::vector<std::vector<int>(, std::allocator<std::vector<int> )* >\) \$0 = size=2 \{
-  \[0\] = size=3 \{
-    \[0\] = 1
-    \[1\] = 2
-    \[2\] = 3
-  \}
-  \[1\] = size=3 \{
-    \[0\] = 3
-    \[1\] = 2
-    \[2\] = 1
-  \}
-\}"""
+        self.expect_expr(
+            "a",
+            result_type=vector_of_vector_type,
+            result_children=[
+                ValueCheck(
+                    type=vector_type,
+                    children=[
+                        ValueCheck(value="1"),
+                        ValueCheck(value="2"),
+                        ValueCheck(value="3"),
+                    ],
+                ),
+                ValueCheck(
+                    type=vector_type,
+                    children=[
+                        ValueCheck(value="3"),
+                        ValueCheck(value="2"),
+                        ValueCheck(value="1"),
+                    ],
+                ),
             ],
         )
         self.expect_expr("a.size()", result_type=size_type, result_value="2")
diff --git a/lldb/test/API/commands/frame/diagnose/array/TestArray.py b/lldb/test/API/commands/frame/diagnose/array/TestArray.py
index 5de6f7b0aaa1c..307e2cbca3022 100644
--- a/lldb/test/API/commands/frame/diagnose/array/TestArray.py
+++ b/lldb/test/API/commands/frame/diagnose/array/TestArray.py
@@ -10,7 +10,7 @@
 
 
 class TestArray(TestBase):
-    @skipUnlessDarwin
+    @expectedFailureAll(oslist=["windows"])
     @skipIf(
         archs=no_match(["x86_64"])
     )  # <rdar://problem/33842388> frame diagnose doesn't work for armv7 or arm64
diff --git a/lldb/test/API/commands/frame/diagnose/bad-reference/TestBadReference.py b/lldb/test/API/commands/frame/diagnose/bad-reference/TestBadReference.py
index 7a9498cab1376..8ded5e2ff55c2 100644
--- a/lldb/test/API/commands/frame/diagnose/bad-reference/TestBadReference.py
+++ b/lldb/test/API/commands/frame/diagnose/bad-reference/TestBadReference.py
@@ -10,7 +10,7 @@
 
 
 class TestBadReference(TestBase):
-    @skipUnlessDarwin
+    @expectedFailureAll(oslist=["windows"])
     @skipIf(
         archs=no_match(["x86_64"])
     )  # <rdar://problem/33842388> frame diagnose doesn't work for armv7 or arm64
diff --git a/lldb/test/API/commands/frame/diagnose/complicated-expression/TestComplicatedExpression.py b/lldb/test/API/commands/frame/diagnose/complicated-expression/TestComplicatedExpression.py
index eb1b556f0c408..8ee254a28cb54 100644
--- a/lldb/test/API/commands/frame/diagnose/complicated-expression/TestComplicatedExpression.py
+++ b/lldb/test/API/commands/frame/diagnose/complicated-expression/TestComplicatedExpression.py
@@ -10,7 +10,7 @@
 
 
 class TestDiagnoseDereferenceArgument(TestBase):
-    @skipUnlessDarwin
+    @expectedFailureAll(oslist=["windows"])
     @skipIf(
         archs=no_match(["x86_64"])
     )  # <rdar://problem/33842388> frame diagnose doesn't work for armv7 or arm64
diff --git a/lldb/test/API/commands/frame/diagnose/dereference-argument/TestDiagnoseDereferenceArgument.py b/lldb/test/API/commands/frame/diagnose/dereference-argument/TestDiagnoseDereferenceArgument.py
index 4e86735434387..960dd99ff7f78 100644
--- a/lldb/test/API/commands/frame/diagnose/dereference-argument/TestDiagnoseDereferenceArgument.py
+++ b/lldb/test/API/commands/frame/diagnose/dereference-argument/TestDiagnoseDereferenceArgument.py
@@ -10,7 +10,7 @@
 
 
 class TestDiagnoseDereferenceArgument(TestBase):
-    @skipUnlessDarwin
+    @expectedFailureAll(oslist=["windows"])
     @skipIf(
         archs=no_match(["x86_64"])
     )  # <rdar://problem/33842388> frame diagnose doesn't work for armv7 or arm64
diff --git a/lldb/test/API/commands/frame/diagnose/dereference-function-return/TestDiagnoseDereferenceFunctionReturn.py b/lldb/test/API/commands/frame/diagnose/dereference-function-return/TestDiagnoseDereferenceFunctionReturn.py
index 4d9b036f5102c..d0f6ebefa334a 100644
--- a/lldb/test/API/commands/frame/diagnose/dereference-function-return/TestDiagnoseDereferenceFunctionReturn.py
+++ b/lldb/test/API/commands/frame/diagnose/dereference-function-return/TestDiagnoseDereferenceFunctionReturn.py
@@ -10,7 +10,7 @@
 
 
 class TestDiagnoseDereferenceFunctionReturn(TestBase):
-    @skipUnlessDarwin
+    @expectedFailureAll(oslist=no_match(lldbplatformutil.getDarwinOSTriples()))
     @skipIf(
         archs=no_match(["x86_64"])
     )  # <rdar://problem/33842388> frame diagnose doesn't work for armv7 or arm64
diff --git a/lldb/test/API/commands/frame/diagnose/dereference-this/TestDiagnoseDereferenceThis.py b/lldb/test/API/commands/frame/diagnose/dereference-this/TestDiagnoseDereferenceThis.py
index fccba5ca116a9..7a4d3fb2acb5c 100644
--- a/lldb/test/API/commands/frame/diagnose/dereference-this/TestDiagnoseDereferenceThis.py
+++ b/lldb/test/API/commands/frame/diagnose/dereference-this/TestDiagnoseDereferenceThis.py
@@ -10,7 +10,7 @@
 
 
 class TestDiagnoseDereferenceThis(TestBase):
-    @skipUnlessDarwin
+    @expectedFailureAll(oslist=["windows"])
     @skipIf(
         archs=no_match(["x86_64"])
     )  # <rdar://problem/33842388> frame diagnose doesn't work for armv7 or arm64
diff --git a/lldb/test/API/commands/frame/diagnose/inheritance/TestDiagnoseInheritance.py b/lldb/test/API/commands/frame/diagnose/inheritance/TestDiagnoseInheritance.py
index 01245ff7608e1..71a24002a0627 100644
--- a/lldb/test/API/commands/frame/diagnose/inheritance/TestDiagnoseInheritance.py
+++ b/lldb/test/API/commands/frame/diagnose/inheritance/TestDiagnoseInheritance.py
@@ -10,7 +10,7 @@
 
 
 class TestDiagnoseInheritance(TestBase):
-    @skipUnlessDarwin
+    @expectedFailureAll(oslist=["windows"])
     @skipIf(
         archs=no_match(["x86_64"])
     )  # <rdar://problem/33842388> frame diagnose doesn't work for armv7 or arm64
diff --git a/lldb/test/API/commands/frame/diagnose/local-variable/TestLocalVariable.py b/lldb/test/API/commands/frame/diagnose/local-variable/TestLocalVariable.py
index 9361d80367e12..2db054bec9919 100644
--- a/lldb/test/API/commands/frame/diagnose/local-variable/TestLocalVariable.py
+++ b/lldb/test/API/commands/frame/diagnose/local-variable/TestLocalVariable.py
@@ -10,7 +10,7 @@
 
 
 class TestLocalVariable(TestBase):
-    @skipUnlessDarwin
+    @expectedFailureAll(oslist=["windows"])
     @skipIf(
         archs=no_match(["x86_64"])
     )  # <rdar://problem/33842388> frame diagnose doesn't work for armv7 or arm64
diff --git a/lldb/test/API/commands/frame/diagnose/virtual-method-call/TestDiagnoseDereferenceVirtualMethodCall.py b/lldb/test/API/commands/frame/diagnose/virtual-method-call/TestDiagnoseDereferenceVirtualMethodCall.py
index 7a58203d8f2ed..ef99b72f52afd 100644
--- a/lldb/test/API/commands/frame/diagnose/virtual-method-call/TestDiagnoseDereferenceVirtualMethodCall.py
+++ b/lldb/test/API/commands/frame/diagnose/virtual-method-call/TestDiagnoseDereferenceVirtualMethodCall.py
@@ -10,7 +10,7 @@
 
 
 class TestDiagnoseVirtualMethodCall(TestBase):
-    @skipUnlessDarwin
+    @expectedFailureAll(oslist=["windows"])
     @skipIf(
         archs=no_match(["x86_64"])
     )  # <rdar://problem/33842388> frame diagnose doesn't work for armv7 or arm64
diff --git a/lldb/test/API/linux/aarch64/mte_core_file/TestAArch64LinuxMTEMemoryTagCoreFile.py b/lldb/test/API/linux/aarch64/mte_core_file/TestAArch64LinuxMTEMemoryTagCoreFile.py
index 779050edb054a..6309648819026 100644
--- a/lldb/test/API/linux/aarch64/mte_core_file/TestAArch64LinuxMTEMemoryTagCoreFile.py
+++ b/lldb/test/API/linux/aarch64/mte_core_file/TestAArch64LinuxMTEMemoryTagCoreFile.py
@@ -215,7 +215,7 @@ def test_mte_tag_fault_reason(self):
         self.expect(
             "bt",
             substrs=[
-                "* thread #1, name = 'a.out.mte', stop reason = SIGSEGV: sync tag check fault (fault address: 0xffff82c74010)"
+                "* thread #1, name = 'a.out.mte', stop reason = SIGSEGV: sync tag check fault (fault address=0xffff82c74010)"
             ],
         )
 
diff --git a/lldb/test/API/linux/aarch64/mte_tag_faults/TestAArch64LinuxMTEMemoryTagFaults.py b/lldb/test/API/linux/aarch64/mte_tag_faults/TestAArch64LinuxMTEMemoryTagFaults.py
index 420aae4823488..2d6470505cf7c 100644
--- a/lldb/test/API/linux/aarch64/mte_tag_faults/TestAArch64LinuxMTEMemoryTagFaults.py
+++ b/lldb/test/API/linux/aarch64/mte_tag_faults/TestAArch64LinuxMTEMemoryTagFaults.py
@@ -51,8 +51,8 @@ def test_mte_tag_fault_sync(self):
             "continue",
             patterns=[
                 "\* thread #1, name = 'a.out', stop reason = signal SIGSEGV: "
-                "sync tag check fault \(fault address: 0x9[0-9A-Fa-f]+11\ "
-                "logical tag: 0x9 allocation tag: 0xa\)"
+                "sync tag check fault \(fault address=0x9[0-9A-Fa-f]+11\ "
+                "logical tag=0x9 allocation tag=0xa\)"
             ],
         )
 
diff --git a/lldb/test/API/linux/aarch64/non_address_bit_memory_access/TestAArch64LinuxNonAddressBitMemoryAccess.py b/lldb/test/API/linux/aarch64/non_address_bit_memory_access/TestAArch64LinuxNonAddressBitMemoryAccess.py
index 668fca1190366..f27780358570b 100644
--- a/lldb/test/API/linux/aarch64/non_address_bit_memory_access/TestAArch64LinuxNonAddressBitMemoryAccess.py
+++ b/lldb/test/API/linux/aarch64/non_address_bit_memory_access/TestAArch64LinuxNonAddressBitMemoryAccess.py
@@ -202,7 +202,7 @@ def test_non_address_bit_memory_corefile(self):
             "thread list",
             substrs=[
                 "stopped",
-                "stop reason = SIGSEGV: address not mapped to object (fault address: 0x0)",
+                "stop reason = SIGSEGV: address not mapped to object (fault address=0x0)",
             ],
         )
 
diff --git a/lldb/test/Shell/Register/Core/x86-32-linux-multithread.test b/lldb/test/Shell/Register/Core/x86-32-linux-multithread.test
index eb0cf8708263c..972e10844a5aa 100644
--- a/lldb/test/Shell/Register/Core/x86-32-linux-multithread.test
+++ b/lldb/test/Shell/Register/Core/x86-32-linux-multithread.test
@@ -1,7 +1,7 @@
 # RUN: %lldb -b -s %s -c %p/Inputs/x86-32-linux-multithread.core | FileCheck %s
 
 thread list
-# CHECK: * thread #1: tid = 330633, 0x080492d2, name = 'a.out', stop reason = SIGSEGV: address not mapped to object (fault address: 0x0)
+# CHECK: * thread #1: tid = 330633, 0x080492d2, name = 'a.out', stop reason = SIGSEGV: address not mapped to object (fault address=0x0)
 # CHECK-NEXT:   thread #2: tid = 330634, 0x080492dd, stop reason = signal 0
 # CHECK-NEXT:   thread #3: tid = 330635, 0x080492dd, stop reason = signal 0
 # CHECK-NEXT:   thread #4: tid = 330632, 0xf7f59549, stop reason = signal 0
diff --git a/lldb/test/Shell/Register/Core/x86-64-linux-multithread.test b/lldb/test/Shell/Register/Core/x86-64-linux-multithread.test
index a94a4de1c8080..5bea84813b44f 100644
--- a/lldb/test/Shell/Register/Core/x86-64-linux-multithread.test
+++ b/lldb/test/Shell/Register/Core/x86-64-linux-multithread.test
@@ -1,7 +1,7 @@
 # RUN: %lldb -b -s %s -c %p/Inputs/x86-64-linux-multithread.core | FileCheck %s
 
 thread list
-# CHECK: * thread #1: tid = 329384, 0x0000000000401262, name = 'a.out', stop reason = SIGSEGV: address not mapped to object (fault address: 0x0)
+# CHECK: * thread #1: tid = 329384, 0x0000000000401262, name = 'a.out', stop reason = SIGSEGV: address not mapped to object (fault address=0x0)
 # CHECK-NEXT:   thread #2: tid = 329385, 0x000000000040126d, stop reason = signal 0
 # CHECK-NEXT:   thread #3: tid = 329386, 0x000000000040126d, stop reason = signal 0
 # CHECK-NEXT:   thread #4: tid = 329383, 0x00007fcf5582f762, stop reason = signal 0
diff --git a/lldb/test/Shell/SymbolFile/DWARF/x86/discontinuous-function.s b/lldb/test/Shell/SymbolFile/DWARF/x86/discontinuous-function.s
index b03d5d12ad2a1..93ea9f33e762d 100644
--- a/lldb/test/Shell/SymbolFile/DWARF/x86/discontinuous-function.s
+++ b/lldb/test/Shell/SymbolFile/DWARF/x86/discontinuous-function.s
@@ -3,17 +3,30 @@
 # int baz();
 # int bar() { return 47; }
 # int foo(int flag) { return flag ? bar() : baz(); }
-# The function bar has been placed "in the middle" of foo.
+# The function bar has been placed "in the middle" of foo, and the function
+# entry point is deliberately not its lowest address.
 
 # RUN: llvm-mc -triple x86_64-pc-linux -filetype=obj %s -o %t
-# RUN: %lldb %t -o "image lookup -v -n foo" -o exit | FileCheck %s
+# RUN: %lldb %t -o "image lookup -v -n foo" -o "expr -- &foo" -o exit | FileCheck %s
 
+# CHECK-LABEL: image lookup
 # CHECK: 1 match found in {{.*}}
 # CHECK: Summary: {{.*}}`foo
 # CHECK: Function: id = {{.*}}, name = "foo", ranges = [0x0000000000000000-0x000000000000000e)[0x0000000000000014-0x000000000000001c)
 
+# CHECK-LABEL: expr -- &foo
+# CHECK: (void (*)()) $0 = 0x0000000000000007
+
         .text
 
+foo.__part.1:
+        .cfi_startproc
+        callq   bar
+        jmp     foo.__part.3
+.Lfoo.__part.1_end:
+        .size   foo.__part.1, .Lfoo.__part.1_end-foo.__part.1
+        .cfi_endproc
+
         .type   foo,@function
 foo:
         .cfi_startproc
@@ -24,14 +37,6 @@ foo:
 .Lfoo_end:
         .size   foo, .Lfoo_end-foo
 
-foo.__part.1:
-        .cfi_startproc
-        callq   bar
-        jmp     foo.__part.3
-.Lfoo.__part.1_end:
-        .size   foo.__part.1, .Lfoo.__part.1_end-foo.__part.1
-        .cfi_endproc
-
 bar:
         .cfi_startproc
         movl    $47, %eax
diff --git a/lldb/unittests/Signals/UnixSignalsTest.cpp b/lldb/unittests/Signals/UnixSignalsTest.cpp
index acd3928692250..9a7d9afc2b185 100644
--- a/lldb/unittests/Signals/UnixSignalsTest.cpp
+++ b/lldb/unittests/Signals/UnixSignalsTest.cpp
@@ -119,7 +119,7 @@ TEST(UnixSignalsTest, GetAsString) {
   ASSERT_EQ("SIG16: a specific type of SIG16",
             signals.GetSignalDescription(16, 1, 0xCAFEF00D));
   // Known code that should.
-  ASSERT_EQ("SIG16: SIG16 with a fault address (fault address: 0xcafef00d)",
+  ASSERT_EQ("SIG16: SIG16 with a fault address (fault address=0xcafef00d)",
             signals.GetSignalDescription(16, 2, 0xCAFEF00D));
   // No address given just print the code description.
   ASSERT_EQ("SIG16: SIG16 with a fault address",
@@ -131,11 +131,11 @@ TEST(UnixSignalsTest, GetAsString) {
   ASSERT_EQ(expected, signals.GetSignalDescription(16, 3, 0xcafef00d));
   ASSERT_EQ(expected, signals.GetSignalDescription(16, 3, 0xcafef00d, 0x1234));
 
-  ASSERT_EQ("SIG16: upper bound violation (fault address: 0x5679, lower bound: "
-            "0x1234, upper bound: 0x5678)",
+  ASSERT_EQ("SIG16: upper bound violation (fault address=0x5679, lower bound="
+            "0x1234, upper bound=0x5678)",
             signals.GetSignalDescription(16, 3, 0x5679, 0x1234, 0x5678));
-  ASSERT_EQ("SIG16: lower bound violation (fault address: 0x1233, lower bound: "
-            "0x1234, upper bound: 0x5678)",
+  ASSERT_EQ("SIG16: lower bound violation (fault address=0x1233, lower bound="
+            "0x1234, upper bound=0x5678)",
             signals.GetSignalDescription(16, 3, 0x1233, 0x1234, 0x5678));
 }
 
diff --git a/lldb/unittests/SymbolFile/DWARF/DWARFASTParserClangTests.cpp b/lldb/unittests/SymbolFile/DWARF/DWARFASTParserClangTests.cpp
index b31f56aa372d5..8adda6fba3a0b 100644
--- a/lldb/unittests/SymbolFile/DWARF/DWARFASTParserClangTests.cpp
+++ b/lldb/unittests/SymbolFile/DWARF/DWARFASTParserClangTests.cpp
@@ -902,3 +902,183 @@ TEST_F(DWARFASTParserClangTests, TestParseDWARFAttributes_ObjectPointer) {
   EXPECT_TRUE(attrs.object_pointer.IsValid());
   EXPECT_EQ(attrs.object_pointer, param_die);
 }
+
+TEST_F(DWARFASTParserClangTests, TestParseSubroutine_ExplicitObjectParameter) {
+  // Tests parsing of a C++ non-static member function with an explicit object
+  // parameter that isn't called "this" and is not a pointer (but a CV-qualified
+  // rvalue reference instead).
+
+  const char *yamldata = R"(
+--- !ELF
+FileHeader:
+  Class:   ELFCLASS64
+  Data:    ELFDATA2LSB
+  Type:    ET_EXEC
+  Machine: EM_AARCH64
+DWARF:
+  debug_str:
+    - Context
+    - func
+    - mySelf
+  debug_abbrev:
+    - ID:              0
+      Table:
+        - Code:            0x1
+          Tag:             DW_TAG_compile_unit
+          Children:        DW_CHILDREN_yes
+          Attributes:
+            - Attribute:       DW_AT_language
+              Form:            DW_FORM_data2
+        - Code:            0x2
+          Tag:             DW_TAG_structure_type
+          Children:        DW_CHILDREN_yes
+          Attributes:
+            - Attribute:       DW_AT_name
+              Form:            DW_FORM_strp
+        - Code:            0x3
+          Tag:             DW_TAG_subprogram
+          Children:        DW_CHILDREN_yes
+          Attributes:
+            - Attribute:       DW_AT_name
+              Form:            DW_FORM_strp
+            - Attribute:       DW_AT_declaration
+              Form:            DW_FORM_flag_present
+            - Attribute:       DW_AT_object_pointer
+              Form:            DW_FORM_ref4
+            - Attribute:       DW_AT_external
+              Form:            DW_FORM_flag_present
+        - Code:            0x4
+          Tag:             DW_TAG_formal_parameter
+          Children:        DW_CHILDREN_no
+          Attributes:
+            - Attribute:       DW_AT_name
+              Form:            DW_FORM_strp
+            - Attribute:       DW_AT_type
+              Form:            DW_FORM_ref4
+        - Code:            0x5
+          Tag:             DW_TAG_rvalue_reference_type
+          Children:        DW_CHILDREN_no
+          Attributes:
+            - Attribute:       DW_AT_type
+              Form:            DW_FORM_ref4
+        - Code:            0x6
+          Tag:             DW_TAG_const_type
+          Children:        DW_CHILDREN_no
+          Attributes:
+            - Attribute:       DW_AT_type
+              Form:            DW_FORM_ref4
+        - Code:            0x7
+          Tag:             DW_TAG_volatile_type
+          Children:        DW_CHILDREN_no
+          Attributes:
+            - Attribute:       DW_AT_type
+              Form:            DW_FORM_ref4
+  debug_info:
+     - Version:         5
+       UnitType:        DW_UT_compile
+       AddrSize:        8
+       Entries:
+
+# DW_TAG_compile_unit
+#   DW_AT_language [DW_FORM_data2]    (DW_LANG_C_plus_plus)
+
+        - AbbrCode:        0x1
+          Values:
+            - Value:           0x04
+
+#   DW_TAG_structure_type
+#     DW_AT_name [DW_FORM_strp] ("Context")
+
+        - AbbrCode:        0x2
+          Values:
+            - Value:           0x0
+
+#     DW_TAG_subprogram
+#       DW_AT_name [DW_FORM_strp] ("func")
+#       DW_AT_object_pointer [DW_FORM_ref4]
+        - AbbrCode:        0x3
+          Values:
+            - Value:           0x8
+            - Value:           0x1
+            - Value:           0x1d
+            - Value:           0x1
+
+#       DW_TAG_formal_parameter
+#         DW_AT_name [DW_FORM_strp] ("mySelf")
+#         DW_AT_type [DW_FORM_ref4] (const volatile Context &&)
+        - AbbrCode:        0x4
+          Values:
+            - Value: 0xd
+            - Value: 0x28
+
+        - AbbrCode: 0x0
+        - AbbrCode: 0x0
+
+#   DW_TAG_rvalue_reference_type
+#     DW_AT_type [DW_FORM_ref4] ("const volatile Context")
+
+        - AbbrCode:        0x5
+          Values:
+            - Value:           0x2d
+
+#   DW_TAG_const_type
+#     DW_AT_type [DW_FORM_ref4] ("volatile Context")
+
+        - AbbrCode:        0x6
+          Values:
+            - Value:           0x32
+
+#   DW_TAG_volatile_type
+#     DW_AT_type [DW_FORM_ref4] ("Context")
+
+        - AbbrCode:        0x7
+          Values:
+            - Value:           0xf
+
+        - AbbrCode: 0x0
+...
+)";
+  YAMLModuleTester t(yamldata);
+
+  DWARFUnit *unit = t.GetDwarfUnit();
+  ASSERT_NE(unit, nullptr);
+  const DWARFDebugInfoEntry *cu_entry = unit->DIE().GetDIE();
+  ASSERT_EQ(cu_entry->Tag(), DW_TAG_compile_unit);
+  ASSERT_EQ(unit->GetDWARFLanguageType(), DW_LANG_C_plus_plus);
+  DWARFDIE cu_die(unit, cu_entry);
+
+  auto ts_or_err =
+      cu_die.GetDWARF()->GetTypeSystemForLanguage(eLanguageTypeC_plus_plus);
+  ASSERT_TRUE(static_cast<bool>(ts_or_err));
+  llvm::consumeError(ts_or_err.takeError());
+  auto *parser =
+      static_cast<DWARFASTParserClang *>((*ts_or_err)->GetDWARFParser());
+
+  auto context_die = cu_die.GetFirstChild();
+  ASSERT_TRUE(context_die.IsValid());
+  ASSERT_EQ(context_die.Tag(), DW_TAG_structure_type);
+
+  SymbolContext sc;
+  bool new_type;
+  auto context_type_sp = parser->ParseTypeFromDWARF(sc, context_die, &new_type);
+  ASSERT_NE(context_type_sp, nullptr);
+
+  ASSERT_TRUE(
+      parser->CompleteTypeFromDWARF(context_die, context_type_sp.get(),
+                                    context_type_sp->GetForwardCompilerType()));
+
+  auto *record_decl = llvm::dyn_cast_or_null<clang::CXXRecordDecl>(
+      ClangUtil::GetAsTagDecl(context_type_sp->GetForwardCompilerType()));
+  ASSERT_NE(record_decl, nullptr);
+
+  auto method_it = record_decl->method_begin();
+  ASSERT_NE(method_it, record_decl->method_end());
+
+  // Check that we didn't parse the function as static.
+  EXPECT_FALSE(method_it->isStatic());
+
+  // Check that method qualifiers were correctly set.
+  EXPECT_EQ(method_it->getMethodQualifiers(),
+            clang::Qualifiers::fromCVRMask(clang::Qualifiers::Const |
+                                           clang::Qualifiers::Volatile));
+}
diff --git a/llvm/docs/CommandGuide/llvm-objcopy.rst b/llvm/docs/CommandGuide/llvm-objcopy.rst
index be4876cad6760..8dc1357635e1b 100644
--- a/llvm/docs/CommandGuide/llvm-objcopy.rst
+++ b/llvm/docs/CommandGuide/llvm-objcopy.rst
@@ -477,6 +477,11 @@ them.
 
  Preserve access and modification timestamps in the output.
 
+.. option:: --remove-note [<name>/]<type>
+
+ Remove notes of integer type ``<type>`` and name ``<name>`` from SHT_NOTE
+ sections that are not in a segment. Can be specified multiple times.
+
 .. option:: --rename-section <old>=<new>[,<flag>,...]
 
  Rename sections called ``<old>`` to ``<new>`` in the output, and apply any
diff --git a/llvm/docs/Contributing.rst b/llvm/docs/Contributing.rst
index cf48c66dc0d06..9311f39b6e697 100644
--- a/llvm/docs/Contributing.rst
+++ b/llvm/docs/Contributing.rst
@@ -94,20 +94,33 @@ For more information about the workflow of using GitHub Pull Requests see our
 `LLVM's Phabricator <https://reviews.llvm.org>`_ instance.
 
 To make sure the right people see your patch, please select suitable reviewers
-and add them to your patch when requesting a review. Suitable reviewers are the
-maintainers (see ``Maintainers.rst``) and other people doing work in the area your
-patch touches. Github will normally suggest some reviewers based on rules or
-people that have worked on the code before. If you are a new contributor, you
-will not be able to select reviewers in such a way, in which case you can still
-get the attention of potential reviewers by CC'ing them in a comment -- just
-@name them.
+and add them to your patch when requesting a review.
+
+Suitable reviewers are the maintainers of the project you are modifying, and
+anyone else working in the area your patch touches. To find maintainers, look for
+the ``Maintainers.md`` or ``Maintainers.rst`` file in the root of the project's
+sub-directory. For example, LLVM's is ``llvm/Maintainers.md`` and Clang's is
+``clang/Maintainers.rst``.
+
+If you are a new contributor, you will not be able to select reviewers in such a
+way, in which case you can still get the attention of potential reviewers by CC'ing
+them in a comment -- just @name them.
 
 If you have received no comments on your patch for a week, you can request a
-review by 'ping'ing the GitHub PR with "Ping". The common courtesy 'ping' rate
+review by 'ping'ing the GitHub PR with "Ping" in a comment. The common courtesy 'ping' rate
 is once a week. Please remember that you are asking for valuable time from
-other professional developers. Finally, if you do not have commit access,
-please let people know during the review and someone should commit it on your
-behalf once it has been accepted.
+other professional developers.
+
+After your PR is approved, ensure that:
+
+  * The PR title and description describe the final changes. These will be used
+    as the title and message of the final squashed commit. The titles and
+    messages of commits in the PR will **not** be used.
+  * You have set a valid email address in your GitHub account, see :ref:`github-email-address`.
+
+Now you can merge your PR. If you do not have the ability to merge the PR, ask your
+reviewers to merge it on your behalf. You must do this explicitly, as reviewers'
+default assumption is that you are able to merge your own PR.
 
 For more information on LLVM's code-review process, please see
 :doc:`CodeReview`.
diff --git a/llvm/docs/DeveloperPolicy.rst b/llvm/docs/DeveloperPolicy.rst
index 5b1f7dc29bee3..b125fcb0da7ab 100644
--- a/llvm/docs/DeveloperPolicy.rst
+++ b/llvm/docs/DeveloperPolicy.rst
@@ -105,10 +105,17 @@ When submitting patches, please do not add confidentiality or non-disclosure
 notices to the patches themselves.  These notices conflict with the LLVM
 licensing terms and may result in your contribution being excluded.
 
+.. _github-email-address:
+
+Email Addresses
+---------------
+
 The LLVM project uses email to communicate to contributors outside of the
 GitHub platform about their past contributions. Primarily, our buildbot
 infrastructure uses emails to contact contributors about build and test
-failures. Therefore, the LLVM community requires contributors to have a public
+failures.
+
+Therefore, the LLVM community requires contributors to have a public
 email address associated with their GitHub commits, so please ensure that "Keep
 my email addresses private" is disabled in your
 `account settings <https://github.com/settings/emails>`_.
diff --git a/llvm/docs/NVPTXUsage.rst b/llvm/docs/NVPTXUsage.rst
index 25a230f65fd3d..64dd2b84a1763 100644
--- a/llvm/docs/NVPTXUsage.rst
+++ b/llvm/docs/NVPTXUsage.rst
@@ -553,6 +553,34 @@ it must be a multiple of 16.
 For more information, refer PTX ISA
 `<https://docs.nvidia.com/cuda/parallel-thread-execution/index.html#data-movement-and-conversion-instructions-cp-async-bulk>`_.
 
+'``llvm.nvvm.cp.async.bulk.prefetch.L2``'
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+Syntax:
+"""""""
+
+.. code-block:: llvm
+
+  declare void @llvm.nvvm.cp.async.bulk.prefetch.L2(ptr addrspace(1) %src, i32 %size, i64 %ch, i1 %flag_ch)
+
+Overview:
+"""""""""
+
+The '``@llvm.nvvm.cp.async.bulk.prefetch.L2``' intrinsic
+corresponds to the ``cp.async.bulk.prefetch.L2.*`` family
+of PTX instructions. These instructions initiate an asynchronous
+prefetch of bulk data from global memory to the L2 cache.
+The 32-bit operand ``%size`` specifies the amount of memory to be
+prefetched in terms of bytes and it must be a multiple of 16.
+
+* The last argument to these intrinsics is boolean flag indicating
+  support for cache_hint. These flag argument must be compile-time
+  constant. When set, it indicates a valid cache_hint (``i64 %ch``)
+  and generates the ``.L2::cache_hint`` variant of the PTX instruction.
+
+For more information, refer PTX ISA
+`<https://docs.nvidia.com/cuda/parallel-thread-execution/#data-movement-and-conversion-instructions-cp-async-bulk-prefetch>`_.
+
 '``llvm.nvvm.cp.async.bulk.tensor.g2s.tile.[1-5]d``'
 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
 
@@ -911,6 +939,29 @@ including that ``wgmma.mma_async`` instruction is undefined behavior.
 For more information, refer PTX ISA
 `<https://docs.nvidia.com/cuda/parallel-thread-execution/#asynchronous-warpgroup-level-matrix-instructions-wgmma-wait-group>`_.
 
+'``llvm.nvvm.griddepcontrol.*``'
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+
+Syntax:
+"""""""
+
+.. code-block:: llvm
+
+  declare void @llvm.nvvm.griddepcontrol.launch_dependents()
+  declare void @llvm.nvvm.griddepcontrol.wait()
+
+Overview:
+"""""""""
+
+The ``griddepcontrol`` intrinsics allows the dependent grids and prerequisite grids as defined by the runtime, to control execution in the following way:
+
+``griddepcontrol.launch_dependents`` intrinsic signals that the dependents can be scheduled, before the current grid completes. The intrinsic can be invoked by multiple threads in the current CTA and repeated invocations of the intrinsic will have no additional side effects past that of the first invocation.
+
+``griddepcontrol.wait`` intrinsic causes the executing thread to wait until all prerequisite grids in flight have completed and all the memory operations from the prerequisite grids are performed and made visible to the current grid.
+
+For more information, refer 
+`PTX ISA <https://docs.nvidia.com/cuda/parallel-thread-execution/#parallel-synchronization-and-communication-instructions-griddepcontrol>`__.
+
 Other Intrinsics
 ----------------
 
diff --git a/llvm/docs/ReleaseNotes.md b/llvm/docs/ReleaseNotes.md
index eb6e9c9b75beb..05d902641d093 100644
--- a/llvm/docs/ReleaseNotes.md
+++ b/llvm/docs/ReleaseNotes.md
@@ -532,7 +532,7 @@ Changes to LLDB
 
   New:
   ```
-  * thread #1: tid = 329384, 0x0000000000401262, name = 'a.out', stop reason = SIGSEGV: address not mapped to object (fault address: 0x0)
+  * thread #1: tid = 329384, 0x0000000000401262, name = 'a.out', stop reason = SIGSEGV: address not mapped to object (fault address=0x0)
 
   0x7f1e3193e0a7 <+23>:  ja     0x7f1e3193e100 ; <+112>
   ```
@@ -555,6 +555,24 @@ Changes to LLDB
 
 * Incorrect floating-point register dwarf number for LoongArch is [fixed](https://github.com/llvm/llvm-project/pull/120391).
 
+* The `frame diagnose` now works on ELF-based systems. After a crash, LLDB will
+  try to determine the likely cause of the signal, matching Darwin behavior.
+  This feature requires using a new `lldb-server` version and (like Darwin) only
+  works on x86 binaries.
+
+  ```
+  * thread #1, name = 'a.out', stop reason = signal SIGSEGV: address not mapped to object (fault address=0x4)
+      frame #0: 0x00005555555551aa a.out`GetSum(f=0x0000555555558018) at main.c:21:37
+     18   }
+     19
+     20   int GetSum(struct Foo *f) {
+  -> 21     return SumTwoIntegers(f->a, f->b->d ? 0 : 1);
+     22   }
+     23
+     24   int main() {
+  Likely cause: f->b->d accessed 0x4
+  ```
+
 Changes to BOLT
 ---------------------------------
 
diff --git a/llvm/docs/TestingGuide.rst b/llvm/docs/TestingGuide.rst
index 08617933519fd..b6dda6a732405 100644
--- a/llvm/docs/TestingGuide.rst
+++ b/llvm/docs/TestingGuide.rst
@@ -167,13 +167,17 @@ script which is built as part of LLVM. For example, to run the
 
 .. code-block:: bash
 
-    % llvm-lit ~/llvm/test/Integer/BitPacked.ll
+    % llvm-lit <path to llvm-project>/llvm/test/Integer/BitPacked.ll
 
-or to run all of the ARM CodeGen tests:
+.. note::
+   The test files are in the ``llvm-project`` directory, not the directory you
+   are building LLVM in.
+
+Or you can run a whole folder of tests. To run all of the ARM CodeGen tests:
 
 .. code-block:: bash
 
-    % llvm-lit ~/llvm/test/CodeGen/ARM
+    % llvm-lit <path to llvm-project>/llvm/test/CodeGen/ARM
 
 The regression tests will use the Python psutil module only if installed in a
 **non-user** location. Under Linux, install with sudo or within a virtual
diff --git a/llvm/include/llvm/CodeGen/BasicTTIImpl.h b/llvm/include/llvm/CodeGen/BasicTTIImpl.h
index 46bb84b4fec4f..596db39239213 100644
--- a/llvm/include/llvm/CodeGen/BasicTTIImpl.h
+++ b/llvm/include/llvm/CodeGen/BasicTTIImpl.h
@@ -2258,6 +2258,12 @@ class BasicTTIImplBase : public TargetTransformInfoImplCRTPBase<T> {
     case Intrinsic::abs:
       ISD = ISD::ABS;
       break;
+    case Intrinsic::fshl:
+      ISD = ISD::FSHL;
+      break;
+    case Intrinsic::fshr:
+      ISD = ISD::FSHR;
+      break;
     case Intrinsic::smax:
       ISD = ISD::SMAX;
       break;
@@ -2547,6 +2553,29 @@ class BasicTTIImplBase : public TargetTransformInfoImplCRTPBase<T> {
           {TTI::OK_UniformConstantValue, TTI::OP_None});
       return Cost;
     }
+    case Intrinsic::fshl:
+    case Intrinsic::fshr: {
+      // fshl: (X << (Z % BW)) | (Y >> (BW - (Z % BW)))
+      // fshr: (X << (BW - (Z % BW))) | (Y >> (Z % BW))
+      Type *CondTy = RetTy->getWithNewBitWidth(1);
+      InstructionCost Cost = 0;
+      Cost +=
+          thisT()->getArithmeticInstrCost(BinaryOperator::Or, RetTy, CostKind);
+      Cost +=
+          thisT()->getArithmeticInstrCost(BinaryOperator::Sub, RetTy, CostKind);
+      Cost +=
+          thisT()->getArithmeticInstrCost(BinaryOperator::Shl, RetTy, CostKind);
+      Cost += thisT()->getArithmeticInstrCost(BinaryOperator::LShr, RetTy,
+                                              CostKind);
+      Cost += thisT()->getArithmeticInstrCost(BinaryOperator::URem, RetTy,
+                                              CostKind);
+      // Shift-by-zero handling.
+      Cost += thisT()->getCmpSelInstrCost(BinaryOperator::ICmp, RetTy, CondTy,
+                                          CmpInst::ICMP_EQ, CostKind);
+      Cost += thisT()->getCmpSelInstrCost(BinaryOperator::Select, RetTy, CondTy,
+                                          CmpInst::ICMP_EQ, CostKind);
+      return Cost;
+    }
     case Intrinsic::fptosi_sat:
     case Intrinsic::fptoui_sat: {
       if (Tys.empty())
diff --git a/llvm/include/llvm/CodeGen/CallingConvLower.h b/llvm/include/llvm/CodeGen/CallingConvLower.h
index 85171138d1eb9..7ad27cd01336a 100644
--- a/llvm/include/llvm/CodeGen/CallingConvLower.h
+++ b/llvm/include/llvm/CodeGen/CallingConvLower.h
@@ -357,12 +357,13 @@ class CCState {
     return Reg;
   }
 
-  /// AllocateRegBlock - Attempt to allocate a block of RegsRequired consecutive
-  /// registers. If this is not possible, return zero. Otherwise, return the first
-  /// register of the block that were allocated, marking the entire block as allocated.
-  MCPhysReg AllocateRegBlock(ArrayRef<MCPhysReg> Regs, unsigned RegsRequired) {
+  /// Attempt to allocate a block of RegsRequired consecutive registers.
+  /// If this is not possible, return an empty range. Otherwise, return a
+  /// range of consecutive registers, marking the entire block as allocated.
+  ArrayRef<MCPhysReg> AllocateRegBlock(ArrayRef<MCPhysReg> Regs,
+                                       unsigned RegsRequired) {
     if (RegsRequired > Regs.size())
-      return 0;
+      return {};
 
     for (unsigned StartIdx = 0; StartIdx <= Regs.size() - RegsRequired;
          ++StartIdx) {
@@ -379,11 +380,11 @@ class CCState {
         for (unsigned BlockIdx = 0; BlockIdx < RegsRequired; ++BlockIdx) {
           MarkAllocated(Regs[StartIdx + BlockIdx]);
         }
-        return Regs[StartIdx];
+        return Regs.slice(StartIdx, RegsRequired);
       }
     }
     // No block was available
-    return 0;
+    return {};
   }
 
   /// Version of AllocateReg with list of registers to be shadowed.
diff --git a/llvm/include/llvm/CodeGen/GlobalISel/MachineIRBuilder.h b/llvm/include/llvm/CodeGen/GlobalISel/MachineIRBuilder.h
index fac7fa6417265..7b0475ac2481d 100644
--- a/llvm/include/llvm/CodeGen/GlobalISel/MachineIRBuilder.h
+++ b/llvm/include/llvm/CodeGen/GlobalISel/MachineIRBuilder.h
@@ -1073,6 +1073,11 @@ class MachineIRBuilder {
   /// Build and insert an unmerge of \p Res sized pieces to cover \p Op
   MachineInstrBuilder buildUnmerge(LLT Res, const SrcOp &Op);
 
+  /// Build and insert an unmerge of pieces with \p Attrs register attributes to
+  /// cover \p Op
+  MachineInstrBuilder buildUnmerge(MachineRegisterInfo::VRegAttrs Attrs,
+                                   const SrcOp &Op);
+
   /// Build and insert \p Res = G_BUILD_VECTOR \p Op0, ...
   ///
   /// G_BUILD_VECTOR creates a vector value from multiple scalar registers.
diff --git a/llvm/include/llvm/CodeGen/LiveIntervals.h b/llvm/include/llvm/CodeGen/LiveIntervals.h
index 161bb247a0e96..540651ea11442 100644
--- a/llvm/include/llvm/CodeGen/LiveIntervals.h
+++ b/llvm/include/llvm/CodeGen/LiveIntervals.h
@@ -113,6 +113,9 @@ class LiveIntervals {
   LiveIntervals(LiveIntervals &&) = default;
   ~LiveIntervals();
 
+  bool invalidate(MachineFunction &MF, const PreservedAnalyses &PA,
+                  MachineFunctionAnalysisManager::Invalidator &Inv);
+
   /// Calculate the spill weight to assign to a single instruction.
   /// If \p PSI is provided the calculation is altered for optsize functions.
   static float getSpillWeight(bool isDef, bool isUse,
diff --git a/llvm/include/llvm/CodeGen/MachineInstr.h b/llvm/include/llvm/CodeGen/MachineInstr.h
index 109aac44b8662..102b1eb07358e 100644
--- a/llvm/include/llvm/CodeGen/MachineInstr.h
+++ b/llvm/include/llvm/CodeGen/MachineInstr.h
@@ -46,6 +46,7 @@ class BatchAAResults;
 template <typename T> class ArrayRef;
 class DIExpression;
 class DILocalVariable;
+class LiveRegUnits;
 class MachineBasicBlock;
 class MachineFunction;
 class MachineRegisterInfo;
@@ -1744,6 +1745,18 @@ class MachineInstr
   /// defined registers were dead.
   bool wouldBeTriviallyDead() const;
 
+  /// Check whether an MI is dead. If \p LivePhysRegs is provided, it is assumed
+  /// to be at the position of MI and will be used to check the Liveness of
+  /// physical register defs. If \p LivePhysRegs is not provided, this will
+  /// pessimistically assume any PhysReg def is live.
+  /// For trivially dead instructions (i.e. those without hard to model effects
+  /// / wouldBeTriviallyDead), this checks deadness by analyzing defs of the
+  /// MachineInstr. If the instruction wouldBeTriviallyDead, and  all the defs
+  /// either have dead flags or have no uses, then the instruction is said to be
+  /// dead.
+  bool isDead(const MachineRegisterInfo &MRI,
+              LiveRegUnits *LivePhysRegs = nullptr) const;
+
   /// Returns true if this instruction's memory access aliases the memory
   /// access of Other.
   //
diff --git a/llvm/include/llvm/CodeGen/MachineRegisterInfo.h b/llvm/include/llvm/CodeGen/MachineRegisterInfo.h
index 91f68581df48c..4fddc2033b81b 100644
--- a/llvm/include/llvm/CodeGen/MachineRegisterInfo.h
+++ b/llvm/include/llvm/CodeGen/MachineRegisterInfo.h
@@ -674,6 +674,12 @@ class MachineRegisterInfo {
     return dyn_cast_if_present<const TargetRegisterClass *>(Val);
   }
 
+  /// Return the register bank of \p Reg.
+  /// This shouldn't be used directly unless \p Reg has a register bank.
+  const RegisterBank *getRegBank(Register Reg) const {
+    return cast<const RegisterBank *>(VRegInfo[Reg.id()].first);
+  }
+
   /// Return the register bank of \p Reg, or null if Reg has not been assigned
   /// a register bank or has been assigned a register class.
   /// \note It is possible to get the register bank from the register class via
diff --git a/llvm/include/llvm/CodeGen/TargetLowering.h b/llvm/include/llvm/CodeGen/TargetLowering.h
index 38ac90f0c081b..59743dbe4d2ea 100644
--- a/llvm/include/llvm/CodeGen/TargetLowering.h
+++ b/llvm/include/llvm/CodeGen/TargetLowering.h
@@ -3156,13 +3156,11 @@ class TargetLoweringBase {
   /// Return true on success. Currently only supports
   /// llvm.vector.deinterleave2
   ///
-  /// \p DI is the deinterleave intrinsic.
-  /// \p LI is the accompanying load instruction
-  /// \p DeadInsts is a reference to a vector that keeps track of dead
-  /// instruction during transformations.
-  virtual bool lowerDeinterleaveIntrinsicToLoad(
-      IntrinsicInst *DI, LoadInst *LI,
-      SmallVectorImpl<Instruction *> &DeadInsts) const {
+  /// \p LI is the accompanying load instruction.
+  /// \p DeinterleaveValues contains the deinterleaved values.
+  virtual bool
+  lowerDeinterleaveIntrinsicToLoad(LoadInst *LI,
+                                   ArrayRef<Value *> DeinterleaveValues) const {
     return false;
   }
 
@@ -3170,13 +3168,11 @@ class TargetLoweringBase {
   /// Return true on success. Currently only supports
   /// llvm.vector.interleave2
   ///
-  /// \p II is the interleave intrinsic.
   /// \p SI is the accompanying store instruction
-  /// \p DeadInsts is a reference to a vector that keeps track of dead
-  /// instruction during transformations.
-  virtual bool lowerInterleaveIntrinsicToStore(
-      IntrinsicInst *II, StoreInst *SI,
-      SmallVectorImpl<Instruction *> &DeadInsts) const {
+  /// \p InterleaveValues contains the interleaved values.
+  virtual bool
+  lowerInterleaveIntrinsicToStore(StoreInst *SI,
+                                  ArrayRef<Value *> InterleaveValues) const {
     return false;
   }
 
diff --git a/llvm/include/llvm/ExecutionEngine/JITLink/ELF_loongarch.h b/llvm/include/llvm/ExecutionEngine/JITLink/ELF_loongarch.h
index 7e5d0f1f91852..a8655dc6f14e3 100644
--- a/llvm/include/llvm/ExecutionEngine/JITLink/ELF_loongarch.h
+++ b/llvm/include/llvm/ExecutionEngine/JITLink/ELF_loongarch.h
@@ -33,6 +33,10 @@ Expected<std::unique_ptr<LinkGraph>> createLinkGraphFromELFObject_loongarch(
 void link_ELF_loongarch(std::unique_ptr<LinkGraph> G,
                         std::unique_ptr<JITLinkContext> Ctx);
 
+/// Returns a pass that performs linker relaxation. Should be added to
+/// PostAllocationPasses.
+LinkGraphPassFunction createRelaxationPass_ELF_loongarch();
+
 } // end namespace jitlink
 } // end namespace llvm
 
diff --git a/llvm/include/llvm/ExecutionEngine/JITLink/loongarch.h b/llvm/include/llvm/ExecutionEngine/JITLink/loongarch.h
index 1db4b82218109..3c664296e9f33 100644
--- a/llvm/include/llvm/ExecutionEngine/JITLink/loongarch.h
+++ b/llvm/include/llvm/ExecutionEngine/JITLink/loongarch.h
@@ -14,8 +14,10 @@
 #define LLVM_EXECUTIONENGINE_JITLINK_LOONGARCH_H
 
 #include "TableManager.h"
+#include "llvm/ADT/StringExtras.h"
 #include "llvm/ExecutionEngine/JITLink/JITLink.h"
 #include "llvm/ExecutionEngine/Orc/Shared/MemoryFlags.h"
+#include "llvm/Support/LEB128.h"
 
 namespace llvm {
 namespace jitlink {
@@ -225,6 +227,97 @@ enum EdgeKind_loongarch : Edge::Kind {
   ///     out-of-range error will be returned.
   ///
   Call36PCRel,
+
+  /// low 6 bits label addition
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{1}Fixup + (Target + Addend) & 0x3f) : int8
+  ///
+  Add6,
+
+  /// 8 bits label addition
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{1}Fixup + Target + Addend) : int8
+  ///
+  Add8,
+
+  /// 16 bits label addition
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{2}Fixup + Target + Addend) : int16
+  ///
+  Add16,
+
+  /// 32 bits label addition
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{4}Fixup + Target + Addend) : int32
+  ///
+  Add32,
+
+  /// 64 bits label addition
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{8}Fixup + Target + Addend) : int64
+  ///
+  Add64,
+
+  /// ULEB128 bits label addition
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (Fixup + Target + Addend) : uleb128
+  ///
+  AddUleb128,
+
+  /// low 6 bits label subtraction
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{1}Fixup - (Target + Addend) & 0x3f) : int8
+  ///
+  Sub6,
+
+  /// 8 bits label subtraction
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{1}Fixup - Target - Addend) : int8
+  ///
+  Sub8,
+
+  /// 16 bits label subtraction
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{2}Fixup - Target - Addend) : int16
+  ///
+  Sub16,
+
+  /// 32 bits label subtraction
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{4}Fixup - Target - Addend) : int32
+  ///
+  Sub32,
+
+  /// 64 bits label subtraction
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (*{8}Fixup - Target - Addend) : int64
+  ///
+  Sub64,
+
+  /// ULEB128 bits label subtraction
+  ///
+  /// Fixup expression:
+  ///   Fixup <- (Fixup - Target - Addend) : uleb128
+  ///
+  SubUleb128,
+
+  /// Alignment requirement used by linker relaxation.
+  ///
+  /// Linker relaxation will use this to ensure all code sequences are properly
+  /// aligned and then remove these edges from the graph.
+  ///
+  AlignRelaxable,
 };
 
 /// Returns a string name for the given loongarch edge. For debugging purposes
@@ -362,6 +455,103 @@ inline Error applyFixup(LinkGraph &G, Block &B, const Edge &E) {
     *(little32_t *)(FixupPtr + 4) = Jirl | Lo16;
     break;
   }
+  case Add6: {
+    int64_t Value = *(reinterpret_cast<const int8_t *>(FixupPtr));
+    Value += ((TargetAddress + Addend) & 0x3f);
+    *FixupPtr = (*FixupPtr & 0xc0) | (static_cast<int8_t>(Value) & 0x3f);
+    break;
+  }
+  case Add8: {
+    int64_t Value =
+        TargetAddress + *(reinterpret_cast<const int8_t *>(FixupPtr)) + Addend;
+    *FixupPtr = static_cast<int8_t>(Value);
+    break;
+  }
+  case Add16: {
+    int64_t Value =
+        TargetAddress + support::endian::read16le(FixupPtr) + Addend;
+    *(little16_t *)FixupPtr = static_cast<int16_t>(Value);
+    break;
+  }
+  case Add32: {
+    int64_t Value =
+        TargetAddress + support::endian::read32le(FixupPtr) + Addend;
+    *(little32_t *)FixupPtr = static_cast<int32_t>(Value);
+    break;
+  }
+  case Add64: {
+    int64_t Value =
+        TargetAddress + support::endian::read64le(FixupPtr) + Addend;
+    *(little64_t *)FixupPtr = static_cast<int64_t>(Value);
+    break;
+  }
+  case AddUleb128: {
+    const uint32_t Maxcount = 1 + 64 / 7;
+    uint32_t Count;
+    const char *Error = nullptr;
+    uint64_t Orig = decodeULEB128((reinterpret_cast<const uint8_t *>(FixupPtr)),
+                                  &Count, nullptr, &Error);
+
+    if (Count > Maxcount || (Count == Maxcount && Error))
+      return make_error<JITLinkError>(
+          "0x" + llvm::utohexstr(orc::ExecutorAddr(FixupAddress).getValue()) +
+          ": extra space for uleb128");
+
+    uint64_t Mask = Count < Maxcount ? (1ULL << 7 * Count) - 1 : -1ULL;
+    encodeULEB128((Orig + TargetAddress + Addend) & Mask,
+                  (reinterpret_cast<uint8_t *>(FixupPtr)), Count);
+    break;
+  }
+  case Sub6: {
+    int64_t Value = *(reinterpret_cast<const int8_t *>(FixupPtr));
+    Value -= ((TargetAddress + Addend) & 0x3f);
+    *FixupPtr = (*FixupPtr & 0xc0) | (static_cast<int8_t>(Value) & 0x3f);
+    break;
+  }
+  case Sub8: {
+    int64_t Value =
+        *(reinterpret_cast<const int8_t *>(FixupPtr)) - TargetAddress - Addend;
+    *FixupPtr = static_cast<int8_t>(Value);
+    break;
+  }
+  case Sub16: {
+    int64_t Value =
+        support::endian::read16le(FixupPtr) - TargetAddress - Addend;
+    *(little16_t *)FixupPtr = static_cast<int16_t>(Value);
+    break;
+  }
+  case Sub32: {
+    int64_t Value =
+        support::endian::read32le(FixupPtr) - TargetAddress - Addend;
+    *(little32_t *)FixupPtr = static_cast<int32_t>(Value);
+    break;
+  }
+  case Sub64: {
+    int64_t Value =
+        support::endian::read64le(FixupPtr) - TargetAddress - Addend;
+    *(little64_t *)FixupPtr = static_cast<int64_t>(Value);
+    break;
+  }
+  case SubUleb128: {
+    const uint32_t Maxcount = 1 + 64 / 7;
+    uint32_t Count;
+    const char *Error = nullptr;
+    uint64_t Orig = decodeULEB128((reinterpret_cast<const uint8_t *>(FixupPtr)),
+                                  &Count, nullptr, &Error);
+
+    if (Count > Maxcount || (Count == Maxcount && Error))
+      return make_error<JITLinkError>(
+          "0x" + llvm::utohexstr(orc::ExecutorAddr(FixupAddress).getValue()) +
+          ": extra space for uleb128");
+
+    uint64_t Mask = Count < Maxcount ? (1ULL << 7 * Count) - 1 : -1ULL;
+    encodeULEB128((Orig - TargetAddress - Addend) & Mask,
+                  (reinterpret_cast<uint8_t *>(FixupPtr)), Count);
+    break;
+  }
+  case AlignRelaxable:
+    // Ignore when the relaxation pass did not run
+    break;
   default:
     return make_error<JITLinkError>(
         "In graph " + G.getName() + ", section " + B.getSection().getName() +
diff --git a/llvm/include/llvm/IR/BasicBlock.h b/llvm/include/llvm/IR/BasicBlock.h
index c7913e60cea08..f85b221a211b9 100644
--- a/llvm/include/llvm/IR/BasicBlock.h
+++ b/llvm/include/llvm/IR/BasicBlock.h
@@ -194,6 +194,7 @@ class BasicBlock final : public Value, // Basic blocks are data objects also
   // debug-info attachments.
   friend void Instruction::insertBefore(BasicBlock::iterator InsertPos);
   friend void Instruction::insertAfter(Instruction *InsertPos);
+  friend void Instruction::insertAfter(BasicBlock::iterator InsertPos);
   friend void Instruction::insertBefore(BasicBlock &BB,
                                         InstListType::iterator InsertPos);
   friend void Instruction::moveBeforeImpl(BasicBlock &BB,
diff --git a/llvm/include/llvm/IR/DebugProgramInstruction.h b/llvm/include/llvm/IR/DebugProgramInstruction.h
index e979d8840cbaf..37db7894d173d 100644
--- a/llvm/include/llvm/IR/DebugProgramInstruction.h
+++ b/llvm/include/llvm/IR/DebugProgramInstruction.h
@@ -192,11 +192,19 @@ class DbgRecord : public ilist_node<DbgRecord> {
 
   DbgRecord *getNextNode() { return &*std::next(getIterator()); }
   DbgRecord *getPrevNode() { return &*std::prev(getIterator()); }
+
+  // Some generic lambdas supporting intrinsic-based debug-info mean we need
+  // to support both iterator and instruction position based insertion.
   void insertBefore(DbgRecord *InsertBefore);
   void insertAfter(DbgRecord *InsertAfter);
   void moveBefore(DbgRecord *MoveBefore);
   void moveAfter(DbgRecord *MoveAfter);
 
+  void insertBefore(self_iterator InsertBefore);
+  void insertAfter(self_iterator InsertAfter);
+  void moveBefore(self_iterator MoveBefore);
+  void moveAfter(self_iterator MoveAfter);
+
   DebugLoc getDebugLoc() const { return DbgLoc; }
   void setDebugLoc(DebugLoc Loc) { DbgLoc = std::move(Loc); }
 
diff --git a/llvm/include/llvm/IR/Instruction.h b/llvm/include/llvm/IR/Instruction.h
index aa480aa8d9863..6cdd79ce16005 100644
--- a/llvm/include/llvm/IR/Instruction.h
+++ b/llvm/include/llvm/IR/Instruction.h
@@ -207,12 +207,19 @@ class Instruction : public User,
   /// Insert an unlinked instruction into a basic block immediately before
   /// the specified instruction.
   void insertBefore(Instruction *InsertPos);
+
+  /// Insert an unlinked instruction into a basic block immediately before
+  /// the specified position.
   void insertBefore(InstListType::iterator InsertPos);
 
   /// Insert an unlinked instruction into a basic block immediately after the
   /// specified instruction.
   void insertAfter(Instruction *InsertPos);
 
+  /// Insert an unlinked instruction into a basic block immediately after the
+  /// specified position.
+  void insertAfter(InstListType::iterator InsertPos);
+
   /// Inserts an unlinked instruction into \p ParentBB at position \p It and
   /// returns the iterator of the inserted instruction.
   InstListType::iterator insertInto(BasicBlock *ParentBB,
@@ -224,11 +231,15 @@ class Instruction : public User,
   /// the basic block that MovePos lives in, right before MovePos.
   void moveBefore(Instruction *MovePos);
 
+  /// Unlink this instruction from its current basic block and insert it into
+  /// the basic block that MovePos lives in, right before MovePos.
+  void moveBefore(InstListType::iterator InsertPos);
+
   /// Perform a \ref moveBefore operation, while signalling that the caller
   /// intends to preserve the original ordering of instructions. This implicitly
   /// means that any adjacent debug-info should move with this instruction.
-  /// This method is currently a no-op placeholder, but it will become meaningful
-  /// when the "RemoveDIs" project is enabled.
+  /// This method is currently a no-op placeholder, but it will become
+  /// meaningful when the "RemoveDIs" project is enabled.
   void moveBeforePreserving(Instruction *MovePos);
 
 private:
@@ -242,13 +253,19 @@ class Instruction : public User,
   /// \pre I is a valid iterator into BB.
   void moveBefore(BasicBlock &BB, InstListType::iterator I);
 
-  /// (See other overload for moveBeforePreserving).
   void moveBeforePreserving(BasicBlock &BB, InstListType::iterator I);
+  /// Unlink this instruction from its current basic block and insert it into
+  /// the basic block that MovePos lives in, right before MovePos.
+  void moveBeforePreserving(InstListType::iterator I);
 
   /// Unlink this instruction from its current basic block and insert it into
   /// the basic block that MovePos lives in, right after MovePos.
   void moveAfter(Instruction *MovePos);
 
+  /// Unlink this instruction from its current basic block and insert it into
+  /// the basic block that MovePos lives in, right after MovePos.
+  void moveAfter(InstListType::iterator MovePos);
+
   /// See \ref moveBeforePreserving .
   void moveAfterPreserving(Instruction *MovePos);
 
diff --git a/llvm/include/llvm/IR/IntrinsicsNVVM.td b/llvm/include/llvm/IR/IntrinsicsNVVM.td
index 00a76018d8415..68c2373a1a454 100644
--- a/llvm/include/llvm/IR/IntrinsicsNVVM.td
+++ b/llvm/include/llvm/IR/IntrinsicsNVVM.td
@@ -5033,4 +5033,18 @@ def int_nvvm_cp_async_bulk_shared_cta_to_global
        NoCapture<ArgIndex<0>>, NoCapture<ArgIndex<1>>,
        ImmArg<ArgIndex<4>>]>;
 
+// Intrinsics for Bulk Copy Prefetch L2
+def int_nvvm_cp_async_bulk_prefetch_L2
+  : DefaultAttrsIntrinsic<[],
+      [llvm_global_ptr_ty, // src_gmem_ptr
+       llvm_i32_ty,        // copy_size
+       llvm_i64_ty,        // cache_hint
+       llvm_i1_ty],        // Flag for cache_hint
+      [IntrConvergent, IntrArgMemOnly,
+       NoCapture<ArgIndex<0>>, ReadOnly<ArgIndex<0>>,
+       ImmArg<ArgIndex<3>>]>;
+
+def int_nvvm_griddepcontrol_launch_dependents: Intrinsic<[], [], [IntrNoMem, IntrHasSideEffects]>;
+def int_nvvm_griddepcontrol_wait: Intrinsic<[], [], [IntrNoMem, IntrHasSideEffects]>;
+
 } // let TargetPrefix = "nvvm"
diff --git a/llvm/include/llvm/IR/IntrinsicsX86.td b/llvm/include/llvm/IR/IntrinsicsX86.td
index 9b924bfea448b..164d48bff2804 100644
--- a/llvm/include/llvm/IR/IntrinsicsX86.td
+++ b/llvm/include/llvm/IR/IntrinsicsX86.td
@@ -7503,40 +7503,40 @@ def int_x86_avx10_mask_vcvtbiasph2hf8s256 : ClangBuiltin<"__builtin_ia32_vcvtbia
 def int_x86_avx10_mask_vcvtbiasph2hf8s512 : ClangBuiltin<"__builtin_ia32_vcvtbiasph2hf8s_512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32i8_ty], [llvm_v64i8_ty, llvm_v32f16_ty, llvm_v32i8_ty, llvm_i32_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2bf8128 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2bf8_128">,
+def int_x86_avx10_vcvt2ph2bf8128 : ClangBuiltin<"__builtin_ia32_vcvt2ph2bf8_128">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v8f16_ty, llvm_v8f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2bf8256 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2bf8_256">,
+def int_x86_avx10_vcvt2ph2bf8256 : ClangBuiltin<"__builtin_ia32_vcvt2ph2bf8_256">,
         DefaultAttrsIntrinsic<[llvm_v32i8_ty], [llvm_v16f16_ty, llvm_v16f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2bf8512 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2bf8_512">,
+def int_x86_avx10_vcvt2ph2bf8512 : ClangBuiltin<"__builtin_ia32_vcvt2ph2bf8_512">,
         DefaultAttrsIntrinsic<[llvm_v64i8_ty], [llvm_v32f16_ty, llvm_v32f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2bf8s128 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2bf8s_128">,
+def int_x86_avx10_vcvt2ph2bf8s128 : ClangBuiltin<"__builtin_ia32_vcvt2ph2bf8s_128">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v8f16_ty, llvm_v8f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2bf8s256 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2bf8s_256">,
+def int_x86_avx10_vcvt2ph2bf8s256 : ClangBuiltin<"__builtin_ia32_vcvt2ph2bf8s_256">,
         DefaultAttrsIntrinsic<[llvm_v32i8_ty], [llvm_v16f16_ty, llvm_v16f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2bf8s512 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2bf8s_512">,
+def int_x86_avx10_vcvt2ph2bf8s512 : ClangBuiltin<"__builtin_ia32_vcvt2ph2bf8s_512">,
         DefaultAttrsIntrinsic<[llvm_v64i8_ty], [llvm_v32f16_ty, llvm_v32f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2hf8128 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2hf8_128">,
+def int_x86_avx10_vcvt2ph2hf8128 : ClangBuiltin<"__builtin_ia32_vcvt2ph2hf8_128">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v8f16_ty, llvm_v8f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2hf8256 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2hf8_256">,
+def int_x86_avx10_vcvt2ph2hf8256 : ClangBuiltin<"__builtin_ia32_vcvt2ph2hf8_256">,
         DefaultAttrsIntrinsic<[llvm_v32i8_ty], [llvm_v16f16_ty, llvm_v16f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2hf8512 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2hf8_512">,
+def int_x86_avx10_vcvt2ph2hf8512 : ClangBuiltin<"__builtin_ia32_vcvt2ph2hf8_512">,
         DefaultAttrsIntrinsic<[llvm_v64i8_ty], [llvm_v32f16_ty, llvm_v32f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2hf8s128 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2hf8s_128">,
+def int_x86_avx10_vcvt2ph2hf8s128 : ClangBuiltin<"__builtin_ia32_vcvt2ph2hf8s_128">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v8f16_ty, llvm_v8f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2hf8s256 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2hf8s_256">,
+def int_x86_avx10_vcvt2ph2hf8s256 : ClangBuiltin<"__builtin_ia32_vcvt2ph2hf8s_256">,
         DefaultAttrsIntrinsic<[llvm_v32i8_ty], [llvm_v16f16_ty, llvm_v16f16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcvtne2ph2hf8s512 : ClangBuiltin<"__builtin_ia32_vcvtne2ph2hf8s_512">,
+def int_x86_avx10_vcvt2ph2hf8s512 : ClangBuiltin<"__builtin_ia32_vcvt2ph2hf8s_512">,
         DefaultAttrsIntrinsic<[llvm_v64i8_ty], [llvm_v32f16_ty, llvm_v32f16_ty],
                               [IntrNoMem]>;
 def int_x86_avx10_mask_vcvthf82ph128 : ClangBuiltin<"__builtin_ia32_vcvthf8_2ph128_mask">,
@@ -7548,293 +7548,293 @@ def int_x86_avx10_mask_vcvthf82ph256 : ClangBuiltin<"__builtin_ia32_vcvthf8_2ph2
 def int_x86_avx10_mask_vcvthf82ph512 : ClangBuiltin<"__builtin_ia32_vcvthf8_2ph512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32f16_ty], [llvm_v32i8_ty, llvm_v32f16_ty, llvm_i32_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2bf8128 : ClangBuiltin<"__builtin_ia32_vcvtneph2bf8_128_mask">,
+def int_x86_avx10_mask_vcvtph2bf8128 : ClangBuiltin<"__builtin_ia32_vcvtph2bf8_128_mask">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v8f16_ty, llvm_v16i8_ty, llvm_i8_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2bf8256 : ClangBuiltin<"__builtin_ia32_vcvtneph2bf8_256_mask">,
+def int_x86_avx10_mask_vcvtph2bf8256 : ClangBuiltin<"__builtin_ia32_vcvtph2bf8_256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v16f16_ty, llvm_v16i8_ty, llvm_i16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2bf8512 : ClangBuiltin<"__builtin_ia32_vcvtneph2bf8_512_mask">,
+def int_x86_avx10_mask_vcvtph2bf8512 : ClangBuiltin<"__builtin_ia32_vcvtph2bf8_512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32i8_ty], [llvm_v32f16_ty, llvm_v32i8_ty, llvm_i32_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2bf8s128 : ClangBuiltin<"__builtin_ia32_vcvtneph2bf8s_128_mask">,
+def int_x86_avx10_mask_vcvtph2bf8s128 : ClangBuiltin<"__builtin_ia32_vcvtph2bf8s_128_mask">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v8f16_ty, llvm_v16i8_ty, llvm_i8_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2bf8s256 : ClangBuiltin<"__builtin_ia32_vcvtneph2bf8s_256_mask">,
+def int_x86_avx10_mask_vcvtph2bf8s256 : ClangBuiltin<"__builtin_ia32_vcvtph2bf8s_256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v16f16_ty, llvm_v16i8_ty, llvm_i16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2bf8s512 : ClangBuiltin<"__builtin_ia32_vcvtneph2bf8s_512_mask">,
+def int_x86_avx10_mask_vcvtph2bf8s512 : ClangBuiltin<"__builtin_ia32_vcvtph2bf8s_512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32i8_ty], [llvm_v32f16_ty, llvm_v32i8_ty, llvm_i32_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2hf8128 : ClangBuiltin<"__builtin_ia32_vcvtneph2hf8_128_mask">,
+def int_x86_avx10_mask_vcvtph2hf8128 : ClangBuiltin<"__builtin_ia32_vcvtph2hf8_128_mask">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v8f16_ty, llvm_v16i8_ty, llvm_i8_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2hf8256 : ClangBuiltin<"__builtin_ia32_vcvtneph2hf8_256_mask">,
+def int_x86_avx10_mask_vcvtph2hf8256 : ClangBuiltin<"__builtin_ia32_vcvtph2hf8_256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v16f16_ty, llvm_v16i8_ty, llvm_i16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2hf8512 : ClangBuiltin<"__builtin_ia32_vcvtneph2hf8_512_mask">,
+def int_x86_avx10_mask_vcvtph2hf8512 : ClangBuiltin<"__builtin_ia32_vcvtph2hf8_512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32i8_ty], [llvm_v32f16_ty, llvm_v32i8_ty, llvm_i32_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2hf8s128 : ClangBuiltin<"__builtin_ia32_vcvtneph2hf8s_128_mask">,
+def int_x86_avx10_mask_vcvtph2hf8s128 : ClangBuiltin<"__builtin_ia32_vcvtph2hf8s_128_mask">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v8f16_ty, llvm_v16i8_ty, llvm_i8_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2hf8s256 : ClangBuiltin<"__builtin_ia32_vcvtneph2hf8s_256_mask">,
+def int_x86_avx10_mask_vcvtph2hf8s256 : ClangBuiltin<"__builtin_ia32_vcvtph2hf8s_256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16i8_ty], [llvm_v16f16_ty, llvm_v16i8_ty, llvm_i16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_vcvtneph2hf8s512 : ClangBuiltin<"__builtin_ia32_vcvtneph2hf8s_512_mask">,
+def int_x86_avx10_mask_vcvtph2hf8s512 : ClangBuiltin<"__builtin_ia32_vcvtph2hf8s_512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32i8_ty], [llvm_v32f16_ty, llvm_v32i8_ty, llvm_i32_ty],
                               [IntrNoMem]>;
 }
 
 //===----------------------------------------------------------------------===//
 let TargetPrefix = "x86" in {
-def int_x86_avx10_vaddnepbf16512 : ClangBuiltin<"__builtin_ia32_vaddnepbf16512">,
+def int_x86_avx10_vaddbf16512 : ClangBuiltin<"__builtin_ia32_vaddbf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vaddnepbf16256 : ClangBuiltin<"__builtin_ia32_vaddnepbf16256">,
+def int_x86_avx10_vaddbf16256 : ClangBuiltin<"__builtin_ia32_vaddbf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vaddnepbf16128 : ClangBuiltin<"__builtin_ia32_vaddnepbf16128">,
+def int_x86_avx10_vaddbf16128 : ClangBuiltin<"__builtin_ia32_vaddbf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vsubnepbf16512 : ClangBuiltin<"__builtin_ia32_vsubnepbf16512">,
+def int_x86_avx10_vsubbf16512 : ClangBuiltin<"__builtin_ia32_vsubbf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vsubnepbf16256 : ClangBuiltin<"__builtin_ia32_vsubnepbf16256">,
+def int_x86_avx10_vsubbf16256 : ClangBuiltin<"__builtin_ia32_vsubbf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vsubnepbf16128 : ClangBuiltin<"__builtin_ia32_vsubnepbf16128">,
+def int_x86_avx10_vsubbf16128 : ClangBuiltin<"__builtin_ia32_vsubbf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vmulnepbf16512 : ClangBuiltin<"__builtin_ia32_vmulnepbf16512">,
+def int_x86_avx10_vmulbf16512 : ClangBuiltin<"__builtin_ia32_vmulbf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vmulnepbf16256 : ClangBuiltin<"__builtin_ia32_vmulnepbf16256">,
+def int_x86_avx10_vmulbf16256 : ClangBuiltin<"__builtin_ia32_vmulbf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vmulnepbf16128 : ClangBuiltin<"__builtin_ia32_vmulnepbf16128">,
+def int_x86_avx10_vmulbf16128 : ClangBuiltin<"__builtin_ia32_vmulbf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vdivnepbf16512 : ClangBuiltin<"__builtin_ia32_vdivnepbf16512">,
+def int_x86_avx10_vdivbf16512 : ClangBuiltin<"__builtin_ia32_vdivbf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vdivnepbf16256 : ClangBuiltin<"__builtin_ia32_vdivnepbf16256">,
+def int_x86_avx10_vdivbf16256 : ClangBuiltin<"__builtin_ia32_vdivbf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vdivnepbf16128 : ClangBuiltin<"__builtin_ia32_vdivnepbf16128">,
+def int_x86_avx10_vdivbf16128 : ClangBuiltin<"__builtin_ia32_vdivbf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vmaxpbf16512 : ClangBuiltin<"__builtin_ia32_vmaxpbf16512">,
+def int_x86_avx10_vmaxbf16512 : ClangBuiltin<"__builtin_ia32_vmaxbf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vmaxpbf16256 : ClangBuiltin<"__builtin_ia32_vmaxpbf16256">,
+def int_x86_avx10_vmaxbf16256 : ClangBuiltin<"__builtin_ia32_vmaxbf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vmaxpbf16128 : ClangBuiltin<"__builtin_ia32_vmaxpbf16128">,
+def int_x86_avx10_vmaxbf16128 : ClangBuiltin<"__builtin_ia32_vmaxbf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vminpbf16512 : ClangBuiltin<"__builtin_ia32_vminpbf16512">,
+def int_x86_avx10_vminbf16512 : ClangBuiltin<"__builtin_ia32_vminbf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vminpbf16256 : ClangBuiltin<"__builtin_ia32_vminpbf16256">,
+def int_x86_avx10_vminbf16256 : ClangBuiltin<"__builtin_ia32_vminbf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vminpbf16128 : ClangBuiltin<"__builtin_ia32_vminpbf16128">,
+def int_x86_avx10_vminbf16128 : ClangBuiltin<"__builtin_ia32_vminbf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcomsbf16eq : ClangBuiltin<"__builtin_ia32_vcomsbf16eq">,
+def int_x86_avx10_vcomisbf16eq : ClangBuiltin<"__builtin_ia32_vcomisbf16eq">,
         DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcomsbf16lt : ClangBuiltin<"__builtin_ia32_vcomsbf16lt">,
+def int_x86_avx10_vcomisbf16lt : ClangBuiltin<"__builtin_ia32_vcomisbf16lt">,
         DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_v8bf16_ty,llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcomsbf16le : ClangBuiltin<"__builtin_ia32_vcomsbf16le">,
+def int_x86_avx10_vcomisbf16le : ClangBuiltin<"__builtin_ia32_vcomisbf16le">,
         DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcomsbf16gt : ClangBuiltin<"__builtin_ia32_vcomsbf16gt">,
+def int_x86_avx10_vcomisbf16gt : ClangBuiltin<"__builtin_ia32_vcomisbf16gt">,
         DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcomsbf16ge : ClangBuiltin<"__builtin_ia32_vcomsbf16ge">,
+def int_x86_avx10_vcomisbf16ge : ClangBuiltin<"__builtin_ia32_vcomisbf16ge">,
         DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vcomsbf16neq : ClangBuiltin<"__builtin_ia32_vcomsbf16neq">,
+def int_x86_avx10_vcomisbf16neq : ClangBuiltin<"__builtin_ia32_vcomisbf16neq">,
         DefaultAttrsIntrinsic<[llvm_i32_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_rsqrt_nepbf16_128 : ClangBuiltin<"__builtin_ia32_vrsqrtpbf16128_mask">,
+def int_x86_avx10_mask_rsqrt_bf16_128 : ClangBuiltin<"__builtin_ia32_vrsqrtbf16128_mask">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_i8_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_rsqrt_nepbf16_256 : ClangBuiltin<"__builtin_ia32_vrsqrtpbf16256_mask">,
+def int_x86_avx10_mask_rsqrt_bf16_256 : ClangBuiltin<"__builtin_ia32_vrsqrtbf16256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_i16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_rsqrt_nepbf16_512 : ClangBuiltin<"__builtin_ia32_vrsqrtpbf16512_mask">,
+def int_x86_avx10_mask_rsqrt_bf16_512 : ClangBuiltin<"__builtin_ia32_vrsqrtbf16512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_i32_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_rcp_nepbf16_128 : ClangBuiltin<"__builtin_ia32_vrcppbf16128_mask">,
+def int_x86_avx10_mask_rcp_bf16_128 : ClangBuiltin<"__builtin_ia32_vrcpbf16128_mask">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_i8_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_rcp_nepbf16_256 : ClangBuiltin<"__builtin_ia32_vrcppbf16256_mask">,
+def int_x86_avx10_mask_rcp_bf16_256 : ClangBuiltin<"__builtin_ia32_vrcpbf16256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_i16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_rcp_nepbf16_512 : ClangBuiltin<"__builtin_ia32_vrcppbf16512_mask">,
+def int_x86_avx10_mask_rcp_bf16_512 : ClangBuiltin<"__builtin_ia32_vrcpbf16512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_i32_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_reduce_nepbf16_128 : ClangBuiltin<"__builtin_ia32_vreducenepbf16128_mask">,
+def int_x86_avx10_mask_reduce_bf16_128 : ClangBuiltin<"__builtin_ia32_vreducebf16128_mask">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_i32_ty, llvm_v8bf16_ty, llvm_i8_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_mask_reduce_nepbf16_256 : ClangBuiltin<"__builtin_ia32_vreducenepbf16256_mask">,
+def int_x86_avx10_mask_reduce_bf16_256 : ClangBuiltin<"__builtin_ia32_vreducebf16256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_i32_ty, llvm_v16bf16_ty, llvm_i16_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_mask_reduce_nepbf16_512 : ClangBuiltin<"__builtin_ia32_vreducenepbf16512_mask">,
+def int_x86_avx10_mask_reduce_bf16_512 : ClangBuiltin<"__builtin_ia32_vreducebf16512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_i32_ty, llvm_v32bf16_ty, llvm_i32_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_fpclass_nepbf16_128 :
+def int_x86_avx10_fpclass_bf16_128 :
         DefaultAttrsIntrinsic<[llvm_v8i1_ty], [llvm_v8bf16_ty, llvm_i32_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_fpclass_nepbf16_256 :
+def int_x86_avx10_fpclass_bf16_256 :
         DefaultAttrsIntrinsic<[llvm_v16i1_ty], [llvm_v16bf16_ty, llvm_i32_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_fpclass_nepbf16_512 :
+def int_x86_avx10_fpclass_bf16_512 :
         DefaultAttrsIntrinsic<[llvm_v32i1_ty], [llvm_v32bf16_ty, llvm_i32_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_mask_getexp_nepbf16_128 : ClangBuiltin<"__builtin_ia32_vgetexppbf16128_mask">,
+def int_x86_avx10_mask_getexp_bf16_128 : ClangBuiltin<"__builtin_ia32_vgetexpbf16128_mask">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_i8_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_getexp_nepbf16_256 : ClangBuiltin<"__builtin_ia32_vgetexppbf16256_mask">,
+def int_x86_avx10_mask_getexp_bf16_256 : ClangBuiltin<"__builtin_ia32_vgetexpbf16256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_i16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_getexp_nepbf16_512 : ClangBuiltin<"__builtin_ia32_vgetexppbf16512_mask">,
+def int_x86_avx10_mask_getexp_bf16_512 : ClangBuiltin<"__builtin_ia32_vgetexpbf16512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_i32_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_getmant_nepbf16_128 : ClangBuiltin<"__builtin_ia32_vgetmantpbf16128_mask">,
+def int_x86_avx10_mask_getmant_bf16_128 : ClangBuiltin<"__builtin_ia32_vgetmantbf16128_mask">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_i32_ty, llvm_v8bf16_ty, llvm_i8_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_mask_getmant_nepbf16_256 : ClangBuiltin<"__builtin_ia32_vgetmantpbf16256_mask">,
+def int_x86_avx10_mask_getmant_bf16_256 : ClangBuiltin<"__builtin_ia32_vgetmantbf16256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_i32_ty, llvm_v16bf16_ty, llvm_i16_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_mask_getmant_nepbf16_512 : ClangBuiltin<"__builtin_ia32_vgetmantpbf16512_mask">,
+def int_x86_avx10_mask_getmant_bf16_512 : ClangBuiltin<"__builtin_ia32_vgetmantbf16512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_i32_ty, llvm_v32bf16_ty, llvm_i32_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_mask_rndscale_nepbf16_128 : ClangBuiltin<"__builtin_ia32_vrndscalenepbf16_128_mask">,
+def int_x86_avx10_mask_rndscale_bf16_128 : ClangBuiltin<"__builtin_ia32_vrndscalebf16_128_mask">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_i32_ty, llvm_v8bf16_ty, llvm_i8_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_mask_rndscale_nepbf16_256 : ClangBuiltin<"__builtin_ia32_vrndscalenepbf16_256_mask">,
+def int_x86_avx10_mask_rndscale_bf16_256 : ClangBuiltin<"__builtin_ia32_vrndscalebf16_256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_i32_ty, llvm_v16bf16_ty, llvm_i16_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_mask_rndscale_nepbf16_512 : ClangBuiltin<"__builtin_ia32_vrndscalenepbf16_mask">,
+def int_x86_avx10_mask_rndscale_bf16_512 : ClangBuiltin<"__builtin_ia32_vrndscalebf16_mask">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_i32_ty, llvm_v32bf16_ty, llvm_i32_ty],
                               [IntrNoMem, ImmArg<ArgIndex<1>>]>;
-def int_x86_avx10_mask_scalef_nepbf16_128 : ClangBuiltin<"__builtin_ia32_vscalefpbf16128_mask">,
+def int_x86_avx10_mask_scalef_bf16_128 : ClangBuiltin<"__builtin_ia32_vscalefbf16128_mask">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_i8_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_scalef_nepbf16_256 : ClangBuiltin<"__builtin_ia32_vscalefpbf16256_mask">,
+def int_x86_avx10_mask_scalef_bf16_256 : ClangBuiltin<"__builtin_ia32_vscalefbf16256_mask">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_i16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_mask_scalef_nepbf16_512 : ClangBuiltin<"__builtin_ia32_vscalefpbf16512_mask">,
+def int_x86_avx10_mask_scalef_bf16_512 : ClangBuiltin<"__builtin_ia32_vscalefbf16512_mask">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_i32_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmadd213nepbf16256 : ClangBuiltin<"__builtin_ia32_vfmadd213nepbf16256">,
+def int_x86_avx10_vfmadd213bf16256 : ClangBuiltin<"__builtin_ia32_vfmadd213bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmadd213nepbf16128 : ClangBuiltin<"__builtin_ia32_vfmadd213nepbf16128">,
+def int_x86_avx10_vfmadd213bf16128 : ClangBuiltin<"__builtin_ia32_vfmadd213bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmadd132nepbf16512 : ClangBuiltin<"__builtin_ia32_vfmadd132nepbf16512">,
+def int_x86_avx10_vfmadd132bf16512 : ClangBuiltin<"__builtin_ia32_vfmadd132bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmadd132nepbf16256 : ClangBuiltin<"__builtin_ia32_vfmadd132nepbf16256">,
+def int_x86_avx10_vfmadd132bf16256 : ClangBuiltin<"__builtin_ia32_vfmadd132bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmadd132nepbf16128 : ClangBuiltin<"__builtin_ia32_vfmadd132nepbf16128">,
+def int_x86_avx10_vfmadd132bf16128 : ClangBuiltin<"__builtin_ia32_vfmadd132bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmadd231nepbf16512 : ClangBuiltin<"__builtin_ia32_vfmadd231nepbf16512">,
+def int_x86_avx10_vfmadd231bf16512 : ClangBuiltin<"__builtin_ia32_vfmadd231bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmadd231nepbf16256 : ClangBuiltin<"__builtin_ia32_vfmadd231nepbf16256">,
+def int_x86_avx10_vfmadd231bf16256 : ClangBuiltin<"__builtin_ia32_vfmadd231bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmadd231nepbf16128 : ClangBuiltin<"__builtin_ia32_vfmadd231nepbf16128">,
+def int_x86_avx10_vfmadd231bf16128 : ClangBuiltin<"__builtin_ia32_vfmadd231bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmsub213nepbf16512 : ClangBuiltin<"__builtin_ia32_vfmsub213nepbf16512">,
+def int_x86_avx10_vfmsub213bf16512 : ClangBuiltin<"__builtin_ia32_vfmsub213bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmsub213nepbf16256 : ClangBuiltin<"__builtin_ia32_vfmsub213nepbf16256">,
+def int_x86_avx10_vfmsub213bf16256 : ClangBuiltin<"__builtin_ia32_vfmsub213bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmsub213nepbf16128 : ClangBuiltin<"__builtin_ia32_vfmsub213nepbf16128">,
+def int_x86_avx10_vfmsub213bf16128 : ClangBuiltin<"__builtin_ia32_vfmsub213bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmsub132nepbf16512 : ClangBuiltin<"__builtin_ia32_vfmsub132nepbf16512">,
+def int_x86_avx10_vfmsub132bf16512 : ClangBuiltin<"__builtin_ia32_vfmsub132bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmsub132nepbf16256 : ClangBuiltin<"__builtin_ia32_vfmsub132nepbf16256">,
+def int_x86_avx10_vfmsub132bf16256 : ClangBuiltin<"__builtin_ia32_vfmsub132bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmsub132nepbf16128 : ClangBuiltin<"__builtin_ia32_vfmsub132nepbf16128">,
+def int_x86_avx10_vfmsub132bf16128 : ClangBuiltin<"__builtin_ia32_vfmsub132bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmsub231nepbf16512 : ClangBuiltin<"__builtin_ia32_vfmsub231nepbf16512">,
+def int_x86_avx10_vfmsub231bf16512 : ClangBuiltin<"__builtin_ia32_vfmsub231bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmsub231nepbf16256 : ClangBuiltin<"__builtin_ia32_vfmsub231nepbf16256">,
+def int_x86_avx10_vfmsub231bf16256 : ClangBuiltin<"__builtin_ia32_vfmsub231bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfmsub231nepbf16128 : ClangBuiltin<"__builtin_ia32_vfmsub231nepbf16128">,
+def int_x86_avx10_vfmsub231bf16128 : ClangBuiltin<"__builtin_ia32_vfmsub231bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmadd213nepbf16512 : ClangBuiltin<"__builtin_ia32_vfnmadd213nepbf16512">,
+def int_x86_avx10_vfnmadd213bf16512 : ClangBuiltin<"__builtin_ia32_vfnmadd213bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmadd213nepbf16256 : ClangBuiltin<"__builtin_ia32_vfnmadd213nepbf16256">,
+def int_x86_avx10_vfnmadd213bf16256 : ClangBuiltin<"__builtin_ia32_vfnmadd213bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmadd213nepbf16128 : ClangBuiltin<"__builtin_ia32_vfnmadd213nepbf16128">,
+def int_x86_avx10_vfnmadd213bf16128 : ClangBuiltin<"__builtin_ia32_vfnmadd213bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmadd132nepbf16512 : ClangBuiltin<"__builtin_ia32_vfnmadd132nepbf16512">,
+def int_x86_avx10_vfnmadd132bf16512 : ClangBuiltin<"__builtin_ia32_vfnmadd132bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmadd132nepbf16256 : ClangBuiltin<"__builtin_ia32_vfnmadd132nepbf16256">,
+def int_x86_avx10_vfnmadd132bf16256 : ClangBuiltin<"__builtin_ia32_vfnmadd132bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmadd132nepbf16128 : ClangBuiltin<"__builtin_ia32_vfnmadd132nepbf16128">,
+def int_x86_avx10_vfnmadd132bf16128 : ClangBuiltin<"__builtin_ia32_vfnmadd132bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmadd231nepbf16512 : ClangBuiltin<"__builtin_ia32_vfnmadd231nepbf16512">,
+def int_x86_avx10_vfnmadd231bf16512 : ClangBuiltin<"__builtin_ia32_vfnmadd231bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmadd231nepbf16256 : ClangBuiltin<"__builtin_ia32_vfnmadd231nepbf16256">,
+def int_x86_avx10_vfnmadd231bf16256 : ClangBuiltin<"__builtin_ia32_vfnmadd231bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmadd231nepbf16128 : ClangBuiltin<"__builtin_ia32_vfnmadd231nepbf16128">,
+def int_x86_avx10_vfnmadd231bf16128 : ClangBuiltin<"__builtin_ia32_vfnmadd231bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmsub213nepbf16512 : ClangBuiltin<"__builtin_ia32_vfnmsub213nepbf16512">,
+def int_x86_avx10_vfnmsub213bf16512 : ClangBuiltin<"__builtin_ia32_vfnmsub213bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmsub213nepbf16256 : ClangBuiltin<"__builtin_ia32_vfnmsub213nepbf16256">,
+def int_x86_avx10_vfnmsub213bf16256 : ClangBuiltin<"__builtin_ia32_vfnmsub213bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmsub213nepbf16128 : ClangBuiltin<"__builtin_ia32_vfnmsub213nepbf16128">,
+def int_x86_avx10_vfnmsub213bf16128 : ClangBuiltin<"__builtin_ia32_vfnmsub213bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmsub132nepbf16512 : ClangBuiltin<"__builtin_ia32_vfnmsub132nepbf16512">,
+def int_x86_avx10_vfnmsub132bf16512 : ClangBuiltin<"__builtin_ia32_vfnmsub132bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmsub132nepbf16256 : ClangBuiltin<"__builtin_ia32_vfnmsub132nepbf16256">,
+def int_x86_avx10_vfnmsub132bf16256 : ClangBuiltin<"__builtin_ia32_vfnmsub132bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmsub132nepbf16128 : ClangBuiltin<"__builtin_ia32_vfnmsub132nepbf16128">,
+def int_x86_avx10_vfnmsub132bf16128 : ClangBuiltin<"__builtin_ia32_vfnmsub132bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmsub231nepbf16512 : ClangBuiltin<"__builtin_ia32_vfnmsub231nepbf16512">,
+def int_x86_avx10_vfnmsub231bf16512 : ClangBuiltin<"__builtin_ia32_vfnmsub231bf16512">,
         DefaultAttrsIntrinsic<[llvm_v32bf16_ty], [llvm_v32bf16_ty, llvm_v32bf16_ty, llvm_v32bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmsub231nepbf16256 : ClangBuiltin<"__builtin_ia32_vfnmsub231nepbf16256">,
+def int_x86_avx10_vfnmsub231bf16256 : ClangBuiltin<"__builtin_ia32_vfnmsub231bf16256">,
         DefaultAttrsIntrinsic<[llvm_v16bf16_ty], [llvm_v16bf16_ty, llvm_v16bf16_ty, llvm_v16bf16_ty],
                               [IntrNoMem]>;
-def int_x86_avx10_vfnmsub231nepbf16128 : ClangBuiltin<"__builtin_ia32_vfnmsub231nepbf16128">,
+def int_x86_avx10_vfnmsub231bf16128 : ClangBuiltin<"__builtin_ia32_vfnmsub231bf16128">,
         DefaultAttrsIntrinsic<[llvm_v8bf16_ty], [llvm_v8bf16_ty, llvm_v8bf16_ty, llvm_v8bf16_ty ],
                               [IntrNoMem]>;
 }
diff --git a/llvm/include/llvm/IR/PassManagerInternal.h b/llvm/include/llvm/IR/PassManagerInternal.h
index 4ada6ee5dd683..62bede206da50 100644
--- a/llvm/include/llvm/IR/PassManagerInternal.h
+++ b/llvm/include/llvm/IR/PassManagerInternal.h
@@ -22,6 +22,7 @@
 #include "llvm/IR/Analysis.h"
 #include "llvm/Support/raw_ostream.h"
 #include <memory>
+#include <type_traits>
 #include <utility>
 
 namespace llvm {
@@ -167,7 +168,7 @@ template <typename IRUnitT, typename ResultT> class ResultHasInvalidateMethod {
   // ambiguous if there were an invalidate member in the result type.
   template <typename T, typename U> static DisabledType NonceFunction(T U::*);
   struct CheckerBase { int invalidate; };
-  template <typename T> struct Checker : CheckerBase, T {};
+  template <typename T> struct Checker : CheckerBase, std::remove_cv_t<T> {};
   template <typename T>
   static decltype(NonceFunction(&Checker<T>::invalidate)) check(rank<1>);
 
diff --git a/llvm/include/llvm/ObjCopy/CommonConfig.h b/llvm/include/llvm/ObjCopy/CommonConfig.h
index 5ae09760e9a54..aea9cd6f9a9c7 100644
--- a/llvm/include/llvm/ObjCopy/CommonConfig.h
+++ b/llvm/include/llvm/ObjCopy/CommonConfig.h
@@ -281,6 +281,11 @@ struct CommonConfig {
 
   SmallVector<std::pair<NameMatcher, llvm::DebugCompressionType>, 0>
       compressSections;
+
+  // ErrorCallback is used to handle recoverable errors. An Error returned
+  // by the callback aborts the execution and is then returned to the caller.
+  // If the callback is not set, the errors are not issued.
+  std::function<Error(Error)> ErrorCallback;
 };
 
 } // namespace objcopy
diff --git a/llvm/include/llvm/ObjCopy/ELF/ELFConfig.h b/llvm/include/llvm/ObjCopy/ELF/ELFConfig.h
index 59960b6530743..01a8762cfb9c3 100644
--- a/llvm/include/llvm/ObjCopy/ELF/ELFConfig.h
+++ b/llvm/include/llvm/ObjCopy/ELF/ELFConfig.h
@@ -15,6 +15,12 @@
 namespace llvm {
 namespace objcopy {
 
+// Note to remove info specified by --remove-note option.
+struct RemoveNoteInfo {
+  StringRef Name;
+  uint32_t TypeId;
+};
+
 // ELF specific configuration for copying/stripping a single file.
 struct ELFConfig {
   uint8_t NewSymbolVisibility = (uint8_t)ELF::STV_DEFAULT;
@@ -31,6 +37,9 @@ struct ELFConfig {
   bool KeepFileSymbols = false;
   bool LocalizeHidden = false;
   bool VerifyNoteSections = true;
+
+  // Notes specified by --remove-note option.
+  SmallVector<RemoveNoteInfo, 0> NotesToRemove;
 };
 
 } // namespace objcopy
diff --git a/llvm/include/llvm/Support/Threading.h b/llvm/include/llvm/Support/Threading.h
index d8e2cb0514ddd..01e26ad9b858e 100644
--- a/llvm/include/llvm/Support/Threading.h
+++ b/llvm/include/llvm/Support/Threading.h
@@ -18,7 +18,6 @@
 #include "llvm/ADT/StringRef.h"
 #include "llvm/Config/llvm-config.h" // for LLVM_ON_UNIX
 #include "llvm/Support/Compiler.h"
-#include <ciso646> // So we can check the C++ standard lib macros.
 #include <optional>
 
 #if defined(_MSC_VER)
diff --git a/llvm/include/llvm/Support/YAMLTraits.h b/llvm/include/llvm/Support/YAMLTraits.h
index eca26e90845bf..e707a445012b5 100644
--- a/llvm/include/llvm/Support/YAMLTraits.h
+++ b/llvm/include/llvm/Support/YAMLTraits.h
@@ -819,6 +819,7 @@ class IO {
   virtual NodeKind getNodeKind() = 0;
 
   virtual void setError(const Twine &) = 0;
+  virtual std::error_code error() = 0;
   virtual void setAllowUnknownKeys(bool Allow);
 
   template <typename T>
@@ -1448,7 +1449,7 @@ class Input : public IO {
   ~Input() override;
 
   // Check if there was an syntax or semantic error during parsing.
-  std::error_code error();
+  std::error_code error() override;
 
 private:
   bool outputting() const override;
@@ -1631,6 +1632,7 @@ class Output : public IO {
   void scalarTag(std::string &) override;
   NodeKind getNodeKind() override;
   void setError(const Twine &message) override;
+  std::error_code error() override;
   bool canElideEmptySequence() override;
 
   // These are only used by operator<<. They could be private
diff --git a/llvm/include/llvm/Transforms/Utils/Cloning.h b/llvm/include/llvm/Transforms/Utils/Cloning.h
index 2fcb64206387e..d36f91416db88 100644
--- a/llvm/include/llvm/Transforms/Utils/Cloning.h
+++ b/llvm/include/llvm/Transforms/Utils/Cloning.h
@@ -193,7 +193,8 @@ void CloneFunctionAttributesInto(Function *NewFunc, const Function *OldFunc,
 void CloneFunctionMetadataInto(Function &NewFunc, const Function &OldFunc,
                                ValueToValueMapTy &VMap, RemapFlags RemapFlag,
                                ValueMapTypeRemapper *TypeMapper = nullptr,
-                               ValueMaterializer *Materializer = nullptr);
+                               ValueMaterializer *Materializer = nullptr,
+                               const MetadataSetTy *IdentityMD = nullptr);
 
 /// Clone OldFunc's body into NewFunc.
 void CloneFunctionBodyInto(Function &NewFunc, const Function &OldFunc,
@@ -202,7 +203,8 @@ void CloneFunctionBodyInto(Function &NewFunc, const Function &OldFunc,
                            const char *NameSuffix = "",
                            ClonedCodeInfo *CodeInfo = nullptr,
                            ValueMapTypeRemapper *TypeMapper = nullptr,
-                           ValueMaterializer *Materializer = nullptr);
+                           ValueMaterializer *Materializer = nullptr,
+                           const MetadataSetTy *IdentityMD = nullptr);
 
 void CloneAndPruneIntoFromInst(Function *NewFunc, const Function *OldFunc,
                                const Instruction *StartingInst,
@@ -242,13 +244,24 @@ DISubprogram *CollectDebugInfoForCloning(const Function &F,
                                          CloneFunctionChangeType Changes,
                                          DebugInfoFinder &DIFinder);
 
-/// Build a map of debug info to use during Metadata cloning.
-/// Returns true if cloning would need module level changes and false if there
-/// would only be local changes.
-bool BuildDebugInfoMDMap(DenseMap<const Metadata *, TrackingMDRef> &MD,
-                         CloneFunctionChangeType Changes,
-                         DebugInfoFinder &DIFinder,
-                         DISubprogram *SPClonedWithinModule);
+/// Based on \p Changes and \p DIFinder return debug info that needs to be
+/// identity mapped during Metadata cloning.
+///
+/// NOTE: Such \a MetadataSetTy can be used by \a CloneFunction* to directly
+/// specify metadata that should be identity mapped (and hence not cloned). The
+/// metadata will be identity mapped in \a ValueToValueMapTy on first use. There
+/// are several reasons for doing it this way rather than eagerly identity
+/// mapping metadata nodes in a \a ValueMap:
+/// 1. Mapping metadata is not cheap, particularly because of tracking.
+/// 2. When cloning a Function we identity map lots of global module-level
+///    metadata to avoid cloning it, while only a fraction of it is actually
+///    used by the function. Mapping on first use is a lot faster for modules
+///    with meaningful amount of debug info.
+/// 3. Eagerly identity mapping metadata makes it harder to cache module-level
+///    data (e.g. a set of metadata nodes in a \a DICompileUnit).
+MetadataSetTy FindDebugInfoToIdentityMap(CloneFunctionChangeType Changes,
+                                         DebugInfoFinder &DIFinder,
+                                         DISubprogram *SPClonedWithinModule);
 
 /// This class captures the data input to the InlineFunction call, and records
 /// the auxiliary results produced by it.
diff --git a/llvm/include/llvm/Transforms/Utils/ValueMapper.h b/llvm/include/llvm/Transforms/Utils/ValueMapper.h
index 743cfeb7ef3f0..852d7095d1133 100644
--- a/llvm/include/llvm/Transforms/Utils/ValueMapper.h
+++ b/llvm/include/llvm/Transforms/Utils/ValueMapper.h
@@ -15,6 +15,7 @@
 #define LLVM_TRANSFORMS_UTILS_VALUEMAPPER_H
 
 #include "llvm/ADT/ArrayRef.h"
+#include "llvm/ADT/SmallPtrSet.h"
 #include "llvm/ADT/simple_ilist.h"
 #include "llvm/IR/ValueHandle.h"
 #include "llvm/IR/ValueMap.h"
@@ -35,6 +36,7 @@ class Value;
 
 using ValueToValueMapTy = ValueMap<const Value *, WeakTrackingVH>;
 using DbgRecordIterator = simple_ilist<DbgRecord>::iterator;
+using MetadataSetTy = SmallPtrSet<const Metadata *, 16>;
 
 /// This is a class that can be implemented by clients to remap types when
 /// cloning constants and instructions.
@@ -112,7 +114,7 @@ inline RemapFlags operator|(RemapFlags LHS, RemapFlags RHS) {
 ///
 /// A shared context used for mapping and remapping of Value and Metadata
 /// instances using \a ValueToValueMapTy, \a RemapFlags, \a
-/// ValueMapTypeRemapper, and \a ValueMaterializer.
+/// ValueMapTypeRemapper, \a ValueMaterializer, and \a IdentityMD.
 ///
 /// There are a number of top-level entry points:
 /// - \a mapValue() (and \a mapConstant());
@@ -136,6 +138,9 @@ inline RemapFlags operator|(RemapFlags LHS, RemapFlags RHS) {
 /// alternate \a ValueToValueMapTy and \a ValueMaterializer and returns a ID to
 /// pass into the schedule*() functions.
 ///
+/// If an \a IdentityMD set is optionally provided, \a Metadata inside this set
+/// will be mapped onto itself in \a VM on first use.
+///
 /// TODO: lib/Linker really doesn't need the \a ValueHandle in the \a
 /// ValueToValueMapTy.  We should template \a ValueMapper (and its
 /// implementation classes), and explicitly instantiate on two concrete
@@ -152,7 +157,8 @@ class ValueMapper {
 public:
   ValueMapper(ValueToValueMapTy &VM, RemapFlags Flags = RF_None,
               ValueMapTypeRemapper *TypeMapper = nullptr,
-              ValueMaterializer *Materializer = nullptr);
+              ValueMaterializer *Materializer = nullptr,
+              const MetadataSetTy *IdentityMD = nullptr);
   ValueMapper(ValueMapper &&) = delete;
   ValueMapper(const ValueMapper &) = delete;
   ValueMapper &operator=(ValueMapper &&) = delete;
@@ -218,8 +224,10 @@ class ValueMapper {
 inline Value *MapValue(const Value *V, ValueToValueMapTy &VM,
                        RemapFlags Flags = RF_None,
                        ValueMapTypeRemapper *TypeMapper = nullptr,
-                       ValueMaterializer *Materializer = nullptr) {
-  return ValueMapper(VM, Flags, TypeMapper, Materializer).mapValue(*V);
+                       ValueMaterializer *Materializer = nullptr,
+                       const MetadataSetTy *IdentityMD = nullptr) {
+  return ValueMapper(VM, Flags, TypeMapper, Materializer, IdentityMD)
+      .mapValue(*V);
 }
 
 /// Lookup or compute a mapping for a piece of metadata.
@@ -231,7 +239,9 @@ inline Value *MapValue(const Value *V, ValueToValueMapTy &VM,
 ///     \c MD.
 ///  3. Else if \c MD is a \a ConstantAsMetadata, call \a MapValue() and
 ///     re-wrap its return (returning nullptr on nullptr).
-///  4. Else, \c MD is an \a MDNode.  These are remapped, along with their
+///  4. Else if \c MD is in \c IdentityMD then add an identity mapping for it
+///     and return it.
+///  5. Else, \c MD is an \a MDNode.  These are remapped, along with their
 ///     transitive operands.  Distinct nodes are duplicated or moved depending
 ///     on \a RF_MoveDistinctNodes.  Uniqued nodes are remapped like constants.
 ///
@@ -240,16 +250,20 @@ inline Value *MapValue(const Value *V, ValueToValueMapTy &VM,
 inline Metadata *MapMetadata(const Metadata *MD, ValueToValueMapTy &VM,
                              RemapFlags Flags = RF_None,
                              ValueMapTypeRemapper *TypeMapper = nullptr,
-                             ValueMaterializer *Materializer = nullptr) {
-  return ValueMapper(VM, Flags, TypeMapper, Materializer).mapMetadata(*MD);
+                             ValueMaterializer *Materializer = nullptr,
+                             const MetadataSetTy *IdentityMD = nullptr) {
+  return ValueMapper(VM, Flags, TypeMapper, Materializer, IdentityMD)
+      .mapMetadata(*MD);
 }
 
 /// Version of MapMetadata with type safety for MDNode.
 inline MDNode *MapMetadata(const MDNode *MD, ValueToValueMapTy &VM,
                            RemapFlags Flags = RF_None,
                            ValueMapTypeRemapper *TypeMapper = nullptr,
-                           ValueMaterializer *Materializer = nullptr) {
-  return ValueMapper(VM, Flags, TypeMapper, Materializer).mapMDNode(*MD);
+                           ValueMaterializer *Materializer = nullptr,
+                           const MetadataSetTy *IdentityMD = nullptr) {
+  return ValueMapper(VM, Flags, TypeMapper, Materializer, IdentityMD)
+      .mapMDNode(*MD);
 }
 
 /// Convert the instruction operands from referencing the current values into
@@ -263,8 +277,10 @@ inline MDNode *MapMetadata(const MDNode *MD, ValueToValueMapTy &VM,
 inline void RemapInstruction(Instruction *I, ValueToValueMapTy &VM,
                              RemapFlags Flags = RF_None,
                              ValueMapTypeRemapper *TypeMapper = nullptr,
-                             ValueMaterializer *Materializer = nullptr) {
-  ValueMapper(VM, Flags, TypeMapper, Materializer).remapInstruction(*I);
+                             ValueMaterializer *Materializer = nullptr,
+                             const MetadataSetTy *IdentityMD = nullptr) {
+  ValueMapper(VM, Flags, TypeMapper, Materializer, IdentityMD)
+      .remapInstruction(*I);
 }
 
 /// Remap the Values used in the DbgRecord \a DR using the value map \a
@@ -272,8 +288,10 @@ inline void RemapInstruction(Instruction *I, ValueToValueMapTy &VM,
 inline void RemapDbgRecord(Module *M, DbgRecord *DR, ValueToValueMapTy &VM,
                            RemapFlags Flags = RF_None,
                            ValueMapTypeRemapper *TypeMapper = nullptr,
-                           ValueMaterializer *Materializer = nullptr) {
-  ValueMapper(VM, Flags, TypeMapper, Materializer).remapDbgRecord(M, *DR);
+                           ValueMaterializer *Materializer = nullptr,
+                           const MetadataSetTy *IdentityMD = nullptr) {
+  ValueMapper(VM, Flags, TypeMapper, Materializer, IdentityMD)
+      .remapDbgRecord(M, *DR);
 }
 
 /// Remap the Values used in the DbgRecords \a Range using the value map \a
@@ -283,8 +301,9 @@ inline void RemapDbgRecordRange(Module *M,
                                 ValueToValueMapTy &VM,
                                 RemapFlags Flags = RF_None,
                                 ValueMapTypeRemapper *TypeMapper = nullptr,
-                                ValueMaterializer *Materializer = nullptr) {
-  ValueMapper(VM, Flags, TypeMapper, Materializer)
+                                ValueMaterializer *Materializer = nullptr,
+                                const MetadataSetTy *IdentityMD = nullptr) {
+  ValueMapper(VM, Flags, TypeMapper, Materializer, IdentityMD)
       .remapDbgRecordRange(M, Range);
 }
 
@@ -297,16 +316,19 @@ inline void RemapDbgRecordRange(Module *M,
 inline void RemapFunction(Function &F, ValueToValueMapTy &VM,
                           RemapFlags Flags = RF_None,
                           ValueMapTypeRemapper *TypeMapper = nullptr,
-                          ValueMaterializer *Materializer = nullptr) {
-  ValueMapper(VM, Flags, TypeMapper, Materializer).remapFunction(F);
+                          ValueMaterializer *Materializer = nullptr,
+                          const MetadataSetTy *IdentityMD = nullptr) {
+  ValueMapper(VM, Flags, TypeMapper, Materializer, IdentityMD).remapFunction(F);
 }
 
 /// Version of MapValue with type safety for Constant.
 inline Constant *MapValue(const Constant *V, ValueToValueMapTy &VM,
                           RemapFlags Flags = RF_None,
                           ValueMapTypeRemapper *TypeMapper = nullptr,
-                          ValueMaterializer *Materializer = nullptr) {
-  return ValueMapper(VM, Flags, TypeMapper, Materializer).mapConstant(*V);
+                          ValueMaterializer *Materializer = nullptr,
+                          const MetadataSetTy *IdentityMD = nullptr) {
+  return ValueMapper(VM, Flags, TypeMapper, Materializer, IdentityMD)
+      .mapConstant(*V);
 }
 
 } // end namespace llvm
diff --git a/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/DependencyGraph.h b/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/DependencyGraph.h
index 00b53b42e2e57..b2d7c9b8aa8bb 100644
--- a/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/DependencyGraph.h
+++ b/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/DependencyGraph.h
@@ -417,6 +417,13 @@ class DependencyGraph {
     DAGInterval = {};
   }
 #ifndef NDEBUG
+  /// \Returns true if the DAG's state is clear. Used in assertions.
+  bool empty() const {
+    bool IsEmpty = InstrToNodeMap.empty();
+    assert(IsEmpty == DAGInterval.empty() &&
+           "Interval and InstrToNodeMap out of sync!");
+    return IsEmpty;
+  }
   void print(raw_ostream &OS) const;
   LLVM_DUMP_METHOD void dump() const;
 #endif // NDEBUG
diff --git a/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/Scheduler.h b/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/Scheduler.h
index 52891c3f7535c..25432e1396c73 100644
--- a/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/Scheduler.h
+++ b/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/Scheduler.h
@@ -164,7 +164,10 @@ class Scheduler {
     Bndls.clear();
     // TODO: clear view once it lands.
     DAG.clear();
+    ReadyList.clear();
     ScheduleTopItOpt = std::nullopt;
+    assert(Bndls.empty() && DAG.empty() && ReadyList.empty() &&
+           !ScheduleTopItOpt && "Expected empty state!");
   }
 
 #ifndef NDEBUG
diff --git a/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/VecUtils.h b/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/VecUtils.h
index 4e3ca2bccfe6f..64090febc5a09 100644
--- a/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/VecUtils.h
+++ b/llvm/include/llvm/Transforms/Vectorize/SandboxVectorizer/VecUtils.h
@@ -137,6 +137,19 @@ class VecUtils {
     }
     return LowestI;
   }
+
+  /// If \p I is not a PHI it returns it. Else it walks down the instruction
+  /// chain looking for the last PHI and returns it. \Returns nullptr if \p I is
+  /// nullptr.
+  static Instruction *getLastPHIOrSelf(Instruction *I) {
+    Instruction *LastI = I;
+    while (I != nullptr && isa<PHINode>(I)) {
+      LastI = I;
+      I = I->getNextNode();
+    }
+    return LastI;
+  }
+
   /// If all values in \p Bndl are of the same scalar type then return it,
   /// otherwise return nullptr.
   static Type *tryGetCommonScalarType(ArrayRef<Value *> Bndl) {
diff --git a/llvm/lib/Analysis/LoopInfo.cpp b/llvm/lib/Analysis/LoopInfo.cpp
index 7bd5e1e0cfac8..0eaf1dca59675 100644
--- a/llvm/lib/Analysis/LoopInfo.cpp
+++ b/llvm/lib/Analysis/LoopInfo.cpp
@@ -103,7 +103,7 @@ bool Loop::makeLoopInvariant(Instruction *I, bool &Changed,
       return false;
 
   // Hoist.
-  I->moveBefore(InsertPt);
+  I->moveBefore(InsertPt->getIterator());
   if (MSSAU)
     if (auto *MUD = MSSAU->getMemorySSA()->getMemoryAccess(I))
       MSSAU->moveToPlace(MUD, InsertPt->getParent(),
diff --git a/llvm/lib/CodeGen/CodeGenPrepare.cpp b/llvm/lib/CodeGen/CodeGenPrepare.cpp
index 7106e53bd5516..7e9d705a7bef6 100644
--- a/llvm/lib/CodeGen/CodeGenPrepare.cpp
+++ b/llvm/lib/CodeGen/CodeGenPrepare.cpp
@@ -1264,7 +1264,7 @@ simplifyRelocatesOffABase(GCRelocateInst *RelocatedBase,
     if (auto *RI = dyn_cast<GCRelocateInst>(R))
       if (RI->getStatepoint() == RelocatedBase->getStatepoint())
         if (RI->getBasePtrIndex() == RelocatedBase->getBasePtrIndex()) {
-          RelocatedBase->moveBefore(RI);
+          RelocatedBase->moveBefore(RI->getIterator());
           MadeChange = true;
           break;
         }
@@ -2690,7 +2690,7 @@ bool CodeGenPrepare::optimizeCallInst(CallInst *CI, ModifyDT &ModifiedDT) {
           ExtVal->getParent() == CI->getParent())
         return false;
       // Sink a zext feeding stlxr/stxr before it, so it can be folded into it.
-      ExtVal->moveBefore(CI);
+      ExtVal->moveBefore(CI->getIterator());
       // Mark this instruction as "inserted by CGP", so that other
       // optimizations don't touch it.
       InsertedInsts.insert(ExtVal);
@@ -3036,7 +3036,7 @@ bool CodeGenPrepare::dupRetToEnableTailCallOpts(BasicBlock *BB,
     for (auto *CI : CallInsts) {
       for (auto const *FakeUse : FakeUses) {
         auto *ClonedInst = FakeUse->clone();
-        ClonedInst->insertBefore(CI);
+        ClonedInst->insertBefore(CI->getIterator());
       }
     }
     BB->eraseFromParent();
@@ -7552,9 +7552,9 @@ bool CodeGenPrepare::optimizeSelectInst(SelectInst *SI) {
   // Sink expensive instructions into the conditional blocks to avoid executing
   // them speculatively.
   for (Instruction *I : TrueInstrs)
-    I->moveBefore(TrueBranch);
+    I->moveBefore(TrueBranch->getIterator());
   for (Instruction *I : FalseInstrs)
-    I->moveBefore(FalseBranch);
+    I->moveBefore(FalseBranch->getIterator());
 
   // If we did not create a new block for one of the 'true' or 'false' paths
   // of the condition, it means that side of the branch goes to the end block
@@ -7682,7 +7682,7 @@ bool CodeGenPrepare::tryToSinkFreeOperands(Instruction *I) {
     NewInstructions[UI] = NI;
     MaybeDead.insert(UI);
     LLVM_DEBUG(dbgs() << "Sinking " << *UI << " to user " << *I << "\n");
-    NI->insertBefore(InsertPoint);
+    NI->insertBefore(InsertPoint->getIterator());
     InsertPoint = NI;
     InsertedInsts.insert(NI);
 
@@ -7744,7 +7744,7 @@ bool CodeGenPrepare::optimizeSwitchType(SwitchInst *SI) {
   }
 
   auto *ExtInst = CastInst::Create(ExtType, Cond, NewType);
-  ExtInst->insertBefore(SI);
+  ExtInst->insertBefore(SI->getIterator());
   ExtInst->setDebugLoc(SI->getDebugLoc());
   SI->setCondition(ExtInst);
   for (auto Case : SI->cases()) {
@@ -8556,7 +8556,7 @@ static bool optimizeBranch(BranchInst *Branch, const TargetLowering &TLI,
         match(UI, m_Shr(m_Specific(X), m_SpecificInt(CmpC.logBase2())))) {
       IRBuilder<> Builder(Branch);
       if (UI->getParent() != Branch->getParent())
-        UI->moveBefore(Branch);
+        UI->moveBefore(Branch->getIterator());
       UI->dropPoisonGeneratingFlags();
       Value *NewCmp = Builder.CreateCmp(ICmpInst::ICMP_EQ, UI,
                                         ConstantInt::get(UI->getType(), 0));
@@ -8570,7 +8570,7 @@ static bool optimizeBranch(BranchInst *Branch, const TargetLowering &TLI,
          match(UI, m_Sub(m_Specific(X), m_SpecificInt(CmpC))))) {
       IRBuilder<> Builder(Branch);
       if (UI->getParent() != Branch->getParent())
-        UI->moveBefore(Branch);
+        UI->moveBefore(Branch->getIterator());
       UI->dropPoisonGeneratingFlags();
       Value *NewCmp = Builder.CreateCmp(Cmp->getPredicate(), UI,
                                         ConstantInt::get(UI->getType(), 0));
@@ -8890,21 +8890,21 @@ bool CodeGenPrepare::fixupDbgVariableRecord(DbgVariableRecord &DVR) {
   return AnyChange;
 }
 
-static void DbgInserterHelper(DbgValueInst *DVI, Instruction *VI) {
+static void DbgInserterHelper(DbgValueInst *DVI, BasicBlock::iterator VI) {
   DVI->removeFromParent();
   if (isa<PHINode>(VI))
-    DVI->insertBefore(&*VI->getParent()->getFirstInsertionPt());
+    DVI->insertBefore(VI->getParent()->getFirstInsertionPt());
   else
     DVI->insertAfter(VI);
 }
 
-static void DbgInserterHelper(DbgVariableRecord *DVR, Instruction *VI) {
+static void DbgInserterHelper(DbgVariableRecord *DVR, BasicBlock::iterator VI) {
   DVR->removeFromParent();
   BasicBlock *VIBB = VI->getParent();
   if (isa<PHINode>(VI))
     VIBB->insertDbgRecordBefore(DVR, VIBB->getFirstInsertionPt());
   else
-    VIBB->insertDbgRecordAfter(DVR, VI);
+    VIBB->insertDbgRecordAfter(DVR, &*VI);
 }
 
 // A llvm.dbg.value may be using a value before its definition, due to
@@ -8954,7 +8954,7 @@ bool CodeGenPrepare::placeDbgValues(Function &F) {
 
       LLVM_DEBUG(dbgs() << "Moving Debug Value before :\n"
                         << *DbgItem << ' ' << *VI);
-      DbgInserterHelper(DbgItem, VI);
+      DbgInserterHelper(DbgItem, VI->getIterator());
       MadeChange = true;
       ++NumDbgValueMoved;
     }
@@ -8997,7 +8997,7 @@ bool CodeGenPrepare::placePseudoProbes(Function &F) {
     I++;
     while (I != Block.end()) {
       if (auto *II = dyn_cast<PseudoProbeInst>(I++)) {
-        II->moveBefore(&*FirstInst);
+        II->moveBefore(FirstInst);
         MadeChange = true;
       }
     }
@@ -9105,7 +9105,7 @@ bool CodeGenPrepare::splitBranchCondition(Function &F, ModifyDT &ModifiedDT) {
     auto *Br2 = IRBuilder<>(TmpBB).CreateCondBr(Cond2, TBB, FBB);
     if (auto *I = dyn_cast<Instruction>(Cond2)) {
       I->removeFromParent();
-      I->insertBefore(Br2);
+      I->insertBefore(Br2->getIterator());
     }
 
     // Update PHI nodes in both successors. The original BB needs to be
diff --git a/llvm/lib/CodeGen/DeadMachineInstructionElim.cpp b/llvm/lib/CodeGen/DeadMachineInstructionElim.cpp
index 2f17c04487de7..836a912a5e983 100644
--- a/llvm/lib/CodeGen/DeadMachineInstructionElim.cpp
+++ b/llvm/lib/CodeGen/DeadMachineInstructionElim.cpp
@@ -38,7 +38,6 @@ class DeadMachineInstructionElimImpl {
   bool runImpl(MachineFunction &MF);
 
 private:
-  bool isDead(const MachineInstr *MI) const;
   bool eliminateDeadMI(MachineFunction &MF);
 };
 
@@ -79,47 +78,6 @@ char &llvm::DeadMachineInstructionElimID = DeadMachineInstructionElim::ID;
 INITIALIZE_PASS(DeadMachineInstructionElim, DEBUG_TYPE,
                 "Remove dead machine instructions", false, false)
 
-bool DeadMachineInstructionElimImpl::isDead(const MachineInstr *MI) const {
-  // Instructions without side-effects are dead iff they only define dead regs.
-  // This function is hot and this loop returns early in the common case,
-  // so only perform additional checks before this if absolutely necessary.
-  for (const MachineOperand &MO : MI->all_defs()) {
-    Register Reg = MO.getReg();
-    if (Reg.isPhysical()) {
-      // Don't delete live physreg defs, or any reserved register defs.
-      if (!LivePhysRegs.available(Reg) || MRI->isReserved(Reg))
-        return false;
-    } else {
-      if (MO.isDead()) {
-#ifndef NDEBUG
-        // Basic check on the register. All of them should be 'undef'.
-        for (auto &U : MRI->use_nodbg_operands(Reg))
-          assert(U.isUndef() && "'Undef' use on a 'dead' register is found!");
-#endif
-        continue;
-      }
-      for (const MachineInstr &Use : MRI->use_nodbg_instructions(Reg)) {
-        if (&Use != MI)
-          // This def has a non-debug use. Don't delete the instruction!
-          return false;
-      }
-    }
-  }
-
-  // Technically speaking inline asm without side effects and no defs can still
-  // be deleted. But there is so much bad inline asm code out there, we should
-  // let them be.
-  if (MI->isInlineAsm())
-    return false;
-
-  // FIXME: See issue #105950 for why LIFETIME markers are considered dead here.
-  if (MI->isLifetimeMarker())
-    return true;
-
-  // If there are no defs with uses, the instruction might be dead.
-  return MI->wouldBeTriviallyDead();
-}
-
 bool DeadMachineInstructionElimImpl::runImpl(MachineFunction &MF) {
   MRI = &MF.getRegInfo();
 
@@ -146,7 +104,7 @@ bool DeadMachineInstructionElimImpl::eliminateDeadMI(MachineFunction &MF) {
     // liveness as we go.
     for (MachineInstr &MI : make_early_inc_range(reverse(*MBB))) {
       // If the instruction is dead, delete it!
-      if (isDead(&MI)) {
+      if (MI.isDead(*MRI, &LivePhysRegs)) {
         LLVM_DEBUG(dbgs() << "DeadMachineInstructionElim: DELETING: " << MI);
         // It is possible that some DBG_VALUE instructions refer to this
         // instruction. They will be deleted in the live debug variable
@@ -156,11 +114,9 @@ bool DeadMachineInstructionElimImpl::eliminateDeadMI(MachineFunction &MF) {
         ++NumDeletes;
         continue;
       }
-
       LivePhysRegs.stepBackward(MI);
     }
   }
-
   LivePhysRegs.clear();
   return AnyChanges;
 }
diff --git a/llvm/lib/CodeGen/GlobalISel/MachineIRBuilder.cpp b/llvm/lib/CodeGen/GlobalISel/MachineIRBuilder.cpp
index be347006a81f9..db59ca1be281c 100644
--- a/llvm/lib/CodeGen/GlobalISel/MachineIRBuilder.cpp
+++ b/llvm/lib/CodeGen/GlobalISel/MachineIRBuilder.cpp
@@ -698,6 +698,15 @@ MachineInstrBuilder MachineIRBuilder::buildUnmerge(LLT Res,
   return buildInstr(TargetOpcode::G_UNMERGE_VALUES, TmpVec, Op);
 }
 
+MachineInstrBuilder
+MachineIRBuilder::buildUnmerge(MachineRegisterInfo::VRegAttrs Attrs,
+                               const SrcOp &Op) {
+  LLT OpTy = Op.getLLTTy(*getMRI());
+  unsigned NumRegs = OpTy.getSizeInBits() / Attrs.Ty.getSizeInBits();
+  SmallVector<DstOp, 8> TmpVec(NumRegs, Attrs);
+  return buildInstr(TargetOpcode::G_UNMERGE_VALUES, TmpVec, Op);
+}
+
 MachineInstrBuilder MachineIRBuilder::buildUnmerge(ArrayRef<Register> Res,
                                                    const SrcOp &Op) {
   // Unfortunately to convert from ArrayRef<Register> to ArrayRef<DstOp>,
diff --git a/llvm/lib/CodeGen/GlobalMerge.cpp b/llvm/lib/CodeGen/GlobalMerge.cpp
index 48d4d7848d84a..9d4547df046d4 100644
--- a/llvm/lib/CodeGen/GlobalMerge.cpp
+++ b/llvm/lib/CodeGen/GlobalMerge.cpp
@@ -378,7 +378,7 @@ bool GlobalMergeImpl::doMerge(SmallVectorImpl<GlobalVariable *> &Globals,
 
         size_t UGSIdx = GlobalUsesByFunction[ParentFn];
 
-        // If this is the first global the basic block uses, map it to the set
+        // If this is the first global the function uses, map it to the set
         // consisting of this global only.
         if (!UGSIdx) {
           // If that set doesn't exist yet, create it.
@@ -393,7 +393,8 @@ bool GlobalMergeImpl::doMerge(SmallVectorImpl<GlobalVariable *> &Globals,
           continue;
         }
 
-        // If we already encountered this BB, just increment the counter.
+        // If we already encountered a use of this global in this function, just
+        // increment the counter.
         if (UsedGlobalSets[UGSIdx].Globals.test(GI)) {
           ++UsedGlobalSets[UGSIdx].UsageCount;
           continue;
@@ -423,7 +424,7 @@ bool GlobalMergeImpl::doMerge(SmallVectorImpl<GlobalVariable *> &Globals,
   }
 
   // Now we found a bunch of sets of globals used together.  We accumulated
-  // the number of times we encountered the sets (i.e., the number of blocks
+  // the number of times we encountered the sets (i.e., the number of functions
   // that use that exact set of globals).
   //
   // Multiply that by the size of the set to give us a crude profitability
diff --git a/llvm/lib/CodeGen/InterleavedAccessPass.cpp b/llvm/lib/CodeGen/InterleavedAccessPass.cpp
index c6d5533fd2bae..3f6a69ecb7d72 100644
--- a/llvm/lib/CodeGen/InterleavedAccessPass.cpp
+++ b/llvm/lib/CodeGen/InterleavedAccessPass.cpp
@@ -60,6 +60,7 @@
 #include "llvm/IR/Instruction.h"
 #include "llvm/IR/Instructions.h"
 #include "llvm/IR/IntrinsicInst.h"
+#include "llvm/IR/PatternMatch.h"
 #include "llvm/InitializePasses.h"
 #include "llvm/Pass.h"
 #include "llvm/Support/Casting.h"
@@ -478,6 +479,157 @@ bool InterleavedAccessImpl::lowerInterleavedStore(
   return true;
 }
 
+// For an (de)interleave tree like this:
+//
+//   A   C B   D
+//   |___| |___|
+//     |_____|
+//        |
+//     A B C D
+//
+//  We will get ABCD at the end while the leaf operands/results
+//  are ACBD, which are also what we initially collected in
+//  getVectorInterleaveFactor / getVectorDeinterleaveFactor. But TLI
+//  hooks (e.g. lowerDeinterleaveIntrinsicToLoad) expect ABCD, so we need
+//  to reorder them by interleaving these values.
+static void interleaveLeafValues(MutableArrayRef<Value *> SubLeaves) {
+  unsigned NumLeaves = SubLeaves.size();
+  if (NumLeaves == 2)
+    return;
+
+  assert(isPowerOf2_32(NumLeaves) && NumLeaves > 1);
+
+  const unsigned HalfLeaves = NumLeaves / 2;
+  // Visit the sub-trees.
+  interleaveLeafValues(SubLeaves.take_front(HalfLeaves));
+  interleaveLeafValues(SubLeaves.drop_front(HalfLeaves));
+
+  SmallVector<Value *, 8> Buffer;
+  //    a0 a1 a2 a3 b0 b1 b2 b3
+  // -> a0 b0 a1 b1 a2 b2 a3 b3
+  for (unsigned i = 0U; i < NumLeaves; ++i)
+    Buffer.push_back(SubLeaves[i / 2 + (i % 2 ? HalfLeaves : 0)]);
+
+  llvm::copy(Buffer, SubLeaves.begin());
+}
+
+static bool
+getVectorInterleaveFactor(IntrinsicInst *II, SmallVectorImpl<Value *> &Operands,
+                          SmallVectorImpl<Instruction *> &DeadInsts) {
+  assert(II->getIntrinsicID() == Intrinsic::vector_interleave2);
+
+  // Visit with BFS
+  SmallVector<IntrinsicInst *, 8> Queue;
+  Queue.push_back(II);
+  while (!Queue.empty()) {
+    IntrinsicInst *Current = Queue.front();
+    Queue.erase(Queue.begin());
+
+    // All the intermediate intrinsics will be deleted.
+    DeadInsts.push_back(Current);
+
+    for (unsigned I = 0; I < 2; ++I) {
+      Value *Op = Current->getOperand(I);
+      if (auto *OpII = dyn_cast<IntrinsicInst>(Op))
+        if (OpII->getIntrinsicID() == Intrinsic::vector_interleave2) {
+          Queue.push_back(OpII);
+          continue;
+        }
+
+      // If this is not a perfectly balanced tree, the leaf
+      // result types would be different.
+      if (!Operands.empty() && Op->getType() != Operands.back()->getType())
+        return false;
+
+      Operands.push_back(Op);
+    }
+  }
+
+  const unsigned Factor = Operands.size();
+  // Currently we only recognize power-of-two factors.
+  // FIXME: should we assert here instead?
+  if (Factor <= 1 || !isPowerOf2_32(Factor))
+    return false;
+
+  interleaveLeafValues(Operands);
+  return true;
+}
+
+static bool
+getVectorDeinterleaveFactor(IntrinsicInst *II,
+                            SmallVectorImpl<Value *> &Results,
+                            SmallVectorImpl<Instruction *> &DeadInsts) {
+  assert(II->getIntrinsicID() == Intrinsic::vector_deinterleave2);
+  using namespace PatternMatch;
+  if (!II->hasNUses(2))
+    return false;
+
+  // Visit with BFS
+  SmallVector<IntrinsicInst *, 8> Queue;
+  Queue.push_back(II);
+  while (!Queue.empty()) {
+    IntrinsicInst *Current = Queue.front();
+    Queue.erase(Queue.begin());
+    assert(Current->hasNUses(2));
+
+    // All the intermediate intrinsics will be deleted from the bottom-up.
+    DeadInsts.insert(DeadInsts.begin(), Current);
+
+    ExtractValueInst *LHS = nullptr, *RHS = nullptr;
+    for (User *Usr : Current->users()) {
+      if (!isa<ExtractValueInst>(Usr))
+        return 0;
+
+      auto *EV = cast<ExtractValueInst>(Usr);
+      // Intermediate ExtractValue instructions will also be deleted.
+      DeadInsts.insert(DeadInsts.begin(), EV);
+      ArrayRef<unsigned> Indices = EV->getIndices();
+      if (Indices.size() != 1)
+        return false;
+
+      if (Indices[0] == 0 && !LHS)
+        LHS = EV;
+      else if (Indices[0] == 1 && !RHS)
+        RHS = EV;
+      else
+        return false;
+    }
+
+    // We have legal indices. At this point we're either going
+    // to continue the traversal or push the leaf values into Results.
+    for (ExtractValueInst *EV : {LHS, RHS}) {
+      // Continue the traversal. We're playing safe here and matching only the
+      // expression consisting of a perfectly balanced binary tree in which all
+      // intermediate values are only used once.
+      if (EV->hasOneUse() &&
+          match(EV->user_back(),
+                m_Intrinsic<Intrinsic::vector_deinterleave2>()) &&
+          EV->user_back()->hasNUses(2)) {
+        auto *EVUsr = cast<IntrinsicInst>(EV->user_back());
+        Queue.push_back(EVUsr);
+        continue;
+      }
+
+      // If this is not a perfectly balanced tree, the leaf
+      // result types would be different.
+      if (!Results.empty() && EV->getType() != Results.back()->getType())
+        return false;
+
+      // Save the leaf value.
+      Results.push_back(EV);
+    }
+  }
+
+  const unsigned Factor = Results.size();
+  // Currently we only recognize power-of-two factors.
+  // FIXME: should we assert here instead?
+  if (Factor <= 1 || !isPowerOf2_32(Factor))
+    return 0;
+
+  interleaveLeafValues(Results);
+  return true;
+}
+
 bool InterleavedAccessImpl::lowerDeinterleaveIntrinsic(
     IntrinsicInst *DI, SmallSetVector<Instruction *, 32> &DeadInsts) {
   LoadInst *LI = dyn_cast<LoadInst>(DI->getOperand(0));
@@ -485,16 +637,21 @@ bool InterleavedAccessImpl::lowerDeinterleaveIntrinsic(
   if (!LI || !LI->hasOneUse() || !LI->isSimple())
     return false;
 
-  LLVM_DEBUG(dbgs() << "IA: Found a deinterleave intrinsic: " << *DI << "\n");
+  SmallVector<Value *, 8> DeinterleaveValues;
+  SmallVector<Instruction *, 8> DeinterleaveDeadInsts;
+  if (!getVectorDeinterleaveFactor(DI, DeinterleaveValues,
+                                   DeinterleaveDeadInsts))
+    return false;
+
+  LLVM_DEBUG(dbgs() << "IA: Found a deinterleave intrinsic: " << *DI
+                    << " with factor = " << DeinterleaveValues.size() << "\n");
 
   // Try and match this with target specific intrinsics.
-  SmallVector<Instruction *, 4> DeinterleaveDeadInsts;
-  if (!TLI->lowerDeinterleaveIntrinsicToLoad(DI, LI, DeinterleaveDeadInsts))
+  if (!TLI->lowerDeinterleaveIntrinsicToLoad(LI, DeinterleaveValues))
     return false;
 
   DeadInsts.insert(DeinterleaveDeadInsts.begin(), DeinterleaveDeadInsts.end());
   // We now have a target-specific load, so delete the old one.
-  DeadInsts.insert(DI);
   DeadInsts.insert(LI);
   return true;
 }
@@ -509,16 +666,20 @@ bool InterleavedAccessImpl::lowerInterleaveIntrinsic(
   if (!SI || !SI->isSimple())
     return false;
 
-  LLVM_DEBUG(dbgs() << "IA: Found an interleave intrinsic: " << *II << "\n");
+  SmallVector<Value *, 8> InterleaveValues;
+  SmallVector<Instruction *, 8> InterleaveDeadInsts;
+  if (!getVectorInterleaveFactor(II, InterleaveValues, InterleaveDeadInsts))
+    return false;
+
+  LLVM_DEBUG(dbgs() << "IA: Found an interleave intrinsic: " << *II
+                    << " with factor = " << InterleaveValues.size() << "\n");
 
-  SmallVector<Instruction *, 4> InterleaveDeadInsts;
   // Try and match this with target specific intrinsics.
-  if (!TLI->lowerInterleaveIntrinsicToStore(II, SI, InterleaveDeadInsts))
+  if (!TLI->lowerInterleaveIntrinsicToStore(SI, InterleaveValues))
     return false;
 
   // We now have a target-specific store, so delete the old one.
   DeadInsts.insert(SI);
-  DeadInsts.insert(II);
   DeadInsts.insert(InterleaveDeadInsts.begin(), InterleaveDeadInsts.end());
   return true;
 }
diff --git a/llvm/lib/CodeGen/LiveDebugValues/InstrRefBasedImpl.cpp b/llvm/lib/CodeGen/LiveDebugValues/InstrRefBasedImpl.cpp
index 012bc37dd767a..2510b77c6d5be 100644
--- a/llvm/lib/CodeGen/LiveDebugValues/InstrRefBasedImpl.cpp
+++ b/llvm/lib/CodeGen/LiveDebugValues/InstrRefBasedImpl.cpp
@@ -1290,6 +1290,27 @@ MLocTracker::emitLoc(const SmallVectorImpl<ResolvedDbgOp> &DbgOps,
           }
         }
 
+        // https://github.com/llvm/llvm-project/issues/64093
+        // in particular #issuecomment-2531264124. We use variable locations
+        // such as DBG_VALUE $xmm0 as shorthand to refer to "the low lane of
+        // $xmm0", and this is reflected in how DWARF is interpreted too.
+        // However InstrRefBasedLDV tries to be smart and interprets such a
+        // DBG_VALUE as a 128-bit reference. We then issue a DW_OP_deref_size
+        // of 128 bits to the stack, which isn't permitted by DWARF (it's
+        // larger than a pointer).
+        //
+        // Solve this for now by not using DW_OP_deref_size if it would be
+        // illegal. Instead we'll use DW_OP_deref, and the consumer will load
+        // the variable type from the stack, which should be correct.
+        //
+        // There's still a risk of imprecision when LLVM decides to use
+        // smaller or larger value types than the source-variable type, which
+        // manifests as too-little or too-much memory being read from the stack.
+        // However we can't solve that without putting more type information in
+        // debug-info.
+        if (ValueSizeInBits > MF.getTarget().getPointerSizeInBits(0))
+          UseDerefSize = false;
+
         SmallVector<uint64_t, 5> OffsetOps;
         TRI.getOffsetOpcodes(Spill.SpillOffset, OffsetOps);
         bool StackValue = false;
diff --git a/llvm/lib/CodeGen/LiveIntervals.cpp b/llvm/lib/CodeGen/LiveIntervals.cpp
index f38527a3ce6a3..4fdfcf547542d 100644
--- a/llvm/lib/CodeGen/LiveIntervals.cpp
+++ b/llvm/lib/CodeGen/LiveIntervals.cpp
@@ -127,6 +127,20 @@ LiveIntervalsWrapperPass::LiveIntervalsWrapperPass() : MachineFunctionPass(ID) {
 
 LiveIntervals::~LiveIntervals() { clear(); }
 
+bool LiveIntervals::invalidate(
+    MachineFunction &MF, const PreservedAnalyses &PA,
+    MachineFunctionAnalysisManager::Invalidator &Inv) {
+  auto PAC = PA.getChecker<LiveIntervalsAnalysis>();
+
+  if (!PAC.preserved() && !PAC.preservedSet<AllAnalysesOn<MachineFunction>>())
+    return true;
+
+  // LiveIntervals holds pointers to these results, so check for their
+  // invalidation.
+  return Inv.invalidate<SlotIndexesAnalysis>(MF, PA) ||
+         Inv.invalidate<MachineDominatorTreeAnalysis>(MF, PA);
+}
+
 void LiveIntervals::clear() {
   // Free the live intervals themselves.
   for (unsigned i = 0, e = VirtRegIntervals.size(); i != e; ++i)
diff --git a/llvm/lib/CodeGen/MachineCSE.cpp b/llvm/lib/CodeGen/MachineCSE.cpp
index 728fd2f5f7cd4..bea0eaf206f5e 100644
--- a/llvm/lib/CodeGen/MachineCSE.cpp
+++ b/llvm/lib/CodeGen/MachineCSE.cpp
@@ -187,8 +187,6 @@ bool MachineCSEImpl::PerformTrivialCopyPropagation(MachineInstr *MI,
     Register SrcReg = DefMI->getOperand(1).getReg();
     if (!SrcReg.isVirtual())
       continue;
-    if (DefMI->getOperand(0).getSubReg())
-      continue;
     // FIXME: We should trivially coalesce subregister copies to expose CSE
     // opportunities on instructions with truncated operands (see
     // cse-add-with-overflow.ll). This can be done here as follows:
diff --git a/llvm/lib/CodeGen/MachineInstr.cpp b/llvm/lib/CodeGen/MachineInstr.cpp
index 8c2fab18a24ca..0f7f525fa479e 100644
--- a/llvm/lib/CodeGen/MachineInstr.cpp
+++ b/llvm/lib/CodeGen/MachineInstr.cpp
@@ -18,6 +18,7 @@
 #include "llvm/ADT/SmallVector.h"
 #include "llvm/Analysis/AliasAnalysis.h"
 #include "llvm/Analysis/MemoryLocation.h"
+#include "llvm/CodeGen/LiveRegUnits.h"
 #include "llvm/CodeGen/MachineBasicBlock.h"
 #include "llvm/CodeGen/MachineFrameInfo.h"
 #include "llvm/CodeGen/MachineFunction.h"
@@ -1350,6 +1351,43 @@ bool MachineInstr::wouldBeTriviallyDead() const {
   return isPHI() || isSafeToMove(SawStore);
 }
 
+bool MachineInstr::isDead(const MachineRegisterInfo &MRI,
+                          LiveRegUnits *LivePhysRegs) const {
+  // Technically speaking inline asm without side effects and no defs can still
+  // be deleted. But there is so much bad inline asm code out there, we should
+  // let them be.
+  if (isInlineAsm())
+    return false;
+
+  // If we suspect this instruction may have some side-effects, then we say
+  // this instruction cannot be dead.
+  // FIXME: See issue #105950 for why LIFETIME markers are considered dead here.
+  if (!isLifetimeMarker() && !wouldBeTriviallyDead())
+    return false;
+
+  // Instructions without side-effects are dead iff they only define dead regs.
+  // This function is hot and this loop returns early in the common case,
+  // so only perform additional checks before this if absolutely necessary.
+  for (const MachineOperand &MO : all_defs()) {
+    Register Reg = MO.getReg();
+    if (Reg.isPhysical()) {
+      // Don't delete live physreg defs, or any reserved register defs.
+      if (!LivePhysRegs || !LivePhysRegs->available(Reg) || MRI.isReserved(Reg))
+        return false;
+    } else {
+      if (MO.isDead())
+        continue;
+      for (const MachineInstr &Use : MRI.use_nodbg_instructions(Reg)) {
+        if (&Use != this)
+          // This def has a non-debug use. Don't delete the instruction!
+          return false;
+      }
+    }
+  }
+
+  return true;
+}
+
 static bool MemOperandsHaveAlias(const MachineFrameInfo &MFI,
                                  BatchAAResults *AA, bool UseTBAA,
                                  const MachineMemOperand *MMOa,
diff --git a/llvm/lib/CodeGen/MachineLoopUtils.cpp b/llvm/lib/CodeGen/MachineLoopUtils.cpp
index 0e8335d4974d7..e869eed2ea1b1 100644
--- a/llvm/lib/CodeGen/MachineLoopUtils.cpp
+++ b/llvm/lib/CodeGen/MachineLoopUtils.cpp
@@ -76,8 +76,9 @@ MachineBasicBlock *llvm::PeelSingleBlockLoop(LoopPeelDirection Direction,
 
   for (auto I = NewBB->getFirstNonPHI(); I != NewBB->end(); ++I)
     for (MachineOperand &MO : I->uses())
-      if (MO.isReg() && Remaps.count(MO.getReg()))
-        MO.setReg(Remaps[MO.getReg()]);
+      if (MO.isReg())
+        if (auto It = Remaps.find(MO.getReg()); It != Remaps.end())
+          MO.setReg(It->second);
 
   for (auto I = NewBB->begin(); I->isPHI(); ++I) {
     MachineInstr &MI = *I;
@@ -90,8 +91,8 @@ MachineBasicBlock *llvm::PeelSingleBlockLoop(LoopPeelDirection Direction,
       // When peeling front, we are only left with the initial value from the
       // preheader.
       Register R = MI.getOperand(LoopRegIdx).getReg();
-      if (Remaps.count(R))
-        R = Remaps[R];
+      if (auto It = Remaps.find(R); It != Remaps.end())
+        R = It->second;
       OrigPhi.getOperand(InitRegIdx).setReg(R);
       MI.removeOperand(LoopRegIdx + 1);
       MI.removeOperand(LoopRegIdx + 0);
diff --git a/llvm/lib/CodeGen/MachineRegisterInfo.cpp b/llvm/lib/CodeGen/MachineRegisterInfo.cpp
index f058445cc556d..937f63f6c5e00 100644
--- a/llvm/lib/CodeGen/MachineRegisterInfo.cpp
+++ b/llvm/lib/CodeGen/MachineRegisterInfo.cpp
@@ -122,8 +122,8 @@ bool
 MachineRegisterInfo::recomputeRegClass(Register Reg) {
   const TargetInstrInfo *TII = MF->getSubtarget().getInstrInfo();
   const TargetRegisterClass *OldRC = getRegClass(Reg);
-  const TargetRegisterClass *NewRC =
-      getTargetRegisterInfo()->getLargestLegalSuperClass(OldRC, *MF);
+  const TargetRegisterInfo *TRI = getTargetRegisterInfo();
+  const TargetRegisterClass *NewRC = TRI->getLargestLegalSuperClass(OldRC, *MF);
 
   // Stop early if there is no room to grow.
   if (NewRC == OldRC)
@@ -134,8 +134,7 @@ MachineRegisterInfo::recomputeRegClass(Register Reg) {
     // Apply the effect of the given operand to NewRC.
     MachineInstr *MI = MO.getParent();
     unsigned OpNo = &MO - &MI->getOperand(0);
-    NewRC = MI->getRegClassConstraintEffect(OpNo, NewRC, TII,
-                                            getTargetRegisterInfo());
+    NewRC = MI->getRegClassConstraintEffect(OpNo, NewRC, TII, TRI);
     if (!NewRC || NewRC == OldRC)
       return false;
   }
diff --git a/llvm/lib/CodeGen/MachineSSAContext.cpp b/llvm/lib/CodeGen/MachineSSAContext.cpp
index e384187b6e859..8e13c0916dd9e 100644
--- a/llvm/lib/CodeGen/MachineSSAContext.cpp
+++ b/llvm/lib/CodeGen/MachineSSAContext.cpp
@@ -54,9 +54,34 @@ const MachineBasicBlock *MachineSSAContext::getDefBlock(Register value) const {
   return F->getRegInfo().getVRegDef(value)->getParent();
 }
 
+static bool isUndef(const MachineInstr &MI) {
+  return MI.getOpcode() == TargetOpcode::G_IMPLICIT_DEF ||
+         MI.getOpcode() == TargetOpcode::IMPLICIT_DEF;
+}
+
+/// MachineInstr equivalent of PHINode::hasConstantOrUndefValue() for G_PHI.
 template <>
 bool MachineSSAContext::isConstantOrUndefValuePhi(const MachineInstr &Phi) {
-  return Phi.isConstantValuePHI();
+  if (!Phi.isPHI())
+    return false;
+
+  // In later passes PHI may appear with an undef operand, getVRegDef can fail.
+  if (Phi.getOpcode() == TargetOpcode::PHI)
+    return Phi.isConstantValuePHI();
+
+  // For G_PHI we do equivalent of PHINode::hasConstantOrUndefValue().
+  const MachineRegisterInfo &MRI = Phi.getMF()->getRegInfo();
+  Register This = Phi.getOperand(0).getReg();
+  Register ConstantValue;
+  for (unsigned i = 1, e = Phi.getNumOperands(); i < e; i += 2) {
+    Register Incoming = Phi.getOperand(i).getReg();
+    if (Incoming != This && !isUndef(*MRI.getVRegDef(Incoming))) {
+      if (ConstantValue && ConstantValue != Incoming)
+        return false;
+      ConstantValue = Incoming;
+    }
+  }
+  return true;
 }
 
 template <>
diff --git a/llvm/lib/CodeGen/MachineSink.cpp b/llvm/lib/CodeGen/MachineSink.cpp
index 03d93cecaa596..82acb780cfb72 100644
--- a/llvm/lib/CodeGen/MachineSink.cpp
+++ b/llvm/lib/CodeGen/MachineSink.cpp
@@ -45,6 +45,7 @@
 #include "llvm/CodeGen/TargetInstrInfo.h"
 #include "llvm/CodeGen/TargetPassConfig.h"
 #include "llvm/CodeGen/TargetRegisterInfo.h"
+#include "llvm/CodeGen/TargetSchedule.h"
 #include "llvm/CodeGen/TargetSubtargetInfo.h"
 #include "llvm/IR/BasicBlock.h"
 #include "llvm/IR/DebugInfoMetadata.h"
@@ -113,6 +114,8 @@ STATISTIC(NumSplit, "Number of critical edges split");
 STATISTIC(NumCoalesces, "Number of copies coalesced");
 STATISTIC(NumPostRACopySink, "Number of copies sunk after RA");
 
+using RegSubRegPair = TargetInstrInfo::RegSubRegPair;
+
 namespace {
 
 class MachineSinking : public MachineFunctionPass {
@@ -128,6 +131,7 @@ class MachineSinking : public MachineFunctionPass {
   const MachineBranchProbabilityInfo *MBPI = nullptr;
   AliasAnalysis *AA = nullptr;
   RegisterClassInfo RegClassInfo;
+  TargetSchedModel SchedModel;
 
   // Remember which edges have been considered for breaking.
   SmallSet<std::pair<MachineBasicBlock *, MachineBasicBlock *>, 8>
@@ -161,6 +165,8 @@ class MachineSinking : public MachineFunctionPass {
   /// would re-order assignments.
   using SeenDbgUser = PointerIntPair<MachineInstr *, 1>;
 
+  using SinkItem = std::pair<MachineInstr *, MachineBasicBlock *>;
+
   /// Record of DBG_VALUE uses of vregs in a block, so that we can identify
   /// debug instructions to sink.
   SmallDenseMap<unsigned, TinyPtrVector<SeenDbgUser>> SeenDbgUsers;
@@ -255,7 +261,10 @@ class MachineSinking : public MachineFunctionPass {
 
   void FindCycleSinkCandidates(MachineCycle *Cycle, MachineBasicBlock *BB,
                                SmallVectorImpl<MachineInstr *> &Candidates);
-  bool SinkIntoCycle(MachineCycle *Cycle, MachineInstr &I);
+
+  bool
+  aggressivelySinkIntoCycle(MachineCycle *Cycle, MachineInstr &I,
+                            DenseMap<SinkItem, MachineInstr *> &SunkInstrs);
 
   bool isProfitableToSinkTo(Register Reg, MachineInstr &MI,
                             MachineBasicBlock *MBB,
@@ -271,11 +280,14 @@ class MachineSinking : public MachineFunctionPass {
   GetAllSortedSuccessors(MachineInstr &MI, MachineBasicBlock *MBB,
                          AllSuccsCache &AllSuccessors) const;
 
-  std::vector<unsigned> &getBBRegisterPressure(const MachineBasicBlock &MBB);
+  std::vector<unsigned> &getBBRegisterPressure(const MachineBasicBlock &MBB,
+                                               bool UseCache = true);
 
   bool registerPressureSetExceedsLimit(unsigned NRegs,
                                        const TargetRegisterClass *RC,
                                        const MachineBasicBlock &MBB);
+
+  bool registerPressureExceedsLimit(const MachineBasicBlock &MBB);
 };
 
 } // end anonymous namespace
@@ -680,6 +692,10 @@ void MachineSinking::FindCycleSinkCandidates(
     SmallVectorImpl<MachineInstr *> &Candidates) {
   for (auto &MI : *BB) {
     LLVM_DEBUG(dbgs() << "CycleSink: Analysing candidate: " << MI);
+    if (MI.isMetaInstruction()) {
+      LLVM_DEBUG(dbgs() << "CycleSink: not sinking meta instruction\n");
+      continue;
+    }
     if (!TII->shouldSink(MI)) {
       LLVM_DEBUG(dbgs() << "CycleSink: Instruction not a candidate for this "
                            "target\n");
@@ -775,31 +791,62 @@ bool MachineSinking::runOnMachineFunction(MachineFunction &MF) {
 
   if (SinkInstsIntoCycle) {
     SmallVector<MachineCycle *, 8> Cycles(CI->toplevel_cycles());
-    for (auto *Cycle : Cycles) {
-      MachineBasicBlock *Preheader = Cycle->getCyclePreheader();
-      if (!Preheader) {
-        LLVM_DEBUG(dbgs() << "CycleSink: Can't find preheader\n");
-        continue;
-      }
-      SmallVector<MachineInstr *, 8> Candidates;
-      FindCycleSinkCandidates(Cycle, Preheader, Candidates);
-
-      // Walk the candidates in reverse order so that we start with the use
-      // of a def-use chain, if there is any.
-      // TODO: Sort the candidates using a cost-model.
-      unsigned i = 0;
-      for (MachineInstr *I : llvm::reverse(Candidates)) {
-        if (i++ == SinkIntoCycleLimit) {
-          LLVM_DEBUG(dbgs() << "CycleSink:   Limit reached of instructions to "
-                               "be analysed.");
-          break;
+    SchedModel.init(STI);
+    bool HasHighPressure;
+
+    DenseMap<SinkItem, MachineInstr *> SunkInstrs;
+
+    enum CycleSinkStage { COPY, LOW_LATENCY, AGGRESSIVE, END };
+    for (unsigned Stage = CycleSinkStage::COPY; Stage != CycleSinkStage::END;
+         ++Stage, SunkInstrs.clear()) {
+      HasHighPressure = false;
+
+      for (auto *Cycle : Cycles) {
+        MachineBasicBlock *Preheader = Cycle->getCyclePreheader();
+        if (!Preheader) {
+          LLVM_DEBUG(dbgs() << "CycleSink: Can't find preheader\n");
+          continue;
         }
+        SmallVector<MachineInstr *, 8> Candidates;
+        FindCycleSinkCandidates(Cycle, Preheader, Candidates);
+
+        unsigned i = 0;
+
+        // Walk the candidates in reverse order so that we start with the use
+        // of a def-use chain, if there is any.
+        // TODO: Sort the candidates using a cost-model.
+        for (MachineInstr *I : llvm::reverse(Candidates)) {
+          // CycleSinkStage::COPY: Sink a limited number of copies
+          if (Stage == CycleSinkStage::COPY) {
+            if (i++ == SinkIntoCycleLimit) {
+              LLVM_DEBUG(dbgs()
+                         << "CycleSink:   Limit reached of instructions to "
+                            "be analyzed.");
+              break;
+            }
+
+            if (!I->isCopy())
+              continue;
+          }
 
-        if (!SinkIntoCycle(Cycle, *I))
-          break;
-        EverMadeChange = true;
-        ++NumCycleSunk;
+          // CycleSinkStage::LOW_LATENCY: sink unlimited number of instructions
+          // which the target specifies as low-latency
+          if (Stage == CycleSinkStage::LOW_LATENCY &&
+              !TII->hasLowDefLatency(SchedModel, *I, 0))
+            continue;
+
+          if (!aggressivelySinkIntoCycle(Cycle, *I, SunkInstrs))
+            break;
+          EverMadeChange = true;
+          ++NumCycleSunk;
+        }
+
+        // Recalculate the pressure after sinking
+        if (!HasHighPressure)
+          HasHighPressure = registerPressureExceedsLimit(*Preheader);
       }
+      if (!HasHighPressure)
+        break;
     }
   }
 
@@ -1055,13 +1102,15 @@ bool MachineSinking::PostponeSplitCriticalEdge(MachineInstr &MI,
 }
 
 std::vector<unsigned> &
-MachineSinking::getBBRegisterPressure(const MachineBasicBlock &MBB) {
+MachineSinking::getBBRegisterPressure(const MachineBasicBlock &MBB,
+                                      bool UseCache) {
   // Currently to save compiling time, MBB's register pressure will not change
   // in one ProcessBlock iteration because of CachedRegisterPressure. but MBB's
   // register pressure is changed after sinking any instructions into it.
   // FIXME: need a accurate and cheap register pressure estiminate model here.
+
   auto RP = CachedRegisterPressure.find(&MBB);
-  if (RP != CachedRegisterPressure.end())
+  if (UseCache && RP != CachedRegisterPressure.end())
     return RP->second;
 
   RegionPressure Pressure;
@@ -1085,6 +1134,12 @@ MachineSinking::getBBRegisterPressure(const MachineBasicBlock &MBB) {
   }
 
   RPTracker.closeRegion();
+
+  if (RP != CachedRegisterPressure.end()) {
+    CachedRegisterPressure[&MBB] = RPTracker.getPressure().MaxSetPressure;
+    return CachedRegisterPressure[&MBB];
+  }
+
   auto It = CachedRegisterPressure.insert(
       std::make_pair(&MBB, RPTracker.getPressure().MaxSetPressure));
   return It.first->second;
@@ -1103,6 +1158,21 @@ bool MachineSinking::registerPressureSetExceedsLimit(
   return false;
 }
 
+// Recalculate RP and check if any pressure set exceeds the set limit.
+bool MachineSinking::registerPressureExceedsLimit(
+    const MachineBasicBlock &MBB) {
+  std::vector<unsigned> BBRegisterPressure = getBBRegisterPressure(MBB, false);
+
+  for (unsigned PS = 0; PS < BBRegisterPressure.size(); ++PS) {
+    if (BBRegisterPressure[PS] >=
+        TRI->getRegPressureSetLimit(*MBB.getParent(), PS)) {
+      return true;
+    }
+  }
+
+  return false;
+}
+
 /// isProfitableToSinkTo - Return true if it is profitable to sink MI.
 bool MachineSinking::isProfitableToSinkTo(Register Reg, MachineInstr &MI,
                                           MachineBasicBlock *MBB,
@@ -1581,83 +1651,97 @@ bool MachineSinking::hasStoreBetween(MachineBasicBlock *From,
   return HasAliasedStore;
 }
 
-/// Sink instructions into cycles if profitable. This especially tries to
-/// prevent register spills caused by register pressure if there is little to no
-/// overhead moving instructions into cycles.
-bool MachineSinking::SinkIntoCycle(MachineCycle *Cycle, MachineInstr &I) {
-  LLVM_DEBUG(dbgs() << "CycleSink: Finding sink block for: " << I);
-  MachineBasicBlock *Preheader = Cycle->getCyclePreheader();
-  assert(Preheader && "Cycle sink needs a preheader block");
-  MachineBasicBlock *SinkBlock = nullptr;
-  bool CanSink = true;
-  const MachineOperand &MO = I.getOperand(0);
-
-  for (MachineInstr &MI : MRI->use_instructions(MO.getReg())) {
-    LLVM_DEBUG(dbgs() << "CycleSink:   Analysing use: " << MI);
-    if (!Cycle->contains(MI.getParent())) {
-      LLVM_DEBUG(dbgs() << "CycleSink:   Use not in cycle, can't sink.\n");
-      CanSink = false;
-      break;
-    }
+/// Aggressively sink instructions into cycles. This will aggressively try to
+/// sink all instructions in the top-most preheaders in an attempt to reduce RP.
+/// In particular, it will sink into multiple successor blocks without limits
+/// based on the amount of sinking, or the type of ops being sunk (so long as
+/// they are safe to sink).
+bool MachineSinking::aggressivelySinkIntoCycle(
+    MachineCycle *Cycle, MachineInstr &I,
+    DenseMap<SinkItem, MachineInstr *> &SunkInstrs) {
+  // TODO: support instructions with multiple defs
+  if (I.getNumDefs() > 1)
+    return false;
 
-    // FIXME: Come up with a proper cost model that estimates whether sinking
-    // the instruction (and thus possibly executing it on every cycle
-    // iteration) is more expensive than a register.
-    // For now assumes that copies are cheap and thus almost always worth it.
-    if (!MI.isCopy()) {
-      LLVM_DEBUG(dbgs() << "CycleSink:   Use is not a copy\n");
-      CanSink = false;
-      break;
+  LLVM_DEBUG(dbgs() << "AggressiveCycleSink: Finding sink block for: " << I);
+  assert(Cycle->getCyclePreheader() && "Cycle sink needs a preheader block");
+  SmallVector<std::pair<RegSubRegPair, MachineInstr *>> Uses;
+
+  MachineOperand &DefMO = I.getOperand(0);
+  for (MachineInstr &MI : MRI->use_instructions(DefMO.getReg())) {
+    Uses.push_back({{DefMO.getReg(), DefMO.getSubReg()}, &MI});
+  }
+
+  for (std::pair<RegSubRegPair, MachineInstr *> Entry : Uses) {
+    MachineInstr *MI = Entry.second;
+    LLVM_DEBUG(dbgs() << "AggressiveCycleSink:   Analysing use: " << MI);
+    if (MI->isPHI()) {
+      LLVM_DEBUG(
+          dbgs() << "AggressiveCycleSink:   Not attempting to sink for PHI.\n");
+      continue;
     }
-    if (!SinkBlock) {
-      SinkBlock = MI.getParent();
-      LLVM_DEBUG(dbgs() << "CycleSink:   Setting sink block to: "
-                        << printMBBReference(*SinkBlock) << "\n");
+    // We cannot sink before the prologue
+    if (MI->isPosition() || TII->isBasicBlockPrologue(*MI)) {
+      LLVM_DEBUG(dbgs() << "AggressiveCycleSink:   Use is BasicBlock prologue, "
+                           "can't sink.\n");
       continue;
     }
-    SinkBlock = DT->findNearestCommonDominator(SinkBlock, MI.getParent());
-    if (!SinkBlock) {
-      LLVM_DEBUG(dbgs() << "CycleSink:   Can't find nearest dominator\n");
-      CanSink = false;
-      break;
+    if (!Cycle->contains(MI->getParent())) {
+      LLVM_DEBUG(
+          dbgs() << "AggressiveCycleSink:   Use not in cycle, can't sink.\n");
+      continue;
     }
-    LLVM_DEBUG(dbgs() << "CycleSink:   Setting nearest common dom block: "
-                      << printMBBReference(*SinkBlock) << "\n");
-  }
 
-  if (!CanSink) {
-    LLVM_DEBUG(dbgs() << "CycleSink: Can't sink instruction.\n");
-    return false;
-  }
-  if (!SinkBlock) {
-    LLVM_DEBUG(dbgs() << "CycleSink: Not sinking, can't find sink block.\n");
-    return false;
-  }
-  if (SinkBlock == Preheader) {
-    LLVM_DEBUG(
-        dbgs() << "CycleSink: Not sinking, sink block is the preheader\n");
-    return false;
-  }
-  if (SinkBlock->sizeWithoutDebugLargerThan(SinkLoadInstsPerBlockThreshold)) {
-    LLVM_DEBUG(
-        dbgs() << "CycleSink: Not Sinking, block too large to analyse.\n");
-    return false;
-  }
+    MachineBasicBlock *SinkBlock = MI->getParent();
+    MachineInstr *NewMI = nullptr;
+    SinkItem MapEntry(&I, SinkBlock);
+
+    auto SI = SunkInstrs.find(MapEntry);
+
+    // Check for the case in which we have already sunk a copy of this
+    // instruction into the user block.
+    if (SI != SunkInstrs.end()) {
+      LLVM_DEBUG(dbgs() << "AggressiveCycleSink:   Already sunk to block: "
+                        << printMBBReference(*SinkBlock) << "\n");
+      NewMI = SI->second;
+    }
 
-  LLVM_DEBUG(dbgs() << "CycleSink: Sinking instruction!\n");
-  SinkBlock->splice(SinkBlock->SkipPHIsAndLabels(SinkBlock->begin()), Preheader,
-                    I);
+    // Create a copy of the instruction in the use block.
+    if (!NewMI) {
+      LLVM_DEBUG(dbgs() << "AggressiveCycleSink: Sinking instruction to block: "
+                        << printMBBReference(*SinkBlock) << "\n");
+
+      NewMI = I.getMF()->CloneMachineInstr(&I);
+      if (DefMO.getReg().isVirtual()) {
+        const TargetRegisterClass *TRC = MRI->getRegClass(DefMO.getReg());
+        Register DestReg = MRI->createVirtualRegister(TRC);
+        NewMI->substituteRegister(DefMO.getReg(), DestReg, DefMO.getSubReg(),
+                                  *TRI);
+      }
+      SinkBlock->insert(SinkBlock->SkipPHIsAndLabels(SinkBlock->begin()),
+                        NewMI);
+      SunkInstrs.insert({MapEntry, NewMI});
+    }
 
-  // Conservatively clear any kill flags on uses of sunk instruction
-  for (MachineOperand &MO : I.operands()) {
-    if (MO.isReg() && MO.readsReg())
+    // Conservatively clear any kill flags on uses of sunk instruction
+    for (MachineOperand &MO : NewMI->all_uses()) {
+      assert(MO.isReg() && MO.isUse());
       RegsToClearKillFlags.insert(MO.getReg());
-  }
+    }
 
-  // The instruction is moved from its basic block, so do not retain the
-  // debug information.
-  assert(!I.isDebugInstr() && "Should not sink debug inst");
-  I.setDebugLoc(DebugLoc());
+    // The instruction is moved from its basic block, so do not retain the
+    // debug information.
+    assert(!NewMI->isDebugInstr() && "Should not sink debug inst");
+    NewMI->setDebugLoc(DebugLoc());
+
+    // Replace the use with the newly created virtual register.
+    RegSubRegPair &UseReg = Entry.first;
+    MI->substituteRegister(UseReg.Reg, NewMI->getOperand(0).getReg(),
+                           UseReg.SubReg, *TRI);
+  }
+  // If we have replaced all uses, then delete the dead instruction
+  if (I.isDead(*MRI))
+    I.eraseFromParent();
   return true;
 }
 
diff --git a/llvm/lib/CodeGen/SelectOptimize.cpp b/llvm/lib/CodeGen/SelectOptimize.cpp
index bfc49dd354aa6..57488a90e7a4a 100644
--- a/llvm/lib/CodeGen/SelectOptimize.cpp
+++ b/llvm/lib/CodeGen/SelectOptimize.cpp
@@ -512,7 +512,7 @@ static Value *getTrueOrFalseValue(
       CBO->setOperand(OtherIdx,
                       isTrue ? OptSelects[IV].first : OptSelects[IV].second);
   }
-  CBO->insertBefore(B->getTerminator());
+  CBO->insertBefore(B->getTerminator()->getIterator());
   return CBO;
 }
 
@@ -637,7 +637,7 @@ void SelectOptimizeImpl::convertProfitableSIGroups(SelectGroups &ProfSIGroups) {
     }
     auto InsertionPoint = EndBlock->getFirstInsertionPt();
     for (auto *DI : SinkInstrs)
-      DI->moveBeforePreserving(&*InsertionPoint);
+      DI->moveBeforePreserving(InsertionPoint);
 
     // Duplicate implementation for DbgRecords, the non-instruction debug-info
     // format. Helper lambda for moving DbgRecords to the end block.
@@ -675,7 +675,7 @@ void SelectOptimizeImpl::convertProfitableSIGroups(SelectGroups &ProfSIGroups) {
       TrueBranch = BranchInst::Create(EndBlock, TrueBlock);
       TrueBranch->setDebugLoc(LastSI.getI()->getDebugLoc());
       for (Instruction *TrueInst : TrueSlicesInterleaved)
-        TrueInst->moveBefore(TrueBranch);
+        TrueInst->moveBefore(TrueBranch->getIterator());
     }
     if (!FalseSlicesInterleaved.empty() || HasSelectLike(ASI, false)) {
       FalseBlock =
@@ -684,7 +684,7 @@ void SelectOptimizeImpl::convertProfitableSIGroups(SelectGroups &ProfSIGroups) {
       FalseBranch = BranchInst::Create(EndBlock, FalseBlock);
       FalseBranch->setDebugLoc(LastSI.getI()->getDebugLoc());
       for (Instruction *FalseInst : FalseSlicesInterleaved)
-        FalseInst->moveBefore(FalseBranch);
+        FalseInst->moveBefore(FalseBranch->getIterator());
     }
     // If there was nothing to sink, then arbitrarily choose the 'false' side
     // for a new input value to the PHI.
diff --git a/llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp b/llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp
index 5861a95c090b1..0d039860b9f0f 100644
--- a/llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp
+++ b/llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp
@@ -10952,22 +10952,71 @@ void TargetLowering::forceExpandWideMUL(SelectionDAG &DAG, const SDLoc &dl,
                                         SDValue &Hi) const {
   EVT VT = LHS.getValueType();
   assert(RHS.getValueType() == VT && "Mismatching operand types");
+  EVT WideVT = EVT::getIntegerVT(*DAG.getContext(), VT.getSizeInBits() * 2);
+  // We can fall back to a libcall with an illegal type for the MUL if we
+  // have a libcall big enough.
+  RTLIB::Libcall LC = RTLIB::UNKNOWN_LIBCALL;
+  if (WideVT == MVT::i16)
+    LC = RTLIB::MUL_I16;
+  else if (WideVT == MVT::i32)
+    LC = RTLIB::MUL_I32;
+  else if (WideVT == MVT::i64)
+    LC = RTLIB::MUL_I64;
+  else if (WideVT == MVT::i128)
+    LC = RTLIB::MUL_I128;
 
-  SDValue HiLHS;
-  SDValue HiRHS;
-  if (Signed) {
-    // The high part is obtained by SRA'ing all but one of the bits of low
-    // part.
-    unsigned LoSize = VT.getFixedSizeInBits();
-    SDValue Shift = DAG.getShiftAmountConstant(LoSize - 1, VT, dl);
-    HiLHS = DAG.getNode(ISD::SRA, dl, VT, LHS, Shift);
-    HiRHS = DAG.getNode(ISD::SRA, dl, VT, RHS, Shift);
-  } else {
-    HiLHS = DAG.getConstant(0, dl, VT);
-    HiRHS = DAG.getConstant(0, dl, VT);
+  if (LC != RTLIB::UNKNOWN_LIBCALL && getLibcallName(LC)) {
+    SDValue HiLHS, HiRHS;
+    if (Signed) {
+      // The high part is obtained by SRA'ing all but one of the bits of low
+      // part.
+      unsigned LoSize = VT.getFixedSizeInBits();
+      SDValue Shift = DAG.getShiftAmountConstant(LoSize - 1, VT, dl);
+      HiLHS = DAG.getNode(ISD::SRA, dl, VT, LHS, Shift);
+      HiRHS = DAG.getNode(ISD::SRA, dl, VT, RHS, Shift);
+    } else {
+      HiLHS = DAG.getConstant(0, dl, VT);
+      HiRHS = DAG.getConstant(0, dl, VT);
+    }
+    forceExpandWideMUL(DAG, dl, Signed, WideVT, LHS, HiLHS, RHS, HiRHS, Lo, Hi);
+    return;
   }
-  EVT WideVT = EVT::getIntegerVT(*DAG.getContext(), VT.getSizeInBits() * 2);
-  forceExpandWideMUL(DAG, dl, Signed, WideVT, LHS, HiLHS, RHS, HiRHS, Lo, Hi);
+
+  // Expand the multiplication by brute force. This is a generalized-version of
+  // the code from Hacker's Delight (itself derived from Knuth's Algorithm M
+  // from section 4.3.1) combined with the Hacker's delight code
+  // for calculating mulhs.
+  unsigned Bits = VT.getSizeInBits();
+  unsigned HalfBits = Bits / 2;
+  SDValue Mask = DAG.getConstant(APInt::getLowBitsSet(Bits, HalfBits), dl, VT);
+  SDValue LL = DAG.getNode(ISD::AND, dl, VT, LHS, Mask);
+  SDValue RL = DAG.getNode(ISD::AND, dl, VT, RHS, Mask);
+
+  SDValue T = DAG.getNode(ISD::MUL, dl, VT, LL, RL);
+  SDValue TL = DAG.getNode(ISD::AND, dl, VT, T, Mask);
+
+  SDValue Shift = DAG.getShiftAmountConstant(HalfBits, VT, dl);
+  // This is always an unsigned shift.
+  SDValue TH = DAG.getNode(ISD::SRL, dl, VT, T, Shift);
+
+  unsigned ShiftOpc = Signed ? ISD::SRA : ISD::SRL;
+  SDValue LH = DAG.getNode(ShiftOpc, dl, VT, LHS, Shift);
+  SDValue RH = DAG.getNode(ShiftOpc, dl, VT, RHS, Shift);
+
+  SDValue U =
+      DAG.getNode(ISD::ADD, dl, VT, DAG.getNode(ISD::MUL, dl, VT, LH, RL), TH);
+  SDValue UL = DAG.getNode(ISD::AND, dl, VT, U, Mask);
+  SDValue UH = DAG.getNode(ShiftOpc, dl, VT, U, Shift);
+
+  SDValue V =
+      DAG.getNode(ISD::ADD, dl, VT, DAG.getNode(ISD::MUL, dl, VT, LL, RH), UL);
+  SDValue VH = DAG.getNode(ShiftOpc, dl, VT, V, Shift);
+
+  Lo = DAG.getNode(ISD::ADD, dl, VT, TL,
+                   DAG.getNode(ISD::SHL, dl, VT, V, Shift));
+
+  Hi = DAG.getNode(ISD::ADD, dl, VT, DAG.getNode(ISD::MUL, dl, VT, LH, RH),
+                   DAG.getNode(ISD::ADD, dl, VT, UH, VH));
 }
 
 SDValue
diff --git a/llvm/lib/CodeGen/SjLjEHPrepare.cpp b/llvm/lib/CodeGen/SjLjEHPrepare.cpp
index b55be23e4579d..c33afdc71e78b 100644
--- a/llvm/lib/CodeGen/SjLjEHPrepare.cpp
+++ b/llvm/lib/CodeGen/SjLjEHPrepare.cpp
@@ -368,7 +368,7 @@ void SjLjEHPrepareImpl::lowerAcrossUnwindEdges(Function &F,
       DemotePHIToStack(PN);
 
     // Move the landingpad instruction back to the top of the landing pad block.
-    LPI->moveBefore(&UnwindBlock->front());
+    LPI->moveBefore(UnwindBlock->begin());
   }
 }
 
@@ -478,7 +478,7 @@ bool SjLjEHPrepareImpl::setupEntryBlockAndCallSites(Function &F) {
         continue;
       }
       Instruction *StackAddr = CallInst::Create(StackAddrFn, "sp");
-      StackAddr->insertAfter(&I);
+      StackAddr->insertAfter(I.getIterator());
       new StoreInst(StackAddr, StackPtr, true,
                     std::next(StackAddr->getIterator()));
     }
diff --git a/llvm/lib/CodeGen/StackColoring.cpp b/llvm/lib/CodeGen/StackColoring.cpp
index 0305bdce26f73..b77b8dbdd6e59 100644
--- a/llvm/lib/CodeGen/StackColoring.cpp
+++ b/llvm/lib/CodeGen/StackColoring.cpp
@@ -937,7 +937,8 @@ void StackColoring::remapInstructions(DenseMap<int, int> &SlotRemap) {
     // If From is before wo, its possible that there is a use of From between
     // them.
     if (From->comesBefore(To))
-      const_cast<AllocaInst*>(To)->moveBefore(const_cast<AllocaInst*>(From));
+      const_cast<AllocaInst *>(To)->moveBefore(
+          const_cast<AllocaInst *>(From)->getIterator());
 
     // AA might be used later for instruction scheduling, and we need it to be
     // able to deduce the correct aliasing releationships between pointers
@@ -948,7 +949,7 @@ void StackColoring::remapInstructions(DenseMap<int, int> &SlotRemap) {
     Instruction *Inst = const_cast<AllocaInst *>(To);
     if (From->getType() != To->getType()) {
       BitCastInst *Cast = new BitCastInst(Inst, From->getType());
-      Cast->insertAfter(Inst);
+      Cast->insertAfter(Inst->getIterator());
       Inst = Cast;
     }
 
diff --git a/llvm/lib/CodeGen/TailDuplicator.cpp b/llvm/lib/CodeGen/TailDuplicator.cpp
index f5346c8805733..6c6d38462484a 100644
--- a/llvm/lib/CodeGen/TailDuplicator.cpp
+++ b/llvm/lib/CodeGen/TailDuplicator.cpp
@@ -573,14 +573,6 @@ bool TailDuplicator::shouldTailDuplicate(bool IsSimple,
   if (TailBB.isSuccessor(&TailBB))
     return false;
 
-  // Duplicating a BB which has both multiple predecessors and successors will
-  // result in a complex CFG and also may cause huge amount of PHI nodes. If we
-  // want to remove this limitation, we have to address
-  // https://github.com/llvm/llvm-project/issues/78578.
-  if (TailBB.pred_size() > TailDupPredSize &&
-      TailBB.succ_size() > TailDupSuccSize)
-    return false;
-
   // Set the limit on the cost to duplicate. When optimizing for size,
   // duplicate only one, because one branch instruction can be eliminated to
   // compensate for the duplication.
@@ -618,6 +610,7 @@ bool TailDuplicator::shouldTailDuplicate(bool IsSimple,
   // Check the instructions in the block to determine whether tail-duplication
   // is invalid or unlikely to be profitable.
   unsigned InstrCount = 0;
+  unsigned NumPhis = 0;
   for (MachineInstr &MI : TailBB) {
     // Non-duplicable things shouldn't be tail-duplicated.
     // CFI instructions are marked as non-duplicable, because Darwin compact
@@ -661,6 +654,20 @@ bool TailDuplicator::shouldTailDuplicate(bool IsSimple,
 
     if (InstrCount > MaxDuplicateCount)
       return false;
+    NumPhis += MI.isPHI();
+  }
+
+  // Duplicating a BB which has both multiple predecessors and successors will
+  // may cause huge amount of PHI nodes. If we want to remove this limitation,
+  // we have to address https://github.com/llvm/llvm-project/issues/78578.
+  if (TailBB.pred_size() > TailDupPredSize &&
+      TailBB.succ_size() > TailDupSuccSize) {
+    // If TailBB or any of its successors contains a phi, we may have to add a
+    // large number of additional phis with additional incoming values.
+    if (NumPhis != 0 || any_of(TailBB.successors(), [](MachineBasicBlock *MBB) {
+          return any_of(*MBB, [](MachineInstr &MI) { return MI.isPHI(); });
+        }))
+      return false;
   }
 
   // Check if any of the successors of TailBB has a PHI node in which the
diff --git a/llvm/lib/CodeGen/TypePromotion.cpp b/llvm/lib/CodeGen/TypePromotion.cpp
index b29c46b0540cd..b1f99094daa4a 100644
--- a/llvm/lib/CodeGen/TypePromotion.cpp
+++ b/llvm/lib/CodeGen/TypePromotion.cpp
@@ -436,7 +436,7 @@ void IRPromoter::ReplaceAllUsersOfWith(Value *From, Value *To) {
 void IRPromoter::ExtendSources() {
   IRBuilder<> Builder{Ctx};
 
-  auto InsertZExt = [&](Value *V, Instruction *InsertPt) {
+  auto InsertZExt = [&](Value *V, BasicBlock::iterator InsertPt) {
     assert(V->getType() != ExtTy && "zext already extends to i32");
     LLVM_DEBUG(dbgs() << "IR Promotion: Inserting ZExt for " << *V << "\n");
     Builder.SetInsertPoint(InsertPt);
@@ -448,7 +448,7 @@ void IRPromoter::ExtendSources() {
       if (isa<Argument>(V))
         I->moveBefore(InsertPt);
       else
-        I->moveAfter(InsertPt);
+        I->moveAfter(&*InsertPt);
       NewInsts.insert(I);
     }
 
@@ -460,10 +460,10 @@ void IRPromoter::ExtendSources() {
   for (auto *V : Sources) {
     LLVM_DEBUG(dbgs() << " - " << *V << "\n");
     if (auto *I = dyn_cast<Instruction>(V))
-      InsertZExt(I, I);
+      InsertZExt(I, I->getIterator());
     else if (auto *Arg = dyn_cast<Argument>(V)) {
       BasicBlock &BB = Arg->getParent()->front();
-      InsertZExt(Arg, &*BB.getFirstInsertionPt());
+      InsertZExt(Arg, BB.getFirstInsertionPt());
     } else {
       llvm_unreachable("unhandled source that needs extending");
     }
@@ -552,7 +552,7 @@ void IRPromoter::TruncateSinks() {
         Value *Arg = Call->getArgOperand(i);
         Type *Ty = TruncTysMap[Call][i];
         if (Instruction *Trunc = InsertTrunc(Arg, Ty)) {
-          Trunc->moveBefore(Call);
+          Trunc->moveBefore(Call->getIterator());
           Call->setArgOperand(i, Trunc);
         }
       }
@@ -563,7 +563,7 @@ void IRPromoter::TruncateSinks() {
     if (auto *Switch = dyn_cast<SwitchInst>(I)) {
       Type *Ty = TruncTysMap[Switch][0];
       if (Instruction *Trunc = InsertTrunc(Switch->getCondition(), Ty)) {
-        Trunc->moveBefore(Switch);
+        Trunc->moveBefore(Switch->getIterator());
         Switch->setCondition(Trunc);
       }
       continue;
@@ -583,7 +583,7 @@ void IRPromoter::TruncateSinks() {
     for (unsigned i = 0; i < I->getNumOperands(); ++i) {
       Type *Ty = TruncTysMap[I][i];
       if (Instruction *Trunc = InsertTrunc(I->getOperand(i), Ty)) {
-        Trunc->moveBefore(I);
+        Trunc->moveBefore(I->getIterator());
         I->setOperand(i, Trunc);
       }
     }
diff --git a/llvm/lib/ExecutionEngine/JITLink/ELF_loongarch.cpp b/llvm/lib/ExecutionEngine/JITLink/ELF_loongarch.cpp
index a12e9f33e80a6..f23fb346c55f9 100644
--- a/llvm/lib/ExecutionEngine/JITLink/ELF_loongarch.cpp
+++ b/llvm/lib/ExecutionEngine/JITLink/ELF_loongarch.cpp
@@ -45,6 +45,238 @@ class ELFJITLinker_loongarch : public JITLinker<ELFJITLinker_loongarch> {
   }
 };
 
+namespace {
+
+struct SymbolAnchor {
+  uint64_t Offset;
+  Symbol *Sym;
+  bool End; // true for the anchor of getOffset() + getSize()
+};
+
+struct BlockRelaxAux {
+  // This records symbol start and end offsets which will be adjusted according
+  // to the nearest RelocDeltas element.
+  SmallVector<SymbolAnchor, 0> Anchors;
+  // All edges that either 1) are R_LARCH_ALIGN or 2) have a R_LARCH_RELAX edge
+  // at the same offset.
+  SmallVector<Edge *, 0> RelaxEdges;
+  // For RelaxEdges[I], the actual offset is RelaxEdges[I]->getOffset() - (I ?
+  // RelocDeltas[I - 1] : 0).
+  SmallVector<uint32_t, 0> RelocDeltas;
+  // For RelaxEdges[I], the actual type is EdgeKinds[I].
+  SmallVector<Edge::Kind, 0> EdgeKinds;
+  // List of rewritten instructions. Contains one raw encoded instruction per
+  // element in EdgeKinds that isn't Invalid or R_LARCH_ALIGN.
+  SmallVector<uint32_t, 0> Writes;
+};
+
+struct RelaxAux {
+  DenseMap<Block *, BlockRelaxAux> Blocks;
+};
+
+} // namespace
+
+static bool shouldRelax(const Section &S) {
+  return (S.getMemProt() & orc::MemProt::Exec) != orc::MemProt::None;
+}
+
+static bool isRelaxable(const Edge &E) {
+  switch (E.getKind()) {
+  default:
+    return false;
+  case AlignRelaxable:
+    return true;
+  }
+}
+
+static RelaxAux initRelaxAux(LinkGraph &G) {
+  RelaxAux Aux;
+  for (auto &S : G.sections()) {
+    if (!shouldRelax(S))
+      continue;
+    for (auto *B : S.blocks()) {
+      auto BlockEmplaceResult = Aux.Blocks.try_emplace(B);
+      assert(BlockEmplaceResult.second && "Block encountered twice");
+      auto &BlockAux = BlockEmplaceResult.first->second;
+
+      for (auto &E : B->edges())
+        if (isRelaxable(E))
+          BlockAux.RelaxEdges.push_back(&E);
+
+      if (BlockAux.RelaxEdges.empty()) {
+        Aux.Blocks.erase(BlockEmplaceResult.first);
+        continue;
+      }
+
+      const auto NumEdges = BlockAux.RelaxEdges.size();
+      BlockAux.RelocDeltas.resize(NumEdges, 0);
+      BlockAux.EdgeKinds.resize_for_overwrite(NumEdges);
+
+      // Store anchors (offset and offset+size) for symbols.
+      for (auto *Sym : S.symbols()) {
+        if (!Sym->isDefined() || &Sym->getBlock() != B)
+          continue;
+
+        BlockAux.Anchors.push_back({Sym->getOffset(), Sym, false});
+        BlockAux.Anchors.push_back(
+            {Sym->getOffset() + Sym->getSize(), Sym, true});
+      }
+    }
+  }
+
+  // Sort anchors by offset so that we can find the closest relocation
+  // efficiently. For a zero size symbol, ensure that its start anchor precedes
+  // its end anchor. For two symbols with anchors at the same offset, their
+  // order does not matter.
+  for (auto &BlockAuxIter : Aux.Blocks) {
+    llvm::sort(BlockAuxIter.second.Anchors, [](auto &A, auto &B) {
+      return std::make_pair(A.Offset, A.End) < std::make_pair(B.Offset, B.End);
+    });
+  }
+
+  return Aux;
+}
+
+static void relaxAlign(orc::ExecutorAddr Loc, const Edge &E, uint32_t &Remove,
+                       Edge::Kind &NewEdgeKind) {
+  const uint64_t Addend =
+      !E.getTarget().isDefined() ? Log2_64(E.getAddend()) + 1 : E.getAddend();
+  const uint64_t AllBytes = (1ULL << (Addend & 0xff)) - 4;
+  const uint64_t Align = 1ULL << (Addend & 0xff);
+  const uint64_t MaxBytes = Addend >> 8;
+  const uint64_t Off = Loc.getValue() & (Align - 1);
+  const uint64_t CurBytes = Off == 0 ? 0 : Align - Off;
+  // All bytes beyond the alignment boundary should be removed.
+  // If emit bytes more than max bytes to emit, remove all.
+  if (MaxBytes != 0 && CurBytes > MaxBytes)
+    Remove = AllBytes;
+  else
+    Remove = AllBytes - CurBytes;
+
+  assert(static_cast<int32_t>(Remove) >= 0 &&
+         "R_LARCH_ALIGN needs expanding the content");
+  NewEdgeKind = AlignRelaxable;
+}
+
+static bool relaxBlock(LinkGraph &G, Block &Block, BlockRelaxAux &Aux) {
+  const auto BlockAddr = Block.getAddress();
+  bool Changed = false;
+  ArrayRef<SymbolAnchor> SA = ArrayRef(Aux.Anchors);
+  uint32_t Delta = 0;
+
+  Aux.EdgeKinds.assign(Aux.EdgeKinds.size(), Edge::Invalid);
+  Aux.Writes.clear();
+
+  for (auto [I, E] : llvm::enumerate(Aux.RelaxEdges)) {
+    const auto Loc = BlockAddr + E->getOffset() - Delta;
+    auto &Cur = Aux.RelocDeltas[I];
+    uint32_t Remove = 0;
+    switch (E->getKind()) {
+    case AlignRelaxable:
+      relaxAlign(Loc, *E, Remove, Aux.EdgeKinds[I]);
+      break;
+    default:
+      llvm_unreachable("Unexpected relaxable edge kind");
+    }
+
+    // For all anchors whose offsets are <= E->getOffset(), they are preceded by
+    // the previous relocation whose RelocDeltas value equals Delta.
+    // Decrease their offset and update their size.
+    for (; SA.size() && SA[0].Offset <= E->getOffset(); SA = SA.slice(1)) {
+      if (SA[0].End)
+        SA[0].Sym->setSize(SA[0].Offset - Delta - SA[0].Sym->getOffset());
+      else
+        SA[0].Sym->setOffset(SA[0].Offset - Delta);
+    }
+
+    Delta += Remove;
+    if (Delta != Cur) {
+      Cur = Delta;
+      Changed = true;
+    }
+  }
+
+  for (const SymbolAnchor &A : SA) {
+    if (A.End)
+      A.Sym->setSize(A.Offset - Delta - A.Sym->getOffset());
+    else
+      A.Sym->setOffset(A.Offset - Delta);
+  }
+
+  return Changed;
+}
+
+static bool relaxOnce(LinkGraph &G, RelaxAux &Aux) {
+  bool Changed = false;
+
+  for (auto &[B, BlockAux] : Aux.Blocks)
+    Changed |= relaxBlock(G, *B, BlockAux);
+
+  return Changed;
+}
+
+static void finalizeBlockRelax(LinkGraph &G, Block &Block, BlockRelaxAux &Aux) {
+  auto Contents = Block.getAlreadyMutableContent();
+  auto *Dest = Contents.data();
+  uint32_t Offset = 0;
+  uint32_t Delta = 0;
+
+  // Update section content: remove NOPs for R_LARCH_ALIGN and rewrite
+  // instructions for relaxed relocations.
+  for (auto [I, E] : llvm::enumerate(Aux.RelaxEdges)) {
+    uint32_t Remove = Aux.RelocDeltas[I] - Delta;
+    Delta = Aux.RelocDeltas[I];
+    if (Remove == 0 && Aux.EdgeKinds[I] == Edge::Invalid)
+      continue;
+
+    // Copy from last location to the current relocated location.
+    const auto Size = E->getOffset() - Offset;
+    std::memmove(Dest, Contents.data() + Offset, Size);
+    Dest += Size;
+    Offset = E->getOffset() + Remove;
+  }
+
+  std::memmove(Dest, Contents.data() + Offset, Contents.size() - Offset);
+
+  // Fixup edge offsets and kinds.
+  Delta = 0;
+  size_t I = 0;
+  for (auto &E : Block.edges()) {
+    E.setOffset(E.getOffset() - Delta);
+
+    if (I < Aux.RelaxEdges.size() && Aux.RelaxEdges[I] == &E) {
+      if (Aux.EdgeKinds[I] != Edge::Invalid)
+        E.setKind(Aux.EdgeKinds[I]);
+
+      Delta = Aux.RelocDeltas[I];
+      ++I;
+    }
+  }
+
+  // Remove AlignRelaxable edges: all other relaxable edges got modified and
+  // will be used later while linking. Alignment is entirely handled here so we
+  // don't need these edges anymore.
+  for (auto IE = Block.edges().begin(); IE != Block.edges().end();) {
+    if (IE->getKind() == AlignRelaxable)
+      IE = Block.removeEdge(IE);
+    else
+      ++IE;
+  }
+}
+
+static void finalizeRelax(LinkGraph &G, RelaxAux &Aux) {
+  for (auto &[B, BlockAux] : Aux.Blocks)
+    finalizeBlockRelax(G, *B, BlockAux);
+}
+
+static Error relax(LinkGraph &G) {
+  auto Aux = initRelaxAux(G);
+  while (relaxOnce(G, Aux)) {
+  }
+  finalizeRelax(G, Aux);
+  return Error::success();
+}
+
 template <typename ELFT>
 class ELFLinkGraphBuilder_loongarch : public ELFLinkGraphBuilder<ELFT> {
 private:
@@ -74,6 +306,32 @@ class ELFLinkGraphBuilder_loongarch : public ELFLinkGraphBuilder<ELFT> {
       return RequestGOTAndTransformToPageOffset12;
     case ELF::R_LARCH_CALL36:
       return Call36PCRel;
+    case ELF::R_LARCH_ADD6:
+      return Add6;
+    case ELF::R_LARCH_ADD8:
+      return Add8;
+    case ELF::R_LARCH_ADD16:
+      return Add16;
+    case ELF::R_LARCH_ADD32:
+      return Add32;
+    case ELF::R_LARCH_ADD64:
+      return Add64;
+    case ELF::R_LARCH_ADD_ULEB128:
+      return AddUleb128;
+    case ELF::R_LARCH_SUB6:
+      return Sub6;
+    case ELF::R_LARCH_SUB8:
+      return Sub8;
+    case ELF::R_LARCH_SUB16:
+      return Sub16;
+    case ELF::R_LARCH_SUB32:
+      return Sub32;
+    case ELF::R_LARCH_SUB64:
+      return Sub64;
+    case ELF::R_LARCH_SUB_ULEB128:
+      return SubUleb128;
+    case ELF::R_LARCH_ALIGN:
+      return AlignRelaxable;
     }
 
     return make_error<JITLinkError>(
@@ -81,6 +339,11 @@ class ELFLinkGraphBuilder_loongarch : public ELFLinkGraphBuilder<ELFT> {
         object::getELFRelocationTypeName(ELF::EM_LOONGARCH, Type));
   }
 
+  EdgeKind_loongarch getRelaxableRelocationKind(EdgeKind_loongarch Kind) {
+    // TODO: Implement more. Just ignore all relaxations now.
+    return Kind;
+  }
+
   Error addRelocations() override {
     LLVM_DEBUG(dbgs() << "Processing relocations:\n");
 
@@ -99,6 +362,25 @@ class ELFLinkGraphBuilder_loongarch : public ELFLinkGraphBuilder<ELFT> {
                             Block &BlockToFix) {
     using Base = ELFLinkGraphBuilder<ELFT>;
 
+    uint32_t Type = Rel.getType(false);
+    int64_t Addend = Rel.r_addend;
+
+    if (Type == ELF::R_LARCH_RELAX) {
+      if (BlockToFix.edges_empty())
+        return make_error<StringError>(
+            "R_LARCH_RELAX without preceding relocation",
+            inconvertibleErrorCode());
+
+      auto &PrevEdge = *std::prev(BlockToFix.edges().end());
+      auto Kind = static_cast<EdgeKind_loongarch>(PrevEdge.getKind());
+      PrevEdge.setKind(getRelaxableRelocationKind(Kind));
+      return Error::success();
+    }
+
+    Expected<loongarch::EdgeKind_loongarch> Kind = getRelocationKind(Type);
+    if (!Kind)
+      return Kind.takeError();
+
     uint32_t SymbolIndex = Rel.getSymbol(false);
     auto ObjSymbol = Base::Obj.getRelocationSymbol(Rel, Base::SymTabSec);
     if (!ObjSymbol)
@@ -113,12 +395,6 @@ class ELFLinkGraphBuilder_loongarch : public ELFLinkGraphBuilder<ELFT> {
                   Base::GraphSymbols.size()),
           inconvertibleErrorCode());
 
-    uint32_t Type = Rel.getType(false);
-    Expected<loongarch::EdgeKind_loongarch> Kind = getRelocationKind(Type);
-    if (!Kind)
-      return Kind.takeError();
-
-    int64_t Addend = Rel.r_addend;
     auto FixupAddress = orc::ExecutorAddr(FixupSect.sh_addr) + Rel.r_offset;
     Edge::OffsetT Offset = FixupAddress - BlockToFix.getAddress();
     Edge GE(*Kind, Offset, *GraphSymbol, Addend);
@@ -209,6 +485,9 @@ void link_ELF_loongarch(std::unique_ptr<LinkGraph> G,
 
     // Add an in-place GOT/PLTStubs build pass.
     Config.PostPrunePasses.push_back(buildTables_ELF_loongarch);
+
+    // Add a linker relaxation pass.
+    Config.PostAllocationPasses.push_back(relax);
   }
 
   if (auto Err = Ctx->modifyPassConfig(*G, Config))
@@ -217,5 +496,7 @@ void link_ELF_loongarch(std::unique_ptr<LinkGraph> G,
   ELFJITLinker_loongarch::link(std::move(Ctx), std::move(G), std::move(Config));
 }
 
+LinkGraphPassFunction createRelaxationPass_ELF_loongarch() { return relax; }
+
 } // namespace jitlink
 } // namespace llvm
diff --git a/llvm/lib/ExecutionEngine/JITLink/loongarch.cpp b/llvm/lib/ExecutionEngine/JITLink/loongarch.cpp
index cdb3da04354ee..55389adb31b60 100644
--- a/llvm/lib/ExecutionEngine/JITLink/loongarch.cpp
+++ b/llvm/lib/ExecutionEngine/JITLink/loongarch.cpp
@@ -52,6 +52,19 @@ const char *getEdgeKindName(Edge::Kind K) {
     KIND_NAME_CASE(RequestGOTAndTransformToPage20)
     KIND_NAME_CASE(RequestGOTAndTransformToPageOffset12)
     KIND_NAME_CASE(Call36PCRel)
+    KIND_NAME_CASE(Add6)
+    KIND_NAME_CASE(Add8)
+    KIND_NAME_CASE(Add16)
+    KIND_NAME_CASE(Add32)
+    KIND_NAME_CASE(Add64)
+    KIND_NAME_CASE(AddUleb128)
+    KIND_NAME_CASE(Sub6)
+    KIND_NAME_CASE(Sub8)
+    KIND_NAME_CASE(Sub16)
+    KIND_NAME_CASE(Sub32)
+    KIND_NAME_CASE(Sub64)
+    KIND_NAME_CASE(SubUleb128)
+    KIND_NAME_CASE(AlignRelaxable)
   default:
     return getGenericEdgeKindName(K);
   }
diff --git a/llvm/lib/ExecutionEngine/Orc/TargetProcess/JITLoaderVTune.cpp b/llvm/lib/ExecutionEngine/Orc/TargetProcess/JITLoaderVTune.cpp
index fb7cf94fa0654..5a4698f0fa68d 100644
--- a/llvm/lib/ExecutionEngine/Orc/TargetProcess/JITLoaderVTune.cpp
+++ b/llvm/lib/ExecutionEngine/Orc/TargetProcess/JITLoaderVTune.cpp
@@ -15,6 +15,7 @@
 #if LLVM_USE_INTEL_JITEVENTS
 #include "IntelJITEventsWrapper.h"
 #include "ittnotify.h"
+#include <map>
 
 using namespace llvm;
 using namespace llvm::orc;
diff --git a/llvm/lib/FileCheck/FileCheck.cpp b/llvm/lib/FileCheck/FileCheck.cpp
index a6df9672f8100..5706afc357fbd 100644
--- a/llvm/lib/FileCheck/FileCheck.cpp
+++ b/llvm/lib/FileCheck/FileCheck.cpp
@@ -1933,8 +1933,8 @@ bool FileCheck::readCheckFile(
     }
 
     // Okay, add the string we captured to the output vector and move on.
-    CheckStrings.emplace_back(P, UsedPrefix, PatternLoc);
-    std::swap(DagNotMatches, CheckStrings.back().DagNotStrings);
+    CheckStrings.emplace_back(std::move(P), UsedPrefix, PatternLoc,
+                              std::move(DagNotMatches));
     DagNotMatches = ImplicitNegativeChecks;
   }
 
@@ -1963,8 +1963,8 @@ bool FileCheck::readCheckFile(
   if (!DagNotMatches.empty()) {
     CheckStrings.emplace_back(
         Pattern(Check::CheckEOF, PatternContext.get(), LineNumber + 1),
-        *Req.CheckPrefixes.begin(), SMLoc::getFromPointer(Buffer.data()));
-    std::swap(DagNotMatches, CheckStrings.back().DagNotStrings);
+        *Req.CheckPrefixes.begin(), SMLoc::getFromPointer(Buffer.data()),
+        std::move(DagNotMatches));
   }
 
   return false;
diff --git a/llvm/lib/FileCheck/FileCheckImpl.h b/llvm/lib/FileCheck/FileCheckImpl.h
index c772eddd8ecd5..4715fa9c64b61 100644
--- a/llvm/lib/FileCheck/FileCheckImpl.h
+++ b/llvm/lib/FileCheck/FileCheckImpl.h
@@ -837,8 +837,9 @@ struct FileCheckString {
   /// Hold the DAG/NOT strings occurring in the input file.
   std::vector<DagNotPrefixInfo> DagNotStrings;
 
-  FileCheckString(const Pattern &P, StringRef S, SMLoc L)
-      : Pat(P), Prefix(S), Loc(L) {}
+  FileCheckString(Pattern &&P, StringRef S, SMLoc L,
+                  std::vector<DagNotPrefixInfo> &&D)
+      : Pat(std::move(P)), Prefix(S), Loc(L), DagNotStrings(std::move(D)) {}
 
   /// Matches check string and its "not strings" and/or "dag strings".
   size_t Check(const SourceMgr &SM, StringRef Buffer, bool IsLabelScanMode,
diff --git a/llvm/lib/Frontend/OpenMP/OMPIRBuilder.cpp b/llvm/lib/Frontend/OpenMP/OMPIRBuilder.cpp
index 7ef9f2fc4f49d..777391327f77c 100644
--- a/llvm/lib/Frontend/OpenMP/OMPIRBuilder.cpp
+++ b/llvm/lib/Frontend/OpenMP/OMPIRBuilder.cpp
@@ -1488,12 +1488,12 @@ OpenMPIRBuilder::InsertPointOrErrorTy OpenMPIRBuilder::createParallel(
     // Add additional casts to enforce pointers in zero address space
     TIDAddr = new AddrSpaceCastInst(
         TIDAddrAlloca, PointerType ::get(M.getContext(), 0), "tid.addr.ascast");
-    TIDAddr->insertAfter(TIDAddrAlloca);
+    TIDAddr->insertAfter(TIDAddrAlloca->getIterator());
     ToBeDeleted.push_back(TIDAddr);
     ZeroAddr = new AddrSpaceCastInst(ZeroAddrAlloca,
                                      PointerType ::get(M.getContext(), 0),
                                      "zero.addr.ascast");
-    ZeroAddr->insertAfter(ZeroAddrAlloca);
+    ZeroAddr->insertAfter(ZeroAddrAlloca->getIterator());
     ToBeDeleted.push_back(ZeroAddr);
   }
 
diff --git a/llvm/lib/FuzzMutate/IRMutator.cpp b/llvm/lib/FuzzMutate/IRMutator.cpp
index e1fe6c8d89ab0..06f240301322c 100644
--- a/llvm/lib/FuzzMutate/IRMutator.cpp
+++ b/llvm/lib/FuzzMutate/IRMutator.cpp
@@ -660,7 +660,7 @@ void ShuffleBlockStrategy::mutate(BasicBlock &BB, RandomIRBuilder &IB) {
   Instruction *Terminator = BB.getTerminator();
   // Then put instructions back.
   for (Instruction *I : Insts) {
-    I->insertBefore(Terminator);
+    I->insertBefore(Terminator->getIterator());
   }
 }
 
diff --git a/llvm/lib/IR/DIBuilder.cpp b/llvm/lib/IR/DIBuilder.cpp
index d9bd4f11e89a3..8f9462ab46d88 100644
--- a/llvm/lib/IR/DIBuilder.cpp
+++ b/llvm/lib/IR/DIBuilder.cpp
@@ -1013,7 +1013,7 @@ DbgInstPtr DIBuilder::insertDbgAssign(Instruction *LinkedInstr, Value *Val,
   B.SetCurrentDebugLocation(DL);
 
   auto *DVI = cast<DbgAssignIntrinsic>(B.CreateCall(AssignFn, Args));
-  DVI->insertAfter(LinkedInstr);
+  DVI->insertAfter(LinkedInstr->getIterator());
   return DVI;
 }
 
diff --git a/llvm/lib/IR/DebugProgramInstruction.cpp b/llvm/lib/IR/DebugProgramInstruction.cpp
index b37dbd534092c..92023d6ab80fd 100644
--- a/llvm/lib/IR/DebugProgramInstruction.cpp
+++ b/llvm/lib/IR/DebugProgramInstruction.cpp
@@ -451,7 +451,7 @@ DbgVariableRecord::createDebugIntrinsic(Module *M,
   DVI->setTailCall();
   DVI->setDebugLoc(getDebugLoc());
   if (InsertBefore)
-    DVI->insertBefore(InsertBefore);
+    DVI->insertBefore(InsertBefore->getIterator());
 
   return DVI;
 }
@@ -467,7 +467,7 @@ DbgLabelRecord::createDebugIntrinsic(Module *M,
   DbgLabel->setTailCall();
   DbgLabel->setDebugLoc(getDebugLoc());
   if (InsertBefore)
-    DbgLabel->insertBefore(InsertBefore);
+    DbgLabel->insertBefore(InsertBefore->getIterator());
   return DbgLabel;
 }
 
@@ -548,6 +548,24 @@ void DbgRecord::insertAfter(DbgRecord *InsertAfter) {
          "DbgMarker!");
   InsertAfter->getMarker()->insertDbgRecordAfter(this, InsertAfter);
 }
+
+void DbgRecord::insertBefore(self_iterator InsertBefore) {
+  assert(!getMarker() &&
+         "Cannot insert a DbgRecord that is already has a DbgMarker!");
+  assert(InsertBefore->getMarker() &&
+         "Cannot insert a DbgRecord before a DbgRecord that does not have a "
+         "DbgMarker!");
+  InsertBefore->getMarker()->insertDbgRecord(this, &*InsertBefore);
+}
+void DbgRecord::insertAfter(self_iterator InsertAfter) {
+  assert(!getMarker() &&
+         "Cannot insert a DbgRecord that is already has a DbgMarker!");
+  assert(InsertAfter->getMarker() &&
+         "Cannot insert a DbgRecord after a DbgRecord that does not have a "
+         "DbgMarker!");
+  InsertAfter->getMarker()->insertDbgRecordAfter(this, &*InsertAfter);
+}
+
 void DbgRecord::moveBefore(DbgRecord *MoveBefore) {
   assert(getMarker() &&
          "Canot move a DbgRecord that does not currently have a DbgMarker!");
@@ -561,6 +579,19 @@ void DbgRecord::moveAfter(DbgRecord *MoveAfter) {
   insertAfter(MoveAfter);
 }
 
+void DbgRecord::moveBefore(self_iterator MoveBefore) {
+  assert(getMarker() &&
+         "Canot move a DbgRecord that does not currently have a DbgMarker!");
+  removeFromParent();
+  insertBefore(MoveBefore);
+}
+void DbgRecord::moveAfter(self_iterator MoveAfter) {
+  assert(getMarker() &&
+         "Canot move a DbgRecord that does not currently have a DbgMarker!");
+  removeFromParent();
+  insertAfter(MoveAfter);
+}
+
 ///////////////////////////////////////////////////////////////////////////////
 
 // An empty, global, DbgMarker for the purpose of describing empty ranges of
diff --git a/llvm/lib/IR/Instruction.cpp b/llvm/lib/IR/Instruction.cpp
index 9eaae62a6390b..4ab47edf3ed7d 100644
--- a/llvm/lib/IR/Instruction.cpp
+++ b/llvm/lib/IR/Instruction.cpp
@@ -114,6 +114,12 @@ void Instruction::insertAfter(Instruction *InsertPos) {
   DestParent->getInstList().insertAfter(InsertPos->getIterator(), this);
 }
 
+void Instruction::insertAfter(BasicBlock::iterator InsertPos) {
+  BasicBlock *DestParent = InsertPos->getParent();
+
+  DestParent->getInstList().insertAfter(InsertPos, this);
+}
+
 BasicBlock::iterator Instruction::insertInto(BasicBlock *ParentBB,
                                              BasicBlock::iterator It) {
   assert(getParent() == nullptr && "Expected detached instruction");
@@ -170,10 +176,18 @@ void Instruction::moveBefore(Instruction *MovePos) {
   moveBeforeImpl(*MovePos->getParent(), MovePos->getIterator(), false);
 }
 
+void Instruction::moveBefore(BasicBlock::iterator MovePos) {
+  moveBeforeImpl(*MovePos->getParent(), MovePos, false);
+}
+
 void Instruction::moveBeforePreserving(Instruction *MovePos) {
   moveBeforeImpl(*MovePos->getParent(), MovePos->getIterator(), true);
 }
 
+void Instruction::moveBeforePreserving(BasicBlock::iterator MovePos) {
+  moveBeforeImpl(*MovePos->getParent(), MovePos, true);
+}
+
 void Instruction::moveAfter(Instruction *MovePos) {
   auto NextIt = std::next(MovePos->getIterator());
   // We want this instruction to be moved to before NextIt in the instruction
diff --git a/llvm/lib/IR/ProfileSummary.cpp b/llvm/lib/IR/ProfileSummary.cpp
index acb4c52e8918f..12ae81ca8d5f3 100644
--- a/llvm/lib/IR/ProfileSummary.cpp
+++ b/llvm/lib/IR/ProfileSummary.cpp
@@ -251,7 +251,7 @@ ProfileSummary *ProfileSummary::getFromMD(Metadata *MD) {
 void ProfileSummary::printSummary(raw_ostream &OS) const {
   OS << "Total functions: " << NumFunctions << "\n";
   OS << "Maximum function count: " << MaxFunctionCount << "\n";
-  OS << "Maximum block count: " << MaxCount << "\n";
+  OS << "Maximum internal block count: " << MaxInternalCount << "\n";
   OS << "Total number of blocks: " << NumCounts << "\n";
   OS << "Total count: " << TotalCount << "\n";
 }
@@ -259,9 +259,11 @@ void ProfileSummary::printSummary(raw_ostream &OS) const {
 void ProfileSummary::printDetailedSummary(raw_ostream &OS) const {
   OS << "Detailed summary:\n";
   for (const auto &Entry : DetailedSummary) {
-    OS << Entry.NumCounts << " blocks with count >= " << Entry.MinCount
-       << " account for "
-       << format("%0.6g", (float)Entry.Cutoff / Scale * 100)
-       << " percentage of the total counts.\n";
+    OS << Entry.NumCounts << " blocks "
+       << format("(%.2f%%)",
+                 NumCounts ? (100.f * Entry.NumCounts / NumCounts) : 0)
+       << " with count >= " << Entry.MinCount << " account for "
+       << format("%0.6g", 100.f * Entry.Cutoff / Scale)
+       << "% of the total counts.\n";
   }
 }
diff --git a/llvm/lib/IR/Verifier.cpp b/llvm/lib/IR/Verifier.cpp
index 186e7a71f14fb..bd552bdc1648a 100644
--- a/llvm/lib/IR/Verifier.cpp
+++ b/llvm/lib/IR/Verifier.cpp
@@ -1319,6 +1319,8 @@ void Verifier::visitDICompositeType(const DICompositeType &N) {
   unsigned DIBlockByRefStruct = 1 << 4;
   CheckDI((N.getFlags() & DIBlockByRefStruct) == 0,
           "DIBlockByRefStruct on DICompositeType is no longer supported", &N);
+  CheckDI(llvm::all_of(N.getElements(), [](const DINode *N) { return N; }),
+          "DISubprogram contains null entry in `elements` field", &N);
 
   if (N.isVector()) {
     const DINodeArray Elements = N.getElements();
diff --git a/llvm/lib/ObjCopy/ELF/ELFObjcopy.cpp b/llvm/lib/ObjCopy/ELF/ELFObjcopy.cpp
index 4793651f1d4e0..5aa0079f3fbc7 100644
--- a/llvm/lib/ObjCopy/ELF/ELFObjcopy.cpp
+++ b/llvm/lib/ObjCopy/ELF/ELFObjcopy.cpp
@@ -609,6 +609,113 @@ static void addSymbol(Object &Obj, const NewSymbolInfo &SymInfo,
       Sec ? (uint16_t)SYMBOL_SIMPLE_INDEX : (uint16_t)SHN_ABS, 0);
 }
 
+namespace {
+struct RemoveNoteDetail {
+  struct DeletedRange {
+    uint64_t OldFrom;
+    uint64_t OldTo;
+  };
+
+  template <class ELFT>
+  static std::vector<DeletedRange>
+  findNotesToRemove(ArrayRef<uint8_t> Data, size_t Align,
+                    ArrayRef<RemoveNoteInfo> NotesToRemove);
+  static std::vector<uint8_t> updateData(ArrayRef<uint8_t> OldData,
+                                         ArrayRef<DeletedRange> ToRemove);
+};
+} // namespace
+
+template <class ELFT>
+std::vector<RemoveNoteDetail::DeletedRange>
+RemoveNoteDetail::findNotesToRemove(ArrayRef<uint8_t> Data, size_t Align,
+                                    ArrayRef<RemoveNoteInfo> NotesToRemove) {
+  using Elf_Nhdr = typename ELFT::Nhdr;
+  using Elf_Note = typename ELFT::Note;
+  std::vector<DeletedRange> ToRemove;
+  uint64_t CurPos = 0;
+  while (CurPos + sizeof(Elf_Nhdr) <= Data.size()) {
+    auto Nhdr = reinterpret_cast<const Elf_Nhdr *>(Data.data() + CurPos);
+    size_t FullSize = Nhdr->getSize(Align);
+    if (CurPos + FullSize > Data.size())
+      break;
+    Elf_Note Note(*Nhdr);
+    bool ShouldRemove =
+        llvm::any_of(NotesToRemove, [&Note](const RemoveNoteInfo &NoteInfo) {
+          return NoteInfo.TypeId == Note.getType() &&
+                 (NoteInfo.Name.empty() || NoteInfo.Name == Note.getName());
+        });
+    if (ShouldRemove)
+      ToRemove.push_back({CurPos, CurPos + FullSize});
+    CurPos += FullSize;
+  }
+  return ToRemove;
+}
+
+std::vector<uint8_t>
+RemoveNoteDetail::updateData(ArrayRef<uint8_t> OldData,
+                             ArrayRef<DeletedRange> ToRemove) {
+  std::vector<uint8_t> NewData;
+  NewData.reserve(OldData.size());
+  uint64_t CurPos = 0;
+  for (const DeletedRange &RemRange : ToRemove) {
+    if (CurPos < RemRange.OldFrom) {
+      auto Slice = OldData.slice(CurPos, RemRange.OldFrom - CurPos);
+      NewData.insert(NewData.end(), Slice.begin(), Slice.end());
+    }
+    CurPos = RemRange.OldTo;
+  }
+  if (CurPos < OldData.size()) {
+    auto Slice = OldData.slice(CurPos);
+    NewData.insert(NewData.end(), Slice.begin(), Slice.end());
+  }
+  return NewData;
+}
+
+static Error removeNotes(Object &Obj, endianness Endianness,
+                         ArrayRef<RemoveNoteInfo> NotesToRemove,
+                         function_ref<Error(Error)> ErrorCallback) {
+  // TODO: Support note segments.
+  if (ErrorCallback) {
+    for (Segment &Seg : Obj.segments()) {
+      if (Seg.Type == PT_NOTE) {
+        if (Error E = ErrorCallback(createStringError(
+                errc::not_supported, "note segments are not supported")))
+          return E;
+        break;
+      }
+    }
+  }
+  for (auto &Sec : Obj.sections()) {
+    if (Sec.Type != SHT_NOTE || !Sec.hasContents())
+      continue;
+    // TODO: Support note sections in segments.
+    if (Sec.ParentSegment) {
+      if (ErrorCallback)
+        if (Error E = ErrorCallback(createStringError(
+                errc::not_supported,
+                "cannot remove note(s) from " + Sec.Name +
+                    ": sections in segments are not supported")))
+          return E;
+      continue;
+    }
+    ArrayRef<uint8_t> OldData = Sec.getContents();
+    size_t Align = std::max<size_t>(4, Sec.Align);
+    // Note: notes for both 32-bit and 64-bit ELF files use 4-byte words in the
+    // header, so the parsers are the same.
+    auto ToRemove = (Endianness == endianness::little)
+                        ? RemoveNoteDetail::findNotesToRemove<ELF64LE>(
+                              OldData, Align, NotesToRemove)
+                        : RemoveNoteDetail::findNotesToRemove<ELF64BE>(
+                              OldData, Align, NotesToRemove);
+    if (!ToRemove.empty()) {
+      if (Error E = Obj.updateSectionData(
+              Sec, RemoveNoteDetail::updateData(OldData, ToRemove)))
+        return E;
+    }
+  }
+  return Error::success();
+}
+
 static Error
 handleUserSection(const NewSectionInfo &NewSection,
                   function_ref<Error(StringRef, ArrayRef<uint8_t>)> F) {
@@ -799,6 +906,12 @@ static Error handleArgs(const CommonConfig &Config, const ELFConfig &ELFConfig,
                      ? endianness::little
                      : endianness::big;
 
+  if (!ELFConfig.NotesToRemove.empty()) {
+    if (Error Err =
+            removeNotes(Obj, E, ELFConfig.NotesToRemove, Config.ErrorCallback))
+      return Err;
+  }
+
   for (const NewSectionInfo &AddedSection : Config.AddSection) {
     auto AddSection = [&](StringRef Name, ArrayRef<uint8_t> Data) -> Error {
       OwnedDataSection &NewSection =
diff --git a/llvm/lib/ObjCopy/ELF/ELFObject.cpp b/llvm/lib/ObjCopy/ELF/ELFObject.cpp
index 01c2f24629077..45c7ea49b5d93 100644
--- a/llvm/lib/ObjCopy/ELF/ELFObject.cpp
+++ b/llvm/lib/ObjCopy/ELF/ELFObject.cpp
@@ -2154,37 +2154,46 @@ ELFWriter<ELFT>::ELFWriter(Object &Obj, raw_ostream &Buf, bool WSH,
     : Writer(Obj, Buf), WriteSectionHeaders(WSH && Obj.HadShdrs),
       OnlyKeepDebug(OnlyKeepDebug) {}
 
-Error Object::updateSection(StringRef Name, ArrayRef<uint8_t> Data) {
-  auto It = llvm::find_if(Sections,
-                          [&](const SecPtr &Sec) { return Sec->Name == Name; });
-  if (It == Sections.end())
-    return createStringError(errc::invalid_argument, "section '%s' not found",
-                             Name.str().c_str());
-
-  auto *OldSec = It->get();
-  if (!OldSec->hasContents())
+Error Object::updateSectionData(SecPtr &Sec, ArrayRef<uint8_t> Data) {
+  if (!Sec->hasContents())
     return createStringError(
         errc::invalid_argument,
         "section '%s' cannot be updated because it does not have contents",
-        Name.str().c_str());
+        Sec->Name.c_str());
 
-  if (Data.size() > OldSec->Size && OldSec->ParentSegment)
+  if (Data.size() > Sec->Size && Sec->ParentSegment)
     return createStringError(errc::invalid_argument,
                              "cannot fit data of size %zu into section '%s' "
                              "with size %" PRIu64 " that is part of a segment",
-                             Data.size(), Name.str().c_str(), OldSec->Size);
+                             Data.size(), Sec->Name.c_str(), Sec->Size);
 
-  if (!OldSec->ParentSegment) {
-    *It = std::make_unique<OwnedDataSection>(*OldSec, Data);
+  if (!Sec->ParentSegment) {
+    Sec = std::make_unique<OwnedDataSection>(*Sec, Data);
   } else {
     // The segment writer will be in charge of updating these contents.
-    OldSec->Size = Data.size();
-    UpdatedSections[OldSec] = Data;
+    Sec->Size = Data.size();
+    UpdatedSections[Sec.get()] = Data;
   }
 
   return Error::success();
 }
 
+Error Object::updateSection(StringRef Name, ArrayRef<uint8_t> Data) {
+  auto It = llvm::find_if(Sections,
+                          [&](const SecPtr &Sec) { return Sec->Name == Name; });
+  if (It == Sections.end())
+    return createStringError(errc::invalid_argument, "section '%s' not found",
+                             Name.str().c_str());
+  return updateSectionData(*It, Data);
+}
+
+Error Object::updateSectionData(SectionBase &S, ArrayRef<uint8_t> Data) {
+  auto It = llvm::find_if(Sections,
+                          [&](const SecPtr &Sec) { return Sec.get() == &S; });
+  assert(It != Sections.end() && "The section should belong to the object");
+  return updateSectionData(*It, Data);
+}
+
 Error Object::removeSections(
     bool AllowBrokenLinks, std::function<bool(const SectionBase &)> ToRemove) {
 
diff --git a/llvm/lib/ObjCopy/ELF/ELFObject.h b/llvm/lib/ObjCopy/ELF/ELFObject.h
index 6ccf85387131e..d8f79a4b1a3cc 100644
--- a/llvm/lib/ObjCopy/ELF/ELFObject.h
+++ b/llvm/lib/ObjCopy/ELF/ELFObject.h
@@ -549,6 +549,7 @@ class SectionBase {
   virtual void
   replaceSectionReferences(const DenseMap<SectionBase *, SectionBase *> &);
   virtual bool hasContents() const { return false; }
+  virtual ArrayRef<uint8_t> getContents() const { return {}; }
   // Notify the section that it is subject to removal.
   virtual void onRemove();
 
@@ -619,6 +620,8 @@ class Section : public SectionBase {
   bool hasContents() const override {
     return Type != ELF::SHT_NOBITS && Type != ELF::SHT_NULL;
   }
+  ArrayRef<uint8_t> getContents() const override { return Contents; }
+
   void restoreSymTabLink(SymbolTableSection &SymTab) override;
 };
 
@@ -654,6 +657,7 @@ class OwnedDataSection : public SectionBase {
   Error accept(SectionVisitor &Sec) const override;
   Error accept(MutableSectionVisitor &Visitor) override;
   bool hasContents() const override { return true; }
+  ArrayRef<uint8_t> getContents() const override { return Data; }
 };
 
 class CompressedSection : public SectionBase {
@@ -1164,6 +1168,8 @@ class Object {
     return Sec.Flags & ELF::SHF_ALLOC;
   };
 
+  Error updateSectionData(SecPtr &Sec, ArrayRef<uint8_t> Data);
+
 public:
   template <class T>
   using ConstRange = iterator_range<pointee_iterator<
@@ -1206,6 +1212,7 @@ class Object {
 
   const auto &getUpdatedSections() const { return UpdatedSections; }
   Error updateSection(StringRef Name, ArrayRef<uint8_t> Data);
+  Error updateSectionData(SectionBase &S, ArrayRef<uint8_t> Data);
 
   SectionBase *findSection(StringRef Name) {
     auto SecIt =
diff --git a/llvm/lib/ObjectYAML/ELFYAML.cpp b/llvm/lib/ObjectYAML/ELFYAML.cpp
index 7e94d01a97153..539834fc8d4db 100644
--- a/llvm/lib/ObjectYAML/ELFYAML.cpp
+++ b/llvm/lib/ObjectYAML/ELFYAML.cpp
@@ -1588,7 +1588,7 @@ static bool isInteger(StringRef Val) {
 
 void MappingTraits<std::unique_ptr<ELFYAML::Chunk>>::mapping(
     IO &IO, std::unique_ptr<ELFYAML::Chunk> &Section) {
-  ELFYAML::ELF_SHT Type;
+  ELFYAML::ELF_SHT Type = ELF::SHT_NULL;
   StringRef TypeStr;
   if (IO.outputting()) {
     if (auto *S = dyn_cast<ELFYAML::Section>(Section.get()))
@@ -1747,7 +1747,9 @@ void MappingTraits<std::unique_ptr<ELFYAML::Chunk>>::mapping(
 std::string MappingTraits<std::unique_ptr<ELFYAML::Chunk>>::validate(
     IO &io, std::unique_ptr<ELFYAML::Chunk> &C) {
   if (const auto *F = dyn_cast<ELFYAML::Fill>(C.get())) {
-    if (F->Pattern && F->Pattern->binary_size() != 0 && !F->Size)
+    // Can't check the `Size`, as it's required and may be left uninitialized by
+    // previous error.
+    if (!io.error() && F->Pattern && F->Pattern->binary_size() != 0 && !F->Size)
       return "\"Size\" can't be 0 when \"Pattern\" is not empty";
     return "";
   }
diff --git a/llvm/lib/ObjectYAML/MachOYAML.cpp b/llvm/lib/ObjectYAML/MachOYAML.cpp
index 4857b5911ff2e..b7eda97c22ae0 100644
--- a/llvm/lib/ObjectYAML/MachOYAML.cpp
+++ b/llvm/lib/ObjectYAML/MachOYAML.cpp
@@ -346,7 +346,10 @@ void MappingTraits<MachOYAML::Section>::mapping(IO &IO,
 std::string
 MappingTraits<MachOYAML::Section>::validate(IO &IO,
                                             MachOYAML::Section &Section) {
-  if (Section.content && Section.size < Section.content->binary_size())
+  // Can't check the `size`, as it's required and may be left uninitialized by
+  // previous error.
+  if (!IO.error() && Section.content &&
+      Section.size < Section.content->binary_size())
     return "Section size must be greater than or equal to the content size";
   return "";
 }
diff --git a/llvm/lib/Support/Unix/Signals.inc b/llvm/lib/Support/Unix/Signals.inc
index 330b5d26fa50b..9a12663228a36 100644
--- a/llvm/lib/Support/Unix/Signals.inc
+++ b/llvm/lib/Support/Unix/Signals.inc
@@ -149,6 +149,24 @@ public:
     }
   }
 
+  static void removeFile(char *path) {
+    // Get the status so we can determine if it's a file or directory. If we
+    // can't stat the file, ignore it.
+    struct stat buf;
+    if (stat(path, &buf) != 0)
+      return;
+
+    // If this is not a regular file, ignore it. We want to prevent removal
+    // of special files like /dev/null, even if the compiler is being run
+    // with the super-user permissions.
+    if (!S_ISREG(buf.st_mode))
+      return;
+
+    // Otherwise, remove the file. We ignore any errors here as there is
+    // nothing else we can do.
+    unlink(path);
+  }
+
   // Signal-safe.
   static void removeAllFiles(std::atomic<FileToRemoveList *> &Head) {
     // If cleanup were to occur while we're removing files we'd have a bad time.
@@ -162,21 +180,7 @@ public:
       // If erasing was occuring while we're trying to remove files we'd look
       // at free'd data. Take away the path and put it back when done.
       if (char *path = currentFile->Filename.exchange(nullptr)) {
-        // Get the status so we can determine if it's a file or directory. If we
-        // can't stat the file, ignore it.
-        struct stat buf;
-        if (stat(path, &buf) != 0)
-          continue;
-
-        // If this is not a regular file, ignore it. We want to prevent removal
-        // of special files like /dev/null, even if the compiler is being run
-        // with the super-user permissions.
-        if (!S_ISREG(buf.st_mode))
-          continue;
-
-        // Otherwise, remove the file. We ignore any errors here as there is
-        // nothing else we can do.
-        unlink(path);
+        removeFile(path);
 
         // We're done removing the file, erasing can safely proceed.
         currentFile->Filename.exchange(path);
diff --git a/llvm/lib/Support/YAMLTraits.cpp b/llvm/lib/Support/YAMLTraits.cpp
index f326422138488..28642e004c4f4 100644
--- a/llvm/lib/Support/YAMLTraits.cpp
+++ b/llvm/lib/Support/YAMLTraits.cpp
@@ -750,6 +750,8 @@ void Output::scalarTag(std::string &Tag) {
 void Output::setError(const Twine &message) {
 }
 
+std::error_code Output::error() { return {}; }
+
 bool Output::canElideEmptySequence() {
   // Normally, with an optional key/value where the value is an empty sequence,
   // the whole key/value can be not written.  But, that produces wrong yaml
diff --git a/llvm/lib/TableGen/Record.cpp b/llvm/lib/TableGen/Record.cpp
index b76d7bcc95a56..590656786bc66 100644
--- a/llvm/lib/TableGen/Record.cpp
+++ b/llvm/lib/TableGen/Record.cpp
@@ -106,7 +106,8 @@ void detail::RecordKeeperImpl::dumpAllocationStats(raw_ostream &OS) const {
   OS << "TheArgumentInitPool size = " << TheArgumentInitPool.size() << '\n';
   OS << "TheBitsInitPool size = " << TheBitsInitPool.size() << '\n';
   OS << "TheIntInitPool size = " << TheIntInitPool.size() << '\n';
-  OS << "TheBitsInitPool size = " << TheBitsInitPool.size() << '\n';
+  OS << "StringInitStringPool size = " << StringInitStringPool.size() << '\n';
+  OS << "StringInitCodePool size = " << StringInitCodePool.size() << '\n';
   OS << "TheListInitPool size = " << TheListInitPool.size() << '\n';
   OS << "TheUnOpInitPool size = " << TheUnOpInitPool.size() << '\n';
   OS << "TheBinOpInitPool size = " << TheBinOpInitPool.size() << '\n';
diff --git a/llvm/lib/Target/AArch64/AArch64CallingConvention.cpp b/llvm/lib/Target/AArch64/AArch64CallingConvention.cpp
index fa04ccfba30f0..991d710c979b9 100644
--- a/llvm/lib/Target/AArch64/AArch64CallingConvention.cpp
+++ b/llvm/lib/Target/AArch64/AArch64CallingConvention.cpp
@@ -176,27 +176,27 @@ static bool CC_AArch64_Custom_Block(unsigned &ValNo, MVT &ValVT, MVT &LocVT,
   // [N x i32] arguments get packed into x-registers on Darwin's arm64_32
   // because that's how the armv7k Clang front-end emits small structs.
   unsigned EltsPerReg = (IsDarwinILP32 && LocVT.SimpleTy == MVT::i32) ? 2 : 1;
-  unsigned RegResult = State.AllocateRegBlock(
+  ArrayRef<MCPhysReg> RegResult = State.AllocateRegBlock(
       RegList, alignTo(PendingMembers.size(), EltsPerReg) / EltsPerReg);
-  if (RegResult && EltsPerReg == 1) {
-    for (auto &It : PendingMembers) {
-      It.convertToReg(RegResult);
+  if (!RegResult.empty() && EltsPerReg == 1) {
+    for (const auto &[It, Reg] : zip(PendingMembers, RegResult)) {
+      It.convertToReg(Reg);
       State.addLoc(It);
-      ++RegResult;
     }
     PendingMembers.clear();
     return true;
-  } else if (RegResult) {
+  } else if (!RegResult.empty()) {
     assert(EltsPerReg == 2 && "unexpected ABI");
     bool UseHigh = false;
     CCValAssign::LocInfo Info;
+    unsigned RegIdx = 0;
     for (auto &It : PendingMembers) {
       Info = UseHigh ? CCValAssign::AExtUpper : CCValAssign::ZExt;
-      State.addLoc(CCValAssign::getReg(It.getValNo(), MVT::i32, RegResult,
-                                       MVT::i64, Info));
+      State.addLoc(CCValAssign::getReg(It.getValNo(), MVT::i32,
+                                       RegResult[RegIdx], MVT::i64, Info));
       UseHigh = !UseHigh;
       if (!UseHigh)
-        ++RegResult;
+        ++RegIdx;
     }
     PendingMembers.clear();
     return true;
diff --git a/llvm/lib/Target/AArch64/AArch64ISelLowering.cpp b/llvm/lib/Target/AArch64/AArch64ISelLowering.cpp
index 9a0bb73087980..4ede1fb93fe5f 100644
--- a/llvm/lib/Target/AArch64/AArch64ISelLowering.cpp
+++ b/llvm/lib/Target/AArch64/AArch64ISelLowering.cpp
@@ -17464,148 +17464,17 @@ bool AArch64TargetLowering::lowerInterleavedStore(StoreInst *SI,
   return true;
 }
 
-bool getDeinterleave2Values(
-    Value *DI, SmallVectorImpl<Instruction *> &DeinterleavedValues,
-    SmallVectorImpl<Instruction *> &DeInterleaveDeadInsts) {
-  if (!DI->hasNUses(2))
-    return false;
-  auto *Extr1 = dyn_cast<ExtractValueInst>(*(DI->user_begin()));
-  auto *Extr2 = dyn_cast<ExtractValueInst>(*(++DI->user_begin()));
-  if (!Extr1 || !Extr2)
-    return false;
-
-  DeinterleavedValues.resize(2);
-  // Place the values into the vector in the order of extraction:
-  DeinterleavedValues[0x1 & (Extr1->getIndices()[0])] = Extr1;
-  DeinterleavedValues[0x1 & (Extr2->getIndices()[0])] = Extr2;
-  if (!DeinterleavedValues[0] || !DeinterleavedValues[1])
-    return false;
-
-  // Make sure that the extracted values match the deinterleave tree pattern
-  if (!match(DeinterleavedValues[0], m_ExtractValue<0>((m_Specific(DI)))) ||
-      !match(DeinterleavedValues[1], m_ExtractValue<1>((m_Specific(DI))))) {
-    LLVM_DEBUG(dbgs() << "matching deinterleave2 failed\n");
-    return false;
-  }
-  // DeinterleavedValues will be replace by output of ld2
-  DeInterleaveDeadInsts.insert(DeInterleaveDeadInsts.end(),
-                               DeinterleavedValues.begin(),
-                               DeinterleavedValues.end());
-  return true;
-}
-
-/*
-DeinterleaveIntrinsic tree:
-                   [DI]
-                /        \
-         [Extr<0>]      [Extr<1>]
-            |                 |
-           [DI]              [DI]
-          /    \            /    \
-    [Extr<0>][Extr<1>] [Extr<0>][Extr<1>]
-        |       |         |         |
-roots:  A       C         B         D
-roots in correct order of DI4 will be: A B C D.
-Returns true if `DI` is the top of an IR tree that represents a theoretical
-vector.deinterleave4 intrinsic. When true is returned, \p `DeinterleavedValues`
-vector is populated with the results such an intrinsic would return: (i.e. {A,
-B, C, D } = vector.deinterleave4(...))
-*/
-bool getDeinterleave4Values(
-    Value *DI, SmallVectorImpl<Instruction *> &DeinterleavedValues,
-    SmallVectorImpl<Instruction *> &DeInterleaveDeadInsts) {
-  if (!DI->hasNUses(2))
-    return false;
-  auto *Extr1 = dyn_cast<ExtractValueInst>(*(DI->user_begin()));
-  auto *Extr2 = dyn_cast<ExtractValueInst>(*(++DI->user_begin()));
-  if (!Extr1 || !Extr2)
-    return false;
-
-  if (!Extr1->hasOneUse() || !Extr2->hasOneUse())
-    return false;
-  auto *DI1 = *(Extr1->user_begin());
-  auto *DI2 = *(Extr2->user_begin());
-
-  if (!DI1->hasNUses(2) || !DI2->hasNUses(2))
-    return false;
-  // Leaf nodes of the deinterleave tree:
-  auto *A = dyn_cast<ExtractValueInst>(*(DI1->user_begin()));
-  auto *C = dyn_cast<ExtractValueInst>(*(++DI1->user_begin()));
-  auto *B = dyn_cast<ExtractValueInst>(*(DI2->user_begin()));
-  auto *D = dyn_cast<ExtractValueInst>(*(++DI2->user_begin()));
-  // Make sure that the A,B,C and D are ExtractValue instructions before getting
-  // the extract index
-  if (!A || !B || !C || !D)
-    return false;
-
-  DeinterleavedValues.resize(4);
-  // Place the values into the vector in the order of deinterleave4:
-  DeinterleavedValues[0x3 &
-                      ((A->getIndices()[0] * 2) + Extr1->getIndices()[0])] = A;
-  DeinterleavedValues[0x3 &
-                      ((B->getIndices()[0] * 2) + Extr2->getIndices()[0])] = B;
-  DeinterleavedValues[0x3 &
-                      ((C->getIndices()[0] * 2) + Extr1->getIndices()[0])] = C;
-  DeinterleavedValues[0x3 &
-                      ((D->getIndices()[0] * 2) + Extr2->getIndices()[0])] = D;
-  if (!DeinterleavedValues[0] || !DeinterleavedValues[1] ||
-      !DeinterleavedValues[2] || !DeinterleavedValues[3])
-    return false;
-
-  // Make sure that A,B,C,D match the deinterleave tree pattern
-  if (!match(DeinterleavedValues[0], m_ExtractValue<0>(m_Deinterleave2(
-                                         m_ExtractValue<0>(m_Specific(DI))))) ||
-      !match(DeinterleavedValues[1], m_ExtractValue<0>(m_Deinterleave2(
-                                         m_ExtractValue<1>(m_Specific(DI))))) ||
-      !match(DeinterleavedValues[2], m_ExtractValue<1>(m_Deinterleave2(
-                                         m_ExtractValue<0>(m_Specific(DI))))) ||
-      !match(DeinterleavedValues[3], m_ExtractValue<1>(m_Deinterleave2(
-                                         m_ExtractValue<1>(m_Specific(DI)))))) {
-    LLVM_DEBUG(dbgs() << "matching deinterleave4 failed\n");
-    return false;
-  }
-
-  // These Values will not be used anymore,
-  // DI4 will be created instead of nested DI1 and DI2
-  DeInterleaveDeadInsts.insert(DeInterleaveDeadInsts.end(),
-                               DeinterleavedValues.begin(),
-                               DeinterleavedValues.end());
-  DeInterleaveDeadInsts.push_back(cast<Instruction>(DI1));
-  DeInterleaveDeadInsts.push_back(cast<Instruction>(Extr1));
-  DeInterleaveDeadInsts.push_back(cast<Instruction>(DI2));
-  DeInterleaveDeadInsts.push_back(cast<Instruction>(Extr2));
-
-  return true;
-}
-
-bool getDeinterleavedValues(
-    Value *DI, SmallVectorImpl<Instruction *> &DeinterleavedValues,
-    SmallVectorImpl<Instruction *> &DeInterleaveDeadInsts) {
-  if (getDeinterleave4Values(DI, DeinterleavedValues, DeInterleaveDeadInsts))
-    return true;
-  return getDeinterleave2Values(DI, DeinterleavedValues, DeInterleaveDeadInsts);
-}
-
 bool AArch64TargetLowering::lowerDeinterleaveIntrinsicToLoad(
-    IntrinsicInst *DI, LoadInst *LI,
-    SmallVectorImpl<Instruction *> &DeadInsts) const {
-  // Only deinterleave2 supported at present.
-  if (DI->getIntrinsicID() != Intrinsic::vector_deinterleave2)
-    return false;
-
-  SmallVector<Instruction *, 4> DeinterleavedValues;
-  SmallVector<Instruction *, 8> DeInterleaveDeadInsts;
-
-  if (!getDeinterleavedValues(DI, DeinterleavedValues, DeInterleaveDeadInsts)) {
+    LoadInst *LI, ArrayRef<Value *> DeinterleavedValues) const {
+  unsigned Factor = DeinterleavedValues.size();
+  if (Factor != 2 && Factor != 4) {
     LLVM_DEBUG(dbgs() << "Matching ld2 and ld4 patterns failed\n");
     return false;
   }
-  unsigned Factor = DeinterleavedValues.size();
-  assert((Factor == 2 || Factor == 4) &&
-         "Currently supported Factor is 2 or 4 only");
+
   VectorType *VTy = cast<VectorType>(DeinterleavedValues[0]->getType());
 
-  const DataLayout &DL = DI->getModule()->getDataLayout();
+  const DataLayout &DL = LI->getModule()->getDataLayout();
   bool UseScalable;
   if (!isLegalInterleavedAccessType(VTy, DL, UseScalable))
     return false;
@@ -17621,7 +17490,7 @@ bool AArch64TargetLowering::lowerDeinterleaveIntrinsicToLoad(
                       VTy->getElementCount().divideCoefficientBy(NumLoads));
 
   Type *PtrTy = LI->getPointerOperandType();
-  Function *LdNFunc = getStructuredLoadFunction(DI->getModule(), Factor,
+  Function *LdNFunc = getStructuredLoadFunction(LI->getModule(), Factor,
                                                 UseScalable, LdTy, PtrTy);
 
   IRBuilder<> Builder(LI);
@@ -17666,72 +17535,19 @@ bool AArch64TargetLowering::lowerDeinterleaveIntrinsicToLoad(
       DeinterleavedValues[I]->replaceAllUsesWith(NewExtract);
     }
   }
-  DeadInsts.insert(DeadInsts.end(), DeInterleaveDeadInsts.begin(),
-                   DeInterleaveDeadInsts.end());
   return true;
 }
 
-/*
-InterleaveIntrinsic tree.
-          A    C         B    D
-           \  /           \  /
-           [II]           [II]
-                 \     /
-                  [II]
-
-values in correct order of interleave4: A B C D.
-Returns true if `II` is the root of an IR tree that represents a theoretical
-vector.interleave4 intrinsic. When true is returned, \p `InterleavedValues`
-vector is populated with the inputs such an intrinsic would take: (i.e.
-vector.interleave4(A, B, C, D)).
-*/
-bool getValuesToInterleave(
-    Value *II, SmallVectorImpl<Value *> &InterleavedValues,
-    SmallVectorImpl<Instruction *> &InterleaveDeadInsts) {
-  Value *A, *B, *C, *D;
-  // Try to match interleave of Factor 4
-  if (match(II, m_Interleave2(m_Interleave2(m_Value(A), m_Value(C)),
-                              m_Interleave2(m_Value(B), m_Value(D))))) {
-    InterleavedValues.push_back(A);
-    InterleavedValues.push_back(B);
-    InterleavedValues.push_back(C);
-    InterleavedValues.push_back(D);
-    // intermediate II will not be needed anymore
-    InterleaveDeadInsts.push_back(
-        cast<Instruction>(cast<Instruction>(II)->getOperand(0)));
-    InterleaveDeadInsts.push_back(
-        cast<Instruction>(cast<Instruction>(II)->getOperand(1)));
-    return true;
-  }
-
-  // Try to match interleave of Factor 2
-  if (match(II, m_Interleave2(m_Value(A), m_Value(B)))) {
-    InterleavedValues.push_back(A);
-    InterleavedValues.push_back(B);
-    return true;
-  }
-
-  return false;
-}
-
 bool AArch64TargetLowering::lowerInterleaveIntrinsicToStore(
-    IntrinsicInst *II, StoreInst *SI,
-    SmallVectorImpl<Instruction *> &DeadInsts) const {
-  // Only interleave2 supported at present.
-  if (II->getIntrinsicID() != Intrinsic::vector_interleave2)
-    return false;
-
-  SmallVector<Value *, 4> InterleavedValues;
-  SmallVector<Instruction *, 2> InterleaveDeadInsts;
-  if (!getValuesToInterleave(II, InterleavedValues, InterleaveDeadInsts)) {
+    StoreInst *SI, ArrayRef<Value *> InterleavedValues) const {
+  unsigned Factor = InterleavedValues.size();
+  if (Factor != 2 && Factor != 4) {
     LLVM_DEBUG(dbgs() << "Matching st2 and st4 patterns failed\n");
     return false;
   }
-  unsigned Factor = InterleavedValues.size();
-  assert((Factor == 2 || Factor == 4) &&
-         "Currently supported Factor is 2 or 4 only");
+
   VectorType *VTy = cast<VectorType>(InterleavedValues[0]->getType());
-  const DataLayout &DL = II->getModule()->getDataLayout();
+  const DataLayout &DL = SI->getModule()->getDataLayout();
 
   bool UseScalable;
   if (!isLegalInterleavedAccessType(VTy, DL, UseScalable))
@@ -17762,9 +17578,11 @@ bool AArch64TargetLowering::lowerInterleaveIntrinsicToStore(
         Builder.CreateVectorSplat(StTy->getElementCount(), Builder.getTrue());
 
   auto ExtractedValues = InterleavedValues;
+  SmallVector<Value *, 4> StoreOperands(InterleavedValues.begin(),
+                                        InterleavedValues.end());
   if (UseScalable)
-    InterleavedValues.push_back(Pred);
-  InterleavedValues.push_back(BaseAddr);
+    StoreOperands.push_back(Pred);
+  StoreOperands.push_back(BaseAddr);
   for (unsigned I = 0; I < NumStores; ++I) {
     Value *Address = BaseAddr;
     if (NumStores > 1) {
@@ -17773,16 +17591,14 @@ bool AArch64TargetLowering::lowerInterleaveIntrinsicToStore(
       Value *Idx =
           Builder.getInt64(I * StTy->getElementCount().getKnownMinValue());
       for (unsigned J = 0; J < Factor; J++) {
-        InterleavedValues[J] =
+        StoreOperands[J] =
             Builder.CreateExtractVector(StTy, ExtractedValues[J], Idx);
       }
       // update the address
-      InterleavedValues[InterleavedValues.size() - 1] = Address;
+      StoreOperands[StoreOperands.size() - 1] = Address;
     }
-    Builder.CreateCall(StNFunc, InterleavedValues);
+    Builder.CreateCall(StNFunc, StoreOperands);
   }
-  DeadInsts.insert(DeadInsts.end(), InterleaveDeadInsts.begin(),
-                   InterleaveDeadInsts.end());
   return true;
 }
 
diff --git a/llvm/lib/Target/AArch64/AArch64ISelLowering.h b/llvm/lib/Target/AArch64/AArch64ISelLowering.h
index 61579de50db17..470ed2a06b706 100644
--- a/llvm/lib/Target/AArch64/AArch64ISelLowering.h
+++ b/llvm/lib/Target/AArch64/AArch64ISelLowering.h
@@ -714,12 +714,10 @@ class AArch64TargetLowering : public TargetLowering {
                              unsigned Factor) const override;
 
   bool lowerDeinterleaveIntrinsicToLoad(
-      IntrinsicInst *DI, LoadInst *LI,
-      SmallVectorImpl<Instruction *> &DeadInsts) const override;
+      LoadInst *LI, ArrayRef<Value *> DeinterleaveValues) const override;
 
   bool lowerInterleaveIntrinsicToStore(
-      IntrinsicInst *II, StoreInst *SI,
-      SmallVectorImpl<Instruction *> &DeadInsts) const override;
+      StoreInst *SI, ArrayRef<Value *> InterleaveValues) const override;
 
   bool isLegalAddImmediate(int64_t) const override;
   bool isLegalAddScalableImmediate(int64_t) const override;
diff --git a/llvm/lib/Target/AArch64/AArch64InstrInfo.td b/llvm/lib/Target/AArch64/AArch64InstrInfo.td
index 8e575abf83d44..fa6385409f30c 100644
--- a/llvm/lib/Target/AArch64/AArch64InstrInfo.td
+++ b/llvm/lib/Target/AArch64/AArch64InstrInfo.td
@@ -4660,6 +4660,10 @@ def STRQpre : StorePreIdx<0b00, 1, 0b10, FPR128Op, "str", pre_store, f128>;
 def STRBBpre : StorePreIdx<0b00, 0, 0b00, GPR32z, "strb", pre_truncsti8,  i32>;
 def STRHHpre : StorePreIdx<0b01, 0, 0b00, GPR32z, "strh", pre_truncsti16, i32>;
 
+// bf16 pre-index store
+def : Pat<(pre_store (bf16 FPR16:$Rt), GPR64sp:$addr, simm9:$off),
+          (STRHpre FPR16:$Rt, GPR64sp:$addr, simm9:$off)>;
+
 // truncstore i64
 def : Pat<(pre_truncsti32 GPR64:$Rt, GPR64sp:$addr, simm9:$off),
   (STRWpre (EXTRACT_SUBREG GPR64:$Rt, sub_32), GPR64sp:$addr,
@@ -4685,6 +4689,8 @@ def : Pat<(pre_store (v1f64 FPR64:$Rt), GPR64sp:$addr, simm9:$off),
           (STRDpre FPR64:$Rt, GPR64sp:$addr, simm9:$off)>;
 def : Pat<(pre_store (v4f16 FPR64:$Rt), GPR64sp:$addr, simm9:$off),
           (STRDpre FPR64:$Rt, GPR64sp:$addr, simm9:$off)>;
+def : Pat<(pre_store (v4bf16 FPR64:$Rt), GPR64sp:$addr, simm9:$off),
+          (STRDpre FPR64:$Rt, GPR64sp:$addr, simm9:$off)>;
 
 def : Pat<(pre_store (v16i8 FPR128:$Rt), GPR64sp:$addr, simm9:$off),
           (STRQpre FPR128:$Rt, GPR64sp:$addr, simm9:$off)>;
@@ -4700,6 +4706,8 @@ def : Pat<(pre_store (v2f64 FPR128:$Rt), GPR64sp:$addr, simm9:$off),
           (STRQpre FPR128:$Rt, GPR64sp:$addr, simm9:$off)>;
 def : Pat<(pre_store (v8f16 FPR128:$Rt), GPR64sp:$addr, simm9:$off),
           (STRQpre FPR128:$Rt, GPR64sp:$addr, simm9:$off)>;
+def : Pat<(pre_store (v8bf16 FPR128:$Rt), GPR64sp:$addr, simm9:$off),
+          (STRQpre FPR128:$Rt, GPR64sp:$addr, simm9:$off)>;
 
 //---
 // (immediate post-indexed)
diff --git a/llvm/lib/Target/AArch64/AArch64TargetTransformInfo.cpp b/llvm/lib/Target/AArch64/AArch64TargetTransformInfo.cpp
index 77537df1ae053..e2389145cf33f 100644
--- a/llvm/lib/Target/AArch64/AArch64TargetTransformInfo.cpp
+++ b/llvm/lib/Target/AArch64/AArch64TargetTransformInfo.cpp
@@ -1204,7 +1204,7 @@ static std::optional<Instruction *> instCombineSVEDup(InstCombiner &IC,
   auto *IdxTy = Type::getInt64Ty(II.getContext());
   auto *Insert = InsertElementInst::Create(
       II.getArgOperand(0), II.getArgOperand(2), ConstantInt::get(IdxTy, 0));
-  Insert->insertBefore(&II);
+  Insert->insertBefore(II.getIterator());
   Insert->takeName(&II);
 
   return IC.replaceInstUsesWith(II, Insert);
@@ -1357,7 +1357,7 @@ static std::optional<Instruction *> instCombineSVELast(InstCombiner &IC,
     // The intrinsic is extracting lane 0 so use an extract instead.
     auto *IdxTy = Type::getInt64Ty(II.getContext());
     auto *Extract = ExtractElementInst::Create(Vec, ConstantInt::get(IdxTy, 0));
-    Extract->insertBefore(&II);
+    Extract->insertBefore(II.getIterator());
     Extract->takeName(&II);
     return IC.replaceInstUsesWith(II, Extract);
   }
@@ -1393,7 +1393,7 @@ static std::optional<Instruction *> instCombineSVELast(InstCombiner &IC,
   // The intrinsic is extracting a fixed lane so use an extract instead.
   auto *IdxTy = Type::getInt64Ty(II.getContext());
   auto *Extract = ExtractElementInst::Create(Vec, ConstantInt::get(IdxTy, Idx));
-  Extract->insertBefore(&II);
+  Extract->insertBefore(II.getIterator());
   Extract->takeName(&II);
   return IC.replaceInstUsesWith(II, Extract);
 }
diff --git a/llvm/lib/Target/AArch64/SMEInstrFormats.td b/llvm/lib/Target/AArch64/SMEInstrFormats.td
index 81004e70dc179..a01d59d0e5c43 100644
--- a/llvm/lib/Target/AArch64/SMEInstrFormats.td
+++ b/llvm/lib/Target/AArch64/SMEInstrFormats.td
@@ -46,14 +46,14 @@ def am_sme_indexed_b4 : ComplexPattern<iPTR, 2, "SelectAddrModeIndexedSVE<0, 15>
 // to a REG_SEQUENCE using the post-isel hook.
 
 def FORM_TRANSPOSED_REG_TUPLE_X2_PSEUDO :
-  Pseudo<(outs ZPR2Mul2:$tup),
+  Pseudo<(outs ZPR2:$tup),
          (ins ZPR:$zn0, ZPR:$zn1), []>, Sched<[]>{
   let hasSideEffects = 0;
   let hasPostISelHook = 1;
 }
 
 def FORM_TRANSPOSED_REG_TUPLE_X4_PSEUDO :
-  Pseudo<(outs ZPR4Mul4:$tup),
+  Pseudo<(outs ZPR4:$tup),
          (ins ZPR:$zn0, ZPR:$zn1, ZPR:$zn2, ZPR:$zn3), []>, Sched<[]>{
   let hasSideEffects = 0;
   let hasPostISelHook = 1;
@@ -164,14 +164,14 @@ class SME2_ZA_TwoOp_Multi_Single_Pat<string name, SDPatternOperator intrinsic, O
 class SME2_ZA_TwoOp_VG2_Multi_Single_Pat<string name, SDPatternOperator intrinsic, Operand index_ty, ZPRRegOp zpr_ty,
                                          ValueType vt, ComplexPattern tileslice>
     : Pat<(intrinsic (i32 (tileslice MatrixIndexGPR32Op8_11:$base, index_ty:$offset)), vt:$Zn1, vt:$Zn2, vt:$Zm),
-          (!cast<Instruction>(name # _PSEUDO) $base, $offset, (REG_SEQUENCE ZPR2, vt:$Zn1, zsub0, vt:$Zn2, zsub1),
+          (!cast<Instruction>(name # _PSEUDO) $base, $offset, (FORM_TRANSPOSED_REG_TUPLE_X2_PSEUDO vt:$Zn1, vt:$Zn2),
                                               zpr_ty:$Zm)>;
 class SME2_ZA_TwoOp_VG4_Multi_Single_Pat<string name, SDPatternOperator intrinsic, Operand index_ty, ZPRRegOp zpr_ty,
                                          ValueType vt, ComplexPattern tileslice>
     : Pat<(intrinsic (i32 (tileslice MatrixIndexGPR32Op8_11:$base, index_ty:$offset)),
                      vt:$Zn1, vt:$Zn2, vt:$Zn3, vt:$Zn4, vt:$Zm),
           (!cast<Instruction>(name # _PSEUDO) $base, $offset,
-                                              (REG_SEQUENCE ZPR4, vt:$Zn1, zsub0, vt:$Zn2, zsub1, vt:$Zn3, zsub2, vt:$Zn4, zsub3),
+                                              (FORM_TRANSPOSED_REG_TUPLE_X4_PSEUDO vt:$Zn1, vt:$Zn2, vt:$Zn3, vt:$Zn4),
                                               zpr_ty:$Zm)>;
 
 class SME2_ZA_TwoOp_VG2_Multi_Multi_Pat<string name, SDPatternOperator intrinsic, Operand index_ty, ValueType vt, ComplexPattern tileslice>
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUAsmPrinter.cpp b/llvm/lib/Target/AMDGPU/AMDGPUAsmPrinter.cpp
index 0c151d06924d8..031d8f0560ff2 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUAsmPrinter.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUAsmPrinter.cpp
@@ -456,7 +456,7 @@ void AMDGPUAsmPrinter::validateMCResourceInfo(Function &F) {
       uint64_t NumSGPRsForWavesPerEU = std::max(
           {NumSgpr, (uint64_t)1, (uint64_t)STM.getMinNumSGPRs(MaxWaves)});
       const MCExpr *OccupancyExpr = AMDGPUMCExpr::createOccupancy(
-          STM.computeOccupancy(F, MFI.getLDSSize()),
+          STM.getOccupancyWithWorkGroupSizes(*MF).second,
           MCConstantExpr::create(NumSGPRsForWavesPerEU, OutContext),
           MCConstantExpr::create(NumVGPRsForWavesPerEU, OutContext), STM,
           OutContext);
@@ -1272,8 +1272,8 @@ void AMDGPUAsmPrinter::getSIProgramInfo(SIProgramInfo &ProgInfo,
   }
 
   ProgInfo.Occupancy = AMDGPUMCExpr::createOccupancy(
-      STM.computeOccupancy(F, ProgInfo.LDSSize), ProgInfo.NumSGPRsForWavesPerEU,
-      ProgInfo.NumVGPRsForWavesPerEU, STM, Ctx);
+      STM.computeOccupancy(F, ProgInfo.LDSSize).second,
+      ProgInfo.NumSGPRsForWavesPerEU, ProgInfo.NumVGPRsForWavesPerEU, STM, Ctx);
 
   const auto [MinWEU, MaxWEU] =
       AMDGPU::getIntegerPairAttribute(F, "amdgpu-waves-per-eu", {0, 0}, true);
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp b/llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
index c09c71c83fead..02f5ce2d18ff6 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
@@ -683,7 +683,7 @@ void AMDGPUAtomicOptimizerImpl::optimizeAtomic(Instruction &I,
     // Record I's new position as the exit block.
     PixelExitBB = I.getParent();
 
-    I.moveBefore(NonHelperTerminator);
+    I.moveBefore(NonHelperTerminator->getIterator());
     B.SetInsertPoint(&I);
   }
 
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUGlobalISelUtils.cpp b/llvm/lib/Target/AMDGPU/AMDGPUGlobalISelUtils.cpp
index 65c4946413c86..d64337c4cb909 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUGlobalISelUtils.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUGlobalISelUtils.cpp
@@ -7,12 +7,19 @@
 //===----------------------------------------------------------------------===//
 
 #include "AMDGPUGlobalISelUtils.h"
+#include "AMDGPURegisterBankInfo.h"
+#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
+#include "llvm/ADT/DenseSet.h"
 #include "llvm/CodeGen/GlobalISel/GISelKnownBits.h"
+#include "llvm/CodeGen/GlobalISel/GenericMachineInstrs.h"
 #include "llvm/CodeGen/GlobalISel/MIPatternMatch.h"
+#include "llvm/CodeGen/GlobalISel/MachineIRBuilder.h"
 #include "llvm/CodeGenTypes/LowLevelType.h"
 #include "llvm/IR/Constants.h"
+#include "llvm/IR/IntrinsicsAMDGPU.h"
 
 using namespace llvm;
+using namespace AMDGPU;
 using namespace MIPatternMatch;
 
 std::pair<Register, unsigned>
@@ -68,3 +75,93 @@ AMDGPU::getBaseWithConstantOffset(MachineRegisterInfo &MRI, Register Reg,
 
   return std::pair(Reg, 0);
 }
+
+IntrinsicLaneMaskAnalyzer::IntrinsicLaneMaskAnalyzer(MachineFunction &MF)
+    : MRI(MF.getRegInfo()) {
+  initLaneMaskIntrinsics(MF);
+}
+
+bool IntrinsicLaneMaskAnalyzer::isS32S64LaneMask(Register Reg) const {
+  return S32S64LaneMask.contains(Reg);
+}
+
+void IntrinsicLaneMaskAnalyzer::initLaneMaskIntrinsics(MachineFunction &MF) {
+  for (auto &MBB : MF) {
+    for (auto &MI : MBB) {
+      GIntrinsic *GI = dyn_cast<GIntrinsic>(&MI);
+      if (GI && GI->is(Intrinsic::amdgcn_if_break)) {
+        S32S64LaneMask.insert(MI.getOperand(3).getReg());
+        findLCSSAPhi(MI.getOperand(0).getReg());
+      }
+
+      if (MI.getOpcode() == AMDGPU::SI_IF ||
+          MI.getOpcode() == AMDGPU::SI_ELSE) {
+        findLCSSAPhi(MI.getOperand(0).getReg());
+      }
+    }
+  }
+}
+
+void IntrinsicLaneMaskAnalyzer::findLCSSAPhi(Register Reg) {
+  S32S64LaneMask.insert(Reg);
+  for (const MachineInstr &LCSSAPhi : MRI.use_instructions(Reg)) {
+    if (LCSSAPhi.isPHI())
+      S32S64LaneMask.insert(LCSSAPhi.getOperand(0).getReg());
+  }
+}
+
+static LLT getReadAnyLaneSplitTy(LLT Ty) {
+  if (Ty.isVector()) {
+    LLT ElTy = Ty.getElementType();
+    if (ElTy.getSizeInBits() == 16)
+      return LLT::fixed_vector(2, ElTy);
+    // S32, S64 or pointer
+    return ElTy;
+  }
+
+  // Large scalars and 64-bit pointers
+  return LLT::scalar(32);
+}
+
+static Register buildReadAnyLane(MachineIRBuilder &B, Register VgprSrc,
+                                 const RegisterBankInfo &RBI);
+
+static void unmergeReadAnyLane(MachineIRBuilder &B,
+                               SmallVectorImpl<Register> &SgprDstParts,
+                               LLT UnmergeTy, Register VgprSrc,
+                               const RegisterBankInfo &RBI) {
+  const RegisterBank *VgprRB = &RBI.getRegBank(AMDGPU::VGPRRegBankID);
+  auto Unmerge = B.buildUnmerge({VgprRB, UnmergeTy}, VgprSrc);
+  for (unsigned i = 0; i < Unmerge->getNumOperands() - 1; ++i) {
+    SgprDstParts.push_back(buildReadAnyLane(B, Unmerge.getReg(i), RBI));
+  }
+}
+
+static Register buildReadAnyLane(MachineIRBuilder &B, Register VgprSrc,
+                                 const RegisterBankInfo &RBI) {
+  LLT Ty = B.getMRI()->getType(VgprSrc);
+  const RegisterBank *SgprRB = &RBI.getRegBank(AMDGPU::SGPRRegBankID);
+  if (Ty.getSizeInBits() == 32) {
+    return B.buildInstr(AMDGPU::G_AMDGPU_READANYLANE, {{SgprRB, Ty}}, {VgprSrc})
+        .getReg(0);
+  }
+
+  SmallVector<Register, 8> SgprDstParts;
+  unmergeReadAnyLane(B, SgprDstParts, getReadAnyLaneSplitTy(Ty), VgprSrc, RBI);
+
+  return B.buildMergeLikeInstr({SgprRB, Ty}, SgprDstParts).getReg(0);
+}
+
+void AMDGPU::buildReadAnyLane(MachineIRBuilder &B, Register SgprDst,
+                              Register VgprSrc, const RegisterBankInfo &RBI) {
+  LLT Ty = B.getMRI()->getType(VgprSrc);
+  if (Ty.getSizeInBits() == 32) {
+    B.buildInstr(AMDGPU::G_AMDGPU_READANYLANE, {SgprDst}, {VgprSrc});
+    return;
+  }
+
+  SmallVector<Register, 8> SgprDstParts;
+  unmergeReadAnyLane(B, SgprDstParts, getReadAnyLaneSplitTy(Ty), VgprSrc, RBI);
+
+  B.buildMergeLikeInstr(SgprDst, SgprDstParts).getReg(0);
+}
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUGlobalISelUtils.h b/llvm/lib/Target/AMDGPU/AMDGPUGlobalISelUtils.h
index 5972552b9a4fe..27f8fed86d647 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUGlobalISelUtils.h
+++ b/llvm/lib/Target/AMDGPU/AMDGPUGlobalISelUtils.h
@@ -9,6 +9,7 @@
 #ifndef LLVM_LIB_TARGET_AMDGPU_AMDGPUGLOBALISELUTILS_H
 #define LLVM_LIB_TARGET_AMDGPU_AMDGPUGLOBALISELUTILS_H
 
+#include "llvm/ADT/DenseSet.h"
 #include "llvm/CodeGen/Register.h"
 #include <utility>
 
@@ -18,6 +19,9 @@ class MachineRegisterInfo;
 class GCNSubtarget;
 class GISelKnownBits;
 class LLT;
+class MachineFunction;
+class MachineIRBuilder;
+class RegisterBankInfo;
 
 namespace AMDGPU {
 
@@ -26,6 +30,29 @@ std::pair<Register, unsigned>
 getBaseWithConstantOffset(MachineRegisterInfo &MRI, Register Reg,
                           GISelKnownBits *KnownBits = nullptr,
                           bool CheckNUW = false);
+
+// Currently finds S32/S64 lane masks that can be declared as divergent by
+// uniformity analysis (all are phis at the moment).
+// These are defined as i32/i64 in some IR intrinsics (not as i1).
+// Tablegen forces(via telling that lane mask IR intrinsics are uniform) most of
+// S32/S64 lane masks to be uniform, as this results in them ending up with sgpr
+// reg class after instruction-select, don't search for all of them.
+class IntrinsicLaneMaskAnalyzer {
+  SmallDenseSet<Register, 8> S32S64LaneMask;
+  MachineRegisterInfo &MRI;
+
+public:
+  IntrinsicLaneMaskAnalyzer(MachineFunction &MF);
+  bool isS32S64LaneMask(Register Reg) const;
+
+private:
+  void initLaneMaskIntrinsics(MachineFunction &MF);
+  // This will not be needed when we turn off LCSSA for global-isel.
+  void findLCSSAPhi(Register Reg);
+};
+
+void buildReadAnyLane(MachineIRBuilder &B, Register SgprDst, Register VgprSrc,
+                      const RegisterBankInfo &RBI);
 }
 }
 
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp b/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
index 6d5c3b5e0742b..8e90754103ff1 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
@@ -489,6 +489,95 @@ void AMDGPUDAGToDAGISel::SelectBuildVector(SDNode *N, unsigned RegClassID) {
   CurDAG->SelectNodeTo(N, AMDGPU::REG_SEQUENCE, N->getVTList(), RegSeqArgs);
 }
 
+void AMDGPUDAGToDAGISel::SelectVectorShuffle(SDNode *N) {
+  EVT VT = N->getValueType(0);
+  EVT EltVT = VT.getVectorElementType();
+
+  // TODO: Handle 16-bit element vectors with even aligned masks.
+  if (!Subtarget->hasPkMovB32() || !EltVT.bitsEq(MVT::i32) ||
+      VT.getVectorNumElements() != 2) {
+    SelectCode(N);
+    return;
+  }
+
+  auto *SVN = cast<ShuffleVectorSDNode>(N);
+
+  SDValue Src0 = SVN->getOperand(0);
+  SDValue Src1 = SVN->getOperand(1);
+  ArrayRef<int> Mask = SVN->getMask();
+  SDLoc DL(N);
+
+  assert(Src0.getValueType().getVectorNumElements() == 2 && Mask.size() == 2 &&
+         Mask[0] < 4 && Mask[1] < 4);
+
+  SDValue VSrc0 = Mask[0] < 2 ? Src0 : Src1;
+  SDValue VSrc1 = Mask[1] < 2 ? Src0 : Src1;
+  unsigned Src0SubReg = Mask[0] & 1 ? AMDGPU::sub1 : AMDGPU::sub0;
+  unsigned Src1SubReg = Mask[1] & 1 ? AMDGPU::sub1 : AMDGPU::sub0;
+
+  if (Mask[0] < 0) {
+    Src0SubReg = Src1SubReg;
+    MachineSDNode *ImpDef =
+        CurDAG->getMachineNode(TargetOpcode::IMPLICIT_DEF, DL, VT);
+    VSrc0 = SDValue(ImpDef, 0);
+  }
+
+  if (Mask[1] < 0) {
+    Src1SubReg = Src0SubReg;
+    MachineSDNode *ImpDef =
+        CurDAG->getMachineNode(TargetOpcode::IMPLICIT_DEF, DL, VT);
+    VSrc1 = SDValue(ImpDef, 0);
+  }
+
+  // SGPR case needs to lower to copies.
+  //
+  // Also use subregister extract when we can directly blend the registers with
+  // a simple subregister copy.
+  //
+  // TODO: Maybe we should fold this out earlier
+  if (N->isDivergent() && Src0SubReg == AMDGPU::sub1 &&
+      Src1SubReg == AMDGPU::sub0) {
+    // The low element of the result always comes from src0.
+    // The high element of the result always comes from src1.
+    // op_sel selects the high half of src0.
+    // op_sel_hi selects the high half of src1.
+
+    unsigned Src0OpSel =
+        Src0SubReg == AMDGPU::sub1 ? SISrcMods::OP_SEL_0 : SISrcMods::NONE;
+    unsigned Src1OpSel =
+        Src1SubReg == AMDGPU::sub1 ? SISrcMods::OP_SEL_0 : SISrcMods::NONE;
+
+    // Enable op_sel_hi to avoid printing it. This should have no effect on the
+    // result.
+    Src0OpSel |= SISrcMods::OP_SEL_1;
+    Src1OpSel |= SISrcMods::OP_SEL_1;
+
+    SDValue Src0OpSelVal = CurDAG->getTargetConstant(Src0OpSel, DL, MVT::i32);
+    SDValue Src1OpSelVal = CurDAG->getTargetConstant(Src1OpSel, DL, MVT::i32);
+    SDValue ZeroMods = CurDAG->getTargetConstant(0, DL, MVT::i32);
+
+    CurDAG->SelectNodeTo(N, AMDGPU::V_PK_MOV_B32, N->getVTList(),
+                         {Src0OpSelVal, VSrc0, Src1OpSelVal, VSrc1,
+                          ZeroMods,   // clamp
+                          ZeroMods,   // op_sel
+                          ZeroMods,   // op_sel_hi
+                          ZeroMods,   // neg_lo
+                          ZeroMods}); // neg_hi
+    return;
+  }
+
+  SDValue ResultElt0 =
+      CurDAG->getTargetExtractSubreg(Src0SubReg, DL, EltVT, VSrc0);
+  SDValue ResultElt1 =
+      CurDAG->getTargetExtractSubreg(Src1SubReg, DL, EltVT, VSrc1);
+
+  const SDValue Ops[] = {
+      CurDAG->getTargetConstant(AMDGPU::SReg_64RegClassID, DL, MVT::i32),
+      ResultElt0, CurDAG->getTargetConstant(AMDGPU::sub0, DL, MVT::i32),
+      ResultElt1, CurDAG->getTargetConstant(AMDGPU::sub1, DL, MVT::i32)};
+  CurDAG->SelectNodeTo(N, TargetOpcode::REG_SEQUENCE, VT, Ops);
+}
+
 void AMDGPUDAGToDAGISel::Select(SDNode *N) {
   unsigned int Opc = N->getOpcode();
   if (N->isMachineOpcode()) {
@@ -562,6 +651,9 @@ void AMDGPUDAGToDAGISel::Select(SDNode *N) {
     SelectBuildVector(N, RegClassID);
     return;
   }
+  case ISD::VECTOR_SHUFFLE:
+    SelectVectorShuffle(N);
+    return;
   case ISD::BUILD_PAIR: {
     SDValue RC, SubReg0, SubReg1;
     SDLoc DL(N);
@@ -3101,6 +3193,33 @@ bool AMDGPUDAGToDAGISel::SelectVOP3PMods(SDValue In, SDValue &Src,
     }
 
     Mods = VecMods;
+  } else if (Src.getOpcode() == ISD::VECTOR_SHUFFLE &&
+             Src.getNumOperands() == 2) {
+
+    // TODO: We should repeat the build_vector source check above for the
+    // vector_shuffle for negates and casts of individual elements.
+
+    auto *SVN = cast<ShuffleVectorSDNode>(Src);
+    ArrayRef<int> Mask = SVN->getMask();
+
+    if (Mask[0] < 2 && Mask[1] < 2) {
+      // src1 should be undef.
+      SDValue ShuffleSrc = SVN->getOperand(0);
+
+      if (ShuffleSrc.getOpcode() == ISD::FNEG) {
+        ShuffleSrc = ShuffleSrc.getOperand(0);
+        Mods ^= (SISrcMods::NEG | SISrcMods::NEG_HI);
+      }
+
+      if (Mask[0] == 1)
+        Mods |= SISrcMods::OP_SEL_0;
+      if (Mask[1] == 1)
+        Mods |= SISrcMods::OP_SEL_1;
+
+      Src = ShuffleSrc;
+      SrcMods = CurDAG->getTargetConstant(Mods, SDLoc(In), MVT::i32);
+      return true;
+    }
   }
 
   // Packed instructions do not have abs modifiers.
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.h b/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.h
index 7e61eb470622f..7dcd208a9cdd4 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.h
+++ b/llvm/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.h
@@ -86,6 +86,7 @@ class AMDGPUDAGToDAGISel : public SelectionDAGISel {
 
 protected:
   void SelectBuildVector(SDNode *N, unsigned RegClassID);
+  void SelectVectorShuffle(SDNode *N);
 
 private:
   std::pair<SDValue, SDValue> foldFrameIndex(SDValue N) const;
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp b/llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
index 926c1e4b23b4a..40eaba2c09209 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
@@ -217,6 +217,74 @@ bool AMDGPUInstructionSelector::selectCOPY(MachineInstr &I) const {
   return true;
 }
 
+bool AMDGPUInstructionSelector::selectCOPY_SCC_VCC(MachineInstr &I) const {
+  const DebugLoc &DL = I.getDebugLoc();
+  MachineBasicBlock *BB = I.getParent();
+
+  unsigned CmpOpc =
+      STI.isWave64() ? AMDGPU::S_CMP_LG_U64 : AMDGPU::S_CMP_LG_U32;
+  MachineInstr *Cmp = BuildMI(*BB, &I, DL, TII.get(CmpOpc))
+                          .addReg(I.getOperand(1).getReg())
+                          .addImm(0);
+  if (!constrainSelectedInstRegOperands(*Cmp, TII, TRI, RBI))
+    return false;
+
+  Register DstReg = I.getOperand(0).getReg();
+  BuildMI(*BB, &I, DL, TII.get(AMDGPU::COPY), DstReg).addReg(AMDGPU::SCC);
+
+  I.eraseFromParent();
+  return RBI.constrainGenericRegister(DstReg, AMDGPU::SReg_32RegClass, *MRI);
+}
+
+bool AMDGPUInstructionSelector::selectCOPY_VCC_SCC(MachineInstr &I) const {
+  const DebugLoc &DL = I.getDebugLoc();
+  MachineBasicBlock *BB = I.getParent();
+
+  Register DstReg = I.getOperand(0).getReg();
+  Register SrcReg = I.getOperand(1).getReg();
+  std::optional<ValueAndVReg> Arg =
+      getIConstantVRegValWithLookThrough(I.getOperand(1).getReg(), *MRI);
+
+  if (Arg) {
+    const int64_t Value = Arg->Value.getZExtValue();
+    if (Value == 0) {
+      unsigned Opcode = STI.isWave64() ? AMDGPU::S_MOV_B64 : AMDGPU::S_MOV_B32;
+      BuildMI(*BB, &I, DL, TII.get(Opcode), DstReg).addImm(0);
+    } else {
+      assert(Value == 1);
+      BuildMI(*BB, &I, DL, TII.get(AMDGPU::COPY), DstReg).addReg(TRI.getExec());
+    }
+    I.eraseFromParent();
+    return RBI.constrainGenericRegister(DstReg, *TRI.getBoolRC(), *MRI);
+  }
+
+  // RegBankLegalize ensures that SrcReg is bool in reg (high bits are 0).
+  BuildMI(*BB, &I, DL, TII.get(AMDGPU::COPY), AMDGPU::SCC).addReg(SrcReg);
+
+  unsigned SelectOpcode =
+      STI.isWave64() ? AMDGPU::S_CSELECT_B64 : AMDGPU::S_CSELECT_B32;
+  MachineInstr *Select = BuildMI(*BB, &I, DL, TII.get(SelectOpcode), DstReg)
+                             .addReg(TRI.getExec())
+                             .addImm(0);
+
+  I.eraseFromParent();
+  return constrainSelectedInstRegOperands(*Select, TII, TRI, RBI);
+}
+
+bool AMDGPUInstructionSelector::selectReadAnyLane(MachineInstr &I) const {
+  Register DstReg = I.getOperand(0).getReg();
+  Register SrcReg = I.getOperand(1).getReg();
+
+  const DebugLoc &DL = I.getDebugLoc();
+  MachineBasicBlock *BB = I.getParent();
+
+  auto RFL = BuildMI(*BB, &I, DL, TII.get(AMDGPU::V_READFIRSTLANE_B32), DstReg)
+                 .addReg(SrcReg);
+
+  I.eraseFromParent();
+  return constrainSelectedInstRegOperands(*RFL, TII, TRI, RBI);
+}
+
 bool AMDGPUInstructionSelector::selectPHI(MachineInstr &I) const {
   const Register DefReg = I.getOperand(0).getReg();
   const LLT DefTy = MRI->getType(DefReg);
@@ -249,7 +317,21 @@ bool AMDGPUInstructionSelector::selectPHI(MachineInstr &I) const {
     }
   }
 
-  // TODO: Verify that all registers have the same bank
+  // If inputs have register bank, assign corresponding reg class.
+  // Note: registers don't need to have the same reg bank.
+  for (unsigned i = 1; i != I.getNumOperands(); i += 2) {
+    const Register SrcReg = I.getOperand(i).getReg();
+
+    const RegisterBank *RB = MRI->getRegBankOrNull(SrcReg);
+    if (RB) {
+      const LLT SrcTy = MRI->getType(SrcReg);
+      const TargetRegisterClass *SrcRC =
+          TRI.getRegClassForTypeOnBank(SrcTy, *RB);
+      if (!RBI.constrainGenericRegister(SrcReg, *SrcRC, *MRI))
+        return false;
+    }
+  }
+
   I.setDesc(TII.get(TargetOpcode::PHI));
   return RBI.constrainGenericRegister(DefReg, *DefRC, *MRI);
 }
@@ -4014,6 +4096,12 @@ bool AMDGPUInstructionSelector::select(MachineInstr &I) {
     return selectStackRestore(I);
   case AMDGPU::G_PHI:
     return selectPHI(I);
+  case AMDGPU::G_AMDGPU_COPY_SCC_VCC:
+    return selectCOPY_SCC_VCC(I);
+  case AMDGPU::G_AMDGPU_COPY_VCC_SCC:
+    return selectCOPY_VCC_SCC(I);
+  case AMDGPU::G_AMDGPU_READANYLANE:
+    return selectReadAnyLane(I);
   case TargetOpcode::G_CONSTANT:
   case TargetOpcode::G_FCONSTANT:
   default:
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h b/llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h
index d294300be4049..b0d2a73fe31d2 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h
+++ b/llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.h
@@ -87,6 +87,9 @@ class AMDGPUInstructionSelector final : public InstructionSelector {
 
   bool constrainCopyLikeIntrin(MachineInstr &MI, unsigned NewOpc) const;
   bool selectCOPY(MachineInstr &I) const;
+  bool selectCOPY_SCC_VCC(MachineInstr &I) const;
+  bool selectCOPY_VCC_SCC(MachineInstr &I) const;
+  bool selectReadAnyLane(MachineInstr &I) const;
   bool selectPHI(MachineInstr &I) const;
   bool selectG_TRUNC(MachineInstr &I) const;
   bool selectG_SZA_EXT(MachineInstr &I) const;
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUMemoryUtils.cpp b/llvm/lib/Target/AMDGPU/AMDGPUMemoryUtils.cpp
index 0406ba9c68ccd..a5bfdb7bf6eac 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUMemoryUtils.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUMemoryUtils.cpp
@@ -141,8 +141,8 @@ LDSUsesInfoTy getTransitiveUsesOfLDS(const CallGraph &CG, Module &M) {
   FunctionVariableMap DirectMapFunction;
   getUsesOfLDSByFunction(CG, M, DirectMapKernel, DirectMapFunction);
 
-  // Collect variables that are used by functions whose address has escaped
-  DenseSet<GlobalVariable *> VariablesReachableThroughFunctionPointer;
+  // Collect functions whose address has escaped
+  DenseSet<Function *> AddressTakenFuncs;
   for (Function &F : M.functions()) {
     if (!isKernelLDS(&F))
       if (F.hasAddressTaken(nullptr,
@@ -150,11 +150,16 @@ LDSUsesInfoTy getTransitiveUsesOfLDS(const CallGraph &CG, Module &M) {
                             /* IgnoreAssumeLikeCalls */ false,
                             /* IgnoreLLVMUsed */ true,
                             /* IgnoreArcAttachedCall */ false)) {
-        set_union(VariablesReachableThroughFunctionPointer,
-                  DirectMapFunction[&F]);
+        AddressTakenFuncs.insert(&F);
       }
   }
 
+  // Collect variables that are used by functions whose address has escaped
+  DenseSet<GlobalVariable *> VariablesReachableThroughFunctionPointer;
+  for (Function *F : AddressTakenFuncs) {
+    set_union(VariablesReachableThroughFunctionPointer, DirectMapFunction[F]);
+  }
+
   auto FunctionMakesUnknownCall = [&](const Function *F) -> bool {
     assert(!F->isDeclaration());
     for (const CallGraphNode::CallRecord &R : *CG[F]) {
@@ -206,6 +211,13 @@ LDSUsesInfoTy getTransitiveUsesOfLDS(const CallGraph &CG, Module &M) {
     }
   }
 
+  // Collect variables that are transitively used by functions whose address has
+  // escaped
+  for (Function *F : AddressTakenFuncs) {
+    set_union(VariablesReachableThroughFunctionPointer,
+              TransitiveMapFunction[F]);
+  }
+
   // DirectMapKernel lists which variables are used by the kernel
   // find the variables which are used through a function call
   FunctionVariableMap IndirectMapKernel;
@@ -218,11 +230,37 @@ LDSUsesInfoTy getTransitiveUsesOfLDS(const CallGraph &CG, Module &M) {
       Function *Ith = R.second->getFunction();
       if (Ith) {
         set_union(IndirectMapKernel[&Func], TransitiveMapFunction[Ith]);
-      } else {
-        set_union(IndirectMapKernel[&Func],
-                  VariablesReachableThroughFunctionPointer);
       }
     }
+
+    // Check if the kernel encounters unknows calls, wheher directly or
+    // indirectly.
+    bool SeesUnknownCalls = [&]() {
+      SmallVector<Function *> WorkList = {CG[&Func]->getFunction()};
+      SmallPtrSet<Function *, 8> Visited;
+
+      while (!WorkList.empty()) {
+        Function *F = WorkList.pop_back_val();
+
+        for (const CallGraphNode::CallRecord &CallRecord : *CG[F]) {
+          if (!CallRecord.second)
+            continue;
+
+          Function *Callee = CallRecord.second->getFunction();
+          if (!Callee)
+            return true;
+
+          if (Visited.insert(Callee).second)
+            WorkList.push_back(Callee);
+        }
+      }
+      return false;
+    }();
+
+    if (SeesUnknownCalls) {
+      set_union(IndirectMapKernel[&Func],
+                VariablesReachableThroughFunctionPointer);
+    }
   }
 
   // Verify that we fall into one of 2 cases:
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUPromoteAlloca.cpp b/llvm/lib/Target/AMDGPU/AMDGPUPromoteAlloca.cpp
index e27ef71c1c088..907f82ed7fc52 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUPromoteAlloca.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUPromoteAlloca.cpp
@@ -1344,7 +1344,7 @@ bool AMDGPUPromoteAllocaImpl::hasSufficientLocalMem(const Function &F) {
   }
 
   unsigned MaxOccupancy =
-      ST.getOccupancyWithLocalMemSize(CurrentLocalMemUsage, F);
+      ST.getOccupancyWithWorkGroupSizes(CurrentLocalMemUsage, F).second;
 
   // Restrict local memory usage so that we don't drastically reduce occupancy,
   // unless it is already significantly reduced.
diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalize.cpp b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalize.cpp
index 283173deaeedc..8d3e7829e10e1 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalize.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalize.cpp
@@ -18,12 +18,20 @@
 //===----------------------------------------------------------------------===//
 
 #include "AMDGPU.h"
+#include "AMDGPUGlobalISelUtils.h"
+#include "AMDGPURegBankLegalizeHelper.h"
+#include "GCNSubtarget.h"
+#include "llvm/CodeGen/GlobalISel/CSEInfo.h"
+#include "llvm/CodeGen/GlobalISel/CSEMIRBuilder.h"
 #include "llvm/CodeGen/MachineFunctionPass.h"
+#include "llvm/CodeGen/MachineUniformityAnalysis.h"
+#include "llvm/CodeGen/TargetPassConfig.h"
 #include "llvm/InitializePasses.h"
 
 #define DEBUG_TYPE "amdgpu-regbanklegalize"
 
 using namespace llvm;
+using namespace AMDGPU;
 
 namespace {
 
@@ -43,6 +51,9 @@ class AMDGPURegBankLegalize : public MachineFunctionPass {
   }
 
   void getAnalysisUsage(AnalysisUsage &AU) const override {
+    AU.addRequired<TargetPassConfig>();
+    AU.addRequired<GISelCSEAnalysisWrapperPass>();
+    AU.addRequired<MachineUniformityAnalysisPass>();
     MachineFunctionPass::getAnalysisUsage(AU);
   }
 
@@ -58,6 +69,9 @@ class AMDGPURegBankLegalize : public MachineFunctionPass {
 
 INITIALIZE_PASS_BEGIN(AMDGPURegBankLegalize, DEBUG_TYPE,
                       "AMDGPU Register Bank Legalize", false, false)
+INITIALIZE_PASS_DEPENDENCY(TargetPassConfig)
+INITIALIZE_PASS_DEPENDENCY(GISelCSEAnalysisWrapperPass)
+INITIALIZE_PASS_DEPENDENCY(MachineUniformityAnalysisPass)
 INITIALIZE_PASS_END(AMDGPURegBankLegalize, DEBUG_TYPE,
                     "AMDGPU Register Bank Legalize", false, false)
 
@@ -69,11 +83,291 @@ FunctionPass *llvm::createAMDGPURegBankLegalizePass() {
   return new AMDGPURegBankLegalize();
 }
 
-using namespace AMDGPU;
+const RegBankLegalizeRules &getRules(const GCNSubtarget &ST,
+                                     MachineRegisterInfo &MRI) {
+  static std::mutex GlobalMutex;
+  static SmallDenseMap<unsigned, std::unique_ptr<RegBankLegalizeRules>>
+      CacheForRuleSet;
+  std::lock_guard<std::mutex> Lock(GlobalMutex);
+  if (!CacheForRuleSet.contains(ST.getGeneration())) {
+    auto Rules = std::make_unique<RegBankLegalizeRules>(ST, MRI);
+    CacheForRuleSet[ST.getGeneration()] = std::move(Rules);
+  } else {
+    CacheForRuleSet[ST.getGeneration()]->refreshRefs(ST, MRI);
+  }
+  return *CacheForRuleSet[ST.getGeneration()];
+}
+
+class AMDGPURegBankLegalizeCombiner {
+  MachineIRBuilder &B;
+  MachineRegisterInfo &MRI;
+  const SIRegisterInfo &TRI;
+  const RegisterBank *SgprRB;
+  const RegisterBank *VgprRB;
+  const RegisterBank *VccRB;
+
+  static constexpr LLT S1 = LLT::scalar(1);
+  static constexpr LLT S16 = LLT::scalar(16);
+  static constexpr LLT S32 = LLT::scalar(32);
+  static constexpr LLT S64 = LLT::scalar(64);
+
+public:
+  AMDGPURegBankLegalizeCombiner(MachineIRBuilder &B, const SIRegisterInfo &TRI,
+                                const RegisterBankInfo &RBI)
+      : B(B), MRI(*B.getMRI()), TRI(TRI),
+        SgprRB(&RBI.getRegBank(AMDGPU::SGPRRegBankID)),
+        VgprRB(&RBI.getRegBank(AMDGPU::VGPRRegBankID)),
+        VccRB(&RBI.getRegBank(AMDGPU::VCCRegBankID)) {};
+
+  bool isLaneMask(Register Reg) {
+    const RegisterBank *RB = MRI.getRegBankOrNull(Reg);
+    if (RB && RB->getID() == AMDGPU::VCCRegBankID)
+      return true;
+
+    const TargetRegisterClass *RC = MRI.getRegClassOrNull(Reg);
+    return RC && TRI.isSGPRClass(RC) && MRI.getType(Reg) == LLT::scalar(1);
+  }
+
+  void cleanUpAfterCombine(MachineInstr &MI, MachineInstr *Optional0) {
+    MI.eraseFromParent();
+    if (Optional0 && isTriviallyDead(*Optional0, MRI))
+      Optional0->eraseFromParent();
+  }
+
+  std::pair<MachineInstr *, Register> tryMatch(Register Src, unsigned Opcode) {
+    MachineInstr *MatchMI = MRI.getVRegDef(Src);
+    if (MatchMI->getOpcode() != Opcode)
+      return {nullptr, Register()};
+    return {MatchMI, MatchMI->getOperand(1).getReg()};
+  }
+
+  void tryCombineCopy(MachineInstr &MI) {
+    Register Dst = MI.getOperand(0).getReg();
+    Register Src = MI.getOperand(1).getReg();
+    // Skip copies of physical registers.
+    if (!Dst.isVirtual() || !Src.isVirtual())
+      return;
+
+    // This is a cross bank copy, sgpr S1 to lane mask.
+    //
+    // %Src:sgpr(s1) = G_TRUNC %TruncS32Src:sgpr(s32)
+    // %Dst:lane-mask(s1) = COPY %Src:sgpr(s1)
+    // ->
+    // %Dst:lane-mask(s1) = G_AMDGPU_COPY_VCC_SCC %TruncS32Src:sgpr(s32)
+    if (isLaneMask(Dst) && MRI.getRegBankOrNull(Src) == SgprRB) {
+      auto [Trunc, TruncS32Src] = tryMatch(Src, AMDGPU::G_TRUNC);
+      assert(Trunc && MRI.getType(TruncS32Src) == S32 &&
+             "sgpr S1 must be result of G_TRUNC of sgpr S32");
+
+      B.setInstr(MI);
+      // Ensure that truncated bits in BoolSrc are 0.
+      auto One = B.buildConstant({SgprRB, S32}, 1);
+      auto BoolSrc = B.buildAnd({SgprRB, S32}, TruncS32Src, One);
+      B.buildInstr(AMDGPU::G_AMDGPU_COPY_VCC_SCC, {Dst}, {BoolSrc});
+      cleanUpAfterCombine(MI, Trunc);
+      return;
+    }
+
+    // Src = G_AMDGPU_READANYLANE RALSrc
+    // Dst = COPY Src
+    // ->
+    // Dst = RALSrc
+    if (MRI.getRegBankOrNull(Dst) == VgprRB &&
+        MRI.getRegBankOrNull(Src) == SgprRB) {
+      auto [RAL, RALSrc] = tryMatch(Src, AMDGPU::G_AMDGPU_READANYLANE);
+      if (!RAL)
+        return;
+
+      assert(MRI.getRegBank(RALSrc) == VgprRB);
+      MRI.replaceRegWith(Dst, RALSrc);
+      cleanUpAfterCombine(MI, RAL);
+      return;
+    }
+  }
+
+  void tryCombineS1AnyExt(MachineInstr &MI) {
+    // %Src:sgpr(S1) = G_TRUNC %TruncSrc
+    // %Dst = G_ANYEXT %Src:sgpr(S1)
+    // ->
+    // %Dst = G_... %TruncSrc
+    Register Dst = MI.getOperand(0).getReg();
+    Register Src = MI.getOperand(1).getReg();
+    if (MRI.getType(Src) != S1)
+      return;
+
+    auto [Trunc, TruncSrc] = tryMatch(Src, AMDGPU::G_TRUNC);
+    if (!Trunc)
+      return;
+
+    LLT DstTy = MRI.getType(Dst);
+    LLT TruncSrcTy = MRI.getType(TruncSrc);
+
+    if (DstTy == TruncSrcTy) {
+      MRI.replaceRegWith(Dst, TruncSrc);
+      cleanUpAfterCombine(MI, Trunc);
+      return;
+    }
+
+    B.setInstr(MI);
+
+    if (DstTy == S32 && TruncSrcTy == S64) {
+      auto Unmerge = B.buildUnmerge({SgprRB, S32}, TruncSrc);
+      MRI.replaceRegWith(Dst, Unmerge.getReg(0));
+      cleanUpAfterCombine(MI, Trunc);
+      return;
+    }
+
+    if (DstTy == S32 && TruncSrcTy == S16) {
+      B.buildAnyExt(Dst, TruncSrc);
+      cleanUpAfterCombine(MI, Trunc);
+      return;
+    }
+
+    if (DstTy == S16 && TruncSrcTy == S32) {
+      B.buildTrunc(Dst, TruncSrc);
+      cleanUpAfterCombine(MI, Trunc);
+      return;
+    }
+
+    llvm_unreachable("missing anyext + trunc combine");
+  }
+};
+
+// Search through MRI for virtual registers with sgpr register bank and S1 LLT.
+[[maybe_unused]] static Register getAnySgprS1(const MachineRegisterInfo &MRI) {
+  const LLT S1 = LLT::scalar(1);
+  for (unsigned i = 0; i < MRI.getNumVirtRegs(); ++i) {
+    Register Reg = Register::index2VirtReg(i);
+    if (MRI.def_empty(Reg) || MRI.getType(Reg) != S1)
+      continue;
+
+    const RegisterBank *RB = MRI.getRegBankOrNull(Reg);
+    if (RB && RB->getID() == AMDGPU::SGPRRegBankID) {
+      LLVM_DEBUG(dbgs() << "Warning: detected sgpr S1 register in: ";
+                 MRI.getVRegDef(Reg)->dump(););
+      return Reg;
+    }
+  }
+
+  return {};
+}
 
 bool AMDGPURegBankLegalize::runOnMachineFunction(MachineFunction &MF) {
   if (MF.getProperties().hasProperty(
           MachineFunctionProperties::Property::FailedISel))
     return false;
+
+  // Setup the instruction builder with CSE.
+  const TargetPassConfig &TPC = getAnalysis<TargetPassConfig>();
+  GISelCSEAnalysisWrapper &Wrapper =
+      getAnalysis<GISelCSEAnalysisWrapperPass>().getCSEWrapper();
+  GISelCSEInfo &CSEInfo = Wrapper.get(TPC.getCSEConfig());
+  GISelObserverWrapper Observer;
+  Observer.addObserver(&CSEInfo);
+
+  CSEMIRBuilder B(MF);
+  B.setCSEInfo(&CSEInfo);
+  B.setChangeObserver(Observer);
+
+  RAIIDelegateInstaller DelegateInstaller(MF, &Observer);
+  RAIIMFObserverInstaller MFObserverInstaller(MF, Observer);
+
+  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
+  MachineRegisterInfo &MRI = MF.getRegInfo();
+  const RegisterBankInfo &RBI = *ST.getRegBankInfo();
+  const MachineUniformityInfo &MUI =
+      getAnalysis<MachineUniformityAnalysisPass>().getUniformityInfo();
+
+  // RegBankLegalizeRules is initialized with assigning sets of IDs to opcodes.
+  const RegBankLegalizeRules &RBLRules = getRules(ST, MRI);
+
+  // Logic that does legalization based on IDs assigned to Opcode.
+  RegBankLegalizeHelper RBLHelper(B, MUI, RBI, RBLRules);
+
+  SmallVector<MachineInstr *> AllInst;
+
+  for (MachineBasicBlock &MBB : MF) {
+    for (MachineInstr &MI : MBB) {
+      AllInst.push_back(&MI);
+    }
+  }
+
+  for (MachineInstr *MI : AllInst) {
+    if (!MI->isPreISelOpcode())
+      continue;
+
+    unsigned Opc = MI->getOpcode();
+    // Insert point for use operands needs some calculation.
+    if (Opc == AMDGPU::G_PHI) {
+      RBLHelper.applyMappingPHI(*MI);
+      continue;
+    }
+
+    // Opcodes that support pretty much all combinations of reg banks and LLTs
+    // (except S1). There is no point in writing rules for them.
+    if (Opc == AMDGPU::G_BUILD_VECTOR || Opc == AMDGPU::G_UNMERGE_VALUES ||
+        Opc == AMDGPU::G_MERGE_VALUES) {
+      RBLHelper.applyMappingTrivial(*MI);
+      continue;
+    }
+
+    // Opcodes that also support S1.
+    if ((Opc == AMDGPU::G_CONSTANT || Opc == AMDGPU::G_FCONSTANT ||
+         Opc == AMDGPU::G_IMPLICIT_DEF)) {
+      Register Dst = MI->getOperand(0).getReg();
+      // Non S1 types are trivially accepted.
+      if (MRI.getType(Dst) != LLT::scalar(1)) {
+        assert(MRI.getRegBank(Dst)->getID() == AMDGPU::SGPRRegBankID);
+        continue;
+      }
+
+      // S1 rules are in RegBankLegalizeRules.
+    }
+
+    RBLHelper.findRuleAndApplyMapping(*MI);
+  }
+
+  // Sgpr S1 clean up combines:
+  // - Sgpr S1(S32) to sgpr S1(S32) Copy: anyext + trunc combine.
+  //   In RegBankLegalize 'S1 Dst' are legalized into S32 as
+  //   'S1Dst = Trunc S32Dst' and 'S1 Src' into 'S32Src = Anyext S1Src'.
+  //   S1 Truncs and Anyexts that come from legalizer, that can have non-S32
+  //   types e.g. S16 = Anyext S1 or S1 = Trunc S64, will also be cleaned up.
+  // - Sgpr S1(S32) to vcc Copy: G_AMDGPU_COPY_VCC_SCC combine.
+  //   Divergent instruction uses sgpr S1 as input that should be lane mask(vcc)
+  //   Legalizing this use creates sgpr S1(S32) to vcc Copy.
+
+  // Note: Remaining S1 copies, S1s are either sgpr S1(S32) or vcc S1:
+  // - Vcc to vcc Copy: nothing to do here, just a regular copy.
+  // - Vcc to sgpr S1 Copy: Should not exist in a form of COPY instruction(*).
+  //   Note: For 'uniform-in-vcc to sgpr-S1 copy' G_AMDGPU_COPY_SCC_VCC is used
+  //   instead. When only available instruction creates vcc result, use of
+  //   UniformInVcc results in creating G_AMDGPU_COPY_SCC_VCC.
+
+  // (*)Explanation for 'sgpr S1(uniform) = COPY vcc(divergent)':
+  // Copy from divergent to uniform register indicates an error in either:
+  // - Uniformity analysis: Uniform instruction has divergent input. If one of
+  //   the inputs is divergent, instruction should be divergent!
+  // - RegBankLegalizer not executing in waterfall loop (missing implementation)
+
+  AMDGPURegBankLegalizeCombiner Combiner(B, *ST.getRegisterInfo(), RBI);
+
+  for (MachineBasicBlock &MBB : MF) {
+    for (MachineInstr &MI : make_early_inc_range(MBB)) {
+      if (MI.getOpcode() == AMDGPU::COPY) {
+        Combiner.tryCombineCopy(MI);
+        continue;
+      }
+      if (MI.getOpcode() == AMDGPU::G_ANYEXT) {
+        Combiner.tryCombineS1AnyExt(MI);
+        continue;
+      }
+    }
+  }
+
+  assert(!getAnySgprS1(MRI).isValid() &&
+         "Registers with sgpr reg bank and S1 LLT are not legal after "
+         "AMDGPURegBankLegalize. Should lower to sgpr S32");
+
   return true;
 }
diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeHelper.cpp b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeHelper.cpp
new file mode 100644
index 0000000000000..3c007987b8494
--- /dev/null
+++ b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeHelper.cpp
@@ -0,0 +1,696 @@
+//===-- AMDGPURegBankLegalizeHelper.cpp -----------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+//
+/// Implements actual lowering algorithms for each ID that can be used in
+/// Rule.OperandMapping. Similar to legalizer helper but with register banks.
+//
+//===----------------------------------------------------------------------===//
+
+#include "AMDGPURegBankLegalizeHelper.h"
+#include "AMDGPUGlobalISelUtils.h"
+#include "AMDGPUInstrInfo.h"
+#include "AMDGPURegisterBankInfo.h"
+#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
+#include "llvm/CodeGen/GlobalISel/MachineIRBuilder.h"
+#include "llvm/CodeGen/MachineUniformityAnalysis.h"
+
+#define DEBUG_TYPE "amdgpu-regbanklegalize"
+
+using namespace llvm;
+using namespace AMDGPU;
+
+RegBankLegalizeHelper::RegBankLegalizeHelper(
+    MachineIRBuilder &B, const MachineUniformityInfo &MUI,
+    const RegisterBankInfo &RBI, const RegBankLegalizeRules &RBLRules)
+    : B(B), MRI(*B.getMRI()), MUI(MUI), RBI(RBI), RBLRules(RBLRules),
+      SgprRB(&RBI.getRegBank(AMDGPU::SGPRRegBankID)),
+      VgprRB(&RBI.getRegBank(AMDGPU::VGPRRegBankID)),
+      VccRB(&RBI.getRegBank(AMDGPU::VCCRegBankID)) {}
+
+void RegBankLegalizeHelper::findRuleAndApplyMapping(MachineInstr &MI) {
+  const SetOfRulesForOpcode &RuleSet = RBLRules.getRulesForOpc(MI);
+  const RegBankLLTMapping &Mapping = RuleSet.findMappingForMI(MI, MRI, MUI);
+
+  SmallSet<Register, 4> WaterfallSgprs;
+  unsigned OpIdx = 0;
+  if (Mapping.DstOpMapping.size() > 0) {
+    B.setInsertPt(*MI.getParent(), std::next(MI.getIterator()));
+    applyMappingDst(MI, OpIdx, Mapping.DstOpMapping);
+  }
+  if (Mapping.SrcOpMapping.size() > 0) {
+    B.setInstr(MI);
+    applyMappingSrc(MI, OpIdx, Mapping.SrcOpMapping, WaterfallSgprs);
+  }
+
+  lower(MI, Mapping, WaterfallSgprs);
+}
+
+void RegBankLegalizeHelper::splitLoad(MachineInstr &MI,
+                                      ArrayRef<LLT> LLTBreakdown, LLT MergeTy) {
+  MachineFunction &MF = B.getMF();
+  assert(MI.getNumMemOperands() == 1);
+  MachineMemOperand &BaseMMO = **MI.memoperands_begin();
+  Register Dst = MI.getOperand(0).getReg();
+  const RegisterBank *DstRB = MRI.getRegBankOrNull(Dst);
+  Register Base = MI.getOperand(1).getReg();
+  LLT PtrTy = MRI.getType(Base);
+  const RegisterBank *PtrRB = MRI.getRegBankOrNull(Base);
+  LLT OffsetTy = LLT::scalar(PtrTy.getSizeInBits());
+  SmallVector<Register, 4> LoadPartRegs;
+
+  unsigned ByteOffset = 0;
+  for (LLT PartTy : LLTBreakdown) {
+    Register BasePlusOffset;
+    if (ByteOffset == 0) {
+      BasePlusOffset = Base;
+    } else {
+      auto Offset = B.buildConstant({PtrRB, OffsetTy}, ByteOffset);
+      BasePlusOffset = B.buildPtrAdd({PtrRB, PtrTy}, Base, Offset).getReg(0);
+    }
+    auto *OffsetMMO = MF.getMachineMemOperand(&BaseMMO, ByteOffset, PartTy);
+    auto LoadPart = B.buildLoad({DstRB, PartTy}, BasePlusOffset, *OffsetMMO);
+    LoadPartRegs.push_back(LoadPart.getReg(0));
+    ByteOffset += PartTy.getSizeInBytes();
+  }
+
+  if (!MergeTy.isValid()) {
+    // Loads are of same size, concat or merge them together.
+    B.buildMergeLikeInstr(Dst, LoadPartRegs);
+  } else {
+    // Loads are not all of same size, need to unmerge them to smaller pieces
+    // of MergeTy type, then merge pieces to Dst.
+    SmallVector<Register, 4> MergeTyParts;
+    for (Register Reg : LoadPartRegs) {
+      if (MRI.getType(Reg) == MergeTy) {
+        MergeTyParts.push_back(Reg);
+      } else {
+        auto Unmerge = B.buildUnmerge({DstRB, MergeTy}, Reg);
+        for (unsigned i = 0; i < Unmerge->getNumOperands() - 1; ++i)
+          MergeTyParts.push_back(Unmerge.getReg(i));
+      }
+    }
+    B.buildMergeLikeInstr(Dst, MergeTyParts);
+  }
+  MI.eraseFromParent();
+}
+
+void RegBankLegalizeHelper::widenLoad(MachineInstr &MI, LLT WideTy,
+                                      LLT MergeTy) {
+  MachineFunction &MF = B.getMF();
+  assert(MI.getNumMemOperands() == 1);
+  MachineMemOperand &BaseMMO = **MI.memoperands_begin();
+  Register Dst = MI.getOperand(0).getReg();
+  const RegisterBank *DstRB = MRI.getRegBankOrNull(Dst);
+  Register Base = MI.getOperand(1).getReg();
+
+  MachineMemOperand *WideMMO = MF.getMachineMemOperand(&BaseMMO, 0, WideTy);
+  auto WideLoad = B.buildLoad({DstRB, WideTy}, Base, *WideMMO);
+
+  if (WideTy.isScalar()) {
+    B.buildTrunc(Dst, WideLoad);
+  } else {
+    SmallVector<Register, 4> MergeTyParts;
+    auto Unmerge = B.buildUnmerge({DstRB, MergeTy}, WideLoad);
+
+    LLT DstTy = MRI.getType(Dst);
+    unsigned NumElts = DstTy.getSizeInBits() / MergeTy.getSizeInBits();
+    for (unsigned i = 0; i < NumElts; ++i) {
+      MergeTyParts.push_back(Unmerge.getReg(i));
+    }
+    B.buildMergeLikeInstr(Dst, MergeTyParts);
+  }
+  MI.eraseFromParent();
+}
+
+void RegBankLegalizeHelper::lower(MachineInstr &MI,
+                                  const RegBankLLTMapping &Mapping,
+                                  SmallSet<Register, 4> &WaterfallSgprs) {
+
+  switch (Mapping.LoweringMethod) {
+  case DoNotLower:
+    return;
+  case UniExtToSel: {
+    LLT Ty = MRI.getType(MI.getOperand(0).getReg());
+    auto True = B.buildConstant({SgprRB, Ty},
+                                MI.getOpcode() == AMDGPU::G_SEXT ? -1 : 1);
+    auto False = B.buildConstant({SgprRB, Ty}, 0);
+    // Input to G_{Z|S}EXT is 'Legalizer legal' S1. Most common case is compare.
+    // We are making select here. S1 cond was already 'any-extended to S32' +
+    // 'AND with 1 to clean high bits' by Sgpr32AExtBoolInReg.
+    B.buildSelect(MI.getOperand(0).getReg(), MI.getOperand(1).getReg(), True,
+                  False);
+    MI.eraseFromParent();
+    return;
+  }
+  case Ext32To64: {
+    const RegisterBank *RB = MRI.getRegBank(MI.getOperand(0).getReg());
+    MachineInstrBuilder Hi;
+
+    if (MI.getOpcode() == AMDGPU::G_ZEXT) {
+      Hi = B.buildConstant({RB, S32}, 0);
+    } else {
+      // Replicate sign bit from 32-bit extended part.
+      auto ShiftAmt = B.buildConstant({RB, S32}, 31);
+      Hi = B.buildAShr({RB, S32}, MI.getOperand(1).getReg(), ShiftAmt);
+    }
+
+    B.buildMergeLikeInstr(MI.getOperand(0).getReg(),
+                          {MI.getOperand(1).getReg(), Hi});
+    MI.eraseFromParent();
+    return;
+  }
+  case UniCstExt: {
+    uint64_t ConstVal = MI.getOperand(1).getCImm()->getZExtValue();
+    B.buildConstant(MI.getOperand(0).getReg(), ConstVal);
+
+    MI.eraseFromParent();
+    return;
+  }
+  case VgprToVccCopy: {
+    Register Src = MI.getOperand(1).getReg();
+    LLT Ty = MRI.getType(Src);
+    // Take lowest bit from each lane and put it in lane mask.
+    // Lowering via compare, but we need to clean high bits first as compare
+    // compares all bits in register.
+    Register BoolSrc = MRI.createVirtualRegister({VgprRB, Ty});
+    if (Ty == S64) {
+      auto Src64 = B.buildUnmerge({VgprRB, Ty}, Src);
+      auto One = B.buildConstant(VgprRB_S32, 1);
+      auto AndLo = B.buildAnd(VgprRB_S32, Src64.getReg(0), One);
+      auto Zero = B.buildConstant(VgprRB_S32, 0);
+      auto AndHi = B.buildAnd(VgprRB_S32, Src64.getReg(1), Zero);
+      B.buildMergeLikeInstr(BoolSrc, {AndLo, AndHi});
+    } else {
+      assert(Ty == S32 || Ty == S16);
+      auto One = B.buildConstant({VgprRB, Ty}, 1);
+      B.buildAnd(BoolSrc, Src, One);
+    }
+    auto Zero = B.buildConstant({VgprRB, Ty}, 0);
+    B.buildICmp(CmpInst::ICMP_NE, MI.getOperand(0).getReg(), BoolSrc, Zero);
+    MI.eraseFromParent();
+    return;
+  }
+  case SplitTo32: {
+    auto Op1 = B.buildUnmerge(VgprRB_S32, MI.getOperand(1).getReg());
+    auto Op2 = B.buildUnmerge(VgprRB_S32, MI.getOperand(2).getReg());
+    unsigned Opc = MI.getOpcode();
+    auto Lo = B.buildInstr(Opc, {VgprRB_S32}, {Op1.getReg(0), Op2.getReg(0)});
+    auto Hi = B.buildInstr(Opc, {VgprRB_S32}, {Op1.getReg(1), Op2.getReg(1)});
+    B.buildMergeLikeInstr(MI.getOperand(0).getReg(), {Lo, Hi});
+    MI.eraseFromParent();
+    break;
+  }
+  case SplitLoad: {
+    LLT DstTy = MRI.getType(MI.getOperand(0).getReg());
+    unsigned Size = DstTy.getSizeInBits();
+    // Even split to 128-bit loads
+    if (Size > 128) {
+      LLT B128;
+      if (DstTy.isVector()) {
+        LLT EltTy = DstTy.getElementType();
+        B128 = LLT::fixed_vector(128 / EltTy.getSizeInBits(), EltTy);
+      } else {
+        B128 = LLT::scalar(128);
+      }
+      if (Size / 128 == 2)
+        splitLoad(MI, {B128, B128});
+      else if (Size / 128 == 4)
+        splitLoad(MI, {B128, B128, B128, B128});
+      else {
+        LLVM_DEBUG(dbgs() << "MI: "; MI.dump(););
+        llvm_unreachable("SplitLoad type not supported for MI");
+      }
+    }
+    // 64 and 32 bit load
+    else if (DstTy == S96)
+      splitLoad(MI, {S64, S32}, S32);
+    else if (DstTy == V3S32)
+      splitLoad(MI, {V2S32, S32}, S32);
+    else if (DstTy == V6S16)
+      splitLoad(MI, {V4S16, V2S16}, V2S16);
+    else {
+      LLVM_DEBUG(dbgs() << "MI: "; MI.dump(););
+      llvm_unreachable("SplitLoad type not supported for MI");
+    }
+    break;
+  }
+  case WidenLoad: {
+    LLT DstTy = MRI.getType(MI.getOperand(0).getReg());
+    if (DstTy == S96)
+      widenLoad(MI, S128);
+    else if (DstTy == V3S32)
+      widenLoad(MI, V4S32, S32);
+    else if (DstTy == V6S16)
+      widenLoad(MI, V8S16, V2S16);
+    else {
+      LLVM_DEBUG(dbgs() << "MI: "; MI.dump(););
+      llvm_unreachable("WidenLoad type not supported for MI");
+    }
+    break;
+  }
+  }
+
+  // TODO: executeInWaterfallLoop(... WaterfallSgprs)
+}
+
+LLT RegBankLegalizeHelper::getTyFromID(RegBankLLTMappingApplyID ID) {
+  switch (ID) {
+  case Vcc:
+  case UniInVcc:
+    return LLT::scalar(1);
+  case Sgpr16:
+    return LLT::scalar(16);
+  case Sgpr32:
+  case Sgpr32Trunc:
+  case Sgpr32AExt:
+  case Sgpr32AExtBoolInReg:
+  case Sgpr32SExt:
+  case UniInVgprS32:
+  case Vgpr32:
+    return LLT::scalar(32);
+  case Sgpr64:
+  case Vgpr64:
+    return LLT::scalar(64);
+  case SgprP1:
+  case VgprP1:
+    return LLT::pointer(1, 64);
+  case SgprP3:
+  case VgprP3:
+    return LLT::pointer(3, 32);
+  case SgprP4:
+  case VgprP4:
+    return LLT::pointer(4, 64);
+  case SgprP5:
+  case VgprP5:
+    return LLT::pointer(5, 32);
+  case SgprV4S32:
+  case VgprV4S32:
+  case UniInVgprV4S32:
+    return LLT::fixed_vector(4, 32);
+  default:
+    return LLT();
+  }
+}
+
+LLT RegBankLegalizeHelper::getBTyFromID(RegBankLLTMappingApplyID ID, LLT Ty) {
+  switch (ID) {
+  case SgprB32:
+  case VgprB32:
+  case UniInVgprB32:
+    if (Ty == LLT::scalar(32) || Ty == LLT::fixed_vector(2, 16) ||
+        Ty == LLT::pointer(3, 32) || Ty == LLT::pointer(5, 32) ||
+        Ty == LLT::pointer(6, 32))
+      return Ty;
+    return LLT();
+  case SgprB64:
+  case VgprB64:
+  case UniInVgprB64:
+    if (Ty == LLT::scalar(64) || Ty == LLT::fixed_vector(2, 32) ||
+        Ty == LLT::fixed_vector(4, 16) || Ty == LLT::pointer(0, 64) ||
+        Ty == LLT::pointer(1, 64) || Ty == LLT::pointer(4, 64))
+      return Ty;
+    return LLT();
+  case SgprB96:
+  case VgprB96:
+  case UniInVgprB96:
+    if (Ty == LLT::scalar(96) || Ty == LLT::fixed_vector(3, 32) ||
+        Ty == LLT::fixed_vector(6, 16))
+      return Ty;
+    return LLT();
+  case SgprB128:
+  case VgprB128:
+  case UniInVgprB128:
+    if (Ty == LLT::scalar(128) || Ty == LLT::fixed_vector(4, 32) ||
+        Ty == LLT::fixed_vector(2, 64))
+      return Ty;
+    return LLT();
+  case SgprB256:
+  case VgprB256:
+  case UniInVgprB256:
+    if (Ty == LLT::scalar(256) || Ty == LLT::fixed_vector(8, 32) ||
+        Ty == LLT::fixed_vector(4, 64) || Ty == LLT::fixed_vector(16, 16))
+      return Ty;
+    return LLT();
+  case SgprB512:
+  case VgprB512:
+  case UniInVgprB512:
+    if (Ty == LLT::scalar(512) || Ty == LLT::fixed_vector(16, 32) ||
+        Ty == LLT::fixed_vector(8, 64))
+      return Ty;
+    return LLT();
+  default:
+    return LLT();
+  }
+}
+
+const RegisterBank *
+RegBankLegalizeHelper::getRegBankFromID(RegBankLLTMappingApplyID ID) {
+  switch (ID) {
+  case Vcc:
+    return VccRB;
+  case Sgpr16:
+  case Sgpr32:
+  case Sgpr64:
+  case SgprP1:
+  case SgprP3:
+  case SgprP4:
+  case SgprP5:
+  case SgprV4S32:
+  case SgprB32:
+  case SgprB64:
+  case SgprB96:
+  case SgprB128:
+  case SgprB256:
+  case SgprB512:
+  case UniInVcc:
+  case UniInVgprS32:
+  case UniInVgprV4S32:
+  case UniInVgprB32:
+  case UniInVgprB64:
+  case UniInVgprB96:
+  case UniInVgprB128:
+  case UniInVgprB256:
+  case UniInVgprB512:
+  case Sgpr32Trunc:
+  case Sgpr32AExt:
+  case Sgpr32AExtBoolInReg:
+  case Sgpr32SExt:
+    return SgprRB;
+  case Vgpr32:
+  case Vgpr64:
+  case VgprP1:
+  case VgprP3:
+  case VgprP4:
+  case VgprP5:
+  case VgprV4S32:
+  case VgprB32:
+  case VgprB64:
+  case VgprB96:
+  case VgprB128:
+  case VgprB256:
+  case VgprB512:
+    return VgprRB;
+  default:
+    return nullptr;
+  }
+}
+
+void RegBankLegalizeHelper::applyMappingDst(
+    MachineInstr &MI, unsigned &OpIdx,
+    const SmallVectorImpl<RegBankLLTMappingApplyID> &MethodIDs) {
+  // Defs start from operand 0
+  for (; OpIdx < MethodIDs.size(); ++OpIdx) {
+    if (MethodIDs[OpIdx] == None)
+      continue;
+    MachineOperand &Op = MI.getOperand(OpIdx);
+    Register Reg = Op.getReg();
+    LLT Ty = MRI.getType(Reg);
+    [[maybe_unused]] const RegisterBank *RB = MRI.getRegBank(Reg);
+
+    switch (MethodIDs[OpIdx]) {
+    // vcc, sgpr and vgpr scalars, pointers and vectors
+    case Vcc:
+    case Sgpr16:
+    case Sgpr32:
+    case Sgpr64:
+    case SgprP1:
+    case SgprP3:
+    case SgprP4:
+    case SgprP5:
+    case SgprV4S32:
+    case Vgpr32:
+    case Vgpr64:
+    case VgprP1:
+    case VgprP3:
+    case VgprP4:
+    case VgprP5:
+    case VgprV4S32: {
+      assert(Ty == getTyFromID(MethodIDs[OpIdx]));
+      assert(RB == getRegBankFromID(MethodIDs[OpIdx]));
+      break;
+    }
+    // sgpr and vgpr B-types
+    case SgprB32:
+    case SgprB64:
+    case SgprB96:
+    case SgprB128:
+    case SgprB256:
+    case SgprB512:
+    case VgprB32:
+    case VgprB64:
+    case VgprB96:
+    case VgprB128:
+    case VgprB256:
+    case VgprB512: {
+      assert(Ty == getBTyFromID(MethodIDs[OpIdx], Ty));
+      assert(RB == getRegBankFromID(MethodIDs[OpIdx]));
+      break;
+    }
+    // uniform in vcc/vgpr: scalars, vectors and B-types
+    case UniInVcc: {
+      assert(Ty == S1);
+      assert(RB == SgprRB);
+      Register NewDst = MRI.createVirtualRegister(VccRB_S1);
+      Op.setReg(NewDst);
+      auto CopyS32_Vcc =
+          B.buildInstr(AMDGPU::G_AMDGPU_COPY_SCC_VCC, {SgprRB_S32}, {NewDst});
+      B.buildTrunc(Reg, CopyS32_Vcc);
+      break;
+    }
+    case UniInVgprS32:
+    case UniInVgprV4S32: {
+      assert(Ty == getTyFromID(MethodIDs[OpIdx]));
+      assert(RB == SgprRB);
+      Register NewVgprDst = MRI.createVirtualRegister({VgprRB, Ty});
+      Op.setReg(NewVgprDst);
+      buildReadAnyLane(B, Reg, NewVgprDst, RBI);
+      break;
+    }
+    case UniInVgprB32:
+    case UniInVgprB64:
+    case UniInVgprB96:
+    case UniInVgprB128:
+    case UniInVgprB256:
+    case UniInVgprB512: {
+      assert(Ty == getBTyFromID(MethodIDs[OpIdx], Ty));
+      assert(RB == SgprRB);
+      Register NewVgprDst = MRI.createVirtualRegister({VgprRB, Ty});
+      Op.setReg(NewVgprDst);
+      AMDGPU::buildReadAnyLane(B, Reg, NewVgprDst, RBI);
+      break;
+    }
+    // sgpr trunc
+    case Sgpr32Trunc: {
+      assert(Ty.getSizeInBits() < 32);
+      assert(RB == SgprRB);
+      Register NewDst = MRI.createVirtualRegister(SgprRB_S32);
+      Op.setReg(NewDst);
+      B.buildTrunc(Reg, NewDst);
+      break;
+    }
+    case InvalidMapping: {
+      LLVM_DEBUG(dbgs() << "Instruction with Invalid mapping: "; MI.dump(););
+      llvm_unreachable("missing fast rule for MI");
+    }
+    default:
+      llvm_unreachable("ID not supported");
+    }
+  }
+}
+
+void RegBankLegalizeHelper::applyMappingSrc(
+    MachineInstr &MI, unsigned &OpIdx,
+    const SmallVectorImpl<RegBankLLTMappingApplyID> &MethodIDs,
+    SmallSet<Register, 4> &SgprWaterfallOperandRegs) {
+  for (unsigned i = 0; i < MethodIDs.size(); ++OpIdx, ++i) {
+    if (MethodIDs[i] == None || MethodIDs[i] == IntrId || MethodIDs[i] == Imm)
+      continue;
+
+    MachineOperand &Op = MI.getOperand(OpIdx);
+    Register Reg = Op.getReg();
+    LLT Ty = MRI.getType(Reg);
+    const RegisterBank *RB = MRI.getRegBank(Reg);
+
+    switch (MethodIDs[i]) {
+    case Vcc: {
+      assert(Ty == S1);
+      assert(RB == VccRB || RB == SgprRB);
+      if (RB == SgprRB) {
+        auto Aext = B.buildAnyExt(SgprRB_S32, Reg);
+        auto CopyVcc_Scc =
+            B.buildInstr(AMDGPU::G_AMDGPU_COPY_VCC_SCC, {VccRB_S1}, {Aext});
+        Op.setReg(CopyVcc_Scc.getReg(0));
+      }
+      break;
+    }
+    // sgpr scalars, pointers and vectors
+    case Sgpr16:
+    case Sgpr32:
+    case Sgpr64:
+    case SgprP1:
+    case SgprP3:
+    case SgprP4:
+    case SgprP5:
+    case SgprV4S32: {
+      assert(Ty == getTyFromID(MethodIDs[i]));
+      assert(RB == getRegBankFromID(MethodIDs[i]));
+      break;
+    }
+    // sgpr B-types
+    case SgprB32:
+    case SgprB64:
+    case SgprB96:
+    case SgprB128:
+    case SgprB256:
+    case SgprB512: {
+      assert(Ty == getBTyFromID(MethodIDs[i], Ty));
+      assert(RB == getRegBankFromID(MethodIDs[i]));
+      break;
+    }
+    // vgpr scalars, pointers and vectors
+    case Vgpr32:
+    case Vgpr64:
+    case VgprP1:
+    case VgprP3:
+    case VgprP4:
+    case VgprP5:
+    case VgprV4S32: {
+      assert(Ty == getTyFromID(MethodIDs[i]));
+      if (RB != VgprRB) {
+        auto CopyToVgpr = B.buildCopy({VgprRB, Ty}, Reg);
+        Op.setReg(CopyToVgpr.getReg(0));
+      }
+      break;
+    }
+    // vgpr B-types
+    case VgprB32:
+    case VgprB64:
+    case VgprB96:
+    case VgprB128:
+    case VgprB256:
+    case VgprB512: {
+      assert(Ty == getBTyFromID(MethodIDs[i], Ty));
+      if (RB != VgprRB) {
+        auto CopyToVgpr = B.buildCopy({VgprRB, Ty}, Reg);
+        Op.setReg(CopyToVgpr.getReg(0));
+      }
+      break;
+    }
+    // sgpr and vgpr scalars with extend
+    case Sgpr32AExt: {
+      // Note: this ext allows S1, and it is meant to be combined away.
+      assert(Ty.getSizeInBits() < 32);
+      assert(RB == SgprRB);
+      auto Aext = B.buildAnyExt(SgprRB_S32, Reg);
+      Op.setReg(Aext.getReg(0));
+      break;
+    }
+    case Sgpr32AExtBoolInReg: {
+      // Note: this ext allows S1, and it is meant to be combined away.
+      assert(Ty.getSizeInBits() == 1);
+      assert(RB == SgprRB);
+      auto Aext = B.buildAnyExt(SgprRB_S32, Reg);
+      // Zext SgprS1 is not legal, this instruction is most of times meant to be
+      // combined away in RB combiner, so do not make AND with 1.
+      auto Cst1 = B.buildConstant(SgprRB_S32, 1);
+      auto BoolInReg = B.buildAnd(SgprRB_S32, Aext, Cst1);
+      Op.setReg(BoolInReg.getReg(0));
+      break;
+    }
+    case Sgpr32SExt: {
+      assert(1 < Ty.getSizeInBits() && Ty.getSizeInBits() < 32);
+      assert(RB == SgprRB);
+      auto Sext = B.buildSExt(SgprRB_S32, Reg);
+      Op.setReg(Sext.getReg(0));
+      break;
+    }
+    default:
+      llvm_unreachable("ID not supported");
+    }
+  }
+}
+
+void RegBankLegalizeHelper::applyMappingPHI(MachineInstr &MI) {
+  Register Dst = MI.getOperand(0).getReg();
+  LLT Ty = MRI.getType(Dst);
+
+  if (Ty == LLT::scalar(1) && MUI.isUniform(Dst)) {
+    B.setInsertPt(*MI.getParent(), MI.getParent()->getFirstNonPHI());
+
+    Register NewDst = MRI.createVirtualRegister(SgprRB_S32);
+    MI.getOperand(0).setReg(NewDst);
+    B.buildTrunc(Dst, NewDst);
+
+    for (unsigned i = 1; i < MI.getNumOperands(); i += 2) {
+      Register UseReg = MI.getOperand(i).getReg();
+
+      auto DefMI = MRI.getVRegDef(UseReg)->getIterator();
+      MachineBasicBlock *DefMBB = DefMI->getParent();
+
+      B.setInsertPt(*DefMBB, DefMBB->SkipPHIsAndLabels(std::next(DefMI)));
+
+      auto NewUse = B.buildAnyExt(SgprRB_S32, UseReg);
+      MI.getOperand(i).setReg(NewUse.getReg(0));
+    }
+
+    return;
+  }
+
+  // ALL divergent i1 phis should be already lowered and inst-selected into PHI
+  // with sgpr reg class and S1 LLT.
+  // Note: this includes divergent phis that don't require lowering.
+  if (Ty == LLT::scalar(1) && MUI.isDivergent(Dst)) {
+    LLVM_DEBUG(dbgs() << "Divergent S1 G_PHI: "; MI.dump(););
+    llvm_unreachable("Make sure to run AMDGPUGlobalISelDivergenceLowering "
+                     "before RegBankLegalize to lower lane mask(vcc) phis");
+  }
+
+  // We accept all types that can fit in some register class.
+  // Uniform G_PHIs have all sgpr registers.
+  // Divergent G_PHIs have vgpr dst but inputs can be sgpr or vgpr.
+  if (Ty == LLT::scalar(32) || Ty == LLT::pointer(4, 64)) {
+    return;
+  }
+
+  LLVM_DEBUG(dbgs() << "G_PHI not handled: "; MI.dump(););
+  llvm_unreachable("type not supported");
+}
+
+[[maybe_unused]] static bool verifyRegBankOnOperands(MachineInstr &MI,
+                                                     const RegisterBank *RB,
+                                                     MachineRegisterInfo &MRI,
+                                                     unsigned StartOpIdx,
+                                                     unsigned EndOpIdx) {
+  for (unsigned i = StartOpIdx; i <= EndOpIdx; ++i) {
+    if (MRI.getRegBankOrNull(MI.getOperand(i).getReg()) != RB)
+      return false;
+  }
+  return true;
+}
+
+void RegBankLegalizeHelper::applyMappingTrivial(MachineInstr &MI) {
+  const RegisterBank *RB = MRI.getRegBank(MI.getOperand(0).getReg());
+  // Put RB on all registers
+  unsigned NumDefs = MI.getNumDefs();
+  unsigned NumOperands = MI.getNumOperands();
+
+  assert(verifyRegBankOnOperands(MI, RB, MRI, 0, NumDefs - 1));
+  if (RB == SgprRB)
+    assert(verifyRegBankOnOperands(MI, RB, MRI, NumDefs, NumOperands - 1));
+
+  if (RB == VgprRB) {
+    B.setInstr(MI);
+    for (unsigned i = NumDefs; i < NumOperands; ++i) {
+      Register Reg = MI.getOperand(i).getReg();
+      if (MRI.getRegBank(Reg) != RB) {
+        auto Copy = B.buildCopy({VgprRB, MRI.getType(Reg)}, Reg);
+        MI.getOperand(i).setReg(Copy.getReg(0));
+      }
+    }
+  }
+}
diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeHelper.h b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeHelper.h
new file mode 100644
index 0000000000000..ae3ab86449dd5
--- /dev/null
+++ b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeHelper.h
@@ -0,0 +1,116 @@
+//===- AMDGPURegBankLegalizeHelper ------------------------------*- C++ -*-===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#ifndef LLVM_LIB_TARGET_AMDGPU_AMDGPUREGBANKLEGALIZEHELPER_H
+#define LLVM_LIB_TARGET_AMDGPU_AMDGPUREGBANKLEGALIZEHELPER_H
+
+#include "AMDGPURegBankLegalizeRules.h"
+#include "llvm/ADT/SmallSet.h"
+#include "llvm/CodeGen/MachineRegisterInfo.h"
+
+namespace llvm {
+
+class MachineIRBuilder;
+
+namespace AMDGPU {
+
+// Receives list of RegBankLLTMappingApplyID and applies register banks on all
+// operands. It is user's responsibility to provide RegBankLLTMappingApplyIDs
+// for all register operands, there is no need to specify NonReg for trailing
+// imm operands. This finishes selection of register banks if there is no need
+// to replace instruction. In other case InstApplyMethod will create new
+// instruction(s).
+class RegBankLegalizeHelper {
+  MachineIRBuilder &B;
+  MachineRegisterInfo &MRI;
+  const MachineUniformityInfo &MUI;
+  const RegisterBankInfo &RBI;
+  const RegBankLegalizeRules &RBLRules;
+  const RegisterBank *SgprRB;
+  const RegisterBank *VgprRB;
+  const RegisterBank *VccRB;
+
+  static constexpr LLT S1 = LLT::scalar(1);
+  static constexpr LLT S16 = LLT::scalar(16);
+  static constexpr LLT S32 = LLT::scalar(32);
+  static constexpr LLT S64 = LLT::scalar(64);
+  static constexpr LLT S96 = LLT::scalar(96);
+  static constexpr LLT S128 = LLT::scalar(128);
+  static constexpr LLT S256 = LLT::scalar(256);
+
+  static constexpr LLT V2S16 = LLT::fixed_vector(2, 16);
+  static constexpr LLT V4S16 = LLT::fixed_vector(4, 16);
+  static constexpr LLT V6S16 = LLT::fixed_vector(6, 16);
+  static constexpr LLT V8S16 = LLT::fixed_vector(8, 16);
+  static constexpr LLT V16S16 = LLT::fixed_vector(16, 16);
+  static constexpr LLT V32S16 = LLT::fixed_vector(32, 16);
+
+  static constexpr LLT V2S32 = LLT::fixed_vector(2, 32);
+  static constexpr LLT V3S32 = LLT::fixed_vector(3, 32);
+  static constexpr LLT V4S32 = LLT::fixed_vector(4, 32);
+  static constexpr LLT V6S32 = LLT::fixed_vector(6, 32);
+  static constexpr LLT V7S32 = LLT::fixed_vector(7, 32);
+  static constexpr LLT V8S32 = LLT::fixed_vector(8, 32);
+  static constexpr LLT V16S32 = LLT::fixed_vector(16, 32);
+
+  static constexpr LLT V2S64 = LLT::fixed_vector(2, 64);
+  static constexpr LLT V3S64 = LLT::fixed_vector(3, 64);
+  static constexpr LLT V4S64 = LLT::fixed_vector(4, 64);
+  static constexpr LLT V8S64 = LLT::fixed_vector(8, 64);
+  static constexpr LLT V16S64 = LLT::fixed_vector(16, 64);
+
+  static constexpr LLT P1 = LLT::pointer(1, 64);
+  static constexpr LLT P4 = LLT::pointer(4, 64);
+  static constexpr LLT P6 = LLT::pointer(6, 32);
+
+  MachineRegisterInfo::VRegAttrs SgprRB_S32 = {SgprRB, S32};
+  MachineRegisterInfo::VRegAttrs VgprRB_S32 = {VgprRB, S32};
+  MachineRegisterInfo::VRegAttrs VccRB_S1 = {VccRB, S1};
+
+public:
+  RegBankLegalizeHelper(MachineIRBuilder &B, const MachineUniformityInfo &MUI,
+                        const RegisterBankInfo &RBI,
+                        const RegBankLegalizeRules &RBLRules);
+
+  void findRuleAndApplyMapping(MachineInstr &MI);
+
+  // Manual apply helpers.
+  void applyMappingPHI(MachineInstr &MI);
+  void applyMappingTrivial(MachineInstr &MI);
+
+private:
+  bool executeInWaterfallLoop(MachineIRBuilder &B,
+                              iterator_range<MachineBasicBlock::iterator> Range,
+                              SmallSet<Register, 4> &SgprOperandRegs);
+
+  LLT getTyFromID(RegBankLLTMappingApplyID ID);
+  LLT getBTyFromID(RegBankLLTMappingApplyID ID, LLT Ty);
+
+  const RegisterBank *getRegBankFromID(RegBankLLTMappingApplyID ID);
+
+  void
+  applyMappingDst(MachineInstr &MI, unsigned &OpIdx,
+                  const SmallVectorImpl<RegBankLLTMappingApplyID> &MethodIDs);
+
+  void
+  applyMappingSrc(MachineInstr &MI, unsigned &OpIdx,
+                  const SmallVectorImpl<RegBankLLTMappingApplyID> &MethodIDs,
+                  SmallSet<Register, 4> &SgprWaterfallOperandRegs);
+
+  void splitLoad(MachineInstr &MI, ArrayRef<LLT> LLTBreakdown,
+                 LLT MergeTy = LLT());
+  void widenLoad(MachineInstr &MI, LLT WideTy, LLT MergeTy = LLT());
+
+  void lower(MachineInstr &MI, const RegBankLLTMapping &Mapping,
+             SmallSet<Register, 4> &SgprWaterfallOperandRegs);
+};
+
+} // end namespace AMDGPU
+} // end namespace llvm
+
+#endif
diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeRules.cpp b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeRules.cpp
new file mode 100644
index 0000000000000..f293b3aba7b79
--- /dev/null
+++ b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeRules.cpp
@@ -0,0 +1,594 @@
+//===-- AMDGPURegBankLegalizeRules.cpp ------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+//
+/// Definitions of RegBankLegalize Rules for all opcodes.
+/// Implementation of container for all the Rules and search.
+/// Fast search for most common case when Rule.Predicate checks LLT and
+/// uniformity of register in operand 0.
+//
+//===----------------------------------------------------------------------===//
+
+#include "AMDGPURegBankLegalizeRules.h"
+#include "AMDGPUInstrInfo.h"
+#include "GCNSubtarget.h"
+#include "llvm/CodeGen/GlobalISel/GenericMachineInstrs.h"
+#include "llvm/CodeGen/MachineUniformityAnalysis.h"
+#include "llvm/IR/IntrinsicsAMDGPU.h"
+#include "llvm/Support/AMDGPUAddrSpace.h"
+
+#define DEBUG_TYPE "amdgpu-regbanklegalize"
+
+using namespace llvm;
+using namespace AMDGPU;
+
+RegBankLLTMapping::RegBankLLTMapping(
+    std::initializer_list<RegBankLLTMappingApplyID> DstOpMappingList,
+    std::initializer_list<RegBankLLTMappingApplyID> SrcOpMappingList,
+    LoweringMethodID LoweringMethod)
+    : DstOpMapping(DstOpMappingList), SrcOpMapping(SrcOpMappingList),
+      LoweringMethod(LoweringMethod) {}
+
+PredicateMapping::PredicateMapping(
+    std::initializer_list<UniformityLLTOpPredicateID> OpList,
+    std::function<bool(const MachineInstr &)> TestFunc)
+    : OpUniformityAndTypes(OpList), TestFunc(TestFunc) {}
+
+bool matchUniformityAndLLT(Register Reg, UniformityLLTOpPredicateID UniID,
+                           const MachineUniformityInfo &MUI,
+                           const MachineRegisterInfo &MRI) {
+  switch (UniID) {
+  case S1:
+    return MRI.getType(Reg) == LLT::scalar(1);
+  case S16:
+    return MRI.getType(Reg) == LLT::scalar(16);
+  case S32:
+    return MRI.getType(Reg) == LLT::scalar(32);
+  case S64:
+    return MRI.getType(Reg) == LLT::scalar(64);
+  case P1:
+    return MRI.getType(Reg) == LLT::pointer(1, 64);
+  case P3:
+    return MRI.getType(Reg) == LLT::pointer(3, 32);
+  case P4:
+    return MRI.getType(Reg) == LLT::pointer(4, 64);
+  case P5:
+    return MRI.getType(Reg) == LLT::pointer(5, 32);
+  case B32:
+    return MRI.getType(Reg).getSizeInBits() == 32;
+  case B64:
+    return MRI.getType(Reg).getSizeInBits() == 64;
+  case B96:
+    return MRI.getType(Reg).getSizeInBits() == 96;
+  case B128:
+    return MRI.getType(Reg).getSizeInBits() == 128;
+  case B256:
+    return MRI.getType(Reg).getSizeInBits() == 256;
+  case B512:
+    return MRI.getType(Reg).getSizeInBits() == 512;
+  case UniS1:
+    return MRI.getType(Reg) == LLT::scalar(1) && MUI.isUniform(Reg);
+  case UniS16:
+    return MRI.getType(Reg) == LLT::scalar(16) && MUI.isUniform(Reg);
+  case UniS32:
+    return MRI.getType(Reg) == LLT::scalar(32) && MUI.isUniform(Reg);
+  case UniS64:
+    return MRI.getType(Reg) == LLT::scalar(64) && MUI.isUniform(Reg);
+  case UniP1:
+    return MRI.getType(Reg) == LLT::pointer(1, 64) && MUI.isUniform(Reg);
+  case UniP3:
+    return MRI.getType(Reg) == LLT::pointer(3, 32) && MUI.isUniform(Reg);
+  case UniP4:
+    return MRI.getType(Reg) == LLT::pointer(4, 64) && MUI.isUniform(Reg);
+  case UniP5:
+    return MRI.getType(Reg) == LLT::pointer(5, 32) && MUI.isUniform(Reg);
+  case UniB32:
+    return MRI.getType(Reg).getSizeInBits() == 32 && MUI.isUniform(Reg);
+  case UniB64:
+    return MRI.getType(Reg).getSizeInBits() == 64 && MUI.isUniform(Reg);
+  case UniB96:
+    return MRI.getType(Reg).getSizeInBits() == 96 && MUI.isUniform(Reg);
+  case UniB128:
+    return MRI.getType(Reg).getSizeInBits() == 128 && MUI.isUniform(Reg);
+  case UniB256:
+    return MRI.getType(Reg).getSizeInBits() == 256 && MUI.isUniform(Reg);
+  case UniB512:
+    return MRI.getType(Reg).getSizeInBits() == 512 && MUI.isUniform(Reg);
+  case DivS1:
+    return MRI.getType(Reg) == LLT::scalar(1) && MUI.isDivergent(Reg);
+  case DivS32:
+    return MRI.getType(Reg) == LLT::scalar(32) && MUI.isDivergent(Reg);
+  case DivS64:
+    return MRI.getType(Reg) == LLT::scalar(64) && MUI.isDivergent(Reg);
+  case DivP1:
+    return MRI.getType(Reg) == LLT::pointer(1, 64) && MUI.isDivergent(Reg);
+  case DivP3:
+    return MRI.getType(Reg) == LLT::pointer(3, 32) && MUI.isDivergent(Reg);
+  case DivP4:
+    return MRI.getType(Reg) == LLT::pointer(4, 64) && MUI.isDivergent(Reg);
+  case DivP5:
+    return MRI.getType(Reg) == LLT::pointer(5, 32) && MUI.isDivergent(Reg);
+  case DivB32:
+    return MRI.getType(Reg).getSizeInBits() == 32 && MUI.isDivergent(Reg);
+  case DivB64:
+    return MRI.getType(Reg).getSizeInBits() == 64 && MUI.isDivergent(Reg);
+  case DivB96:
+    return MRI.getType(Reg).getSizeInBits() == 96 && MUI.isDivergent(Reg);
+  case DivB128:
+    return MRI.getType(Reg).getSizeInBits() == 128 && MUI.isDivergent(Reg);
+  case DivB256:
+    return MRI.getType(Reg).getSizeInBits() == 256 && MUI.isDivergent(Reg);
+  case DivB512:
+    return MRI.getType(Reg).getSizeInBits() == 512 && MUI.isDivergent(Reg);
+  case _:
+    return true;
+  default:
+    llvm_unreachable("missing matchUniformityAndLLT");
+  }
+}
+
+bool PredicateMapping::match(const MachineInstr &MI,
+                             const MachineUniformityInfo &MUI,
+                             const MachineRegisterInfo &MRI) const {
+  // Check LLT signature.
+  for (unsigned i = 0; i < OpUniformityAndTypes.size(); ++i) {
+    if (OpUniformityAndTypes[i] == _) {
+      if (MI.getOperand(i).isReg())
+        return false;
+      continue;
+    }
+
+    // Remaining IDs check registers.
+    if (!MI.getOperand(i).isReg())
+      return false;
+
+    if (!matchUniformityAndLLT(MI.getOperand(i).getReg(),
+                               OpUniformityAndTypes[i], MUI, MRI))
+      return false;
+  }
+
+  // More complex check.
+  if (TestFunc)
+    return TestFunc(MI);
+
+  return true;
+}
+
+SetOfRulesForOpcode::SetOfRulesForOpcode() {}
+
+SetOfRulesForOpcode::SetOfRulesForOpcode(FastRulesTypes FastTypes)
+    : FastTypes(FastTypes) {}
+
+UniformityLLTOpPredicateID LLTToId(LLT Ty) {
+  if (Ty == LLT::scalar(16))
+    return S16;
+  if (Ty == LLT::scalar(32))
+    return S32;
+  if (Ty == LLT::scalar(64))
+    return S64;
+  if (Ty == LLT::fixed_vector(2, 16))
+    return V2S16;
+  if (Ty == LLT::fixed_vector(2, 32))
+    return V2S32;
+  if (Ty == LLT::fixed_vector(3, 32))
+    return V3S32;
+  if (Ty == LLT::fixed_vector(4, 32))
+    return V4S32;
+  return _;
+}
+
+UniformityLLTOpPredicateID LLTToBId(LLT Ty) {
+  if (Ty == LLT::scalar(32) || Ty == LLT::fixed_vector(2, 16) ||
+      Ty == LLT::pointer(3, 32) || Ty == LLT::pointer(5, 32) ||
+      Ty == LLT::pointer(6, 32))
+    return B32;
+  if (Ty == LLT::scalar(64) || Ty == LLT::fixed_vector(2, 32) ||
+      Ty == LLT::fixed_vector(4, 16) || Ty == LLT::pointer(1, 64) ||
+      Ty == LLT::pointer(4, 64))
+    return B64;
+  if (Ty == LLT::fixed_vector(3, 32))
+    return B96;
+  if (Ty == LLT::fixed_vector(4, 32))
+    return B128;
+  return _;
+}
+
+const RegBankLLTMapping &
+SetOfRulesForOpcode::findMappingForMI(const MachineInstr &MI,
+                                      const MachineRegisterInfo &MRI,
+                                      const MachineUniformityInfo &MUI) const {
+  // Search in "Fast Rules".
+  // Note: if fast rules are enabled, RegBankLLTMapping must be added in each
+  // slot that could "match fast Predicate". If not, InvalidMapping is
+  // returned which results in failure, does not search "Slow Rules".
+  if (FastTypes != NoFastRules) {
+    Register Reg = MI.getOperand(0).getReg();
+    int Slot;
+    if (FastTypes == StandardB)
+      Slot = getFastPredicateSlot(LLTToBId(MRI.getType(Reg)));
+    else
+      Slot = getFastPredicateSlot(LLTToId(MRI.getType(Reg)));
+
+    if (Slot != -1)
+      return MUI.isUniform(Reg) ? Uni[Slot] : Div[Slot];
+  }
+
+  // Slow search for more complex rules.
+  for (const RegBankLegalizeRule &Rule : Rules) {
+    if (Rule.Predicate.match(MI, MUI, MRI))
+      return Rule.OperandMapping;
+  }
+
+  LLVM_DEBUG(dbgs() << "MI: "; MI.dump(););
+  llvm_unreachable("None of the rules defined for MI's opcode matched MI");
+}
+
+void SetOfRulesForOpcode::addRule(RegBankLegalizeRule Rule) {
+  Rules.push_back(Rule);
+}
+
+void SetOfRulesForOpcode::addFastRuleDivergent(UniformityLLTOpPredicateID Ty,
+                                               RegBankLLTMapping RuleApplyIDs) {
+  int Slot = getFastPredicateSlot(Ty);
+  assert(Slot != -1 && "Ty unsupported in this FastRulesTypes");
+  Div[Slot] = RuleApplyIDs;
+}
+
+void SetOfRulesForOpcode::addFastRuleUniform(UniformityLLTOpPredicateID Ty,
+                                             RegBankLLTMapping RuleApplyIDs) {
+  int Slot = getFastPredicateSlot(Ty);
+  assert(Slot != -1 && "Ty unsupported in this FastRulesTypes");
+  Uni[Slot] = RuleApplyIDs;
+}
+
+int SetOfRulesForOpcode::getFastPredicateSlot(
+    UniformityLLTOpPredicateID Ty) const {
+  switch (FastTypes) {
+  case Standard: {
+    switch (Ty) {
+    case S32:
+      return 0;
+    case S16:
+      return 1;
+    case S64:
+      return 2;
+    case V2S16:
+      return 3;
+    default:
+      return -1;
+    }
+  }
+  case StandardB: {
+    switch (Ty) {
+    case B32:
+      return 0;
+    case B64:
+      return 1;
+    case B96:
+      return 2;
+    case B128:
+      return 3;
+    default:
+      return -1;
+    }
+  }
+  case Vector: {
+    switch (Ty) {
+    case S32:
+      return 0;
+    case V2S32:
+      return 1;
+    case V3S32:
+      return 2;
+    case V4S32:
+      return 3;
+    default:
+      return -1;
+    }
+  }
+  default:
+    return -1;
+  }
+}
+
+RegBankLegalizeRules::RuleSetInitializer
+RegBankLegalizeRules::addRulesForGOpcs(std::initializer_list<unsigned> OpcList,
+                                       FastRulesTypes FastTypes) {
+  return RuleSetInitializer(OpcList, GRulesAlias, GRules, FastTypes);
+}
+
+RegBankLegalizeRules::RuleSetInitializer
+RegBankLegalizeRules::addRulesForIOpcs(std::initializer_list<unsigned> OpcList,
+                                       FastRulesTypes FastTypes) {
+  return RuleSetInitializer(OpcList, IRulesAlias, IRules, FastTypes);
+}
+
+const SetOfRulesForOpcode &
+RegBankLegalizeRules::getRulesForOpc(MachineInstr &MI) const {
+  unsigned Opc = MI.getOpcode();
+  if (Opc == AMDGPU::G_INTRINSIC || Opc == AMDGPU::G_INTRINSIC_CONVERGENT ||
+      Opc == AMDGPU::G_INTRINSIC_W_SIDE_EFFECTS ||
+      Opc == AMDGPU::G_INTRINSIC_CONVERGENT_W_SIDE_EFFECTS) {
+    unsigned IntrID = cast<GIntrinsic>(MI).getIntrinsicID();
+    if (!IRulesAlias.contains(IntrID)) {
+      LLVM_DEBUG(dbgs() << "MI: "; MI.dump(););
+      llvm_unreachable("No rules defined for intrinsic opcode");
+    }
+    return IRules.at(IRulesAlias.at(IntrID));
+  }
+
+  if (!GRulesAlias.contains(Opc)) {
+    LLVM_DEBUG(dbgs() << "MI: "; MI.dump(););
+    llvm_unreachable("No rules defined for generic opcode");
+  }
+  return GRules.at(GRulesAlias.at(Opc));
+}
+
+// Syntactic sugar wrapper for predicate lambda that enables '&&', '||' and '!'.
+class Predicate {
+private:
+  struct Elt {
+    // Save formula composed of Pred, '&&', '||' and '!' as a jump table.
+    // Sink ! to Pred. For example !((A && !B) || C) -> (!A || B) && !C
+    // Sequences of && and || will be represented by jumps, for example:
+    // (A && B && ... X) or (A && B && ... X) || Y
+    //   A == true jump to B
+    //   A == false jump to end or Y, result is A(false) or Y
+    // (A || B || ... X) or (A || B || ... X) && Y
+    //   A == true jump to end or Y, result is A(true) or Y
+    //   A == false jump to B
+    // Notice that when negating expression, we simply flip Neg on each Pred
+    // and swap TJumpOffset and FJumpOffset (&& becomes ||, || becomes &&).
+    std::function<bool(const MachineInstr &)> Pred;
+    bool Neg; // Neg of Pred is calculated before jump
+    unsigned TJumpOffset;
+    unsigned FJumpOffset;
+  };
+
+  SmallVector<Elt, 8> Expression;
+
+  Predicate(SmallVectorImpl<Elt> &&Expr) { Expression.swap(Expr); };
+
+public:
+  Predicate(std::function<bool(const MachineInstr &)> Pred) {
+    Expression.push_back({Pred, false, 1, 1});
+  };
+
+  bool operator()(const MachineInstr &MI) const {
+    unsigned Idx = 0;
+    unsigned ResultIdx = Expression.size();
+    bool Result;
+    do {
+      Result = Expression[Idx].Pred(MI);
+      Result = Expression[Idx].Neg ? !Result : Result;
+      if (Result) {
+        Idx += Expression[Idx].TJumpOffset;
+      } else {
+        Idx += Expression[Idx].FJumpOffset;
+      }
+    } while ((Idx != ResultIdx));
+
+    return Result;
+  };
+
+  Predicate operator!() const {
+    SmallVector<Elt, 8> NegExpression;
+    for (const Elt &ExprElt : Expression) {
+      NegExpression.push_back({ExprElt.Pred, !ExprElt.Neg, ExprElt.FJumpOffset,
+                               ExprElt.TJumpOffset});
+    }
+    return Predicate(std::move(NegExpression));
+  };
+
+  Predicate operator&&(const Predicate &RHS) const {
+    SmallVector<Elt, 8> AndExpression = Expression;
+
+    unsigned RHSSize = RHS.Expression.size();
+    unsigned ResultIdx = Expression.size();
+    for (unsigned i = 0; i < ResultIdx; ++i) {
+      // LHS results in false, whole expression results in false.
+      if (i + AndExpression[i].FJumpOffset == ResultIdx)
+        AndExpression[i].FJumpOffset += RHSSize;
+    }
+
+    AndExpression.append(RHS.Expression);
+
+    return Predicate(std::move(AndExpression));
+  }
+
+  Predicate operator||(const Predicate &RHS) const {
+    SmallVector<Elt, 8> OrExpression = Expression;
+
+    unsigned RHSSize = RHS.Expression.size();
+    unsigned ResultIdx = Expression.size();
+    for (unsigned i = 0; i < ResultIdx; ++i) {
+      // LHS results in true, whole expression results in true.
+      if (i + OrExpression[i].TJumpOffset == ResultIdx)
+        OrExpression[i].TJumpOffset += RHSSize;
+    }
+
+    OrExpression.append(RHS.Expression);
+
+    return Predicate(std::move(OrExpression));
+  }
+};
+
+// Initialize rules
+RegBankLegalizeRules::RegBankLegalizeRules(const GCNSubtarget &_ST,
+                                           MachineRegisterInfo &_MRI)
+    : ST(&_ST), MRI(&_MRI) {
+
+  addRulesForGOpcs({G_ADD}, Standard)
+      .Uni(S32, {{Sgpr32}, {Sgpr32, Sgpr32}})
+      .Div(S32, {{Vgpr32}, {Vgpr32, Vgpr32}});
+
+  addRulesForGOpcs({G_MUL}, Standard).Div(S32, {{Vgpr32}, {Vgpr32, Vgpr32}});
+
+  addRulesForGOpcs({G_XOR, G_OR, G_AND}, StandardB)
+      .Any({{UniS1}, {{Sgpr32Trunc}, {Sgpr32AExt, Sgpr32AExt}}})
+      .Any({{DivS1}, {{Vcc}, {Vcc, Vcc}}})
+      .Div(B64, {{VgprB64}, {VgprB64, VgprB64}, SplitTo32});
+
+  addRulesForGOpcs({G_SHL}, Standard)
+      .Uni(S64, {{Sgpr64}, {Sgpr64, Sgpr32}})
+      .Div(S64, {{Vgpr64}, {Vgpr64, Vgpr32}});
+
+  // Note: we only write S1 rules for G_IMPLICIT_DEF, G_CONSTANT, G_FCONSTANT
+  // and G_FREEZE here, rest is trivially regbankselected earlier
+  addRulesForGOpcs({G_CONSTANT})
+      .Any({{UniS1, _}, {{Sgpr32Trunc}, {None}, UniCstExt}});
+
+  addRulesForGOpcs({G_ICMP})
+      .Any({{UniS1, _, S32}, {{Sgpr32Trunc}, {None, Sgpr32, Sgpr32}}})
+      .Any({{DivS1, _, S32}, {{Vcc}, {None, Vgpr32, Vgpr32}}});
+
+  addRulesForGOpcs({G_FCMP})
+      .Any({{UniS1, _, S32}, {{UniInVcc}, {None, Vgpr32, Vgpr32}}})
+      .Any({{DivS1, _, S32}, {{Vcc}, {None, Vgpr32, Vgpr32}}});
+
+  addRulesForGOpcs({G_BRCOND})
+      .Any({{UniS1}, {{}, {Sgpr32AExtBoolInReg}}})
+      .Any({{DivS1}, {{}, {Vcc}}});
+
+  addRulesForGOpcs({G_BR}).Any({{_}, {{}, {None}}});
+
+  addRulesForGOpcs({G_SELECT}, StandardB)
+      .Div(B32, {{VgprB32}, {Vcc, VgprB32, VgprB32}})
+      .Uni(B32, {{SgprB32}, {Sgpr32AExtBoolInReg, SgprB32, SgprB32}});
+
+  addRulesForGOpcs({G_ANYEXT}).Any({{UniS32, S16}, {{Sgpr32}, {Sgpr16}}});
+
+  // In global-isel G_TRUNC in-reg is treated as no-op, inst selected into COPY.
+  // It is up to user to deal with truncated bits.
+  addRulesForGOpcs({G_TRUNC})
+      .Any({{UniS16, S32}, {{Sgpr16}, {Sgpr32}}})
+      // This is non-trivial. VgprToVccCopy is done using compare instruction.
+      .Any({{DivS1, DivS32}, {{Vcc}, {Vgpr32}, VgprToVccCopy}});
+
+  addRulesForGOpcs({G_ZEXT, G_SEXT})
+      .Any({{UniS32, S1}, {{Sgpr32}, {Sgpr32AExtBoolInReg}, UniExtToSel}})
+      .Any({{UniS64, S32}, {{Sgpr64}, {Sgpr32}, Ext32To64}})
+      .Any({{DivS64, S32}, {{Vgpr64}, {Vgpr32}, Ext32To64}});
+
+  bool hasUnalignedLoads = ST->getGeneration() >= AMDGPUSubtarget::GFX12;
+  bool hasSMRDSmall = ST->hasScalarSubwordLoads();
+
+  Predicate isAlign16([](const MachineInstr &MI) -> bool {
+    return (*MI.memoperands_begin())->getAlign() >= Align(16);
+  });
+
+  Predicate isAlign4([](const MachineInstr &MI) -> bool {
+    return (*MI.memoperands_begin())->getAlign() >= Align(4);
+  });
+
+  Predicate isAtomicMMO([](const MachineInstr &MI) -> bool {
+    return (*MI.memoperands_begin())->isAtomic();
+  });
+
+  Predicate isUniMMO([](const MachineInstr &MI) -> bool {
+    return AMDGPUInstrInfo::isUniformMMO(*MI.memoperands_begin());
+  });
+
+  Predicate isConst([](const MachineInstr &MI) -> bool {
+    // Address space in MMO be different then address space on pointer.
+    const MachineMemOperand *MMO = *MI.memoperands_begin();
+    const unsigned AS = MMO->getAddrSpace();
+    return AS == AMDGPUAS::CONSTANT_ADDRESS ||
+           AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT;
+  });
+
+  Predicate isVolatileMMO([](const MachineInstr &MI) -> bool {
+    return (*MI.memoperands_begin())->isVolatile();
+  });
+
+  Predicate isInvMMO([](const MachineInstr &MI) -> bool {
+    return (*MI.memoperands_begin())->isInvariant();
+  });
+
+  Predicate isNoClobberMMO([](const MachineInstr &MI) -> bool {
+    return (*MI.memoperands_begin())->getFlags() & MONoClobber;
+  });
+
+  Predicate isNaturalAlignedSmall([](const MachineInstr &MI) -> bool {
+    const MachineMemOperand *MMO = *MI.memoperands_begin();
+    const unsigned MemSize = 8 * MMO->getSize().getValue();
+    return (MemSize == 16 && MMO->getAlign() >= Align(2)) ||
+           (MemSize == 8 && MMO->getAlign() >= Align(1));
+  });
+
+  auto isUL = !isAtomicMMO && isUniMMO && (isConst || !isVolatileMMO) &&
+              (isConst || isInvMMO || isNoClobberMMO);
+
+  // clang-format off
+  addRulesForGOpcs({G_LOAD})
+      .Any({{DivB32, DivP1}, {{VgprB32}, {VgprP1}}})
+      .Any({{{UniB256, UniP1}, isAlign4 && isUL}, {{SgprB256}, {SgprP1}}})
+      .Any({{{UniB512, UniP1}, isAlign4 && isUL}, {{SgprB512}, {SgprP1}}})
+      .Any({{{UniB256, UniP1}, !isAlign4 || !isUL}, {{UniInVgprB256}, {VgprP1}, SplitLoad}})
+      .Any({{{UniB512, UniP1}, !isAlign4 || !isUL}, {{UniInVgprB512}, {VgprP1}, SplitLoad}})
+
+      .Any({{DivB32, UniP3}, {{VgprB32}, {VgprP3}}})
+      .Any({{{UniB32, UniP3}, isAlign4 && isUL}, {{SgprB32}, {SgprP3}}})
+      .Any({{{UniB32, UniP3}, !isAlign4 || !isUL}, {{UniInVgprB32}, {VgprP3}}})
+
+      .Any({{{DivB256, DivP4}}, {{VgprB256}, {VgprP4}, SplitLoad}})
+      .Any({{{UniB32, UniP4}, isNaturalAlignedSmall && isUL}, {{SgprB32}, {SgprP4}}}, hasSMRDSmall) // i8 and i16 load
+      .Any({{{UniB32, UniP4}, isAlign4 && isUL}, {{SgprB32}, {SgprP4}}})
+      .Any({{{UniB96, UniP4}, isAlign16 && isUL}, {{SgprB96}, {SgprP4}, WidenLoad}}, !hasUnalignedLoads)
+      .Any({{{UniB96, UniP4}, isAlign4 && !isAlign16 && isUL}, {{SgprB96}, {SgprP4}, SplitLoad}}, !hasUnalignedLoads)
+      .Any({{{UniB96, UniP4}, isAlign4 && isUL}, {{SgprB96}, {SgprP4}}}, hasUnalignedLoads)
+      .Any({{{UniB256, UniP4}, isAlign4 && isUL}, {{SgprB256}, {SgprP4}}})
+      .Any({{{UniB512, UniP4}, isAlign4 && isUL}, {{SgprB512}, {SgprP4}}})
+      .Any({{{UniB32, UniP4}, !isNaturalAlignedSmall || !isUL}, {{UniInVgprB32}, {VgprP4}}}, hasSMRDSmall) // i8 and i16 load
+      .Any({{{UniB32, UniP4}, !isAlign4 || !isUL}, {{UniInVgprB32}, {VgprP4}}})
+      .Any({{{UniB256, UniP4}, !isAlign4 || !isUL}, {{UniInVgprB256}, {VgprP4}, SplitLoad}})
+      .Any({{{UniB512, UniP4}, !isAlign4 || !isUL}, {{UniInVgprB512}, {VgprP4}, SplitLoad}})
+
+      .Any({{DivB32, P5}, {{VgprB32}, {VgprP5}}});
+
+  addRulesForGOpcs({G_ZEXTLOAD}) // i8 and i16 zero-extending loads
+      .Any({{{UniB32, UniP3}, !isAlign4 || !isUL}, {{UniInVgprB32}, {VgprP3}}})
+      .Any({{{UniB32, UniP4}, !isAlign4 || !isUL}, {{UniInVgprB32}, {VgprP4}}});
+  // clang-format on
+
+  addRulesForGOpcs({G_AMDGPU_BUFFER_LOAD}, Vector)
+      .Div(V4S32, {{VgprV4S32}, {SgprV4S32, Vgpr32, Vgpr32, Sgpr32}})
+      .Uni(V4S32, {{UniInVgprV4S32}, {SgprV4S32, Vgpr32, Vgpr32, Sgpr32}});
+
+  addRulesForGOpcs({G_STORE})
+      .Any({{S32, P1}, {{}, {Vgpr32, VgprP1}}})
+      .Any({{S64, P1}, {{}, {Vgpr64, VgprP1}}})
+      .Any({{V4S32, P1}, {{}, {VgprV4S32, VgprP1}}});
+
+  addRulesForGOpcs({G_PTR_ADD}).Any({{DivP1}, {{VgprP1}, {VgprP1, Vgpr64}}});
+
+  addRulesForGOpcs({G_ABS}, Standard).Uni(S16, {{Sgpr32Trunc}, {Sgpr32SExt}});
+
+  bool hasSALUFloat = ST->hasSALUFloatInsts();
+
+  addRulesForGOpcs({G_FADD}, Standard)
+      .Uni(S32, {{Sgpr32}, {Sgpr32, Sgpr32}}, hasSALUFloat)
+      .Uni(S32, {{UniInVgprS32}, {Vgpr32, Vgpr32}}, !hasSALUFloat)
+      .Div(S32, {{Vgpr32}, {Vgpr32, Vgpr32}});
+
+  addRulesForGOpcs({G_FPTOUI})
+      .Any({{UniS32, S32}, {{Sgpr32}, {Sgpr32}}}, hasSALUFloat)
+      .Any({{UniS32, S32}, {{UniInVgprS32}, {Vgpr32}}}, !hasSALUFloat);
+
+  addRulesForGOpcs({G_UITOFP})
+      .Any({{UniS32, S32}, {{Sgpr32}, {Sgpr32}}}, hasSALUFloat)
+      .Any({{UniS32, S32}, {{UniInVgprS32}, {Vgpr32}}}, !hasSALUFloat);
+
+  using namespace Intrinsic;
+
+  // This is "intrinsic lane mask" it was set to i32/i64 in llvm-ir.
+  addRulesForIOpcs({amdgcn_end_cf}).Any({{_, S32}, {{}, {None, Sgpr32}}});
+
+  addRulesForIOpcs({amdgcn_if_break}, Standard)
+      .Uni(S32, {{Sgpr32}, {IntrId, Vcc, Sgpr32}});
+
+} // end initialize rules
diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeRules.h b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeRules.h
new file mode 100644
index 0000000000000..8280751e1dbdd
--- /dev/null
+++ b/llvm/lib/Target/AMDGPU/AMDGPURegBankLegalizeRules.h
@@ -0,0 +1,329 @@
+//===- AMDGPURegBankLegalizeRules --------------------------------*- C++ -*-==//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#ifndef LLVM_LIB_TARGET_AMDGPU_AMDGPUREGBANKLEGALIZERULES_H
+#define LLVM_LIB_TARGET_AMDGPU_AMDGPUREGBANKLEGALIZERULES_H
+
+#include "llvm/ADT/DenseMap.h"
+#include "llvm/ADT/SmallVector.h"
+#include <functional>
+
+namespace llvm {
+
+class MachineRegisterInfo;
+class MachineInstr;
+class GCNSubtarget;
+class MachineFunction;
+template <typename T> class GenericUniformityInfo;
+template <typename T> class GenericSSAContext;
+using MachineSSAContext = GenericSSAContext<MachineFunction>;
+using MachineUniformityInfo = GenericUniformityInfo<MachineSSAContext>;
+
+namespace AMDGPU {
+
+// IDs used to build predicate for RegBankLegalizeRule. Predicate can have one
+// or more IDs and each represents a check for 'uniform or divergent' + LLT or
+// just LLT on register operand.
+// Most often checking one operand is enough to decide which RegBankLLTMapping
+// to apply (see Fast Rules), IDs are useful when two or more operands need to
+// be checked.
+enum UniformityLLTOpPredicateID {
+  _,
+  // scalars
+  S1,
+  S16,
+  S32,
+  S64,
+
+  UniS1,
+  UniS16,
+  UniS32,
+  UniS64,
+
+  DivS1,
+  DivS32,
+  DivS64,
+
+  // pointers
+  P1,
+  P3,
+  P4,
+  P5,
+
+  UniP1,
+  UniP3,
+  UniP4,
+  UniP5,
+
+  DivP1,
+  DivP3,
+  DivP4,
+  DivP5,
+
+  // vectors
+  V2S16,
+  V2S32,
+  V3S32,
+  V4S32,
+
+  // B types
+  B32,
+  B64,
+  B96,
+  B128,
+  B256,
+  B512,
+
+  UniB32,
+  UniB64,
+  UniB96,
+  UniB128,
+  UniB256,
+  UniB512,
+
+  DivB32,
+  DivB64,
+  DivB96,
+  DivB128,
+  DivB256,
+  DivB512,
+};
+
+// How to apply register bank on register operand.
+// In most cases, this serves as a LLT and register bank assert.
+// Can change operands and insert copies, extends, truncs, and read-any-lanes.
+// Anything more complicated requires LoweringMethod.
+enum RegBankLLTMappingApplyID {
+  InvalidMapping,
+  None,
+  IntrId,
+  Imm,
+  Vcc,
+
+  // sgpr scalars, pointers, vectors and B-types
+  Sgpr16,
+  Sgpr32,
+  Sgpr64,
+  SgprP1,
+  SgprP3,
+  SgprP4,
+  SgprP5,
+  SgprV4S32,
+  SgprB32,
+  SgprB64,
+  SgprB96,
+  SgprB128,
+  SgprB256,
+  SgprB512,
+
+  // vgpr scalars, pointers, vectors and B-types
+  Vgpr32,
+  Vgpr64,
+  VgprP1,
+  VgprP3,
+  VgprP4,
+  VgprP5,
+  VgprB32,
+  VgprB64,
+  VgprB96,
+  VgprB128,
+  VgprB256,
+  VgprB512,
+  VgprV4S32,
+
+  // Dst only modifiers: read-any-lane and truncs
+  UniInVcc,
+  UniInVgprS32,
+  UniInVgprV4S32,
+  UniInVgprB32,
+  UniInVgprB64,
+  UniInVgprB96,
+  UniInVgprB128,
+  UniInVgprB256,
+  UniInVgprB512,
+
+  Sgpr32Trunc,
+
+  // Src only modifiers: waterfalls, extends
+  Sgpr32AExt,
+  Sgpr32AExtBoolInReg,
+  Sgpr32SExt,
+};
+
+// Instruction needs to be replaced with sequence of instructions. Lowering was
+// not done by legalizer since instructions is available in either sgpr or vgpr.
+// For example S64 AND is available on sgpr, for that reason S64 AND is legal in
+// context of Legalizer that only checks LLT. But S64 AND is not available on
+// vgpr. Lower it to two S32 vgpr ANDs.
+enum LoweringMethodID {
+  DoNotLower,
+  UniExtToSel,
+  VgprToVccCopy,
+  SplitTo32,
+  Ext32To64,
+  UniCstExt,
+  SplitLoad,
+  WidenLoad,
+};
+
+enum FastRulesTypes {
+  NoFastRules,
+  Standard,  // S16, S32, S64, V2S16
+  StandardB, // B32, B64, B96, B128
+  Vector,    // S32, V2S32, V3S32, V4S32
+};
+
+struct RegBankLLTMapping {
+  SmallVector<RegBankLLTMappingApplyID, 2> DstOpMapping;
+  SmallVector<RegBankLLTMappingApplyID, 4> SrcOpMapping;
+  LoweringMethodID LoweringMethod;
+  RegBankLLTMapping(
+      std::initializer_list<RegBankLLTMappingApplyID> DstOpMappingList,
+      std::initializer_list<RegBankLLTMappingApplyID> SrcOpMappingList,
+      LoweringMethodID LoweringMethod = DoNotLower);
+};
+
+struct PredicateMapping {
+  SmallVector<UniformityLLTOpPredicateID, 4> OpUniformityAndTypes;
+  std::function<bool(const MachineInstr &)> TestFunc;
+  PredicateMapping(
+      std::initializer_list<UniformityLLTOpPredicateID> OpList,
+      std::function<bool(const MachineInstr &)> TestFunc = nullptr);
+
+  bool match(const MachineInstr &MI, const MachineUniformityInfo &MUI,
+             const MachineRegisterInfo &MRI) const;
+};
+
+struct RegBankLegalizeRule {
+  PredicateMapping Predicate;
+  RegBankLLTMapping OperandMapping;
+};
+
+class SetOfRulesForOpcode {
+  // "Slow Rules". More complex 'Rules[i].Predicate', check them one by one.
+  SmallVector<RegBankLegalizeRule, 4> Rules;
+
+  // "Fast Rules"
+  // Instead of testing each 'Rules[i].Predicate' we do direct access to
+  // RegBankLLTMapping using getFastPredicateSlot. For example if:
+  // - FastTypes == Standard Uni[0] holds Mapping in case Op 0 is uniform S32
+  // - FastTypes == Vector Div[3] holds Mapping in case Op 0 is divergent V4S32
+  FastRulesTypes FastTypes = NoFastRules;
+#define InvMapping RegBankLLTMapping({InvalidMapping}, {InvalidMapping})
+  RegBankLLTMapping Uni[4] = {InvMapping, InvMapping, InvMapping, InvMapping};
+  RegBankLLTMapping Div[4] = {InvMapping, InvMapping, InvMapping, InvMapping};
+
+public:
+  SetOfRulesForOpcode();
+  SetOfRulesForOpcode(FastRulesTypes FastTypes);
+
+  const RegBankLLTMapping &
+  findMappingForMI(const MachineInstr &MI, const MachineRegisterInfo &MRI,
+                   const MachineUniformityInfo &MUI) const;
+
+  void addRule(RegBankLegalizeRule Rule);
+
+  void addFastRuleDivergent(UniformityLLTOpPredicateID Ty,
+                            RegBankLLTMapping RuleApplyIDs);
+  void addFastRuleUniform(UniformityLLTOpPredicateID Ty,
+                          RegBankLLTMapping RuleApplyIDs);
+
+private:
+  int getFastPredicateSlot(UniformityLLTOpPredicateID Ty) const;
+};
+
+// Essentially 'map<Opcode(or intrinsic_opcode), SetOfRulesForOpcode>' but a
+// little more efficient.
+class RegBankLegalizeRules {
+  const GCNSubtarget *ST;
+  MachineRegisterInfo *MRI;
+  // Separate maps for G-opcodes and instrinsics since they are in different
+  // enums. Multiple opcodes can share same set of rules.
+  // RulesAlias = map<Opcode, KeyOpcode>
+  // Rules = map<KeyOpcode, SetOfRulesForOpcode>
+  SmallDenseMap<unsigned, unsigned, 256> GRulesAlias;
+  SmallDenseMap<unsigned, SetOfRulesForOpcode, 128> GRules;
+  SmallDenseMap<unsigned, unsigned, 128> IRulesAlias;
+  SmallDenseMap<unsigned, SetOfRulesForOpcode, 64> IRules;
+  class RuleSetInitializer {
+    SetOfRulesForOpcode *RuleSet;
+
+  public:
+    // Used for clang-format line breaks and to force  writing all rules for
+    // opcode in same place.
+    template <class AliasMap, class RulesMap>
+    RuleSetInitializer(std::initializer_list<unsigned> OpcList,
+                       AliasMap &RulesAlias, RulesMap &Rules,
+                       FastRulesTypes FastTypes = NoFastRules) {
+      unsigned KeyOpcode = *OpcList.begin();
+      for (unsigned Opc : OpcList) {
+        [[maybe_unused]] auto [_, NewInput] =
+            RulesAlias.try_emplace(Opc, KeyOpcode);
+        assert(NewInput && "Can't redefine existing Rules");
+      }
+
+      auto [DenseMapIter, NewInput] = Rules.try_emplace(KeyOpcode, FastTypes);
+      assert(NewInput && "Can't redefine existing Rules");
+
+      RuleSet = &DenseMapIter->second;
+    }
+
+    RuleSetInitializer(const RuleSetInitializer &) = delete;
+    RuleSetInitializer &operator=(const RuleSetInitializer &) = delete;
+    RuleSetInitializer(RuleSetInitializer &&) = delete;
+    RuleSetInitializer &operator=(RuleSetInitializer &&) = delete;
+    ~RuleSetInitializer() = default;
+
+    RuleSetInitializer &Div(UniformityLLTOpPredicateID Ty,
+                            RegBankLLTMapping RuleApplyIDs,
+                            bool STPred = true) {
+      if (STPred)
+        RuleSet->addFastRuleDivergent(Ty, RuleApplyIDs);
+      return *this;
+    }
+
+    RuleSetInitializer &Uni(UniformityLLTOpPredicateID Ty,
+                            RegBankLLTMapping RuleApplyIDs,
+                            bool STPred = true) {
+      if (STPred)
+        RuleSet->addFastRuleUniform(Ty, RuleApplyIDs);
+      return *this;
+    }
+
+    RuleSetInitializer &Any(RegBankLegalizeRule Init, bool STPred = true) {
+      if (STPred)
+        RuleSet->addRule(Init);
+      return *this;
+    }
+  };
+
+  RuleSetInitializer addRulesForGOpcs(std::initializer_list<unsigned> OpcList,
+                                      FastRulesTypes FastTypes = NoFastRules);
+
+  RuleSetInitializer addRulesForIOpcs(std::initializer_list<unsigned> OpcList,
+                                      FastRulesTypes FastTypes = NoFastRules);
+
+public:
+  // Initialize rules for all opcodes.
+  RegBankLegalizeRules(const GCNSubtarget &ST, MachineRegisterInfo &MRI);
+
+  // In case we don't want to regenerate same rules, we can use already
+  // generated rules but need to refresh references to objects that are
+  // created for this run.
+  void refreshRefs(const GCNSubtarget &_ST, MachineRegisterInfo &_MRI) {
+    ST = &_ST;
+    MRI = &_MRI;
+  };
+
+  const SetOfRulesForOpcode &getRulesForOpc(MachineInstr &MI) const;
+};
+
+} // end namespace AMDGPU
+} // end namespace llvm
+
+#endif
diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegBankSelect.cpp b/llvm/lib/Target/AMDGPU/AMDGPURegBankSelect.cpp
index 4c499cb4dfe20..abd7dcecc93ad 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPURegBankSelect.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPURegBankSelect.cpp
@@ -16,12 +16,18 @@
 //===----------------------------------------------------------------------===//
 
 #include "AMDGPU.h"
-#include "llvm/CodeGen/MachineFunctionPass.h"
+#include "AMDGPUGlobalISelUtils.h"
+#include "GCNSubtarget.h"
+#include "llvm/CodeGen/GlobalISel/CSEInfo.h"
+#include "llvm/CodeGen/GlobalISel/CSEMIRBuilder.h"
+#include "llvm/CodeGen/MachineUniformityAnalysis.h"
+#include "llvm/CodeGen/TargetPassConfig.h"
 #include "llvm/InitializePasses.h"
 
 #define DEBUG_TYPE "amdgpu-regbankselect"
 
 using namespace llvm;
+using namespace AMDGPU;
 
 namespace {
 
@@ -40,6 +46,9 @@ class AMDGPURegBankSelect : public MachineFunctionPass {
   }
 
   void getAnalysisUsage(AnalysisUsage &AU) const override {
+    AU.addRequired<TargetPassConfig>();
+    AU.addRequired<GISelCSEAnalysisWrapperPass>();
+    AU.addRequired<MachineUniformityAnalysisPass>();
     MachineFunctionPass::getAnalysisUsage(AU);
   }
 
@@ -55,6 +64,9 @@ class AMDGPURegBankSelect : public MachineFunctionPass {
 
 INITIALIZE_PASS_BEGIN(AMDGPURegBankSelect, DEBUG_TYPE,
                       "AMDGPU Register Bank Select", false, false)
+INITIALIZE_PASS_DEPENDENCY(TargetPassConfig)
+INITIALIZE_PASS_DEPENDENCY(GISelCSEAnalysisWrapperPass)
+INITIALIZE_PASS_DEPENDENCY(MachineUniformityAnalysisPass)
 INITIALIZE_PASS_END(AMDGPURegBankSelect, DEBUG_TYPE,
                     "AMDGPU Register Bank Select", false, false)
 
@@ -66,9 +78,201 @@ FunctionPass *llvm::createAMDGPURegBankSelectPass() {
   return new AMDGPURegBankSelect();
 }
 
+class RegBankSelectHelper {
+  MachineIRBuilder &B;
+  MachineRegisterInfo &MRI;
+  AMDGPU::IntrinsicLaneMaskAnalyzer &ILMA;
+  const MachineUniformityInfo &MUI;
+  const RegisterBank *SgprRB;
+  const RegisterBank *VgprRB;
+  const RegisterBank *VccRB;
+
+public:
+  RegBankSelectHelper(MachineIRBuilder &B,
+                      AMDGPU::IntrinsicLaneMaskAnalyzer &ILMA,
+                      const MachineUniformityInfo &MUI,
+                      const RegisterBankInfo &RBI)
+      : B(B), MRI(*B.getMRI()), ILMA(ILMA), MUI(MUI),
+        SgprRB(&RBI.getRegBank(AMDGPU::SGPRRegBankID)),
+        VgprRB(&RBI.getRegBank(AMDGPU::VGPRRegBankID)),
+        VccRB(&RBI.getRegBank(AMDGPU::VCCRegBankID)) {}
+
+  const RegisterBank *getRegBankToAssign(Register Reg) {
+    if (MUI.isUniform(Reg) || ILMA.isS32S64LaneMask(Reg))
+      return SgprRB;
+    if (MRI.getType(Reg) == LLT::scalar(1))
+      return VccRB;
+    return VgprRB;
+  }
+
+  // %rc:RegClass(s32) = G_ ...
+  // ...
+  // %a = G_ ..., %rc
+  // ->
+  // %rb:RegBank(s32) = G_ ...
+  // %rc:RegClass(s32) = COPY %rb
+  // ...
+  // %a = G_ ..., %rb
+  void reAssignRegBankOnDef(MachineInstr &MI, MachineOperand &DefOP,
+                            const RegisterBank *RB) {
+    // Register that already has Register class got it during pre-inst selection
+    // of another instruction. Maybe cross bank copy was required so we insert a
+    // copy that can be removed later. This simplifies post regbanklegalize
+    // combiner and avoids need to special case some patterns.
+    Register Reg = DefOP.getReg();
+    LLT Ty = MRI.getType(Reg);
+    Register NewReg = MRI.createVirtualRegister({RB, Ty});
+    DefOP.setReg(NewReg);
+
+    auto &MBB = *MI.getParent();
+    B.setInsertPt(MBB, MBB.SkipPHIsAndLabels(std::next(MI.getIterator())));
+    B.buildCopy(Reg, NewReg);
+
+    // The problem was discovered for uniform S1 that was used as both
+    // lane mask(vcc) and regular sgpr S1.
+    // - lane-mask(vcc) use was by si_if, this use is divergent and requires
+    //   non-trivial sgpr-S1-to-vcc copy. But pre-inst-selection of si_if sets
+    //   sreg_64_xexec(S1) on def of uniform S1 making it lane-mask.
+    // - the regular sgpr S1(uniform) instruction is now broken since
+    //   it uses sreg_64_xexec(S1) which is divergent.
+
+    // Replace virtual registers with register class on generic instructions
+    // uses with virtual registers with register bank.
+    for (auto &UseMI : make_early_inc_range(MRI.use_instructions(Reg))) {
+      if (UseMI.isPreISelOpcode()) {
+        for (MachineOperand &Op : UseMI.operands()) {
+          if (Op.isReg() && Op.getReg() == Reg)
+            Op.setReg(NewReg);
+        }
+      }
+    }
+  }
+
+  // %a = G_ ..., %rc
+  // ->
+  // %rb:RegBank(s32) = COPY %rc
+  // %a = G_ ..., %rb
+  void constrainRegBankUse(MachineInstr &MI, MachineOperand &UseOP,
+                           const RegisterBank *RB) {
+    Register Reg = UseOP.getReg();
+
+    LLT Ty = MRI.getType(Reg);
+    Register NewReg = MRI.createVirtualRegister({RB, Ty});
+    UseOP.setReg(NewReg);
+
+    if (MI.isPHI()) {
+      auto DefMI = MRI.getVRegDef(Reg)->getIterator();
+      MachineBasicBlock *DefMBB = DefMI->getParent();
+      B.setInsertPt(*DefMBB, DefMBB->SkipPHIsAndLabels(std::next(DefMI)));
+    } else {
+      B.setInstr(MI);
+    }
+
+    B.buildCopy(NewReg, Reg);
+  }
+};
+
+static Register getVReg(MachineOperand &Op) {
+  if (!Op.isReg())
+    return {};
+
+  // Operands of COPY and G_SI_CALL can be physical registers.
+  Register Reg = Op.getReg();
+  if (!Reg.isVirtual())
+    return {};
+
+  return Reg;
+}
+
 bool AMDGPURegBankSelect::runOnMachineFunction(MachineFunction &MF) {
   if (MF.getProperties().hasProperty(
           MachineFunctionProperties::Property::FailedISel))
     return false;
+
+  // Setup the instruction builder with CSE.
+  const TargetPassConfig &TPC = getAnalysis<TargetPassConfig>();
+  GISelCSEAnalysisWrapper &Wrapper =
+      getAnalysis<GISelCSEAnalysisWrapperPass>().getCSEWrapper();
+  GISelCSEInfo &CSEInfo = Wrapper.get(TPC.getCSEConfig());
+  GISelObserverWrapper Observer;
+  Observer.addObserver(&CSEInfo);
+
+  CSEMIRBuilder B(MF);
+  B.setCSEInfo(&CSEInfo);
+  B.setChangeObserver(Observer);
+
+  RAIIDelegateInstaller DelegateInstaller(MF, &Observer);
+  RAIIMFObserverInstaller MFObserverInstaller(MF, Observer);
+
+  IntrinsicLaneMaskAnalyzer ILMA(MF);
+  MachineUniformityInfo &MUI =
+      getAnalysis<MachineUniformityAnalysisPass>().getUniformityInfo();
+  MachineRegisterInfo &MRI = *B.getMRI();
+  const GCNSubtarget &ST = MF.getSubtarget<GCNSubtarget>();
+  RegBankSelectHelper RBSHelper(B, ILMA, MUI, *ST.getRegBankInfo());
+  // Virtual registers at this point don't have register banks.
+  // Virtual registers in def and use operands of already inst-selected
+  // instruction have register class.
+
+  for (MachineBasicBlock &MBB : MF) {
+    for (MachineInstr &MI : MBB) {
+      // Vregs in def and use operands of COPY can have either register class
+      // or bank. If there is neither on vreg in def operand, assign bank.
+      if (MI.isCopy()) {
+        Register DefReg = getVReg(MI.getOperand(0));
+        if (!DefReg.isValid() || MRI.getRegClassOrNull(DefReg))
+          continue;
+
+        assert(!MRI.getRegBankOrNull(DefReg));
+        MRI.setRegBank(DefReg, *RBSHelper.getRegBankToAssign(DefReg));
+        continue;
+      }
+
+      if (!MI.isPreISelOpcode())
+        continue;
+
+      // Vregs in def and use operands of G_ instructions need to have register
+      // banks assigned. Before this loop possible case are
+      // - (1) vreg without register class or bank in def or use operand
+      // - (2) vreg with register class in def operand
+      // - (3) vreg, defined by G_ instruction, in use operand
+      // - (4) vreg, defined by pre-inst-selected instruction, in use operand
+
+      // First three cases are handled in loop through all def operands of G_
+      // instructions. For case (1) simply setRegBank. Cases (2) and (3) are
+      // handled by reAssignRegBankOnDef.
+      for (MachineOperand &DefOP : MI.defs()) {
+        Register DefReg = getVReg(DefOP);
+        if (!DefReg.isValid())
+          continue;
+
+        const RegisterBank *RB = RBSHelper.getRegBankToAssign(DefReg);
+        if (MRI.getRegClassOrNull(DefReg))
+          RBSHelper.reAssignRegBankOnDef(MI, DefOP, RB);
+        else {
+          assert(!MRI.getRegBankOrNull(DefReg));
+          MRI.setRegBank(DefReg, *RB);
+        }
+      }
+
+      // Register bank select doesn't modify pre-inst-selected instructions.
+      // For case (4) need to insert a copy, handled by constrainRegBankUse.
+      for (MachineOperand &UseOP : MI.uses()) {
+        Register UseReg = getVReg(UseOP);
+        if (!UseReg.isValid())
+          continue;
+
+        // Skip case (3).
+        if (!MRI.getRegClassOrNull(UseReg) ||
+            MRI.getVRegDef(UseReg)->isPreISelOpcode())
+          continue;
+
+        // Use with register class defined by pre-inst-selected instruction.
+        const RegisterBank *RB = RBSHelper.getRegBankToAssign(UseReg);
+        RBSHelper.constrainRegBankUse(MI, UseOP, RB);
+      }
+    }
+  }
+
   return true;
 }
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUSubtarget.cpp b/llvm/lib/Target/AMDGPU/AMDGPUSubtarget.cpp
index ae563df2a7a12..d98a0ffcaf7e3 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUSubtarget.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUSubtarget.cpp
@@ -55,55 +55,90 @@ AMDGPUSubtarget::getMaxLocalMemSizeWithWaveCount(unsigned NWaves,
   return getLocalMemorySize() / WorkGroupsPerCU;
 }
 
-// FIXME: Should return min,max range.
-//
-// Returns the maximum occupancy, in number of waves per SIMD / EU, that can
-// be achieved when only the given function is running on the machine; and
-// taking into account the overall number of wave slots, the (maximum) workgroup
-// size, and the per-workgroup LDS allocation size.
-unsigned AMDGPUSubtarget::getOccupancyWithLocalMemSize(uint32_t Bytes,
-  const Function &F) const {
-  const unsigned MaxWorkGroupSize = getFlatWorkGroupSizes(F).second;
-  const unsigned MaxWorkGroupsPerCu = getMaxWorkGroupsPerCU(MaxWorkGroupSize);
-  if (!MaxWorkGroupsPerCu)
-    return 0;
-
-  const unsigned WaveSize = getWavefrontSize();
-
-  // FIXME: Do we need to account for alignment requirement of LDS rounding the
-  // size up?
-  // Compute restriction based on LDS usage
-  unsigned NumGroups = getLocalMemorySize() / (Bytes ? Bytes : 1u);
-
-  // This can be queried with more LDS than is possible, so just assume the
-  // worst.
-  if (NumGroups == 0)
-    return 1;
-
-  NumGroups = std::min(MaxWorkGroupsPerCu, NumGroups);
-
-  // Round to the number of waves per CU.
-  const unsigned MaxGroupNumWaves = divideCeil(MaxWorkGroupSize, WaveSize);
-  unsigned MaxWaves = NumGroups * MaxGroupNumWaves;
-
-  // Number of waves per EU (SIMD).
-  MaxWaves = divideCeil(MaxWaves, getEUsPerCU());
-
-  // Clamp to the maximum possible number of waves.
-  MaxWaves = std::min(MaxWaves, getMaxWavesPerEU());
+std::pair<unsigned, unsigned>
+AMDGPUSubtarget::getOccupancyWithWorkGroupSizes(uint32_t LDSBytes,
+                                                const Function &F) const {
+  // FIXME: We should take into account the LDS allocation granularity.
+  const unsigned MaxWGsLDS = getLocalMemorySize() / std::max(LDSBytes, 1u);
+
+  // Queried LDS size may be larger than available on a CU, in which case we
+  // consider the only achievable occupancy to be 1, in line with what we
+  // consider the occupancy to be when the number of requested registers in a
+  // particular bank is higher than the number of available ones in that bank.
+  if (!MaxWGsLDS)
+    return {1, 1};
+
+  const unsigned WaveSize = getWavefrontSize(), WavesPerEU = getMaxWavesPerEU();
+
+  auto PropsFromWGSize = [=](unsigned WGSize)
+      -> std::tuple<const unsigned, const unsigned, unsigned> {
+    unsigned WavesPerWG = divideCeil(WGSize, WaveSize);
+    unsigned WGsPerCU = std::min(getMaxWorkGroupsPerCU(WGSize), MaxWGsLDS);
+    return {WavesPerWG, WGsPerCU, WavesPerWG * WGsPerCU};
+  };
+
+  // The maximum group size will generally yield the minimum number of
+  // workgroups, maximum number of waves, and minimum occupancy. The opposite is
+  // generally true for the minimum group size. LDS or barrier ressource
+  // limitations can flip those minimums/maximums.
+  const auto [MinWGSize, MaxWGSize] = getFlatWorkGroupSizes(F);
+  auto [MinWavesPerWG, MaxWGsPerCU, MaxWavesPerCU] = PropsFromWGSize(MinWGSize);
+  auto [MaxWavesPerWG, MinWGsPerCU, MinWavesPerCU] = PropsFromWGSize(MaxWGSize);
+
+  // It is possible that we end up with flipped minimum and maximum number of
+  // waves per CU when the number of minimum/maximum concurrent groups on the CU
+  // is limited by LDS usage or barrier resources.
+  if (MinWavesPerCU >= MaxWavesPerCU) {
+    std::swap(MinWavesPerCU, MaxWavesPerCU);
+  } else {
+    const unsigned WaveSlotsPerCU = WavesPerEU * getEUsPerCU();
+
+    // Look for a potential smaller group size than the maximum which decreases
+    // the concurrent number of waves on the CU for the same number of
+    // concurrent workgroups on the CU.
+    unsigned MinWavesPerCUForWGSize =
+        divideCeil(WaveSlotsPerCU, MinWGsPerCU + 1) * MinWGsPerCU;
+    if (MinWavesPerCU > MinWavesPerCUForWGSize) {
+      unsigned ExcessSlots = MinWavesPerCU - MinWavesPerCUForWGSize;
+      if (unsigned ExcessSlotsPerWG = ExcessSlots / MinWGsPerCU) {
+        // There may exist a smaller group size than the maximum that achieves
+        // the minimum number of waves per CU. This group size is the largest
+        // possible size that requires MaxWavesPerWG - E waves where E is
+        // maximized under the following constraints.
+        // 1. 0 <= E <= ExcessSlotsPerWG
+        // 2. (MaxWavesPerWG - E) * WaveSize >= MinWGSize
+        MinWavesPerCU -= MinWGsPerCU * std::min(ExcessSlotsPerWG,
+                                                MaxWavesPerWG - MinWavesPerWG);
+      }
+    }
 
-  // FIXME: Needs to be a multiple of the group size?
-  //MaxWaves = MaxGroupNumWaves * (MaxWaves / MaxGroupNumWaves);
+    // Look for a potential larger group size than the minimum which increases
+    // the concurrent number of waves on the CU for the same number of
+    // concurrent workgroups on the CU.
+    unsigned LeftoverSlots = WaveSlotsPerCU - MaxWGsPerCU * MinWavesPerWG;
+    if (unsigned LeftoverSlotsPerWG = LeftoverSlots / MaxWGsPerCU) {
+      // There may exist a larger group size than the minimum that achieves the
+      // maximum number of waves per CU. This group size is the smallest
+      // possible size that requires MinWavesPerWG + L waves where L is
+      // maximized under the following constraints.
+      // 1. 0 <= L <= LeftoverSlotsPerWG
+      // 2. (MinWavesPerWG + L - 1) * WaveSize <= MaxWGSize
+      MaxWavesPerCU += MaxWGsPerCU * std::min(LeftoverSlotsPerWG,
+                                              ((MaxWGSize - 1) / WaveSize) + 1 -
+                                                  MinWavesPerWG);
+    }
+  }
 
-  assert(MaxWaves > 0 && MaxWaves <= getMaxWavesPerEU() &&
-         "computed invalid occupancy");
-  return MaxWaves;
+  // Return the minimum/maximum number of waves on any EU, assuming that all
+  // wavefronts are spread across all EUs as evenly as possible.
+  return {std::clamp(MinWavesPerCU / getEUsPerCU(), 1U, WavesPerEU),
+          std::clamp(divideCeil(MaxWavesPerCU, getEUsPerCU()), 1U, WavesPerEU)};
 }
 
-unsigned
-AMDGPUSubtarget::getOccupancyWithLocalMemSize(const MachineFunction &MF) const {
+std::pair<unsigned, unsigned> AMDGPUSubtarget::getOccupancyWithWorkGroupSizes(
+    const MachineFunction &MF) const {
   const auto *MFI = MF.getInfo<SIMachineFunctionInfo>();
-  return getOccupancyWithLocalMemSize(MFI->getLDSSize(), MF.getFunction());
+  return getOccupancyWithWorkGroupSizes(MFI->getLDSSize(), MF.getFunction());
 }
 
 std::pair<unsigned, unsigned>
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUSubtarget.h b/llvm/lib/Target/AMDGPU/AMDGPUSubtarget.h
index 7701fef536584..5944b69ce6416 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUSubtarget.h
+++ b/llvm/lib/Target/AMDGPU/AMDGPUSubtarget.h
@@ -127,11 +127,21 @@ class AMDGPUSubtarget {
   unsigned getMaxLocalMemSizeWithWaveCount(unsigned WaveCount,
                                            const Function &) const;
 
-  /// Inverse of getMaxLocalMemWithWaveCount. Return the maximum wavecount if
-  /// the given LDS memory size is the only constraint.
-  unsigned getOccupancyWithLocalMemSize(uint32_t Bytes, const Function &) const;
+  /// Subtarget's minimum/maximum occupancy, in number of waves per EU, that can
+  /// be achieved when the only function running on a CU is \p F and each
+  /// workgroup running the function requires \p LDSBytes bytes of LDS space.
+  /// This notably depends on the range of allowed flat group sizes for the
+  /// function and hardware characteristics.
+  std::pair<unsigned, unsigned>
+  getOccupancyWithWorkGroupSizes(uint32_t LDSBytes, const Function &F) const;
 
-  unsigned getOccupancyWithLocalMemSize(const MachineFunction &MF) const;
+  /// Subtarget's minimum/maximum occupancy, in number of waves per EU, that can
+  /// be achieved when the only function running on a CU is \p MF. This notably
+  /// depends on the range of allowed flat group sizes for the function, the
+  /// amount of per-workgroup LDS space required by the function, and hardware
+  /// characteristics.
+  std::pair<unsigned, unsigned>
+  getOccupancyWithWorkGroupSizes(const MachineFunction &MF) const;
 
   bool isAmdHsaOS() const {
     return TargetTriple.getOS() == Triple::AMDHSA;
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp b/llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp
index cb662258b2667..1f29589146c80 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp
@@ -1721,7 +1721,7 @@ bool GCNTargetMachine::parseMachineFunctionInfo(
 
   if (MFI->Occupancy == 0) {
     // Fixup the subtarget dependent default value.
-    MFI->Occupancy = ST.computeOccupancy(MF.getFunction(), MFI->getLDSSize());
+    MFI->Occupancy = ST.getOccupancyWithWorkGroupSizes(MF).second;
   }
 
   auto parseRegister = [&](const yaml::StringValue &RegName, Register &RegVal) {
@@ -1950,6 +1950,9 @@ void AMDGPUCodeGenPassBuilder::addIRPasses(AddIRPass &addPass) const {
 
   addPass(AMDGPUOpenCLEnqueuedBlockLoweringPass());
 
+  if (EnableSwLowerLDS)
+    addPass(AMDGPUSwLowerLDSPass(TM));
+
   // Runs before PromoteAlloca so the latter can account for function uses
   if (EnableLowerModuleLDS)
     addPass(AMDGPULowerModuleLDSPass(TM));
diff --git a/llvm/lib/Target/AMDGPU/CMakeLists.txt b/llvm/lib/Target/AMDGPU/CMakeLists.txt
index 97a0d59cfeeda..91cae76256306 100644
--- a/llvm/lib/Target/AMDGPU/CMakeLists.txt
+++ b/llvm/lib/Target/AMDGPU/CMakeLists.txt
@@ -94,6 +94,8 @@ add_llvm_target(AMDGPUCodeGen
   AMDGPUPromoteKernelArguments.cpp
   AMDGPURegBankCombiner.cpp
   AMDGPURegBankLegalize.cpp
+  AMDGPURegBankLegalizeHelper.cpp
+  AMDGPURegBankLegalizeRules.cpp
   AMDGPURegBankSelect.cpp
   AMDGPURegisterBankInfo.cpp
   AMDGPURemoveIncompatibleFunctions.cpp
diff --git a/llvm/lib/Target/AMDGPU/DSInstructions.td b/llvm/lib/Target/AMDGPU/DSInstructions.td
index ef618727258cf..bc217e10e0fbd 100644
--- a/llvm/lib/Target/AMDGPU/DSInstructions.td
+++ b/llvm/lib/Target/AMDGPU/DSInstructions.td
@@ -699,6 +699,7 @@ def DS_PERMUTE_B32  : DS_1A1D_PERMUTE <"ds_permute_b32",
                                        int_amdgcn_ds_permute>;
 def DS_BPERMUTE_B32 : DS_1A1D_PERMUTE <"ds_bpermute_b32",
                                        int_amdgcn_ds_bpermute>;
+def DS_BPERMUTE_FI_B32 : DS_1A1D_PERMUTE <"ds_bpermute_fi_b32">;
 }
 
 } // let SubtargetPredicate = isGFX8Plus
@@ -1264,6 +1265,7 @@ defm DS_PK_ADD_F16        : DS_Real_gfx12<0x09a>;
 defm DS_PK_ADD_RTN_F16    : DS_Real_gfx12<0x0aa>;
 defm DS_PK_ADD_BF16       : DS_Real_gfx12<0x09b>;
 defm DS_PK_ADD_RTN_BF16   : DS_Real_gfx12<0x0ab>;
+defm DS_BPERMUTE_FI_B32   : DS_Real_gfx12<0x0cd>;
 
 // New aliases added in GFX12 without renaming the instructions.
 let AssemblerPredicate = isGFX12Plus in {
diff --git a/llvm/lib/Target/AMDGPU/GCNSchedStrategy.cpp b/llvm/lib/Target/AMDGPU/GCNSchedStrategy.cpp
index f5bbc5482d347..b00105ae9bd52 100644
--- a/llvm/lib/Target/AMDGPU/GCNSchedStrategy.cpp
+++ b/llvm/lib/Target/AMDGPU/GCNSchedStrategy.cpp
@@ -1089,9 +1089,8 @@ bool PreRARematStage::initGCNSchedStage() {
     return false;
 
   const TargetInstrInfo *TII = MF.getSubtarget().getInstrInfo();
-  // Check maximum occupancy
-  if (ST.computeOccupancy(MF.getFunction(), MFI.getLDSSize()) ==
-      DAG.MinOccupancy)
+  // Rematerialization will not help if occupancy is not limited by reg usage.
+  if (ST.getOccupancyWithWorkGroupSizes(MF).second == DAG.MinOccupancy)
     return false;
 
   // FIXME: This pass will invalidate cached MBBLiveIns for regions
@@ -1272,8 +1271,8 @@ void GCNSchedStage::checkScheduling() {
     return;
   }
 
-  unsigned TargetOccupancy =
-      std::min(S.getTargetOccupancy(), ST.getOccupancyWithLocalMemSize(MF));
+  unsigned TargetOccupancy = std::min(
+      S.getTargetOccupancy(), ST.getOccupancyWithWorkGroupSizes(MF).second);
   unsigned WavesAfter =
       std::min(TargetOccupancy, PressureAfter.getOccupancy(ST));
   unsigned WavesBefore =
diff --git a/llvm/lib/Target/AMDGPU/GCNSubtarget.cpp b/llvm/lib/Target/AMDGPU/GCNSubtarget.cpp
index 413c2884c034e..b5e8e246825c7 100644
--- a/llvm/lib/Target/AMDGPU/GCNSubtarget.cpp
+++ b/llvm/lib/Target/AMDGPU/GCNSubtarget.cpp
@@ -400,16 +400,16 @@ unsigned GCNSubtarget::getReservedNumSGPRs(const Function &F) const {
   return getBaseReservedNumSGPRs(KernelUsesFlatScratch);
 }
 
-unsigned GCNSubtarget::computeOccupancy(const Function &F, unsigned LDSSize,
-                                        unsigned NumSGPRs,
-                                        unsigned NumVGPRs) const {
-  unsigned Occupancy =
-      std::min(getMaxWavesPerEU(), getOccupancyWithLocalMemSize(LDSSize, F));
-  if (NumSGPRs)
-    Occupancy = std::min(Occupancy, getOccupancyWithNumSGPRs(NumSGPRs));
-  if (NumVGPRs)
-    Occupancy = std::min(Occupancy, getOccupancyWithNumVGPRs(NumVGPRs));
-  return Occupancy;
+std::pair<unsigned, unsigned>
+GCNSubtarget::computeOccupancy(const Function &F, unsigned LDSSize,
+                               unsigned NumSGPRs, unsigned NumVGPRs) const {
+  auto [MinOcc, MaxOcc] = getOccupancyWithWorkGroupSizes(LDSSize, F);
+  unsigned SGPROcc = getOccupancyWithNumSGPRs(NumSGPRs);
+  unsigned VGPROcc = getOccupancyWithNumVGPRs(NumVGPRs);
+
+  // Maximum occupancy may be further limited by high SGPR/VGPR usage.
+  MaxOcc = std::min(MaxOcc, std::min(SGPROcc, VGPROcc));
+  return {std::min(MinOcc, MaxOcc), MaxOcc};
 }
 
 unsigned GCNSubtarget::getBaseMaxNumSGPRs(
diff --git a/llvm/lib/Target/AMDGPU/GCNSubtarget.h b/llvm/lib/Target/AMDGPU/GCNSubtarget.h
index e0b0000f757fa..342b211199dca 100644
--- a/llvm/lib/Target/AMDGPU/GCNSubtarget.h
+++ b/llvm/lib/Target/AMDGPU/GCNSubtarget.h
@@ -1368,12 +1368,18 @@ class GCNSubtarget final : public AMDGPUGenSubtargetInfo,
   /// VGPRs
   unsigned getOccupancyWithNumVGPRs(unsigned VGPRs) const;
 
-  /// Return occupancy for the given function. Used LDS and a number of
-  /// registers if provided.
-  /// Note, occupancy can be affected by the scratch allocation as well, but
+  /// Subtarget's minimum/maximum occupancy, in number of waves per EU, that can
+  /// be achieved when the only function running on a CU is \p F, each workgroup
+  /// uses \p LDSSize bytes of LDS, and each wave uses \p NumSGPRs SGPRs and \p
+  /// NumVGPRs VGPRs. The flat workgroup sizes associated to the function are a
+  /// range, so this returns a range as well.
+  ///
+  /// Note that occupancy can be affected by the scratch allocation as well, but
   /// we do not have enough information to compute it.
-  unsigned computeOccupancy(const Function &F, unsigned LDSSize = 0,
-                            unsigned NumSGPRs = 0, unsigned NumVGPRs = 0) const;
+  std::pair<unsigned, unsigned> computeOccupancy(const Function &F,
+                                                 unsigned LDSSize = 0,
+                                                 unsigned NumSGPRs = 0,
+                                                 unsigned NumVGPRs = 0) const;
 
   /// \returns true if the flat_scratch register should be initialized with the
   /// pointer to the wave's scratch memory rather than a size and offset.
diff --git a/llvm/lib/Target/AMDGPU/SIISelLowering.cpp b/llvm/lib/Target/AMDGPU/SIISelLowering.cpp
index 6cf5774fc53b0..1aeca7f370aa1 100644
--- a/llvm/lib/Target/AMDGPU/SIISelLowering.cpp
+++ b/llvm/lib/Target/AMDGPU/SIISelLowering.cpp
@@ -422,6 +422,13 @@ SITargetLowering::SITargetLowering(const TargetMachine &TM,
                      {MVT::v8i32, MVT::v8f32, MVT::v16i32, MVT::v16f32},
                      Expand);
 
+  if (Subtarget->hasPkMovB32()) {
+    // TODO: 16-bit element vectors should be legal with even aligned elements.
+    // TODO: Can be legal with wider source types than the result with
+    // subregister extracts.
+    setOperationAction(ISD::VECTOR_SHUFFLE, {MVT::v2i32, MVT::v2f32}, Legal);
+  }
+
   setOperationAction(ISD::BUILD_VECTOR, {MVT::v4f16, MVT::v4i16, MVT::v4bf16},
                      Custom);
 
diff --git a/llvm/lib/Target/AMDGPU/SIInstructions.td b/llvm/lib/Target/AMDGPU/SIInstructions.td
index 40a20fa9cb15e..da44faac2f910 100644
--- a/llvm/lib/Target/AMDGPU/SIInstructions.td
+++ b/llvm/lib/Target/AMDGPU/SIInstructions.td
@@ -4158,6 +4158,36 @@ def G_SI_CALL : AMDGPUGenericInstruction {
   let isConvergent = 1;
 }
 
+// Uniform in vgpr - vgpr with same value in all active lanes.
+
+// $dst = $src0 != 0, selected as:
+// $dst(SCC) = s_cmp_lg $src0, 0
+// src0 is either exec or 0 (same value for all active lanes),
+// for example result of comparison of two uniform in vgpr.
+def G_AMDGPU_COPY_SCC_VCC : AMDGPUGenericInstruction {
+  let OutOperandList = (outs type0:$dst);
+  let InOperandList = (ins type1:$src0);
+  let hasSideEffects = 0;
+}
+
+// $dst = $src0 ? exec : 0, selected as:
+// SCC = COPY $src0
+// $dst(SReg_32/64) = s_cselect exec, 0
+def G_AMDGPU_COPY_VCC_SCC : AMDGPUGenericInstruction {
+  let OutOperandList = (outs type0:$dst);
+  let InOperandList = (ins type1:$src0);
+  let hasSideEffects = 0;
+}
+
+// Move uniform in vgpr to sgpr. Selected as v_readfirstlane_b32.
+// Semantic difference in READ ANY instead of FIRST(active) LANE allows for
+// vgpr to sgpr back-to vgpr combine, vgpr has same value in all active lanes
+// vgprDst = COPY (G_AMDGPU_READANYLANE vgprSrc) -> vgprDst = sgprSrc
+def G_AMDGPU_READANYLANE : AMDGPUGenericInstruction {
+  let OutOperandList = (outs type0:$dst);
+  let InOperandList = (ins type0:$src0);
+  let hasSideEffects = 0;
+}
 
 //============================================================================//
 // Dummy Instructions
diff --git a/llvm/lib/Target/AMDGPU/SIMachineFunctionInfo.cpp b/llvm/lib/Target/AMDGPU/SIMachineFunctionInfo.cpp
index 7de64bddf7884..c5efb89d8b2db 100644
--- a/llvm/lib/Target/AMDGPU/SIMachineFunctionInfo.cpp
+++ b/llvm/lib/Target/AMDGPU/SIMachineFunctionInfo.cpp
@@ -48,7 +48,7 @@ SIMachineFunctionInfo::SIMachineFunctionInfo(const Function &F,
   MaxNumWorkGroups = ST.getMaxNumWorkGroups(F);
   assert(MaxNumWorkGroups.size() == 3);
 
-  Occupancy = ST.computeOccupancy(F, getLDSSize());
+  Occupancy = ST.computeOccupancy(F, getLDSSize()).second;
   CallingConv::ID CC = F.getCallingConv();
 
   VRegFlags.reserve(1024);
@@ -185,8 +185,7 @@ MachineFunctionInfo *SIMachineFunctionInfo::clone(
 void SIMachineFunctionInfo::limitOccupancy(const MachineFunction &MF) {
   limitOccupancy(getMaxWavesPerEU());
   const GCNSubtarget& ST = MF.getSubtarget<GCNSubtarget>();
-  limitOccupancy(ST.getOccupancyWithLocalMemSize(getLDSSize(),
-                 MF.getFunction()));
+  limitOccupancy(ST.getOccupancyWithWorkGroupSizes(MF).second);
 }
 
 Register SIMachineFunctionInfo::addPrivateSegmentBuffer(
diff --git a/llvm/lib/Target/AMDGPU/SIPeepholeSDWA.cpp b/llvm/lib/Target/AMDGPU/SIPeepholeSDWA.cpp
index 467f042892ceb..bdd164a2f0131 100644
--- a/llvm/lib/Target/AMDGPU/SIPeepholeSDWA.cpp
+++ b/llvm/lib/Target/AMDGPU/SIPeepholeSDWA.cpp
@@ -962,8 +962,11 @@ bool isConvertibleToSDWA(MachineInstr &MI,
                          const SIInstrInfo* TII) {
   // Check if this is already an SDWA instruction
   unsigned Opc = MI.getOpcode();
-  if (TII->isSDWA(Opc))
-    return true;
+  if (TII->isSDWA(Opc)) {
+    // FIXME: Reenable after fixing selection handling.
+    // Cf. llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-combine-sel.ll
+    return false;
+  }
 
   // Check if this instruction has opcode that supports SDWA
   if (AMDGPU::getSDWAOp(Opc) == -1)
diff --git a/llvm/lib/Target/AMDGPU/SIRegisterInfo.cpp b/llvm/lib/Target/AMDGPU/SIRegisterInfo.cpp
index 704435dad65d7..11121e6058770 100644
--- a/llvm/lib/Target/AMDGPU/SIRegisterInfo.cpp
+++ b/llvm/lib/Target/AMDGPU/SIRegisterInfo.cpp
@@ -3642,18 +3642,15 @@ bool SIRegisterInfo::shouldCoalesce(MachineInstr *MI,
 
 unsigned SIRegisterInfo::getRegPressureLimit(const TargetRegisterClass *RC,
                                              MachineFunction &MF) const {
-  const SIMachineFunctionInfo *MFI = MF.getInfo<SIMachineFunctionInfo>();
-
-  unsigned Occupancy = ST.getOccupancyWithLocalMemSize(MFI->getLDSSize(),
-                                                       MF.getFunction());
+  unsigned MinOcc = ST.getOccupancyWithWorkGroupSizes(MF).first;
   switch (RC->getID()) {
   default:
     return AMDGPUGenRegisterInfo::getRegPressureLimit(RC, MF);
   case AMDGPU::VGPR_32RegClassID:
-    return std::min(ST.getMaxNumVGPRs(Occupancy), ST.getMaxNumVGPRs(MF));
+    return std::min(ST.getMaxNumVGPRs(MinOcc), ST.getMaxNumVGPRs(MF));
   case AMDGPU::SGPR_32RegClassID:
   case AMDGPU::SGPR_LO16RegClassID:
-    return std::min(ST.getMaxNumSGPRs(Occupancy, true), ST.getMaxNumSGPRs(MF));
+    return std::min(ST.getMaxNumSGPRs(MinOcc, true), ST.getMaxNumSGPRs(MF));
   }
 }
 
diff --git a/llvm/lib/Target/ARM/ARMCallingConv.cpp b/llvm/lib/Target/ARM/ARMCallingConv.cpp
index 5a88fff41aeb1..66a76a8c7a95a 100644
--- a/llvm/lib/Target/ARM/ARMCallingConv.cpp
+++ b/llvm/lib/Target/ARM/ARMCallingConv.cpp
@@ -228,12 +228,12 @@ static bool CC_ARM_AAPCS_Custom_Aggregate(unsigned ValNo, MVT ValVT,
     break;
   }
 
-  unsigned RegResult = State.AllocateRegBlock(RegList, PendingMembers.size());
-  if (RegResult) {
-    for (CCValAssign &PendingMember : PendingMembers) {
-      PendingMember.convertToReg(RegResult);
+  ArrayRef<MCPhysReg> RegResult =
+      State.AllocateRegBlock(RegList, PendingMembers.size());
+  if (!RegResult.empty()) {
+    for (const auto &[PendingMember, Reg] : zip(PendingMembers, RegResult)) {
+      PendingMember.convertToReg(Reg);
       State.addLoc(PendingMember);
-      ++RegResult;
     }
     PendingMembers.clear();
     return true;
diff --git a/llvm/lib/Target/ARM/ARMParallelDSP.cpp b/llvm/lib/Target/ARM/ARMParallelDSP.cpp
index c70801c852722..a2b2cf1323cae 100644
--- a/llvm/lib/Target/ARM/ARMParallelDSP.cpp
+++ b/llvm/lib/Target/ARM/ARMParallelDSP.cpp
@@ -752,7 +752,7 @@ LoadInst* ARMParallelDSP::CreateWideLoad(MemInstList &Loads,
           isa<PHINode>(Source) || isa<PHINode>(Sink))
         return;
 
-      Source->moveBefore(Sink);
+      Source->moveBefore(Sink->getIterator());
       for (auto &Op : Source->operands())
         MoveBefore(Op, Source);
     };
diff --git a/llvm/lib/Target/BPF/BPFASpaceCastSimplifyPass.cpp b/llvm/lib/Target/BPF/BPFASpaceCastSimplifyPass.cpp
index f87b299bbba65..d70b87d76d6fc 100644
--- a/llvm/lib/Target/BPF/BPFASpaceCastSimplifyPass.cpp
+++ b/llvm/lib/Target/BPF/BPFASpaceCastSimplifyPass.cpp
@@ -54,7 +54,7 @@ struct CastGEPCast {
     unsigned AS = OuterCast->getDestAddressSpace();
     auto *NewGEP = cast<GetElementPtrInst>(GEP->clone());
     NewGEP->setName(GEP->getName());
-    NewGEP->insertAfter(OuterCast);
+    NewGEP->insertAfter(OuterCast->getIterator());
     NewGEP->setOperand(0, InnerCast->getPointerOperand());
     auto *GEPTy = cast<PointerType>(GEP->getType());
     NewGEP->mutateType(changeAddressSpace(GEPTy, AS));
diff --git a/llvm/lib/Target/BPF/BPFAbstractMemberAccess.cpp b/llvm/lib/Target/BPF/BPFAbstractMemberAccess.cpp
index df948e4407c6f..646d57770164a 100644
--- a/llvm/lib/Target/BPF/BPFAbstractMemberAccess.cpp
+++ b/llvm/lib/Target/BPF/BPFAbstractMemberAccess.cpp
@@ -109,7 +109,7 @@ Instruction *BPFCoreSharedInfo::insertPassThrough(Module *M, BasicBlock *BB,
                                          BPFCoreSharedInfo::SeqNum++);
 
   auto *NewInst = CallInst::Create(Fn, {SeqNumVal, Input});
-  NewInst->insertBefore(Before);
+  NewInst->insertBefore(Before->getIterator());
   return NewInst;
 }
 } // namespace llvm
@@ -1115,16 +1115,16 @@ bool BPFAbstractMemberAccess::transformGEPChain(CallInst *Call,
   // Generate a BitCast
   auto *BCInst =
       new BitCastInst(Base, PointerType::getUnqual(BB->getContext()));
-  BCInst->insertBefore(Call);
+  BCInst->insertBefore(Call->getIterator());
 
   // Generate a GetElementPtr
   auto *GEP = GetElementPtrInst::Create(Type::getInt8Ty(BB->getContext()),
                                         BCInst, LDInst);
-  GEP->insertBefore(Call);
+  GEP->insertBefore(Call->getIterator());
 
   // Generate a BitCast
   auto *BCInst2 = new BitCastInst(GEP, Call->getType());
-  BCInst2->insertBefore(Call);
+  BCInst2->insertBefore(Call->getIterator());
 
   // For the following code,
   //    Block0:
diff --git a/llvm/lib/Target/BPF/BPFAdjustOpt.cpp b/llvm/lib/Target/BPF/BPFAdjustOpt.cpp
index 44a2e63afd3c9..1b2558d2e4009 100644
--- a/llvm/lib/Target/BPF/BPFAdjustOpt.cpp
+++ b/llvm/lib/Target/BPF/BPFAdjustOpt.cpp
@@ -128,7 +128,7 @@ bool BPFAdjustOptImpl::adjustICmpToBuiltin() {
         Function *Fn = Intrinsic::getOrInsertDeclaration(
             M, Intrinsic::bpf_compare, {Op0->getType(), ConstOp1->getType()});
         auto *NewInst = CallInst::Create(Fn, {Opcode, Op0, ConstOp1});
-        NewInst->insertBefore(&I);
+        NewInst->insertBefore(I.getIterator());
         Icmp->replaceAllUsesWith(NewInst);
         Changed = true;
         ToBeDeleted = Icmp;
diff --git a/llvm/lib/Target/BPF/BPFCheckAndAdjustIR.cpp b/llvm/lib/Target/BPF/BPFCheckAndAdjustIR.cpp
index f0cf9b134c210..b202b20291aff 100644
--- a/llvm/lib/Target/BPF/BPFCheckAndAdjustIR.cpp
+++ b/llvm/lib/Target/BPF/BPFCheckAndAdjustIR.cpp
@@ -161,7 +161,7 @@ bool BPFCheckAndAdjustIR::removeCompareBuiltin(Module &M) {
         CmpInst::Predicate Opcode = (CmpInst::Predicate)OpVal;
 
         auto *ICmp = new ICmpInst(Opcode, Arg1, Arg2);
-        ICmp->insertBefore(Call);
+        ICmp->insertBefore(Call->getIterator());
 
         Call->replaceAllUsesWith(ICmp);
         ToBeDeleted = Call;
@@ -367,16 +367,16 @@ void BPFCheckAndAdjustIR::getAnalysisUsage(AnalysisUsage &AU) const {
 
 static void unrollGEPLoad(CallInst *Call) {
   auto [GEP, Load] = BPFPreserveStaticOffsetPass::reconstructLoad(Call);
-  GEP->insertBefore(Call);
-  Load->insertBefore(Call);
+  GEP->insertBefore(Call->getIterator());
+  Load->insertBefore(Call->getIterator());
   Call->replaceAllUsesWith(Load);
   Call->eraseFromParent();
 }
 
 static void unrollGEPStore(CallInst *Call) {
   auto [GEP, Store] = BPFPreserveStaticOffsetPass::reconstructStore(Call);
-  GEP->insertBefore(Call);
-  Store->insertBefore(Call);
+  GEP->insertBefore(Call->getIterator());
+  Store->insertBefore(Call->getIterator());
   Call->eraseFromParent();
 }
 
@@ -436,7 +436,7 @@ static Value *aspaceWrapValue(DenseMap<Value *, Value *> &Cache, Function *F,
     Value *WrappedPtr = aspaceWrapValue(Cache, F, Ptr);
     auto *GEPTy = cast<PointerType>(GEP->getType());
     auto *NewGEP = GEP->clone();
-    NewGEP->insertAfter(GEP);
+    NewGEP->insertAfter(GEP->getIterator());
     NewGEP->mutateType(PointerType::getUnqual(GEPTy->getContext()));
     NewGEP->setOperand(GEP->getPointerOperandIndex(), WrappedPtr);
     NewGEP->setName(GEP->getName());
diff --git a/llvm/lib/Target/BPF/BPFPreserveStaticOffset.cpp b/llvm/lib/Target/BPF/BPFPreserveStaticOffset.cpp
index d9b6f27399aa1..2b890ddccf628 100644
--- a/llvm/lib/Target/BPF/BPFPreserveStaticOffset.cpp
+++ b/llvm/lib/Target/BPF/BPFPreserveStaticOffset.cpp
@@ -421,12 +421,12 @@ static bool tryToReplaceWithGEPBuiltin(Instruction *LoadOrStoreTemplate,
   Module *M = InsnToReplace->getModule();
   if (auto *Load = dyn_cast<LoadInst>(LoadOrStoreTemplate)) {
     Instruction *Replacement = makeGEPAndLoad(M, GEPChain, Load);
-    Replacement->insertBefore(InsnToReplace);
+    Replacement->insertBefore(InsnToReplace->getIterator());
     InsnToReplace->replaceAllUsesWith(Replacement);
   }
   if (auto *Store = dyn_cast<StoreInst>(LoadOrStoreTemplate)) {
     Instruction *Replacement = makeGEPAndStore(M, GEPChain, Store);
-    Replacement->insertBefore(InsnToReplace);
+    Replacement->insertBefore(InsnToReplace->getIterator());
   }
   return true;
 }
diff --git a/llvm/lib/Target/DirectX/DXIL.td b/llvm/lib/Target/DirectX/DXIL.td
index beb9b56dba30a..d099bb395449d 100644
--- a/llvm/lib/Target/DirectX/DXIL.td
+++ b/llvm/lib/Target/DirectX/DXIL.td
@@ -235,7 +235,7 @@ defset list<DXILOpClass> OpClasses = {
   def writeSamplerFeedback : DXILOpClass;
   def writeSamplerFeedbackBias : DXILOpClass;
   def writeSamplerFeedbackGrad : DXILOpClass;
-  def writeSamplerFeedbackLevel: DXILOpClass;
+  def writeSamplerFeedbackLevel : DXILOpClass;
 
   // This is a sentinel definition. Hence placed at the end here and
   // not as part of the above alphabetically sorted valid definitions.
@@ -307,34 +307,35 @@ class Attributes<Version ver = DXIL1_0, list<DXILAttribute> attrs> {
   list<DXILAttribute> fn_attrs = attrs;
 }
 
-defvar BarrierMode_DeviceMemoryBarrier              = 2;
+defvar BarrierMode_DeviceMemoryBarrier = 2;
 defvar BarrierMode_DeviceMemoryBarrierWithGroupSync = 3;
-defvar BarrierMode_GroupMemoryBarrier               = 8;
-defvar BarrierMode_GroupMemoryBarrierWithGroupSync  = 9;
-defvar BarrierMode_AllMemoryBarrier                 = 10;
-defvar BarrierMode_AllMemoryBarrierWithGroupSync    = 11;
+defvar BarrierMode_GroupMemoryBarrier = 8;
+defvar BarrierMode_GroupMemoryBarrierWithGroupSync = 9;
+defvar BarrierMode_AllMemoryBarrier = 10;
+defvar BarrierMode_AllMemoryBarrierWithGroupSync = 11;
 
-defvar WaveOpKind_Sum     = 0;
+defvar WaveOpKind_Sum = 0;
 defvar WaveOpKind_Product = 1;
-defvar WaveOpKind_Min     = 2;
-defvar WaveOpKind_Max     = 3;
+defvar WaveOpKind_Min = 2;
+defvar WaveOpKind_Max = 3;
 
-defvar SignedOpKind_Signed   = 0;
+defvar SignedOpKind_Signed = 0;
 defvar SignedOpKind_Unsigned = 1;
 
 // Intrinsic arg selection
 class IntrinArgSelectType;
 def IntrinArgSelect_Index : IntrinArgSelectType;
-def IntrinArgSelect_I8    : IntrinArgSelectType;
-def IntrinArgSelect_I32   : IntrinArgSelectType;
+def IntrinArgSelect_I8 : IntrinArgSelectType;
+def IntrinArgSelect_I32 : IntrinArgSelectType;
 
 class IntrinArgSelect<IntrinArgSelectType type_, int value_> {
   IntrinArgSelectType type = type_;
   int value = value_;
 }
+
 class IntrinArgIndex<int index> : IntrinArgSelect<IntrinArgSelect_Index, index>;
-class IntrinArgI8   <int value> : IntrinArgSelect<IntrinArgSelect_I8,    value>;
-class IntrinArgI32  <int value> : IntrinArgSelect<IntrinArgSelect_I32,   value>;
+class IntrinArgI8<int value> : IntrinArgSelect<IntrinArgSelect_I8, value>;
+class IntrinArgI32<int value> : IntrinArgSelect<IntrinArgSelect_I32, value>;
 
 // Select which intrinsic to lower from for a DXILOp.
 // If the intrinsic is the only argument given to IntrinSelect, then the
@@ -364,7 +365,8 @@ class IntrinArgI32  <int value> : IntrinArgSelect<IntrinArgSelect_I32,   value>;
 //     >,
 //   ]
 //
-class IntrinSelect<Intrinsic intrinsic_, list<IntrinArgSelect> arg_selects_=[]> {
+class IntrinSelect<Intrinsic intrinsic_,
+                   list<IntrinArgSelect> arg_selects_ = []> {
   Intrinsic intrinsic = intrinsic_;
   list<IntrinArgSelect> arg_selects = arg_selects_;
 }
@@ -403,10 +405,12 @@ class DXILOp<int opcode, DXILOpClass opclass> {
 }
 
 // Concrete definitions of DXIL Operations
+//
+// This are sorted by ascending value of the DXIL Opcodes
 
-def Abs :  DXILOp<6, unary> {
+def Abs : DXILOp<6, unary> {
   let Doc = "Returns the absolute value of the input.";
-  let intrinsics = [ IntrinSelect<int_fabs> ];
+  let intrinsics = [IntrinSelect<int_fabs>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy]>];
@@ -414,9 +418,10 @@ def Abs :  DXILOp<6, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Saturate :  DXILOp<7, unary> {
-  let Doc = "Clamps a single or double precision floating point value to [0.0f...1.0f].";
-  let intrinsics = [ IntrinSelect<int_dx_saturate> ];
+def Saturate : DXILOp<7, unary> {
+  let Doc = "Clamps a single or double precision floating point value to "
+            "[0.0f...1.0f].";
+  let intrinsics = [IntrinSelect<int_dx_saturate>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy]>];
@@ -424,9 +429,9 @@ def Saturate :  DXILOp<7, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def IsInf :  DXILOp<9, isSpecialFloat> {
+def IsInf : DXILOp<9, isSpecialFloat> {
   let Doc = "Determines if the specified value is infinite.";
-  let intrinsics = [ IntrinSelect<int_dx_isinf> ];
+  let intrinsics = [IntrinSelect<int_dx_isinf>];
   let arguments = [OverloadTy];
   let result = Int1Ty;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -434,9 +439,9 @@ def IsInf :  DXILOp<9, isSpecialFloat> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Cos :  DXILOp<12, unary> {
+def Cos : DXILOp<12, unary> {
   let Doc = "Returns cosine(theta) for theta in radians.";
-  let intrinsics = [ IntrinSelect<int_cos> ];
+  let intrinsics = [IntrinSelect<int_cos>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -444,9 +449,9 @@ def Cos :  DXILOp<12, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Sin :  DXILOp<13, unary> {
+def Sin : DXILOp<13, unary> {
   let Doc = "Returns sine(theta) for theta in radians.";
-  let intrinsics = [ IntrinSelect<int_sin> ];
+  let intrinsics = [IntrinSelect<int_sin>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -454,9 +459,9 @@ def Sin :  DXILOp<13, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Tan :  DXILOp<14, unary> {
+def Tan : DXILOp<14, unary> {
   let Doc = "Returns tangent(theta) for theta in radians.";
-  let intrinsics = [ IntrinSelect<int_tan> ];
+  let intrinsics = [IntrinSelect<int_tan>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -464,9 +469,9 @@ def Tan :  DXILOp<14, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def ACos :  DXILOp<15, unary> {
+def ACos : DXILOp<15, unary> {
   let Doc = "Returns the arccosine of the specified value.";
-  let intrinsics = [ IntrinSelect<int_acos> ];
+  let intrinsics = [IntrinSelect<int_acos>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -474,9 +479,9 @@ def ACos :  DXILOp<15, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def ASin :  DXILOp<16, unary> {
+def ASin : DXILOp<16, unary> {
   let Doc = "Returns the arcsine of the specified value.";
-  let intrinsics = [ IntrinSelect<int_asin> ];
+  let intrinsics = [IntrinSelect<int_asin>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -484,9 +489,9 @@ def ASin :  DXILOp<16, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def ATan :  DXILOp<17, unary> {
+def ATan : DXILOp<17, unary> {
   let Doc = "Returns the arctangent of the specified value.";
-  let intrinsics = [ IntrinSelect<int_atan> ];
+  let intrinsics = [IntrinSelect<int_atan>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -494,9 +499,9 @@ def ATan :  DXILOp<17, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def HCos :  DXILOp<18, unary> {
+def HCos : DXILOp<18, unary> {
   let Doc = "Returns the hyperbolic cosine of the specified value.";
-  let intrinsics = [ IntrinSelect<int_cosh> ];
+  let intrinsics = [IntrinSelect<int_cosh>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -504,9 +509,9 @@ def HCos :  DXILOp<18, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def HSin :  DXILOp<19, unary> {
+def HSin : DXILOp<19, unary> {
   let Doc = "Returns the hyperbolic sine of the specified value.";
-  let intrinsics = [ IntrinSelect<int_sinh> ];
+  let intrinsics = [IntrinSelect<int_sinh>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -514,9 +519,9 @@ def HSin :  DXILOp<19, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def HTan :  DXILOp<20, unary> {
+def HTan : DXILOp<20, unary> {
   let Doc = "Returns the hyperbolic tan of the specified value.";
-  let intrinsics = [ IntrinSelect<int_tanh> ];
+  let intrinsics = [IntrinSelect<int_tanh>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -524,10 +529,10 @@ def HTan :  DXILOp<20, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Exp2 :  DXILOp<21, unary> {
+def Exp2 : DXILOp<21, unary> {
   let Doc = "Returns the base 2 exponential, or 2**x, of the specified value. "
             "exp2(x) = 2**x.";
-  let intrinsics = [ IntrinSelect<int_exp2> ];
+  let intrinsics = [IntrinSelect<int_exp2>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -535,10 +540,10 @@ def Exp2 :  DXILOp<21, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Frac :  DXILOp<22, unary> {
+def Frac : DXILOp<22, unary> {
   let Doc = "Returns a fraction from 0 to 1 that represents the decimal part "
             "of the input.";
-  let intrinsics = [ IntrinSelect<int_dx_frac> ];
+  let intrinsics = [IntrinSelect<int_dx_frac>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -546,9 +551,9 @@ def Frac :  DXILOp<22, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Log2 :  DXILOp<23, unary> {
+def Log2 : DXILOp<23, unary> {
   let Doc = "Returns the base-2 logarithm of the specified value.";
-  let intrinsics = [ IntrinSelect<int_log2> ];
+  let intrinsics = [IntrinSelect<int_log2>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -556,10 +561,10 @@ def Log2 :  DXILOp<23, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Sqrt :  DXILOp<24, unary> {
+def Sqrt : DXILOp<24, unary> {
   let Doc = "Returns the square root of the specified floating-point value, "
             "per component.";
-  let intrinsics = [ IntrinSelect<int_sqrt> ];
+  let intrinsics = [IntrinSelect<int_sqrt>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -567,10 +572,10 @@ def Sqrt :  DXILOp<24, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def RSqrt :  DXILOp<25, unary> {
+def RSqrt : DXILOp<25, unary> {
   let Doc = "Returns the reciprocal of the square root of the specified value. "
             "rsqrt(x) = 1 / sqrt(x).";
-  let intrinsics = [ IntrinSelect<int_dx_rsqrt> ];
+  let intrinsics = [IntrinSelect<int_dx_rsqrt>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -578,10 +583,10 @@ def RSqrt :  DXILOp<25, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Round :  DXILOp<26, unary> {
+def Round : DXILOp<26, unary> {
   let Doc = "Returns the input rounded to the nearest integer within a "
             "floating-point type.";
-  let intrinsics = [ IntrinSelect<int_roundeven> ];
+  let intrinsics = [IntrinSelect<int_roundeven>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -589,10 +594,10 @@ def Round :  DXILOp<26, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Floor :  DXILOp<27, unary> {
+def Floor : DXILOp<27, unary> {
   let Doc =
       "Returns the largest integer that is less than or equal to the input.";
-  let intrinsics = [ IntrinSelect<int_floor> ];
+  let intrinsics = [IntrinSelect<int_floor>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -600,10 +605,10 @@ def Floor :  DXILOp<27, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Ceil :  DXILOp<28, unary> {
+def Ceil : DXILOp<28, unary> {
   let Doc = "Returns the smallest integer that is greater than or equal to the "
             "input.";
-  let intrinsics = [ IntrinSelect<int_ceil> ];
+  let intrinsics = [IntrinSelect<int_ceil>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -611,9 +616,9 @@ def Ceil :  DXILOp<28, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Trunc :  DXILOp<29, unary> {
+def Trunc : DXILOp<29, unary> {
   let Doc = "Returns the specified value truncated to the integer component.";
-  let intrinsics = [ IntrinSelect<int_trunc> ];
+  let intrinsics = [IntrinSelect<int_trunc>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -621,23 +626,21 @@ def Trunc :  DXILOp<29, unary> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Rbits :  DXILOp<30, unary> {
+def Rbits : DXILOp<30, unary> {
   let Doc = "Returns the specified value with its bits reversed.";
-  let intrinsics = [ IntrinSelect<int_bitreverse> ];
+  let intrinsics = [IntrinSelect<int_bitreverse>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def CountBits :  DXILOp<31, unaryBits> {
+def CountBits : DXILOp<31, unaryBits> {
   let Doc = "Returns the number of 1 bits in the specified value.";
   let arguments = [OverloadTy];
   let result = Int32Ty;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
@@ -645,145 +648,133 @@ def CountBits :  DXILOp<31, unaryBits> {
 def FirstbitLo : DXILOp<32, unaryBits> {
   let Doc = "Returns the location of the first set bit starting from "
             "the lowest order bit and working upward.";
-  let intrinsics = [ IntrinSelect<int_dx_firstbitlow> ];
+  let intrinsics = [IntrinSelect<int_dx_firstbitlow>];
   let arguments = [OverloadTy];
   let result = Int32Ty;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def FirstbitHi :  DXILOp<33, unaryBits> {
+def FirstbitHi : DXILOp<33, unaryBits> {
   let Doc = "Returns the location of the first set bit starting from "
             "the highest order bit and working downward.";
-  let intrinsics = [ IntrinSelect<int_dx_firstbituhigh> ];
+  let intrinsics = [IntrinSelect<int_dx_firstbituhigh>];
   let arguments = [OverloadTy];
   let result = Int32Ty;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def FirstbitSHi :  DXILOp<34, unaryBits> {
+def FirstbitSHi : DXILOp<34, unaryBits> {
   let Doc = "Returns the location of the first set bit from "
             "the highest order bit based on the sign.";
-  let intrinsics = [ IntrinSelect<int_dx_firstbitshigh> ];
+  let intrinsics = [IntrinSelect<int_dx_firstbitshigh>];
   let arguments = [OverloadTy];
   let result = Int32Ty;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def FMax :  DXILOp<35, binary> {
+def FMax : DXILOp<35, binary> {
   let Doc = "Float maximum. FMax(a,b) = a > b ? a : b";
-  let intrinsics = [ IntrinSelect<int_maxnum> ];
+  let intrinsics = [IntrinSelect<int_maxnum>];
   let arguments = [OverloadTy, OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy]>];
+  let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def FMin :  DXILOp<36, binary> {
+def FMin : DXILOp<36, binary> {
   let Doc = "Float minimum. FMin(a,b) = a < b ? a : b";
-  let intrinsics = [ IntrinSelect<int_minnum> ];
+  let intrinsics = [IntrinSelect<int_minnum>];
   let arguments = [OverloadTy, OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy]>];
+  let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def SMax :  DXILOp<37, binary> {
+def SMax : DXILOp<37, binary> {
   let Doc = "Signed integer maximum. SMax(a,b) = a > b ? a : b";
-  let intrinsics = [ IntrinSelect<int_smax> ];
+  let intrinsics = [IntrinSelect<int_smax>];
   let arguments = [OverloadTy, OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def SMin :  DXILOp<38, binary> {
+def SMin : DXILOp<38, binary> {
   let Doc = "Signed integer minimum. SMin(a,b) = a < b ? a : b";
-  let intrinsics = [ IntrinSelect<int_smin> ];
+  let intrinsics = [IntrinSelect<int_smin>];
   let arguments = [OverloadTy, OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def UMax :  DXILOp<39, binary> {
+def UMax : DXILOp<39, binary> {
   let Doc = "Unsigned integer maximum. UMax(a,b) = a > b ? a : b";
-  let intrinsics = [ IntrinSelect<int_umax> ];
+  let intrinsics = [IntrinSelect<int_umax>];
   let arguments = [OverloadTy, OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def UMin :  DXILOp<40, binary> {
+def UMin : DXILOp<40, binary> {
   let Doc = "Unsigned integer minimum. UMin(a,b) = a < b ? a : b";
-  let intrinsics = [ IntrinSelect<int_umin> ];
+  let intrinsics = [IntrinSelect<int_umin>];
   let arguments = [OverloadTy, OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def FMad :  DXILOp<46, tertiary> {
+def FMad : DXILOp<46, tertiary> {
   let Doc = "Floating point arithmetic multiply/add operation. fmad(m,a,b) = m "
             "* a + b.";
-  let intrinsics = [ IntrinSelect<int_fmuladd> ];
+  let intrinsics = [IntrinSelect<int_fmuladd>];
   let arguments = [OverloadTy, OverloadTy, OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy]>];
+  let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def IMad :  DXILOp<48, tertiary> {
+def IMad : DXILOp<48, tertiary> {
   let Doc = "Signed integer arithmetic multiply/add operation. imad(m,a,b) = m "
             "* a + b.";
-  let intrinsics = [ IntrinSelect<int_dx_imad> ];
+  let intrinsics = [IntrinSelect<int_dx_imad>];
   let arguments = [OverloadTy, OverloadTy, OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def UMad :  DXILOp<49, tertiary> {
+def UMad : DXILOp<49, tertiary> {
   let Doc = "Unsigned integer arithmetic multiply/add operation. umad(m,a, = m "
             "* a + b.";
-  let intrinsics = [ IntrinSelect<int_dx_umad> ];
+  let intrinsics = [IntrinSelect<int_dx_umad>];
   let arguments = [OverloadTy, OverloadTy, OverloadTy];
   let result = OverloadTy;
-  let overloads =
-      [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
+  let overloads = [Overloads<DXIL1_0, [Int16Ty, Int32Ty, Int64Ty]>];
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Dot2 :  DXILOp<54, dot2> {
+def Dot2 : DXILOp<54, dot2> {
   let Doc = "dot product of two float vectors Dot(a,b) = a[0]*b[0] + ... + "
             "a[n]*b[n] where n is 0 to 1 inclusive";
-  let intrinsics = [ IntrinSelect<int_dx_dot2> ];
+  let intrinsics = [IntrinSelect<int_dx_dot2>];
   let arguments = !listsplat(OverloadTy, 4);
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -791,10 +782,10 @@ def Dot2 :  DXILOp<54, dot2> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Dot3 :  DXILOp<55, dot3> {
+def Dot3 : DXILOp<55, dot3> {
   let Doc = "dot product of two float vectors Dot(a,b) = a[0]*b[0] + ... + "
             "a[n]*b[n] where n is 0 to 2 inclusive";
-  let intrinsics = [ IntrinSelect<int_dx_dot3> ];
+  let intrinsics = [IntrinSelect<int_dx_dot3>];
   let arguments = !listsplat(OverloadTy, 6);
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -802,10 +793,10 @@ def Dot3 :  DXILOp<55, dot3> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def Dot4 :  DXILOp<56, dot4> {
+def Dot4 : DXILOp<56, dot4> {
   let Doc = "dot product of two float vectors Dot(a,b) = a[0]*b[0] + ... + "
             "a[n]*b[n] where n is 0 to 3 inclusive";
-  let intrinsics = [ IntrinSelect<int_dx_dot4> ];
+  let intrinsics = [IntrinSelect<int_dx_dot4>];
   let arguments = !listsplat(OverloadTy, 8);
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy]>];
@@ -866,17 +857,31 @@ def CheckAccessFullyMapped : DXILOp<71, checkAccessFullyMapped> {
   let attributes = [Attributes<DXIL1_0, [ReadOnly]>];
 }
 
+def Barrier : DXILOp<80, barrier> {
+  let Doc = "inserts a memory barrier in the shader";
+  let intrinsics = [
+    IntrinSelect<int_dx_group_memory_barrier_with_group_sync,
+                 [IntrinArgI32<BarrierMode_GroupMemoryBarrierWithGroupSync>]>,
+  ];
+
+  let arguments = [Int32Ty];
+  let result = VoidTy;
+  let stages = [Stages<DXIL1_0, [compute, library]>];
+  let attributes = [Attributes<DXIL1_0, []>];
+  let properties = [IsBarrier];
+}
+
 def Discard : DXILOp<82, discard> {
   let Doc = "discard the current pixel";
-  let intrinsics = [ IntrinSelect<int_dx_discard> ];
+  let intrinsics = [IntrinSelect<int_dx_discard>];
   let arguments = [Int1Ty];
   let result = VoidTy;
   let stages = [Stages<DXIL1_0, [pixel]>];
 }
 
-def ThreadId :  DXILOp<93, threadId> {
+def ThreadId : DXILOp<93, threadId> {
   let Doc = "Reads the thread ID";
-  let intrinsics = [ IntrinSelect<int_dx_thread_id> ];
+  let intrinsics = [IntrinSelect<int_dx_thread_id>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [Int32Ty]>];
@@ -884,9 +889,9 @@ def ThreadId :  DXILOp<93, threadId> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def GroupId :  DXILOp<94, groupId> {
+def GroupId : DXILOp<94, groupId> {
   let Doc = "Reads the group ID (SV_GroupID)";
-  let intrinsics = [ IntrinSelect<int_dx_group_id> ];
+  let intrinsics = [IntrinSelect<int_dx_group_id>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [Int32Ty]>];
@@ -894,9 +899,9 @@ def GroupId :  DXILOp<94, groupId> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def ThreadIdInGroup :  DXILOp<95, threadIdInGroup> {
+def ThreadIdInGroup : DXILOp<95, threadIdInGroup> {
   let Doc = "Reads the thread ID within the group  (SV_GroupThreadID)";
-  let intrinsics = [ IntrinSelect<int_dx_thread_id_in_group> ];
+  let intrinsics = [IntrinSelect<int_dx_thread_id_in_group>];
   let arguments = [OverloadTy];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [Int32Ty]>];
@@ -904,26 +909,26 @@ def ThreadIdInGroup :  DXILOp<95, threadIdInGroup> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def FlattenedThreadIdInGroup :  DXILOp<96, flattenedThreadIdInGroup> {
+def FlattenedThreadIdInGroup : DXILOp<96, flattenedThreadIdInGroup> {
   let Doc = "Provides a flattened index for a given thread within a given "
             "group (SV_GroupIndex)";
-  let intrinsics = [ IntrinSelect<int_dx_flattened_thread_id_in_group> ];
+  let intrinsics = [IntrinSelect<int_dx_flattened_thread_id_in_group>];
   let result = OverloadTy;
   let overloads = [Overloads<DXIL1_0, [Int32Ty]>];
   let stages = [Stages<DXIL1_0, [compute, mesh, amplification, node]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def MakeDouble :  DXILOp<101, makeDouble> {
+def MakeDouble : DXILOp<101, makeDouble> {
   let Doc = "creates a double value";
-  let intrinsics = [ IntrinSelect<int_dx_asdouble> ];
+  let intrinsics = [IntrinSelect<int_dx_asdouble>];
   let arguments = [Int32Ty, Int32Ty];
   let result = DoubleTy;
   let stages = [Stages<DXIL1_0, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
-def SplitDouble :  DXILOp<102, splitDouble> {
+def SplitDouble : DXILOp<102, splitDouble> {
   let Doc = "Splits a double into 2 uints";
   let arguments = [OverloadTy];
   let result = SplitDoubleTy;
@@ -932,6 +937,89 @@ def SplitDouble :  DXILOp<102, splitDouble> {
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
 
+def WaveIsFirstLane : DXILOp<110, waveIsFirstLane> {
+  let Doc = "returns 1 for the first lane in the wave";
+  let intrinsics = [IntrinSelect<int_dx_wave_is_first_lane>];
+  let arguments = [];
+  let result = Int1Ty;
+  let stages = [Stages<DXIL1_0, [all_stages]>];
+  let properties = [IsWave];
+}
+
+def WaveGetLaneIndex : DXILOp<111, waveGetLaneIndex> {
+  let Doc = "returns the index of the current lane in the wave";
+  let intrinsics = [IntrinSelect<int_dx_wave_getlaneindex>];
+  let arguments = [];
+  let result = Int32Ty;
+  let stages = [Stages<DXIL1_0, [all_stages]>];
+  let attributes = [Attributes<DXIL1_0, [ReadOnly]>];
+  let properties = [IsWave];
+}
+
+def WaveActiveAnyTrue : DXILOp<113, waveAnyTrue> {
+  let Doc = "returns true if the expression is true in any of the active lanes "
+            "in the current wave";
+  let intrinsics = [IntrinSelect<int_dx_wave_any>];
+  let arguments = [Int1Ty];
+  let result = Int1Ty;
+  let stages = [Stages<DXIL1_0, [all_stages]>];
+  let properties = [IsWave];
+}
+
+def WaveActiveAllTrue : DXILOp<114, waveAllTrue> {
+  let Doc = "returns true if the expression is true in all of the active lanes "
+            "in the current wave";
+  let intrinsics = [IntrinSelect<int_dx_wave_all>];
+  let arguments = [Int1Ty];
+  let result = Int1Ty;
+  let stages = [Stages<DXIL1_0, [all_stages]>];
+  let properties = [IsWave];
+}
+
+def WaveReadLaneAt : DXILOp<117, waveReadLaneAt> {
+  let Doc = "returns the value from the specified lane";
+  let intrinsics = [IntrinSelect<int_dx_wave_readlane>];
+  let arguments = [OverloadTy, Int32Ty];
+  let result = OverloadTy;
+  let overloads = [Overloads<
+      DXIL1_0, [HalfTy, FloatTy, DoubleTy, Int1Ty, Int16Ty, Int32Ty, Int64Ty]>];
+  let stages = [Stages<DXIL1_0, [all_stages]>];
+  let properties = [IsWave];
+}
+
+def WaveActiveOp : DXILOp<119, waveActiveOp> {
+  let Doc = "returns the result of the operation across waves";
+  let intrinsics = [
+    IntrinSelect<int_dx_wave_reduce_sum,
+                 [
+                   IntrinArgIndex<0>, IntrinArgI8<WaveOpKind_Sum>,
+                   IntrinArgI8<SignedOpKind_Signed>
+                 ]>,
+    IntrinSelect<int_dx_wave_reduce_usum,
+                 [
+                   IntrinArgIndex<0>, IntrinArgI8<WaveOpKind_Sum>,
+                   IntrinArgI8<SignedOpKind_Unsigned>
+                 ]>,
+  ];
+
+  let arguments = [OverloadTy, Int8Ty, Int8Ty];
+  let result = OverloadTy;
+  let overloads = [
+    Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy, Int16Ty, Int32Ty, Int64Ty]>
+  ];
+  let stages = [Stages<DXIL1_0, [all_stages]>];
+  let attributes = [Attributes<DXIL1_0, [ReadNone]>];
+}
+
+def WaveAllBitCount : DXILOp<135, waveAllOp> {
+  let Doc = "returns the count of bits set to 1 across the wave";
+  let intrinsics = [IntrinSelect<int_dx_wave_active_countbits>];
+  let arguments = [Int1Ty];
+  let result = Int32Ty;
+  let stages = [Stages<DXIL1_0, [all_stages]>];
+  let properties = [IsWave];
+}
+
 def RawBufferLoad : DXILOp<139, rawBufferLoad> {
   let Doc = "reads from a raw buffer and structured buffer";
   // Handle, Coord0, Coord1, Mask, Alignment
@@ -972,7 +1060,7 @@ def RawBufferStore : DXILOp<140, rawBufferStore> {
 def Dot4AddI8Packed : DXILOp<163, dot4AddPacked> {
   let Doc = "signed dot product of 4 x i8 vectors packed into i32, with "
             "accumulate to i32";
-  let intrinsics = [ IntrinSelect<int_dx_dot4add_i8packed> ];
+  let intrinsics = [IntrinSelect<int_dx_dot4add_i8packed>];
   let arguments = [Int32Ty, Int32Ty, Int32Ty];
   let result = Int32Ty;
   let stages = [Stages<DXIL1_0, [all_stages]>];
@@ -982,7 +1070,7 @@ def Dot4AddI8Packed : DXILOp<163, dot4AddPacked> {
 def Dot4AddU8Packed : DXILOp<164, dot4AddPacked> {
   let Doc = "unsigned dot product of 4 x i8 vectors packed into i32, with "
             "accumulate to i32";
-  let intrinsics = [ IntrinSelect<int_dx_dot4add_u8packed> ];
+  let intrinsics = [IntrinSelect<int_dx_dot4add_u8packed>];
   let arguments = [Int32Ty, Int32Ty, Int32Ty];
   let result = Int32Ty;
   let stages = [Stages<DXIL1_0, [all_stages]>];
@@ -1004,92 +1092,3 @@ def CreateHandleFromBinding : DXILOp<217, createHandleFromBinding> {
   let stages = [Stages<DXIL1_6, [all_stages]>];
   let attributes = [Attributes<DXIL1_0, [ReadNone]>];
 }
-
-def WaveActiveAllTrue : DXILOp<114, waveAllTrue> {
-  let Doc = "returns true if the expression is true in all of the active lanes in the current wave";
-  let intrinsics = [ IntrinSelect<int_dx_wave_all> ];
-  let arguments = [Int1Ty];
-  let result = Int1Ty;
-  let stages = [Stages<DXIL1_0, [all_stages]>];
-  let properties = [IsWave];
-}
-
-def WaveActiveAnyTrue : DXILOp<113, waveAnyTrue> {
-  let Doc = "returns true if the expression is true in any of the active lanes in the current wave";
-  let intrinsics = [ IntrinSelect<int_dx_wave_any> ];
-  let arguments = [Int1Ty];
-  let result = Int1Ty;
-  let stages = [Stages<DXIL1_0, [all_stages]>];
-  let properties = [IsWave];
-}
-
-def WaveActiveOp : DXILOp<119, waveActiveOp> {
-  let Doc = "returns the result of the operation across waves";
-  let intrinsics = [
-    IntrinSelect<
-        int_dx_wave_reduce_sum,
-        [ IntrinArgIndex<0>, IntrinArgI8<WaveOpKind_Sum>, IntrinArgI8<SignedOpKind_Signed> ]>,
-    IntrinSelect<
-        int_dx_wave_reduce_usum,
-        [ IntrinArgIndex<0>, IntrinArgI8<WaveOpKind_Sum>, IntrinArgI8<SignedOpKind_Unsigned> ]>,
-  ];
-
-  let arguments = [OverloadTy, Int8Ty, Int8Ty];
-  let result = OverloadTy;
-  let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy, Int16Ty, Int32Ty, Int64Ty]>];
-  let stages = [Stages<DXIL1_0, [all_stages]>];
-  let attributes = [Attributes<DXIL1_0, [ReadNone]>];
-}
-
-def WaveIsFirstLane :  DXILOp<110, waveIsFirstLane> {
-  let Doc = "returns 1 for the first lane in the wave";
-  let intrinsics = [ IntrinSelect<int_dx_wave_is_first_lane> ];
-  let arguments = [];
-  let result = Int1Ty;
-  let stages = [Stages<DXIL1_0, [all_stages]>];
-  let properties = [IsWave];
-}
-
-def WaveReadLaneAt:  DXILOp<117, waveReadLaneAt> {
-  let Doc = "returns the value from the specified lane";
-  let intrinsics = [ IntrinSelect<int_dx_wave_readlane> ];
-  let arguments = [OverloadTy, Int32Ty];
-  let result = OverloadTy;
-  let overloads = [Overloads<DXIL1_0, [HalfTy, FloatTy, DoubleTy, Int1Ty, Int16Ty, Int32Ty, Int64Ty]>];
-  let stages = [Stages<DXIL1_0, [all_stages]>];
-  let properties = [IsWave];
-}
-
-def WaveGetLaneIndex : DXILOp<111, waveGetLaneIndex> {
-  let Doc = "returns the index of the current lane in the wave";
-  let intrinsics = [ IntrinSelect<int_dx_wave_getlaneindex> ];
-  let arguments = [];
-  let result = Int32Ty;
-  let stages = [Stages<DXIL1_0, [all_stages]>];
-  let attributes = [Attributes<DXIL1_0, [ReadOnly]>];
-  let properties = [IsWave];
-}
-
-def WaveAllBitCount : DXILOp<135, waveAllOp> {
-  let Doc = "returns the count of bits set to 1 across the wave";
-  let intrinsics = [ IntrinSelect<int_dx_wave_active_countbits> ];
-  let arguments = [Int1Ty];
-  let result = Int32Ty;
-  let stages = [Stages<DXIL1_0, [all_stages]>];
-  let properties = [IsWave];
-}
-
-def Barrier : DXILOp<80, barrier> {
-  let Doc = "inserts a memory barrier in the shader";
-  let intrinsics = [
-    IntrinSelect<
-        int_dx_group_memory_barrier_with_group_sync,
-        [ IntrinArgI32<BarrierMode_GroupMemoryBarrierWithGroupSync> ]>,
-  ];
-
-  let arguments = [Int32Ty];
-  let result = VoidTy;
-  let stages = [Stages<DXIL1_0, [compute, library]>];
-  let attributes = [Attributes<DXIL1_0, []>];
-  let properties = [IsBarrier];
-}
diff --git a/llvm/lib/Target/DirectX/DXILResourceAccess.cpp b/llvm/lib/Target/DirectX/DXILResourceAccess.cpp
index 837624935c5fa..3b8f7140d3122 100644
--- a/llvm/lib/Target/DirectX/DXILResourceAccess.cpp
+++ b/llvm/lib/Target/DirectX/DXILResourceAccess.cpp
@@ -21,99 +21,207 @@
 
 using namespace llvm;
 
-static void replaceTypedBufferAccess(IntrinsicInst *II,
-                                     dxil::ResourceTypeInfo &RTI) {
-  const DataLayout &DL = II->getDataLayout();
+static Value *calculateGEPOffset(GetElementPtrInst *GEP, Value *PrevOffset,
+                                 dxil::ResourceTypeInfo &RTI) {
+  assert(!PrevOffset && "Non-constant GEP chains not handled yet");
+
+  const DataLayout &DL = GEP->getDataLayout();
+
+  uint64_t ScalarSize = 1;
+  if (RTI.isTyped()) {
+    Type *ContainedType = RTI.getHandleTy()->getTypeParameter(0);
+    // We need the size of an element in bytes so that we can calculate the
+    // offset in elements given a total offset in bytes.
+    Type *ScalarType = ContainedType->getScalarType();
+    ScalarSize = DL.getTypeSizeInBits(ScalarType) / 8;
+  }
+
+  APInt ConstantOffset(DL.getIndexTypeSizeInBits(GEP->getType()), 0);
+  if (GEP->accumulateConstantOffset(DL, ConstantOffset)) {
+    APInt Scaled = ConstantOffset.udiv(ScalarSize);
+    return ConstantInt::get(Type::getInt32Ty(GEP->getContext()), Scaled);
+  }
+
+  auto IndexIt = GEP->idx_begin();
+  assert(cast<ConstantInt>(IndexIt)->getZExtValue() == 0 &&
+         "GEP is not indexing through pointer");
+  ++IndexIt;
+  Value *Offset = *IndexIt;
+  assert(++IndexIt == GEP->idx_end() && "Too many indices in GEP");
+  return Offset;
+}
+
+static void createTypedBufferStore(IntrinsicInst *II, StoreInst *SI,
+                                   Value *Offset, dxil::ResourceTypeInfo &RTI) {
+  IRBuilder<> Builder(SI);
+  Type *ContainedType = RTI.getHandleTy()->getTypeParameter(0);
+  Type *LoadType = StructType::get(ContainedType, Builder.getInt1Ty());
+
+  Value *V = SI->getValueOperand();
+  if (V->getType() == ContainedType) {
+    // V is already the right type.
+    assert(!Offset && "store of whole element has offset?");
+  } else if (V->getType() == ContainedType->getScalarType()) {
+    // We're storing a scalar, so we need to load the current value and only
+    // replace the relevant part.
+    auto *Load = Builder.CreateIntrinsic(
+        LoadType, Intrinsic::dx_resource_load_typedbuffer,
+        {II->getOperand(0), II->getOperand(1)});
+    auto *Struct = Builder.CreateExtractValue(Load, {0});
+
+    // If we have an offset from seeing a GEP earlier, use that. Otherwise, 0.
+    if (!Offset)
+      Offset = ConstantInt::get(Builder.getInt32Ty(), 0);
+    V = Builder.CreateInsertElement(Struct, V, Offset);
+  } else {
+    llvm_unreachable("Store to typed resource has invalid type");
+  }
+
+  auto *Inst = Builder.CreateIntrinsic(
+      Builder.getVoidTy(), Intrinsic::dx_resource_store_typedbuffer,
+      {II->getOperand(0), II->getOperand(1), V});
+  SI->replaceAllUsesWith(Inst);
+}
+
+static void createRawStore(IntrinsicInst *II, StoreInst *SI, Value *Offset) {
+  IRBuilder<> Builder(SI);
+
+  if (!Offset)
+    Offset = ConstantInt::get(Builder.getInt32Ty(), 0);
+  Value *V = SI->getValueOperand();
+  // TODO: break up larger types
+  auto *Inst = Builder.CreateIntrinsic(
+      Builder.getVoidTy(), Intrinsic::dx_resource_store_rawbuffer,
+      {II->getOperand(0), II->getOperand(1), Offset, V});
+  SI->replaceAllUsesWith(Inst);
+}
+
+static void createStoreIntrinsic(IntrinsicInst *II, StoreInst *SI,
+                                 Value *Offset, dxil::ResourceTypeInfo &RTI) {
+  switch (RTI.getResourceKind()) {
+  case dxil::ResourceKind::TypedBuffer:
+    return createTypedBufferStore(II, SI, Offset, RTI);
+  case dxil::ResourceKind::RawBuffer:
+  case dxil::ResourceKind::StructuredBuffer:
+    return createRawStore(II, SI, Offset);
+  case dxil::ResourceKind::Texture1D:
+  case dxil::ResourceKind::Texture2D:
+  case dxil::ResourceKind::Texture2DMS:
+  case dxil::ResourceKind::Texture3D:
+  case dxil::ResourceKind::TextureCube:
+  case dxil::ResourceKind::Texture1DArray:
+  case dxil::ResourceKind::Texture2DArray:
+  case dxil::ResourceKind::Texture2DMSArray:
+  case dxil::ResourceKind::TextureCubeArray:
+  case dxil::ResourceKind::FeedbackTexture2D:
+  case dxil::ResourceKind::FeedbackTexture2DArray:
+    report_fatal_error("DXIL Load not implemented yet",
+                       /*gen_crash_diag=*/false);
+    return;
+  case dxil::ResourceKind::CBuffer:
+  case dxil::ResourceKind::Sampler:
+  case dxil::ResourceKind::TBuffer:
+  case dxil::ResourceKind::RTAccelerationStructure:
+  case dxil::ResourceKind::Invalid:
+  case dxil::ResourceKind::NumEntries:
+    llvm_unreachable("Invalid resource kind for store");
+  }
+  llvm_unreachable("Unhandled case in switch");
+}
+
+static void createTypedBufferLoad(IntrinsicInst *II, LoadInst *LI,
+                                  Value *Offset, dxil::ResourceTypeInfo &RTI) {
+  IRBuilder<> Builder(LI);
+  Type *ContainedType = RTI.getHandleTy()->getTypeParameter(0);
+  Type *LoadType = StructType::get(ContainedType, Builder.getInt1Ty());
 
-  auto *HandleType = cast<TargetExtType>(II->getOperand(0)->getType());
-  assert(HandleType->getName() == "dx.TypedBuffer" &&
-         "Unexpected typed buffer type");
-  Type *ContainedType = HandleType->getTypeParameter(0);
+  Value *V =
+      Builder.CreateIntrinsic(LoadType, Intrinsic::dx_resource_load_typedbuffer,
+                              {II->getOperand(0), II->getOperand(1)});
+  V = Builder.CreateExtractValue(V, {0});
 
-  Type *LoadType =
-      StructType::get(ContainedType, Type::getInt1Ty(II->getContext()));
+  if (Offset)
+    V = Builder.CreateExtractElement(V, Offset);
 
-  // We need the size of an element in bytes so that we can calculate the offset
-  // in elements given a total offset in bytes later.
-  Type *ScalarType = ContainedType->getScalarType();
-  uint64_t ScalarSize = DL.getTypeSizeInBits(ScalarType) / 8;
+  LI->replaceAllUsesWith(V);
+}
 
+static void createRawLoad(IntrinsicInst *II, LoadInst *LI, Value *Offset) {
+  IRBuilder<> Builder(LI);
+  // TODO: break up larger types
+  Type *LoadType = StructType::get(LI->getType(), Builder.getInt1Ty());
+  if (!Offset)
+    Offset = ConstantInt::get(Builder.getInt32Ty(), 0);
+  Value *V =
+      Builder.CreateIntrinsic(LoadType, Intrinsic::dx_resource_load_rawbuffer,
+                              {II->getOperand(0), II->getOperand(1), Offset});
+  V = Builder.CreateExtractValue(V, {0});
+
+  LI->replaceAllUsesWith(V);
+}
+
+static void createLoadIntrinsic(IntrinsicInst *II, LoadInst *LI, Value *Offset,
+                                dxil::ResourceTypeInfo &RTI) {
+  switch (RTI.getResourceKind()) {
+  case dxil::ResourceKind::TypedBuffer:
+    return createTypedBufferLoad(II, LI, Offset, RTI);
+  case dxil::ResourceKind::RawBuffer:
+  case dxil::ResourceKind::StructuredBuffer:
+    return createRawLoad(II, LI, Offset);
+  case dxil::ResourceKind::Texture1D:
+  case dxil::ResourceKind::Texture2D:
+  case dxil::ResourceKind::Texture2DMS:
+  case dxil::ResourceKind::Texture3D:
+  case dxil::ResourceKind::TextureCube:
+  case dxil::ResourceKind::Texture1DArray:
+  case dxil::ResourceKind::Texture2DArray:
+  case dxil::ResourceKind::Texture2DMSArray:
+  case dxil::ResourceKind::TextureCubeArray:
+  case dxil::ResourceKind::FeedbackTexture2D:
+  case dxil::ResourceKind::FeedbackTexture2DArray:
+  case dxil::ResourceKind::CBuffer:
+  case dxil::ResourceKind::TBuffer:
+    // TODO: handle these
+    return;
+  case dxil::ResourceKind::Sampler:
+  case dxil::ResourceKind::RTAccelerationStructure:
+  case dxil::ResourceKind::Invalid:
+  case dxil::ResourceKind::NumEntries:
+    llvm_unreachable("Invalid resource kind for load");
+  }
+  llvm_unreachable("Unhandled case in switch");
+}
+
+static void replaceAccess(IntrinsicInst *II, dxil::ResourceTypeInfo &RTI) {
   // Process users keeping track of indexing accumulated from GEPs.
-  struct AccessAndIndex {
+  struct AccessAndOffset {
     User *Access;
-    Value *Index;
+    Value *Offset;
   };
-  SmallVector<AccessAndIndex> Worklist;
+  SmallVector<AccessAndOffset> Worklist;
   for (User *U : II->users())
     Worklist.push_back({U, nullptr});
 
   SmallVector<Instruction *> DeadInsts;
   while (!Worklist.empty()) {
-    AccessAndIndex Current = Worklist.back();
+    AccessAndOffset Current = Worklist.back();
     Worklist.pop_back();
 
     if (auto *GEP = dyn_cast<GetElementPtrInst>(Current.Access)) {
       IRBuilder<> Builder(GEP);
 
-      Value *Index;
-      APInt ConstantOffset(DL.getIndexTypeSizeInBits(GEP->getType()), 0);
-      if (GEP->accumulateConstantOffset(DL, ConstantOffset)) {
-        APInt Scaled = ConstantOffset.udiv(ScalarSize);
-        Index = ConstantInt::get(Builder.getInt32Ty(), Scaled);
-      } else {
-        auto IndexIt = GEP->idx_begin();
-        assert(cast<ConstantInt>(IndexIt)->getZExtValue() == 0 &&
-               "GEP is not indexing through pointer");
-        ++IndexIt;
-        Index = *IndexIt;
-        assert(++IndexIt == GEP->idx_end() && "Too many indices in GEP");
-      }
-
+      Value *Offset = calculateGEPOffset(GEP, Current.Offset, RTI);
       for (User *U : GEP->users())
-        Worklist.push_back({U, Index});
+        Worklist.push_back({U, Offset});
       DeadInsts.push_back(GEP);
 
     } else if (auto *SI = dyn_cast<StoreInst>(Current.Access)) {
       assert(SI->getValueOperand() != II && "Pointer escaped!");
-      IRBuilder<> Builder(SI);
-
-      Value *V = SI->getValueOperand();
-      if (V->getType() == ContainedType) {
-        // V is already the right type.
-      } else if (V->getType() == ScalarType) {
-        // We're storing a scalar, so we need to load the current value and only
-        // replace the relevant part.
-        auto *Load = Builder.CreateIntrinsic(
-            LoadType, Intrinsic::dx_resource_load_typedbuffer,
-            {II->getOperand(0), II->getOperand(1)});
-        auto *Struct = Builder.CreateExtractValue(Load, {0});
-
-        // If we have an offset from seeing a GEP earlier, use it.
-        Value *IndexOp = Current.Index
-                             ? Current.Index
-                             : ConstantInt::get(Builder.getInt32Ty(), 0);
-        V = Builder.CreateInsertElement(Struct, V, IndexOp);
-      } else {
-        llvm_unreachable("Store to typed resource has invalid type");
-      }
-
-      auto *Inst = Builder.CreateIntrinsic(
-          Builder.getVoidTy(), Intrinsic::dx_resource_store_typedbuffer,
-          {II->getOperand(0), II->getOperand(1), V});
-      SI->replaceAllUsesWith(Inst);
+      createStoreIntrinsic(II, SI, Current.Offset, RTI);
       DeadInsts.push_back(SI);
 
     } else if (auto *LI = dyn_cast<LoadInst>(Current.Access)) {
-      IRBuilder<> Builder(LI);
-      Value *V = Builder.CreateIntrinsic(
-          LoadType, Intrinsic::dx_resource_load_typedbuffer,
-          {II->getOperand(0), II->getOperand(1)});
-      V = Builder.CreateExtractValue(V, {0});
-
-      if (Current.Index)
-        V = Builder.CreateExtractElement(V, Current.Index);
-
-      LI->replaceAllUsesWith(V);
+      createLoadIntrinsic(II, LI, Current.Offset, RTI);
       DeadInsts.push_back(LI);
 
     } else
@@ -137,15 +245,8 @@ static bool transformResourcePointers(Function &F, DXILResourceTypeMap &DRTM) {
           Resources.emplace_back(II, DRTM[HandleTy]);
         }
 
-  for (auto &[II, RI] : Resources) {
-    if (RI.isTyped()) {
-      Changed = true;
-      replaceTypedBufferAccess(II, RI);
-    }
-
-    // TODO: handle other resource types. We should probably have an
-    // `unreachable` here once we've added support for all of them.
-  }
+  for (auto &[II, RI] : Resources)
+    replaceAccess(II, RI);
 
   return Changed;
 }
diff --git a/llvm/lib/Target/Hexagon/HexagonVectorLoopCarriedReuse.cpp b/llvm/lib/Target/Hexagon/HexagonVectorLoopCarriedReuse.cpp
index 29e107473f845..145cdbce27273 100644
--- a/llvm/lib/Target/Hexagon/HexagonVectorLoopCarriedReuse.cpp
+++ b/llvm/lib/Target/Hexagon/HexagonVectorLoopCarriedReuse.cpp
@@ -543,7 +543,7 @@ void HexagonVectorLoopCarriedReuse::reuseValue() {
     }
     InstsInPreheader.push_back(InstInPreheader);
     InstInPreheader->setName(Inst2Replace->getName() + ".hexagon.vlcr");
-    InstInPreheader->insertBefore(LoopPH->getTerminator());
+    InstInPreheader->insertBefore(LoopPH->getTerminator()->getIterator());
     LLVM_DEBUG(dbgs() << "Added " << *InstInPreheader << " to "
                       << LoopPH->getName() << "\n");
   }
diff --git a/llvm/lib/Target/Mips/MipsBranchExpansion.cpp b/llvm/lib/Target/Mips/MipsBranchExpansion.cpp
index 80f3f1ec8090e..eb7f3f8792bfb 100644
--- a/llvm/lib/Target/Mips/MipsBranchExpansion.cpp
+++ b/llvm/lib/Target/Mips/MipsBranchExpansion.cpp
@@ -767,6 +767,8 @@ bool MipsBranchExpansion::handleMFLOSlot(Pred Predicate, Safe SafeInSlot) {
         std::pair<Iter, bool> Res = getNextMachineInstr(std::next(I), &*FI);
         LastInstInFunction |= Res.second;
         IInSlot = Res.first;
+        if (LastInstInFunction)
+          continue;
         if (!SafeInSlot(*IInSlot, *I)) {
           Changed = true;
           TII->insertNop(*(I->getParent()), std::next(I), I->getDebugLoc())
diff --git a/llvm/lib/Target/Mips/MipsSEISelLowering.cpp b/llvm/lib/Target/Mips/MipsSEISelLowering.cpp
index 1d1b0f9c6ae2a..71a70d9c2dd46 100644
--- a/llvm/lib/Target/Mips/MipsSEISelLowering.cpp
+++ b/llvm/lib/Target/Mips/MipsSEISelLowering.cpp
@@ -42,6 +42,7 @@
 #include "llvm/TargetParser/Triple.h"
 #include <algorithm>
 #include <cassert>
+#include <cstddef>
 #include <cstdint>
 #include <iterator>
 #include <utility>
@@ -59,6 +60,45 @@ static cl::opt<bool> NoDPLoadStore("mno-ldc1-sdc1", cl::init(false),
                                             "stores to their single precision "
                                             "counterparts"));
 
+// Widen the v2 vectors to the register width, i.e. v2i16 -> v8i16,
+// v2i32 -> v4i32, etc, to ensure the correct rail size is used, i.e.
+// INST.h for v16, INST.w for v32, INST.d for v64.
+TargetLoweringBase::LegalizeTypeAction
+MipsSETargetLowering::getPreferredVectorAction(MVT VT) const {
+  if (this->Subtarget.hasMSA()) {
+    switch (VT.SimpleTy) {
+    // Leave v2i1 vectors to be promoted to larger ones.
+    // Other i1 types will be promoted by default.
+    case MVT::v2i1:
+      return TypePromoteInteger;
+      break;
+    // 16-bit vector types (v2 and longer)
+    case MVT::v2i8:
+    // 32-bit vector types (v2 and longer)
+    case MVT::v2i16:
+    case MVT::v4i8:
+    // 64-bit vector types (v2 and longer)
+    case MVT::v2i32:
+    case MVT::v4i16:
+    case MVT::v8i8:
+      return TypeWidenVector;
+      break;
+    // Only word (.w) and doubleword (.d) are available for floating point
+    // vectors. That means floating point vectors should be either v2f64
+    // or v4f32.
+    // Here we only explicitly widen the f32 types - f16 will be promoted
+    // by default.
+    case MVT::v2f32:
+    case MVT::v3f32:
+      return TypeWidenVector;
+    // v2i64 is already 128-bit wide.
+    default:
+      break;
+    }
+  }
+  return TargetLoweringBase::getPreferredVectorAction(VT);
+}
+
 MipsSETargetLowering::MipsSETargetLowering(const MipsTargetMachine &TM,
                                            const MipsSubtarget &STI)
     : MipsTargetLowering(TM, STI) {
@@ -2929,8 +2969,14 @@ static SDValue lowerVECTOR_SHUFFLE_PCKOD(SDValue Op, EVT ResTy,
 // if the type is v8i16 and all the indices are less than 8 then the second
 // operand is unused and can be replaced with anything. We choose to replace it
 // with the used operand since this reduces the number of instructions overall.
+//
+// NOTE: SPLATI shuffle masks may contain UNDEFs, since isSPLATI() treats
+//       UNDEFs as same as SPLATI index.
+//       For other instances we use the last valid index if UNDEF is
+//       encountered.
 static SDValue lowerVECTOR_SHUFFLE_VSHF(SDValue Op, EVT ResTy,
                                         const SmallVector<int, 16> &Indices,
+                                        const bool isSPLATI,
                                         SelectionDAG &DAG) {
   SmallVector<SDValue, 16> Ops;
   SDValue Op0;
@@ -2942,6 +2988,9 @@ static SDValue lowerVECTOR_SHUFFLE_VSHF(SDValue Op, EVT ResTy,
   SDLoc DL(Op);
   int ResTyNumElts = ResTy.getVectorNumElements();
 
+  assert(Indices[0] >= 0 &&
+         "shuffle mask starts with an UNDEF, which is not expected");
+
   for (int i = 0; i < ResTyNumElts; ++i) {
     // Idx == -1 means UNDEF
     int Idx = Indices[i];
@@ -2951,9 +3000,17 @@ static SDValue lowerVECTOR_SHUFFLE_VSHF(SDValue Op, EVT ResTy,
     if (ResTyNumElts <= Idx && Idx < ResTyNumElts * 2)
       Using2ndVec = true;
   }
-
-  for (int Idx : Indices)
+  int LastValidIndex = 0;
+  for (size_t i = 0; i < Indices.size(); i++) {
+    int Idx = Indices[i];
+    if (Idx < 0) {
+      // Continue using splati index or use the last valid index.
+      Idx = isSPLATI ? Indices[0] : LastValidIndex;
+    } else {
+      LastValidIndex = Idx;
+    }
     Ops.push_back(DAG.getTargetConstant(Idx, DL, MaskEltTy));
+  }
 
   SDValue MaskVec = DAG.getBuildVector(MaskVecTy, DL, Ops);
 
@@ -2996,7 +3053,7 @@ SDValue MipsSETargetLowering::lowerVECTOR_SHUFFLE(SDValue Op,
   // splati.[bhwd] is preferable to the others but is matched from
   // MipsISD::VSHF.
   if (isVECTOR_SHUFFLE_SPLATI(Op, ResTy, Indices, DAG))
-    return lowerVECTOR_SHUFFLE_VSHF(Op, ResTy, Indices, DAG);
+    return lowerVECTOR_SHUFFLE_VSHF(Op, ResTy, Indices, true, DAG);
   SDValue Result;
   if ((Result = lowerVECTOR_SHUFFLE_ILVEV(Op, ResTy, Indices, DAG)))
     return Result;
@@ -3012,7 +3069,7 @@ SDValue MipsSETargetLowering::lowerVECTOR_SHUFFLE(SDValue Op,
     return Result;
   if ((Result = lowerVECTOR_SHUFFLE_SHF(Op, ResTy, Indices, DAG)))
     return Result;
-  return lowerVECTOR_SHUFFLE_VSHF(Op, ResTy, Indices, DAG);
+  return lowerVECTOR_SHUFFLE_VSHF(Op, ResTy, Indices, false, DAG);
 }
 
 MachineBasicBlock *
diff --git a/llvm/lib/Target/Mips/MipsSEISelLowering.h b/llvm/lib/Target/Mips/MipsSEISelLowering.h
index 43b88a9f09522..675131aefb6dd 100644
--- a/llvm/lib/Target/Mips/MipsSEISelLowering.h
+++ b/llvm/lib/Target/Mips/MipsSEISelLowering.h
@@ -45,6 +45,9 @@ class TargetRegisterClass;
         MachineMemOperand::Flags Flags = MachineMemOperand::MONone,
         unsigned *Fast = nullptr) const override;
 
+    TargetLoweringBase::LegalizeTypeAction
+    getPreferredVectorAction(MVT VT) const override;
+
     SDValue LowerOperation(SDValue Op, SelectionDAG &DAG) const override;
 
     SDValue PerformDAGCombine(SDNode *N, DAGCombinerInfo &DCI) const override;
diff --git a/llvm/lib/Target/NVPTX/NVPTX.td b/llvm/lib/Target/NVPTX/NVPTX.td
index 3ca8b4d294079..5467ae011a208 100644
--- a/llvm/lib/Target/NVPTX/NVPTX.td
+++ b/llvm/lib/Target/NVPTX/NVPTX.td
@@ -35,15 +35,18 @@ class FeaturePTX<int version>:
                     "Use PTX version " # version>;
 
 foreach sm = [20, 21, 30, 32, 35, 37, 50, 52, 53,
-              60, 61, 62, 70, 72, 75, 80, 86, 87, 89, 90, 100] in
+              60, 61, 62, 70, 72, 75, 80, 86, 87,
+              89, 90, 100, 101, 120] in
   def SM#sm: FeatureSM<""#sm, !mul(sm, 10)>;
 
 def SM90a: FeatureSM<"90a", 901>;
 def SM100a: FeatureSM<"100a", 1001>;
+def SM101a: FeatureSM<"101a", 1011>;
+def SM120a: FeatureSM<"120a", 1201>;
 
 foreach version = [32, 40, 41, 42, 43, 50, 60, 61, 62, 63, 64, 65,
                    70, 71, 72, 73, 74, 75, 76, 77, 78,
-                   80, 81, 82, 83, 84, 85, 86] in
+                   80, 81, 82, 83, 84, 85, 86, 87] in
   def PTX#version: FeaturePTX<version>;
 
 //===----------------------------------------------------------------------===//
@@ -76,6 +79,10 @@ def : Proc<"sm_90", [SM90, PTX78]>;
 def : Proc<"sm_90a", [SM90a, PTX80]>;
 def : Proc<"sm_100", [SM100, PTX86]>;
 def : Proc<"sm_100a", [SM100a, PTX86]>;
+def : Proc<"sm_101", [SM101, PTX86]>;
+def : Proc<"sm_101a", [SM101a, PTX86]>;
+def : Proc<"sm_120", [SM120, PTX87]>;
+def : Proc<"sm_120a", [SM120a, PTX87]>;
 
 def NVPTXInstrInfo : InstrInfo {
 }
diff --git a/llvm/lib/Target/NVPTX/NVPTXAllocaHoisting.cpp b/llvm/lib/Target/NVPTX/NVPTXAllocaHoisting.cpp
index f2c7751df1dff..f676496453f9f 100644
--- a/llvm/lib/Target/NVPTX/NVPTXAllocaHoisting.cpp
+++ b/llvm/lib/Target/NVPTX/NVPTXAllocaHoisting.cpp
@@ -46,7 +46,7 @@ bool NVPTXAllocaHoisting::runOnFunction(Function &function) {
     for (BasicBlock::iterator BI = I->begin(), BE = I->end(); BI != BE;) {
       AllocaInst *allocaInst = dyn_cast<AllocaInst>(BI++);
       if (allocaInst && isa<ConstantInt>(allocaInst->getArraySize())) {
-        allocaInst->moveBefore(firstTerminatorInst);
+        allocaInst->moveBefore(firstTerminatorInst->getIterator());
         functionModified = true;
       }
     }
diff --git a/llvm/lib/Target/NVPTX/NVPTXISelDAGToDAG.cpp b/llvm/lib/Target/NVPTX/NVPTXISelDAGToDAG.cpp
index 8f6adf2c22f92..ac8ce05724750 100644
--- a/llvm/lib/Target/NVPTX/NVPTXISelDAGToDAG.cpp
+++ b/llvm/lib/Target/NVPTX/NVPTXISelDAGToDAG.cpp
@@ -3168,6 +3168,25 @@ void NVPTXDAGToDAGISel::SelectCpAsyncBulkG2S(SDNode *N) {
   ReplaceNode(N, CurDAG->getMachineNode(Opcode, DL, N->getVTList(), Ops));
 }
 
+void NVPTXDAGToDAGISel::SelectCpAsyncBulkPrefetchL2(SDNode *N) {
+  // We have {Chain, Intrinsic-ID} followed by the actual intrisic args:
+  // src, size, cache_hint, cache_hint_flag
+  // NumOperands = {Chain, IID} + {Actual intrinsic args}
+  //             = {2}          + {4}
+  size_t NumOps = N->getNumOperands();
+  bool IsCacheHint = N->getConstantOperandVal(NumOps - 1) == 1;
+  size_t NumArgs = IsCacheHint ? 3 : 2; // src, size, cache_hint
+
+  SDLoc DL(N);
+  SmallVector<SDValue, 4> Ops(N->ops().slice(2, NumArgs));
+  Ops.push_back(N->getOperand(0)); // Chain operand
+  
+  unsigned Opcode = IsCacheHint 
+  ?  NVPTX::CP_ASYNC_BULK_PREFETCH_CH
+  :  NVPTX::CP_ASYNC_BULK_PREFETCH;
+  ReplaceNode(N, CurDAG->getMachineNode(Opcode, DL, N->getVTList(), Ops));
+}
+
 bool NVPTXDAGToDAGISel::tryIntrinsicVoid(SDNode *N) {
   unsigned IID = N->getConstantOperandVal(1);
   using TMARedTy = llvm::nvvm::TMAReductionOp;
@@ -3181,6 +3200,9 @@ bool NVPTXDAGToDAGISel::tryIntrinsicVoid(SDNode *N) {
   case Intrinsic::nvvm_cp_async_bulk_shared_cta_to_global:
     SelectCpAsyncBulkS2G(N);
     return true;
+  case Intrinsic::nvvm_cp_async_bulk_prefetch_L2:
+    SelectCpAsyncBulkPrefetchL2(N);
+    return true;
   case Intrinsic::nvvm_cp_async_bulk_tensor_s2g_tile_1d:
   case Intrinsic::nvvm_cp_async_bulk_tensor_s2g_tile_2d:
   case Intrinsic::nvvm_cp_async_bulk_tensor_s2g_tile_3d:
diff --git a/llvm/lib/Target/NVPTX/NVPTXISelDAGToDAG.h b/llvm/lib/Target/NVPTX/NVPTXISelDAGToDAG.h
index 7661f153238fc..8dc6bc86c6828 100644
--- a/llvm/lib/Target/NVPTX/NVPTXISelDAGToDAG.h
+++ b/llvm/lib/Target/NVPTX/NVPTXISelDAGToDAG.h
@@ -93,6 +93,7 @@ class LLVM_LIBRARY_VISIBILITY NVPTXDAGToDAGISel : public SelectionDAGISel {
   void SelectI128toV2I64(SDNode *N);
   void SelectCpAsyncBulkG2S(SDNode *N);
   void SelectCpAsyncBulkS2G(SDNode *N);
+  void SelectCpAsyncBulkPrefetchL2(SDNode *N);
   void SelectCpAsyncBulkTensorG2SCommon(SDNode *N, bool IsIm2Col = false);
   void SelectCpAsyncBulkTensorS2GCommon(SDNode *N, bool IsIm2Col = false);
   void SelectCpAsyncBulkTensorPrefetchCommon(SDNode *N, bool IsIm2Col = false);
diff --git a/llvm/lib/Target/NVPTX/NVPTXInstrInfo.td b/llvm/lib/Target/NVPTX/NVPTXInstrInfo.td
index a076fde8ee767..f17799c130015 100644
--- a/llvm/lib/Target/NVPTX/NVPTXInstrInfo.td
+++ b/llvm/lib/Target/NVPTX/NVPTXInstrInfo.td
@@ -172,6 +172,9 @@ class hasSM<int version>: Predicate<"Subtarget->getSmVersion() >= " # version>;
 
 // Explicit records for arch-accelerated SM versions
 def hasSM90a : Predicate<"Subtarget->getFullSmVersion() == 901">;
+def hasSM100a : Predicate<"Subtarget->getFullSmVersion() == 1001">;
+def hasSM101a : Predicate<"Subtarget->getFullSmVersion() == 1011">;
+def hasSM120a : Predicate<"Subtarget->getFullSmVersion() == 1201">;
 
 // non-sync shfl instructions are not available on sm_70+ in PTX6.4+
 def hasSHFL : Predicate<"!(Subtarget->getSmVersion() >= 70"
diff --git a/llvm/lib/Target/NVPTX/NVPTXIntrinsics.td b/llvm/lib/Target/NVPTX/NVPTXIntrinsics.td
index 48d75728aef8e..56d8b734bf01d 100644
--- a/llvm/lib/Target/NVPTX/NVPTXIntrinsics.td
+++ b/llvm/lib/Target/NVPTX/NVPTXIntrinsics.td
@@ -547,6 +547,18 @@ multiclass CP_ASYNC_BULK_CTA_TO_CLUSTER<NVPTXRegClass rc> {
 defm CP_ASYNC_BULK_CTA_TO_CLUSTER : CP_ASYNC_BULK_CTA_TO_CLUSTER<Int64Regs>;
 defm CP_ASYNC_BULK_CTA_TO_CLUSTER_SHARED32 : CP_ASYNC_BULK_CTA_TO_CLUSTER<Int32Regs>;
 
+//------------------------------
+// Bulk Copy Prefetch Functions
+//------------------------------
+def CP_ASYNC_BULK_PREFETCH : NVPTXInst<(outs),
+                             (ins Int64Regs:$src, Int32Regs:$size),
+                             "cp.async.bulk.prefetch.L2.global [$src], $size;", []>,
+                             Requires<[hasPTX<80>, hasSM<90>]>;
+
+def CP_ASYNC_BULK_PREFETCH_CH : NVPTXInst<(outs),
+                                (ins Int64Regs:$src, Int32Regs:$size, Int64Regs:$ch),
+                                "cp.async.bulk.prefetch.L2.global.L2::cache_hint [$src], $size, $ch;", []>,
+                                Requires<[hasPTX<80>, hasSM<90>]>;
 //-------------------------------------
 // TMA Async Bulk Tensor Copy Functions
 //-------------------------------------
@@ -7557,4 +7569,16 @@ def INT_NVVM_WGMMA_WAIT_GROUP_SYNC_ALIGNED : NVPTXInst<(outs), (ins i64imm:$n),
                              [(int_nvvm_wgmma_wait_group_sync_aligned timm:$n)]>, Requires<[hasSM90a, hasPTX<80>]>;
 } // isConvergent = true
 
+def GRIDDEPCONTROL_LAUNCH_DEPENDENTS :
+      NVPTXInst<(outs), (ins),
+                "griddepcontrol.launch_dependents;",
+                [(int_nvvm_griddepcontrol_launch_dependents)]>,
+                Requires<[hasSM<90>, hasPTX<78>]>;
+
+def GRIDDEPCONTROL_WAIT :
+      NVPTXInst<(outs), (ins),
+                "griddepcontrol.wait;",
+                [(int_nvvm_griddepcontrol_wait)]>,
+                Requires<[hasSM<90>, hasPTX<78>]>;
+
 def INT_EXIT : NVPTXInst<(outs), (ins), "exit;", [(int_nvvm_exit)]>;
diff --git a/llvm/lib/Target/NVPTX/NVPTXLowerAlloca.cpp b/llvm/lib/Target/NVPTX/NVPTXLowerAlloca.cpp
index a7544ce2df1a2..3b44a86013f04 100644
--- a/llvm/lib/Target/NVPTX/NVPTXLowerAlloca.cpp
+++ b/llvm/lib/Target/NVPTX/NVPTXLowerAlloca.cpp
@@ -92,14 +92,14 @@ bool NVPTXLowerAlloca::runOnFunction(Function &F) {
           auto ASCastToLocalAS = new AddrSpaceCastInst(
               allocaInst,
               PointerType::get(ETy->getContext(), ADDRESS_SPACE_LOCAL), "");
-          ASCastToLocalAS->insertAfter(allocaInst);
+          ASCastToLocalAS->insertAfter(allocaInst->getIterator());
           AllocaInLocalAS = ASCastToLocalAS;
         }
 
         auto AllocaInGenericAS = new AddrSpaceCastInst(
             AllocaInLocalAS,
             PointerType::get(ETy->getContext(), ADDRESS_SPACE_GENERIC), "");
-        AllocaInGenericAS->insertAfter(AllocaInLocalAS);
+        AllocaInGenericAS->insertAfter(AllocaInLocalAS->getIterator());
 
         for (Use &AllocaUse : llvm::make_early_inc_range(allocaInst->uses())) {
           // Check Load, Store, GEP, and BitCast Uses on alloca and make them
diff --git a/llvm/lib/Target/RISCV/RISCVISelLowering.cpp b/llvm/lib/Target/RISCV/RISCVISelLowering.cpp
index f7efd5f437fbb..618fb28d3e9f9 100644
--- a/llvm/lib/Target/RISCV/RISCVISelLowering.cpp
+++ b/llvm/lib/Target/RISCV/RISCVISelLowering.cpp
@@ -21087,7 +21087,7 @@ RISCVTargetLowering::getConstraintType(StringRef Constraint) const {
   } else {
     if (Constraint == "vr" || Constraint == "vd" || Constraint == "vm")
       return C_RegisterClass;
-    if (Constraint == "cr" || Constraint == "cf")
+    if (Constraint == "cr" || Constraint == "cR" || Constraint == "cf")
       return C_RegisterClass;
   }
   return TargetLowering::getConstraintType(Constraint);
@@ -21133,8 +21133,6 @@ RISCVTargetLowering::getRegForInlineAsmConstraint(const TargetRegisterInfo *TRI,
       }
       break;
     case 'R':
-      if (VT == MVT::f64 && !Subtarget.is64Bit() && Subtarget.hasStdExtZdinx())
-        return std::make_pair(0U, &RISCV::GPRPairNoX0RegClass);
       return std::make_pair(0U, &RISCV::GPRPairNoX0RegClass);
     default:
       break;
@@ -21176,6 +21174,8 @@ RISCVTargetLowering::getRegForInlineAsmConstraint(const TargetRegisterInfo *TRI,
       return std::make_pair(0U, &RISCV::GPRPairCRegClass);
     if (!VT.isVector())
       return std::make_pair(0U, &RISCV::GPRCRegClass);
+  } else if (Constraint == "cR") {
+    return std::make_pair(0U, &RISCV::GPRPairCRegClass);
   } else if (Constraint == "cf") {
     if (VT == MVT::f16) {
       if (Subtarget.hasStdExtZfhmin())
@@ -22399,18 +22399,16 @@ bool RISCVTargetLowering::lowerInterleavedStore(StoreInst *SI,
 }
 
 bool RISCVTargetLowering::lowerDeinterleaveIntrinsicToLoad(
-    IntrinsicInst *DI, LoadInst *LI,
-    SmallVectorImpl<Instruction *> &DeadInsts) const {
+    LoadInst *LI, ArrayRef<Value *> DeinterleaveValues) const {
+  unsigned Factor = DeinterleaveValues.size();
+  if (Factor > 8)
+    return false;
+
   assert(LI->isSimple());
   IRBuilder<> Builder(LI);
 
-  // Only deinterleave2 supported at present.
-  if (DI->getIntrinsicID() != Intrinsic::vector_deinterleave2)
-    return false;
+  auto *ResVTy = cast<VectorType>(DeinterleaveValues[0]->getType());
 
-  const unsigned Factor = 2;
-
-  VectorType *ResVTy = cast<VectorType>(DI->getType()->getContainedType(0));
   const DataLayout &DL = LI->getDataLayout();
 
   if (!isLegalInterleavedAccessType(ResVTy, Factor, LI->getAlign(),
@@ -22458,24 +22456,27 @@ bool RISCVTargetLowering::lowerDeinterleaveIntrinsicToLoad(
     }
   }
 
-  DI->replaceAllUsesWith(Return);
+  for (auto [Idx, DIV] : enumerate(DeinterleaveValues)) {
+    // We have to create a brand new ExtractValue to replace each
+    // of these old ExtractValue instructions.
+    Value *NewEV =
+        Builder.CreateExtractValue(Return, {static_cast<unsigned>(Idx)});
+    DIV->replaceAllUsesWith(NewEV);
+  }
 
   return true;
 }
 
 bool RISCVTargetLowering::lowerInterleaveIntrinsicToStore(
-    IntrinsicInst *II, StoreInst *SI,
-    SmallVectorImpl<Instruction *> &DeadInsts) const {
-  assert(SI->isSimple());
-  IRBuilder<> Builder(SI);
-
-  // Only interleave2 supported at present.
-  if (II->getIntrinsicID() != Intrinsic::vector_interleave2)
+    StoreInst *SI, ArrayRef<Value *> InterleaveValues) const {
+  unsigned Factor = InterleaveValues.size();
+  if (Factor > 8)
     return false;
 
-  const unsigned Factor = 2;
+  assert(SI->isSimple());
+  IRBuilder<> Builder(SI);
 
-  VectorType *InVTy = cast<VectorType>(II->getArgOperand(0)->getType());
+  auto *InVTy = cast<VectorType>(InterleaveValues[0]->getType());
   const DataLayout &DL = SI->getDataLayout();
 
   if (!isLegalInterleavedAccessType(InVTy, Factor, SI->getAlign(),
@@ -22485,11 +22486,16 @@ bool RISCVTargetLowering::lowerInterleaveIntrinsicToStore(
   Type *XLenTy = Type::getIntNTy(SI->getContext(), Subtarget.getXLen());
 
   if (auto *FVTy = dyn_cast<FixedVectorType>(InVTy)) {
+    Function *VssegNFunc = Intrinsic::getOrInsertDeclaration(
+        SI->getModule(), FixedVssegIntrIds[Factor - 2],
+        {InVTy, SI->getPointerOperandType(), XLenTy});
+
+    SmallVector<Value *, 10> Ops(InterleaveValues.begin(),
+                                 InterleaveValues.end());
     Value *VL = ConstantInt::get(XLenTy, FVTy->getNumElements());
-    Builder.CreateIntrinsic(FixedVssegIntrIds[Factor - 2],
-                            {InVTy, SI->getPointerOperandType(), XLenTy},
-                            {II->getArgOperand(0), II->getArgOperand(1),
-                             SI->getPointerOperand(), VL});
+    Ops.append({SI->getPointerOperand(), VL});
+
+    Builder.CreateCall(VssegNFunc, Ops);
   } else {
     static const Intrinsic::ID IntrIds[] = {
         Intrinsic::riscv_vsseg2, Intrinsic::riscv_vsseg3,
@@ -22514,7 +22520,7 @@ bool RISCVTargetLowering::lowerInterleaveIntrinsicToStore(
     for (unsigned i = 0; i < Factor; ++i)
       StoredVal = Builder.CreateIntrinsic(
           Intrinsic::riscv_tuple_insert, {VecTupTy, InVTy},
-          {StoredVal, II->getArgOperand(i), Builder.getInt32(i)});
+          {StoredVal, InterleaveValues[i], Builder.getInt32(i)});
 
     Builder.CreateCall(VssegNFunc, {StoredVal, SI->getPointerOperand(), VL,
                                     ConstantInt::get(XLenTy, Log2_64(SEW))});
diff --git a/llvm/lib/Target/RISCV/RISCVISelLowering.h b/llvm/lib/Target/RISCV/RISCVISelLowering.h
index 21747cc353203..77605a3076a80 100644
--- a/llvm/lib/Target/RISCV/RISCVISelLowering.h
+++ b/llvm/lib/Target/RISCV/RISCVISelLowering.h
@@ -905,12 +905,10 @@ class RISCVTargetLowering : public TargetLowering {
                              unsigned Factor) const override;
 
   bool lowerDeinterleaveIntrinsicToLoad(
-      IntrinsicInst *II, LoadInst *LI,
-      SmallVectorImpl<Instruction *> &DeadInsts) const override;
+      LoadInst *LI, ArrayRef<Value *> DeinterleaveValues) const override;
 
   bool lowerInterleaveIntrinsicToStore(
-      IntrinsicInst *II, StoreInst *SI,
-      SmallVectorImpl<Instruction *> &DeadInsts) const override;
+      StoreInst *SI, ArrayRef<Value *> InterleaveValues) const override;
 
   bool supportKCFIBundles() const override { return true; }
 
diff --git a/llvm/lib/Target/RISCV/RISCVInstrInfoXSf.td b/llvm/lib/Target/RISCV/RISCVInstrInfoXSf.td
index 20adda91f6bde..0654f1ac19a82 100644
--- a/llvm/lib/Target/RISCV/RISCVInstrInfoXSf.td
+++ b/llvm/lib/Target/RISCV/RISCVInstrInfoXSf.td
@@ -202,7 +202,7 @@ let Predicates = [HasVendorXSfvcp], mayLoad = 0, mayStore = 0,
 }
 
 let Predicates = [HasVendorXSfvqmaccdod], DecoderNamespace = "XSfvqmaccdod",
-    DestEEW = EEWSEWx4 in {
+    DestEEW = EEWSEWx4, RVVConstraint=VS2Constraint in {
   def VQMACCU_2x8x2  : CustomSiFiveVMACC<0b101100, OPMVV, "sf.vqmaccu.2x8x2">;
   def VQMACC_2x8x2   : CustomSiFiveVMACC<0b101101, OPMVV, "sf.vqmacc.2x8x2">;
   def VQMACCUS_2x8x2 : CustomSiFiveVMACC<0b101110, OPMVV, "sf.vqmaccus.2x8x2">;
@@ -210,7 +210,7 @@ let Predicates = [HasVendorXSfvqmaccdod], DecoderNamespace = "XSfvqmaccdod",
 }
 
 let Predicates = [HasVendorXSfvqmaccqoq], DecoderNamespace = "XSfvqmaccqoq",
-    DestEEW = EEWSEWx4 in {
+    DestEEW = EEWSEWx4, RVVConstraint=WidenV in {
   def VQMACCU_4x8x4  : CustomSiFiveVMACC<0b111100, OPMVV, "sf.vqmaccu.4x8x4">;
   def VQMACC_4x8x4   : CustomSiFiveVMACC<0b111101, OPMVV, "sf.vqmacc.4x8x4">;
   def VQMACCUS_4x8x4 : CustomSiFiveVMACC<0b111110, OPMVV, "sf.vqmaccus.4x8x4">;
@@ -218,7 +218,7 @@ let Predicates = [HasVendorXSfvqmaccqoq], DecoderNamespace = "XSfvqmaccqoq",
 }
 
 let Predicates = [HasVendorXSfvfwmaccqqq], DecoderNamespace = "XSfvfwmaccqqq",
-    DestEEW = EEWSEWx2 in {
+    DestEEW = EEWSEWx2, RVVConstraint=WidenV in {
   def VFWMACC_4x4x4 : CustomSiFiveVMACC<0b111100, OPFVV, "sf.vfwmacc.4x4x4">;
 }
 
@@ -374,28 +374,28 @@ multiclass VPseudoVC_XVW<LMULInfo m, DAGOperand RS1Class,
   }
 }
 
-multiclass VPseudoSiFiveVMACC<string mx, VReg vd_type, VReg vs2_type,
-                              string Constraint = ""> {
+multiclass VPseudoSiFiveVMACC<string mx, VReg vd_type, VReg vs2_type> {
   def "Pseudo" # NAME # "_" # mx
-      : VPseudoTernaryNoMaskWithPolicy<vd_type, V_M1.vrclass, vs2_type, Constraint>;
+      : VPseudoTernaryNoMaskWithPolicy<vd_type, V_M1.vrclass, vs2_type,
+                                       "@earlyclobber $rd">;
 }
 
-multiclass VPseudoSiFiveVQMACCDOD<string Constraint = ""> {
+multiclass VPseudoSiFiveVQMACCDOD {
   foreach m = MxListVF8 in
     let VLMul = m.value in
-    defm NAME : VPseudoSiFiveVMACC<m.MX, m.vrclass, m.vrclass, Constraint>;
+    defm NAME : VPseudoSiFiveVMACC<m.MX, m.vrclass, m.vrclass>;
 }
 
-multiclass VPseudoSiFiveVQMACCQOQ<string Constraint = ""> {
+multiclass VPseudoSiFiveVQMACCQOQ {
   foreach m = [V_MF2, V_M1, V_M2, V_M4] in
     let VLMul = m.value in
-    defm NAME : VPseudoSiFiveVMACC<m.MX, m.wvrclass, m.vrclass, Constraint>;
+    defm NAME : VPseudoSiFiveVMACC<m.MX, m.wvrclass, m.vrclass>;
 }
 
-multiclass VPseudoSiFiveVFWMACC<string Constraint = ""> {
+multiclass VPseudoSiFiveVFWMACC {
   foreach m = MxListVF2 in
     let VLMul = m.value in
-    defm NAME : VPseudoSiFiveVMACC<m.MX, m.wvrclass, m.vrclass, Constraint>;
+    defm NAME : VPseudoSiFiveVMACC<m.MX, m.wvrclass, m.vrclass>;
 }
 
 multiclass VPseudoSiFiveVFNRCLIP<string Constraint = "@earlyclobber $rd"> {
diff --git a/llvm/lib/Target/RISCV/RISCVVLOptimizer.cpp b/llvm/lib/Target/RISCV/RISCVVLOptimizer.cpp
index 5f2d4e0585a0b..976c65e51c205 100644
--- a/llvm/lib/Target/RISCV/RISCVVLOptimizer.cpp
+++ b/llvm/lib/Target/RISCV/RISCVVLOptimizer.cpp
@@ -1017,6 +1017,18 @@ static bool isSupportedInstr(const MachineInstr &MI) {
   // Vector Widening Floating-Point Multiply
   case RISCV::VFWMUL_VF:
   case RISCV::VFWMUL_VV:
+  // Vector Floating-Point MIN/MAX Instructions
+  case RISCV::VFMIN_VF:
+  case RISCV::VFMIN_VV:
+  case RISCV::VFMAX_VF:
+  case RISCV::VFMAX_VV:
+  // Vector Floating-Point Sign-Injection Instructions
+  case RISCV::VFSGNJ_VF:
+  case RISCV::VFSGNJ_VV:
+  case RISCV::VFSGNJN_VV:
+  case RISCV::VFSGNJN_VF:
+  case RISCV::VFSGNJX_VF:
+  case RISCV::VFSGNJX_VV:
   // Vector Floating-Point Compare Instructions
   case RISCV::VMFEQ_VF:
   case RISCV::VMFEQ_VV:
diff --git a/llvm/lib/Target/SystemZ/SystemZISelLowering.cpp b/llvm/lib/Target/SystemZ/SystemZISelLowering.cpp
index 4040ab6d45103..1fb31c26e20d3 100644
--- a/llvm/lib/Target/SystemZ/SystemZISelLowering.cpp
+++ b/llvm/lib/Target/SystemZ/SystemZISelLowering.cpp
@@ -4708,15 +4708,19 @@ SDValue SystemZTargetLowering::lowerXALUO(SDValue Op,
 }
 
 static bool isAddCarryChain(SDValue Carry) {
-  while (Carry.getOpcode() == ISD::UADDO_CARRY)
+  while (Carry.getOpcode() == ISD::UADDO_CARRY &&
+         Carry->getValueType(0) != MVT::i128)
     Carry = Carry.getOperand(2);
-  return Carry.getOpcode() == ISD::UADDO;
+  return Carry.getOpcode() == ISD::UADDO &&
+         Carry->getValueType(0) != MVT::i128;
 }
 
 static bool isSubBorrowChain(SDValue Carry) {
-  while (Carry.getOpcode() == ISD::USUBO_CARRY)
+  while (Carry.getOpcode() == ISD::USUBO_CARRY &&
+         Carry->getValueType(0) != MVT::i128)
     Carry = Carry.getOperand(2);
-  return Carry.getOpcode() == ISD::USUBO;
+  return Carry.getOpcode() == ISD::USUBO &&
+         Carry->getValueType(0) != MVT::i128;
 }
 
 // Lower UADDO_CARRY/USUBO_CARRY nodes.
diff --git a/llvm/lib/Target/X86/AsmParser/X86AsmParser.cpp b/llvm/lib/Target/X86/AsmParser/X86AsmParser.cpp
index 41a646621c7ea..a6285a55f4155 100644
--- a/llvm/lib/Target/X86/AsmParser/X86AsmParser.cpp
+++ b/llvm/lib/Target/X86/AsmParser/X86AsmParser.cpp
@@ -3306,11 +3306,11 @@ bool X86AsmParser::parseInstruction(ParseInstructionInfo &Info, StringRef Name,
   if ((PatchedName.starts_with("cmp") || PatchedName.starts_with("vcmp")) &&
       (PatchedName.ends_with("ss") || PatchedName.ends_with("sd") ||
        PatchedName.ends_with("sh") || PatchedName.ends_with("ph") ||
-       PatchedName.ends_with("pbf16") || PatchedName.ends_with("ps") ||
+       PatchedName.ends_with("bf16") || PatchedName.ends_with("ps") ||
        PatchedName.ends_with("pd"))) {
     bool IsVCMP = PatchedName[0] == 'v';
     unsigned CCIdx = IsVCMP ? 4 : 3;
-    unsigned suffixLength = PatchedName.ends_with("pbf16") ? 5 : 2;
+    unsigned suffixLength = PatchedName.ends_with("bf16") ? 5 : 2;
     unsigned CC = StringSwitch<unsigned>(
       PatchedName.slice(CCIdx, PatchedName.size() - suffixLength))
       .Case("eq",       0x00)
@@ -3375,8 +3375,8 @@ bool X86AsmParser::parseInstruction(ParseInstructionInfo &Info, StringRef Name,
         PatchedName = "vcmpsh";
       else if (PatchedName.ends_with("ph"))
         PatchedName = "vcmpph";
-      else if (PatchedName.ends_with("pbf16"))
-        PatchedName = "vcmppbf16";
+      else if (PatchedName.ends_with("bf16"))
+        PatchedName = "vcmpbf16";
       else
         llvm_unreachable("Unexpected suffix!");
 
diff --git a/llvm/lib/Target/X86/MCTargetDesc/X86ATTInstPrinter.cpp b/llvm/lib/Target/X86/MCTargetDesc/X86ATTInstPrinter.cpp
index abe0cc6365dd4..cd89b88f46194 100644
--- a/llvm/lib/Target/X86/MCTargetDesc/X86ATTInstPrinter.cpp
+++ b/llvm/lib/Target/X86/MCTargetDesc/X86ATTInstPrinter.cpp
@@ -166,15 +166,15 @@ bool X86ATTInstPrinter::printVecCompareInstr(const MCInst *MI,
   case X86::VCMPPHZrmbi:     case X86::VCMPPHZrmbik:
   case X86::VCMPPHZrrib:     case X86::VCMPPHZrribk:
   case X86::VCMPSHZrrib_Int: case X86::VCMPSHZrribk_Int:
-  case X86::VCMPPBF16Z128rmi:  case X86::VCMPPBF16Z128rri:
-  case X86::VCMPPBF16Z256rmi:  case X86::VCMPPBF16Z256rri:
-  case X86::VCMPPBF16Zrmi:     case X86::VCMPPBF16Zrri:
-  case X86::VCMPPBF16Z128rmik: case X86::VCMPPBF16Z128rrik:
-  case X86::VCMPPBF16Z256rmik: case X86::VCMPPBF16Z256rrik:
-  case X86::VCMPPBF16Zrmik:    case X86::VCMPPBF16Zrrik:
-  case X86::VCMPPBF16Z128rmbi: case X86::VCMPPBF16Z128rmbik:
-  case X86::VCMPPBF16Z256rmbi: case X86::VCMPPBF16Z256rmbik:
-  case X86::VCMPPBF16Zrmbi:    case X86::VCMPPBF16Zrmbik:
+  case X86::VCMPBF16Z128rmi:  case X86::VCMPBF16Z128rri:
+  case X86::VCMPBF16Z256rmi:  case X86::VCMPBF16Z256rri:
+  case X86::VCMPBF16Zrmi:     case X86::VCMPBF16Zrri:
+  case X86::VCMPBF16Z128rmik: case X86::VCMPBF16Z128rrik:
+  case X86::VCMPBF16Z256rmik: case X86::VCMPBF16Z256rrik:
+  case X86::VCMPBF16Zrmik:    case X86::VCMPBF16Zrrik:
+  case X86::VCMPBF16Z128rmbi: case X86::VCMPBF16Z128rmbik:
+  case X86::VCMPBF16Z256rmbi: case X86::VCMPBF16Z256rmbik:
+  case X86::VCMPBF16Zrmbi:    case X86::VCMPBF16Zrmbik:
     if (Imm >= 0 && Imm <= 31) {
       OS << '\t';
       printCMPMnemonic(MI, /*IsVCMP*/true, OS);
diff --git a/llvm/lib/Target/X86/MCTargetDesc/X86InstComments.cpp b/llvm/lib/Target/X86/MCTargetDesc/X86InstComments.cpp
index 681d0dab37d09..4c26fc86f9547 100644
--- a/llvm/lib/Target/X86/MCTargetDesc/X86InstComments.cpp
+++ b/llvm/lib/Target/X86/MCTargetDesc/X86InstComments.cpp
@@ -979,7 +979,7 @@ static bool printFPCLASSComments(const MCInst *MI, raw_ostream &OS,
   unsigned NumOperands = MI->getNumOperands();
   int SrcIdx;
   switch (MI->getOpcode()) {
-    CASE_FPCLASS_PACKED(FPCLASSPBF16, r)
+    CASE_FPCLASS_PACKED(FPCLASSBF16, r)
     CASE_FPCLASS_PACKED(FPCLASSPH, r)
     CASE_FPCLASS_PACKED(FPCLASSPS, r)
     CASE_FPCLASS_PACKED(FPCLASSPD, r)
@@ -989,7 +989,7 @@ static bool printFPCLASSComments(const MCInst *MI, raw_ostream &OS,
       SrcIdx = NumOperands - 2;
       break;
     }
-    CASE_FPCLASS_PACKED_MEM(FPCLASSPBF16)
+    CASE_FPCLASS_PACKED_MEM(FPCLASSBF16)
     CASE_FPCLASS_PACKED_MEM(FPCLASSPH)
     CASE_FPCLASS_PACKED_MEM(FPCLASSPS)
     CASE_FPCLASS_PACKED_MEM(FPCLASSPD)
diff --git a/llvm/lib/Target/X86/MCTargetDesc/X86InstPrinterCommon.cpp b/llvm/lib/Target/X86/MCTargetDesc/X86InstPrinterCommon.cpp
index 01e2d4ace9773..8470d26011cd8 100644
--- a/llvm/lib/Target/X86/MCTargetDesc/X86InstPrinterCommon.cpp
+++ b/llvm/lib/Target/X86/MCTargetDesc/X86InstPrinterCommon.cpp
@@ -309,16 +309,16 @@ void X86InstPrinterCommon::printCMPMnemonic(const MCInst *MI, bool IsVCmp,
   case X86::VCMPSHZrmik_Int: case X86::VCMPSHZrrik_Int:
     OS << "sh\t";
     break;
-  case X86::VCMPPBF16Z128rmi:  case X86::VCMPPBF16Z128rri:
-  case X86::VCMPPBF16Z256rmi:  case X86::VCMPPBF16Z256rri:
-  case X86::VCMPPBF16Zrmi:     case X86::VCMPPBF16Zrri:
-  case X86::VCMPPBF16Z128rmik: case X86::VCMPPBF16Z128rrik:
-  case X86::VCMPPBF16Z256rmik: case X86::VCMPPBF16Z256rrik:
-  case X86::VCMPPBF16Zrmik:    case X86::VCMPPBF16Zrrik:
-  case X86::VCMPPBF16Z128rmbi: case X86::VCMPPBF16Z128rmbik:
-  case X86::VCMPPBF16Z256rmbi: case X86::VCMPPBF16Z256rmbik:
-  case X86::VCMPPBF16Zrmbi:    case X86::VCMPPBF16Zrmbik:
-    OS << "pbf16\t";
+  case X86::VCMPBF16Z128rmi:  case X86::VCMPBF16Z128rri:
+  case X86::VCMPBF16Z256rmi:  case X86::VCMPBF16Z256rri:
+  case X86::VCMPBF16Zrmi:     case X86::VCMPBF16Zrri:
+  case X86::VCMPBF16Z128rmik: case X86::VCMPBF16Z128rrik:
+  case X86::VCMPBF16Z256rmik: case X86::VCMPBF16Z256rrik:
+  case X86::VCMPBF16Zrmik:    case X86::VCMPBF16Zrrik:
+  case X86::VCMPBF16Z128rmbi: case X86::VCMPBF16Z128rmbik:
+  case X86::VCMPBF16Z256rmbi: case X86::VCMPBF16Z256rmbik:
+  case X86::VCMPBF16Zrmbi:    case X86::VCMPBF16Zrmbik:
+    OS << "bf16\t";
     break;
   }
 }
diff --git a/llvm/lib/Target/X86/MCTargetDesc/X86IntelInstPrinter.cpp b/llvm/lib/Target/X86/MCTargetDesc/X86IntelInstPrinter.cpp
index c26dc2ca5a7a4..0d92609b3a63d 100644
--- a/llvm/lib/Target/X86/MCTargetDesc/X86IntelInstPrinter.cpp
+++ b/llvm/lib/Target/X86/MCTargetDesc/X86IntelInstPrinter.cpp
@@ -145,15 +145,15 @@ bool X86IntelInstPrinter::printVecCompareInstr(const MCInst *MI, raw_ostream &OS
   case X86::VCMPPHZrmbi:     case X86::VCMPPHZrmbik:
   case X86::VCMPPHZrrib:     case X86::VCMPPHZrribk:
   case X86::VCMPSHZrrib_Int: case X86::VCMPSHZrribk_Int:
-  case X86::VCMPPBF16Z128rmi:  case X86::VCMPPBF16Z128rri:
-  case X86::VCMPPBF16Z256rmi:  case X86::VCMPPBF16Z256rri:
-  case X86::VCMPPBF16Zrmi:     case X86::VCMPPBF16Zrri:
-  case X86::VCMPPBF16Z128rmik: case X86::VCMPPBF16Z128rrik:
-  case X86::VCMPPBF16Z256rmik: case X86::VCMPPBF16Z256rrik:
-  case X86::VCMPPBF16Zrmik:    case X86::VCMPPBF16Zrrik:
-  case X86::VCMPPBF16Z128rmbi: case X86::VCMPPBF16Z128rmbik:
-  case X86::VCMPPBF16Z256rmbi: case X86::VCMPPBF16Z256rmbik:
-  case X86::VCMPPBF16Zrmbi:    case X86::VCMPPBF16Zrmbik:
+  case X86::VCMPBF16Z128rmi:  case X86::VCMPBF16Z128rri:
+  case X86::VCMPBF16Z256rmi:  case X86::VCMPBF16Z256rri:
+  case X86::VCMPBF16Zrmi:     case X86::VCMPBF16Zrri:
+  case X86::VCMPBF16Z128rmik: case X86::VCMPBF16Z128rrik:
+  case X86::VCMPBF16Z256rmik: case X86::VCMPBF16Z256rrik:
+  case X86::VCMPBF16Zrmik:    case X86::VCMPBF16Zrrik:
+  case X86::VCMPBF16Z128rmbi: case X86::VCMPBF16Z128rmbik:
+  case X86::VCMPBF16Z256rmbi: case X86::VCMPBF16Z256rmbik:
+  case X86::VCMPBF16Zrmbi:    case X86::VCMPBF16Zrmbik:
     if (Imm >= 0 && Imm <= 31) {
       OS << '\t';
       printCMPMnemonic(MI, /*IsVCMP*/true, OS);
diff --git a/llvm/lib/Target/X86/X86ISelLowering.cpp b/llvm/lib/Target/X86/X86ISelLowering.cpp
index a956074e50d86..23731212a420c 100644
--- a/llvm/lib/Target/X86/X86ISelLowering.cpp
+++ b/llvm/lib/Target/X86/X86ISelLowering.cpp
@@ -436,7 +436,6 @@ X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM,
     setOperationAction(ISD::CTTZ           , MVT::i32  , Custom);
     setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i32  , Legal);
     if (Subtarget.is64Bit()) {
-      setOperationPromotedToType(ISD::CTTZ , MVT::i32, MVT::i64);
       setOperationAction(ISD::CTTZ         , MVT::i64  , Custom);
       setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::i64, Legal);
     }
@@ -3386,15 +3385,19 @@ bool X86TargetLowering::shouldFormOverflowOp(unsigned Opcode, EVT VT,
 }
 
 bool X86TargetLowering::isCheapToSpeculateCttz(Type *Ty) const {
-  // Speculate cttz only if we can directly use TZCNT or can promote to i32/i64.
+  // Speculate cttz only if we can directly use TZCNT/CMOV, can promote to
+  // i32/i64 or can rely on BSF passthrough value.
   return Subtarget.hasBMI() || Subtarget.canUseCMOV() ||
+         Subtarget.hasBitScanPassThrough() ||
          (!Ty->isVectorTy() &&
           Ty->getScalarSizeInBits() < (Subtarget.is64Bit() ? 64u : 32u));
 }
 
 bool X86TargetLowering::isCheapToSpeculateCtlz(Type *Ty) const {
-  // Speculate ctlz only if we can directly use LZCNT.
-  return Subtarget.hasLZCNT() || Subtarget.canUseCMOV();
+  // Speculate ctlz only if we can directly use LZCNT/CMOV, or can rely on BSR
+  // passthrough value.
+  return Subtarget.hasLZCNT() || Subtarget.canUseCMOV() ||
+         Subtarget.hasBitScanPassThrough();
 }
 
 bool X86TargetLowering::ShouldShrinkFPConstant(EVT VT) const {
@@ -20819,7 +20822,8 @@ static SDValue truncateVectorWithPACKSS(EVT DstVT, SDValue In, const SDLoc &DL,
 static SDValue matchTruncateWithPACK(unsigned &PackOpcode, EVT DstVT,
                                      SDValue In, const SDLoc &DL,
                                      SelectionDAG &DAG,
-                                     const X86Subtarget &Subtarget) {
+                                     const X86Subtarget &Subtarget,
+                                     const SDNodeFlags Flags = SDNodeFlags()) {
   // Requires SSE2.
   if (!Subtarget.hasSSE2())
     return SDValue();
@@ -20865,7 +20869,8 @@ static SDValue matchTruncateWithPACK(unsigned &PackOpcode, EVT DstVT,
   // e.g. Masks, zext_in_reg, etc.
   // Pre-SSE41 we can only use PACKUSWB.
   KnownBits Known = DAG.computeKnownBits(In);
-  if ((NumSrcEltBits - NumPackedZeroBits) <= Known.countMinLeadingZeros()) {
+  if ((Flags.hasNoUnsignedWrap() && NumDstEltBits <= NumPackedZeroBits) ||
+      (NumSrcEltBits - NumPackedZeroBits) <= Known.countMinLeadingZeros()) {
     PackOpcode = X86ISD::PACKUS;
     return In;
   }
@@ -20884,7 +20889,7 @@ static SDValue matchTruncateWithPACK(unsigned &PackOpcode, EVT DstVT,
     return SDValue();
 
   unsigned MinSignBits = NumSrcEltBits - NumPackedSignBits;
-  if (MinSignBits < NumSignBits) {
+  if (Flags.hasNoSignedWrap() || MinSignBits < NumSignBits) {
     PackOpcode = X86ISD::PACKSS;
     return In;
   }
@@ -20906,10 +20911,9 @@ static SDValue matchTruncateWithPACK(unsigned &PackOpcode, EVT DstVT,
 /// This function lowers a vector truncation of 'extended sign-bits' or
 /// 'extended zero-bits' values.
 /// vXi16/vXi32/vXi64 to vXi8/vXi16/vXi32 into X86ISD::PACKSS/PACKUS operations.
-static SDValue LowerTruncateVecPackWithSignBits(MVT DstVT, SDValue In,
-                                                const SDLoc &DL,
-                                                const X86Subtarget &Subtarget,
-                                                SelectionDAG &DAG) {
+static SDValue LowerTruncateVecPackWithSignBits(
+    MVT DstVT, SDValue In, const SDLoc &DL, const X86Subtarget &Subtarget,
+    SelectionDAG &DAG, const SDNodeFlags Flags = SDNodeFlags()) {
   MVT SrcVT = In.getSimpleValueType();
   MVT DstSVT = DstVT.getVectorElementType();
   MVT SrcSVT = SrcVT.getVectorElementType();
@@ -20931,8 +20935,8 @@ static SDValue LowerTruncateVecPackWithSignBits(MVT DstVT, SDValue In,
   }
 
   unsigned PackOpcode;
-  if (SDValue Src =
-          matchTruncateWithPACK(PackOpcode, DstVT, In, DL, DAG, Subtarget))
+  if (SDValue Src = matchTruncateWithPACK(PackOpcode, DstVT, In, DL, DAG,
+                                          Subtarget, Flags))
     return truncateVectorWithPACK(PackOpcode, DstVT, Src, DL, DAG, Subtarget);
 
   return SDValue();
@@ -21102,8 +21106,8 @@ SDValue X86TargetLowering::LowerTRUNCATE(SDValue Op, SelectionDAG &DAG) const {
     // Pre-AVX512 (or prefer-256bit) see if we can make use of PACKSS/PACKUS.
     if (!Subtarget.hasAVX512() ||
         (InVT.is512BitVector() && VT.is256BitVector()))
-      if (SDValue SignPack =
-              LowerTruncateVecPackWithSignBits(VT, In, DL, Subtarget, DAG))
+      if (SDValue SignPack = LowerTruncateVecPackWithSignBits(
+              VT, In, DL, Subtarget, DAG, Op->getFlags()))
         return SignPack;
 
     // Pre-AVX512 see if we can make use of PACKSS/PACKUS.
@@ -21120,8 +21124,8 @@ SDValue X86TargetLowering::LowerTRUNCATE(SDValue Op, SelectionDAG &DAG) const {
   // Attempt to truncate with PACKUS/PACKSS even on AVX512 if we'd have to
   // concat from subvectors to use VPTRUNC etc.
   if (!Subtarget.hasAVX512() || isFreeToSplitVector(In.getNode(), DAG))
-    if (SDValue SignPack =
-            LowerTruncateVecPackWithSignBits(VT, In, DL, Subtarget, DAG))
+    if (SDValue SignPack = LowerTruncateVecPackWithSignBits(
+            VT, In, DL, Subtarget, DAG, Op->getFlags()))
       return SignPack;
 
   // vpmovqb/w/d, vpmovdb/w, vpmovwb
@@ -28694,11 +28698,18 @@ static SDValue LowerCTLZ(SDValue Op, const X86Subtarget &Subtarget,
     Op = DAG.getNode(ISD::ZERO_EXTEND, dl, OpVT, Op);
   }
 
+  // Check if we can safely pass a result though BSR for zero sources.
+  SDValue PassThru = DAG.getUNDEF(OpVT);
+  if (Opc == ISD::CTLZ && Subtarget.hasBitScanPassThrough() &&
+      !DAG.isKnownNeverZero(Op))
+    PassThru = DAG.getConstant(NumBits + NumBits - 1, dl, OpVT);
+
   // Issue a bsr (scan bits in reverse) which also sets EFLAGS.
   SDVTList VTs = DAG.getVTList(OpVT, MVT::i32);
-  Op = DAG.getNode(X86ISD::BSR, dl, VTs, Op);
+  Op = DAG.getNode(X86ISD::BSR, dl, VTs, PassThru, Op);
 
-  if (Opc == ISD::CTLZ) {
+  // Skip CMOV if we're using a pass through value.
+  if (Opc == ISD::CTLZ && PassThru.isUndef()) {
     // If src is zero (i.e. bsr sets ZF), returns NumBits.
     SDValue Ops[] = {Op, DAG.getConstant(NumBits + NumBits - 1, dl, OpVT),
                      DAG.getTargetConstant(X86::COND_E, dl, MVT::i8),
@@ -28721,16 +28732,22 @@ static SDValue LowerCTTZ(SDValue Op, const X86Subtarget &Subtarget,
   unsigned NumBits = VT.getScalarSizeInBits();
   SDValue N0 = Op.getOperand(0);
   SDLoc dl(Op);
+  bool NonZeroSrc = DAG.isKnownNeverZero(N0);
 
   assert(!VT.isVector() && Op.getOpcode() == ISD::CTTZ &&
          "Only scalar CTTZ requires custom lowering");
 
+  // Check if we can safely pass a result though BSF for zero sources.
+  SDValue PassThru = DAG.getUNDEF(VT);
+  if (!NonZeroSrc && Subtarget.hasBitScanPassThrough())
+    PassThru = DAG.getConstant(NumBits, dl, VT);
+
   // Issue a bsf (scan bits forward) which also sets EFLAGS.
   SDVTList VTs = DAG.getVTList(VT, MVT::i32);
-  Op = DAG.getNode(X86ISD::BSF, dl, VTs, N0);
+  Op = DAG.getNode(X86ISD::BSF, dl, VTs, PassThru, N0);
 
-  // If src is known never zero we can skip the CMOV.
-  if (DAG.isKnownNeverZero(N0))
+  // Skip CMOV if src is never zero or we're using a pass through value.
+  if (NonZeroSrc || !PassThru.isUndef())
     return Op;
 
   // If src is zero (i.e. bsf sets ZF), returns NumBits.
@@ -33578,10 +33595,10 @@ void X86TargetLowering::ReplaceNodeResults(SDNode *N,
 
     // See if there are sufficient leading bits to perform a PACKUS/PACKSS.
     unsigned PackOpcode;
-    if (SDValue Src =
-            matchTruncateWithPACK(PackOpcode, VT, In, dl, DAG, Subtarget)) {
-      if (SDValue Res = truncateVectorWithPACK(PackOpcode, VT, Src,
-                                               dl, DAG, Subtarget)) {
+    if (SDValue Src = matchTruncateWithPACK(PackOpcode, VT, In, dl, DAG,
+                                            Subtarget, N->getFlags())) {
+      if (SDValue Res =
+              truncateVectorWithPACK(PackOpcode, VT, Src, dl, DAG, Subtarget)) {
         Res = widenSubVector(WidenVT, Res, false, Subtarget, DAG, dl);
         Results.push_back(Res);
         return;
@@ -34937,26 +34954,26 @@ const char *X86TargetLowering::getTargetNodeName(unsigned Opcode) const {
   NODE_NAME_CASE(CVTTP2IUBS)
   NODE_NAME_CASE(CVTTP2IBS_SAE)
   NODE_NAME_CASE(CVTTP2IUBS_SAE)
-  NODE_NAME_CASE(VCVTNE2PH2BF8)
-  NODE_NAME_CASE(VCVTNE2PH2BF8S)
-  NODE_NAME_CASE(VCVTNE2PH2HF8)
-  NODE_NAME_CASE(VCVTNE2PH2HF8S)
+  NODE_NAME_CASE(VCVT2PH2BF8)
+  NODE_NAME_CASE(VCVT2PH2BF8S)
+  NODE_NAME_CASE(VCVT2PH2HF8)
+  NODE_NAME_CASE(VCVT2PH2HF8S)
   NODE_NAME_CASE(VCVTBIASPH2BF8)
   NODE_NAME_CASE(VCVTBIASPH2BF8S)
   NODE_NAME_CASE(VCVTBIASPH2HF8)
   NODE_NAME_CASE(VCVTBIASPH2HF8S)
-  NODE_NAME_CASE(VCVTNEPH2BF8)
-  NODE_NAME_CASE(VCVTNEPH2BF8S)
-  NODE_NAME_CASE(VCVTNEPH2HF8)
-  NODE_NAME_CASE(VCVTNEPH2HF8S)
+  NODE_NAME_CASE(VCVTPH2BF8)
+  NODE_NAME_CASE(VCVTPH2BF8S)
+  NODE_NAME_CASE(VCVTPH2HF8)
+  NODE_NAME_CASE(VCVTPH2HF8S)
   NODE_NAME_CASE(VMCVTBIASPH2BF8)
   NODE_NAME_CASE(VMCVTBIASPH2BF8S)
   NODE_NAME_CASE(VMCVTBIASPH2HF8)
   NODE_NAME_CASE(VMCVTBIASPH2HF8S)
-  NODE_NAME_CASE(VMCVTNEPH2BF8)
-  NODE_NAME_CASE(VMCVTNEPH2BF8S)
-  NODE_NAME_CASE(VMCVTNEPH2HF8)
-  NODE_NAME_CASE(VMCVTNEPH2HF8S)
+  NODE_NAME_CASE(VMCVTPH2BF8)
+  NODE_NAME_CASE(VMCVTPH2BF8S)
+  NODE_NAME_CASE(VMCVTPH2HF8)
+  NODE_NAME_CASE(VMCVTPH2HF8S)
   NODE_NAME_CASE(VCVTHF82PH)
   NODE_NAME_CASE(AESENC128KL)
   NODE_NAME_CASE(AESDEC128KL)
@@ -38193,12 +38210,34 @@ void X86TargetLowering::computeKnownBitsForTargetNode(const SDValue Op,
     Known = KnownBits::mul(Known, Known2);
     break;
   }
-  case X86ISD::BSR:
-    // BSR(0) is undef, but any use of BSR already accounts for non-zero inputs.
-    // Similar KnownBits behaviour to CTLZ_ZERO_UNDEF.
+  case X86ISD::BSF: {
+    Known.Zero.setBitsFrom(Log2_32(BitWidth));
+
+    KnownBits Known2;
+    Known2 = DAG.computeKnownBits(Op.getOperand(1), DemandedElts, Depth + 1);
+    if (Known2.isNonZero()) {
+      // If we have a known 1, its position is our upper bound.
+      unsigned PossibleTZ = Known2.countMaxTrailingZeros();
+      unsigned LowBits = llvm::bit_width(PossibleTZ);
+      Known.Zero.setBitsFrom(LowBits);
+    } else if (!Op.getOperand(0).isUndef()) {
+      Known2 = DAG.computeKnownBits(Op.getOperand(0), DemandedElts, Depth + 1);
+      Known = Known.intersectWith(Known2);
+    }
+    break;
+  }
+  case X86ISD::BSR: {
     // TODO: Bound with input known bits?
     Known.Zero.setBitsFrom(Log2_32(BitWidth));
+
+    if (!Op.getOperand(0).isUndef() &&
+        !DAG.isKnownNeverZero(Op.getOperand(1), Depth + 1)) {
+      KnownBits Known2;
+      Known2 = DAG.computeKnownBits(Op.getOperand(0), DemandedElts, Depth + 1);
+      Known = Known.intersectWith(Known2);
+    }
     break;
+  }
   case X86ISD::SETCC:
     Known.Zero.setBitsFrom(1);
     break;
@@ -54243,7 +54282,7 @@ static SDValue combineXorSubCTLZ(SDNode *N, const SDLoc &DL, SelectionDAG &DAG,
   }
 
   SDVTList VTs = DAG.getVTList(OpVT, MVT::i32);
-  Op = DAG.getNode(X86ISD::BSR, DL, VTs, Op);
+  Op = DAG.getNode(X86ISD::BSR, DL, VTs, DAG.getUNDEF(OpVT), Op);
   if (VT == MVT::i8)
     Op = DAG.getNode(ISD::TRUNCATE, DL, MVT::i8, Op);
 
diff --git a/llvm/lib/Target/X86/X86ISelLowering.h b/llvm/lib/Target/X86/X86ISelLowering.h
index 03f10a3c83e30..e07bcd989c518 100644
--- a/llvm/lib/Target/X86/X86ISelLowering.h
+++ b/llvm/lib/Target/X86/X86ISelLowering.h
@@ -625,26 +625,26 @@ namespace llvm {
 
     MPSADBW,
 
-    VCVTNE2PH2BF8,
-    VCVTNE2PH2BF8S,
-    VCVTNE2PH2HF8,
-    VCVTNE2PH2HF8S,
+    VCVT2PH2BF8,
+    VCVT2PH2BF8S,
+    VCVT2PH2HF8,
+    VCVT2PH2HF8S,
     VCVTBIASPH2BF8,
     VCVTBIASPH2BF8S,
     VCVTBIASPH2HF8,
     VCVTBIASPH2HF8S,
-    VCVTNEPH2BF8,
-    VCVTNEPH2BF8S,
-    VCVTNEPH2HF8,
-    VCVTNEPH2HF8S,
+    VCVTPH2BF8,
+    VCVTPH2BF8S,
+    VCVTPH2HF8,
+    VCVTPH2HF8S,
     VMCVTBIASPH2BF8,
     VMCVTBIASPH2BF8S,
     VMCVTBIASPH2HF8,
     VMCVTBIASPH2HF8S,
-    VMCVTNEPH2BF8,
-    VMCVTNEPH2BF8S,
-    VMCVTNEPH2HF8,
-    VMCVTNEPH2HF8S,
+    VMCVTPH2BF8,
+    VMCVTPH2BF8S,
+    VMCVTPH2HF8,
+    VMCVTPH2HF8S,
     VCVTHF82PH,
 
     // Compress and expand.
diff --git a/llvm/lib/Target/X86/X86InstrAVX10.td b/llvm/lib/Target/X86/X86InstrAVX10.td
index 98874a3c9e6f2..9bb3e364f7c62 100644
--- a/llvm/lib/Target/X86/X86InstrAVX10.td
+++ b/llvm/lib/Target/X86/X86InstrAVX10.td
@@ -1072,21 +1072,21 @@ defm VCVT2PS2PHX : avx10_cvt2ps2ph<0x67, "vcvt2ps2phx",
                                    avx512vl_f32_info, avx512vl_f16_info,
                                    X86vfpround2, X86vfpround2Rnd>, T8;
 
-defm VCVTNE2PH2BF8 : avx512_binop_all<0x74, "vcvtne2ph2bf8", SchedWriteCvtPD2PS,
+defm VCVT2PH2BF8 : avx512_binop_all<0x74, "vcvt2ph2bf8", SchedWriteCvtPD2PS,
                                      avx512vl_f16_info, avx512vl_i8_info,
-                                     X86vcvtne2ph2bf8, [HasAVX10_2_512], [HasAVX10_2]>,
+                                     X86vcvt2ph2bf8, [HasAVX10_2_512], [HasAVX10_2]>,
                                     EVEX_CD8<16, CD8VF>, T8, XD;
-defm VCVTNE2PH2BF8S : avx512_binop_all<0x74, "vcvtne2ph2bf8s", SchedWriteCvtPD2PS,
+defm VCVT2PH2BF8S : avx512_binop_all<0x74, "vcvt2ph2bf8s", SchedWriteCvtPD2PS,
                                       avx512vl_f16_info, avx512vl_i8_info,
-                                      X86vcvtne2ph2bf8s, [HasAVX10_2_512], [HasAVX10_2]>,
+                                      X86vcvt2ph2bf8s, [HasAVX10_2_512], [HasAVX10_2]>,
                                      EVEX_CD8<16, CD8VF>, T_MAP5, XD;
-defm VCVTNE2PH2HF8 : avx512_binop_all<0x18, "vcvtne2ph2hf8", SchedWriteCvtPD2PS,
+defm VCVT2PH2HF8 : avx512_binop_all<0x18, "vcvt2ph2hf8", SchedWriteCvtPD2PS,
                                      avx512vl_f16_info, avx512vl_i8_info,
-                                     X86vcvtne2ph2hf8, [HasAVX10_2_512], [HasAVX10_2]>,
+                                     X86vcvt2ph2hf8, [HasAVX10_2_512], [HasAVX10_2]>,
                                     EVEX_CD8<16, CD8VF>, T_MAP5, XD;
-defm VCVTNE2PH2HF8S : avx512_binop_all<0x1b, "vcvtne2ph2hf8s", SchedWriteCvtPD2PS,
+defm VCVT2PH2HF8S : avx512_binop_all<0x1b, "vcvt2ph2hf8s", SchedWriteCvtPD2PS,
                                       avx512vl_f16_info, avx512vl_i8_info,
-                                      X86vcvtne2ph2hf8s, [HasAVX10_2_512], [HasAVX10_2]>,
+                                      X86vcvt2ph2hf8s, [HasAVX10_2_512], [HasAVX10_2]>,
                                      EVEX_CD8<16, CD8VF>, T_MAP5, XD;
 
 //TODO: Merge into avx512_vcvt_fp, diffrence is one more source register here.
@@ -1244,27 +1244,27 @@ defm VCVTBIASPH2HF8S : avx10_convert_3op<0x1b, "vcvtbiasph2hf8s",
                                          X86vcvtbiasph2hf8s, X86vmcvtbiasph2hf8s>,
                                          T_MAP5, PS;
 
-defm VCVTNEPH2BF8 : avx512_cvt_trunc_ne<0x74, "vcvtneph2bf8", avx512vl_i8_info,
+defm VCVTPH2BF8 : avx512_cvt_trunc_ne<0x74, "vcvtph2bf8", avx512vl_i8_info,
                                         avx512vl_f16_info, SchedWriteCvtPD2PS,
-                                        X86vcvtneph2bf8, X86vmcvtneph2bf8,
+                                        X86vcvtph2bf8, X86vmcvtph2bf8,
                                         [HasAVX10_2], [HasAVX10_2_512]>,
                                         T8, XS, EVEX_CD8<16, CD8VF>;
 
-defm VCVTNEPH2BF8S : avx512_cvt_trunc_ne<0x74, "vcvtneph2bf8s", avx512vl_i8_info,
+defm VCVTPH2BF8S : avx512_cvt_trunc_ne<0x74, "vcvtph2bf8s", avx512vl_i8_info,
                                          avx512vl_f16_info, SchedWriteCvtPD2PS,
-                                         X86vcvtneph2bf8s, X86vmcvtneph2bf8s,
+                                         X86vcvtph2bf8s, X86vmcvtph2bf8s,
                                          [HasAVX10_2], [HasAVX10_2_512]>,
                                          T_MAP5, XS, EVEX_CD8<16, CD8VF>;
 
-defm VCVTNEPH2HF8 : avx512_cvt_trunc_ne<0x18, "vcvtneph2hf8", avx512vl_i8_info,
+defm VCVTPH2HF8 : avx512_cvt_trunc_ne<0x18, "vcvtph2hf8", avx512vl_i8_info,
                                         avx512vl_f16_info, SchedWriteCvtPD2PS,
-                                        X86vcvtneph2hf8, X86vmcvtneph2hf8,
+                                        X86vcvtph2hf8, X86vmcvtph2hf8,
                                         [HasAVX10_2], [HasAVX10_2_512]>,
                                         T_MAP5, XS, EVEX_CD8<16, CD8VF>;
 
-defm VCVTNEPH2HF8S : avx512_cvt_trunc_ne<0x1b, "vcvtneph2hf8s", avx512vl_i8_info,
+defm VCVTPH2HF8S : avx512_cvt_trunc_ne<0x1b, "vcvtph2hf8s", avx512vl_i8_info,
                                          avx512vl_f16_info, SchedWriteCvtPD2PS,
-                                         X86vcvtneph2hf8s, X86vmcvtneph2hf8s,
+                                         X86vcvtph2hf8s, X86vmcvtph2hf8s,
                                          [HasAVX10_2], [HasAVX10_2_512]>,
                                          T_MAP5, XS, EVEX_CD8<16, CD8VF>;
 
@@ -1308,31 +1308,31 @@ defm VCVTHF82PH : avx10_convert_2op_nomb<"vcvthf82ph", avx512vl_f16_info,
 // AVX10 BF16 instructions
 //-------------------------------------------------
 
-// VADDNEPBF16, VSUBNEPBF16, VMULNEPBF16, VDIVNEPBF16, VMAXPBF16, VMINPBF16
-multiclass avx10_fp_binopne_int_pbf16<bits<8> opc, string OpcodeStr,
+// VADDBF16, VSUBBF16, VMULBF16, VDIVBF16, VMAXBF16, VMINBF16
+multiclass avx10_fp_binop_int_bf16<bits<8> opc, string OpcodeStr,
                                       X86SchedWriteSizes sched,
                                       bit IsCommutable = 0> {
   let Predicates = [HasAVX10_2_512] in
     defm Z : avx512_fp_packed<opc, OpcodeStr,
-                              !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"pbf16512"),
-                              !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"pbf16512"),
+                              !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"bf16512"),
+                              !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"bf16512"),
                               v32bf16_info, sched.PH.ZMM, IsCommutable>, EVEX_V512,
                               T_MAP5, PD, EVEX_CD8<16, CD8VF>;
   let Predicates = [HasAVX10_2] in {
     defm Z128 : avx512_fp_packed<opc, OpcodeStr,
-                                 !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"pbf16128"),
-                                 !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"pbf16128"),
+                                 !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"bf16128"),
+                                 !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"bf16128"),
                                  v8bf16x_info, sched.PH.XMM, IsCommutable>, EVEX_V128,
                                  T_MAP5, PD, EVEX_CD8<16, CD8VF>;
     defm Z256 : avx512_fp_packed<opc, OpcodeStr,
-                                 !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"pbf16256"),
-                                 !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"pbf16256"),
+                                 !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"bf16256"),
+                                 !cast<Intrinsic>("int_x86_avx10_"#OpcodeStr#"bf16256"),
                                  v16bf16x_info, sched.PH.YMM, IsCommutable>, EVEX_V256,
                                  T_MAP5, PD, EVEX_CD8<16, CD8VF>;
   }
 }
 
-multiclass avx10_fp_binop_pbf16<bits<8> opc, string OpcodeStr, SDPatternOperator OpNode,
+multiclass avx10_fp_binop_bf16<bits<8> opc, string OpcodeStr, SDPatternOperator OpNode,
                                 X86SchedWriteSizes sched,
                                 bit IsCommutable = 0,
                                 SDPatternOperator MaskOpNode = OpNode> {
@@ -1351,31 +1351,31 @@ multiclass avx10_fp_binop_pbf16<bits<8> opc, string OpcodeStr, SDPatternOperator
 }
 
 let Uses = []<Register>, mayRaiseFPException = 0 in {
-defm VADDNEPBF16 : avx10_fp_binop_pbf16<0x58, "vaddne", fadd, SchedWriteFAddSizes, 1>;
-defm VSUBNEPBF16 : avx10_fp_binop_pbf16<0x5C, "vsubne", fsub, SchedWriteFAddSizes, 0>;
-defm VMULNEPBF16 : avx10_fp_binop_pbf16<0x59, "vmulne", fmul, SchedWriteFMulSizes, 1>;
-defm VDIVNEPBF16 : avx10_fp_binop_pbf16<0x5E, "vdivne", fdiv, SchedWriteFDivSizes, 0>;
-defm VMINPBF16 : avx10_fp_binopne_int_pbf16<0x5D, "vmin", SchedWriteFCmpSizes, 0>;
-defm VMAXPBF16 : avx10_fp_binopne_int_pbf16<0x5F, "vmax", SchedWriteFCmpSizes, 0>;
+defm VADDBF16 : avx10_fp_binop_bf16<0x58, "vadd", fadd, SchedWriteFAddSizes, 1>;
+defm VSUBBF16 : avx10_fp_binop_bf16<0x5C, "vsub", fsub, SchedWriteFAddSizes, 0>;
+defm VMULBF16 : avx10_fp_binop_bf16<0x59, "vmul", fmul, SchedWriteFMulSizes, 1>;
+defm VDIVBF16 : avx10_fp_binop_bf16<0x5E, "vdiv", fdiv, SchedWriteFDivSizes, 0>;
+defm VMINBF16 : avx10_fp_binop_int_bf16<0x5D, "vmin", SchedWriteFCmpSizes, 0>;
+defm VMAXBF16 : avx10_fp_binop_int_bf16<0x5F, "vmax", SchedWriteFCmpSizes, 0>;
 }
 
-// VCOMSBF16
+// VCOMISBF16
 let Uses = []<Register>, mayRaiseFPException = 0,
   Defs = [EFLAGS], Predicates = [HasAVX10_2] in {
   //TODO: Replace null_frag with X86fcmp to support lowering `fcmp oeq bfloat *`
   //which may require extend supports on BFR16X, loadbf16, ...
-  defm VCOMSBF16Z : sse12_ord_cmp<0x2F, FR16X, null_frag, bf16, f16mem, loadf16,
-                                  "comsbf16", SSEPackedSingle>, T_MAP5, PD, EVEX,
-                                  VEX_LIG, EVEX_CD8<16, CD8VT1>;
+  defm VCOMISBF16Z : sse12_ord_cmp<0x2F, FR16X, null_frag, bf16, f16mem, loadf16,
+                                   "comisbf16", SSEPackedSingle>, T_MAP5, PD, EVEX,
+                                   VEX_LIG, EVEX_CD8<16, CD8VT1>;
 
   let isCodeGenOnly = 1 in {
-    defm VCOMSBF16Z : sse12_ord_cmp_int<0x2F, VR128X, X86comi, v8bf16, f16mem,
-                                        sse_load_bf16, "comsbf16", SSEPackedSingle>,
-                                        T_MAP5, PD, EVEX, VEX_LIG, EVEX_CD8<16, CD8VT1>;
+    defm VCOMISBF16Z : sse12_ord_cmp_int<0x2F, VR128X, X86comi, v8bf16, f16mem,
+                                         sse_load_bf16, "comisbf16", SSEPackedSingle>,
+                                         T_MAP5, PD, EVEX, VEX_LIG, EVEX_CD8<16, CD8VT1>;
   }
 }
 
-// VCMPPBF16
+// VCMPBF16
 multiclass avx10_vcmp_common_bf16<X86FoldableSchedWrite sched, X86VectorVTInfo _> {
   let mayRaiseFPException = 0 in {
   defm rri  : AVX512_maskable_cmp<0xC2, MRMSrcReg, _,
@@ -1421,56 +1421,56 @@ multiclass avx10_vcmp_bf16<X86SchedWriteWidths sched, AVX512VLVectorVTInfo _> {
   }
 }
 
-defm VCMPPBF16 : avx10_vcmp_bf16<SchedWriteFCmp, avx512vl_bf16_info>,
+defm VCMPBF16 : avx10_vcmp_bf16<SchedWriteFCmp, avx512vl_bf16_info>,
                                  AVX512XDIi8Base, EVEX, VVVV,
                                  EVEX_CD8<16, CD8VF>, TA;
 
 
-// VSQRTNEPBF16
+// VSQRTBF16
 multiclass avx10_sqrt_packed_bf16<bits<8> opc, string OpcodeStr,
                                   X86SchedWriteSizes sched> {
   let Predicates = [HasAVX10_2_512] in
-  defm Z : avx512_sqrt_packed<opc, !strconcat(OpcodeStr, "pbf16"),
+  defm Z : avx512_sqrt_packed<opc, !strconcat(OpcodeStr, "bf16"),
                               sched.PH.ZMM, v32bf16_info>,
                               EVEX_V512, PD, T_MAP5, EVEX_CD8<16, CD8VF>;
   let Predicates = [HasAVX10_2] in {
-    defm Z128 : avx512_sqrt_packed<opc, !strconcat(OpcodeStr, "pbf16"),
+    defm Z128 : avx512_sqrt_packed<opc, !strconcat(OpcodeStr, "bf16"),
                                    sched.PH.XMM, v8bf16x_info>,
                                    EVEX_V128, PD, T_MAP5, EVEX_CD8<16, CD8VF>;
-    defm Z256 : avx512_sqrt_packed<opc, !strconcat(OpcodeStr, "pbf16"),
+    defm Z256 : avx512_sqrt_packed<opc, !strconcat(OpcodeStr, "bf16"),
                                    sched.PH.YMM, v16bf16x_info>,
                                    EVEX_V256, PD, T_MAP5, EVEX_CD8<16, CD8VF>;
   }
 }
 
 let Uses = []<Register>, mayRaiseFPException = 0 in
-defm VSQRTNEPBF16 : avx10_sqrt_packed_bf16<0x51, "vsqrtne", SchedWriteFSqrtSizes>;
+defm VSQRTBF16 : avx10_sqrt_packed_bf16<0x51, "vsqrt", SchedWriteFSqrtSizes>;
 
-// VRSQRTPBF16, VRCPPBF16, VSRQTPBF16, VGETEXPPBF16
-multiclass avx10_fp14_pbf16<bits<8> opc, string OpcodeStr, SDNode OpNode,
+// VRSQRTBF16, VRCPBF16, VSRQTBF16, VGETEXPBF16
+multiclass avx10_fp14_bf16<bits<8> opc, string OpcodeStr, SDNode OpNode,
                             X86SchedWriteWidths sched> {
   let Predicates = [HasAVX10_2_512] in
-  defm PBF16Z : avx512_fp14_p<opc, !strconcat(OpcodeStr, "pbf16"),
-                              OpNode, sched.ZMM, v32bf16_info>,
-                              EVEX_V512;
+  defm BF16Z : avx512_fp14_p<opc, !strconcat(OpcodeStr, "bf16"),
+                             OpNode, sched.ZMM, v32bf16_info>,
+                             EVEX_V512;
   let Predicates = [HasAVX10_2] in {
-    defm PBF16Z128 : avx512_fp14_p<opc, !strconcat(OpcodeStr, "pbf16"),
-                                   OpNode, sched.XMM, v8bf16x_info>,
-                                   EVEX_V128;
-    defm PBF16Z256 : avx512_fp14_p<opc, !strconcat(OpcodeStr, "pbf16"),
-                                   OpNode, sched.YMM, v16bf16x_info>,
-                                   EVEX_V256;
+    defm BF16Z128 : avx512_fp14_p<opc, !strconcat(OpcodeStr, "bf16"),
+                                  OpNode, sched.XMM, v8bf16x_info>,
+                                  EVEX_V128;
+    defm BF16Z256 : avx512_fp14_p<opc, !strconcat(OpcodeStr, "bf16"),
+                                  OpNode, sched.YMM, v16bf16x_info>,
+                                  EVEX_V256;
   }
 }
 
-defm VRSQRT  : avx10_fp14_pbf16<0x4E, "vrsqrt", X86rsqrt14, SchedWriteFRsqrt>,
+defm VRSQRT  : avx10_fp14_bf16<0x4E, "vrsqrt", X86rsqrt14, SchedWriteFRsqrt>,
                                 T_MAP6, PS, EVEX_CD8<16, CD8VF>;
-defm VRCP    : avx10_fp14_pbf16<0x4C, "vrcp", X86rcp14, SchedWriteFRcp>,
+defm VRCP    : avx10_fp14_bf16<0x4C, "vrcp", X86rcp14, SchedWriteFRcp>,
                                 T_MAP6, PS, EVEX_CD8<16, CD8VF>;
-defm VGETEXP : avx10_fp14_pbf16<0x42, "vgetexp", X86fgetexp, SchedWriteFRnd>,
+defm VGETEXP : avx10_fp14_bf16<0x42, "vgetexp", X86fgetexp, SchedWriteFRnd>,
                                 T_MAP5, EVEX_CD8<16, CD8VF>;
 
-// VSCALEFPBF16
+// VSCALEFBF16
 multiclass avx10_fp_scalef_bf16<bits<8> opc, string OpcodeStr,
                                 X86SchedWriteWidths sched> {
   let Predicates = [HasAVX10_2_512] in
@@ -1485,9 +1485,9 @@ multiclass avx10_fp_scalef_bf16<bits<8> opc, string OpcodeStr,
 }
 
 let Uses = []<Register>, mayRaiseFPException = 0 in
-defm VSCALEFPBF16 : avx10_fp_scalef_bf16<0x2C, "vscalef", SchedWriteFAdd>;
+defm VSCALEFBF16 : avx10_fp_scalef_bf16<0x2C, "vscalef", SchedWriteFAdd>;
 
-// VREDUCENEPBF16, VRNDSCALENEPBF16, VGETMANTPBF16
+// VREDUCEBF16, VRNDSCALEBF16, VGETMANTBF16
 multiclass avx10_common_unary_fp_packed_imm_bf16<string OpcodeStr,
             AVX512VLVectorVTInfo _, bits<8> opc, SDPatternOperator OpNode,
             SDPatternOperator MaskOpNode, X86SchedWriteWidths sched> {
@@ -1503,18 +1503,18 @@ multiclass avx10_common_unary_fp_packed_imm_bf16<string OpcodeStr,
 }
 
 let Uses = []<Register>, mayRaiseFPException = 0 in {
-defm VREDUCENEPBF16 : avx10_common_unary_fp_packed_imm_bf16<"vreducene", avx512vl_bf16_info, 0x56,
+defm VREDUCEBF16 : avx10_common_unary_fp_packed_imm_bf16<"vreduce", avx512vl_bf16_info, 0x56,
                             X86VReduce, X86VReduce, SchedWriteFRnd>,
                             AVX512XDIi8Base, TA, EVEX, EVEX_CD8<16, CD8VF>;
-defm VRNDSCALENEPBF16 : avx10_common_unary_fp_packed_imm_bf16<"vrndscalene", avx512vl_bf16_info, 0x08,
+defm VRNDSCALEBF16 : avx10_common_unary_fp_packed_imm_bf16<"vrndscale", avx512vl_bf16_info, 0x08,
                             X86any_VRndScale, X86VRndScale, SchedWriteFRnd>,
                             AVX512XDIi8Base, TA, EVEX, EVEX_CD8<16, CD8VF>;
-defm VGETMANTPBF16 : avx10_common_unary_fp_packed_imm_bf16<"vgetmant", avx512vl_bf16_info, 0x26,
+defm VGETMANTBF16 : avx10_common_unary_fp_packed_imm_bf16<"vgetmant", avx512vl_bf16_info, 0x26,
                             X86VGetMant, X86VGetMant, SchedWriteFRnd>,
                             AVX512XDIi8Base, TA, EVEX, EVEX_CD8<16, CD8VF>;
 }
 
-// VFPCLASSPBF16
+// VFPCLASSBF16
 multiclass avx10_fp_fpclass_bf16<string OpcodeStr, bits<8> opcVec,
                                   X86SchedWriteWidths sched> {
   let Predicates = [HasAVX10_2_512] in
@@ -1531,13 +1531,13 @@ multiclass avx10_fp_fpclass_bf16<string OpcodeStr, bits<8> opcVec,
   }
 }
 
-defm VFPCLASSPBF16 : avx10_fp_fpclass_bf16<"vfpclass", 0x66, SchedWriteFCmp>,
+defm VFPCLASSBF16 : avx10_fp_fpclass_bf16<"vfpclass", 0x66, SchedWriteFCmp>,
                                       AVX512XDIi8Base, TA, EVEX, EVEX_CD8<16, CD8VF>;
 
-// VF[,N]M[ADD,SUB][132,213,231]NEPBF16
+// VF[,N]M[ADD,SUB][132,213,231]BF16
 multiclass avx10_fma3p_213_bf16<bits<8> opc, string OpcodeStr,
-                                 SDPatternOperator OpNode, SDNode MaskOpNode,
-                                 X86SchedWriteWidths sched> {
+                                SDPatternOperator OpNode, SDNode MaskOpNode,
+                                X86SchedWriteWidths sched> {
   let Predicates = [HasAVX10_2_512] in
     defm Z : avx512_fma3p_213_rm<opc, OpcodeStr, OpNode, MaskOpNode,
                                sched.ZMM, v32bf16_info>, EVEX_V512, T_MAP6, PS,
@@ -1553,14 +1553,14 @@ multiclass avx10_fma3p_213_bf16<bits<8> opc, string OpcodeStr,
 }
 
 let Uses = []<Register>, mayRaiseFPException = 0 in {
-defm VFMADD213NEPBF16 : avx10_fma3p_213_bf16<0xA8, "vfmadd213nepbf16", any_fma,
-                                         fma, SchedWriteFMA>;
-defm VFMSUB213NEPBF16 : avx10_fma3p_213_bf16<0xAA, "vfmsub213nepbf16", X86any_Fmsub,
-                                         X86Fmsub, SchedWriteFMA>;
-defm VFNMADD213NEPBF16 : avx10_fma3p_213_bf16<0xAC, "vfnmadd213nepbf16", X86any_Fnmadd,
-                                          X86Fnmadd, SchedWriteFMA>;
-defm VFNMSUB213NEPBF16 : avx10_fma3p_213_bf16<0xAE, "vfnmsub213nepbf16", X86any_Fnmsub,
-                                          X86Fnmsub, SchedWriteFMA>;
+defm VFMADD213BF16 : avx10_fma3p_213_bf16<0xA8, "vfmadd213bf16", any_fma,
+                                          fma, SchedWriteFMA>;
+defm VFMSUB213BF16 : avx10_fma3p_213_bf16<0xAA, "vfmsub213bf16", X86any_Fmsub,
+                                          X86Fmsub, SchedWriteFMA>;
+defm VFNMADD213BF16 : avx10_fma3p_213_bf16<0xAC, "vfnmadd213bf16", X86any_Fnmadd,
+                                           X86Fnmadd, SchedWriteFMA>;
+defm VFNMSUB213BF16 : avx10_fma3p_213_bf16<0xAE, "vfnmsub213bf16", X86any_Fnmsub,
+                                           X86Fnmsub, SchedWriteFMA>;
 }
 
 multiclass avx10_fma3p_231_bf16<bits<8> opc, string OpcodeStr,
@@ -1581,14 +1581,14 @@ multiclass avx10_fma3p_231_bf16<bits<8> opc, string OpcodeStr,
 }
 
 let Uses = []<Register>, mayRaiseFPException = 0 in {
-defm VFMADD231NEPBF16 : avx10_fma3p_231_bf16<0xB8, "vfmadd231nepbf16", any_fma,
-                                         fma, SchedWriteFMA>;
-defm VFMSUB231NEPBF16 : avx10_fma3p_231_bf16<0xBA, "vfmsub231nepbf16", X86any_Fmsub,
-                                         X86Fmsub, SchedWriteFMA>;
-defm VFNMADD231NEPBF16 : avx10_fma3p_231_bf16<0xBC, "vfnmadd231nepbf16", X86any_Fnmadd,
-                                          X86Fnmadd, SchedWriteFMA>;
-defm VFNMSUB231NEPBF16 : avx10_fma3p_231_bf16<0xBE, "vfnmsub231nepbf16", X86any_Fnmsub,
-                                          X86Fnmsub, SchedWriteFMA>;
+defm VFMADD231BF16 : avx10_fma3p_231_bf16<0xB8, "vfmadd231bf16", any_fma,
+                                          fma, SchedWriteFMA>;
+defm VFMSUB231BF16 : avx10_fma3p_231_bf16<0xBA, "vfmsub231bf16", X86any_Fmsub,
+                                          X86Fmsub, SchedWriteFMA>;
+defm VFNMADD231BF16 : avx10_fma3p_231_bf16<0xBC, "vfnmadd231bf16", X86any_Fnmadd,
+                                           X86Fnmadd, SchedWriteFMA>;
+defm VFNMSUB231BF16 : avx10_fma3p_231_bf16<0xBE, "vfnmsub231bf16", X86any_Fnmsub,
+                                           X86Fnmsub, SchedWriteFMA>;
 }
 
 multiclass avx10_fma3p_132_bf16<bits<8> opc, string OpcodeStr,
@@ -1609,14 +1609,14 @@ multiclass avx10_fma3p_132_bf16<bits<8> opc, string OpcodeStr,
 }
 
 let Uses = []<Register>, mayRaiseFPException = 0 in {
-defm VFMADD132NEPBF16 : avx10_fma3p_132_bf16<0x98, "vfmadd132nepbf16", any_fma,
-                                             fma, SchedWriteFMA>;
-defm VFMSUB132NEPBF16 : avx10_fma3p_132_bf16<0x9A, "vfmsub132nepbf16", X86any_Fmsub,
+defm VFMADD132BF16 : avx10_fma3p_132_bf16<0x98, "vfmadd132bf16", any_fma,
+                                          fma, SchedWriteFMA>;
+defm VFMSUB132BF16 : avx10_fma3p_132_bf16<0x9A, "vfmsub132bf16", X86any_Fmsub,
                                              X86Fmsub, SchedWriteFMA>;
-defm VFNMADD132NEPBF16 : avx10_fma3p_132_bf16<0x9C, "vfnmadd132nepbf16", X86any_Fnmadd,
-                                              X86Fnmadd, SchedWriteFMA>;
-defm VFNMSUB132NEPBF16 : avx10_fma3p_132_bf16<0x9E, "vfnmsub132nepbf16", X86any_Fnmsub,
-                                              X86Fnmsub, SchedWriteFMA>;
+defm VFNMADD132BF16 : avx10_fma3p_132_bf16<0x9C, "vfnmadd132bf16", X86any_Fnmadd,
+                                           X86Fnmadd, SchedWriteFMA>;
+defm VFNMSUB132BF16 : avx10_fma3p_132_bf16<0x9E, "vfnmsub132bf16", X86any_Fnmsub,
+                                           X86Fnmsub, SchedWriteFMA>;
 }
 
 //-------------------------------------------------
diff --git a/llvm/lib/Target/X86/X86InstrCompiler.td b/llvm/lib/Target/X86/X86InstrCompiler.td
index 7d4c5c0e10e49..9bda3fd7d951c 100644
--- a/llvm/lib/Target/X86/X86InstrCompiler.td
+++ b/llvm/lib/Target/X86/X86InstrCompiler.td
@@ -2213,12 +2213,12 @@ def : Pat<(mul (loadi64 addr:$src1), i64immSExt32:$src2),
           (IMUL64rmi32 addr:$src1, i64immSExt32:$src2)>;
 
 // Bit scan instruction patterns to match explicit zero-undef behavior.
-def : Pat<(cttz_zero_undef GR16:$src), (BSF16rr GR16:$src)>;
-def : Pat<(cttz_zero_undef GR32:$src), (BSF32rr GR32:$src)>;
-def : Pat<(cttz_zero_undef GR64:$src), (BSF64rr GR64:$src)>;
-def : Pat<(cttz_zero_undef (loadi16 addr:$src)), (BSF16rm addr:$src)>;
-def : Pat<(cttz_zero_undef (loadi32 addr:$src)), (BSF32rm addr:$src)>;
-def : Pat<(cttz_zero_undef (loadi64 addr:$src)), (BSF64rm addr:$src)>;
+def : Pat<(cttz_zero_undef GR16:$src), (BSF16rr (i16 (IMPLICIT_DEF)), GR16:$src)>;
+def : Pat<(cttz_zero_undef GR32:$src), (BSF32rr (i32 (IMPLICIT_DEF)), GR32:$src)>;
+def : Pat<(cttz_zero_undef GR64:$src), (BSF64rr (i64 (IMPLICIT_DEF)), GR64:$src)>;
+def : Pat<(cttz_zero_undef (loadi16 addr:$src)), (BSF16rm (i16 (IMPLICIT_DEF)), addr:$src)>;
+def : Pat<(cttz_zero_undef (loadi32 addr:$src)), (BSF32rm (i32 (IMPLICIT_DEF)), addr:$src)>;
+def : Pat<(cttz_zero_undef (loadi64 addr:$src)), (BSF64rm (i64 (IMPLICIT_DEF)), addr:$src)>;
 
 // When HasMOVBE is enabled it is possible to get a non-legalized
 // register-register 16 bit bswap. This maps it to a ROL instruction.
diff --git a/llvm/lib/Target/X86/X86InstrFMA3Info.cpp b/llvm/lib/Target/X86/X86InstrFMA3Info.cpp
index 0da4857d66748..86f6c733bdf75 100644
--- a/llvm/lib/Target/X86/X86InstrFMA3Info.cpp
+++ b/llvm/lib/Target/X86/X86InstrFMA3Info.cpp
@@ -52,8 +52,8 @@ using namespace llvm;
   FMA3GROUP_PACKED_WIDTHS_Z(Name, PH, Attrs) \
   FMA3GROUP_PACKED_WIDTHS_ALL(Name, PS, Attrs)
 
-#define FMA3GROUP_PACKED_BF16(Name, Attrs) \
-  FMA3GROUP_PACKED_WIDTHS_Z(Name, NEPBF16, Attrs)
+#define FMA3GROUP_PACKED_BF16(Name, Attrs)                                     \
+  FMA3GROUP_PACKED_WIDTHS_Z(Name, BF16, Attrs)
 
 #define FMA3GROUP_SCALAR_WIDTHS_Z(Name, Suf, Attrs) \
   FMA3GROUP(Name, Suf##Zm, Attrs) \
@@ -92,10 +92,10 @@ static const X86InstrFMA3Group Groups[] = {
   FMA3GROUP_MASKED(Name, Type##Z256##Suf, Attrs) \
   FMA3GROUP_MASKED(Name, Type##Z##Suf, Attrs)
 
-#define FMA3GROUP_PACKED_AVX512_ALL(Name, Suf, Attrs) \
-  FMA3GROUP_PACKED_AVX512_WIDTHS(Name, NEPBF16, Suf, Attrs) \
-  FMA3GROUP_PACKED_AVX512_WIDTHS(Name, PD, Suf, Attrs) \
-  FMA3GROUP_PACKED_AVX512_WIDTHS(Name, PH, Suf, Attrs) \
+#define FMA3GROUP_PACKED_AVX512_ALL(Name, Suf, Attrs)                          \
+  FMA3GROUP_PACKED_AVX512_WIDTHS(Name, BF16, Suf, Attrs)                       \
+  FMA3GROUP_PACKED_AVX512_WIDTHS(Name, PD, Suf, Attrs)                         \
+  FMA3GROUP_PACKED_AVX512_WIDTHS(Name, PH, Suf, Attrs)                         \
   FMA3GROUP_PACKED_AVX512_WIDTHS(Name, PS, Suf, Attrs)
 
 #define FMA3GROUP_PACKED_AVX512_DHS(Name, Suf, Attrs) \
diff --git a/llvm/lib/Target/X86/X86InstrFragments.td b/llvm/lib/Target/X86/X86InstrFragments.td
index ea7af893ce103..ddbc7c55a6113 100644
--- a/llvm/lib/Target/X86/X86InstrFragments.td
+++ b/llvm/lib/Target/X86/X86InstrFragments.td
@@ -134,8 +134,8 @@ def SDTX86Cmpccxadd : SDTypeProfile<1, 4, [SDTCisSameAs<0, 2>,
 def X86MFence : SDNode<"X86ISD::MFENCE", SDTNone, [SDNPHasChain]>;
 
 
-def X86bsf     : SDNode<"X86ISD::BSF",      SDTUnaryArithWithFlags>;
-def X86bsr     : SDNode<"X86ISD::BSR",      SDTUnaryArithWithFlags>;
+def X86bsf     : SDNode<"X86ISD::BSF",      SDTBinaryArithWithFlags>;
+def X86bsr     : SDNode<"X86ISD::BSR",      SDTBinaryArithWithFlags>;
 def X86fshl    : SDNode<"X86ISD::FSHL",     SDTIntShiftDOp>;
 def X86fshr    : SDNode<"X86ISD::FSHR",     SDTIntShiftDOp>;
 
@@ -685,8 +685,9 @@ def anyext_sdiv : PatFrag<(ops node:$lhs), (anyext node:$lhs),[{
 // register. Truncate can be lowered to EXTRACT_SUBREG. CopyFromReg may
 // be copying from a truncate. AssertSext/AssertZext/AssertAlign aren't saying
 // anything about the upper 32 bits, they're probably just qualifying a
-// CopyFromReg. FREEZE may be coming from a a truncate. Any other 32-bit
-// operation will zero-extend up to 64 bits.
+// CopyFromReg. FREEZE may be coming from a a truncate. BitScan fall through
+// values may not zero the upper bits correctly.
+// Any other 32-bit operation will zero-extend up to 64 bits.
 def def32 : PatLeaf<(i32 GR32:$src), [{
   return N->getOpcode() != ISD::TRUNCATE &&
          N->getOpcode() != TargetOpcode::EXTRACT_SUBREG &&
@@ -694,7 +695,9 @@ def def32 : PatLeaf<(i32 GR32:$src), [{
          N->getOpcode() != ISD::AssertSext &&
          N->getOpcode() != ISD::AssertZext &&
          N->getOpcode() != ISD::AssertAlign &&
-         N->getOpcode() != ISD::FREEZE;
+         N->getOpcode() != ISD::FREEZE &&
+         !((N->getOpcode() == X86ISD::BSF || N->getOpcode() == X86ISD::BSR) &&
+           (!N->getOperand(0).isUndef() && !isa<ConstantSDNode>(N->getOperand(0))));
 }]>;
 
 // Treat an 'or' node is as an 'add' if the or'ed bits are known to be zero.
diff --git a/llvm/lib/Target/X86/X86InstrFragmentsSIMD.td b/llvm/lib/Target/X86/X86InstrFragmentsSIMD.td
index af0267a7d32c3..de70570481fc2 100644
--- a/llvm/lib/Target/X86/X86InstrFragmentsSIMD.td
+++ b/llvm/lib/Target/X86/X86InstrFragmentsSIMD.td
@@ -914,13 +914,13 @@ def X86vfpround2Rnd : SDNode<"X86ISD::VFPROUND2_RND",
                                            SDTCisSameAs<1, 2>,
                                            SDTCisVT<3, i32>]>>;
 // 3op
-def X86vcvtne2ph2bf8 : SDNode<"X86ISD::VCVTNE2PH2BF8",
+def X86vcvt2ph2bf8 : SDNode<"X86ISD::VCVT2PH2BF8",
                               SDTAVX10CONVERT_I82F16>;
-def X86vcvtne2ph2bf8s : SDNode<"X86ISD::VCVTNE2PH2BF8S",
+def X86vcvt2ph2bf8s : SDNode<"X86ISD::VCVT2PH2BF8S",
                                SDTAVX10CONVERT_I82F16>;
-def X86vcvtne2ph2hf8 : SDNode<"X86ISD::VCVTNE2PH2HF8",
+def X86vcvt2ph2hf8 : SDNode<"X86ISD::VCVT2PH2HF8",
                               SDTAVX10CONVERT_I82F16>;
-def X86vcvtne2ph2hf8s : SDNode<"X86ISD::VCVTNE2PH2HF8S",
+def X86vcvt2ph2hf8s : SDNode<"X86ISD::VCVT2PH2HF8S",
                                SDTAVX10CONVERT_I82F16>;
 // 2op no broadcast
 def X86vcvthf82ph : SDNode<"X86ISD::VCVTHF82PH",
@@ -934,13 +934,13 @@ def X86vcvtbiasph2hf8 : SDNode<"X86ISD::VCVTBIASPH2HF8",
                                SDTAVX10CONVERT_2I8F16>;
 def X86vcvtbiasph2hf8s : SDNode<"X86ISD::VCVTBIASPH2HF8S",
                                 SDTAVX10CONVERT_2I8F16>;
-def X86vcvtneph2bf8 : SDNode<"X86ISD::VCVTNEPH2BF8",
+def X86vcvtph2bf8 : SDNode<"X86ISD::VCVTPH2BF8",
                              SDTAVX10CONVERT_I8F16>;
-def X86vcvtneph2bf8s : SDNode<"X86ISD::VCVTNEPH2BF8S",
+def X86vcvtph2bf8s : SDNode<"X86ISD::VCVTPH2BF8S",
                               SDTAVX10CONVERT_I8F16>;
-def X86vcvtneph2hf8 : SDNode<"X86ISD::VCVTNEPH2HF8",
+def X86vcvtph2hf8 : SDNode<"X86ISD::VCVTPH2HF8",
                              SDTAVX10CONVERT_I8F16>;
-def X86vcvtneph2hf8s : SDNode<"X86ISD::VCVTNEPH2HF8S",
+def X86vcvtph2hf8s : SDNode<"X86ISD::VCVTPH2HF8S",
                               SDTAVX10CONVERT_I8F16>;
 
 def X86vmcvtbiasph2bf8 : SDNode<"X86ISD::VMCVTBIASPH2BF8",
@@ -951,13 +951,13 @@ def X86vmcvtbiasph2hf8 : SDNode<"X86ISD::VMCVTBIASPH2HF8",
                          SDTAVX10CONVERT_2I8F16_MASK>;
 def X86vmcvtbiasph2hf8s : SDNode<"X86ISD::VMCVTBIASPH2HF8S",
                           SDTAVX10CONVERT_2I8F16_MASK>;
-def X86vmcvtneph2bf8 : SDNode<"X86ISD::VMCVTNEPH2BF8",
+def X86vmcvtph2bf8 : SDNode<"X86ISD::VMCVTPH2BF8",
                        SDTAVX10CONVERT_I8F16_MASK>;
-def X86vmcvtneph2bf8s : SDNode<"X86ISD::VMCVTNEPH2BF8S",
+def X86vmcvtph2bf8s : SDNode<"X86ISD::VMCVTPH2BF8S",
                         SDTAVX10CONVERT_I8F16_MASK>;
-def X86vmcvtneph2hf8 : SDNode<"X86ISD::VMCVTNEPH2HF8",
+def X86vmcvtph2hf8 : SDNode<"X86ISD::VMCVTPH2HF8",
                        SDTAVX10CONVERT_I8F16_MASK>;
-def X86vmcvtneph2hf8s : SDNode<"X86ISD::VMCVTNEPH2HF8S",
+def X86vmcvtph2hf8s : SDNode<"X86ISD::VMCVTPH2HF8S",
                         SDTAVX10CONVERT_I8F16_MASK>;
 
 //===----------------------------------------------------------------------===//
diff --git a/llvm/lib/Target/X86/X86InstrInfo.cpp b/llvm/lib/Target/X86/X86InstrInfo.cpp
index 1baac05827c47..794aa921ca254 100644
--- a/llvm/lib/Target/X86/X86InstrInfo.cpp
+++ b/llvm/lib/Target/X86/X86InstrInfo.cpp
@@ -5220,42 +5220,43 @@ inline static bool isDefConvertible(const MachineInstr &MI, bool &NoSignFlag,
 }
 
 /// Check whether the use can be converted to remove a comparison against zero.
-static X86::CondCode isUseDefConvertible(const MachineInstr &MI) {
+/// Returns the EFLAGS condition and the operand that we are comparing against zero.
+static std::pair<X86::CondCode, unsigned> isUseDefConvertible(const MachineInstr &MI) {
   switch (MI.getOpcode()) {
   default:
-    return X86::COND_INVALID;
+    return std::make_pair(X86::COND_INVALID, ~0U);
   CASE_ND(NEG8r)
   CASE_ND(NEG16r)
   CASE_ND(NEG32r)
   CASE_ND(NEG64r)
-    return X86::COND_AE;
+    return std::make_pair(X86::COND_AE, 1U);
   case X86::LZCNT16rr:
   case X86::LZCNT32rr:
   case X86::LZCNT64rr:
-    return X86::COND_B;
+    return std::make_pair(X86::COND_B, 1U);
   case X86::POPCNT16rr:
   case X86::POPCNT32rr:
   case X86::POPCNT64rr:
-    return X86::COND_E;
+    return std::make_pair(X86::COND_E, 1U);
   case X86::TZCNT16rr:
   case X86::TZCNT32rr:
   case X86::TZCNT64rr:
-    return X86::COND_B;
+    return std::make_pair(X86::COND_B, 1U);
   case X86::BSF16rr:
   case X86::BSF32rr:
   case X86::BSF64rr:
   case X86::BSR16rr:
   case X86::BSR32rr:
   case X86::BSR64rr:
-    return X86::COND_E;
+    return std::make_pair(X86::COND_E, 2U);
   case X86::BLSI32rr:
   case X86::BLSI64rr:
-    return X86::COND_AE;
+    return std::make_pair(X86::COND_AE, 1U);
   case X86::BLSR32rr:
   case X86::BLSR64rr:
   case X86::BLSMSK32rr:
   case X86::BLSMSK64rr:
-    return X86::COND_B;
+    return std::make_pair(X86::COND_B, 1U);
     // TODO: TBM instructions.
   }
 }
@@ -5336,6 +5337,7 @@ bool X86InstrInfo::optimizeCompareInstr(MachineInstr &CmpInstr, Register SrcReg,
   bool ClearsOverflowFlag = false;
   bool ShouldUpdateCC = false;
   bool IsSwapped = false;
+  unsigned OpNo = 0;
   X86::CondCode NewCC = X86::COND_INVALID;
   int64_t ImmDelta = 0;
 
@@ -5391,9 +5393,9 @@ bool X86InstrInfo::optimizeCompareInstr(MachineInstr &CmpInstr, Register SrcReg,
         //      ...                 // EFLAGS not changed
         //      testl %eax, %eax    // <-- can be removed
         if (IsCmpZero) {
-          NewCC = isUseDefConvertible(Inst);
-          if (NewCC != X86::COND_INVALID && Inst.getOperand(1).isReg() &&
-              Inst.getOperand(1).getReg() == SrcReg) {
+          std::tie(NewCC, OpNo) = isUseDefConvertible(Inst);
+          if (NewCC != X86::COND_INVALID && Inst.getOperand(OpNo).isReg() &&
+              Inst.getOperand(OpNo).getReg() == SrcReg) {
             ShouldUpdateCC = true;
             MI = &Inst;
             break;
diff --git a/llvm/lib/Target/X86/X86InstrMisc.td b/llvm/lib/Target/X86/X86InstrMisc.td
index 43c02c4f85844..290d91bb2ce69 100644
--- a/llvm/lib/Target/X86/X86InstrMisc.td
+++ b/llvm/lib/Target/X86/X86InstrMisc.td
@@ -247,55 +247,55 @@ def BSWAP64r : RI<0xC8, AddRegFrm, (outs GR64:$dst), (ins GR64:$src),
 } // Constraints = "$src = $dst", SchedRW
 
 // Bit scan instructions.
-let Defs = [EFLAGS] in {
-def BSF16rr  : I<0xBC, MRMSrcReg, (outs GR16:$dst), (ins GR16:$src),
+let Defs = [EFLAGS], Constraints = "$fallback = $dst" in {
+def BSF16rr  : I<0xBC, MRMSrcReg, (outs GR16:$dst), (ins GR16:$fallback, GR16:$src),
                  "bsf{w}\t{$src, $dst|$dst, $src}",
-                 [(set GR16:$dst, EFLAGS, (X86bsf GR16:$src))]>,
+                 [(set GR16:$dst, EFLAGS, (X86bsf GR16:$fallback, GR16:$src))]>,
                   TB, OpSize16, Sched<[WriteBSF]>;
-def BSF16rm  : I<0xBC, MRMSrcMem, (outs GR16:$dst), (ins i16mem:$src),
+def BSF16rm  : I<0xBC, MRMSrcMem, (outs GR16:$dst), (ins GR16:$fallback, i16mem:$src),
                  "bsf{w}\t{$src, $dst|$dst, $src}",
-                 [(set GR16:$dst, EFLAGS, (X86bsf (loadi16 addr:$src)))]>,
+                 [(set GR16:$dst, EFLAGS, (X86bsf GR16:$fallback, (loadi16 addr:$src)))]>,
                  TB, OpSize16, Sched<[WriteBSFLd]>;
-def BSF32rr  : I<0xBC, MRMSrcReg, (outs GR32:$dst), (ins GR32:$src),
+def BSF32rr  : I<0xBC, MRMSrcReg, (outs GR32:$dst), (ins GR32:$fallback, GR32:$src),
                  "bsf{l}\t{$src, $dst|$dst, $src}",
-                 [(set GR32:$dst, EFLAGS, (X86bsf GR32:$src))]>,
+                 [(set GR32:$dst, EFLAGS, (X86bsf GR32:$fallback, GR32:$src))]>,
                  TB, OpSize32, Sched<[WriteBSF]>;
-def BSF32rm  : I<0xBC, MRMSrcMem, (outs GR32:$dst), (ins i32mem:$src),
+def BSF32rm  : I<0xBC, MRMSrcMem, (outs GR32:$dst), (ins GR32:$fallback, i32mem:$src),
                  "bsf{l}\t{$src, $dst|$dst, $src}",
-                 [(set GR32:$dst, EFLAGS, (X86bsf (loadi32 addr:$src)))]>,
+                 [(set GR32:$dst, EFLAGS, (X86bsf GR32:$fallback, (loadi32 addr:$src)))]>,
                  TB, OpSize32, Sched<[WriteBSFLd]>;
-def BSF64rr  : RI<0xBC, MRMSrcReg, (outs GR64:$dst), (ins GR64:$src),
+def BSF64rr  : RI<0xBC, MRMSrcReg, (outs GR64:$dst), (ins GR64:$fallback, GR64:$src),
                   "bsf{q}\t{$src, $dst|$dst, $src}",
-                  [(set GR64:$dst, EFLAGS, (X86bsf GR64:$src))]>,
+                  [(set GR64:$dst, EFLAGS, (X86bsf GR64:$fallback, GR64:$src))]>,
                   TB, Sched<[WriteBSF]>;
-def BSF64rm  : RI<0xBC, MRMSrcMem, (outs GR64:$dst), (ins i64mem:$src),
+def BSF64rm  : RI<0xBC, MRMSrcMem, (outs GR64:$dst), (ins GR64:$fallback, i64mem:$src),
                   "bsf{q}\t{$src, $dst|$dst, $src}",
-                  [(set GR64:$dst, EFLAGS, (X86bsf (loadi64 addr:$src)))]>,
+                  [(set GR64:$dst, EFLAGS, (X86bsf GR64:$fallback, (loadi64 addr:$src)))]>,
                   TB, Sched<[WriteBSFLd]>;
 
-def BSR16rr  : I<0xBD, MRMSrcReg, (outs GR16:$dst), (ins GR16:$src),
+def BSR16rr  : I<0xBD, MRMSrcReg, (outs GR16:$dst), (ins GR16:$fallback, GR16:$src),
                  "bsr{w}\t{$src, $dst|$dst, $src}",
-                 [(set GR16:$dst, EFLAGS, (X86bsr GR16:$src))]>,
+                 [(set GR16:$dst, EFLAGS, (X86bsr GR16:$fallback, GR16:$src))]>,
                  TB, OpSize16, Sched<[WriteBSR]>;
-def BSR16rm  : I<0xBD, MRMSrcMem, (outs GR16:$dst), (ins i16mem:$src),
+def BSR16rm  : I<0xBD, MRMSrcMem, (outs GR16:$dst), (ins GR16:$fallback, i16mem:$src),
                  "bsr{w}\t{$src, $dst|$dst, $src}",
-                 [(set GR16:$dst, EFLAGS, (X86bsr (loadi16 addr:$src)))]>,
+                 [(set GR16:$dst, EFLAGS, (X86bsr GR16:$fallback, (loadi16 addr:$src)))]>,
                  TB, OpSize16, Sched<[WriteBSRLd]>;
-def BSR32rr  : I<0xBD, MRMSrcReg, (outs GR32:$dst), (ins GR32:$src),
+def BSR32rr  : I<0xBD, MRMSrcReg, (outs GR32:$dst), (ins GR32:$fallback, GR32:$src),
                  "bsr{l}\t{$src, $dst|$dst, $src}",
-                 [(set GR32:$dst, EFLAGS, (X86bsr GR32:$src))]>,
+                 [(set GR32:$dst, EFLAGS, (X86bsr GR32:$fallback, GR32:$src))]>,
                  TB, OpSize32, Sched<[WriteBSR]>;
-def BSR32rm  : I<0xBD, MRMSrcMem, (outs GR32:$dst), (ins i32mem:$src),
+def BSR32rm  : I<0xBD, MRMSrcMem, (outs GR32:$dst), (ins GR32:$fallback, i32mem:$src),
                  "bsr{l}\t{$src, $dst|$dst, $src}",
-                 [(set GR32:$dst, EFLAGS, (X86bsr (loadi32 addr:$src)))]>,
+                 [(set GR32:$dst, EFLAGS, (X86bsr GR32:$fallback, (loadi32 addr:$src)))]>,
                  TB, OpSize32, Sched<[WriteBSRLd]>;
-def BSR64rr  : RI<0xBD, MRMSrcReg, (outs GR64:$dst), (ins GR64:$src),
+def BSR64rr  : RI<0xBD, MRMSrcReg, (outs GR64:$dst), (ins GR64:$fallback, GR64:$src),
                   "bsr{q}\t{$src, $dst|$dst, $src}",
-                  [(set GR64:$dst, EFLAGS, (X86bsr GR64:$src))]>,
+                  [(set GR64:$dst, EFLAGS, (X86bsr GR64:$fallback, GR64:$src))]>,
                   TB, Sched<[WriteBSR]>;
-def BSR64rm  : RI<0xBD, MRMSrcMem, (outs GR64:$dst), (ins i64mem:$src),
+def BSR64rm  : RI<0xBD, MRMSrcMem, (outs GR64:$dst), (ins GR64:$fallback, i64mem:$src),
                   "bsr{q}\t{$src, $dst|$dst, $src}",
-                  [(set GR64:$dst, EFLAGS, (X86bsr (loadi64 addr:$src)))]>,
+                  [(set GR64:$dst, EFLAGS, (X86bsr GR64:$fallback, (loadi64 addr:$src)))]>,
                   TB, Sched<[WriteBSRLd]>;
 } // Defs = [EFLAGS]
 
diff --git a/llvm/lib/Target/X86/X86InstrUtils.td b/llvm/lib/Target/X86/X86InstrUtils.td
index ab171ac79fb37..6aae90b77fbad 100644
--- a/llvm/lib/Target/X86/X86InstrUtils.td
+++ b/llvm/lib/Target/X86/X86InstrUtils.td
@@ -311,7 +311,7 @@ def v32i16_info : X86VectorVTInfo<32, i16, VR512, "w">;
 def v16i32_info : X86VectorVTInfo<16, i32, VR512, "d">;
 def v8i64_info  : X86VectorVTInfo<8,  i64, VR512, "q">;
 def v32f16_info : X86VectorVTInfo<32, f16, VR512, "ph">;
-def v32bf16_info: X86VectorVTInfo<32, bf16, VR512, "pbf16">;
+def v32bf16_info: X86VectorVTInfo<32, bf16, VR512, "bf16">;
 def v16f32_info : X86VectorVTInfo<16, f32, VR512, "ps">;
 def v8f64_info  : X86VectorVTInfo<8,  f64, VR512, "pd">;
 
@@ -321,7 +321,7 @@ def v16i16x_info : X86VectorVTInfo<16, i16, VR256X, "w">;
 def v8i32x_info  : X86VectorVTInfo<8,  i32, VR256X, "d">;
 def v4i64x_info  : X86VectorVTInfo<4,  i64, VR256X, "q">;
 def v16f16x_info : X86VectorVTInfo<16, f16, VR256X, "ph">;
-def v16bf16x_info: X86VectorVTInfo<16, bf16, VR256X, "pbf16">;
+def v16bf16x_info: X86VectorVTInfo<16, bf16, VR256X, "bf16">;
 def v8f32x_info  : X86VectorVTInfo<8,  f32, VR256X, "ps">;
 def v4f64x_info  : X86VectorVTInfo<4,  f64, VR256X, "pd">;
 
@@ -330,7 +330,7 @@ def v8i16x_info  : X86VectorVTInfo<8,  i16, VR128X, "w">;
 def v4i32x_info  : X86VectorVTInfo<4,  i32, VR128X, "d">;
 def v2i64x_info  : X86VectorVTInfo<2,  i64, VR128X, "q">;
 def v8f16x_info  : X86VectorVTInfo<8,  f16, VR128X, "ph">;
-def v8bf16x_info : X86VectorVTInfo<8,  bf16, VR128X, "pbf16">;
+def v8bf16x_info : X86VectorVTInfo<8,  bf16, VR128X, "bf16">;
 def v4f32x_info  : X86VectorVTInfo<4,  f32, VR128X, "ps">;
 def v2f64x_info  : X86VectorVTInfo<2,  f64, VR128X, "pd">;
 
diff --git a/llvm/lib/Target/X86/X86IntrinsicsInfo.h b/llvm/lib/Target/X86/X86IntrinsicsInfo.h
index 467c7026bceb9..3dccf2fff2352 100644
--- a/llvm/lib/Target/X86/X86IntrinsicsInfo.h
+++ b/llvm/lib/Target/X86/X86IntrinsicsInfo.h
@@ -93,7 +93,7 @@ struct IntrinsicData {
 };
 
 #define X86_INTRINSIC_DATA(id, type, op0, op1)                                 \
-  { Intrinsic::x86_##id, type, op0, op1 }
+  {Intrinsic::x86_##id, type, op0, op1}
 
 /*
  * IntrinsicsWithChain - the table should be sorted by Intrinsic ID - in
@@ -389,53 +389,53 @@ static const IntrinsicData IntrinsicsWithoutChain[] = {
     X86_INTRINSIC_DATA(avx_vpermilvar_ps, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),
     X86_INTRINSIC_DATA(avx_vpermilvar_ps_256, INTR_TYPE_2OP, X86ISD::VPERMILPV,
                        0),
-    X86_INTRINSIC_DATA(avx10_fpclass_nepbf16_128, INTR_TYPE_2OP,
-                       X86ISD::VFPCLASS, 0),
-    X86_INTRINSIC_DATA(avx10_fpclass_nepbf16_256, INTR_TYPE_2OP,
-                       X86ISD::VFPCLASS, 0),
-    X86_INTRINSIC_DATA(avx10_fpclass_nepbf16_512, INTR_TYPE_2OP,
-                       X86ISD::VFPCLASS, 0),
-    X86_INTRINSIC_DATA(avx10_mask_getexp_nepbf16_128, INTR_TYPE_1OP_MASK,
+    X86_INTRINSIC_DATA(avx10_fpclass_bf16_128, INTR_TYPE_2OP, X86ISD::VFPCLASS,
+                       0),
+    X86_INTRINSIC_DATA(avx10_fpclass_bf16_256, INTR_TYPE_2OP, X86ISD::VFPCLASS,
+                       0),
+    X86_INTRINSIC_DATA(avx10_fpclass_bf16_512, INTR_TYPE_2OP, X86ISD::VFPCLASS,
+                       0),
+    X86_INTRINSIC_DATA(avx10_mask_getexp_bf16_128, INTR_TYPE_1OP_MASK,
                        X86ISD::FGETEXP, 0),
-    X86_INTRINSIC_DATA(avx10_mask_getexp_nepbf16_256, INTR_TYPE_1OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_getexp_bf16_256, INTR_TYPE_1OP_MASK,
                        X86ISD::FGETEXP, 0),
-    X86_INTRINSIC_DATA(avx10_mask_getexp_nepbf16_512, INTR_TYPE_1OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_getexp_bf16_512, INTR_TYPE_1OP_MASK,
                        X86ISD::FGETEXP, 0),
-    X86_INTRINSIC_DATA(avx10_mask_getmant_nepbf16_128, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_getmant_bf16_128, INTR_TYPE_2OP_MASK,
                        X86ISD::VGETMANT, 0),
-    X86_INTRINSIC_DATA(avx10_mask_getmant_nepbf16_256, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_getmant_bf16_256, INTR_TYPE_2OP_MASK,
                        X86ISD::VGETMANT, 0),
-    X86_INTRINSIC_DATA(avx10_mask_getmant_nepbf16_512, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_getmant_bf16_512, INTR_TYPE_2OP_MASK,
                        X86ISD::VGETMANT, 0),
-    X86_INTRINSIC_DATA(avx10_mask_rcp_nepbf16_128, INTR_TYPE_1OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_rcp_bf16_128, INTR_TYPE_1OP_MASK,
                        X86ISD::RCP14, 0),
-    X86_INTRINSIC_DATA(avx10_mask_rcp_nepbf16_256, INTR_TYPE_1OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_rcp_bf16_256, INTR_TYPE_1OP_MASK,
                        X86ISD::RCP14, 0),
-    X86_INTRINSIC_DATA(avx10_mask_rcp_nepbf16_512, INTR_TYPE_1OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_rcp_bf16_512, INTR_TYPE_1OP_MASK,
                        X86ISD::RCP14, 0),
-    X86_INTRINSIC_DATA(avx10_mask_reduce_nepbf16_128, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_reduce_bf16_128, INTR_TYPE_2OP_MASK,
                        X86ISD::VREDUCE, 0),
-    X86_INTRINSIC_DATA(avx10_mask_reduce_nepbf16_256, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_reduce_bf16_256, INTR_TYPE_2OP_MASK,
                        X86ISD::VREDUCE, 0),
-    X86_INTRINSIC_DATA(avx10_mask_reduce_nepbf16_512, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_reduce_bf16_512, INTR_TYPE_2OP_MASK,
                        X86ISD::VREDUCE, 0),
-    X86_INTRINSIC_DATA(avx10_mask_rndscale_nepbf16_128, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_rndscale_bf16_128, INTR_TYPE_2OP_MASK,
                        X86ISD::VRNDSCALE, 0),
-    X86_INTRINSIC_DATA(avx10_mask_rndscale_nepbf16_256, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_rndscale_bf16_256, INTR_TYPE_2OP_MASK,
                        X86ISD::VRNDSCALE, 0),
-    X86_INTRINSIC_DATA(avx10_mask_rndscale_nepbf16_512, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_rndscale_bf16_512, INTR_TYPE_2OP_MASK,
                        X86ISD::VRNDSCALE, 0),
-    X86_INTRINSIC_DATA(avx10_mask_rsqrt_nepbf16_128, INTR_TYPE_1OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_rsqrt_bf16_128, INTR_TYPE_1OP_MASK,
                        X86ISD::RSQRT14, 0),
-    X86_INTRINSIC_DATA(avx10_mask_rsqrt_nepbf16_256, INTR_TYPE_1OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_rsqrt_bf16_256, INTR_TYPE_1OP_MASK,
                        X86ISD::RSQRT14, 0),
-    X86_INTRINSIC_DATA(avx10_mask_rsqrt_nepbf16_512, INTR_TYPE_1OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_rsqrt_bf16_512, INTR_TYPE_1OP_MASK,
                        X86ISD::RSQRT14, 0),
-    X86_INTRINSIC_DATA(avx10_mask_scalef_nepbf16_128, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_scalef_bf16_128, INTR_TYPE_2OP_MASK,
                        X86ISD::SCALEF, 0),
-    X86_INTRINSIC_DATA(avx10_mask_scalef_nepbf16_256, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_scalef_bf16_256, INTR_TYPE_2OP_MASK,
                        X86ISD::SCALEF, 0),
-    X86_INTRINSIC_DATA(avx10_mask_scalef_nepbf16_512, INTR_TYPE_2OP_MASK,
+    X86_INTRINSIC_DATA(avx10_mask_scalef_bf16_512, INTR_TYPE_2OP_MASK,
                        X86ISD::SCALEF, 0),
     X86_INTRINSIC_DATA(avx10_mask_vcmppd256, CMP_MASK_CC, X86ISD::CMPMM,
                        X86ISD::CMPMM_SAE),
@@ -479,30 +479,6 @@ static const IntrinsicData IntrinsicsWithoutChain[] = {
                        X86ISD::VCVTHF82PH, 0),
     X86_INTRINSIC_DATA(avx10_mask_vcvthf82ph512, INTR_TYPE_1OP_MASK,
                        X86ISD::VCVTHF82PH, 0),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2bf8128, TRUNCATE_TO_REG,
-                       X86ISD::VCVTNEPH2BF8, X86ISD::VMCVTNEPH2BF8),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2bf8256, INTR_TYPE_1OP_MASK,
-                       X86ISD::VCVTNEPH2BF8, 0),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2bf8512, INTR_TYPE_1OP_MASK,
-                       X86ISD::VCVTNEPH2BF8, 0),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2bf8s128, TRUNCATE_TO_REG,
-                       X86ISD::VCVTNEPH2BF8S, X86ISD::VMCVTNEPH2BF8S),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2bf8s256, INTR_TYPE_1OP_MASK,
-                       X86ISD::VCVTNEPH2BF8S, 0),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2bf8s512, INTR_TYPE_1OP_MASK,
-                       X86ISD::VCVTNEPH2BF8S, 0),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2hf8128, TRUNCATE_TO_REG,
-                       X86ISD::VCVTNEPH2HF8, X86ISD::VMCVTNEPH2HF8),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2hf8256, INTR_TYPE_1OP_MASK,
-                       X86ISD::VCVTNEPH2HF8, 0),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2hf8512, INTR_TYPE_1OP_MASK,
-                       X86ISD::VCVTNEPH2HF8, 0),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2hf8s128, TRUNCATE_TO_REG,
-                       X86ISD::VCVTNEPH2HF8S, X86ISD::VMCVTNEPH2HF8S),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2hf8s256, INTR_TYPE_1OP_MASK,
-                       X86ISD::VCVTNEPH2HF8S, 0),
-    X86_INTRINSIC_DATA(avx10_mask_vcvtneph2hf8s512, INTR_TYPE_1OP_MASK,
-                       X86ISD::VCVTNEPH2HF8S, 0),
     X86_INTRINSIC_DATA(avx10_mask_vcvtpd2dq256, INTR_TYPE_1OP_MASK,
                        X86ISD::CVTP2SI, X86ISD::CVTP2SI_RND),
     X86_INTRINSIC_DATA(avx10_mask_vcvtpd2ph256, INTR_TYPE_1OP_MASK,
@@ -515,8 +491,32 @@ static const IntrinsicData IntrinsicsWithoutChain[] = {
                        X86ISD::CVTP2UI, X86ISD::CVTP2UI_RND),
     X86_INTRINSIC_DATA(avx10_mask_vcvtpd2uqq256, INTR_TYPE_1OP_MASK,
                        X86ISD::CVTP2UI, X86ISD::CVTP2UI_RND),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2bf8128, TRUNCATE_TO_REG,
+                       X86ISD::VCVTPH2BF8, X86ISD::VMCVTPH2BF8),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2bf8256, INTR_TYPE_1OP_MASK,
+                       X86ISD::VCVTPH2BF8, 0),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2bf8512, INTR_TYPE_1OP_MASK,
+                       X86ISD::VCVTPH2BF8, 0),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2bf8s128, TRUNCATE_TO_REG,
+                       X86ISD::VCVTPH2BF8S, X86ISD::VMCVTPH2BF8S),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2bf8s256, INTR_TYPE_1OP_MASK,
+                       X86ISD::VCVTPH2BF8S, 0),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2bf8s512, INTR_TYPE_1OP_MASK,
+                       X86ISD::VCVTPH2BF8S, 0),
     X86_INTRINSIC_DATA(avx10_mask_vcvtph2dq256, INTR_TYPE_1OP_MASK,
                        X86ISD::CVTP2SI, X86ISD::CVTP2SI_RND),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2hf8128, TRUNCATE_TO_REG,
+                       X86ISD::VCVTPH2HF8, X86ISD::VMCVTPH2HF8),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2hf8256, INTR_TYPE_1OP_MASK,
+                       X86ISD::VCVTPH2HF8, 0),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2hf8512, INTR_TYPE_1OP_MASK,
+                       X86ISD::VCVTPH2HF8, 0),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2hf8s128, TRUNCATE_TO_REG,
+                       X86ISD::VCVTPH2HF8S, X86ISD::VMCVTPH2HF8S),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2hf8s256, INTR_TYPE_1OP_MASK,
+                       X86ISD::VCVTPH2HF8S, 0),
+    X86_INTRINSIC_DATA(avx10_mask_vcvtph2hf8s512, INTR_TYPE_1OP_MASK,
+                       X86ISD::VCVTPH2HF8S, 0),
     X86_INTRINSIC_DATA(avx10_mask_vcvtph2ibs128, INTR_TYPE_1OP_MASK,
                        X86ISD::CVTP2IBS, 0),
     X86_INTRINSIC_DATA(avx10_mask_vcvtph2ibs256, INTR_TYPE_1OP_MASK,
@@ -751,12 +751,36 @@ static const IntrinsicData IntrinsicsWithoutChain[] = {
                        X86ISD::FADD_RND),
     X86_INTRINSIC_DATA(avx10_vaddps256, INTR_TYPE_2OP, ISD::FADD,
                        X86ISD::FADD_RND),
-    X86_INTRINSIC_DATA(avx10_vcomsbf16eq, COMI, X86ISD::COMI, ISD::SETEQ),
-    X86_INTRINSIC_DATA(avx10_vcomsbf16ge, COMI, X86ISD::COMI, ISD::SETGE),
-    X86_INTRINSIC_DATA(avx10_vcomsbf16gt, COMI, X86ISD::COMI, ISD::SETGT),
-    X86_INTRINSIC_DATA(avx10_vcomsbf16le, COMI, X86ISD::COMI, ISD::SETLE),
-    X86_INTRINSIC_DATA(avx10_vcomsbf16lt, COMI, X86ISD::COMI, ISD::SETLT),
-    X86_INTRINSIC_DATA(avx10_vcomsbf16neq, COMI, X86ISD::COMI, ISD::SETNE),
+    X86_INTRINSIC_DATA(avx10_vcomisbf16eq, COMI, X86ISD::COMI, ISD::SETEQ),
+    X86_INTRINSIC_DATA(avx10_vcomisbf16ge, COMI, X86ISD::COMI, ISD::SETGE),
+    X86_INTRINSIC_DATA(avx10_vcomisbf16gt, COMI, X86ISD::COMI, ISD::SETGT),
+    X86_INTRINSIC_DATA(avx10_vcomisbf16le, COMI, X86ISD::COMI, ISD::SETLE),
+    X86_INTRINSIC_DATA(avx10_vcomisbf16lt, COMI, X86ISD::COMI, ISD::SETLT),
+    X86_INTRINSIC_DATA(avx10_vcomisbf16neq, COMI, X86ISD::COMI, ISD::SETNE),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2bf8128, INTR_TYPE_2OP, X86ISD::VCVT2PH2BF8,
+                       0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2bf8256, INTR_TYPE_2OP, X86ISD::VCVT2PH2BF8,
+                       0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2bf8512, INTR_TYPE_2OP, X86ISD::VCVT2PH2BF8,
+                       0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2bf8s128, INTR_TYPE_2OP,
+                       X86ISD::VCVT2PH2BF8S, 0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2bf8s256, INTR_TYPE_2OP,
+                       X86ISD::VCVT2PH2BF8S, 0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2bf8s512, INTR_TYPE_2OP,
+                       X86ISD::VCVT2PH2BF8S, 0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2hf8128, INTR_TYPE_2OP, X86ISD::VCVT2PH2HF8,
+                       0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2hf8256, INTR_TYPE_2OP, X86ISD::VCVT2PH2HF8,
+                       0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2hf8512, INTR_TYPE_2OP, X86ISD::VCVT2PH2HF8,
+                       0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2hf8s128, INTR_TYPE_2OP,
+                       X86ISD::VCVT2PH2HF8S, 0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2hf8s256, INTR_TYPE_2OP,
+                       X86ISD::VCVT2PH2HF8S, 0),
+    X86_INTRINSIC_DATA(avx10_vcvt2ph2hf8s512, INTR_TYPE_2OP,
+                       X86ISD::VCVT2PH2HF8S, 0),
     X86_INTRINSIC_DATA(avx10_vcvtbf162ibs128, INTR_TYPE_1OP, X86ISD::CVTP2IBS,
                        0),
     X86_INTRINSIC_DATA(avx10_vcvtbf162ibs256, INTR_TYPE_1OP, X86ISD::CVTP2IBS,
@@ -769,30 +793,6 @@ static const IntrinsicData IntrinsicsWithoutChain[] = {
                        0),
     X86_INTRINSIC_DATA(avx10_vcvtbf162iubs512, INTR_TYPE_1OP, X86ISD::CVTP2IUBS,
                        0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2bf8128, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2BF8, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2bf8256, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2BF8, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2bf8512, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2BF8, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2bf8s128, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2BF8S, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2bf8s256, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2BF8S, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2bf8s512, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2BF8S, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2hf8128, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2HF8, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2hf8256, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2HF8, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2hf8512, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2HF8, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2hf8s128, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2HF8S, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2hf8s256, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2HF8S, 0),
-    X86_INTRINSIC_DATA(avx10_vcvtne2ph2hf8s512, INTR_TYPE_2OP,
-                       X86ISD::VCVTNE2PH2HF8S, 0),
     X86_INTRINSIC_DATA(avx10_vcvttbf162ibs128, INTR_TYPE_1OP, X86ISD::CVTTP2IBS,
                        0),
     X86_INTRINSIC_DATA(avx10_vcvttbf162ibs256, INTR_TYPE_1OP, X86ISD::CVTTP2IBS,
diff --git a/llvm/lib/Target/X86/X86LowerAMXType.cpp b/llvm/lib/Target/X86/X86LowerAMXType.cpp
index 41cf0fc2cef4f..cb6127fb85749 100644
--- a/llvm/lib/Target/X86/X86LowerAMXType.cpp
+++ b/llvm/lib/Target/X86/X86LowerAMXType.cpp
@@ -939,10 +939,10 @@ bool X86LowerAMXCast::optimizeAMXCastFromPhi(
         BasicBlock::iterator Iter = Block->getTerminator()->getIterator();
         Instruction *NewInst = Builder.CreateIntrinsic(
             Intrinsic::x86_tilezero_internal, {}, {Row, Col});
-        NewInst->moveBefore(&*Iter);
+        NewInst->moveBefore(Iter);
         NewInst = Builder.CreateIntrinsic(Intrinsic::x86_cast_tile_to_vector,
                                           {IncValue->getType()}, {NewInst});
-        NewInst->moveBefore(&*Iter);
+        NewInst->moveBefore(Iter);
         // Replace InValue with new Value.
         OldPN->setIncomingValue(I, NewInst);
         IncValue = NewInst;
diff --git a/llvm/lib/Target/X86/X86Subtarget.h b/llvm/lib/Target/X86/X86Subtarget.h
index e3cb9ee8ce190..c399989f115d7 100644
--- a/llvm/lib/Target/X86/X86Subtarget.h
+++ b/llvm/lib/Target/X86/X86Subtarget.h
@@ -263,6 +263,11 @@ class X86Subtarget final : public X86GenSubtargetInfo {
     return hasBWI() && useAVX512Regs();
   }
 
+  // Returns true if the destination register of a BSF/BSR instruction is
+  // not touched if the source register is zero.
+  // NOTE: i32->i64 implicit zext isn't guaranteed by BSR/BSF pass through.
+  bool hasBitScanPassThrough() const { return is64Bit(); }
+
   bool isXRaySupported() const override { return is64Bit(); }
 
   /// Use clflush if we have SSE2 or we're on x86-64 (even if we asked for
diff --git a/llvm/lib/Target/X86/X86TargetTransformInfo.cpp b/llvm/lib/Target/X86/X86TargetTransformInfo.cpp
index 413b54343ef0e..34ba46f5e6cfd 100644
--- a/llvm/lib/Target/X86/X86TargetTransformInfo.cpp
+++ b/llvm/lib/Target/X86/X86TargetTransformInfo.cpp
@@ -4482,15 +4482,13 @@ X86TTIImpl::getIntrinsicInstrCost(const IntrinsicCostAttributes &ICA,
     }
     break;
   case Intrinsic::lrint:
-  case Intrinsic::llrint:
+  case Intrinsic::llrint: {
     // X86 can use the CVTP2SI instructions to lower lrint/llrint calls, which
     // have the same costs as the CVTTP2SI (fptosi) instructions
-    if (!ICA.isTypeBasedOnly()) {
-      const SmallVectorImpl<Type *> &ArgTys = ICA.getArgTypes();
-      return getCastInstrCost(Instruction::FPToSI, RetTy, ArgTys[0],
-                              TTI::CastContextHint::None, CostKind);
-    }
-    break;
+    const SmallVectorImpl<Type *> &ArgTys = ICA.getArgTypes();
+    return getCastInstrCost(Instruction::FPToSI, RetTy, ArgTys[0],
+                            TTI::CastContextHint::None, CostKind);
+  }
   case Intrinsic::maxnum:
   case Intrinsic::minnum:
     // FMINNUM has same costs so don't duplicate.
diff --git a/llvm/lib/Transforms/Coroutines/CoroCloner.h b/llvm/lib/Transforms/Coroutines/CoroCloner.h
index d1887980fb3bc..b817e55cad9fc 100644
--- a/llvm/lib/Transforms/Coroutines/CoroCloner.h
+++ b/llvm/lib/Transforms/Coroutines/CoroCloner.h
@@ -48,6 +48,9 @@ class BaseCloner {
   CloneKind FKind;
   IRBuilder<> Builder;
   TargetTransformInfo &TTI;
+  // Common module-level metadata that's shared between all coroutine clones and
+  // doesn't need to be cloned itself.
+  const MetadataSetTy &CommonDebugInfo;
 
   ValueToValueMapTy VMap;
   Function *NewF = nullptr;
@@ -60,12 +63,12 @@ class BaseCloner {
   /// Create a cloner for a continuation lowering.
   BaseCloner(Function &OrigF, const Twine &Suffix, coro::Shape &Shape,
              Function *NewF, AnyCoroSuspendInst *ActiveSuspend,
-             TargetTransformInfo &TTI)
+             TargetTransformInfo &TTI, const MetadataSetTy &CommonDebugInfo)
       : OrigF(OrigF), Suffix(Suffix), Shape(Shape),
         FKind(Shape.ABI == ABI::Async ? CloneKind::Async
                                       : CloneKind::Continuation),
-        Builder(OrigF.getContext()), TTI(TTI), NewF(NewF),
-        ActiveSuspend(ActiveSuspend) {
+        Builder(OrigF.getContext()), TTI(TTI), CommonDebugInfo(CommonDebugInfo),
+        NewF(NewF), ActiveSuspend(ActiveSuspend) {
     assert(Shape.ABI == ABI::Retcon || Shape.ABI == ABI::RetconOnce ||
            Shape.ABI == ABI::Async);
     assert(NewF && "need existing function for continuation");
@@ -74,9 +77,11 @@ class BaseCloner {
 
 public:
   BaseCloner(Function &OrigF, const Twine &Suffix, coro::Shape &Shape,
-             CloneKind FKind, TargetTransformInfo &TTI)
+             CloneKind FKind, TargetTransformInfo &TTI,
+             const MetadataSetTy &CommonDebugInfo)
       : OrigF(OrigF), Suffix(Suffix), Shape(Shape), FKind(FKind),
-        Builder(OrigF.getContext()), TTI(TTI) {}
+        Builder(OrigF.getContext()), TTI(TTI),
+        CommonDebugInfo(CommonDebugInfo) {}
 
   virtual ~BaseCloner() {}
 
@@ -84,12 +89,14 @@ class BaseCloner {
   static Function *createClone(Function &OrigF, const Twine &Suffix,
                                coro::Shape &Shape, Function *NewF,
                                AnyCoroSuspendInst *ActiveSuspend,
-                               TargetTransformInfo &TTI) {
+                               TargetTransformInfo &TTI,
+                               const MetadataSetTy &CommonDebugInfo) {
     assert(Shape.ABI == ABI::Retcon || Shape.ABI == ABI::RetconOnce ||
            Shape.ABI == ABI::Async);
     TimeTraceScope FunctionScope("BaseCloner");
 
-    BaseCloner Cloner(OrigF, Suffix, Shape, NewF, ActiveSuspend, TTI);
+    BaseCloner Cloner(OrigF, Suffix, Shape, NewF, ActiveSuspend, TTI,
+                      CommonDebugInfo);
     Cloner.create();
     return Cloner.getFunction();
   }
@@ -129,8 +136,9 @@ class SwitchCloner : public BaseCloner {
 protected:
   /// Create a cloner for a switch lowering.
   SwitchCloner(Function &OrigF, const Twine &Suffix, coro::Shape &Shape,
-               CloneKind FKind, TargetTransformInfo &TTI)
-      : BaseCloner(OrigF, Suffix, Shape, FKind, TTI) {}
+               CloneKind FKind, TargetTransformInfo &TTI,
+               const MetadataSetTy &CommonDebugInfo)
+      : BaseCloner(OrigF, Suffix, Shape, FKind, TTI, CommonDebugInfo) {}
 
   void create() override;
 
@@ -138,11 +146,12 @@ class SwitchCloner : public BaseCloner {
   /// Create a clone for a switch lowering.
   static Function *createClone(Function &OrigF, const Twine &Suffix,
                                coro::Shape &Shape, CloneKind FKind,
-                               TargetTransformInfo &TTI) {
+                               TargetTransformInfo &TTI,
+                               const MetadataSetTy &CommonDebugInfo) {
     assert(Shape.ABI == ABI::Switch);
     TimeTraceScope FunctionScope("SwitchCloner");
 
-    SwitchCloner Cloner(OrigF, Suffix, Shape, FKind, TTI);
+    SwitchCloner Cloner(OrigF, Suffix, Shape, FKind, TTI, CommonDebugInfo);
     Cloner.create();
     return Cloner.getFunction();
   }
diff --git a/llvm/lib/Transforms/Coroutines/CoroFrame.cpp b/llvm/lib/Transforms/Coroutines/CoroFrame.cpp
index d3732fec603f6..73d4fb9065831 100644
--- a/llvm/lib/Transforms/Coroutines/CoroFrame.cpp
+++ b/llvm/lib/Transforms/Coroutines/CoroFrame.cpp
@@ -1377,7 +1377,7 @@ static void rewritePHIsForCleanupPad(BasicBlock *CleanupPadBB,
   auto *SetDispatchValuePN =
       Builder.CreatePHI(SwitchType, pred_size(CleanupPadBB));
   CleanupPad->removeFromParent();
-  CleanupPad->insertAfter(SetDispatchValuePN);
+  CleanupPad->insertAfter(SetDispatchValuePN->getIterator());
   auto *SwitchOnDispatch = Builder.CreateSwitch(SetDispatchValuePN, UnreachBB,
                                                 pred_size(CleanupPadBB));
 
@@ -1833,7 +1833,7 @@ static void sinkLifetimeStartMarkers(Function &F, coro::Shape &Shape,
       if (Valid && Lifetimes.size() != 0) {
         auto *NewLifetime = Lifetimes[0]->clone();
         NewLifetime->replaceUsesOfWith(NewLifetime->getOperand(1), AI);
-        NewLifetime->insertBefore(DomBB->getTerminator());
+        NewLifetime->insertBefore(DomBB->getTerminator()->getIterator());
 
         // All the outsided lifetime.start markers are no longer necessary.
         for (Instruction *S : Lifetimes)
diff --git a/llvm/lib/Transforms/Coroutines/CoroSplit.cpp b/llvm/lib/Transforms/Coroutines/CoroSplit.cpp
index 23ac55e8ce0cd..ff5df12c398c5 100644
--- a/llvm/lib/Transforms/Coroutines/CoroSplit.cpp
+++ b/llvm/lib/Transforms/Coroutines/CoroSplit.cpp
@@ -43,6 +43,7 @@
 #include "llvm/IR/CallingConv.h"
 #include "llvm/IR/Constants.h"
 #include "llvm/IR/DataLayout.h"
+#include "llvm/IR/DebugInfo.h"
 #include "llvm/IR/DerivedTypes.h"
 #include "llvm/IR/Dominators.h"
 #include "llvm/IR/GlobalValue.h"
@@ -77,6 +78,24 @@ using namespace llvm;
 
 #define DEBUG_TYPE "coro-split"
 
+namespace {
+/// Collect (a known) subset of global debug info metadata potentially used by
+/// the function \p F.
+///
+/// This metadata set can be used to avoid cloning debug info not owned by \p F
+/// and is shared among all potential clones \p F.
+MetadataSetTy collectCommonDebugInfo(Function &F) {
+  TimeTraceScope FunctionScope("CollectCommonDebugInfo");
+
+  DebugInfoFinder DIFinder;
+  DISubprogram *SPClonedWithinModule = CollectDebugInfoForCloning(
+      F, CloneFunctionChangeType::LocalChangesOnly, DIFinder);
+
+  return FindDebugInfoToIdentityMap(CloneFunctionChangeType::LocalChangesOnly,
+                                    DIFinder, SPClonedWithinModule);
+}
+} // end anonymous namespace
+
 // FIXME:
 // Lower the intrinisc in CoroEarly phase if coroutine frame doesn't escape
 // and it is known that other transformations, for example, sanitizers
@@ -891,8 +910,11 @@ void coro::BaseCloner::create() {
   auto savedLinkage = NewF->getLinkage();
   NewF->setLinkage(llvm::GlobalValue::ExternalLinkage);
 
-  CloneFunctionInto(NewF, &OrigF, VMap,
-                    CloneFunctionChangeType::LocalChangesOnly, Returns);
+  CloneFunctionAttributesInto(NewF, &OrigF, VMap, false);
+  CloneFunctionMetadataInto(*NewF, OrigF, VMap, RF_None, nullptr, nullptr,
+                            &CommonDebugInfo);
+  CloneFunctionBodyInto(*NewF, OrigF, VMap, RF_None, Returns, "", nullptr,
+                        nullptr, nullptr, &CommonDebugInfo);
 
   auto &Context = NewF->getContext();
 
@@ -1374,16 +1396,21 @@ struct SwitchCoroutineSplitter {
                     TargetTransformInfo &TTI) {
     assert(Shape.ABI == coro::ABI::Switch);
 
+    MetadataSetTy CommonDebugInfo{collectCommonDebugInfo(F)};
+
     // Create a resume clone by cloning the body of the original function,
     // setting new entry block and replacing coro.suspend an appropriate value
     // to force resume or cleanup pass for every suspend point.
     createResumeEntryBlock(F, Shape);
     auto *ResumeClone = coro::SwitchCloner::createClone(
-        F, ".resume", Shape, coro::CloneKind::SwitchResume, TTI);
+        F, ".resume", Shape, coro::CloneKind::SwitchResume, TTI,
+        CommonDebugInfo);
     auto *DestroyClone = coro::SwitchCloner::createClone(
-        F, ".destroy", Shape, coro::CloneKind::SwitchUnwind, TTI);
+        F, ".destroy", Shape, coro::CloneKind::SwitchUnwind, TTI,
+        CommonDebugInfo);
     auto *CleanupClone = coro::SwitchCloner::createClone(
-        F, ".cleanup", Shape, coro::CloneKind::SwitchCleanup, TTI);
+        F, ".cleanup", Shape, coro::CloneKind::SwitchCleanup, TTI,
+        CommonDebugInfo);
 
     postSplitCleanup(*ResumeClone);
     postSplitCleanup(*DestroyClone);
@@ -1768,12 +1795,15 @@ void coro::AsyncABI::splitCoroutine(Function &F, coro::Shape &Shape,
   }
 
   assert(Clones.size() == Shape.CoroSuspends.size());
+
+  MetadataSetTy CommonDebugInfo{collectCommonDebugInfo(F)};
+
   for (auto [Idx, CS] : llvm::enumerate(Shape.CoroSuspends)) {
     auto *Suspend = CS;
     auto *Clone = Clones[Idx];
 
     coro::BaseCloner::createClone(F, "resume." + Twine(Idx), Shape, Clone,
-                                  Suspend, TTI);
+                                  Suspend, TTI, CommonDebugInfo);
   }
 }
 
@@ -1899,12 +1929,15 @@ void coro::AnyRetconABI::splitCoroutine(Function &F, coro::Shape &Shape,
   }
 
   assert(Clones.size() == Shape.CoroSuspends.size());
+
+  MetadataSetTy CommonDebugInfo{collectCommonDebugInfo(F)};
+
   for (auto [Idx, CS] : llvm::enumerate(Shape.CoroSuspends)) {
     auto Suspend = CS;
     auto Clone = Clones[Idx];
 
     coro::BaseCloner::createClone(F, "resume." + Twine(Idx), Shape, Clone,
-                                  Suspend, TTI);
+                                  Suspend, TTI, CommonDebugInfo);
   }
 }
 
diff --git a/llvm/lib/Transforms/Coroutines/SpillUtils.cpp b/llvm/lib/Transforms/Coroutines/SpillUtils.cpp
index 58e83ea83d521..1ba0bdc8f3876 100644
--- a/llvm/lib/Transforms/Coroutines/SpillUtils.cpp
+++ b/llvm/lib/Transforms/Coroutines/SpillUtils.cpp
@@ -580,7 +580,7 @@ void sinkSpillUsesAfterCoroBegin(const DominatorTree &Dom,
 
   Instruction *InsertPt = CoroBegin->getNextNode();
   for (Instruction *Inst : InsertionList)
-    Inst->moveBefore(InsertPt);
+    Inst->moveBefore(InsertPt->getIterator());
 }
 
 BasicBlock::iterator getSpillInsertionPt(const coro::Shape &Shape, Value *Def,
diff --git a/llvm/lib/Transforms/IPO/AttributorAttributes.cpp b/llvm/lib/Transforms/IPO/AttributorAttributes.cpp
index e897632489bb5..58b8f1f779f72 100644
--- a/llvm/lib/Transforms/IPO/AttributorAttributes.cpp
+++ b/llvm/lib/Transforms/IPO/AttributorAttributes.cpp
@@ -6219,7 +6219,7 @@ struct AAValueSimplifyImpl : AAValueSimplify {
     // TODO: Try to salvage debug information here.
     CloneI->setDebugLoc(DebugLoc());
     VMap[&I] = CloneI;
-    CloneI->insertBefore(CtxI);
+    CloneI->insertBefore(CtxI->getIterator());
     RemapInstruction(CloneI, VMap);
     return CloneI;
   }
@@ -12421,7 +12421,7 @@ struct AAIndirectCallInfoCallSite : public AAIndirectCallInfo {
       CallInst *NewCall = nullptr;
       if (isLegalToPromote(*CB, NewCallee)) {
         auto *CBClone = cast<CallBase>(CB->clone());
-        CBClone->insertBefore(ThenTI);
+        CBClone->insertBefore(ThenTI->getIterator());
         NewCall = &cast<CallInst>(promoteCall(*CBClone, NewCallee, &RetBC));
         NumIndirectCallsPromoted++;
       } else {
@@ -12546,7 +12546,7 @@ static bool makeChange(Attributor &A, InstType *MemInst, const Use &U,
   }
 
   Instruction *CastInst = new AddrSpaceCastInst(OriginalValue, NewPtrTy);
-  CastInst->insertBefore(MemInst);
+  CastInst->insertBefore(MemInst->getIterator());
   A.changeUseAfterManifest(const_cast<Use &>(U), *CastInst);
   return true;
 }
diff --git a/llvm/lib/Transforms/IPO/OpenMPOpt.cpp b/llvm/lib/Transforms/IPO/OpenMPOpt.cpp
index ddacebe192ee7..e7221ee406a18 100644
--- a/llvm/lib/Transforms/IPO/OpenMPOpt.cpp
+++ b/llvm/lib/Transforms/IPO/OpenMPOpt.cpp
@@ -1864,7 +1864,7 @@ struct OpenMPOpt {
       if (!ReplVal)
         return false;
       assert(IP && "Expected insertion point!");
-      cast<Instruction>(ReplVal)->moveBefore(IP);
+      cast<Instruction>(ReplVal)->moveBefore(IP->getIterator());
     }
 
     // If we use a call as a replacement value we need to make sure the ident is
@@ -4122,7 +4122,7 @@ struct AAKernelInfoFunction : AAKernelInfo {
         LastEffect = &*IP;
       }
       for (auto &Reorder : Reorders)
-        Reorder.first->moveBefore(Reorder.second);
+        Reorder.first->moveBefore(Reorder.second->getIterator());
     }
 
     SmallVector<std::pair<Instruction *, Instruction *>, 4> GuardedRegions;
diff --git a/llvm/lib/Transforms/IPO/WholeProgramDevirt.cpp b/llvm/lib/Transforms/IPO/WholeProgramDevirt.cpp
index e889926930082..30e935ea663f3 100644
--- a/llvm/lib/Transforms/IPO/WholeProgramDevirt.cpp
+++ b/llvm/lib/Transforms/IPO/WholeProgramDevirt.cpp
@@ -1225,8 +1225,9 @@ void DevirtModule::applySingleImplDevirt(VTableSlotInfo &SlotInfo,
       // perform a debug trap.
       if (DevirtCheckMode == WPDCheckMode::Trap) {
         auto *Cond = Builder.CreateICmpNE(CB.getCalledOperand(), Callee);
-        Instruction *ThenTerm =
-            SplitBlockAndInsertIfThen(Cond, &CB, /*Unreachable=*/false);
+        Instruction *ThenTerm = SplitBlockAndInsertIfThen(
+            Cond, &CB, /*Unreachable=*/false,
+            MDBuilder(M.getContext()).createUnlikelyBranchWeights());
         Builder.SetInsertPoint(ThenTerm);
         Function *TrapFn =
             Intrinsic::getOrInsertDeclaration(&M, Intrinsic::debugtrap);
diff --git a/llvm/lib/Transforms/InstCombine/InstCombineCalls.cpp b/llvm/lib/Transforms/InstCombine/InstCombineCalls.cpp
index e2b81ba864c3c..f748f78524e0d 100644
--- a/llvm/lib/Transforms/InstCombine/InstCombineCalls.cpp
+++ b/llvm/lib/Transforms/InstCombine/InstCombineCalls.cpp
@@ -3259,7 +3259,7 @@ Instruction *InstCombinerImpl::visitCallInst(CallInst &CI) {
       if (auto *Replacement = buildAssumeFromKnowledge(
               {RetainedKnowledge{Attribute::NonNull, 0, A}}, Next, &AC, &DT)) {
 
-        Replacement->insertBefore(Next);
+        Replacement->insertBefore(Next->getIterator());
         AC.registerAssumption(Replacement);
         return RemoveConditionFromAssume(II);
       }
@@ -3292,7 +3292,7 @@ Instruction *InstCombinerImpl::visitCallInst(CallInst &CI) {
           if (auto *Replacement =
                   buildAssumeFromKnowledge(RK, Next, &AC, &DT)) {
 
-            Replacement->insertAfter(II);
+            Replacement->insertAfter(II->getIterator());
             AC.registerAssumption(Replacement);
           }
           return RemoveConditionFromAssume(II);
@@ -3376,7 +3376,7 @@ Instruction *InstCombinerImpl::visitCallInst(CallInst &CI) {
         while (MoveI != NextInst) {
           auto *Temp = MoveI;
           MoveI = MoveI->getNextNonDebugInstruction();
-          Temp->moveBefore(II);
+          Temp->moveBefore(II->getIterator());
         }
         replaceOperand(*II, 0, Builder.CreateAnd(CurrCond, NextCond));
       }
diff --git a/llvm/lib/Transforms/InstCombine/InstCombineLoadStoreAlloca.cpp b/llvm/lib/Transforms/InstCombine/InstCombineLoadStoreAlloca.cpp
index 61f1c17592e96..f80bbffbab547 100644
--- a/llvm/lib/Transforms/InstCombine/InstCombineLoadStoreAlloca.cpp
+++ b/llvm/lib/Transforms/InstCombine/InstCombineLoadStoreAlloca.cpp
@@ -704,29 +704,22 @@ static Instruction *unpackLoadToAggregate(InstCombinerImpl &IC, LoadInst &LI) {
     const DataLayout &DL = IC.getDataLayout();
     auto *SL = DL.getStructLayout(ST);
 
-    // Don't unpack for structure with scalable vector.
-    if (SL->getSizeInBits().isScalable())
-      return nullptr;
-
     if (SL->hasPadding())
       return nullptr;
 
     const auto Align = LI.getAlign();
     auto *Addr = LI.getPointerOperand();
-    auto *IdxType = Type::getInt32Ty(T->getContext());
-    auto *Zero = ConstantInt::get(IdxType, 0);
+    auto *IdxType = DL.getIndexType(Addr->getType());
 
     Value *V = PoisonValue::get(T);
     for (unsigned i = 0; i < NumElements; i++) {
-      Value *Indices[2] = {
-        Zero,
-        ConstantInt::get(IdxType, i),
-      };
-      auto *Ptr = IC.Builder.CreateInBoundsGEP(ST, Addr, ArrayRef(Indices),
-                                               Name + ".elt");
+      auto *Ptr = IC.Builder.CreateInBoundsPtrAdd(
+          Addr, IC.Builder.CreateTypeSize(IdxType, SL->getElementOffset(i)),
+          Name + ".elt");
       auto *L = IC.Builder.CreateAlignedLoad(
           ST->getElementType(i), Ptr,
-          commonAlignment(Align, SL->getElementOffset(i)), Name + ".unpack");
+          commonAlignment(Align, SL->getElementOffset(i).getKnownMinValue()),
+          Name + ".unpack");
       // Propagate AA metadata. It'll still be valid on the narrowed load.
       L->setAAMetadata(LI.getAAMetadata());
       V = IC.Builder.CreateInsertValue(V, L, i);
@@ -1222,10 +1215,6 @@ static bool unpackStoreToAggregate(InstCombinerImpl &IC, StoreInst &SI) {
     const DataLayout &DL = IC.getDataLayout();
     auto *SL = DL.getStructLayout(ST);
 
-    // Don't unpack for structure with scalable vector.
-    if (SL->getSizeInBits().isScalable())
-      return false;
-
     if (SL->hasPadding())
       return false;
 
@@ -1237,17 +1226,14 @@ static bool unpackStoreToAggregate(InstCombinerImpl &IC, StoreInst &SI) {
     SmallString<16> AddrName = Addr->getName();
     AddrName += ".repack";
 
-    auto *IdxType = Type::getInt32Ty(ST->getContext());
-    auto *Zero = ConstantInt::get(IdxType, 0);
+    auto *IdxType = DL.getIndexType(Addr->getType());
     for (unsigned i = 0; i < Count; i++) {
-      Value *Indices[2] = {
-        Zero,
-        ConstantInt::get(IdxType, i),
-      };
-      auto *Ptr =
-          IC.Builder.CreateInBoundsGEP(ST, Addr, ArrayRef(Indices), AddrName);
+      auto *Ptr = IC.Builder.CreateInBoundsPtrAdd(
+          Addr, IC.Builder.CreateTypeSize(IdxType, SL->getElementOffset(i)),
+          AddrName);
       auto *Val = IC.Builder.CreateExtractValue(V, i, EltName);
-      auto EltAlign = commonAlignment(Align, SL->getElementOffset(i));
+      auto EltAlign =
+          commonAlignment(Align, SL->getElementOffset(i).getKnownMinValue());
       llvm::Instruction *NS = IC.Builder.CreateAlignedStore(Val, Ptr, EltAlign);
       NS->setAAMetadata(SI.getAAMetadata());
     }
diff --git a/llvm/lib/Transforms/InstCombine/InstCombineSelect.cpp b/llvm/lib/Transforms/InstCombine/InstCombineSelect.cpp
index d5d9a829c3068..f66a976ccb47f 100644
--- a/llvm/lib/Transforms/InstCombine/InstCombineSelect.cpp
+++ b/llvm/lib/Transforms/InstCombine/InstCombineSelect.cpp
@@ -428,10 +428,10 @@ Instruction *InstCombinerImpl::foldSelectOpOp(SelectInst &SI, Instruction *TI,
     CmpPredicate TPred, FPred;
     if (match(TI, m_ICmp(TPred, m_Value(), m_Value())) &&
         match(FI, m_ICmp(FPred, m_Value(), m_Value()))) {
-      bool Swapped = ICmpInst::isRelational(FPred) &&
-                     CmpPredicate::getMatching(
-                         TPred, ICmpInst::getSwappedCmpPredicate(FPred));
-      if (CmpPredicate::getMatching(TPred, FPred) || Swapped) {
+      // FIXME: Use CmpPredicate::getMatching here.
+      CmpInst::Predicate T = TPred, F = FPred;
+      if (T == F || T == ICmpInst::getSwappedCmpPredicate(F)) {
+        bool Swapped = T != F;
         if (Value *MatchOp =
                 getCommonOp(TI, FI, ICmpInst::isEquality(TPred), Swapped)) {
           Value *NewSel = Builder.CreateSelect(Cond, OtherOpT, OtherOpF,
diff --git a/llvm/lib/Transforms/InstCombine/InstCombineShifts.cpp b/llvm/lib/Transforms/InstCombine/InstCombineShifts.cpp
index d511e79e3e48a..7ef95800975db 100644
--- a/llvm/lib/Transforms/InstCombine/InstCombineShifts.cpp
+++ b/llvm/lib/Transforms/InstCombine/InstCombineShifts.cpp
@@ -683,7 +683,7 @@ static Value *foldShiftedShift(BinaryOperator *InnerShift, unsigned OuterShAmt,
     Value *And = Builder.CreateAnd(InnerShift->getOperand(0),
                                    ConstantInt::get(ShType, Mask));
     if (auto *AndI = dyn_cast<Instruction>(And)) {
-      AndI->moveBefore(InnerShift);
+      AndI->moveBefore(InnerShift->getIterator());
       AndI->takeName(InnerShift);
     }
     return And;
diff --git a/llvm/lib/Transforms/InstCombine/InstCombineVectorOps.cpp b/llvm/lib/Transforms/InstCombine/InstCombineVectorOps.cpp
index ce6154fd610eb..a9ae09b8dba43 100644
--- a/llvm/lib/Transforms/InstCombine/InstCombineVectorOps.cpp
+++ b/llvm/lib/Transforms/InstCombine/InstCombineVectorOps.cpp
@@ -747,7 +747,7 @@ static bool replaceExtractElements(InsertElementInst *InsElt,
   // extract, so any subsequent extracts in the same basic block can use it.
   // TODO: Insert before the earliest ExtractElementInst that is replaced.
   if (ExtVecOpInst && !isa<PHINode>(ExtVecOpInst))
-    WideVec->insertAfter(ExtVecOpInst);
+    WideVec->insertAfter(ExtVecOpInst->getIterator());
   else
     IC.InsertNewInstWith(WideVec, ExtElt->getParent()->getFirstInsertionPt());
 
diff --git a/llvm/lib/Transforms/InstCombine/InstructionCombining.cpp b/llvm/lib/Transforms/InstCombine/InstructionCombining.cpp
index fb21576722461..cad17c511b6d0 100644
--- a/llvm/lib/Transforms/InstCombine/InstructionCombining.cpp
+++ b/llvm/lib/Transforms/InstCombine/InstructionCombining.cpp
@@ -3517,7 +3517,7 @@ static Instruction *tryToMoveFreeBeforeNullTest(CallInst &FI,
   for (Instruction &Instr : llvm::make_early_inc_range(*FreeInstrBB)) {
     if (&Instr == FreeInstrBBTerminator)
       break;
-    Instr.moveBeforePreserving(TI);
+    Instr.moveBeforePreserving(TI->getIterator());
   }
   assert(FreeInstrBB->size() == 1 &&
          "Only the branch instruction should remain");
@@ -4980,7 +4980,7 @@ void InstCombinerImpl::tryToSinkInstructionDbgValues(
     // The clones are in reverse order of original appearance, reverse again to
     // maintain the original order.
     for (auto &DIIClone : llvm::reverse(DIIClones)) {
-      DIIClone->insertBefore(&*InsertPos);
+      DIIClone->insertBefore(InsertPos);
       LLVM_DEBUG(dbgs() << "SINK: " << *DIIClone << '\n');
     }
   }
diff --git a/llvm/lib/Transforms/Instrumentation/ControlHeightReduction.cpp b/llvm/lib/Transforms/Instrumentation/ControlHeightReduction.cpp
index b3883cd6e1688..5d5cbf93c870d 100644
--- a/llvm/lib/Transforms/Instrumentation/ControlHeightReduction.cpp
+++ b/llvm/lib/Transforms/Instrumentation/ControlHeightReduction.cpp
@@ -1468,7 +1468,7 @@ static void hoistValue(Value *V, Instruction *HoistPoint, Region *R,
     for (Value *Op : I->operands()) {
       hoistValue(Op, HoistPoint, R, HoistStopMap, HoistedSet, TrivialPHIs, DT);
     }
-    I->moveBefore(HoistPoint);
+    I->moveBefore(HoistPoint->getIterator());
     HoistedSet.insert(I);
     CHR_DEBUG(dbgs() << "hoistValue " << *I << "\n");
   }
diff --git a/llvm/lib/Transforms/Instrumentation/InstrProfiling.cpp b/llvm/lib/Transforms/Instrumentation/InstrProfiling.cpp
index 1da39744b40a9..54b328b79a641 100644
--- a/llvm/lib/Transforms/Instrumentation/InstrProfiling.cpp
+++ b/llvm/lib/Transforms/Instrumentation/InstrProfiling.cpp
@@ -775,7 +775,7 @@ void InstrLowerer::doSampling(Instruction *I) {
     NewSamplingVarVal =
         IncBuilder.CreateAdd(LoadSamplingVar, GetConstant(IncBuilder, 1));
     SamplingVarIncr = IncBuilder.CreateStore(NewSamplingVarVal, SamplingVar);
-    I->moveBefore(ThenTerm);
+    I->moveBefore(ThenTerm->getIterator());
   }
 
   if (config.IsFastSampling)
@@ -792,11 +792,11 @@ void InstrLowerer::doSampling(Instruction *I) {
 
   // For the simple sampling, the counter update happens in sampling var reset.
   if (config.IsSimpleSampling)
-    I->moveBefore(ThenTerm);
+    I->moveBefore(ThenTerm->getIterator());
 
   IRBuilder<> ResetBuilder(ThenTerm);
   ResetBuilder.CreateStore(GetConstant(ResetBuilder, 0), SamplingVar);
-  SamplingVarIncr->moveBefore(ElseTerm);
+  SamplingVarIncr->moveBefore(ElseTerm->getIterator());
 }
 
 bool InstrLowerer::lowerIntrinsics(Function *F) {
diff --git a/llvm/lib/Transforms/Instrumentation/MemorySanitizer.cpp b/llvm/lib/Transforms/Instrumentation/MemorySanitizer.cpp
index b3f52b3594083..8e9b85c8d6857 100644
--- a/llvm/lib/Transforms/Instrumentation/MemorySanitizer.cpp
+++ b/llvm/lib/Transforms/Instrumentation/MemorySanitizer.cpp
@@ -1724,13 +1724,15 @@ struct MemorySanitizerVisitor : public InstVisitor<MemorySanitizerVisitor> {
     return ConstantInt::get(MS.IntptrTy, C);
   }
 
-  /// Compute the integer shadow offset that corresponds to a given
-  /// application address.
+  /// Returns the integer shadow offset that corresponds to a given
+  /// application address, whereby:
   ///
-  /// Offset = (Addr & ~AndMask) ^ XorMask
-  /// Addr can be a ptr or <N x ptr>. In both cases ShadowTy the shadow type of
-  /// a single pointee.
-  /// Returns <shadow_ptr, origin_ptr> or <<N x shadow_ptr>, <N x origin_ptr>>.
+  ///     Offset = (Addr & ~AndMask) ^ XorMask
+  ///     Shadow = ShadowBase + Offset
+  ///     Origin = (OriginBase + Offset) & ~Alignment
+  ///
+  /// Note: for efficiency, many shadow mappings only require use the XorMask
+  ///       and OriginBase; the AndMask and ShadowBase are often zero.
   Value *getShadowPtrOffset(Value *Addr, IRBuilder<> &IRB) {
     Type *IntptrTy = ptrToIntPtrType(Addr->getType());
     Value *OffsetLong = IRB.CreatePointerCast(Addr, IntptrTy);
@@ -3904,6 +3906,23 @@ struct MemorySanitizerVisitor : public InstVisitor<MemorySanitizerVisitor> {
     setOriginForNaryOp(I);
   }
 
+  void handleAVXHorizontalAddSubIntrinsic(IntrinsicInst &I) {
+    // Approximation only:
+    //    output         = horizontal_add(A, B)
+    // => shadow[output] = horizontal_add(shadow[A], shadow[B])
+    //
+    // - If we add/subtract two adjacent zero (initialized) shadow values, the
+    //   result always be zero i.e., no false positives.
+    // - If we add/subtract two shadows, one of which is uninitialized, the
+    //   result will always be non-zero i.e., no false negative.
+    // - However, we can have false negatives if we subtract two non-zero
+    //   shadows of the same value (or do an addition that wraps to zero); we
+    //   consider this an acceptable tradeoff for performance.
+    // To make shadow propagation precise, we want the equivalent of
+    // "horizontal OR", but this is not available.
+    return handleIntrinsicByApplyingToShadow(I, /* trailingVerbatimArgs */ 0);
+  }
+
   /// Handle Arm NEON vector store intrinsics (vst{2,3,4}, vst1x_{2,3,4},
   /// and vst{2,3,4}lane).
   ///
@@ -4416,6 +4435,36 @@ struct MemorySanitizerVisitor : public InstVisitor<MemorySanitizerVisitor> {
       handleVtestIntrinsic(I);
       break;
 
+    case Intrinsic::x86_sse3_hadd_ps:
+    case Intrinsic::x86_sse3_hadd_pd:
+    case Intrinsic::x86_ssse3_phadd_d:
+    case Intrinsic::x86_ssse3_phadd_d_128:
+    case Intrinsic::x86_ssse3_phadd_w:
+    case Intrinsic::x86_ssse3_phadd_w_128:
+    case Intrinsic::x86_ssse3_phadd_sw:
+    case Intrinsic::x86_ssse3_phadd_sw_128:
+    case Intrinsic::x86_avx_hadd_pd_256:
+    case Intrinsic::x86_avx_hadd_ps_256:
+    case Intrinsic::x86_avx2_phadd_d:
+    case Intrinsic::x86_avx2_phadd_w:
+    case Intrinsic::x86_avx2_phadd_sw:
+    case Intrinsic::x86_sse3_hsub_ps:
+    case Intrinsic::x86_sse3_hsub_pd:
+    case Intrinsic::x86_ssse3_phsub_d:
+    case Intrinsic::x86_ssse3_phsub_d_128:
+    case Intrinsic::x86_ssse3_phsub_w:
+    case Intrinsic::x86_ssse3_phsub_w_128:
+    case Intrinsic::x86_ssse3_phsub_sw:
+    case Intrinsic::x86_ssse3_phsub_sw_128:
+    case Intrinsic::x86_avx_hsub_pd_256:
+    case Intrinsic::x86_avx_hsub_ps_256:
+    case Intrinsic::x86_avx2_phsub_d:
+    case Intrinsic::x86_avx2_phsub_w:
+    case Intrinsic::x86_avx2_phsub_sw: {
+      handleAVXHorizontalAddSubIntrinsic(I);
+      break;
+    }
+
     case Intrinsic::fshl:
     case Intrinsic::fshr:
       handleFunnelShift(I);
diff --git a/llvm/lib/Transforms/Instrumentation/NumericalStabilitySanitizer.cpp b/llvm/lib/Transforms/Instrumentation/NumericalStabilitySanitizer.cpp
index 417d721d049e7..57e39c4eae966 100644
--- a/llvm/lib/Transforms/Instrumentation/NumericalStabilitySanitizer.cpp
+++ b/llvm/lib/Transforms/Instrumentation/NumericalStabilitySanitizer.cpp
@@ -1110,7 +1110,7 @@ PHINode *NumericalStabilitySanitizer::maybeCreateShadowPhi(
   // created. They will be populated in a final phase, once all shadow values
   // have been created.
   PHINode *Shadow = PHINode::Create(ExtendedVT, Phi.getNumIncomingValues());
-  Shadow->insertAfter(&Phi);
+  Shadow->insertAfter(Phi.getIterator());
   return Shadow;
 }
 
diff --git a/llvm/lib/Transforms/Scalar/ConstantHoisting.cpp b/llvm/lib/Transforms/Scalar/ConstantHoisting.cpp
index 889c432eef846..a18defa9ff5cb 100644
--- a/llvm/lib/Transforms/Scalar/ConstantHoisting.cpp
+++ b/llvm/lib/Transforms/Scalar/ConstantHoisting.cpp
@@ -776,7 +776,7 @@ void ConstantHoistingPass::emitBaseConstants(Instruction *Base,
     if (!ClonedCastInst) {
       ClonedCastInst = CastInst->clone();
       ClonedCastInst->setOperand(0, Mat);
-      ClonedCastInst->insertAfter(CastInst);
+      ClonedCastInst->insertAfter(CastInst->getIterator());
       // Use the same debug location as the original cast instruction.
       ClonedCastInst->setDebugLoc(CastInst->getDebugLoc());
       LLVM_DEBUG(dbgs() << "Clone instruction: " << *CastInst << '\n'
diff --git a/llvm/lib/Transforms/Scalar/ConstraintElimination.cpp b/llvm/lib/Transforms/Scalar/ConstraintElimination.cpp
index fec5036f8f5a2..e0861fbedc560 100644
--- a/llvm/lib/Transforms/Scalar/ConstraintElimination.cpp
+++ b/llvm/lib/Transforms/Scalar/ConstraintElimination.cpp
@@ -1353,7 +1353,7 @@ static void generateReproducer(CmpInst *Cond, Module *M,
       Instruction *Cloned = I->clone();
       Old2New[I] = Cloned;
       Old2New[I]->setName(I->getName());
-      Cloned->insertBefore(&*Builder.GetInsertPoint());
+      Cloned->insertBefore(Builder.GetInsertPoint());
       Cloned->dropUnknownNonDebugMetadata();
       Cloned->setDebugLoc({});
     }
diff --git a/llvm/lib/Transforms/Scalar/DeadStoreElimination.cpp b/llvm/lib/Transforms/Scalar/DeadStoreElimination.cpp
index 241c57e88b447..13f3de07c3c44 100644
--- a/llvm/lib/Transforms/Scalar/DeadStoreElimination.cpp
+++ b/llvm/lib/Transforms/Scalar/DeadStoreElimination.cpp
@@ -164,9 +164,9 @@ static cl::opt<bool>
     OptimizeMemorySSA("dse-optimize-memoryssa", cl::init(true), cl::Hidden,
                       cl::desc("Allow DSE to optimize memory accesses."));
 
-// TODO: turn on and remove this flag.
+// TODO: remove this flag.
 static cl::opt<bool> EnableInitializesImprovement(
-    "enable-dse-initializes-attr-improvement", cl::init(false), cl::Hidden,
+    "enable-dse-initializes-attr-improvement", cl::init(true), cl::Hidden,
     cl::desc("Enable the initializes attr improvement in DSE"));
 
 //===----------------------------------------------------------------------===//
@@ -553,7 +553,7 @@ static void shortenAssignment(Instruction *Inst, Value *OriginalDest,
 
     // Fragments overlap: insert a new dbg.assign for this dead part.
     auto *NewAssign = static_cast<decltype(Assign)>(Assign->clone());
-    NewAssign->insertAfter(Assign);
+    NewAssign->insertAfter(Assign->getIterator());
     NewAssign->setAssignId(GetDeadLink());
     if (NewFragment)
       SetDeadFragExpr(NewAssign, *NewFragment);
diff --git a/llvm/lib/Transforms/Scalar/DivRemPairs.cpp b/llvm/lib/Transforms/Scalar/DivRemPairs.cpp
index d8aea1e810e9b..3adb3539f5890 100644
--- a/llvm/lib/Transforms/Scalar/DivRemPairs.cpp
+++ b/llvm/lib/Transforms/Scalar/DivRemPairs.cpp
@@ -209,7 +209,7 @@ static bool optimizeDivRem(Function &F, const TargetTransformInfo &TTI,
       // Note that we place it right next to the original expanded instruction,
       // and letting further handling to move it if needed.
       RealRem->setName(RemInst->getName() + ".recomposed");
-      RealRem->insertAfter(RemInst);
+      RealRem->insertAfter(RemInst->getIterator());
       Instruction *OrigRemInst = RemInst;
       // Update AssertingVH<> with new instruction so it doesn't assert.
       RemInst = RealRem;
@@ -296,10 +296,10 @@ static bool optimizeDivRem(Function &F, const TargetTransformInfo &TTI,
           all_of(predecessors(DivBB),
                  [&](BasicBlock *BB) { return BB == RemBB || BB == PredBB; })) {
         DivDominates = true;
-        DivInst->moveBefore(PredBB->getTerminator());
+        DivInst->moveBefore(PredBB->getTerminator()->getIterator());
         Changed = true;
         if (HasDivRemOp) {
-          RemInst->moveBefore(PredBB->getTerminator());
+          RemInst->moveBefore(PredBB->getTerminator()->getIterator());
           continue;
         }
       } else
@@ -365,10 +365,10 @@ static bool optimizeDivRem(Function &F, const TargetTransformInfo &TTI,
       // but any code movement would be within the same block.
 
       if (!DivDominates)
-        DivInst->moveBefore(RemInst);
-      Mul->insertAfter(RemInst);
+        DivInst->moveBefore(RemInst->getIterator());
+      Mul->insertAfter(RemInst->getIterator());
       Mul->setDebugLoc(RemInst->getDebugLoc());
-      Sub->insertAfter(Mul);
+      Sub->insertAfter(Mul->getIterator());
       Sub->setDebugLoc(RemInst->getDebugLoc());
 
       // If DivInst has the exact flag, remove it. Otherwise this optimization
diff --git a/llvm/lib/Transforms/Scalar/GVN.cpp b/llvm/lib/Transforms/Scalar/GVN.cpp
index 31af2d8a617b6..def4add46e5ba 100644
--- a/llvm/lib/Transforms/Scalar/GVN.cpp
+++ b/llvm/lib/Transforms/Scalar/GVN.cpp
@@ -2890,7 +2890,7 @@ bool GVNPass::performScalarPREInsertion(Instruction *Instr, BasicBlock *Pred,
   if (!success)
     return false;
 
-  Instr->insertBefore(Pred->getTerminator());
+  Instr->insertBefore(Pred->getTerminator()->getIterator());
   Instr->setName(Instr->getName() + ".pre");
   Instr->setDebugLoc(Instr->getDebugLoc());
 
diff --git a/llvm/lib/Transforms/Scalar/GVNHoist.cpp b/llvm/lib/Transforms/Scalar/GVNHoist.cpp
index e090f7cf30beb..c6f015112e59d 100644
--- a/llvm/lib/Transforms/Scalar/GVNHoist.cpp
+++ b/llvm/lib/Transforms/Scalar/GVNHoist.cpp
@@ -922,7 +922,7 @@ void GVNHoist::makeGepsAvailable(Instruction *Repl, BasicBlock *HoistPt,
     }
 
   // Copy Gep and replace its uses in Repl with ClonedGep.
-  ClonedGep->insertBefore(HoistPt->getTerminator());
+  ClonedGep->insertBefore(HoistPt->getTerminator()->getIterator());
 
   // Conservatively discard any optimization hints, they may differ on the
   // other paths.
@@ -1108,7 +1108,7 @@ std::pair<unsigned, unsigned> GVNHoist::hoist(HoistingPointList &HPL) {
       // Move the instruction at the end of HoistPt.
       Instruction *Last = DestBB->getTerminator();
       MD->removeInstruction(Repl);
-      Repl->moveBefore(Last);
+      Repl->moveBefore(Last->getIterator());
 
       DFSNumber[Repl] = DFSNumber[Last]++;
     }
diff --git a/llvm/lib/Transforms/Scalar/InferAddressSpaces.cpp b/llvm/lib/Transforms/Scalar/InferAddressSpaces.cpp
index 09b6915980d4c..798498292f381 100644
--- a/llvm/lib/Transforms/Scalar/InferAddressSpaces.cpp
+++ b/llvm/lib/Transforms/Scalar/InferAddressSpaces.cpp
@@ -619,7 +619,7 @@ static Value *operandWithNewAddressSpaceOrCreatePoison(
     unsigned NewAS = I->second;
     Type *NewPtrTy = getPtrOrVecOfPtrsWithNewAS(Operand->getType(), NewAS);
     auto *NewI = new AddrSpaceCastInst(Operand, NewPtrTy);
-    NewI->insertBefore(Inst);
+    NewI->insertBefore(Inst->getIterator());
     NewI->setDebugLoc(Inst->getDebugLoc());
     return NewI;
   }
@@ -681,7 +681,7 @@ Value *InferAddressSpacesImpl::cloneInstructionWithNewAddressSpace(
     // explicit.
     Type *NewPtrTy = getPtrOrVecOfPtrsWithNewAS(I->getType(), AS);
     auto *NewI = new AddrSpaceCastInst(I, NewPtrTy);
-    NewI->insertAfter(I);
+    NewI->insertAfter(I->getIterator());
     NewI->setDebugLoc(I->getDebugLoc());
     return NewI;
   }
@@ -833,7 +833,7 @@ Value *InferAddressSpacesImpl::cloneValueWithNewAddressSpace(
         I, NewAddrSpace, ValueWithNewAddrSpace, PredicatedAS, PoisonUsesToFix);
     if (Instruction *NewI = dyn_cast_or_null<Instruction>(NewV)) {
       if (NewI->getParent() == nullptr) {
-        NewI->insertBefore(I);
+        NewI->insertBefore(I->getIterator());
         NewI->takeName(I);
         NewI->setDebugLoc(I->getDebugLoc());
       }
diff --git a/llvm/lib/Transforms/Scalar/LICM.cpp b/llvm/lib/Transforms/Scalar/LICM.cpp
index 0bab01904406e..658187ed74505 100644
--- a/llvm/lib/Transforms/Scalar/LICM.cpp
+++ b/llvm/lib/Transforms/Scalar/LICM.cpp
@@ -933,14 +933,14 @@ bool llvm::hoistRegion(DomTreeNode *N, AAResults *AA, LoopInfo *LI,
         auto ReciprocalDivisor = BinaryOperator::CreateFDiv(One, Divisor);
         ReciprocalDivisor->setFastMathFlags(I.getFastMathFlags());
         SafetyInfo->insertInstructionTo(ReciprocalDivisor, I.getParent());
-        ReciprocalDivisor->insertBefore(&I);
+        ReciprocalDivisor->insertBefore(I.getIterator());
         ReciprocalDivisor->setDebugLoc(I.getDebugLoc());
 
         auto Product =
             BinaryOperator::CreateFMul(I.getOperand(0), ReciprocalDivisor);
         Product->setFastMathFlags(I.getFastMathFlags());
         SafetyInfo->insertInstructionTo(Product, I.getParent());
-        Product->insertAfter(&I);
+        Product->insertAfter(I.getIterator());
         Product->setDebugLoc(I.getDebugLoc());
         I.replaceAllUsesWith(Product);
         eraseInstruction(I, *SafetyInfo, MSSAU);
diff --git a/llvm/lib/Transforms/Scalar/LoopFuse.cpp b/llvm/lib/Transforms/Scalar/LoopFuse.cpp
index ec4c4089082d4..46b0783004fcd 100644
--- a/llvm/lib/Transforms/Scalar/LoopFuse.cpp
+++ b/llvm/lib/Transforms/Scalar/LoopFuse.cpp
@@ -1662,7 +1662,7 @@ struct LoopFuser {
       if (SE.isSCEVable(PHI->getType()))
         SE.forgetValue(PHI);
       if (PHI->hasNUsesOrMore(1))
-        PHI->moveBefore(&*FC0.Header->getFirstInsertionPt());
+        PHI->moveBefore(FC0.Header->getFirstInsertionPt());
       else
         PHI->eraseFromParent();
     }
@@ -1947,7 +1947,7 @@ struct LoopFuser {
       if (SE.isSCEVable(PHI->getType()))
         SE.forgetValue(PHI);
       if (PHI->hasNUsesOrMore(1))
-        PHI->moveBefore(&*FC0.Header->getFirstInsertionPt());
+        PHI->moveBefore(FC0.Header->getFirstInsertionPt());
       else
         PHI->eraseFromParent();
     }
diff --git a/llvm/lib/Transforms/Scalar/LoopInterchange.cpp b/llvm/lib/Transforms/Scalar/LoopInterchange.cpp
index d366e749c7370..ed80040aa4236 100644
--- a/llvm/lib/Transforms/Scalar/LoopInterchange.cpp
+++ b/llvm/lib/Transforms/Scalar/LoopInterchange.cpp
@@ -1405,7 +1405,7 @@ bool LoopInterchangeTransform::transform() {
     for (Instruction &I :
          make_early_inc_range(make_range(InnerLoopPreHeader->begin(),
                                          std::prev(InnerLoopPreHeader->end()))))
-      I.moveBeforePreserving(OuterLoopHeader->getTerminator());
+      I.moveBeforePreserving(OuterLoopHeader->getTerminator()->getIterator());
   }
 
   Transformed |= adjustLoopLinks();
@@ -1440,7 +1440,7 @@ static void swapBBContents(BasicBlock *BB1, BasicBlock *BB2) {
 
   // Move instructions from TempInstrs to BB2.
   for (Instruction *I : TempInstrs)
-    I->insertBefore(BB2->getTerminator());
+    I->insertBefore(BB2->getTerminator()->getIterator());
 }
 
 // Update BI to jump to NewBB instead of OldBB. Records updates to the
diff --git a/llvm/lib/Transforms/Scalar/LoopSink.cpp b/llvm/lib/Transforms/Scalar/LoopSink.cpp
index 5c6ed8487bbd1..7f0c974ac4c5a 100644
--- a/llvm/lib/Transforms/Scalar/LoopSink.cpp
+++ b/llvm/lib/Transforms/Scalar/LoopSink.cpp
@@ -252,7 +252,7 @@ static bool sinkInstruction(
     // Clone I and replace its uses.
     Instruction *IC = I.clone();
     IC->setName(I.getName());
-    IC->insertBefore(&*N->getFirstInsertionPt());
+    IC->insertBefore(N->getFirstInsertionPt());
 
     if (MSSAU && MSSAU->getMemorySSA()->getMemoryAccess(&I)) {
       // Create a new MemoryAccess and let MemorySSA set its defining access.
@@ -282,7 +282,7 @@ static bool sinkInstruction(
   }
   LLVM_DEBUG(dbgs() << "Sinking " << I << " To: " << MoveBB->getName() << '\n');
   NumLoopSunk++;
-  I.moveBefore(&*MoveBB->getFirstInsertionPt());
+  I.moveBefore(MoveBB->getFirstInsertionPt());
 
   if (MSSAU)
     if (MemoryUseOrDef *OldMemAcc = cast_or_null<MemoryUseOrDef>(
diff --git a/llvm/lib/Transforms/Scalar/LoopStrengthReduce.cpp b/llvm/lib/Transforms/Scalar/LoopStrengthReduce.cpp
index d51d043f9f0d9..5a9a7ecdc13bf 100644
--- a/llvm/lib/Transforms/Scalar/LoopStrengthReduce.cpp
+++ b/llvm/lib/Transforms/Scalar/LoopStrengthReduce.cpp
@@ -2719,7 +2719,7 @@ LSRInstance::OptimizeLoopTermCond() {
     // the exiting block branch, move it.
     if (Cond->getNextNonDebugInstruction() != TermBr) {
       if (Cond->hasOneUse()) {
-        Cond->moveBefore(TermBr);
+        Cond->moveBefore(TermBr->getIterator());
       } else {
         // Clone the terminating condition and insert into the loopend.
         ICmpInst *OldCond = Cond;
diff --git a/llvm/lib/Transforms/Scalar/LowerMatrixIntrinsics.cpp b/llvm/lib/Transforms/Scalar/LowerMatrixIntrinsics.cpp
index 796fba67ee257..2bec5559abd16 100644
--- a/llvm/lib/Transforms/Scalar/LowerMatrixIntrinsics.cpp
+++ b/llvm/lib/Transforms/Scalar/LowerMatrixIntrinsics.cpp
@@ -1979,7 +1979,7 @@ class LowerMatrixIntrinsics {
         return DT->dominates(A, B);
       });
       for (Instruction *I : ToHoist)
-        I->moveBefore(MatMul);
+        I->moveBefore(MatMul->getIterator());
 
       // Deal with lifetime.end calls that might be between Load0/Load1 and the
       // store. To avoid introducing loads to dead objects (i.e. after the
diff --git a/llvm/lib/Transforms/Scalar/MemCpyOptimizer.cpp b/llvm/lib/Transforms/Scalar/MemCpyOptimizer.cpp
index 5759046d67d67..a80a85f38e74d 100644
--- a/llvm/lib/Transforms/Scalar/MemCpyOptimizer.cpp
+++ b/llvm/lib/Transforms/Scalar/MemCpyOptimizer.cpp
@@ -611,7 +611,7 @@ bool MemCpyOptPass::moveUp(StoreInst *SI, Instruction *P, const LoadInst *LI) {
   // We made it, we need to lift.
   for (auto *I : llvm::reverse(ToLift)) {
     LLVM_DEBUG(dbgs() << "Lifting " << *I << " before " << *P << "\n");
-    I->moveBefore(P);
+    I->moveBefore(P->getIterator());
     assert(MemInsertPoint && "Must have found insert point");
     if (MemoryUseOrDef *MA = MSSA->getMemoryAccess(I)) {
       MSSAU->moveAfter(MA, MemInsertPoint);
@@ -1082,11 +1082,11 @@ bool MemCpyOptPass::performCallSlotOptzn(Instruction *cpyLoad,
 
   if (NeedMoveGEP) {
     auto *GEP = dyn_cast<GetElementPtrInst>(cpyDest);
-    GEP->moveBefore(C);
+    GEP->moveBefore(C->getIterator());
   }
 
   if (SkippedLifetimeStart) {
-    SkippedLifetimeStart->moveBefore(C);
+    SkippedLifetimeStart->moveBefore(C->getIterator());
     MSSAU->moveBefore(MSSA->getMemoryAccess(SkippedLifetimeStart),
                       MSSA->getMemoryAccess(C));
   }
diff --git a/llvm/lib/Transforms/Scalar/NewGVN.cpp b/llvm/lib/Transforms/Scalar/NewGVN.cpp
index b5ce860d73523..d8b0bd173454f 100644
--- a/llvm/lib/Transforms/Scalar/NewGVN.cpp
+++ b/llvm/lib/Transforms/Scalar/NewGVN.cpp
@@ -2800,7 +2800,7 @@ NewGVN::makePossiblePHIOfOps(Instruction *I,
       Instruction *ValueOp = I->clone();
       // Emit the temporal instruction in the predecessor basic block where the
       // corresponding value is defined.
-      ValueOp->insertBefore(PredBB->getTerminator());
+      ValueOp->insertBefore(PredBB->getTerminator()->getIterator());
       if (MemAccess)
         TempToMemory.insert({ValueOp, MemAccess});
       bool SafeForPHIOfOps = true;
@@ -4012,7 +4012,7 @@ bool NewGVN::eliminateInstructions(Function &F) {
             LLVM_DEBUG(dbgs() << "Inserting fully real phi of ops" << *Def
                               << " into block "
                               << getBlockName(getBlockForValue(Def)) << "\n");
-            PN->insertBefore(&DefBlock->front());
+            PN->insertBefore(DefBlock->begin());
             Def = PN;
             NumGVNPHIOfOpsEliminations++;
           }
diff --git a/llvm/lib/Transforms/Scalar/Reassociate.cpp b/llvm/lib/Transforms/Scalar/Reassociate.cpp
index 9361ea063c1d6..7cb9bace47bf4 100644
--- a/llvm/lib/Transforms/Scalar/Reassociate.cpp
+++ b/llvm/lib/Transforms/Scalar/Reassociate.cpp
@@ -755,7 +755,7 @@ void ReassociatePass::RewriteExprTree(BinaryOperator *I,
       if (ClearFlags)
         replaceDbgUsesWithUndef(ExpressionChangedStart);
 
-      ExpressionChangedStart->moveBefore(I);
+      ExpressionChangedStart->moveBefore(I->getIterator());
       ExpressionChangedStart =
           cast<BinaryOperator>(*ExpressionChangedStart->user_begin());
     } while (true);
@@ -808,7 +808,7 @@ static Value *NegateValue(Value *V, Instruction *BI,
     // assured that the neg instructions we just inserted dominate the
     // instruction we are about to insert after them.
     //
-    I->moveBefore(BI);
+    I->moveBefore(BI->getIterator());
     I->setName(I->getName()+".neg");
 
     // Add the intermediate negates to the redo list as processing them later
diff --git a/llvm/lib/Transforms/Scalar/RewriteStatepointsForGC.cpp b/llvm/lib/Transforms/Scalar/RewriteStatepointsForGC.cpp
index 746fdaa340fc7..7b848ae547bd5 100644
--- a/llvm/lib/Transforms/Scalar/RewriteStatepointsForGC.cpp
+++ b/llvm/lib/Transforms/Scalar/RewriteStatepointsForGC.cpp
@@ -1115,7 +1115,7 @@ static Value *findBasePointer(Value *I, DefiningValueMapTy &Cache,
     };
 
     Instruction *BaseInst = I->clone();
-    BaseInst->insertBefore(I);
+    BaseInst->insertBefore(I->getIterator());
     BaseInst->setName(getMangledName(I));
     // Add metadata marking this as a base value
     BaseInst->setMetadata("is_base_value", MDNode::get(I->getContext(), {}));
diff --git a/llvm/lib/Transforms/Scalar/SeparateConstOffsetFromGEP.cpp b/llvm/lib/Transforms/Scalar/SeparateConstOffsetFromGEP.cpp
index 73e3ff296cf11..319b9e14fc21d 100644
--- a/llvm/lib/Transforms/Scalar/SeparateConstOffsetFromGEP.cpp
+++ b/llvm/lib/Transforms/Scalar/SeparateConstOffsetFromGEP.cpp
@@ -1147,7 +1147,7 @@ bool SeparateConstOffsetFromGEP::splitGEP(GetElementPtrInst *GEP) {
   //   %new.gep = gep i8, %gep2, %offset
   //   ... %new.gep ...
   Instruction *NewGEP = GEP->clone();
-  NewGEP->insertBefore(GEP);
+  NewGEP->insertBefore(GEP->getIterator());
 
   Type *PtrIdxTy = DL->getIndexType(GEP->getType());
   IRBuilder<> Builder(GEP);
diff --git a/llvm/lib/Transforms/Scalar/SimpleLoopUnswitch.cpp b/llvm/lib/Transforms/Scalar/SimpleLoopUnswitch.cpp
index 0712ff77151e2..c2f7c5dcaf160 100644
--- a/llvm/lib/Transforms/Scalar/SimpleLoopUnswitch.cpp
+++ b/llvm/lib/Transforms/Scalar/SimpleLoopUnswitch.cpp
@@ -2786,7 +2786,7 @@ static BranchInst *turnGuardIntoBranch(IntrinsicInst *GI, Loop &L,
   if (MSSAU)
     MSSAU->moveAllAfterSpliceBlocks(CheckBB, GuardedBlock, GI);
 
-  GI->moveBefore(DeoptBlockTerm);
+  GI->moveBefore(DeoptBlockTerm->getIterator());
   GI->setArgOperand(0, ConstantInt::getFalse(GI->getContext()));
 
   if (MSSAU) {
diff --git a/llvm/lib/Transforms/Scalar/Sink.cpp b/llvm/lib/Transforms/Scalar/Sink.cpp
index 46bcfd6b41ce4..1a48a59c4189e 100644
--- a/llvm/lib/Transforms/Scalar/Sink.cpp
+++ b/llvm/lib/Transforms/Scalar/Sink.cpp
@@ -168,7 +168,7 @@ static bool SinkInstruction(Instruction *Inst,
              SuccToSinkTo->printAsOperand(dbgs(), false); dbgs() << ")\n");
 
   // Move the instruction.
-  Inst->moveBefore(&*SuccToSinkTo->getFirstInsertionPt());
+  Inst->moveBefore(SuccToSinkTo->getFirstInsertionPt());
   return true;
 }
 
diff --git a/llvm/lib/Transforms/Scalar/SpeculativeExecution.cpp b/llvm/lib/Transforms/Scalar/SpeculativeExecution.cpp
index 6e1bb892f6201..cb202f5f71b91 100644
--- a/llvm/lib/Transforms/Scalar/SpeculativeExecution.cpp
+++ b/llvm/lib/Transforms/Scalar/SpeculativeExecution.cpp
@@ -328,7 +328,7 @@ bool SpeculativeExecutionPass::considerHoistingFromTo(
     auto Current = I;
     ++I;
     if (!NotHoisted.count(&*Current)) {
-      Current->moveBefore(ToBlock.getTerminator());
+      Current->moveBefore(ToBlock.getTerminator()->getIterator());
       Current->dropLocation();
     }
   }
diff --git a/llvm/lib/Transforms/Scalar/TailRecursionElimination.cpp b/llvm/lib/Transforms/Scalar/TailRecursionElimination.cpp
index 53e486f3dc6cd..3f27166080d5a 100644
--- a/llvm/lib/Transforms/Scalar/TailRecursionElimination.cpp
+++ b/llvm/lib/Transforms/Scalar/TailRecursionElimination.cpp
@@ -526,7 +526,7 @@ void TailRecursionEliminator::createTailRecurseLoopHeader(CallInst *CI) {
        OEBI != E;)
     if (AllocaInst *AI = dyn_cast<AllocaInst>(OEBI++))
       if (isa<ConstantInt>(AI->getArraySize()))
-        AI->moveBefore(&*NEBI);
+        AI->moveBefore(NEBI);
 
   // Now that we have created a new block, which jumps to the entry
   // block, insert a PHI node for each argument of the function.
@@ -784,7 +784,7 @@ void TailRecursionEliminator::cleanupAndFinalize() {
           AccRecInstrNew->setName("accumulator.ret.tr");
           AccRecInstrNew->setOperand(AccRecInstr->getOperand(0) == AccPN,
                                      RI->getOperand(0));
-          AccRecInstrNew->insertBefore(RI);
+          AccRecInstrNew->insertBefore(RI->getIterator());
           AccRecInstrNew->dropLocation();
           RI->setOperand(0, AccRecInstrNew);
         }
@@ -813,7 +813,7 @@ void TailRecursionEliminator::cleanupAndFinalize() {
           AccRecInstrNew->setName("accumulator.ret.tr");
           AccRecInstrNew->setOperand(AccRecInstr->getOperand(0) == AccPN,
                                      SI->getFalseValue());
-          AccRecInstrNew->insertBefore(SI);
+          AccRecInstrNew->insertBefore(SI->getIterator());
           AccRecInstrNew->dropLocation();
           SI->setFalseValue(AccRecInstrNew);
         }
diff --git a/llvm/lib/Transforms/Utils/AssumeBundleBuilder.cpp b/llvm/lib/Transforms/Utils/AssumeBundleBuilder.cpp
index b499ef839729e..b05ae00a1e0ea 100644
--- a/llvm/lib/Transforms/Utils/AssumeBundleBuilder.cpp
+++ b/llvm/lib/Transforms/Utils/AssumeBundleBuilder.cpp
@@ -298,7 +298,7 @@ bool llvm::salvageKnowledge(Instruction *I, AssumptionCache *AC,
   AssumeBuilderState Builder(I->getModule(), I, AC, DT);
   Builder.addInstruction(I);
   if (auto *Intr = Builder.build()) {
-    Intr->insertBefore(I);
+    Intr->insertBefore(I->getIterator());
     Changed = true;
     if (AC)
       AC->registerAssumption(Intr);
diff --git a/llvm/lib/Transforms/Utils/BasicBlockUtils.cpp b/llvm/lib/Transforms/Utils/BasicBlockUtils.cpp
index 1454305970ce3..7811677000998 100644
--- a/llvm/lib/Transforms/Utils/BasicBlockUtils.cpp
+++ b/llvm/lib/Transforms/Utils/BasicBlockUtils.cpp
@@ -886,7 +886,7 @@ BasicBlock *llvm::ehAwareSplitEdge(BasicBlock *BB, BasicBlock *Succ,
   if (LandingPadReplacement) {
     auto *NewLP = OriginalPad->clone();
     auto *Terminator = BranchInst::Create(Succ, NewBB);
-    NewLP->insertBefore(Terminator);
+    NewLP->insertBefore(Terminator->getIterator());
     LandingPadReplacement->addIncoming(NewLP, NewBB);
   } else {
     Value *ParentPad = nullptr;
diff --git a/llvm/lib/Transforms/Utils/CallPromotionUtils.cpp b/llvm/lib/Transforms/Utils/CallPromotionUtils.cpp
index 725a0eb97eae1..f0f9add09bf82 100644
--- a/llvm/lib/Transforms/Utils/CallPromotionUtils.cpp
+++ b/llvm/lib/Transforms/Utils/CallPromotionUtils.cpp
@@ -299,7 +299,7 @@ static CallBase &versionCallSiteWithCond(CallBase &CB, Value *Cond,
     BasicBlock *ThenBlock = ThenTerm->getParent();
     ThenBlock->setName("if.true.direct_targ");
     CallBase *NewInst = cast<CallBase>(OrigInst->clone());
-    NewInst->insertBefore(ThenTerm);
+    NewInst->insertBefore(ThenTerm->getIterator());
 
     // Place a clone of the optional bitcast after the new call site.
     Value *NewRetVal = NewInst;
@@ -309,7 +309,7 @@ static CallBase &versionCallSiteWithCond(CallBase &CB, Value *Cond,
              "bitcast following musttail call must use the call");
       auto NewBitCast = BitCast->clone();
       NewBitCast->replaceUsesOfWith(OrigInst, NewInst);
-      NewBitCast->insertBefore(ThenTerm);
+      NewBitCast->insertBefore(ThenTerm->getIterator());
       NewRetVal = NewBitCast;
       Next = BitCast->getNextNode();
     }
@@ -320,7 +320,7 @@ static CallBase &versionCallSiteWithCond(CallBase &CB, Value *Cond,
     auto NewRet = Ret->clone();
     if (Ret->getReturnValue())
       NewRet->replaceUsesOfWith(Ret->getReturnValue(), NewRetVal);
-    NewRet->insertBefore(ThenTerm);
+    NewRet->insertBefore(ThenTerm->getIterator());
 
     // A return instructions is terminating, so we don't need the terminator
     // instruction just created.
@@ -344,8 +344,8 @@ static CallBase &versionCallSiteWithCond(CallBase &CB, Value *Cond,
   MergeBlock->setName("if.end.icp");
 
   CallBase *NewInst = cast<CallBase>(OrigInst->clone());
-  OrigInst->moveBefore(ElseTerm);
-  NewInst->insertBefore(ThenTerm);
+  OrigInst->moveBefore(ElseTerm->getIterator());
+  NewInst->insertBefore(ThenTerm->getIterator());
 
   // If the original call site is an invoke instruction, we have extra work to
   // do since invoke instructions are terminating. We have to fix-up phi nodes
@@ -589,12 +589,12 @@ CallBase *llvm::promoteCallWithIfThenElse(CallBase &CB, Function &Callee,
 
   CallBase &DirectCall = promoteCall(
       versionCallSite(CB, &Callee, /*BranchWeights=*/nullptr), &Callee);
-  CSInstr->moveBefore(&CB);
+  CSInstr->moveBefore(CB.getIterator());
   const auto NewCSID = CtxProf.allocateNextCallsiteIndex(Caller);
   auto *NewCSInstr = cast<InstrProfCallsite>(CSInstr->clone());
   NewCSInstr->setIndex(NewCSID);
   NewCSInstr->setCallee(&Callee);
-  NewCSInstr->insertBefore(&DirectCall);
+  NewCSInstr->insertBefore(DirectCall.getIterator());
   auto &DirectBB = *DirectCall.getParent();
   auto &IndirectBB = *CB.getParent();
 
diff --git a/llvm/lib/Transforms/Utils/CloneFunction.cpp b/llvm/lib/Transforms/Utils/CloneFunction.cpp
index 8863dff4482a1..58d400ac396be 100644
--- a/llvm/lib/Transforms/Utils/CloneFunction.cpp
+++ b/llvm/lib/Transforms/Utils/CloneFunction.cpp
@@ -152,61 +152,52 @@ DISubprogram *llvm::CollectDebugInfoForCloning(const Function &F,
   return SPClonedWithinModule;
 }
 
-bool llvm::BuildDebugInfoMDMap(DenseMap<const Metadata *, TrackingMDRef> &MD,
-                               CloneFunctionChangeType Changes,
-                               DebugInfoFinder &DIFinder,
-                               DISubprogram *SPClonedWithinModule) {
-  bool ModuleLevelChanges = Changes > CloneFunctionChangeType::LocalChangesOnly;
+MetadataSetTy
+llvm::FindDebugInfoToIdentityMap(CloneFunctionChangeType Changes,
+                                 DebugInfoFinder &DIFinder,
+                                 DISubprogram *SPClonedWithinModule) {
+  MetadataSetTy MD;
+
   if (Changes < CloneFunctionChangeType::DifferentModule &&
       DIFinder.subprogram_count() > 0) {
-    // Turn on module-level changes, since we need to clone (some of) the
-    // debug info metadata.
-    //
-    // FIXME: Metadata effectively owned by a function should be made
-    // local, and only that local metadata should be cloned.
-    ModuleLevelChanges = true;
-
-    auto mapToSelfIfNew = [&MD](MDNode *N) {
-      // Avoid clobbering an existing mapping.
-      (void)MD.try_emplace(N, N);
-    };
-
     // Avoid cloning types, compile units, and (other) subprograms.
     for (DISubprogram *ISP : DIFinder.subprograms()) {
       if (ISP != SPClonedWithinModule)
-        mapToSelfIfNew(ISP);
+        MD.insert(ISP);
     }
 
     // If a subprogram isn't going to be cloned skip its lexical blocks as well.
     for (DIScope *S : DIFinder.scopes()) {
       auto *LScope = dyn_cast<DILocalScope>(S);
       if (LScope && LScope->getSubprogram() != SPClonedWithinModule)
-        mapToSelfIfNew(S);
+        MD.insert(S);
     }
 
     for (DICompileUnit *CU : DIFinder.compile_units())
-      mapToSelfIfNew(CU);
+      MD.insert(CU);
 
     for (DIType *Type : DIFinder.types())
-      mapToSelfIfNew(Type);
+      MD.insert(Type);
   } else {
     assert(!SPClonedWithinModule &&
            "Subprogram should be in DIFinder->subprogram_count()...");
   }
 
-  return ModuleLevelChanges;
+  return MD;
 }
 
 void llvm::CloneFunctionMetadataInto(Function &NewFunc, const Function &OldFunc,
                                      ValueToValueMapTy &VMap,
                                      RemapFlags RemapFlag,
                                      ValueMapTypeRemapper *TypeMapper,
-                                     ValueMaterializer *Materializer) {
+                                     ValueMaterializer *Materializer,
+                                     const MetadataSetTy *IdentityMD) {
   SmallVector<std::pair<unsigned, MDNode *>, 1> MDs;
   OldFunc.getAllMetadata(MDs);
   for (auto MD : MDs) {
-    NewFunc.addMetadata(MD.first, *MapMetadata(MD.second, VMap, RemapFlag,
-                                               TypeMapper, Materializer));
+    NewFunc.addMetadata(MD.first,
+                        *MapMetadata(MD.second, VMap, RemapFlag, TypeMapper,
+                                     Materializer, IdentityMD));
   }
 }
 
@@ -216,7 +207,8 @@ void llvm::CloneFunctionBodyInto(Function &NewFunc, const Function &OldFunc,
                                  const char *NameSuffix,
                                  ClonedCodeInfo *CodeInfo,
                                  ValueMapTypeRemapper *TypeMapper,
-                                 ValueMaterializer *Materializer) {
+                                 ValueMaterializer *Materializer,
+                                 const MetadataSetTy *IdentityMD) {
   if (OldFunc.isDeclaration())
     return;
 
@@ -258,9 +250,10 @@ void llvm::CloneFunctionBodyInto(Function &NewFunc, const Function &OldFunc,
     // Loop over all instructions, fixing each one as we find it, and any
     // attached debug-info records.
     for (Instruction &II : *BB) {
-      RemapInstruction(&II, VMap, RemapFlag, TypeMapper, Materializer);
+      RemapInstruction(&II, VMap, RemapFlag, TypeMapper, Materializer,
+                       IdentityMD);
       RemapDbgRecordRange(II.getModule(), II.getDbgRecordRange(), VMap,
-                          RemapFlag, TypeMapper, Materializer);
+                          RemapFlag, TypeMapper, Materializer, IdentityMD);
     }
 }
 
@@ -322,16 +315,19 @@ void llvm::CloneFunctionInto(Function *NewFunc, const Function *OldFunc,
   DISubprogram *SPClonedWithinModule =
       CollectDebugInfoForCloning(*OldFunc, Changes, DIFinder);
 
-  ModuleLevelChanges =
-      BuildDebugInfoMDMap(VMap.MD(), Changes, DIFinder, SPClonedWithinModule);
+  MetadataSetTy IdentityMD =
+      FindDebugInfoToIdentityMap(Changes, DIFinder, SPClonedWithinModule);
 
-  const auto RemapFlag = ModuleLevelChanges ? RF_None : RF_NoModuleLevelChanges;
+  // Cloning is always a Module level operation, since Metadata needs to be
+  // cloned.
+  const auto RemapFlag = RF_None;
 
   CloneFunctionMetadataInto(*NewFunc, *OldFunc, VMap, RemapFlag, TypeMapper,
-                            Materializer);
+                            Materializer, &IdentityMD);
 
   CloneFunctionBodyInto(*NewFunc, *OldFunc, VMap, RemapFlag, Returns,
-                        NameSuffix, CodeInfo, TypeMapper, Materializer);
+                        NameSuffix, CodeInfo, TypeMapper, Materializer,
+                        &IdentityMD);
 
   // Only update !llvm.dbg.cu for DifferentModule (not CloneModule). In the
   // same module, the compile unit will already be listed (or not). When
@@ -1148,7 +1144,7 @@ BasicBlock *llvm::DuplicateInstructionsInSplitBetween(
   for (; StopAt != &*BI && BB->getTerminator() != &*BI; ++BI) {
     Instruction *New = BI->clone();
     New->setName(BI->getName());
-    New->insertBefore(NewTerm);
+    New->insertBefore(NewTerm->getIterator());
     New->cloneDebugInfoFrom(&*BI);
     ValueMapping[&*BI] = New;
 
diff --git a/llvm/lib/Transforms/Utils/CodeExtractor.cpp b/llvm/lib/Transforms/Utils/CodeExtractor.cpp
index ecc91739a796e..33b3e4aea12d3 100644
--- a/llvm/lib/Transforms/Utils/CodeExtractor.cpp
+++ b/llvm/lib/Transforms/Utils/CodeExtractor.cpp
@@ -1124,9 +1124,9 @@ static void insertLifetimeMarkersSurroundingCall(
           Intrinsic::getOrInsertDeclaration(M, MarkerFunc, Mem->getType());
       auto Marker = CallInst::Create(Func, {NegativeOne, Mem});
       if (InsertBefore)
-        Marker->insertBefore(TheCall);
+        Marker->insertBefore(TheCall->getIterator());
       else
-        Marker->insertBefore(Term);
+        Marker->insertBefore(Term->getIterator());
     }
   };
 
@@ -1441,7 +1441,7 @@ CodeExtractor::extractCodeRegion(const CodeExtractorAnalysisCache &CEAC,
     auto *HoistToBlock = findOrCreateBlockForHoisting(CommonExit);
     Instruction *TI = HoistToBlock->getTerminator();
     for (auto *II : HoistingCands)
-      cast<Instruction>(II)->moveBefore(TI);
+      cast<Instruction>(II)->moveBefore(TI->getIterator());
     computeExtractedFuncRetVals();
   }
 
@@ -1815,7 +1815,7 @@ CallInst *CodeExtractor::emitReplacerCall(
     if (ArgsInZeroAddressSpace && DL.getAllocaAddrSpace() != 0) {
       auto *StructSpaceCast = new AddrSpaceCastInst(
           Struct, PointerType ::get(Context, 0), "structArg.ascast");
-      StructSpaceCast->insertAfter(Struct);
+      StructSpaceCast->insertAfter(Struct->getIterator());
       params.push_back(StructSpaceCast);
     } else {
       params.push_back(Struct);
diff --git a/llvm/lib/Transforms/Utils/CodeMoverUtils.cpp b/llvm/lib/Transforms/Utils/CodeMoverUtils.cpp
index ac106e4aa2a39..f34e9c5818dd6 100644
--- a/llvm/lib/Transforms/Utils/CodeMoverUtils.cpp
+++ b/llvm/lib/Transforms/Utils/CodeMoverUtils.cpp
@@ -442,7 +442,7 @@ void llvm::moveInstructionsToTheEnd(BasicBlock &FromBB, BasicBlock &ToBB,
   while (FromBB.size() > 1) {
     Instruction &I = FromBB.front();
     if (isSafeToMoveBefore(I, *MovePos, DT, &PDT, &DI))
-      I.moveBeforePreserving(MovePos);
+      I.moveBeforePreserving(MovePos->getIterator());
   }
 }
 
diff --git a/llvm/lib/Transforms/Utils/GuardUtils.cpp b/llvm/lib/Transforms/Utils/GuardUtils.cpp
index 7c310f16d46e2..dfcfddaca145f 100644
--- a/llvm/lib/Transforms/Utils/GuardUtils.cpp
+++ b/llvm/lib/Transforms/Utils/GuardUtils.cpp
@@ -100,7 +100,7 @@ void llvm::widenWidenableBranch(BranchInst *WidenableBR, Value *NewCond) {
     C->set(B.CreateAnd(NewCond, C->get()));
     Instruction *WCAnd = cast<Instruction>(WidenableBR->getCondition());
     // Condition is only guaranteed to dominate branch
-    WCAnd->moveBefore(WidenableBR);    
+    WCAnd->moveBefore(WidenableBR->getIterator());
   }
   assert(isWidenableBranch(WidenableBR) && "preserve widenabiliy");
 }
@@ -119,7 +119,7 @@ void llvm::setWidenableBranchCond(BranchInst *WidenableBR, Value *NewCond) {
     // br (wc & C), ... form
     Instruction *WCAnd = cast<Instruction>(WidenableBR->getCondition());
     // Condition is only guaranteed to dominate branch
-    WCAnd->moveBefore(WidenableBR);
+    WCAnd->moveBefore(WidenableBR->getIterator());
     C->set(NewCond);
   }
   assert(isWidenableBranch(WidenableBR) && "preserve widenabiliy");
diff --git a/llvm/lib/Transforms/Utils/Instrumentation.cpp b/llvm/lib/Transforms/Utils/Instrumentation.cpp
index 92e07aefb3e36..3e43b85a11a3c 100644
--- a/llvm/lib/Transforms/Utils/Instrumentation.cpp
+++ b/llvm/lib/Transforms/Utils/Instrumentation.cpp
@@ -48,7 +48,7 @@ static BasicBlock::iterator moveBeforeInsertPoint(BasicBlock::iterator I,
     ++IP;
   } else {
     // Otherwise, move I before IP and return IP.
-    I->moveBefore(&*IP);
+    I->moveBefore(IP);
   }
   return IP;
 }
diff --git a/llvm/lib/Transforms/Utils/Local.cpp b/llvm/lib/Transforms/Utils/Local.cpp
index 2d6f6a3b2316b..94cf1185bc2cb 100644
--- a/llvm/lib/Transforms/Utils/Local.cpp
+++ b/llvm/lib/Transforms/Utils/Local.cpp
@@ -1715,7 +1715,7 @@ static void insertDbgValueOrDbgVariableRecordAfter(
   if (!UseNewDbgInfoFormat) {
     auto DbgVal = Builder.insertDbgValueIntrinsic(DV, DIVar, DIExpr, NewLoc,
                                                   (Instruction *)nullptr);
-    cast<Instruction *>(DbgVal)->insertAfter(&*Instr);
+    cast<Instruction *>(DbgVal)->insertAfter(Instr);
   } else {
     // RemoveDIs: if we're using the new debug-info format, allocate a
     // DbgVariableRecord directly instead of a dbg.value intrinsic.
@@ -2197,7 +2197,7 @@ void llvm::insertDebugValuesForPHIs(BasicBlock *BB,
     auto *NewDbgII = DI.second;
     auto InsertionPt = Parent->getFirstInsertionPt();
     assert(InsertionPt != Parent->end() && "Ill-formed basic block");
-    NewDbgII->insertBefore(&*InsertionPt);
+    NewDbgII->insertBefore(InsertionPt);
   }
 }
 
@@ -2975,7 +2975,7 @@ CallInst *llvm::createCallMatchingInvoke(InvokeInst *II) {
 CallInst *llvm::changeToCall(InvokeInst *II, DomTreeUpdater *DTU) {
   CallInst *NewCall = createCallMatchingInvoke(II);
   NewCall->takeName(II);
-  NewCall->insertBefore(II);
+  NewCall->insertBefore(II->getIterator());
   II->replaceAllUsesWith(NewCall);
 
   // Follow the call by a branch to the normal destination.
@@ -4307,9 +4307,9 @@ Value *llvm::invertCondition(Value *Condition) {
   auto *Inverted =
       BinaryOperator::CreateNot(Condition, Condition->getName() + ".inv");
   if (Inst && !isa<PHINode>(Inst))
-    Inverted->insertAfter(Inst);
+    Inverted->insertAfter(Inst->getIterator());
   else
-    Inverted->insertBefore(&*Parent->getFirstInsertionPt());
+    Inverted->insertBefore(Parent->getFirstInsertionPt());
   return Inverted;
 }
 
diff --git a/llvm/lib/Transforms/Utils/LoopRotationUtils.cpp b/llvm/lib/Transforms/Utils/LoopRotationUtils.cpp
index fffff295ba926..b07f3451420c7 100644
--- a/llvm/lib/Transforms/Utils/LoopRotationUtils.cpp
+++ b/llvm/lib/Transforms/Utils/LoopRotationUtils.cpp
@@ -650,7 +650,7 @@ bool LoopRotate::rotateLoop(Loop *L, bool SimplifiedLatch) {
 
         NextDbgInsts = I->getDbgRecordRange();
 
-        Inst->moveBefore(LoopEntryBranch);
+        Inst->moveBefore(LoopEntryBranch->getIterator());
 
         ++NumInstrsHoisted;
         continue;
@@ -658,7 +658,7 @@ bool LoopRotate::rotateLoop(Loop *L, bool SimplifiedLatch) {
 
       // Otherwise, create a duplicate of the instruction.
       Instruction *C = Inst->clone();
-      C->insertBefore(LoopEntryBranch);
+      C->insertBefore(LoopEntryBranch->getIterator());
 
       ++NumInstrsDuplicated;
 
diff --git a/llvm/lib/Transforms/Utils/PromoteMemoryToRegister.cpp b/llvm/lib/Transforms/Utils/PromoteMemoryToRegister.cpp
index 656bb1ebd1161..016186cb6b09d 100644
--- a/llvm/lib/Transforms/Utils/PromoteMemoryToRegister.cpp
+++ b/llvm/lib/Transforms/Utils/PromoteMemoryToRegister.cpp
@@ -447,9 +447,9 @@ static void addAssumeNonNull(AssumptionCache *AC, LoadInst *LI) {
       Intrinsic::getOrInsertDeclaration(LI->getModule(), Intrinsic::assume);
   ICmpInst *LoadNotNull = new ICmpInst(ICmpInst::ICMP_NE, LI,
                                        Constant::getNullValue(LI->getType()));
-  LoadNotNull->insertAfter(LI);
+  LoadNotNull->insertAfter(LI->getIterator());
   CallInst *CI = CallInst::Create(AssumeIntrinsic, {LoadNotNull});
-  CI->insertAfter(LoadNotNull);
+  CI->insertAfter(LoadNotNull->getIterator());
   AC->registerAssumption(cast<AssumeInst>(CI));
 }
 
diff --git a/llvm/lib/Transforms/Utils/ScalarEvolutionExpander.cpp b/llvm/lib/Transforms/Utils/ScalarEvolutionExpander.cpp
index 0bc752a923407..3a761bc4e8119 100644
--- a/llvm/lib/Transforms/Utils/ScalarEvolutionExpander.cpp
+++ b/llvm/lib/Transforms/Utils/ScalarEvolutionExpander.cpp
@@ -845,7 +845,7 @@ bool SCEVExpander::hoistIVInc(Instruction *IncV, Instruction *InsertPos,
   }
   for (Instruction *I : llvm::reverse(IVIncs)) {
     fixupInsertPoints(I);
-    I->moveBefore(InsertPos);
+    I->moveBefore(InsertPos->getIterator());
     if (RecomputePoisonFlags)
       FixupPoisonFlags(I);
   }
diff --git a/llvm/lib/Transforms/Utils/SimplifyCFG.cpp b/llvm/lib/Transforms/Utils/SimplifyCFG.cpp
index e367b01a09090..cf3c2b360d090 100644
--- a/llvm/lib/Transforms/Utils/SimplifyCFG.cpp
+++ b/llvm/lib/Transforms/Utils/SimplifyCFG.cpp
@@ -2004,11 +2004,11 @@ bool SimplifyCFGOpt::hoistCommonCodeFromSuccessors(Instruction *TI,
         // We've just hoisted DbgVariableRecords; move I1 after them (before TI)
         // and leave any that were not hoisted behind (by calling moveBefore
         // rather than moveBeforePreserving).
-        I1->moveBefore(TI);
+        I1->moveBefore(TI->getIterator());
         for (auto &SuccIter : OtherSuccIterRange) {
           auto *I2 = &*SuccIter++;
           assert(isa<DbgInfoIntrinsic>(I2));
-          I2->moveBefore(TI);
+          I2->moveBefore(TI->getIterator());
         }
       } else {
         // For a normal instruction, we just move one to right before the
@@ -2018,7 +2018,7 @@ bool SimplifyCFGOpt::hoistCommonCodeFromSuccessors(Instruction *TI,
         // We've just hoisted DbgVariableRecords; move I1 after them (before TI)
         // and leave any that were not hoisted behind (by calling moveBefore
         // rather than moveBeforePreserving).
-        I1->moveBefore(TI);
+        I1->moveBefore(TI->getIterator());
         for (auto &SuccIter : OtherSuccIterRange) {
           Instruction *I2 = &*SuccIter++;
           assert(I2 != I1);
diff --git a/llvm/lib/Transforms/Utils/VNCoercion.cpp b/llvm/lib/Transforms/Utils/VNCoercion.cpp
index 1e0ae28051641..7a61ab7416638 100644
--- a/llvm/lib/Transforms/Utils/VNCoercion.cpp
+++ b/llvm/lib/Transforms/Utils/VNCoercion.cpp
@@ -21,6 +21,10 @@ bool canCoerceMustAliasedValueToLoad(Value *StoredVal, Type *LoadTy,
   if (StoredTy == LoadTy)
     return true;
 
+  if (isa<ScalableVectorType>(StoredTy) && isa<ScalableVectorType>(LoadTy) &&
+      DL.getTypeSizeInBits(StoredTy) == DL.getTypeSizeInBits(LoadTy))
+    return true;
+
   // If the loaded/stored value is a first class array/struct, or scalable type,
   // don't try to transform them. We need to be able to bitcast to integer.
   if (isFirstClassAggregateOrScalableType(LoadTy) ||
@@ -83,8 +87,8 @@ Value *coerceAvailableValueToLoadType(Value *StoredVal, Type *LoadedTy,
   // If this is already the right type, just return it.
   Type *StoredValTy = StoredVal->getType();
 
-  uint64_t StoredValSize = DL.getTypeSizeInBits(StoredValTy).getFixedValue();
-  uint64_t LoadedValSize = DL.getTypeSizeInBits(LoadedTy).getFixedValue();
+  TypeSize StoredValSize = DL.getTypeSizeInBits(StoredValTy);
+  TypeSize LoadedValSize = DL.getTypeSizeInBits(LoadedTy);
 
   // If the store and reload are the same size, we can always reuse it.
   if (StoredValSize == LoadedValSize) {
@@ -118,7 +122,8 @@ Value *coerceAvailableValueToLoadType(Value *StoredVal, Type *LoadedTy,
   // If the loaded value is smaller than the available value, then we can
   // extract out a piece from it.  If the available value is too small, then we
   // can't do anything.
-  assert(StoredValSize >= LoadedValSize &&
+  assert(!StoredValSize.isScalable() &&
+         TypeSize::isKnownGE(StoredValSize, LoadedValSize) &&
          "canCoerceMustAliasedValueToLoad fail");
 
   // Convert source pointers to integers, which can be manipulated.
@@ -303,6 +308,13 @@ static Value *getStoreValueForLoadHelper(Value *SrcVal, unsigned Offset,
     return SrcVal;
   }
 
+  // Return scalable values directly to avoid needing to bitcast to integer
+  // types, as we do not support non-zero Offsets.
+  if (isa<ScalableVectorType>(LoadTy)) {
+    assert(Offset == 0 && "Expected a zero offset for scalable types");
+    return SrcVal;
+  }
+
   uint64_t StoreSize =
       (DL.getTypeSizeInBits(SrcVal->getType()).getFixedValue() + 7) / 8;
   uint64_t LoadSize = (DL.getTypeSizeInBits(LoadTy).getFixedValue() + 7) / 8;
@@ -333,11 +345,15 @@ static Value *getStoreValueForLoadHelper(Value *SrcVal, unsigned Offset,
 
 Value *getValueForLoad(Value *SrcVal, unsigned Offset, Type *LoadTy,
                        Instruction *InsertPt, const DataLayout &DL) {
-
 #ifndef NDEBUG
-  unsigned SrcValSize = DL.getTypeStoreSize(SrcVal->getType()).getFixedValue();
-  unsigned LoadSize = DL.getTypeStoreSize(LoadTy).getFixedValue();
-  assert(Offset + LoadSize <= SrcValSize);
+  TypeSize SrcValSize = DL.getTypeStoreSize(SrcVal->getType());
+  TypeSize LoadSize = DL.getTypeStoreSize(LoadTy);
+  assert(SrcValSize.isScalable() == LoadSize.isScalable());
+  assert((SrcValSize.isScalable() || Offset + LoadSize <= SrcValSize) &&
+         "Expected Offset + LoadSize <= SrcValSize");
+  assert(
+      (!SrcValSize.isScalable() || (Offset == 0 && LoadSize == SrcValSize)) &&
+      "Expected scalable type sizes to match");
 #endif
   IRBuilder<> Builder(InsertPt);
   SrcVal = getStoreValueForLoadHelper(SrcVal, Offset, LoadTy, Builder, DL);
diff --git a/llvm/lib/Transforms/Utils/ValueMapper.cpp b/llvm/lib/Transforms/Utils/ValueMapper.cpp
index 0b57c3bc538c6..b8569454379bf 100644
--- a/llvm/lib/Transforms/Utils/ValueMapper.cpp
+++ b/llvm/lib/Transforms/Utils/ValueMapper.cpp
@@ -120,12 +120,14 @@ class Mapper {
   SmallVector<WorklistEntry, 4> Worklist;
   SmallVector<DelayedBasicBlock, 1> DelayedBBs;
   SmallVector<Constant *, 16> AppendingInits;
+  const MetadataSetTy *IdentityMD;
 
 public:
   Mapper(ValueToValueMapTy &VM, RemapFlags Flags,
-         ValueMapTypeRemapper *TypeMapper, ValueMaterializer *Materializer)
+         ValueMapTypeRemapper *TypeMapper, ValueMaterializer *Materializer,
+         const MetadataSetTy *IdentityMD)
       : Flags(Flags), TypeMapper(TypeMapper),
-        MCs(1, MappingContext(VM, Materializer)) {}
+        MCs(1, MappingContext(VM, Materializer)), IdentityMD(IdentityMD) {}
 
   /// ValueMapper should explicitly call \a flush() before destruction.
   ~Mapper() { assert(!hasWorkToDo() && "Expected to be flushed"); }
@@ -899,6 +901,13 @@ std::optional<Metadata *> Mapper::mapSimpleMetadata(const Metadata *MD) {
     return wrapConstantAsMetadata(*CMD, mapValue(CMD->getValue()));
   }
 
+  // Map metadata from IdentityMD on first use. We need to add these nodes to
+  // the mapping as otherwise metadata nodes numbering gets messed up. This is
+  // still economical because the amount of data in IdentityMD may be a lot
+  // larger than what will actually get used.
+  if (IdentityMD && IdentityMD->contains(MD))
+    return getVM().MD()[MD] = TrackingMDRef(const_cast<Metadata *>(MD));
+
   assert(isa<MDNode>(MD) && "Expected a metadata node");
 
   return std::nullopt;
@@ -1198,8 +1207,9 @@ class FlushingMapper {
 
 ValueMapper::ValueMapper(ValueToValueMapTy &VM, RemapFlags Flags,
                          ValueMapTypeRemapper *TypeMapper,
-                         ValueMaterializer *Materializer)
-    : pImpl(new Mapper(VM, Flags, TypeMapper, Materializer)) {}
+                         ValueMaterializer *Materializer,
+                         const MetadataSetTy *IdentityMD)
+    : pImpl(new Mapper(VM, Flags, TypeMapper, Materializer, IdentityMD)) {}
 
 ValueMapper::~ValueMapper() { delete getAsMapper(pImpl); }
 
diff --git a/llvm/lib/Transforms/Vectorize/LoadStoreVectorizer.cpp b/llvm/lib/Transforms/Vectorize/LoadStoreVectorizer.cpp
index 9e815731cf8ca..0b40b733ffe7e 100644
--- a/llvm/lib/Transforms/Vectorize/LoadStoreVectorizer.cpp
+++ b/llvm/lib/Transforms/Vectorize/LoadStoreVectorizer.cpp
@@ -232,7 +232,7 @@ void reorder(Instruction *I) {
     Instruction *IM = &*(BBI++);
     if (!InstructionsToMove.contains(IM))
       continue;
-    IM->moveBefore(I);
+    IM->moveBefore(I->getIterator());
   }
 }
 
diff --git a/llvm/lib/Transforms/Vectorize/LoopVectorize.cpp b/llvm/lib/Transforms/Vectorize/LoopVectorize.cpp
index 7167e2179af53..e4e87704c1c97 100644
--- a/llvm/lib/Transforms/Vectorize/LoopVectorize.cpp
+++ b/llvm/lib/Transforms/Vectorize/LoopVectorize.cpp
@@ -1914,12 +1914,14 @@ class GeneratedRTChecks {
       MemCheckBlock->replaceAllUsesWith(Preheader);
 
     if (SCEVCheckBlock) {
-      SCEVCheckBlock->getTerminator()->moveBefore(Preheader->getTerminator());
+      SCEVCheckBlock->getTerminator()->moveBefore(
+          Preheader->getTerminator()->getIterator());
       new UnreachableInst(Preheader->getContext(), SCEVCheckBlock);
       Preheader->getTerminator()->eraseFromParent();
     }
     if (MemCheckBlock) {
-      MemCheckBlock->getTerminator()->moveBefore(Preheader->getTerminator());
+      MemCheckBlock->getTerminator()->moveBefore(
+          Preheader->getTerminator()->getIterator());
       new UnreachableInst(Preheader->getContext(), MemCheckBlock);
       Preheader->getTerminator()->eraseFromParent();
     }
@@ -2998,7 +3000,7 @@ void InnerLoopVectorizer::sinkScalarOperands(Instruction *PredInst) {
 
       // Move the instruction to the beginning of the predicated block, and add
       // it's operands to the worklist.
-      I->moveBefore(&*PredBB->getFirstInsertionPt());
+      I->moveBefore(PredBB->getFirstInsertionPt());
       Worklist.insert(I->op_begin(), I->op_end());
 
       // The sinking may have enabled other instructions to be sunk, so we will
diff --git a/llvm/lib/Transforms/Vectorize/SLPVectorizer.cpp b/llvm/lib/Transforms/Vectorize/SLPVectorizer.cpp
index fc6bba6d2b8b3..040c57703b7c6 100644
--- a/llvm/lib/Transforms/Vectorize/SLPVectorizer.cpp
+++ b/llvm/lib/Transforms/Vectorize/SLPVectorizer.cpp
@@ -3986,6 +3986,8 @@ class BoUpSLP {
       }
     }
 
+    LLVM_DUMP_METHOD void dump() const { dump(dbgs()); }
+
     Instruction *Inst = nullptr;
 
     /// The TreeEntry that this instruction corresponds to.
@@ -4142,8 +4144,9 @@ class BoUpSLP {
         // through the TreeEntry.
         if (TreeEntry *TE = BundleMember->TE) {
           // Need to search for the lane since the tree entry can be reordered.
+          auto *In = BundleMember->Inst;
           int Lane = std::distance(TE->Scalars.begin(),
-                                   find(TE->Scalars, BundleMember->Inst));
+                                   find(TE->Scalars, In));
           assert(Lane >= 0 && "Lane not set");
 
           // Since vectorization tree is being built recursively this assertion
@@ -4152,16 +4155,13 @@ class BoUpSLP {
           // where their second (immediate) operand is not added. Since
           // immediates do not affect scheduler behavior this is considered
           // okay.
-          auto *In = BundleMember->Inst;
           assert(
               In &&
               (isa<ExtractValueInst, ExtractElementInst, IntrinsicInst>(In) ||
                In->getNumOperands() == TE->getNumOperands()) &&
               "Missed TreeEntry operands?");
-          (void)In; // fake use to avoid build failure when assertions disabled
 
-          for (unsigned OpIdx = 0, NumOperands = TE->getNumOperands();
-               OpIdx != NumOperands; ++OpIdx)
+          for (unsigned OpIdx : seq<unsigned>(TE->getNumOperands()))
             if (auto *I = dyn_cast<Instruction>(TE->getOperand(OpIdx)[Lane]))
               DecrUnsched(I);
         } else {
@@ -4516,7 +4516,7 @@ BoUpSLP::~BoUpSLP() {
         I->insertBefore(F->getEntryBlock(),
                         F->getEntryBlock().getFirstNonPHIIt());
       else
-        I->insertBefore(F->getEntryBlock().getTerminator());
+        I->insertBefore(F->getEntryBlock().getTerminator()->getIterator());
       continue;
     }
     for (Use &U : I->operands()) {
@@ -9093,7 +9093,7 @@ static bool isAlternateInstruction(const Instruction *I,
   if (auto *MainCI = dyn_cast<CmpInst>(MainOp)) {
     auto *AltCI = cast<CmpInst>(AltOp);
     CmpInst::Predicate MainP = MainCI->getPredicate();
-    CmpInst::Predicate AltP = AltCI->getPredicate();
+    [[maybe_unused]] CmpInst::Predicate AltP = AltCI->getPredicate();
     assert(MainP != AltP && "Expected different main/alternate predicates.");
     auto *CI = cast<CmpInst>(I);
     if (isCmpSameOrSwapped(MainCI, CI, TLI))
@@ -9106,7 +9106,6 @@ static bool isAlternateInstruction(const Instruction *I,
     assert((MainP == P || AltP == P || MainP == SwappedP || AltP == SwappedP) &&
            "CmpInst expected to match either main or alternate predicate or "
            "their swap.");
-    (void)AltP;
     return MainP != P && MainP != SwappedP;
   }
   return I->getOpcode() == AltOp->getOpcode();
@@ -12256,18 +12255,12 @@ InstructionCost BoUpSLP::getSpillCost() const {
         if (auto *II = dyn_cast<IntrinsicInst>(I)) {
           if (II->isAssumeLikeIntrinsic())
             return true;
-          FastMathFlags FMF;
-          SmallVector<Type *, 4> Tys;
-          for (auto &ArgOp : II->args())
-            Tys.push_back(ArgOp->getType());
-          if (auto *FPMO = dyn_cast<FPMathOperator>(II))
-            FMF = FPMO->getFastMathFlags();
-          IntrinsicCostAttributes ICA(II->getIntrinsicID(), II->getType(), Tys,
-                                      FMF);
+          IntrinsicCostAttributes ICA(II->getIntrinsicID(), *II);
           InstructionCost IntrCost =
               TTI->getIntrinsicInstrCost(ICA, TTI::TCK_RecipThroughput);
-          InstructionCost CallCost = TTI->getCallInstrCost(
-              nullptr, II->getType(), Tys, TTI::TCK_RecipThroughput);
+          InstructionCost CallCost =
+              TTI->getCallInstrCost(nullptr, II->getType(), ICA.getArgTypes(),
+                                    TTI::TCK_RecipThroughput);
           if (IntrCost < CallCost)
             return true;
         }
@@ -12379,8 +12372,7 @@ static T *performExtractsShuffleAction(
       else
         Mask[Idx] = (Res.second ? Idx : Mask[Idx]) + VF;
     }
-    auto *V = ValueSelect::get<T *>(Base);
-    (void)V;
+    [[maybe_unused]] auto *V = ValueSelect::get<T *>(Base);
     assert((!V || GetVF(V) == Mask.size()) &&
            "Expected base vector of VF number of elements.");
     Prev = Action(Mask, {nullptr, Res.first});
@@ -12431,8 +12423,7 @@ static T *performExtractsShuffleAction(
     }
     VMIt = std::next(VMIt);
   }
-  bool IsBaseNotUndef = !IsBaseUndef.all();
-  (void)IsBaseNotUndef;
+  [[maybe_unused]] bool IsBaseNotUndef = !IsBaseUndef.all();
   // Perform requested actions for the remaining masks/vectors.
   for (auto E = ShuffleMask.end(); VMIt != E; ++VMIt) {
     // Shuffle other input vectors, if any.
@@ -16543,7 +16534,7 @@ BoUpSLP::vectorizeTree(const ExtraValueToDebugLocsMap &ExternallyUsedValues,
               Ex = EE;
             } else {
               auto *CloneInst = Inst->clone();
-              CloneInst->insertBefore(Inst);
+              CloneInst->insertBefore(Inst->getIterator());
               if (Inst->hasName())
                 CloneInst->takeName(Inst);
               Ex = CloneInst;
@@ -17000,7 +16991,7 @@ void BoUpSLP::optimizeGatherSequence() {
       continue;
 
     // We can hoist this instruction. Move it to the pre-header.
-    I->moveBefore(PreHeader->getTerminator());
+    I->moveBefore(PreHeader->getTerminator()->getIterator());
     CSEBlocks.insert(PreHeader);
   }
 
@@ -17626,8 +17617,7 @@ void BoUpSLP::scheduleBlock(BlockScheduling *BS) {
   for (auto *I = BS->ScheduleStart; I != BS->ScheduleEnd;
        I = I->getNextNode()) {
     if (ScheduleData *SD = BS->getScheduleData(I)) {
-      TreeEntry *SDTE = getTreeEntry(SD->Inst);
-      (void)SDTE;
+      [[maybe_unused]] TreeEntry *SDTE = getTreeEntry(SD->Inst);
       assert((isVectorLikeInstWithConstOps(SD->Inst) ||
               SD->isPartOfBundle() ==
                   (SDTE && !doesNotNeedToSchedule(SDTE->Scalars))) &&
diff --git a/llvm/lib/Transforms/Vectorize/SandboxVectorizer/DependencyGraph.cpp b/llvm/lib/Transforms/Vectorize/SandboxVectorizer/DependencyGraph.cpp
index d65a04c0df6ee..f080111f08d45 100644
--- a/llvm/lib/Transforms/Vectorize/SandboxVectorizer/DependencyGraph.cpp
+++ b/llvm/lib/Transforms/Vectorize/SandboxVectorizer/DependencyGraph.cpp
@@ -232,6 +232,9 @@ void DependencyGraph::setDefUseUnscheduledSuccs(
       auto *OpI = dyn_cast<Instruction>(Op);
       if (OpI == nullptr)
         continue;
+      // TODO: For now don't cross BBs.
+      if (OpI->getParent() != I.getParent())
+        continue;
       if (!NewInterval.contains(OpI))
         continue;
       auto *OpN = getNode(OpI);
diff --git a/llvm/lib/Transforms/Vectorize/SandboxVectorizer/Passes/BottomUpVec.cpp b/llvm/lib/Transforms/Vectorize/SandboxVectorizer/Passes/BottomUpVec.cpp
index 18c3b375c92a2..7cebde335cb4e 100644
--- a/llvm/lib/Transforms/Vectorize/SandboxVectorizer/Passes/BottomUpVec.cpp
+++ b/llvm/lib/Transforms/Vectorize/SandboxVectorizer/Passes/BottomUpVec.cpp
@@ -47,11 +47,13 @@ static SmallVector<Value *, 4> getOperand(ArrayRef<Value *> Bndl,
 /// of BB if no instruction found in \p Vals.
 static BasicBlock::iterator getInsertPointAfterInstrs(ArrayRef<Value *> Vals,
                                                       BasicBlock *BB) {
-  auto *BotI = VecUtils::getLowest(Vals);
+  auto *BotI = VecUtils::getLastPHIOrSelf(VecUtils::getLowest(Vals));
   if (BotI == nullptr)
-    // We are using BB->begin() as the fallback insert point if `ToPack` did
-    // not contain instructions.
-    return BB->begin();
+    // We are using BB->begin() (or after PHIs) as the fallback insert point.
+    return BB->empty()
+               ? BB->begin()
+               : std::next(
+                     VecUtils::getLastPHIOrSelf(&*BB->begin())->getIterator());
   return std::next(BotI->getIterator());
 }
 
@@ -169,14 +171,19 @@ Value *BottomUpVec::createVectorInstr(ArrayRef<Value *> Bndl,
 }
 
 void BottomUpVec::tryEraseDeadInstrs() {
-  // Visiting the dead instructions bottom-to-top.
-  SmallVector<Instruction *> SortedDeadInstrCandidates(
-      DeadInstrCandidates.begin(), DeadInstrCandidates.end());
-  sort(SortedDeadInstrCandidates,
-       [](Instruction *I1, Instruction *I2) { return I1->comesBefore(I2); });
-  for (Instruction *I : reverse(SortedDeadInstrCandidates)) {
-    if (I->hasNUses(0))
-      I->eraseFromParent();
+  DenseMap<BasicBlock *, SmallVector<Instruction *>> SortedDeadInstrCandidates;
+  // The dead instrs could span BBs, so we need to collect and sort them per BB.
+  for (auto *DeadI : DeadInstrCandidates)
+    SortedDeadInstrCandidates[DeadI->getParent()].push_back(DeadI);
+  for (auto &Pair : SortedDeadInstrCandidates)
+    sort(Pair.second,
+         [](Instruction *I1, Instruction *I2) { return I1->comesBefore(I2); });
+  for (const auto &Pair : SortedDeadInstrCandidates) {
+    for (Instruction *I : reverse(Pair.second)) {
+      if (I->hasNUses(0))
+        // Erase the dead instructions bottom-to-top.
+        I->eraseFromParent();
+    }
   }
   DeadInstrCandidates.clear();
 }
diff --git a/llvm/lib/Transforms/Vectorize/SandboxVectorizer/Scheduler.cpp b/llvm/lib/Transforms/Vectorize/SandboxVectorizer/Scheduler.cpp
index f9cdbe8aea170..496521b95a98e 100644
--- a/llvm/lib/Transforms/Vectorize/SandboxVectorizer/Scheduler.cpp
+++ b/llvm/lib/Transforms/Vectorize/SandboxVectorizer/Scheduler.cpp
@@ -206,6 +206,13 @@ bool Scheduler::trySchedule(ArrayRef<Instruction *> Instrs) {
     // We start scheduling at the bottom instr of Instrs.
     ScheduleTopItOpt = std::next(VecUtils::getLowest(Instrs)->getIterator());
 
+    // TODO: For now don't cross BBs.
+    if (!DAG.getInterval().empty()) {
+      auto *BB = DAG.getInterval().top()->getParent();
+      if (any_of(Instrs, [BB](auto *I) { return I->getParent() != BB; }))
+        return false;
+    }
+
     // Extend the DAG to include Instrs.
     Interval<Instruction> Extension = DAG.extend(Instrs);
     // Add nodes to ready list.
diff --git a/llvm/lib/Transforms/Vectorize/VPlan.cpp b/llvm/lib/Transforms/Vectorize/VPlan.cpp
index f1228368804be..9d973d200662d 100644
--- a/llvm/lib/Transforms/Vectorize/VPlan.cpp
+++ b/llvm/lib/Transforms/Vectorize/VPlan.cpp
@@ -975,7 +975,7 @@ void VPlan::execute(VPTransformState *State) {
   BasicBlock *MiddleBB = State->CFG.ExitBB;
   BasicBlock *ScalarPh = MiddleBB->getSingleSuccessor();
   auto *BrInst = new UnreachableInst(MiddleBB->getContext());
-  BrInst->insertBefore(MiddleBB->getTerminator());
+  BrInst->insertBefore(MiddleBB->getTerminator()->getIterator());
   MiddleBB->getTerminator()->eraseFromParent();
   State->CFG.DTU.applyUpdates({{DominatorTree::Delete, MiddleBB, ScalarPh}});
   // Disconnect scalar preheader and scalar header, as the dominator tree edge
diff --git a/llvm/lib/Transforms/Vectorize/VPlan.h b/llvm/lib/Transforms/Vectorize/VPlan.h
index db45ad8aadbbe..9124905c99717 100644
--- a/llvm/lib/Transforms/Vectorize/VPlan.h
+++ b/llvm/lib/Transforms/Vectorize/VPlan.h
@@ -223,12 +223,6 @@ class VPLane {
       return Lane;
     }
   }
-
-  /// Returns the maxmimum number of lanes that we are able to consider
-  /// caching for \p VF.
-  static unsigned getNumCachedLanes(const ElementCount &VF) {
-    return VF.getKnownMinValue() * (VF.isScalable() ? 2 : 1);
-  }
 };
 
 /// VPTransformState holds information passed down when "executing" a VPlan,
@@ -2310,9 +2304,10 @@ class VPWidenPHIRecipe : public VPSingleDefRecipe {
   SmallVector<VPBasicBlock *, 2> IncomingBlocks;
 
 public:
-  /// Create a new VPWidenPHIRecipe for \p Phi with start value \p Start.
-  VPWidenPHIRecipe(PHINode *Phi, VPValue *Start = nullptr)
-      : VPSingleDefRecipe(VPDef::VPWidenPHISC, ArrayRef<VPValue *>(), Phi) {
+  /// Create a new VPWidenPHIRecipe for \p Phi with start value \p Start and
+  /// debug location \p DL.
+  VPWidenPHIRecipe(PHINode *Phi, VPValue *Start = nullptr, DebugLoc DL = {})
+      : VPSingleDefRecipe(VPDef::VPWidenPHISC, ArrayRef<VPValue *>(), Phi, DL) {
     if (Start)
       addOperand(Start);
   }
@@ -2467,7 +2462,8 @@ class VPPartialReductionRecipe : public VPSingleDefRecipe {
   ~VPPartialReductionRecipe() override = default;
 
   VPPartialReductionRecipe *clone() override {
-    return new VPPartialReductionRecipe(Opcode, getOperand(0), getOperand(1));
+    return new VPPartialReductionRecipe(Opcode, getOperand(0), getOperand(1),
+                                        getUnderlyingInstr());
   }
 
   VP_CLASSOF_IMPL(VPDef::VPPartialReductionSC)
@@ -4202,150 +4198,6 @@ inline raw_ostream &operator<<(raw_ostream &OS, const VPlan &Plan) {
 }
 #endif
 
-//===----------------------------------------------------------------------===//
-// VPlan Utilities
-//===----------------------------------------------------------------------===//
-
-/// Class that provides utilities for VPBlockBases in VPlan.
-class VPBlockUtils {
-public:
-  VPBlockUtils() = delete;
-
-  /// Insert disconnected VPBlockBase \p NewBlock after \p BlockPtr. Add \p
-  /// NewBlock as successor of \p BlockPtr and \p BlockPtr as predecessor of \p
-  /// NewBlock, and propagate \p BlockPtr parent to \p NewBlock. \p BlockPtr's
-  /// successors are moved from \p BlockPtr to \p NewBlock. \p NewBlock must
-  /// have neither successors nor predecessors.
-  static void insertBlockAfter(VPBlockBase *NewBlock, VPBlockBase *BlockPtr) {
-    assert(NewBlock->getSuccessors().empty() &&
-           NewBlock->getPredecessors().empty() &&
-           "Can't insert new block with predecessors or successors.");
-    NewBlock->setParent(BlockPtr->getParent());
-    SmallVector<VPBlockBase *> Succs(BlockPtr->successors());
-    for (VPBlockBase *Succ : Succs) {
-      disconnectBlocks(BlockPtr, Succ);
-      connectBlocks(NewBlock, Succ);
-    }
-    connectBlocks(BlockPtr, NewBlock);
-  }
-
-  /// Insert disconnected block \p NewBlock before \p Blockptr. First
-  /// disconnects all predecessors of \p BlockPtr and connects them to \p
-  /// NewBlock. Add \p NewBlock as predecessor of \p BlockPtr and \p BlockPtr as
-  /// successor of \p NewBlock.
-  static void insertBlockBefore(VPBlockBase *NewBlock, VPBlockBase *BlockPtr) {
-    assert(NewBlock->getSuccessors().empty() &&
-           NewBlock->getPredecessors().empty() &&
-           "Can't insert new block with predecessors or successors.");
-    NewBlock->setParent(BlockPtr->getParent());
-    for (VPBlockBase *Pred : to_vector(BlockPtr->predecessors())) {
-      disconnectBlocks(Pred, BlockPtr);
-      connectBlocks(Pred, NewBlock);
-    }
-    connectBlocks(NewBlock, BlockPtr);
-  }
-
-  /// Insert disconnected VPBlockBases \p IfTrue and \p IfFalse after \p
-  /// BlockPtr. Add \p IfTrue and \p IfFalse as succesors of \p BlockPtr and \p
-  /// BlockPtr as predecessor of \p IfTrue and \p IfFalse. Propagate \p BlockPtr
-  /// parent to \p IfTrue and \p IfFalse. \p BlockPtr must have no successors
-  /// and \p IfTrue and \p IfFalse must have neither successors nor
-  /// predecessors.
-  static void insertTwoBlocksAfter(VPBlockBase *IfTrue, VPBlockBase *IfFalse,
-                                   VPBlockBase *BlockPtr) {
-    assert(IfTrue->getSuccessors().empty() &&
-           "Can't insert IfTrue with successors.");
-    assert(IfFalse->getSuccessors().empty() &&
-           "Can't insert IfFalse with successors.");
-    BlockPtr->setTwoSuccessors(IfTrue, IfFalse);
-    IfTrue->setPredecessors({BlockPtr});
-    IfFalse->setPredecessors({BlockPtr});
-    IfTrue->setParent(BlockPtr->getParent());
-    IfFalse->setParent(BlockPtr->getParent());
-  }
-
-  /// Connect VPBlockBases \p From and \p To bi-directionally. If \p PredIdx is
-  /// -1, append \p From to the predecessors of \p To, otherwise set \p To's
-  /// predecessor at \p PredIdx to \p From. If \p SuccIdx is -1, append \p To to
-  /// the successors of \p From, otherwise set \p From's successor at \p SuccIdx
-  /// to \p To. Both VPBlockBases must have the same parent, which can be null.
-  /// Both VPBlockBases can be already connected to other VPBlockBases.
-  static void connectBlocks(VPBlockBase *From, VPBlockBase *To,
-                            unsigned PredIdx = -1u, unsigned SuccIdx = -1u) {
-    assert((From->getParent() == To->getParent()) &&
-           "Can't connect two block with different parents");
-    assert((SuccIdx != -1u || From->getNumSuccessors() < 2) &&
-           "Blocks can't have more than two successors.");
-    if (SuccIdx == -1u)
-      From->appendSuccessor(To);
-    else
-      From->getSuccessors()[SuccIdx] = To;
-
-    if (PredIdx == -1u)
-      To->appendPredecessor(From);
-    else
-      To->getPredecessors()[PredIdx] = From;
-  }
-
-  /// Disconnect VPBlockBases \p From and \p To bi-directionally. Remove \p To
-  /// from the successors of \p From and \p From from the predecessors of \p To.
-  static void disconnectBlocks(VPBlockBase *From, VPBlockBase *To) {
-    assert(To && "Successor to disconnect is null.");
-    From->removeSuccessor(To);
-    To->removePredecessor(From);
-  }
-
-  /// Reassociate all the blocks connected to \p Old so that they now point to
-  /// \p New.
-  static void reassociateBlocks(VPBlockBase *Old, VPBlockBase *New) {
-    for (auto *Pred : to_vector(Old->getPredecessors()))
-      Pred->replaceSuccessor(Old, New);
-    for (auto *Succ : to_vector(Old->getSuccessors()))
-      Succ->replacePredecessor(Old, New);
-    New->setPredecessors(Old->getPredecessors());
-    New->setSuccessors(Old->getSuccessors());
-    Old->clearPredecessors();
-    Old->clearSuccessors();
-  }
-
-  /// Return an iterator range over \p Range which only includes \p BlockTy
-  /// blocks. The accesses are casted to \p BlockTy.
-  template <typename BlockTy, typename T>
-  static auto blocksOnly(const T &Range) {
-    // Create BaseTy with correct const-ness based on BlockTy.
-    using BaseTy = std::conditional_t<std::is_const<BlockTy>::value,
-                                      const VPBlockBase, VPBlockBase>;
-
-    // We need to first create an iterator range over (const) BlocktTy & instead
-    // of (const) BlockTy * for filter_range to work properly.
-    auto Mapped =
-        map_range(Range, [](BaseTy *Block) -> BaseTy & { return *Block; });
-    auto Filter = make_filter_range(
-        Mapped, [](BaseTy &Block) { return isa<BlockTy>(&Block); });
-    return map_range(Filter, [](BaseTy &Block) -> BlockTy * {
-      return cast<BlockTy>(&Block);
-    });
-  }
-
-  /// Inserts \p BlockPtr on the edge between \p From and \p To. That is, update
-  /// \p From's successor to \p To to point to \p BlockPtr and \p To's
-  /// predecessor from \p From to \p BlockPtr. \p From and \p To are added to \p
-  /// BlockPtr's predecessors and successors respectively. There must be a
-  /// single edge between \p From and \p To.
-  static void insertOnEdge(VPBlockBase *From, VPBlockBase *To,
-                           VPBlockBase *BlockPtr) {
-    auto &Successors = From->getSuccessors();
-    auto &Predecessors = To->getPredecessors();
-    assert(count(Successors, To) == 1 && count(Predecessors, From) == 1 &&
-           "must have single between From and To");
-    unsigned SuccIdx = std::distance(Successors.begin(), find(Successors, To));
-    unsigned PredIx =
-        std::distance(Predecessors.begin(), find(Predecessors, From));
-    VPBlockUtils::connectBlocks(From, BlockPtr, -1, SuccIdx);
-    VPBlockUtils::connectBlocks(BlockPtr, To, PredIx, -1);
-  }
-};
-
 class VPInterleavedAccessInfo {
   DenseMap<VPInstruction *, InterleaveGroup<VPInstruction> *>
       InterleaveGroupMap;
diff --git a/llvm/lib/Transforms/Vectorize/VPlanCFG.h b/llvm/lib/Transforms/Vectorize/VPlanCFG.h
index 6ca388a953a6f..8fbdacd1ea771 100644
--- a/llvm/lib/Transforms/Vectorize/VPlanCFG.h
+++ b/llvm/lib/Transforms/Vectorize/VPlanCFG.h
@@ -13,6 +13,7 @@
 #define LLVM_TRANSFORMS_VECTORIZE_VPLANCFG_H
 
 #include "VPlan.h"
+#include "VPlanUtils.h"
 #include "llvm/ADT/DepthFirstIterator.h"
 #include "llvm/ADT/GraphTraits.h"
 #include "llvm/ADT/SmallVector.h"
diff --git a/llvm/lib/Transforms/Vectorize/VPlanHCFGBuilder.cpp b/llvm/lib/Transforms/Vectorize/VPlanHCFGBuilder.cpp
index 76ed578424dfe..0f3aa8d08e7b8 100644
--- a/llvm/lib/Transforms/Vectorize/VPlanHCFGBuilder.cpp
+++ b/llvm/lib/Transforms/Vectorize/VPlanHCFGBuilder.cpp
@@ -308,7 +308,7 @@ void PlainCFGBuilder::createVPInstructionsForVPBB(VPBasicBlock *VPBB,
       // Phi node's operands may have not been visited at this point. We create
       // an empty VPInstruction that we will fix once the whole plain CFG has
       // been built.
-      NewVPV = new VPWidenPHIRecipe(Phi);
+      NewVPV = new VPWidenPHIRecipe(Phi, nullptr, Phi->getDebugLoc());
       VPBB->appendRecipe(cast<VPWidenPHIRecipe>(NewVPV));
       PhisToFix.push_back(Phi);
     } else {
diff --git a/llvm/lib/Transforms/Vectorize/VPlanRecipes.cpp b/llvm/lib/Transforms/Vectorize/VPlanRecipes.cpp
index 7b5d0d70933fd..aa30eccdbd734 100644
--- a/llvm/lib/Transforms/Vectorize/VPlanRecipes.cpp
+++ b/llvm/lib/Transforms/Vectorize/VPlanRecipes.cpp
@@ -3514,6 +3514,7 @@ void VPWidenPHIRecipe::execute(VPTransformState &State) {
   assert(EnableVPlanNativePath &&
          "Non-native vplans are not expected to have VPWidenPHIRecipes.");
 
+  State.setDebugLocFrom(getDebugLoc());
   Value *Op0 = State.get(getOperand(0));
   Type *VecTy = Op0->getType();
   Value *VecPhi = State.Builder.CreatePHI(VecTy, 2, "vec.phi");
diff --git a/llvm/lib/Transforms/Vectorize/VPlanUtils.h b/llvm/lib/Transforms/Vectorize/VPlanUtils.h
index b88a1b1429975..6ddb88308955f 100644
--- a/llvm/lib/Transforms/Vectorize/VPlanUtils.h
+++ b/llvm/lib/Transforms/Vectorize/VPlanUtils.h
@@ -16,7 +16,9 @@ class ScalarEvolution;
 class SCEV;
 } // namespace llvm
 
-namespace llvm::vputils {
+namespace llvm {
+
+namespace vputils {
 /// Returns true if only the first lane of \p Def is used.
 bool onlyFirstLaneUsed(const VPValue *Def);
 
@@ -67,6 +69,152 @@ bool isHeaderMask(const VPValue *V, VPlan &Plan);
 /// VPDerivedIV or VPCanonicalIVPHI).
 bool isUniformAcrossVFsAndUFs(VPValue *V);
 
-} // end namespace llvm::vputils
+} // namespace vputils
+
+//===----------------------------------------------------------------------===//
+// Utilities for modifying predecessors and successors of VPlan blocks.
+//===----------------------------------------------------------------------===//
+
+/// Class that provides utilities for VPBlockBases in VPlan.
+class VPBlockUtils {
+public:
+  VPBlockUtils() = delete;
+
+  /// Insert disconnected VPBlockBase \p NewBlock after \p BlockPtr. Add \p
+  /// NewBlock as successor of \p BlockPtr and \p BlockPtr as predecessor of \p
+  /// NewBlock, and propagate \p BlockPtr parent to \p NewBlock. \p BlockPtr's
+  /// successors are moved from \p BlockPtr to \p NewBlock. \p NewBlock must
+  /// have neither successors nor predecessors.
+  static void insertBlockAfter(VPBlockBase *NewBlock, VPBlockBase *BlockPtr) {
+    assert(NewBlock->getSuccessors().empty() &&
+           NewBlock->getPredecessors().empty() &&
+           "Can't insert new block with predecessors or successors.");
+    NewBlock->setParent(BlockPtr->getParent());
+    SmallVector<VPBlockBase *> Succs(BlockPtr->successors());
+    for (VPBlockBase *Succ : Succs) {
+      disconnectBlocks(BlockPtr, Succ);
+      connectBlocks(NewBlock, Succ);
+    }
+    connectBlocks(BlockPtr, NewBlock);
+  }
+
+  /// Insert disconnected block \p NewBlock before \p Blockptr. First
+  /// disconnects all predecessors of \p BlockPtr and connects them to \p
+  /// NewBlock. Add \p NewBlock as predecessor of \p BlockPtr and \p BlockPtr as
+  /// successor of \p NewBlock.
+  static void insertBlockBefore(VPBlockBase *NewBlock, VPBlockBase *BlockPtr) {
+    assert(NewBlock->getSuccessors().empty() &&
+           NewBlock->getPredecessors().empty() &&
+           "Can't insert new block with predecessors or successors.");
+    NewBlock->setParent(BlockPtr->getParent());
+    for (VPBlockBase *Pred : to_vector(BlockPtr->predecessors())) {
+      disconnectBlocks(Pred, BlockPtr);
+      connectBlocks(Pred, NewBlock);
+    }
+    connectBlocks(NewBlock, BlockPtr);
+  }
+
+  /// Insert disconnected VPBlockBases \p IfTrue and \p IfFalse after \p
+  /// BlockPtr. Add \p IfTrue and \p IfFalse as succesors of \p BlockPtr and \p
+  /// BlockPtr as predecessor of \p IfTrue and \p IfFalse. Propagate \p BlockPtr
+  /// parent to \p IfTrue and \p IfFalse. \p BlockPtr must have no successors
+  /// and \p IfTrue and \p IfFalse must have neither successors nor
+  /// predecessors.
+  static void insertTwoBlocksAfter(VPBlockBase *IfTrue, VPBlockBase *IfFalse,
+                                   VPBlockBase *BlockPtr) {
+    assert(IfTrue->getSuccessors().empty() &&
+           "Can't insert IfTrue with successors.");
+    assert(IfFalse->getSuccessors().empty() &&
+           "Can't insert IfFalse with successors.");
+    BlockPtr->setTwoSuccessors(IfTrue, IfFalse);
+    IfTrue->setPredecessors({BlockPtr});
+    IfFalse->setPredecessors({BlockPtr});
+    IfTrue->setParent(BlockPtr->getParent());
+    IfFalse->setParent(BlockPtr->getParent());
+  }
+
+  /// Connect VPBlockBases \p From and \p To bi-directionally. If \p PredIdx is
+  /// -1, append \p From to the predecessors of \p To, otherwise set \p To's
+  /// predecessor at \p PredIdx to \p From. If \p SuccIdx is -1, append \p To to
+  /// the successors of \p From, otherwise set \p From's successor at \p SuccIdx
+  /// to \p To. Both VPBlockBases must have the same parent, which can be null.
+  /// Both VPBlockBases can be already connected to other VPBlockBases.
+  static void connectBlocks(VPBlockBase *From, VPBlockBase *To,
+                            unsigned PredIdx = -1u, unsigned SuccIdx = -1u) {
+    assert((From->getParent() == To->getParent()) &&
+           "Can't connect two block with different parents");
+    assert((SuccIdx != -1u || From->getNumSuccessors() < 2) &&
+           "Blocks can't have more than two successors.");
+    if (SuccIdx == -1u)
+      From->appendSuccessor(To);
+    else
+      From->getSuccessors()[SuccIdx] = To;
+
+    if (PredIdx == -1u)
+      To->appendPredecessor(From);
+    else
+      To->getPredecessors()[PredIdx] = From;
+  }
+
+  /// Disconnect VPBlockBases \p From and \p To bi-directionally. Remove \p To
+  /// from the successors of \p From and \p From from the predecessors of \p To.
+  static void disconnectBlocks(VPBlockBase *From, VPBlockBase *To) {
+    assert(To && "Successor to disconnect is null.");
+    From->removeSuccessor(To);
+    To->removePredecessor(From);
+  }
+
+  /// Reassociate all the blocks connected to \p Old so that they now point to
+  /// \p New.
+  static void reassociateBlocks(VPBlockBase *Old, VPBlockBase *New) {
+    for (auto *Pred : to_vector(Old->getPredecessors()))
+      Pred->replaceSuccessor(Old, New);
+    for (auto *Succ : to_vector(Old->getSuccessors()))
+      Succ->replacePredecessor(Old, New);
+    New->setPredecessors(Old->getPredecessors());
+    New->setSuccessors(Old->getSuccessors());
+    Old->clearPredecessors();
+    Old->clearSuccessors();
+  }
+
+  /// Return an iterator range over \p Range which only includes \p BlockTy
+  /// blocks. The accesses are casted to \p BlockTy.
+  template <typename BlockTy, typename T>
+  static auto blocksOnly(const T &Range) {
+    // Create BaseTy with correct const-ness based on BlockTy.
+    using BaseTy = std::conditional_t<std::is_const<BlockTy>::value,
+                                      const VPBlockBase, VPBlockBase>;
+
+    // We need to first create an iterator range over (const) BlocktTy & instead
+    // of (const) BlockTy * for filter_range to work properly.
+    auto Mapped =
+        map_range(Range, [](BaseTy *Block) -> BaseTy & { return *Block; });
+    auto Filter = make_filter_range(
+        Mapped, [](BaseTy &Block) { return isa<BlockTy>(&Block); });
+    return map_range(Filter, [](BaseTy &Block) -> BlockTy * {
+      return cast<BlockTy>(&Block);
+    });
+  }
+
+  /// Inserts \p BlockPtr on the edge between \p From and \p To. That is, update
+  /// \p From's successor to \p To to point to \p BlockPtr and \p To's
+  /// predecessor from \p From to \p BlockPtr. \p From and \p To are added to \p
+  /// BlockPtr's predecessors and successors respectively. There must be a
+  /// single edge between \p From and \p To.
+  static void insertOnEdge(VPBlockBase *From, VPBlockBase *To,
+                           VPBlockBase *BlockPtr) {
+    auto &Successors = From->getSuccessors();
+    auto &Predecessors = To->getPredecessors();
+    assert(count(Successors, To) == 1 && count(Predecessors, From) == 1 &&
+           "must have single between From and To");
+    unsigned SuccIdx = std::distance(Successors.begin(), find(Successors, To));
+    unsigned PredIx =
+        std::distance(Predecessors.begin(), find(Predecessors, From));
+    VPBlockUtils::connectBlocks(From, BlockPtr, -1, SuccIdx);
+    VPBlockUtils::connectBlocks(BlockPtr, To, PredIx, -1);
+  }
+};
+
+} // namespace llvm
 
 #endif
diff --git a/llvm/test/Analysis/CostModel/AArch64/sve-intrinsics.ll b/llvm/test/Analysis/CostModel/AArch64/sve-intrinsics.ll
index 3e5de313c3cac..696dec91d93d2 100644
--- a/llvm/test/Analysis/CostModel/AArch64/sve-intrinsics.ll
+++ b/llvm/test/Analysis/CostModel/AArch64/sve-intrinsics.ll
@@ -1025,10 +1025,10 @@ define void @fshr() #0 {
 ; CHECK-VSCALE-2-NEXT:  Cost Model: Found an estimated cost of 0 for instruction: ret void
 ;
 ; TYPE_BASED_ONLY-LABEL: 'fshr'
-; TYPE_BASED_ONLY-NEXT:  Cost Model: Invalid cost for instruction: %1 = call <vscale x 16 x i8> @llvm.fshr.nxv16i8(<vscale x 16 x i8> undef, <vscale x 16 x i8> undef, <vscale x 16 x i8> undef)
-; TYPE_BASED_ONLY-NEXT:  Cost Model: Invalid cost for instruction: %2 = call <vscale x 8 x i16> @llvm.fshr.nxv8i16(<vscale x 8 x i16> undef, <vscale x 8 x i16> undef, <vscale x 8 x i16> undef)
-; TYPE_BASED_ONLY-NEXT:  Cost Model: Invalid cost for instruction: %3 = call <vscale x 4 x i32> @llvm.fshr.nxv4i32(<vscale x 4 x i32> undef, <vscale x 4 x i32> undef, <vscale x 4 x i32> undef)
-; TYPE_BASED_ONLY-NEXT:  Cost Model: Invalid cost for instruction: %4 = call <vscale x 2 x i64> @llvm.fshr.nxv2i64(<vscale x 2 x i64> undef, <vscale x 2 x i64> undef, <vscale x 2 x i64> undef)
+; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 24 for instruction: %1 = call <vscale x 16 x i8> @llvm.fshr.nxv16i8(<vscale x 16 x i8> undef, <vscale x 16 x i8> undef, <vscale x 16 x i8> undef)
+; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 16 for instruction: %2 = call <vscale x 8 x i16> @llvm.fshr.nxv8i16(<vscale x 8 x i16> undef, <vscale x 8 x i16> undef, <vscale x 8 x i16> undef)
+; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 10 for instruction: %3 = call <vscale x 4 x i32> @llvm.fshr.nxv4i32(<vscale x 4 x i32> undef, <vscale x 4 x i32> undef, <vscale x 4 x i32> undef)
+; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 10 for instruction: %4 = call <vscale x 2 x i64> @llvm.fshr.nxv2i64(<vscale x 2 x i64> undef, <vscale x 2 x i64> undef, <vscale x 2 x i64> undef)
 ; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 0 for instruction: ret void
 ;
   call <vscale x 16 x i8> @llvm.fshr.nxv16i8(<vscale x 16 x i8> undef, <vscale x 16 x i8> undef, <vscale x 16 x i8> undef)
@@ -1054,10 +1054,10 @@ define void @fshl() #0 {
 ; CHECK-VSCALE-2-NEXT:  Cost Model: Found an estimated cost of 0 for instruction: ret void
 ;
 ; TYPE_BASED_ONLY-LABEL: 'fshl'
-; TYPE_BASED_ONLY-NEXT:  Cost Model: Invalid cost for instruction: %1 = call <vscale x 16 x i8> @llvm.fshl.nxv16i8(<vscale x 16 x i8> undef, <vscale x 16 x i8> undef, <vscale x 16 x i8> undef)
-; TYPE_BASED_ONLY-NEXT:  Cost Model: Invalid cost for instruction: %2 = call <vscale x 8 x i16> @llvm.fshl.nxv8i16(<vscale x 8 x i16> undef, <vscale x 8 x i16> undef, <vscale x 8 x i16> undef)
-; TYPE_BASED_ONLY-NEXT:  Cost Model: Invalid cost for instruction: %3 = call <vscale x 4 x i32> @llvm.fshl.nxv4i32(<vscale x 4 x i32> undef, <vscale x 4 x i32> undef, <vscale x 4 x i32> undef)
-; TYPE_BASED_ONLY-NEXT:  Cost Model: Invalid cost for instruction: %4 = call <vscale x 2 x i64> @llvm.fshl.nxv2i64(<vscale x 2 x i64> undef, <vscale x 2 x i64> undef, <vscale x 2 x i64> undef)
+; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 24 for instruction: %1 = call <vscale x 16 x i8> @llvm.fshl.nxv16i8(<vscale x 16 x i8> undef, <vscale x 16 x i8> undef, <vscale x 16 x i8> undef)
+; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 16 for instruction: %2 = call <vscale x 8 x i16> @llvm.fshl.nxv8i16(<vscale x 8 x i16> undef, <vscale x 8 x i16> undef, <vscale x 8 x i16> undef)
+; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 10 for instruction: %3 = call <vscale x 4 x i32> @llvm.fshl.nxv4i32(<vscale x 4 x i32> undef, <vscale x 4 x i32> undef, <vscale x 4 x i32> undef)
+; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 10 for instruction: %4 = call <vscale x 2 x i64> @llvm.fshl.nxv2i64(<vscale x 2 x i64> undef, <vscale x 2 x i64> undef, <vscale x 2 x i64> undef)
 ; TYPE_BASED_ONLY-NEXT:  Cost Model: Found an estimated cost of 0 for instruction: ret void
 ;
   call <vscale x 16 x i8> @llvm.fshl.nxv16i8(<vscale x 16 x i8> undef, <vscale x 16 x i8> undef, <vscale x 16 x i8> undef)
diff --git a/llvm/test/Analysis/CostModel/RISCV/vp-intrinsics.ll b/llvm/test/Analysis/CostModel/RISCV/vp-intrinsics.ll
index 5126a6a0a3cbc..0245a0f7ee6cb 100644
--- a/llvm/test/Analysis/CostModel/RISCV/vp-intrinsics.ll
+++ b/llvm/test/Analysis/CostModel/RISCV/vp-intrinsics.ll
@@ -38,7 +38,7 @@ define void @fshr(<vscale x 1 x i32> %a, <vscale x 1 x i32> %b, <vscale x 1 x i3
 ; CHECK-NEXT:  Cost Model: Found an estimated cost of 0 for instruction: ret void
 ;
 ; TYPEBASED-LABEL: 'fshr'
-; TYPEBASED-NEXT:  Cost Model: Invalid cost for instruction: %1 = call <vscale x 1 x i32> @llvm.fshr.nxv1i32(<vscale x 1 x i32> %a, <vscale x 1 x i32> %b, <vscale x 1 x i32> %c)
+; TYPEBASED-NEXT:  Cost Model: Found an estimated cost of 7 for instruction: %1 = call <vscale x 1 x i32> @llvm.fshr.nxv1i32(<vscale x 1 x i32> %a, <vscale x 1 x i32> %b, <vscale x 1 x i32> %c)
 ; TYPEBASED-NEXT:  Cost Model: Found an estimated cost of 0 for instruction: ret void
 ;
   call <vscale x 1 x i32> @llvm.fshr.nxv4i32(<vscale x 1 x i32> %a, <vscale x 1 x i32> %b, <vscale x 1 x i32> %c)
@@ -51,7 +51,7 @@ define void @fshl(<vscale x 1 x i32> %a, <vscale x 1 x i32> %b, <vscale x 1 x i3
 ; CHECK-NEXT:  Cost Model: Found an estimated cost of 0 for instruction: ret void
 ;
 ; TYPEBASED-LABEL: 'fshl'
-; TYPEBASED-NEXT:  Cost Model: Invalid cost for instruction: %1 = call <vscale x 1 x i32> @llvm.fshl.nxv1i32(<vscale x 1 x i32> %a, <vscale x 1 x i32> %b, <vscale x 1 x i32> %c)
+; TYPEBASED-NEXT:  Cost Model: Found an estimated cost of 7 for instruction: %1 = call <vscale x 1 x i32> @llvm.fshl.nxv1i32(<vscale x 1 x i32> %a, <vscale x 1 x i32> %b, <vscale x 1 x i32> %c)
 ; TYPEBASED-NEXT:  Cost Model: Found an estimated cost of 0 for instruction: ret void
 ;
   call <vscale x 1 x i32> @llvm.fshl.nxv4i32(<vscale x 1 x i32> %a, <vscale x 1 x i32> %b, <vscale x 1 x i32> %c)
diff --git a/llvm/test/Analysis/ScalarEvolution/implied-via-division.ll b/llvm/test/Analysis/ScalarEvolution/implied-via-division.ll
index fbe69b4b18897..a1d30406095ec 100644
--- a/llvm/test/Analysis/ScalarEvolution/implied-via-division.ll
+++ b/llvm/test/Analysis/ScalarEvolution/implied-via-division.ll
@@ -411,3 +411,56 @@ header:
 exit:
   ret void
 }
+
+define void @swapped_predicate(i32 %n) {
+; Prove that (n s>= 1) ===> (0 s>= -n / 2).
+; CHECK-LABEL: 'swapped_predicate'
+; CHECK-NEXT:  Determining loop execution counts for: @swapped_predicate
+; CHECK-NEXT:  Loop %header: backedge-taken count is (1 + %n.div.2)<nuw><nsw>
+; CHECK-NEXT:  Loop %header: constant max backedge-taken count is i32 1073741824
+; CHECK-NEXT:  Loop %header: symbolic max backedge-taken count is (1 + %n.div.2)<nuw><nsw>
+; CHECK-NEXT:  Loop %header: Trip multiple is 1
+;
+entry:
+  %cmp1 = icmp sge i32 %n, 1
+  %n.div.2 = sdiv i32 %n, 2
+  call void @llvm.assume(i1 %cmp1)
+  br label %header
+
+header:
+  %indvar = phi i32 [ %indvar.next, %header ], [ 0, %entry ]
+  %indvar.next = add i32 %indvar, 1
+  %minus.indvar = sub nsw i32 0, %indvar
+  %minus.n.div.2 = sub nsw i32 0, %n.div.2
+  %exitcond = icmp sge i32 %minus.indvar, %minus.n.div.2
+  br i1 %exitcond, label %header, label %exit
+
+exit:
+  ret void
+}
+
+define void @swapped_predicate_neg(i32 %n) {
+; Prove that (n s>= 1) =\=> (-n / 2 s>= 0).
+; CHECK-LABEL: 'swapped_predicate_neg'
+; CHECK-NEXT:  Determining loop execution counts for: @swapped_predicate_neg
+; CHECK-NEXT:  Loop %header: Unpredictable backedge-taken count.
+; CHECK-NEXT:  Loop %header: Unpredictable constant max backedge-taken count.
+; CHECK-NEXT:  Loop %header: Unpredictable symbolic max backedge-taken count.
+;
+entry:
+  %cmp1 = icmp sge i32 %n, 1
+  %n.div.2 = sdiv i32 %n, 2
+  call void @llvm.assume(i1 %cmp1)
+  br label %header
+
+header:
+  %indvar = phi i32 [ %indvar.next, %header ], [ 0, %entry ]
+  %indvar.next = add i32 %indvar, 1
+  %minus.indvar = sub nsw i32 0, %indvar
+  %minus.n.div.2 = sub nsw i32 0, %n.div.2
+  %exitcond = icmp sge i32 %minus.n.div.2, %minus.indvar
+  br i1 %exitcond, label %header, label %exit
+
+exit:
+  ret void
+}
diff --git a/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/hidden-diverge-gmir.mir b/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/hidden-diverge-gmir.mir
index ce00edf3363f7..9694a340b5e90 100644
--- a/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/hidden-diverge-gmir.mir
+++ b/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/hidden-diverge-gmir.mir
@@ -1,24 +1,24 @@
 # RUN: llc -mtriple=amdgcn-- -run-pass=print-machine-uniformity -o - %s 2>&1 | FileCheck %s
 # CHECK-LABEL: MachineUniformityInfo for function: hidden_diverge
 # CHECK-LABEL: BLOCK bb.0
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.workitem.id.x)
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1) = G_ICMP intpred(slt)
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1) = G_XOR %{{[0-9]*}}:_, %{{[0-9]*}}:_
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1), %{{[0-9]*}}:_(s64) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.if)
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1), %{{[0-9]*}}:_(s64) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.if)
-# CHECK: DIVERGENT: G_BRCOND %{{[0-9]*}}:_(s1), %bb.1
-# CHECK: DIVERGENT: G_BR %bb.2
+# CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.workitem.id.x)
+# CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1) = G_ICMP intpred(slt)
+# CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1) = G_XOR %{{[0-9]*}}:_, %{{[0-9]*}}:_
+# CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1), %{{[0-9]*}}:_(s64) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.if)
+# CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1), %{{[0-9]*}}:_(s64) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.if)
+# CHECK:     DIVERGENT: G_BRCOND %{{[0-9]*}}:_(s1), %bb.1
+# CHECK:     DIVERGENT: G_BR %bb.2
 # CHECK-LABEL: BLOCK bb.1
 # CHECK-LABEL: BLOCK bb.2
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI %{{[0-9]*}}:_(s32), %bb.1, %{{[0-9]*}}:_(s32), %bb.0
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1) = G_PHI %{{[0-9]*}}:_(s1), %bb.1, %{{[0-9]*}}:_(s1), %bb.0
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1), %{{[0-9]*}}:_(s64) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.if)
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1), %{{[0-9]*}}:_(s64) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.if)
-# CHECK: DIVERGENT: G_BRCOND %{{[0-9]*}}:_(s1), %bb.3
-# CHECK: DIVERGENT: G_BR %bb.4
+# CHECK-NOT: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI %{{[0-9]*}}:_(s32), %bb.1, %{{[0-9]*}}:_(s32), %bb.0
+# CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1) = G_PHI %{{[0-9]*}}:_(s1), %bb.1, %{{[0-9]*}}:_(s1), %bb.0
+# CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1), %{{[0-9]*}}:_(s64) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.if)
+# CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1), %{{[0-9]*}}:_(s64) = G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.if)
+# CHECK:     DIVERGENT: G_BRCOND %{{[0-9]*}}:_(s1), %bb.3
+# CHECK:     DIVERGENT: G_BR %bb.4
 # CHECK-LABEL: BLOCK bb.3
 # CHECK-LABEL: BLOCK bb.4
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI %{{[0-9]*}}:_(s32), %bb.2, %{{[0-9]*}}:_(s32), %bb.3
+# CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI %{{[0-9]*}}:_(s32), %bb.2, %{{[0-9]*}}:_(s32), %bb.3
 
 ---
 name:            hidden_diverge
diff --git a/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/hidden-loop-diverge.mir b/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/hidden-loop-diverge.mir
index 2f4dc588aa993..2d01ab1269d61 100644
--- a/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/hidden-loop-diverge.mir
+++ b/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/hidden-loop-diverge.mir
@@ -22,10 +22,10 @@
 # CHECK-NOT: DIVERGENT: G_BR %bb.5
 
 # CHECK-LABEL: BLOCK bb.4
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI %{{[0-9]*}}:_(s32), %bb.3, %{{[0-9]*}}:_(s32), %bb.2
+# CHECK-NOT: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI %{{[0-9]*}}:_(s32), %bb.3, %{{[0-9]*}}:_(s32), %bb.2
 
 # CHECK-LABEL: BLOCK bb.5
-# CHECK: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI %{{[0-9]*}}:_(s32), %bb.3, %{{[0-9]*}}:_(s32), %bb.4
+# CHECK-NOT: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI %{{[0-9]*}}:_(s32), %bb.3, %{{[0-9]*}}:_(s32), %bb.4
 
 ---
 name:            hidden_loop_diverge
diff --git a/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/uses-value-from-cycle.mir b/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/uses-value-from-cycle.mir
index b7e0d5449d2e8..c1acbb3a1575d 100644
--- a/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/uses-value-from-cycle.mir
+++ b/llvm/test/Analysis/UniformityAnalysis/AMDGPU/MIR/uses-value-from-cycle.mir
@@ -40,10 +40,10 @@ body:             |
   
   bb.5:
     successors: %bb.6(0x04000000), %bb.2(0x7c000000)
-    ; CHECK: DIVERGENT: %{{[0-9]}}: %{{[0-9]}}:_(s32) = G_PHI
-    ; CHECK: DIVERGENT: %{{[0-9]}}: %{{[0-9]}}:_(s32) = G_PHI
-    ; CHECK: DIVERGENT: %{{[0-9]}}: %{{[0-9]}}:_(s32) = G_PHI
-    ; CHECK-NOT: DIVERGENT: %{{[0-9]}}: %{{[0-9]}}:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break)
+    ; CHECK-NOT: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI
+    ; CHECK-NOT: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s32) = G_PHI
+    ; CHECK:     DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:_(s1) = G_PHI
+    ; CHECK-NOT: DIVERGENT: %{{[0-9]*}}: %{{[0-9]*}}:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break)
     %19:_(s32) = G_PHI %18(s32), %bb.7, %25(s32), %bb.4
     %20:_(s32) = G_PHI %6(s32), %bb.7, %25(s32), %bb.4
     %21:_(s1) = G_PHI %34(s1), %bb.7, %33(s1), %bb.4
diff --git a/llvm/test/CodeGen/AArch64/bf16-instructions.ll b/llvm/test/CodeGen/AArch64/bf16-instructions.ll
index bc06453e9c01f..ecf64ecbbd3ff 100644
--- a/llvm/test/CodeGen/AArch64/bf16-instructions.ll
+++ b/llvm/test/CodeGen/AArch64/bf16-instructions.ll
@@ -1,6 +1,25 @@
 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
 ; RUN: llc < %s -mtriple aarch64-unknown-unknown | FileCheck %s --check-prefixes=CHECK,CHECK-CVT
-; RUN: llc < %s -mtriple aarch64-unknown-unknown -mattr=+bf16 | FileCheck %s --check-prefixes=CHECK,CHECK-BF16
+; RUN: llc < %s -mtriple aarch64-unknown-unknown -mattr=+bf16 | FileCheck %s --check-prefixes=CHECK,CHECK-BF16,CHECK-SD
+; RUN: llc < %s -mtriple aarch64-unknown-unknown -mattr=+bf16,+fullfp16 -global-isel -global-isel-abort=2 2>&1 | FileCheck %s --check-prefixes=CHECK,CHECK-BF16,CHECK-GI
+
+; CHECK-GI:       warning: Instruction selection used fallback path for test_fptosi_i32
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_fptosi_i64
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_fptoui_i32
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_fptoui_i64
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_uitofp_i32
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_uitofp_i64
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_sitofp_i32
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_sitofp_i64
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_uitofp_i32_fadd
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_sitofp_i32_fadd
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_fptrunc_float
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_fptrunc_double
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_fpext_float
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_fpext_double
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_copysign_f32
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_copysign_f64
+; CHECK-GI-NEXT:  warning: Instruction selection used fallback path for test_copysign_extended
 
 define bfloat @test_fadd(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-LABEL: test_fadd:
@@ -20,15 +39,20 @@ define bfloat @test_fadd(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_fadd:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fadd s0, s0, s1
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_fadd:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fadd s0, s0, s1
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fadd:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fadd h0, h0, h1
+; CHECK-GI-NEXT:    ret
   %r = fadd bfloat %a, %b
   ret bfloat %r
 }
@@ -51,15 +75,20 @@ define bfloat @test_fsub(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_fsub:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fsub s0, s0, s1
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_fsub:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fsub s0, s0, s1
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fsub:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fsub h0, h0, h1
+; CHECK-GI-NEXT:    ret
   %r = fsub bfloat %a, %b
   ret bfloat %r
 }
@@ -82,15 +111,20 @@ define bfloat @test_fmul(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_fmul:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fmul s0, s0, s1
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_fmul:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fmul s0, s0, s1
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fmul:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fmul h0, h0, h1
+; CHECK-GI-NEXT:    ret
   %r = fmul bfloat %a, %b
   ret bfloat %r
 }
@@ -123,20 +157,25 @@ define bfloat @test_fmadd(bfloat %a, bfloat %b, bfloat %c) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_fmadd:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    // kill: def $h2 killed $h2 def $d2
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fmul s0, s0, s1
-; CHECK-BF16-NEXT:    shll v1.4s, v2.4h, #16
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fadd s0, s0, s1
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_fmadd:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    // kill: def $h2 killed $h2 def $d2
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fmul s0, s0, s1
+; CHECK-SD-NEXT:    shll v1.4s, v2.4h, #16
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fadd s0, s0, s1
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fmadd:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fmadd h0, h0, h1, h2
+; CHECK-GI-NEXT:    ret
   %mul = fmul fast bfloat %a, %b
   %r = fadd fast bfloat %mul, %c
   ret bfloat %r
@@ -160,15 +199,20 @@ define bfloat @test_fdiv(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_fdiv:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fdiv s0, s0, s1
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_fdiv:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fdiv s0, s0, s1
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fdiv:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fdiv h0, h0, h1
+; CHECK-GI-NEXT:    ret
   %r = fdiv bfloat %a, %b
   ret bfloat %r
 }
@@ -195,19 +239,29 @@ define bfloat @test_frem(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_frem:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    // kill: def $s1 killed $s1 killed $q1
-; CHECK-BF16-NEXT:    bl fmodf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_frem:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    // kill: def $s1 killed $s1 killed $q1
+; CHECK-SD-NEXT:    bl fmodf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_frem:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    fcvt s1, h1
+; CHECK-GI-NEXT:    bl fmodf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = frem bfloat %a, %b
   ret bfloat %r
 }
@@ -269,277 +323,617 @@ define bfloat @test_tailcall_flipped(bfloat %a, bfloat %b) #0 {
 }
 
 define bfloat @test_select(bfloat %a, bfloat %b, i1 zeroext %c) #0 {
-; CHECK-LABEL: test_select:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $s0
-; CHECK-NEXT:    cmp w0, #0
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $s1
-; CHECK-NEXT:    fcsel s0, s0, s1, ne
-; CHECK-NEXT:    // kill: def $h0 killed $h0 killed $s0
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_select:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-CVT-NEXT:    cmp w0, #0
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $s1
+; CHECK-CVT-NEXT:    fcsel s0, s0, s1, ne
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_select:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-SD-NEXT:    cmp w0, #0
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $s1
+; CHECK-SD-NEXT:    fcsel s0, s0, s1, ne
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_select:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-GI-NEXT:    // kill: def $h1 killed $h1 def $s1
+; CHECK-GI-NEXT:    fmov w8, s0
+; CHECK-GI-NEXT:    fmov w9, s1
+; CHECK-GI-NEXT:    tst w0, #0x1
+; CHECK-GI-NEXT:    csel w8, w8, w9, ne
+; CHECK-GI-NEXT:    fmov s0, w8
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-GI-NEXT:    ret
   %r = select i1 %c, bfloat %a, bfloat %b
   ret bfloat %r
 }
 
 define bfloat @test_select_cc(bfloat %a, bfloat %b, bfloat %c, bfloat %d) #0 {
-; CHECK-LABEL: test_select_cc:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h3 killed $h3 def $d3
-; CHECK-NEXT:    // kill: def $h2 killed $h2 def $d2
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $s0
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $s1
-; CHECK-NEXT:    shll v3.4s, v3.4h, #16
-; CHECK-NEXT:    shll v2.4s, v2.4h, #16
-; CHECK-NEXT:    fcmp s2, s3
-; CHECK-NEXT:    fcsel s0, s0, s1, ne
-; CHECK-NEXT:    // kill: def $h0 killed $h0 killed $s0
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_select_cc:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h3 killed $h3 def $d3
+; CHECK-CVT-NEXT:    // kill: def $h2 killed $h2 def $d2
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $s1
+; CHECK-CVT-NEXT:    shll v3.4s, v3.4h, #16
+; CHECK-CVT-NEXT:    shll v2.4s, v2.4h, #16
+; CHECK-CVT-NEXT:    fcmp s2, s3
+; CHECK-CVT-NEXT:    fcsel s0, s0, s1, ne
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_select_cc:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h3 killed $h3 def $d3
+; CHECK-SD-NEXT:    // kill: def $h2 killed $h2 def $d2
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $s1
+; CHECK-SD-NEXT:    shll v3.4s, v3.4h, #16
+; CHECK-SD-NEXT:    shll v2.4s, v2.4h, #16
+; CHECK-SD-NEXT:    fcmp s2, s3
+; CHECK-SD-NEXT:    fcsel s0, s0, s1, ne
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_select_cc:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-GI-NEXT:    // kill: def $h1 killed $h1 def $s1
+; CHECK-GI-NEXT:    fcmp h2, h3
+; CHECK-GI-NEXT:    fmov w8, s0
+; CHECK-GI-NEXT:    fmov w9, s1
+; CHECK-GI-NEXT:    csel w8, w8, w9, ne
+; CHECK-GI-NEXT:    fmov s0, w8
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-GI-NEXT:    ret
   %cc = fcmp une bfloat %c, %d
   %r = select i1 %cc, bfloat %a, bfloat %b
   ret bfloat %r
 }
 
 define float @test_select_cc_f32_f16(float %a, float %b, bfloat %c, bfloat %d) #0 {
-; CHECK-LABEL: test_select_cc_f32_f16:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h3 killed $h3 def $d3
-; CHECK-NEXT:    // kill: def $h2 killed $h2 def $d2
-; CHECK-NEXT:    shll v3.4s, v3.4h, #16
-; CHECK-NEXT:    shll v2.4s, v2.4h, #16
-; CHECK-NEXT:    fcmp s2, s3
-; CHECK-NEXT:    fcsel s0, s0, s1, ne
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_select_cc_f32_f16:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h3 killed $h3 def $d3
+; CHECK-CVT-NEXT:    // kill: def $h2 killed $h2 def $d2
+; CHECK-CVT-NEXT:    shll v3.4s, v3.4h, #16
+; CHECK-CVT-NEXT:    shll v2.4s, v2.4h, #16
+; CHECK-CVT-NEXT:    fcmp s2, s3
+; CHECK-CVT-NEXT:    fcsel s0, s0, s1, ne
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_select_cc_f32_f16:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h3 killed $h3 def $d3
+; CHECK-SD-NEXT:    // kill: def $h2 killed $h2 def $d2
+; CHECK-SD-NEXT:    shll v3.4s, v3.4h, #16
+; CHECK-SD-NEXT:    shll v2.4s, v2.4h, #16
+; CHECK-SD-NEXT:    fcmp s2, s3
+; CHECK-SD-NEXT:    fcsel s0, s0, s1, ne
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_select_cc_f32_f16:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h2, h3
+; CHECK-GI-NEXT:    fcsel s0, s0, s1, ne
+; CHECK-GI-NEXT:    ret
   %cc = fcmp une bfloat %c, %d
   %r = select i1 %cc, float %a, float %b
   ret float %r
 }
 
 define bfloat @test_select_cc_f16_f32(bfloat %a, bfloat %b, float %c, float %d) #0 {
-; CHECK-LABEL: test_select_cc_f16_f32:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    fcmp s2, s3
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $s0
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $s1
-; CHECK-NEXT:    fcsel s0, s0, s1, ne
-; CHECK-NEXT:    // kill: def $h0 killed $h0 killed $s0
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_select_cc_f16_f32:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    fcmp s2, s3
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $s1
+; CHECK-CVT-NEXT:    fcsel s0, s0, s1, ne
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_select_cc_f16_f32:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    fcmp s2, s3
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $s1
+; CHECK-SD-NEXT:    fcsel s0, s0, s1, ne
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_select_cc_f16_f32:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-GI-NEXT:    // kill: def $h1 killed $h1 def $s1
+; CHECK-GI-NEXT:    fcmp s2, s3
+; CHECK-GI-NEXT:    fmov w8, s0
+; CHECK-GI-NEXT:    fmov w9, s1
+; CHECK-GI-NEXT:    csel w8, w8, w9, ne
+; CHECK-GI-NEXT:    fmov s0, w8
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-GI-NEXT:    ret
   %cc = fcmp une float %c, %d
   %r = select i1 %cc, bfloat %a, bfloat %b
   ret bfloat %r
 }
 
 define i1 @test_fcmp_une(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_une:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, ne
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_une:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, ne
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_une:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, ne
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_une:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, ne
+; CHECK-GI-NEXT:    ret
   %r = fcmp une bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_ueq(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_ueq:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w8, eq
-; CHECK-NEXT:    csinc w0, w8, wzr, vc
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_ueq:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w8, eq
+; CHECK-CVT-NEXT:    csinc w0, w8, wzr, vc
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_ueq:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w8, eq
+; CHECK-SD-NEXT:    csinc w0, w8, wzr, vc
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_ueq:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w8, eq
+; CHECK-GI-NEXT:    cset w9, vs
+; CHECK-GI-NEXT:    orr w0, w8, w9
+; CHECK-GI-NEXT:    ret
   %r = fcmp ueq bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_ugt(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_ugt:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, hi
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_ugt:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, hi
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_ugt:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, hi
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_ugt:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, hi
+; CHECK-GI-NEXT:    ret
   %r = fcmp ugt bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_uge(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_uge:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, pl
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_uge:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, pl
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_uge:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, pl
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_uge:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, pl
+; CHECK-GI-NEXT:    ret
   %r = fcmp uge bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_ult(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_ult:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, lt
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_ult:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, lt
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_ult:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, lt
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_ult:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, lt
+; CHECK-GI-NEXT:    ret
   %r = fcmp ult bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_ule(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_ule:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, le
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_ule:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, le
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_ule:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, le
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_ule:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, le
+; CHECK-GI-NEXT:    ret
   %r = fcmp ule bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_uno(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_uno:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, vs
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_uno:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, vs
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_uno:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, vs
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_uno:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, vs
+; CHECK-GI-NEXT:    ret
   %r = fcmp uno bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_one(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_one:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w8, mi
-; CHECK-NEXT:    csinc w0, w8, wzr, le
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_one:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w8, mi
+; CHECK-CVT-NEXT:    csinc w0, w8, wzr, le
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_one:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w8, mi
+; CHECK-SD-NEXT:    csinc w0, w8, wzr, le
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_one:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w8, mi
+; CHECK-GI-NEXT:    cset w9, gt
+; CHECK-GI-NEXT:    orr w0, w8, w9
+; CHECK-GI-NEXT:    ret
   %r = fcmp one bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_oeq(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_oeq:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, eq
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_oeq:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, eq
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_oeq:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, eq
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_oeq:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, eq
+; CHECK-GI-NEXT:    ret
   %r = fcmp oeq bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_ogt(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_ogt:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, gt
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_ogt:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, gt
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_ogt:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, gt
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_ogt:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, gt
+; CHECK-GI-NEXT:    ret
   %r = fcmp ogt bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_oge(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_oge:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, ge
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_oge:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, ge
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_oge:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, ge
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_oge:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, ge
+; CHECK-GI-NEXT:    ret
   %r = fcmp oge bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_olt(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_olt:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, mi
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_olt:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, mi
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_olt:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, mi
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_olt:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, mi
+; CHECK-GI-NEXT:    ret
   %r = fcmp olt bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_ole(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_ole:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, ls
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_ole:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, ls
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_ole:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, ls
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_ole:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, ls
+; CHECK-GI-NEXT:    ret
   %r = fcmp ole bfloat %a, %b
   ret i1 %r
 }
 
 define i1 @test_fcmp_ord(bfloat %a, bfloat %b) #0 {
-; CHECK-LABEL: test_fcmp_ord:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    cset w0, vc
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fcmp_ord:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    cset w0, vc
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fcmp_ord:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    cset w0, vc
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fcmp_ord:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    cset w0, vc
+; CHECK-GI-NEXT:    ret
   %r = fcmp ord bfloat %a, %b
   ret i1 %r
 }
 
 define void @test_fccmp(bfloat %in, ptr %out) {
-; CHECK-LABEL: test_fccmp:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    movi v1.2s, #69, lsl #24
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v2.4s, v0.4h, #16
-; CHECK-NEXT:    adrp x8, .LCPI29_0
-; CHECK-NEXT:    movi v3.2s, #72, lsl #24
-; CHECK-NEXT:    fcmp s2, s1
-; CHECK-NEXT:    ldr h1, [x8, :lo12:.LCPI29_0]
-; CHECK-NEXT:    fccmp s2, s3, #4, mi
-; CHECK-NEXT:    fcsel s0, s0, s1, gt
-; CHECK-NEXT:    str h0, [x0]
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fccmp:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    movi v1.2s, #69, lsl #24
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v2.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    adrp x8, .LCPI29_0
+; CHECK-CVT-NEXT:    movi v3.2s, #72, lsl #24
+; CHECK-CVT-NEXT:    fcmp s2, s1
+; CHECK-CVT-NEXT:    ldr h1, [x8, :lo12:.LCPI29_0]
+; CHECK-CVT-NEXT:    fccmp s2, s3, #4, mi
+; CHECK-CVT-NEXT:    fcsel s0, s0, s1, gt
+; CHECK-CVT-NEXT:    str h0, [x0]
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fccmp:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    movi v1.2s, #69, lsl #24
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v2.4s, v0.4h, #16
+; CHECK-SD-NEXT:    adrp x8, .LCPI29_0
+; CHECK-SD-NEXT:    movi v3.2s, #72, lsl #24
+; CHECK-SD-NEXT:    fcmp s2, s1
+; CHECK-SD-NEXT:    ldr h1, [x8, :lo12:.LCPI29_0]
+; CHECK-SD-NEXT:    fccmp s2, s3, #4, mi
+; CHECK-SD-NEXT:    fcsel s0, s0, s1, gt
+; CHECK-SD-NEXT:    str h0, [x0]
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fccmp:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fmov h1, #5.00000000
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-GI-NEXT:    fmov h2, #8.00000000
+; CHECK-GI-NEXT:    fmov w8, s0
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    fmov w9, s1
+; CHECK-GI-NEXT:    fccmp h0, h2, #4, mi
+; CHECK-GI-NEXT:    csel w8, w8, w9, gt
+; CHECK-GI-NEXT:    strh w8, [x0]
+; CHECK-GI-NEXT:    ret
   %cmp1 = fcmp ogt bfloat %in, 0xR4800
   %cmp2 = fcmp olt bfloat %in, 0xR4500
   %cond = and i1 %cmp1, %cmp2
@@ -549,16 +943,34 @@ define void @test_fccmp(bfloat %in, ptr %out) {
 }
 
 define void @test_br_cc(bfloat %a, bfloat %b, ptr %p1, ptr %p2) #0 {
-; CHECK-LABEL: test_br_cc:
-; CHECK:       // %bb.0: // %common.ret
-; CHECK-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-NEXT:    fcmp s0, s1
-; CHECK-NEXT:    csel x8, x0, x1, pl
-; CHECK-NEXT:    str wzr, [x8]
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_br_cc:
+; CHECK-CVT:       // %bb.0: // %common.ret
+; CHECK-CVT-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-CVT-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-CVT-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-CVT-NEXT:    fcmp s0, s1
+; CHECK-CVT-NEXT:    csel x8, x0, x1, pl
+; CHECK-CVT-NEXT:    str wzr, [x8]
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_br_cc:
+; CHECK-SD:       // %bb.0: // %common.ret
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fcmp s0, s1
+; CHECK-SD-NEXT:    csel x8, x0, x1, pl
+; CHECK-SD-NEXT:    str wzr, [x8]
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_br_cc:
+; CHECK-GI:       // %bb.0: // %common.ret
+; CHECK-GI-NEXT:    fcmp h0, h1
+; CHECK-GI-NEXT:    csel x8, x0, x1, pl
+; CHECK-GI-NEXT:    str wzr, [x8]
+; CHECK-GI-NEXT:    ret
   %c = fcmp uge bfloat %a, %b
   br i1 %c, label %then, label %else
 then:
@@ -1014,13 +1426,18 @@ define bfloat @test_sqrt(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_sqrt:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fsqrt s0, s0
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_sqrt:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fsqrt s0, s0
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_sqrt:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fsqrt h0, h0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.sqrt.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1044,16 +1461,25 @@ define bfloat @test_powi(bfloat %a, i32 %b) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_powi:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl __powisf2
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_powi:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl __powisf2
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_powi:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl __powisf2
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.powi.f16.i32(bfloat %a, i32 %b)
   ret bfloat %r
 }
@@ -1078,16 +1504,25 @@ define bfloat @test_sin(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_sin:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl sinf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_sin:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl sinf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_sin:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl sinf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.sin.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1111,16 +1546,25 @@ define bfloat @test_cos(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_cos:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl cosf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_cos:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl cosf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_cos:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl cosf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.cos.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1144,16 +1588,25 @@ define bfloat @test_tan(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_tan:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl tanf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_tan:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl tanf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_tan:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl tanf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.tan.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1177,16 +1630,25 @@ define bfloat @test_acos(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_acos:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl acosf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_acos:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl acosf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_acos:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl acosf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.acos.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1210,16 +1672,25 @@ define bfloat @test_asin(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_asin:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl asinf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_asin:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl asinf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_asin:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl asinf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.asin.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1243,16 +1714,25 @@ define bfloat @test_atan(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_atan:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl atanf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_atan:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl atanf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_atan:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl atanf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.atan.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1279,19 +1759,29 @@ define bfloat @test_atan2(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_atan2:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    // kill: def $s1 killed $s1 killed $q1
-; CHECK-BF16-NEXT:    bl atan2f
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_atan2:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    // kill: def $s1 killed $s1 killed $q1
+; CHECK-SD-NEXT:    bl atan2f
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_atan2:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    fcvt s1, h1
+; CHECK-GI-NEXT:    bl atan2f
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.atan2.f16(bfloat %a, bfloat %b)
   ret bfloat %r
 }
@@ -1315,16 +1805,25 @@ define bfloat @test_cosh(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_cosh:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl coshf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_cosh:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl coshf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_cosh:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl coshf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.cosh.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1348,16 +1847,25 @@ define bfloat @test_sinh(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_sinh:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl sinhf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_sinh:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl sinhf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_sinh:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl sinhf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.sinh.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1381,16 +1889,25 @@ define bfloat @test_tanh(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_tanh:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl tanhf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_tanh:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl tanhf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_tanh:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl tanhf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.tanh.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1417,19 +1934,29 @@ define bfloat @test_pow(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_pow:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    // kill: def $s1 killed $s1 killed $q1
-; CHECK-BF16-NEXT:    bl powf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_pow:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    // kill: def $s1 killed $s1 killed $q1
+; CHECK-SD-NEXT:    bl powf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_pow:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    fcvt s1, h1
+; CHECK-GI-NEXT:    bl powf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.pow.f16(bfloat %a, bfloat %b)
   ret bfloat %r
 }
@@ -1453,16 +1980,25 @@ define bfloat @test_exp(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_exp:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl expf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_exp:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl expf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_exp:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl expf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.exp.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1486,16 +2022,25 @@ define bfloat @test_exp2(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_exp2:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl exp2f
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_exp2:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl exp2f
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_exp2:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl exp2f
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.exp2.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1519,16 +2064,25 @@ define bfloat @test_log(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_log:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl logf
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_log:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl logf
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_log:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl logf
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.log.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1552,16 +2106,25 @@ define bfloat @test_log10(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_log10:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl log10f
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_log10:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl log10f
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_log10:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl log10f
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.log10.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1585,16 +2148,25 @@ define bfloat @test_log2(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_log2:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    bl log2f
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_log2:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    bl log2f
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_log2:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    str x30, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-GI-NEXT:    fcvt s0, h0
+; CHECK-GI-NEXT:    bl log2f
+; CHECK-GI-NEXT:    bfcvt h0, s0
+; CHECK-GI-NEXT:    ldr x30, [sp], #16 // 8-byte Folded Reload
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.log2.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1619,30 +2191,49 @@ define bfloat @test_fma(bfloat %a, bfloat %b, bfloat %c) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_fma:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h2 killed $h2 def $d2
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v2.4s, v2.4h, #16
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fmadd s0, s0, s1, s2
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_fma:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h2 killed $h2 def $d2
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v2.4s, v2.4h, #16
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fmadd s0, s0, s1, s2
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fma:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fmadd h0, h0, h1, h2
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.fma.f16(bfloat %a, bfloat %b, bfloat %c)
   ret bfloat %r
 }
 
 define bfloat @test_fabs(bfloat %a) #0 {
-; CHECK-LABEL: test_fabs:
-; CHECK:       // %bb.0:
-; CHECK-NEXT:    // kill: def $h0 killed $h0 def $s0
-; CHECK-NEXT:    fmov w8, s0
-; CHECK-NEXT:    and w8, w8, #0x7fff
-; CHECK-NEXT:    fmov s0, w8
-; CHECK-NEXT:    // kill: def $h0 killed $h0 killed $s0
-; CHECK-NEXT:    ret
+; CHECK-CVT-LABEL: test_fabs:
+; CHECK-CVT:       // %bb.0:
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-CVT-NEXT:    fmov w8, s0
+; CHECK-CVT-NEXT:    and w8, w8, #0x7fff
+; CHECK-CVT-NEXT:    fmov s0, w8
+; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-CVT-NEXT:    ret
+;
+; CHECK-SD-LABEL: test_fabs:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $s0
+; CHECK-SD-NEXT:    fmov w8, s0
+; CHECK-SD-NEXT:    and w8, w8, #0x7fff
+; CHECK-SD-NEXT:    fmov s0, w8
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 killed $s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fabs:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fabs h0, h0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.fabs.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1665,15 +2256,20 @@ define bfloat @test_minnum(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_minnum:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fminnm s0, s0, s1
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_minnum:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fminnm s0, s0, s1
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_minnum:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fminnm h0, h0, h1
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.minnum.f16(bfloat %a, bfloat %b)
   ret bfloat %r
 }
@@ -1696,15 +2292,20 @@ define bfloat @test_maxnum(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_maxnum:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fmaxnm s0, s0, s1
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_maxnum:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fmaxnm s0, s0, s1
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_maxnum:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fmaxnm h0, h0, h1
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.maxnum.f16(bfloat %a, bfloat %b)
   ret bfloat %r
 }
@@ -1724,16 +2325,25 @@ define bfloat @test_copysign(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_copysign:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    mvni v2.4s, #128, lsl #24
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    bif v0.16b, v1.16b, v2.16b
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_copysign:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    mvni v2.4s, #128, lsl #24
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    bif v0.16b, v1.16b, v2.16b
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_copysign:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    mvni v2.4h, #128, lsl #8
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-GI-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-GI-NEXT:    bif v0.8b, v1.8b, v2.8b
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 killed $d0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.copysign.f16(bfloat %a, bfloat %b)
   ret bfloat %r
 }
@@ -1752,15 +2362,24 @@ define bfloat @test_copysign_f32(bfloat %a, float %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_copysign_f32:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    mvni v2.4s, #128, lsl #24
-; CHECK-BF16-NEXT:    // kill: def $s1 killed $s1 def $q1
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    bif v0.16b, v1.16b, v2.16b
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_copysign_f32:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    mvni v2.4s, #128, lsl #24
+; CHECK-SD-NEXT:    // kill: def $s1 killed $s1 def $q1
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    bif v0.16b, v1.16b, v2.16b
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_copysign_f32:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    bfcvt h1, s1
+; CHECK-GI-NEXT:    mvni v2.8h, #128, lsl #8
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 def $q0
+; CHECK-GI-NEXT:    bif v0.16b, v1.16b, v2.16b
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 killed $q0
+; CHECK-GI-NEXT:    ret
   %tb = fptrunc float %b to bfloat
   %r = call bfloat @llvm.copysign.f16(bfloat %a, bfloat %tb)
   ret bfloat %r
@@ -1780,15 +2399,25 @@ define bfloat @test_copysign_f64(bfloat %a, double %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_copysign_f64:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    fcvt s1, d1
-; CHECK-BF16-NEXT:    mvni v2.4s, #128, lsl #24
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    bif v0.16b, v1.16b, v2.16b
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_copysign_f64:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    fcvt s1, d1
+; CHECK-SD-NEXT:    mvni v2.4s, #128, lsl #24
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    bif v0.16b, v1.16b, v2.16b
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_copysign_f64:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fcvtxn s1, d1
+; CHECK-GI-NEXT:    mvni v2.8h, #128, lsl #8
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 def $q0
+; CHECK-GI-NEXT:    bfcvt h1, s1
+; CHECK-GI-NEXT:    bif v0.16b, v1.16b, v2.16b
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 killed $q0
+; CHECK-GI-NEXT:    ret
   %tb = fptrunc double %b to bfloat
   %r = call bfloat @llvm.copysign.f16(bfloat %a, bfloat %tb)
   ret bfloat %r
@@ -1814,20 +2443,30 @@ define float @test_copysign_extended(bfloat %a, bfloat %b) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $s0 killed $s0 killed $q0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_copysign_extended:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    movi v2.4s, #16
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    ushll v0.4s, v0.4h, #0
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    ushl v0.4s, v0.4s, v2.4s
-; CHECK-BF16-NEXT:    mvni v2.4s, #128, lsl #24
-; CHECK-BF16-NEXT:    bif v0.16b, v1.16b, v2.16b
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    // kill: def $s0 killed $s0 killed $q0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_copysign_extended:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    movi v2.4s, #16
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    ushll v0.4s, v0.4h, #0
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    ushl v0.4s, v0.4s, v2.4s
+; CHECK-SD-NEXT:    mvni v2.4s, #128, lsl #24
+; CHECK-SD-NEXT:    bif v0.16b, v1.16b, v2.16b
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_copysign_extended:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    mvni v2.8h, #128, lsl #8
+; CHECK-GI-NEXT:    // kill: def $h0 killed $h0 def $q0
+; CHECK-GI-NEXT:    // kill: def $h1 killed $h1 def $q1
+; CHECK-GI-NEXT:    bif v0.16b, v1.16b, v2.16b
+; CHECK-GI-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-GI-NEXT:    // kill: def $s0 killed $s0 killed $q0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.copysign.f16(bfloat %a, bfloat %b)
   %xr = fpext bfloat %r to float
   ret float %xr
@@ -1849,13 +2488,18 @@ define bfloat @test_floor(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_floor:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    frintm s0, s0
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_floor:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    frintm s0, s0
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_floor:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    frintm h0, h0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.floor.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1876,13 +2520,18 @@ define bfloat @test_ceil(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_ceil:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    frintp s0, s0
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_ceil:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    frintp s0, s0
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_ceil:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    frintp h0, h0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.ceil.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1903,13 +2552,18 @@ define bfloat @test_trunc(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_trunc:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    frintz s0, s0
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_trunc:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    frintz s0, s0
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_trunc:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    frintz h0, h0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.trunc.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1930,13 +2584,18 @@ define bfloat @test_rint(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_rint:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    frintx s0, s0
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_rint:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    frintx s0, s0
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_rint:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    frintx h0, h0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.rint.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1957,13 +2616,18 @@ define bfloat @test_nearbyint(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_nearbyint:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    frinti s0, s0
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_nearbyint:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    frinti s0, s0
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_nearbyint:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    frinti h0, h0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.nearbyint.f16(bfloat %a)
   ret bfloat %r
 }
@@ -1984,13 +2648,18 @@ define bfloat @test_round(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_round:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    frinta s0, s0
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_round:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    frinta s0, s0
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_round:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    frinta h0, h0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.round.f16(bfloat %a)
   ret bfloat %r
 }
@@ -2011,13 +2680,18 @@ define bfloat @test_roundeven(bfloat %a) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_roundeven:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    frintn s0, s0
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_roundeven:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    frintn s0, s0
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_roundeven:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    frintn h0, h0
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.roundeven.f16(bfloat %a)
   ret bfloat %r
 }
@@ -2050,20 +2724,26 @@ define bfloat @test_fmuladd(bfloat %a, bfloat %b, bfloat %c) #0 {
 ; CHECK-CVT-NEXT:    // kill: def $h0 killed $h0 killed $s0
 ; CHECK-CVT-NEXT:    ret
 ;
-; CHECK-BF16-LABEL: test_fmuladd:
-; CHECK-BF16:       // %bb.0:
-; CHECK-BF16-NEXT:    // kill: def $h1 killed $h1 def $d1
-; CHECK-BF16-NEXT:    // kill: def $h0 killed $h0 def $d0
-; CHECK-BF16-NEXT:    // kill: def $h2 killed $h2 def $d2
-; CHECK-BF16-NEXT:    shll v1.4s, v1.4h, #16
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fmul s0, s0, s1
-; CHECK-BF16-NEXT:    shll v1.4s, v2.4h, #16
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    shll v0.4s, v0.4h, #16
-; CHECK-BF16-NEXT:    fadd s0, s0, s1
-; CHECK-BF16-NEXT:    bfcvt h0, s0
-; CHECK-BF16-NEXT:    ret
+; CHECK-SD-LABEL: test_fmuladd:
+; CHECK-SD:       // %bb.0:
+; CHECK-SD-NEXT:    // kill: def $h1 killed $h1 def $d1
+; CHECK-SD-NEXT:    // kill: def $h0 killed $h0 def $d0
+; CHECK-SD-NEXT:    // kill: def $h2 killed $h2 def $d2
+; CHECK-SD-NEXT:    shll v1.4s, v1.4h, #16
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fmul s0, s0, s1
+; CHECK-SD-NEXT:    shll v1.4s, v2.4h, #16
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    shll v0.4s, v0.4h, #16
+; CHECK-SD-NEXT:    fadd s0, s0, s1
+; CHECK-SD-NEXT:    bfcvt h0, s0
+; CHECK-SD-NEXT:    ret
+;
+; CHECK-GI-LABEL: test_fmuladd:
+; CHECK-GI:       // %bb.0:
+; CHECK-GI-NEXT:    fmul h0, h0, h1
+; CHECK-GI-NEXT:    fadd h0, h0, h2
+; CHECK-GI-NEXT:    ret
   %r = call bfloat @llvm.fmuladd.f16(bfloat %a, bfloat %b, bfloat %c)
   ret bfloat %r
 }
diff --git a/llvm/test/CodeGen/AArch64/bf16.ll b/llvm/test/CodeGen/AArch64/bf16.ll
index d3911ae4c0339..a36b367a56b75 100644
--- a/llvm/test/CodeGen/AArch64/bf16.ll
+++ b/llvm/test/CodeGen/AArch64/bf16.ll
@@ -1,20 +1,23 @@
-; RUN: llc < %s -asm-verbose=0 -mtriple=arm64-eabi -mattr=+bf16 | FileCheck %s
-; RUN: llc < %s -asm-verbose=0 -mtriple=aarch64 -mattr=+bf16 | FileCheck %s
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
+; RUN: llc < %s -mtriple=arm64-eabi -mattr=+bf16 | FileCheck %s
+; RUN: llc < %s -mtriple=aarch64 -mattr=+bf16 | FileCheck %s
 
 ; test argument passing and simple load/store
 
 define bfloat @test_load(ptr %p) nounwind {
 ; CHECK-LABEL: test_load:
-; CHECK-NEXT: ldr h0, [x0]
-; CHECK-NEXT: ret
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr h0, [x0]
+; CHECK-NEXT:    ret
   %tmp1 = load bfloat, ptr %p, align 16
   ret bfloat %tmp1
 }
 
 define bfloat @test_load_offset1(ptr %p) nounwind {
 ; CHECK-LABEL: test_load_offset1:
-; CHECK-NEXT: ldur h0, [x0, #1]
-; CHECK-NEXT: ret
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldur h0, [x0, #1]
+; CHECK-NEXT:    ret
   %g = getelementptr inbounds i8, ptr %p, i64 1
   %tmp1 = load bfloat, ptr %g, align 2
   ret bfloat %tmp1
@@ -22,8 +25,9 @@ define bfloat @test_load_offset1(ptr %p) nounwind {
 
 define bfloat @test_load_offset2(ptr %p) nounwind {
 ; CHECK-LABEL: test_load_offset2:
-; CHECK-NEXT: ldr h0, [x0, #2]
-; CHECK-NEXT: ret
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr h0, [x0, #2]
+; CHECK-NEXT:    ret
   %g = getelementptr inbounds i8, ptr %p, i64 2
   %tmp1 = load bfloat, ptr %g, align 2
   ret bfloat %tmp1
@@ -31,24 +35,27 @@ define bfloat @test_load_offset2(ptr %p) nounwind {
 
 define <4 x bfloat> @test_vec_load(ptr %p) nounwind {
 ; CHECK-LABEL: test_vec_load:
-; CHECK-NEXT: ldr d0, [x0]
-; CHECK-NEXT: ret
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr d0, [x0]
+; CHECK-NEXT:    ret
   %tmp1 = load <4 x bfloat>, ptr %p, align 16
   ret <4 x bfloat> %tmp1
 }
 
 define void @test_store(ptr %a, bfloat %b) nounwind {
 ; CHECK-LABEL: test_store:
-; CHECK-NEXT: str h0, [x0]
-; CHECK-NEXT: ret
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    str h0, [x0]
+; CHECK-NEXT:    ret
   store bfloat %b, ptr %a, align 16
   ret void
 }
 
 define void @test_store_negative_offset(ptr %a, bfloat %b) nounwind {
 ; CHECK-LABEL: test_store_negative_offset:
-; CHECK-NEXT: stur    h0, [x0, #-4]
-; CHECK-NEXT: ret
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    stur h0, [x0, #-4]
+; CHECK-NEXT:    ret
 entry:
   %0 = getelementptr inbounds bfloat, ptr %a, i64 -2
   store bfloat %b, ptr %0, align 2
@@ -58,8 +65,9 @@ entry:
 ; Simple store of v4bf16
 define void @test_vec_store(ptr %a, <4 x bfloat> %b) nounwind {
 ; CHECK-LABEL: test_vec_store:
-; CHECK-NEXT: str d0, [x0]
-; CHECK-NEXT: ret
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    str d0, [x0]
+; CHECK-NEXT:    ret
 entry:
   store <4 x bfloat> %b, ptr %a, align 16
   ret void
@@ -67,60 +75,169 @@ entry:
 
 define <8 x bfloat> @test_build_vector_const() {
 ; CHECK-LABEL: test_build_vector_const:
-; CHECK: mov [[TMP:w[0-9]+]], #16256
-; CHECK: dup v0.8h, [[TMP]]
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    mov w8, #16256 // =0x3f80
+; CHECK-NEXT:    dup v0.8h, w8
+; CHECK-NEXT:    ret
   ret  <8 x bfloat> <bfloat 0xR3F80, bfloat 0xR3F80, bfloat 0xR3F80, bfloat 0xR3F80, bfloat 0xR3F80, bfloat 0xR3F80, bfloat 0xR3F80, bfloat 0xR3F80>
 }
 
-define { bfloat, ptr } @test_store_post(bfloat %val, ptr %ptr) {
+define ptr @test_store_post(bfloat %val, ptr %ptr) {
 ; CHECK-LABEL: test_store_post:
-; CHECK: str h0, [x0], #2
-
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    str h0, [x0], #2
+; CHECK-NEXT:    ret
   store bfloat %val, ptr %ptr
-  %res.tmp = insertvalue { bfloat, ptr } undef, bfloat %val, 0
+  %next = getelementptr bfloat, ptr %ptr, i32 1
+  ret ptr %next
+}
+
+define ptr @test_store_post_v4bf16(<4 x bfloat> %val, ptr %ptr) {
+; CHECK-LABEL: test_store_post_v4bf16:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    str d0, [x0], #8
+; CHECK-NEXT:    ret
+  store <4 x bfloat> %val, ptr %ptr
+  %next = getelementptr <4 x bfloat>, ptr %ptr, i32 1
+  ret ptr %next
+}
+
+define ptr @test_store_post_v8bf16(<8 x bfloat> %val, ptr %ptr) {
+; CHECK-LABEL: test_store_post_v8bf16:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    str q0, [x0], #16
+; CHECK-NEXT:    ret
+  store <8 x bfloat> %val, ptr %ptr
+  %next = getelementptr <8 x bfloat>, ptr %ptr, i32 1
+  ret ptr %next
+}
 
+define { bfloat, ptr } @test_load_post(ptr %ptr) {
+; CHECK-LABEL: test_load_post:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr h0, [x0], #2
+; CHECK-NEXT:    ret
+  %val = load bfloat, ptr %ptr
+  %res.tmp = insertvalue { bfloat, ptr } undef, bfloat %val, 0
   %next = getelementptr bfloat, ptr %ptr, i32 1
   %res = insertvalue { bfloat, ptr } %res.tmp, ptr %next, 1
-
   ret { bfloat, ptr } %res
 }
 
-define { <4 x bfloat>, ptr } @test_store_post_v4bf16(<4 x bfloat> %val, ptr %ptr) {
-; CHECK-LABEL: test_store_post_v4bf16:
-; CHECK: str d0, [x0], #8
-
-  store <4 x bfloat> %val, ptr %ptr
+define { <4 x bfloat>, ptr } @test_load_post_v4bf16(ptr %ptr) {
+; CHECK-LABEL: test_load_post_v4bf16:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr d0, [x0], #8
+; CHECK-NEXT:    ret
+  %val = load <4 x bfloat>, ptr %ptr
   %res.tmp = insertvalue { <4 x bfloat>, ptr } undef, <4 x bfloat> %val, 0
-
   %next = getelementptr <4 x bfloat>, ptr %ptr, i32 1
   %res = insertvalue { <4 x bfloat>, ptr } %res.tmp, ptr %next, 1
-
   ret { <4 x bfloat>, ptr } %res
 }
 
-define { <8 x bfloat>, ptr } @test_store_post_v8bf16(<8 x bfloat> %val, ptr %ptr) {
-; CHECK-LABEL: test_store_post_v8bf16:
-; CHECK: str q0, [x0], #16
-
-  store <8 x bfloat> %val, ptr %ptr
+define { <8 x bfloat>, ptr } @test_load_post_v8bf16(ptr %ptr) {
+; CHECK-LABEL: test_load_post_v8bf16:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr q0, [x0], #16
+; CHECK-NEXT:    ret
+  %val = load <8 x bfloat>, ptr %ptr
   %res.tmp = insertvalue { <8 x bfloat>, ptr } undef, <8 x bfloat> %val, 0
-
   %next = getelementptr <8 x bfloat>, ptr %ptr, i32 1
   %res = insertvalue { <8 x bfloat>, ptr } %res.tmp, ptr %next, 1
+  ret { <8 x bfloat>, ptr } %res
+}
 
+define ptr @test_store_pre(bfloat %val, ptr %ptr) {
+; CHECK-LABEL: test_store_pre:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    str h0, [x0, #2]!
+; CHECK-NEXT:    ret
+  %next = getelementptr bfloat, ptr %ptr, i32 1
+  store bfloat %val, ptr %next
+  ret ptr %next
+}
+
+define ptr @test_store_pre_v4bf16(<4 x bfloat> %val, ptr %ptr) {
+; CHECK-LABEL: test_store_pre_v4bf16:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    str d0, [x0, #8]!
+; CHECK-NEXT:    ret
+  %next = getelementptr <4 x bfloat>, ptr %ptr, i32 1
+  store <4 x bfloat> %val, ptr %next
+  ret ptr %next
+}
+
+define ptr @test_store_pre_v8bf16(<8 x bfloat> %val, ptr %ptr) {
+; CHECK-LABEL: test_store_pre_v8bf16:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    str q0, [x0, #16]!
+; CHECK-NEXT:    ret
+  %next = getelementptr <8 x bfloat>, ptr %ptr, i32 1
+  store <8 x bfloat> %val, ptr %next
+  ret ptr %next
+}
+
+define ptr @test_store_pre_v8bf16_trunc(ptr %ptr) {
+; CHECK-LABEL: test_store_pre_v8bf16_trunc:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr q0, [x0]
+; CHECK-NEXT:    str q0, [x0, #16]!
+; CHECK-NEXT:    ret
+  %t = load <8 x bfloat>, ptr %ptr
+  %next = getelementptr <8 x bfloat>, ptr %ptr, i32 1
+  store <8 x bfloat> %t, ptr %next
+  ret ptr %next
+}
+
+define { bfloat, ptr } @test_load_pre(ptr %ptr) {
+; CHECK-LABEL: test_load_pre:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr h0, [x0, #2]!
+; CHECK-NEXT:    ret
+  %next = getelementptr bfloat, ptr %ptr, i32 1
+  %val = load bfloat, ptr %next
+  %res.tmp = insertvalue { bfloat, ptr } undef, bfloat %val, 0
+  %res = insertvalue { bfloat, ptr } %res.tmp, ptr %next, 1
+  ret { bfloat, ptr } %res
+}
+
+define { <4 x bfloat>, ptr } @test_load_pre_v4bf16(ptr %ptr) {
+; CHECK-LABEL: test_load_pre_v4bf16:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr d0, [x0, #8]!
+; CHECK-NEXT:    ret
+  %next = getelementptr <4 x bfloat>, ptr %ptr, i32 1
+  %val = load <4 x bfloat>, ptr %next
+  %res.tmp = insertvalue { <4 x bfloat>, ptr } undef, <4 x bfloat> %val, 0
+  %res = insertvalue { <4 x bfloat>, ptr } %res.tmp, ptr %next, 1
+  ret { <4 x bfloat>, ptr } %res
+}
+
+define { <8 x bfloat>, ptr } @test_load_pre_v8bf16(ptr %ptr) {
+; CHECK-LABEL: test_load_pre_v8bf16:
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ldr q0, [x0, #16]!
+; CHECK-NEXT:    ret
+  %next = getelementptr <8 x bfloat>, ptr %ptr, i32 1
+  %val = load <8 x bfloat>, ptr %next
+  %res.tmp = insertvalue { <8 x bfloat>, ptr } undef, <8 x bfloat> %val, 0
+  %res = insertvalue { <8 x bfloat>, ptr } %res.tmp, ptr %next, 1
   ret { <8 x bfloat>, ptr } %res
 }
 
 define bfloat @test_bitcast_halftobfloat(half %a) nounwind {
 ; CHECK-LABEL: test_bitcast_halftobfloat:
-; CHECK-NEXT: ret
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ret
   %r = bitcast half %a to bfloat
   ret bfloat %r
 }
 
 define half @test_bitcast_bfloattohalf(bfloat %a) nounwind {
 ; CHECK-LABEL: test_bitcast_bfloattohalf:
-; CHECK-NEXT: ret
+; CHECK:       // %bb.0:
+; CHECK-NEXT:    ret
   %r = bitcast bfloat %a to half
   ret half %r
 }
diff --git a/llvm/test/CodeGen/AArch64/i128-math.ll b/llvm/test/CodeGen/AArch64/i128-math.ll
index 9ae906249826d..9e1c0c1b115ab 100644
--- a/llvm/test/CodeGen/AArch64/i128-math.ll
+++ b/llvm/test/CodeGen/AArch64/i128-math.ll
@@ -355,40 +355,32 @@ define i128 @i128_mul(i128 %x, i128 %y) {
 define { i128, i8 } @i128_checked_mul(i128 %x, i128 %y) {
 ; CHECK-LABEL: i128_checked_mul:
 ; CHECK:       // %bb.0:
-; CHECK-NEXT:    asr x8, x1, #63
-; CHECK-NEXT:    asr x11, x3, #63
-; CHECK-NEXT:    umulh x13, x0, x2
-; CHECK-NEXT:    mul x9, x2, x8
-; CHECK-NEXT:    umulh x10, x2, x8
-; CHECK-NEXT:    umulh x12, x11, x0
-; CHECK-NEXT:    mul x14, x1, x2
-; CHECK-NEXT:    add x10, x10, x9
-; CHECK-NEXT:    madd x8, x3, x8, x10
-; CHECK-NEXT:    madd x10, x11, x1, x12
-; CHECK-NEXT:    mul x11, x11, x0
-; CHECK-NEXT:    umulh x12, x1, x2
-; CHECK-NEXT:    mul x15, x0, x3
-; CHECK-NEXT:    add x10, x10, x11
-; CHECK-NEXT:    adds x9, x11, x9
-; CHECK-NEXT:    umulh x16, x0, x3
-; CHECK-NEXT:    adc x10, x10, x8
-; CHECK-NEXT:    adds x8, x14, x13
-; CHECK-NEXT:    cinc x12, x12, hs
-; CHECK-NEXT:    mul x11, x1, x3
-; CHECK-NEXT:    adds x8, x15, x8
-; CHECK-NEXT:    umulh x13, x1, x3
+; CHECK-NEXT:    asr x9, x1, #63
+; CHECK-NEXT:    umulh x10, x0, x2
+; CHECK-NEXT:    asr x13, x3, #63
+; CHECK-NEXT:    mul x11, x1, x2
+; CHECK-NEXT:    umulh x8, x1, x2
+; CHECK-NEXT:    mul x9, x9, x2
+; CHECK-NEXT:    adds x10, x11, x10
+; CHECK-NEXT:    mul x14, x0, x3
+; CHECK-NEXT:    umulh x12, x0, x3
+; CHECK-NEXT:    adc x9, x8, x9
+; CHECK-NEXT:    mul x13, x0, x13
+; CHECK-NEXT:    adds x8, x14, x10
+; CHECK-NEXT:    mul x15, x1, x3
+; CHECK-NEXT:    smulh x10, x1, x3
 ; CHECK-NEXT:    mov x1, x8
-; CHECK-NEXT:    cinc x14, x16, hs
-; CHECK-NEXT:    adds x12, x12, x14
+; CHECK-NEXT:    adc x11, x12, x13
+; CHECK-NEXT:    asr x12, x9, #63
+; CHECK-NEXT:    asr x13, x11, #63
+; CHECK-NEXT:    adds x9, x9, x11
+; CHECK-NEXT:    asr x11, x8, #63
 ; CHECK-NEXT:    mul x0, x0, x2
-; CHECK-NEXT:    cset w14, hs
-; CHECK-NEXT:    adds x11, x11, x12
-; CHECK-NEXT:    asr x12, x8, #63
-; CHECK-NEXT:    adc x13, x13, x14
-; CHECK-NEXT:    adds x9, x11, x9
-; CHECK-NEXT:    adc x10, x13, x10
-; CHECK-NEXT:    cmp x9, x12
-; CHECK-NEXT:    ccmp x10, x12, #0, eq
+; CHECK-NEXT:    adc x12, x12, x13
+; CHECK-NEXT:    adds x9, x15, x9
+; CHECK-NEXT:    adc x10, x10, x12
+; CHECK-NEXT:    cmp x9, x11
+; CHECK-NEXT:    ccmp x10, x11, #0, eq
 ; CHECK-NEXT:    cset w2, eq
 ; CHECK-NEXT:    ret
   %1 = tail call { i128, i1 } @llvm.smul.with.overflow.i128(i128 %x, i128 %y)
@@ -404,40 +396,32 @@ define { i128, i8 } @i128_checked_mul(i128 %x, i128 %y) {
 define { i128, i8 } @i128_overflowing_mul(i128 %x, i128 %y) {
 ; CHECK-LABEL: i128_overflowing_mul:
 ; CHECK:       // %bb.0:
-; CHECK-NEXT:    asr x8, x1, #63
-; CHECK-NEXT:    asr x11, x3, #63
-; CHECK-NEXT:    umulh x13, x0, x2
-; CHECK-NEXT:    mul x9, x2, x8
-; CHECK-NEXT:    umulh x10, x2, x8
-; CHECK-NEXT:    umulh x12, x11, x0
-; CHECK-NEXT:    mul x14, x1, x2
-; CHECK-NEXT:    add x10, x10, x9
-; CHECK-NEXT:    madd x8, x3, x8, x10
-; CHECK-NEXT:    madd x10, x11, x1, x12
-; CHECK-NEXT:    mul x11, x11, x0
-; CHECK-NEXT:    umulh x12, x1, x2
-; CHECK-NEXT:    mul x15, x0, x3
-; CHECK-NEXT:    add x10, x10, x11
-; CHECK-NEXT:    adds x9, x11, x9
-; CHECK-NEXT:    umulh x16, x0, x3
-; CHECK-NEXT:    adc x10, x10, x8
-; CHECK-NEXT:    adds x8, x14, x13
-; CHECK-NEXT:    cinc x12, x12, hs
-; CHECK-NEXT:    mul x11, x1, x3
-; CHECK-NEXT:    adds x8, x15, x8
-; CHECK-NEXT:    umulh x13, x1, x3
+; CHECK-NEXT:    asr x9, x1, #63
+; CHECK-NEXT:    umulh x10, x0, x2
+; CHECK-NEXT:    asr x13, x3, #63
+; CHECK-NEXT:    mul x11, x1, x2
+; CHECK-NEXT:    umulh x8, x1, x2
+; CHECK-NEXT:    mul x9, x9, x2
+; CHECK-NEXT:    adds x10, x11, x10
+; CHECK-NEXT:    mul x14, x0, x3
+; CHECK-NEXT:    umulh x12, x0, x3
+; CHECK-NEXT:    adc x9, x8, x9
+; CHECK-NEXT:    mul x13, x0, x13
+; CHECK-NEXT:    adds x8, x14, x10
+; CHECK-NEXT:    mul x15, x1, x3
+; CHECK-NEXT:    smulh x10, x1, x3
 ; CHECK-NEXT:    mov x1, x8
-; CHECK-NEXT:    cinc x14, x16, hs
-; CHECK-NEXT:    adds x12, x12, x14
+; CHECK-NEXT:    adc x11, x12, x13
+; CHECK-NEXT:    asr x12, x9, #63
+; CHECK-NEXT:    asr x13, x11, #63
+; CHECK-NEXT:    adds x9, x9, x11
+; CHECK-NEXT:    asr x11, x8, #63
 ; CHECK-NEXT:    mul x0, x0, x2
-; CHECK-NEXT:    cset w14, hs
-; CHECK-NEXT:    adds x11, x11, x12
-; CHECK-NEXT:    asr x12, x8, #63
-; CHECK-NEXT:    adc x13, x13, x14
-; CHECK-NEXT:    adds x9, x11, x9
-; CHECK-NEXT:    adc x10, x13, x10
-; CHECK-NEXT:    cmp x9, x12
-; CHECK-NEXT:    ccmp x10, x12, #0, eq
+; CHECK-NEXT:    adc x12, x12, x13
+; CHECK-NEXT:    adds x9, x15, x9
+; CHECK-NEXT:    adc x10, x10, x12
+; CHECK-NEXT:    cmp x9, x11
+; CHECK-NEXT:    ccmp x10, x11, #0, eq
 ; CHECK-NEXT:    cset w2, ne
 ; CHECK-NEXT:    ret
   %1 = tail call { i128, i1 } @llvm.smul.with.overflow.i128(i128 %x, i128 %y)
@@ -452,46 +436,38 @@ define { i128, i8 } @i128_overflowing_mul(i128 %x, i128 %y) {
 define i128 @i128_saturating_mul(i128 %x, i128 %y) {
 ; CHECK-LABEL: i128_saturating_mul:
 ; CHECK:       // %bb.0:
-; CHECK-NEXT:    asr x8, x1, #63
-; CHECK-NEXT:    asr x11, x3, #63
-; CHECK-NEXT:    umulh x13, x0, x2
-; CHECK-NEXT:    mul x9, x2, x8
-; CHECK-NEXT:    umulh x10, x2, x8
-; CHECK-NEXT:    umulh x12, x11, x0
-; CHECK-NEXT:    mul x14, x1, x2
-; CHECK-NEXT:    add x10, x10, x9
-; CHECK-NEXT:    madd x8, x3, x8, x10
-; CHECK-NEXT:    madd x10, x11, x1, x12
-; CHECK-NEXT:    mul x11, x11, x0
-; CHECK-NEXT:    umulh x12, x1, x2
-; CHECK-NEXT:    mul x16, x0, x3
-; CHECK-NEXT:    add x10, x10, x11
-; CHECK-NEXT:    adds x9, x11, x9
-; CHECK-NEXT:    umulh x15, x0, x3
-; CHECK-NEXT:    adc x8, x10, x8
-; CHECK-NEXT:    adds x10, x14, x13
-; CHECK-NEXT:    cinc x12, x12, hs
-; CHECK-NEXT:    mul x17, x1, x3
-; CHECK-NEXT:    adds x10, x16, x10
-; CHECK-NEXT:    umulh x11, x1, x3
-; CHECK-NEXT:    cinc x13, x15, hs
-; CHECK-NEXT:    adds x12, x12, x13
-; CHECK-NEXT:    cset w13, hs
-; CHECK-NEXT:    adds x12, x17, x12
-; CHECK-NEXT:    adc x11, x11, x13
-; CHECK-NEXT:    adds x9, x12, x9
-; CHECK-NEXT:    asr x12, x10, #63
+; CHECK-NEXT:    asr x9, x1, #63
+; CHECK-NEXT:    umulh x10, x0, x2
+; CHECK-NEXT:    asr x13, x3, #63
+; CHECK-NEXT:    mul x11, x1, x2
+; CHECK-NEXT:    umulh x8, x1, x2
+; CHECK-NEXT:    mul x9, x9, x2
+; CHECK-NEXT:    adds x10, x11, x10
+; CHECK-NEXT:    mul x14, x0, x3
+; CHECK-NEXT:    umulh x12, x0, x3
+; CHECK-NEXT:    adc x8, x8, x9
+; CHECK-NEXT:    mul x13, x0, x13
+; CHECK-NEXT:    adds x9, x14, x10
+; CHECK-NEXT:    mul x11, x1, x3
+; CHECK-NEXT:    adc x10, x12, x13
+; CHECK-NEXT:    smulh x12, x1, x3
+; CHECK-NEXT:    asr x13, x8, #63
+; CHECK-NEXT:    asr x14, x10, #63
+; CHECK-NEXT:    adds x8, x8, x10
+; CHECK-NEXT:    adc x10, x13, x14
+; CHECK-NEXT:    adds x8, x11, x8
+; CHECK-NEXT:    asr x11, x9, #63
 ; CHECK-NEXT:    mul x13, x0, x2
-; CHECK-NEXT:    adc x8, x11, x8
-; CHECK-NEXT:    eor x11, x3, x1
-; CHECK-NEXT:    eor x8, x8, x12
-; CHECK-NEXT:    eor x9, x9, x12
-; CHECK-NEXT:    asr x11, x11, #63
-; CHECK-NEXT:    orr x8, x9, x8
-; CHECK-NEXT:    eor x9, x11, #0x7fffffffffffffff
+; CHECK-NEXT:    adc x10, x12, x10
+; CHECK-NEXT:    eor x12, x3, x1
+; CHECK-NEXT:    eor x8, x8, x11
+; CHECK-NEXT:    eor x10, x10, x11
+; CHECK-NEXT:    asr x11, x12, #63
+; CHECK-NEXT:    orr x8, x8, x10
+; CHECK-NEXT:    eor x10, x11, #0x7fffffffffffffff
 ; CHECK-NEXT:    cmp x8, #0
-; CHECK-NEXT:    csel x1, x9, x10, ne
 ; CHECK-NEXT:    csinv x0, x13, x11, eq
+; CHECK-NEXT:    csel x1, x10, x9, ne
 ; CHECK-NEXT:    ret
   %1 = tail call { i128, i1 } @llvm.smul.with.overflow.i128(i128 %x, i128 %y)
   %2 = extractvalue { i128, i1 } %1, 0
diff --git a/llvm/test/CodeGen/AArch64/sme2-intrinsics-int-dots.ll b/llvm/test/CodeGen/AArch64/sme2-intrinsics-int-dots.ll
index 86ed63d743713..967d168593a40 100644
--- a/llvm/test/CodeGen/AArch64/sme2-intrinsics-int-dots.ll
+++ b/llvm/test/CodeGen/AArch64/sme2-intrinsics-int-dots.ll
@@ -319,6 +319,41 @@ define void @udot_single_za32_u16_vg1x2(i32 %slice, <vscale x 16 x i8> %unused,
   ret void
 }
 
+define void @udot_single_za32_u16_vg1x2_tuple(ptr %ptr, i64 %stride, <vscale x 8 x i16> %zn) #0 {
+; CHECK-LABEL: udot_single_za32_u16_vg1x2_tuple:
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    str x29, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-NEXT:    addvl sp, sp, #-3
+; CHECK-NEXT:    str p8, [sp, #7, mul vl] // 2-byte Folded Spill
+; CHECK-NEXT:    ptrue pn8.b
+; CHECK-NEXT:    add x9, x0, x1
+; CHECK-NEXT:    str z10, [sp, #1, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    mov w8, wzr
+; CHECK-NEXT:    str z9, [sp, #2, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    ld1h { z1.h, z9.h }, pn8/z, [x0]
+; CHECK-NEXT:    ld1h { z2.h, z10.h }, pn8/z, [x9]
+; CHECK-NEXT:    udot za.s[w8, 0, vgx2], { z1.h, z2.h }, z0.h
+; CHECK-NEXT:    udot za.s[w8, 0, vgx2], { z9.h, z10.h }, z0.h
+; CHECK-NEXT:    ldr z10, [sp, #1, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z9, [sp, #2, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr p8, [sp, #7, mul vl] // 2-byte Folded Reload
+; CHECK-NEXT:    addvl sp, sp, #3
+; CHECK-NEXT:    ldr x29, [sp], #16 // 8-byte Folded Reload
+; CHECK-NEXT:    ret
+entry:
+  %0 = tail call target("aarch64.svcount") @llvm.aarch64.sve.ptrue.c8()
+  %1 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x2.nxv8i16(target("aarch64.svcount") %0, ptr %ptr)
+  %2 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 0
+  %3 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 1
+  %arrayidx2 = getelementptr inbounds i8, ptr %ptr, i64 %stride
+  %4 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x2.nxv8i16(target("aarch64.svcount") %0, ptr %arrayidx2)
+  %5 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %4, 0
+  %6 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %4, 1
+  call void @llvm.aarch64.sme.udot.single.za32.vg1x2.nxv8i16(i32 0, <vscale x 8 x i16> %2, <vscale x 8 x i16> %5, <vscale x 8 x i16> %zn)
+  call void @llvm.aarch64.sme.udot.single.za32.vg1x2.nxv8i16(i32 0, <vscale x 8 x i16> %3, <vscale x 8 x i16> %6, <vscale x 8 x i16> %zn)
+  ret void
+}
+
 define void @udot_single_za32_u16_vg1x4(i32 %slice, <vscale x 16 x i8> %unused, <vscale x 8 x i16> %zn0, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2, <vscale x 8 x i16> %zn3, <vscale x 8 x i16> %zn4) #0 {
 ; CHECK-LABEL: udot_single_za32_u16_vg1x4:
 ; CHECK:       // %bb.0:
@@ -332,6 +367,87 @@ define void @udot_single_za32_u16_vg1x4(i32 %slice, <vscale x 16 x i8> %unused,
   ret void
 }
 
+define void @udot_single_za32_u16_vg1x4_tuple(ptr %ptr, i64 %stride, <vscale x 8 x i16> %zn) #0 {
+; CHECK-LABEL: udot_single_za32_u16_vg1x4_tuple:
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    str x29, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-NEXT:    addvl sp, sp, #-11
+; CHECK-NEXT:    add x9, x1, x1, lsl #1
+; CHECK-NEXT:    str p8, [sp, #7, mul vl] // 2-byte Folded Spill
+; CHECK-NEXT:    ptrue pn8.b
+; CHECK-NEXT:    str z20, [sp, #1, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    add x10, x0, x1
+; CHECK-NEXT:    mov w8, wzr
+; CHECK-NEXT:    str z16, [sp, #2, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    add x9, x0, x9
+; CHECK-NEXT:    str z15, [sp, #3, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z14, [sp, #4, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z13, [sp, #5, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z12, [sp, #6, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z11, [sp, #7, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z10, [sp, #8, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z9, [sp, #9, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z8, [sp, #10, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    ld1h { z1.h, z5.h, z9.h, z13.h }, pn8/z, [x0]
+; CHECK-NEXT:    ld1h { z2.h, z6.h, z10.h, z14.h }, pn8/z, [x10]
+; CHECK-NEXT:    ld1h { z3.h, z7.h, z11.h, z15.h }, pn8/z, [x0, x1, lsl #1]
+; CHECK-NEXT:    ld1h { z16.h, z20.h, z24.h, z28.h }, pn8/z, [x9]
+; CHECK-NEXT:    mov z4.d, z16.d
+; CHECK-NEXT:    mov z8.d, z20.d
+; CHECK-NEXT:    mov z12.d, z24.d
+; CHECK-NEXT:    mov z16.d, z28.d
+; CHECK-NEXT:    udot za.s[w8, 0, vgx4], { z1.h - z4.h }, z0.h
+; CHECK-NEXT:    udot za.s[w8, 0, vgx4], { z5.h - z8.h }, z0.h
+; CHECK-NEXT:    udot za.s[w8, 0, vgx4], { z9.h - z12.h }, z0.h
+; CHECK-NEXT:    udot za.s[w8, 0, vgx4], { z13.h - z16.h }, z0.h
+; CHECK-NEXT:    ldr z20, [sp, #1, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z16, [sp, #2, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z15, [sp, #3, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z14, [sp, #4, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z13, [sp, #5, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z12, [sp, #6, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z11, [sp, #7, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z10, [sp, #8, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z9, [sp, #9, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z8, [sp, #10, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr p8, [sp, #7, mul vl] // 2-byte Folded Reload
+; CHECK-NEXT:    addvl sp, sp, #11
+; CHECK-NEXT:    ldr x29, [sp], #16 // 8-byte Folded Reload
+; CHECK-NEXT:    ret
+entry:
+  %0 = tail call target("aarch64.svcount") @llvm.aarch64.sve.ptrue.c8()
+  %1 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x4.nxv8i16(target("aarch64.svcount") %0, ptr %ptr)
+  %2 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 0
+  %3 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 1
+  %4 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 2
+  %5 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 3
+  %arrayidx2 = getelementptr inbounds i8, ptr %ptr, i64 %stride
+  %6 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x4.nxv8i16(target("aarch64.svcount") %0, ptr %arrayidx2)
+  %7 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %6, 0
+  %8 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %6, 1
+  %9 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %6, 2
+  %10 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %6, 3
+  %mul3 = shl i64 %stride, 1
+  %arrayidx4 = getelementptr inbounds i8, ptr %ptr, i64 %mul3
+  %11 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x4.nxv8i16(target("aarch64.svcount") %0, ptr %arrayidx4)
+  %12 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %11, 0
+  %13 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %11, 1
+  %14 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %11, 2
+  %15 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %11, 3
+  %mul5 = mul i64 %stride, 3
+  %arrayidx6 = getelementptr inbounds i8, ptr %ptr, i64 %mul5
+  %16 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x4.nxv8i16(target("aarch64.svcount") %0, ptr %arrayidx6)
+  %17 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %16, 0
+  %18 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %16, 1
+  %19 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %16, 2
+  %20 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %16, 3
+  call void @llvm.aarch64.sme.udot.single.za32.vg1x4.nxv8i16(i32 0, <vscale x 8 x i16> %2, <vscale x 8 x i16> %7, <vscale x 8 x i16> %12, <vscale x 8 x i16> %17, <vscale x 8 x i16> %zn)
+  call void @llvm.aarch64.sme.udot.single.za32.vg1x4.nxv8i16(i32 0, <vscale x 8 x i16> %3, <vscale x 8 x i16> %8, <vscale x 8 x i16> %13, <vscale x 8 x i16> %18, <vscale x 8 x i16> %zn)
+  call void @llvm.aarch64.sme.udot.single.za32.vg1x4.nxv8i16(i32 0, <vscale x 8 x i16> %4, <vscale x 8 x i16> %9, <vscale x 8 x i16> %14, <vscale x 8 x i16> %19, <vscale x 8 x i16> %zn)
+  call void @llvm.aarch64.sme.udot.single.za32.vg1x4.nxv8i16(i32 0, <vscale x 8 x i16> %5, <vscale x 8 x i16> %10, <vscale x 8 x i16> %15, <vscale x 8 x i16> %20, <vscale x 8 x i16> %zn)
+  ret void
+}
+
 define void @udot_single_za32_u8_vg1x2(i32 %slice, <vscale x 16 x i8> %unused, <vscale x 16 x i8> %zn0, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2) #0 {
 ; CHECK-LABEL: udot_single_za32_u8_vg1x2:
 ; CHECK:       // %bb.0:
@@ -397,6 +513,40 @@ define void @usdot_single_za32_u8_vg1x2(i32 %slice, <vscale x 16 x i8> %unused,
   ret void
 }
 
+define void @usdot_single_za32_u16_vg1x2_tuple(ptr %ptr, i64 %stride, <vscale x 16 x i8> %zn) #0 {
+; CHECK-LABEL: usdot_single_za32_u16_vg1x2_tuple:
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    str x29, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-NEXT:    addvl sp, sp, #-3
+; CHECK-NEXT:    str p8, [sp, #7, mul vl] // 2-byte Folded Spill
+; CHECK-NEXT:    ptrue pn8.b
+; CHECK-NEXT:    mov w8, wzr
+; CHECK-NEXT:    str z10, [sp, #1, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z9, [sp, #2, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    ld1b { z1.b, z9.b }, pn8/z, [x0]
+; CHECK-NEXT:    ld1b { z2.b, z10.b }, pn8/z, [x0, x1]
+; CHECK-NEXT:    usdot za.s[w8, 0, vgx2], { z1.b, z2.b }, z0.b
+; CHECK-NEXT:    usdot za.s[w8, 0, vgx2], { z9.b, z10.b }, z0.b
+; CHECK-NEXT:    ldr z10, [sp, #1, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z9, [sp, #2, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr p8, [sp, #7, mul vl] // 2-byte Folded Reload
+; CHECK-NEXT:    addvl sp, sp, #3
+; CHECK-NEXT:    ldr x29, [sp], #16 // 8-byte Folded Reload
+; CHECK-NEXT:    ret
+entry:
+  %0 = tail call target("aarch64.svcount") @llvm.aarch64.sve.ptrue.c8()
+  %1 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x2.nxv16i8(target("aarch64.svcount") %0, ptr %ptr)
+  %2 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 0
+  %3 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 1
+  %arrayidx2 = getelementptr inbounds i8, ptr %ptr, i64 %stride
+  %4 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x2.nxv16i8(target("aarch64.svcount") %0, ptr %arrayidx2)
+  %5 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %4, 0
+  %6 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %4, 1
+  call void @llvm.aarch64.sme.usdot.single.za32.vg1x2.nxv16i8(i32 0, <vscale x 16 x i8> %2, <vscale x 16 x i8> %5, <vscale x 16 x i8> %zn)
+  call void @llvm.aarch64.sme.usdot.single.za32.vg1x2.nxv16i8(i32 0, <vscale x 16 x i8> %3, <vscale x 16 x i8> %6, <vscale x 16 x i8> %zn)
+  ret void
+}
+
 define void @usdot_single_za32_u8_vg1x4(i32 %slice, <vscale x 16 x i8> %unused, <vscale x 16 x i8> %zn0, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2, <vscale x 16 x i8> %zn3, <vscale x 16 x i8> %zn4) #0 {
 ; CHECK-LABEL: usdot_single_za32_u8_vg1x4:
 ; CHECK:       // %bb.0:
@@ -410,6 +560,85 @@ define void @usdot_single_za32_u8_vg1x4(i32 %slice, <vscale x 16 x i8> %unused,
   ret void
 }
 
+define void @usdot_single_za32_u16_vg1x4_tuple(ptr %ptr, i64 %stride, <vscale x 16 x i8> %zn) #0 {
+; CHECK-LABEL: usdot_single_za32_u16_vg1x4_tuple:
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    str x29, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-NEXT:    addvl sp, sp, #-11
+; CHECK-NEXT:    lsl x9, x1, #1
+; CHECK-NEXT:    str p8, [sp, #7, mul vl] // 2-byte Folded Spill
+; CHECK-NEXT:    ptrue pn8.b
+; CHECK-NEXT:    str z20, [sp, #1, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    mov w8, wzr
+; CHECK-NEXT:    str z16, [sp, #2, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    add x10, x9, x1
+; CHECK-NEXT:    str z15, [sp, #3, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z14, [sp, #4, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z13, [sp, #5, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z12, [sp, #6, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z11, [sp, #7, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z10, [sp, #8, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z9, [sp, #9, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z8, [sp, #10, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    ld1b { z1.b, z5.b, z9.b, z13.b }, pn8/z, [x0]
+; CHECK-NEXT:    ld1b { z2.b, z6.b, z10.b, z14.b }, pn8/z, [x0, x1]
+; CHECK-NEXT:    ld1b { z3.b, z7.b, z11.b, z15.b }, pn8/z, [x0, x9]
+; CHECK-NEXT:    ld1b { z16.b, z20.b, z24.b, z28.b }, pn8/z, [x0, x10]
+; CHECK-NEXT:    mov z4.d, z16.d
+; CHECK-NEXT:    mov z8.d, z20.d
+; CHECK-NEXT:    mov z12.d, z24.d
+; CHECK-NEXT:    mov z16.d, z28.d
+; CHECK-NEXT:    usdot za.s[w8, 0, vgx4], { z1.b - z4.b }, z0.b
+; CHECK-NEXT:    usdot za.s[w8, 0, vgx4], { z5.b - z8.b }, z0.b
+; CHECK-NEXT:    usdot za.s[w8, 0, vgx4], { z9.b - z12.b }, z0.b
+; CHECK-NEXT:    usdot za.s[w8, 0, vgx4], { z13.b - z16.b }, z0.b
+; CHECK-NEXT:    ldr z20, [sp, #1, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z16, [sp, #2, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z15, [sp, #3, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z14, [sp, #4, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z13, [sp, #5, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z12, [sp, #6, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z11, [sp, #7, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z10, [sp, #8, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z9, [sp, #9, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z8, [sp, #10, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr p8, [sp, #7, mul vl] // 2-byte Folded Reload
+; CHECK-NEXT:    addvl sp, sp, #11
+; CHECK-NEXT:    ldr x29, [sp], #16 // 8-byte Folded Reload
+; CHECK-NEXT:    ret
+entry:
+  %0 = tail call target("aarch64.svcount") @llvm.aarch64.sve.ptrue.c8()
+  %1 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x4.nxv16i8(target("aarch64.svcount") %0, ptr %ptr)
+  %2 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 0
+  %3 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 1
+  %4 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 2
+  %5 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 3
+  %arrayidx2 = getelementptr inbounds i8, ptr %ptr, i64 %stride
+  %6 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x4.nxv16i8(target("aarch64.svcount") %0, ptr %arrayidx2)
+  %7 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, 0
+  %8 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, 1
+  %9 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, 2
+  %10 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, 3
+  %mul3 = shl i64 %stride, 1
+  %arrayidx4 = getelementptr inbounds i8, ptr %ptr, i64 %mul3
+  %11 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x4.nxv16i8(target("aarch64.svcount") %0, ptr %arrayidx4)
+  %12 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %11, 0
+  %13 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %11, 1
+  %14 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %11, 2
+  %15 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %11, 3
+  %mul5 = mul i64 %stride, 3
+  %arrayidx6 = getelementptr inbounds i8, ptr %ptr, i64 %mul5
+  %16 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x4.nxv16i8(target("aarch64.svcount") %0, ptr %arrayidx6)
+  %17 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %16, 0
+  %18 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %16, 1
+  %19 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %16, 2
+  %20 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %16, 3
+  call void @llvm.aarch64.sme.usdot.single.za32.vg1x4.nxv16i8(i32 0, <vscale x 16 x i8> %2, <vscale x 16 x i8> %7, <vscale x 16 x i8> %12, <vscale x 16 x i8> %17, <vscale x 16 x i8> %zn)
+  call void @llvm.aarch64.sme.usdot.single.za32.vg1x4.nxv16i8(i32 0, <vscale x 16 x i8> %3, <vscale x 16 x i8> %8, <vscale x 16 x i8> %13, <vscale x 16 x i8> %18, <vscale x 16 x i8> %zn)
+  call void @llvm.aarch64.sme.usdot.single.za32.vg1x4.nxv16i8(i32 0, <vscale x 16 x i8> %4, <vscale x 16 x i8> %9, <vscale x 16 x i8> %14, <vscale x 16 x i8> %19, <vscale x 16 x i8> %zn)
+  call void @llvm.aarch64.sme.usdot.single.za32.vg1x4.nxv16i8(i32 0, <vscale x 16 x i8> %5, <vscale x 16 x i8> %10, <vscale x 16 x i8> %15, <vscale x 16 x i8> %20, <vscale x 16 x i8> %zn)
+  ret void
+}
 
 ; == Multi, single (signed) ==
 
@@ -426,6 +655,41 @@ define void @sdot_single_za32_u16_vg1x2(i32 %slice, <vscale x 16 x i8> %unused,
   ret void
 }
 
+define void @sdot_single_za32_u16_vg1x2_tuple(ptr %ptr, i64 %stride, <vscale x 8 x i16> %zn) #0 {
+; CHECK-LABEL: sdot_single_za32_u16_vg1x2_tuple:
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    str x29, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-NEXT:    addvl sp, sp, #-3
+; CHECK-NEXT:    str p8, [sp, #7, mul vl] // 2-byte Folded Spill
+; CHECK-NEXT:    ptrue pn8.b
+; CHECK-NEXT:    add x9, x0, x1
+; CHECK-NEXT:    str z10, [sp, #1, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    mov w8, wzr
+; CHECK-NEXT:    str z9, [sp, #2, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    ld1h { z1.h, z9.h }, pn8/z, [x0]
+; CHECK-NEXT:    ld1h { z2.h, z10.h }, pn8/z, [x9]
+; CHECK-NEXT:    sdot za.s[w8, 0, vgx2], { z1.h, z2.h }, z0.h
+; CHECK-NEXT:    sdot za.s[w8, 0, vgx2], { z9.h, z10.h }, z0.h
+; CHECK-NEXT:    ldr z10, [sp, #1, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z9, [sp, #2, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr p8, [sp, #7, mul vl] // 2-byte Folded Reload
+; CHECK-NEXT:    addvl sp, sp, #3
+; CHECK-NEXT:    ldr x29, [sp], #16 // 8-byte Folded Reload
+; CHECK-NEXT:    ret
+entry:
+  %0 = tail call target("aarch64.svcount") @llvm.aarch64.sve.ptrue.c8()
+  %1 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x2.nxv8i16(target("aarch64.svcount") %0, ptr %ptr)
+  %2 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 0
+  %3 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 1
+  %arrayidx2 = getelementptr inbounds i8, ptr %ptr, i64 %stride
+  %4 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x2.nxv8i16(target("aarch64.svcount") %0, ptr %arrayidx2)
+  %5 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %4, 0
+  %6 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %4, 1
+  call void @llvm.aarch64.sme.sdot.single.za32.vg1x2.nxv8i16(i32 0, <vscale x 8 x i16> %2, <vscale x 8 x i16> %5, <vscale x 8 x i16> %zn)
+  call void @llvm.aarch64.sme.sdot.single.za32.vg1x2.nxv8i16(i32 0, <vscale x 8 x i16> %3, <vscale x 8 x i16> %6, <vscale x 8 x i16> %zn)
+  ret void
+}
+
 define void @sdot_single_za32_u16_vg1x4(i32 %slice, <vscale x 16 x i8> %unused, <vscale x 8 x i16> %zn0, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2, <vscale x 8 x i16> %zn3, <vscale x 8 x i16> %zn4) #0 {
 ; CHECK-LABEL: sdot_single_za32_u16_vg1x4:
 ; CHECK:       // %bb.0:
@@ -439,6 +703,87 @@ define void @sdot_single_za32_u16_vg1x4(i32 %slice, <vscale x 16 x i8> %unused,
   ret void
 }
 
+define void @sdot_single_za32_u16_vg1x4_tuple(ptr %ptr, i64 %stride, <vscale x 8 x i16> %zn) #0 {
+; CHECK-LABEL: sdot_single_za32_u16_vg1x4_tuple:
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    str x29, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-NEXT:    addvl sp, sp, #-11
+; CHECK-NEXT:    add x9, x1, x1, lsl #1
+; CHECK-NEXT:    str p8, [sp, #7, mul vl] // 2-byte Folded Spill
+; CHECK-NEXT:    ptrue pn8.b
+; CHECK-NEXT:    str z20, [sp, #1, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    add x10, x0, x1
+; CHECK-NEXT:    mov w8, wzr
+; CHECK-NEXT:    str z16, [sp, #2, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    add x9, x0, x9
+; CHECK-NEXT:    str z15, [sp, #3, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z14, [sp, #4, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z13, [sp, #5, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z12, [sp, #6, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z11, [sp, #7, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z10, [sp, #8, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z9, [sp, #9, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z8, [sp, #10, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    ld1h { z1.h, z5.h, z9.h, z13.h }, pn8/z, [x0]
+; CHECK-NEXT:    ld1h { z2.h, z6.h, z10.h, z14.h }, pn8/z, [x10]
+; CHECK-NEXT:    ld1h { z3.h, z7.h, z11.h, z15.h }, pn8/z, [x0, x1, lsl #1]
+; CHECK-NEXT:    ld1h { z16.h, z20.h, z24.h, z28.h }, pn8/z, [x9]
+; CHECK-NEXT:    mov z4.d, z16.d
+; CHECK-NEXT:    mov z8.d, z20.d
+; CHECK-NEXT:    mov z12.d, z24.d
+; CHECK-NEXT:    mov z16.d, z28.d
+; CHECK-NEXT:    sdot za.s[w8, 0, vgx4], { z1.h - z4.h }, z0.h
+; CHECK-NEXT:    sdot za.s[w8, 0, vgx4], { z5.h - z8.h }, z0.h
+; CHECK-NEXT:    sdot za.s[w8, 0, vgx4], { z9.h - z12.h }, z0.h
+; CHECK-NEXT:    sdot za.s[w8, 0, vgx4], { z13.h - z16.h }, z0.h
+; CHECK-NEXT:    ldr z20, [sp, #1, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z16, [sp, #2, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z15, [sp, #3, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z14, [sp, #4, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z13, [sp, #5, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z12, [sp, #6, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z11, [sp, #7, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z10, [sp, #8, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z9, [sp, #9, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z8, [sp, #10, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr p8, [sp, #7, mul vl] // 2-byte Folded Reload
+; CHECK-NEXT:    addvl sp, sp, #11
+; CHECK-NEXT:    ldr x29, [sp], #16 // 8-byte Folded Reload
+; CHECK-NEXT:    ret
+entry:
+  %0 = tail call target("aarch64.svcount") @llvm.aarch64.sve.ptrue.c8()
+  %1 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x4.nxv8i16(target("aarch64.svcount") %0, ptr %ptr)
+  %2 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 0
+  %3 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 1
+  %4 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 2
+  %5 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %1, 3
+  %arrayidx2 = getelementptr inbounds i8, ptr %ptr, i64 %stride
+  %6 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x4.nxv8i16(target("aarch64.svcount") %0, ptr %arrayidx2)
+  %7 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %6, 0
+  %8 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %6, 1
+  %9 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %6, 2
+  %10 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %6, 3
+  %mul3 = shl i64 %stride, 1
+  %arrayidx4 = getelementptr inbounds i8, ptr %ptr, i64 %mul3
+  %11 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x4.nxv8i16(target("aarch64.svcount") %0, ptr %arrayidx4)
+  %12 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %11, 0
+  %13 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %11, 1
+  %14 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %11, 2
+  %15 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %11, 3
+  %mul5 = mul i64 %stride, 3
+  %arrayidx6 = getelementptr inbounds i8, ptr %ptr, i64 %mul5
+  %16 = tail call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sve.ld1.pn.x4.nxv8i16(target("aarch64.svcount") %0, ptr %arrayidx6)
+  %17 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %16, 0
+  %18 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %16, 1
+  %19 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %16, 2
+  %20 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %16, 3
+  call void @llvm.aarch64.sme.sdot.single.za32.vg1x4.nxv8i16(i32 0, <vscale x 8 x i16> %2, <vscale x 8 x i16> %7, <vscale x 8 x i16> %12, <vscale x 8 x i16> %17, <vscale x 8 x i16> %zn)
+  call void @llvm.aarch64.sme.sdot.single.za32.vg1x4.nxv8i16(i32 0, <vscale x 8 x i16> %3, <vscale x 8 x i16> %8, <vscale x 8 x i16> %13, <vscale x 8 x i16> %18, <vscale x 8 x i16> %zn)
+  call void @llvm.aarch64.sme.sdot.single.za32.vg1x4.nxv8i16(i32 0, <vscale x 8 x i16> %4, <vscale x 8 x i16> %9, <vscale x 8 x i16> %14, <vscale x 8 x i16> %19, <vscale x 8 x i16> %zn)
+  call void @llvm.aarch64.sme.sdot.single.za32.vg1x4.nxv8i16(i32 0, <vscale x 8 x i16> %5, <vscale x 8 x i16> %10, <vscale x 8 x i16> %15, <vscale x 8 x i16> %20, <vscale x 8 x i16> %zn)
+  ret void
+}
+
 define void @sdot_single_za32_u8_vg1x2(i32 %slice, <vscale x 16 x i8> %unused, <vscale x 16 x i8> %zn0, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2) #0 {
 ; CHECK-LABEL: sdot_single_za32_u8_vg1x2:
 ; CHECK:       // %bb.0:
@@ -504,6 +849,40 @@ define void @sudot_single_za32_u8_vg1x2(i32 %slice, <vscale x 16 x i8> %unused,
   ret void
 }
 
+define void @sudot_single_za32_u16_vg1x2_tuple(ptr %ptr, i64 %stride, <vscale x 16 x i8> %zn) #0 {
+; CHECK-LABEL: sudot_single_za32_u16_vg1x2_tuple:
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    str x29, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-NEXT:    addvl sp, sp, #-3
+; CHECK-NEXT:    str p8, [sp, #7, mul vl] // 2-byte Folded Spill
+; CHECK-NEXT:    ptrue pn8.b
+; CHECK-NEXT:    mov w8, wzr
+; CHECK-NEXT:    str z10, [sp, #1, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z9, [sp, #2, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    ld1b { z1.b, z9.b }, pn8/z, [x0]
+; CHECK-NEXT:    ld1b { z2.b, z10.b }, pn8/z, [x0, x1]
+; CHECK-NEXT:    sudot za.s[w8, 0, vgx2], { z1.b, z2.b }, z0.b
+; CHECK-NEXT:    sudot za.s[w8, 0, vgx2], { z9.b, z10.b }, z0.b
+; CHECK-NEXT:    ldr z10, [sp, #1, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z9, [sp, #2, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr p8, [sp, #7, mul vl] // 2-byte Folded Reload
+; CHECK-NEXT:    addvl sp, sp, #3
+; CHECK-NEXT:    ldr x29, [sp], #16 // 8-byte Folded Reload
+; CHECK-NEXT:    ret
+entry:
+  %0 = tail call target("aarch64.svcount") @llvm.aarch64.sve.ptrue.c8()
+  %1 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x2.nxv16i8(target("aarch64.svcount") %0, ptr %ptr)
+  %2 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 0
+  %3 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 1
+  %arrayidx2 = getelementptr inbounds i8, ptr %ptr, i64 %stride
+  %4 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x2.nxv16i8(target("aarch64.svcount") %0, ptr %arrayidx2)
+  %5 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %4, 0
+  %6 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %4, 1
+  call void @llvm.aarch64.sme.sudot.single.za32.vg1x2.nxv16i8(i32 0, <vscale x 16 x i8> %2, <vscale x 16 x i8> %5, <vscale x 16 x i8> %zn)
+  call void @llvm.aarch64.sme.sudot.single.za32.vg1x2.nxv16i8(i32 0, <vscale x 16 x i8> %3, <vscale x 16 x i8> %6, <vscale x 16 x i8> %zn)
+  ret void
+}
+
 define void @sudot_single_za32_u8_vg1x4(i32 %slice, <vscale x 16 x i8> %unused, <vscale x 16 x i8> %zn0, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2, <vscale x 16 x i8> %zn3, <vscale x 16 x i8> %zn4) #0 {
 ; CHECK-LABEL: sudot_single_za32_u8_vg1x4:
 ; CHECK:       // %bb.0:
@@ -517,6 +896,86 @@ define void @sudot_single_za32_u8_vg1x4(i32 %slice, <vscale x 16 x i8> %unused,
   ret void
 }
 
+define void @sudot_single_za32_u16_vg1x4_tuple(ptr %ptr, i64 %stride, <vscale x 16 x i8> %zn) #0 {
+; CHECK-LABEL: sudot_single_za32_u16_vg1x4_tuple:
+; CHECK:       // %bb.0: // %entry
+; CHECK-NEXT:    str x29, [sp, #-16]! // 8-byte Folded Spill
+; CHECK-NEXT:    addvl sp, sp, #-11
+; CHECK-NEXT:    lsl x9, x1, #1
+; CHECK-NEXT:    str p8, [sp, #7, mul vl] // 2-byte Folded Spill
+; CHECK-NEXT:    ptrue pn8.b
+; CHECK-NEXT:    str z20, [sp, #1, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    mov w8, wzr
+; CHECK-NEXT:    str z16, [sp, #2, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    add x10, x9, x1
+; CHECK-NEXT:    str z15, [sp, #3, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z14, [sp, #4, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z13, [sp, #5, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z12, [sp, #6, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z11, [sp, #7, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z10, [sp, #8, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z9, [sp, #9, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    str z8, [sp, #10, mul vl] // 16-byte Folded Spill
+; CHECK-NEXT:    ld1b { z1.b, z5.b, z9.b, z13.b }, pn8/z, [x0]
+; CHECK-NEXT:    ld1b { z2.b, z6.b, z10.b, z14.b }, pn8/z, [x0, x1]
+; CHECK-NEXT:    ld1b { z3.b, z7.b, z11.b, z15.b }, pn8/z, [x0, x9]
+; CHECK-NEXT:    ld1b { z16.b, z20.b, z24.b, z28.b }, pn8/z, [x0, x10]
+; CHECK-NEXT:    mov z4.d, z16.d
+; CHECK-NEXT:    mov z8.d, z20.d
+; CHECK-NEXT:    mov z12.d, z24.d
+; CHECK-NEXT:    mov z16.d, z28.d
+; CHECK-NEXT:    sudot za.s[w8, 0, vgx4], { z1.b - z4.b }, z0.b
+; CHECK-NEXT:    sudot za.s[w8, 0, vgx4], { z5.b - z8.b }, z0.b
+; CHECK-NEXT:    sudot za.s[w8, 0, vgx4], { z9.b - z12.b }, z0.b
+; CHECK-NEXT:    sudot za.s[w8, 0, vgx4], { z13.b - z16.b }, z0.b
+; CHECK-NEXT:    ldr z20, [sp, #1, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z16, [sp, #2, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z15, [sp, #3, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z14, [sp, #4, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z13, [sp, #5, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z12, [sp, #6, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z11, [sp, #7, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z10, [sp, #8, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z9, [sp, #9, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr z8, [sp, #10, mul vl] // 16-byte Folded Reload
+; CHECK-NEXT:    ldr p8, [sp, #7, mul vl] // 2-byte Folded Reload
+; CHECK-NEXT:    addvl sp, sp, #11
+; CHECK-NEXT:    ldr x29, [sp], #16 // 8-byte Folded Reload
+; CHECK-NEXT:    ret
+entry:
+  %0 = tail call target("aarch64.svcount") @llvm.aarch64.sve.ptrue.c8()
+  %1 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x4.nxv16i8(target("aarch64.svcount") %0, ptr %ptr)
+  %2 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 0
+  %3 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 1
+  %4 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 2
+  %5 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %1, 3
+  %arrayidx2 = getelementptr inbounds i8, ptr %ptr, i64 %stride
+  %6 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x4.nxv16i8(target("aarch64.svcount") %0, ptr %arrayidx2)
+  %7 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, 0
+  %8 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, 1
+  %9 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, 2
+  %10 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, 3
+  %mul3 = shl i64 %stride, 1
+  %arrayidx4 = getelementptr inbounds i8, ptr %ptr, i64 %mul3
+  %11 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x4.nxv16i8(target("aarch64.svcount") %0, ptr %arrayidx4)
+  %12 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %11, 0
+  %13 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %11, 1
+  %14 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %11, 2
+  %15 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %11, 3
+  %mul5 = mul i64 %stride, 3
+  %arrayidx6 = getelementptr inbounds i8, ptr %ptr, i64 %mul5
+  %16 = tail call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sve.ld1.pn.x4.nxv16i8(target("aarch64.svcount") %0, ptr %arrayidx6)
+  %17 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %16, 0
+  %18 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %16, 1
+  %19 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %16, 2
+  %20 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %16, 3
+  call void @llvm.aarch64.sme.sudot.single.za32.vg1x4.nxv16i8(i32 0, <vscale x 16 x i8> %2, <vscale x 16 x i8> %7, <vscale x 16 x i8> %12, <vscale x 16 x i8> %17, <vscale x 16 x i8> %zn)
+  call void @llvm.aarch64.sme.sudot.single.za32.vg1x4.nxv16i8(i32 0, <vscale x 16 x i8> %3, <vscale x 16 x i8> %8, <vscale x 16 x i8> %13, <vscale x 16 x i8> %18, <vscale x 16 x i8> %zn)
+  call void @llvm.aarch64.sme.sudot.single.za32.vg1x4.nxv16i8(i32 0, <vscale x 16 x i8> %4, <vscale x 16 x i8> %9, <vscale x 16 x i8> %14, <vscale x 16 x i8> %19, <vscale x 16 x i8> %zn)
+  call void @llvm.aarch64.sme.sudot.single.za32.vg1x4.nxv16i8(i32 0, <vscale x 16 x i8> %5, <vscale x 16 x i8> %10, <vscale x 16 x i8> %15, <vscale x 16 x i8> %20, <vscale x 16 x i8> %zn)
+  ret void
+}
+
 ; == Multi, indexed (unsigned) ==
 
 define void @udot_lane_za32_u16_vg1x2(i32 %slice, <vscale x 16 x i8> %unused, <vscale x 8 x i16> %zn0, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2) #0 {
diff --git a/llvm/test/CodeGen/AArch64/umulo-128-legalisation-lowering.ll b/llvm/test/CodeGen/AArch64/umulo-128-legalisation-lowering.ll
index 08045e814a35e..edfd80b4f2706 100644
--- a/llvm/test/CodeGen/AArch64/umulo-128-legalisation-lowering.ll
+++ b/llvm/test/CodeGen/AArch64/umulo-128-legalisation-lowering.ll
@@ -35,41 +35,33 @@ start:
 define i128 @__muloti4(i128 %0, i128 %1, ptr nocapture nonnull writeonly align 4 %2) #2 {
 ; AARCH-LABEL: __muloti4:
 ; AARCH:       // %bb.0: // %Entry
-; AARCH-NEXT:    asr x10, x1, #63
+; AARCH-NEXT:    asr x11, x1, #63
 ; AARCH-NEXT:    asr x9, x3, #63
-; AARCH-NEXT:    umulh x14, x0, x2
+; AARCH-NEXT:    umulh x12, x0, x2
 ; AARCH-NEXT:    mov x8, x1
 ; AARCH-NEXT:    str wzr, [x4]
-; AARCH-NEXT:    mul x12, x2, x10
-; AARCH-NEXT:    umulh x13, x2, x10
-; AARCH-NEXT:    umulh x11, x9, x0
-; AARCH-NEXT:    mul x15, x1, x2
-; AARCH-NEXT:    add x13, x13, x12
-; AARCH-NEXT:    madd x11, x9, x1, x11
-; AARCH-NEXT:    mul x9, x9, x0
-; AARCH-NEXT:    madd x10, x3, x10, x13
-; AARCH-NEXT:    umulh x13, x1, x2
-; AARCH-NEXT:    add x11, x11, x9
-; AARCH-NEXT:    adds x9, x9, x12
-; AARCH-NEXT:    mul x16, x0, x3
-; AARCH-NEXT:    adc x10, x11, x10
-; AARCH-NEXT:    adds x11, x15, x14
-; AARCH-NEXT:    umulh x17, x0, x3
-; AARCH-NEXT:    cinc x13, x13, hs
-; AARCH-NEXT:    mul x12, x1, x3
-; AARCH-NEXT:    adds x1, x16, x11
-; AARCH-NEXT:    umulh x11, x8, x3
-; AARCH-NEXT:    cinc x14, x17, hs
-; AARCH-NEXT:    adds x13, x13, x14
+; AARCH-NEXT:    mul x13, x1, x2
+; AARCH-NEXT:    umulh x10, x1, x2
+; AARCH-NEXT:    mul x11, x11, x2
+; AARCH-NEXT:    adds x12, x13, x12
+; AARCH-NEXT:    mul x15, x0, x3
+; AARCH-NEXT:    umulh x14, x0, x3
+; AARCH-NEXT:    adc x10, x10, x11
+; AARCH-NEXT:    mul x9, x0, x9
+; AARCH-NEXT:    mul x16, x1, x3
+; AARCH-NEXT:    adds x1, x15, x12
+; AARCH-NEXT:    asr x12, x10, #63
+; AARCH-NEXT:    smulh x11, x8, x3
+; AARCH-NEXT:    adc x9, x14, x9
+; AARCH-NEXT:    asr x13, x9, #63
+; AARCH-NEXT:    adds x9, x10, x9
+; AARCH-NEXT:    asr x10, x1, #63
 ; AARCH-NEXT:    mul x0, x0, x2
-; AARCH-NEXT:    cset w14, hs
-; AARCH-NEXT:    adds x12, x12, x13
-; AARCH-NEXT:    asr x13, x1, #63
-; AARCH-NEXT:    adc x11, x11, x14
-; AARCH-NEXT:    adds x9, x12, x9
-; AARCH-NEXT:    adc x10, x11, x10
-; AARCH-NEXT:    cmp x9, x13
-; AARCH-NEXT:    ccmp x10, x13, #0, eq
+; AARCH-NEXT:    adc x12, x12, x13
+; AARCH-NEXT:    adds x9, x16, x9
+; AARCH-NEXT:    adc x11, x11, x12
+; AARCH-NEXT:    cmp x9, x10
+; AARCH-NEXT:    ccmp x11, x10, #0, eq
 ; AARCH-NEXT:    cset w9, ne
 ; AARCH-NEXT:    tbz x8, #63, .LBB1_2
 ; AARCH-NEXT:  // %bb.1: // %Entry
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/add.vni16.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/add.vni16.ll
index ab95c226b08b0..27b93872b9f1d 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/add.vni16.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/add.vni16.ll
@@ -513,29 +513,29 @@ define void @add_v9i16(ptr addrspace(1) %ptra, ptr addrspace(1) %ptrb, ptr addrs
 ; GFX8-NEXT:    flat_load_dwordx4 v[10:13], v[2:3]
 ; GFX8-NEXT:    v_add_u32_e32 v0, vcc, 16, v0
 ; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v1, vcc
-; GFX8-NEXT:    flat_load_ushort v16, v[0:1]
+; GFX8-NEXT:    flat_load_ushort v14, v[0:1]
 ; GFX8-NEXT:    v_add_u32_e32 v0, vcc, 16, v2
 ; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v3, vcc
 ; GFX8-NEXT:    flat_load_ushort v0, v[0:1]
-; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 16, v4
-; GFX8-NEXT:    v_addc_u32_e32 v15, vcc, 0, v5, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(2)
 ; GFX8-NEXT:    v_add_u16_e32 v1, v6, v10
 ; GFX8-NEXT:    v_add_u16_sdwa v2, v6, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_u16_e32 v3, v7, v11
-; GFX8-NEXT:    v_add_u16_sdwa v6, v7, v11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u16_e32 v7, v8, v12
+; GFX8-NEXT:    v_add_u16_sdwa v10, v7, v11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_add_u16_e32 v11, v8, v12
 ; GFX8-NEXT:    v_add_u16_sdwa v8, v8, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u16_e32 v10, v9, v13
+; GFX8-NEXT:    v_add_u16_e32 v12, v9, v13
 ; GFX8-NEXT:    v_add_u16_sdwa v9, v9, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 16, v4
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_u16_e32 v11, v16, v0
+; GFX8-NEXT:    v_add_u16_e32 v13, v14, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v1, v2
-; GFX8-NEXT:    v_or_b32_e32 v1, v3, v6
-; GFX8-NEXT:    v_or_b32_e32 v2, v7, v8
-; GFX8-NEXT:    v_or_b32_e32 v3, v10, v9
+; GFX8-NEXT:    v_or_b32_e32 v1, v3, v10
+; GFX8-NEXT:    v_or_b32_e32 v2, v11, v8
+; GFX8-NEXT:    v_or_b32_e32 v3, v12, v9
+; GFX8-NEXT:    v_addc_u32_e32 v7, vcc, 0, v5, vcc
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX8-NEXT:    flat_store_short v[14:15], v11
+; GFX8-NEXT:    flat_store_short v[6:7], v13
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -661,55 +661,55 @@ define void @add_v11i16(ptr addrspace(1) %ptra, ptr addrspace(1) %ptrb, ptr addr
 ; GFX8-LABEL: add_v11i16:
 ; GFX8:       ; %bb.0:
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_add_u32_e32 v10, vcc, 16, v0
-; GFX8-NEXT:    v_addc_u32_e32 v11, vcc, 0, v1, vcc
-; GFX8-NEXT:    v_add_u32_e32 v12, vcc, 18, v0
-; GFX8-NEXT:    v_addc_u32_e32 v13, vcc, 0, v1, vcc
 ; GFX8-NEXT:    flat_load_dwordx4 v[6:9], v[0:1]
-; GFX8-NEXT:    v_add_u32_e32 v0, vcc, 20, v0
-; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v1, vcc
-; GFX8-NEXT:    flat_load_ushort v18, v[10:11]
-; GFX8-NEXT:    flat_load_ushort v19, v[12:13]
-; GFX8-NEXT:    flat_load_ushort v20, v[0:1]
 ; GFX8-NEXT:    flat_load_dwordx4 v[10:13], v[2:3]
-; GFX8-NEXT:    v_add_u32_e32 v0, vcc, 16, v2
-; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v3, vcc
-; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 18, v2
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 16, v2
 ; GFX8-NEXT:    v_addc_u32_e32 v15, vcc, 0, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v16, vcc, 18, v2
+; GFX8-NEXT:    v_addc_u32_e32 v17, vcc, 0, v3, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v2, vcc, 20, v2
 ; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, 0, v3, vcc
-; GFX8-NEXT:    flat_load_ushort v0, v[0:1]
-; GFX8-NEXT:    flat_load_ushort v1, v[14:15]
-; GFX8-NEXT:    flat_load_ushort v2, v[2:3]
-; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 16, v4
-; GFX8-NEXT:    v_addc_u32_e32 v15, vcc, 0, v5, vcc
-; GFX8-NEXT:    v_add_u32_e32 v16, vcc, 18, v4
-; GFX8-NEXT:    v_addc_u32_e32 v17, vcc, 0, v5, vcc
+; GFX8-NEXT:    flat_load_ushort v14, v[14:15]
+; GFX8-NEXT:    flat_load_ushort v15, v[16:17]
+; GFX8-NEXT:    flat_load_ushort v16, v[2:3]
+; GFX8-NEXT:    v_add_u32_e32 v2, vcc, 16, v0
+; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, 0, v1, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(3)
-; GFX8-NEXT:    v_add_u16_e32 v3, v6, v10
+; GFX8-NEXT:    v_add_u16_e32 v17, v6, v10
 ; GFX8-NEXT:    v_add_u16_sdwa v10, v6, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u16_e32 v21, v7, v11
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 18, v0
+; GFX8-NEXT:    v_add_u16_e32 v18, v7, v11
 ; GFX8-NEXT:    v_add_u16_sdwa v11, v7, v11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u16_e32 v22, v8, v12
-; GFX8-NEXT:    v_add_u16_sdwa v8, v8, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u16_e32 v12, v9, v13
-; GFX8-NEXT:    v_add_u16_sdwa v9, v9, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 20, v4
+; GFX8-NEXT:    v_addc_u32_e32 v7, vcc, 0, v1, vcc
+; GFX8-NEXT:    v_add_u32_e32 v0, vcc, 20, v0
+; GFX8-NEXT:    flat_load_ushort v2, v[2:3]
+; GFX8-NEXT:    flat_load_ushort v3, v[6:7]
+; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v1, vcc
+; GFX8-NEXT:    flat_load_ushort v21, v[0:1]
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 16, v4
 ; GFX8-NEXT:    v_addc_u32_e32 v7, vcc, 0, v5, vcc
+; GFX8-NEXT:    v_add_u16_e32 v19, v8, v12
+; GFX8-NEXT:    v_add_u16_sdwa v12, v8, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_add_u32_e32 v8, vcc, 18, v4
+; GFX8-NEXT:    v_add_u16_e32 v20, v9, v13
+; GFX8-NEXT:    v_add_u16_sdwa v13, v9, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_addc_u32_e32 v9, vcc, 0, v5, vcc
+; GFX8-NEXT:    v_or_b32_e32 v0, v17, v10
+; GFX8-NEXT:    v_or_b32_e32 v1, v18, v11
+; GFX8-NEXT:    v_add_u32_e32 v10, vcc, 20, v4
+; GFX8-NEXT:    v_addc_u32_e32 v11, vcc, 0, v5, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(2)
-; GFX8-NEXT:    v_add_u16_e32 v13, v18, v0
+; GFX8-NEXT:    v_add_u16_e32 v14, v2, v14
 ; GFX8-NEXT:    s_waitcnt vmcnt(1)
-; GFX8-NEXT:    v_add_u16_e32 v18, v19, v1
+; GFX8-NEXT:    v_add_u16_e32 v15, v3, v15
+; GFX8-NEXT:    v_or_b32_e32 v2, v19, v12
+; GFX8-NEXT:    v_or_b32_e32 v3, v20, v13
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_u16_e32 v19, v20, v2
-; GFX8-NEXT:    v_or_b32_e32 v0, v3, v10
-; GFX8-NEXT:    v_or_b32_e32 v1, v21, v11
-; GFX8-NEXT:    v_or_b32_e32 v2, v22, v8
-; GFX8-NEXT:    v_or_b32_e32 v3, v12, v9
+; GFX8-NEXT:    v_add_u16_e32 v16, v21, v16
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX8-NEXT:    flat_store_short v[14:15], v13
-; GFX8-NEXT:    flat_store_short v[16:17], v18
-; GFX8-NEXT:    flat_store_short v[6:7], v19
+; GFX8-NEXT:    flat_store_short v[6:7], v14
+; GFX8-NEXT:    flat_store_short v[8:9], v15
+; GFX8-NEXT:    flat_store_short v[10:11], v16
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -794,34 +794,34 @@ define void @add_v12i16(ptr addrspace(1) %ptra, ptr addrspace(1) %ptrb, ptr addr
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    flat_load_dwordx4 v[6:9], v[0:1]
 ; GFX8-NEXT:    flat_load_dwordx4 v[10:13], v[2:3]
+; GFX8-NEXT:    v_add_u32_e32 v2, vcc, 16, v2
+; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, 0, v3, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v0, vcc, 16, v0
 ; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v1, vcc
-; GFX8-NEXT:    flat_load_dwordx2 v[14:15], v[0:1]
-; GFX8-NEXT:    v_add_u32_e32 v0, vcc, 16, v2
-; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v3, vcc
-; GFX8-NEXT:    flat_load_dwordx2 v[16:17], v[0:1]
-; GFX8-NEXT:    s_waitcnt vmcnt(2)
-; GFX8-NEXT:    v_add_u16_e32 v0, v6, v10
-; GFX8-NEXT:    v_add_u16_sdwa v1, v6, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u16_e32 v2, v7, v11
-; GFX8-NEXT:    v_add_u16_sdwa v3, v7, v11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u16_e32 v6, v8, v12
-; GFX8-NEXT:    v_add_u16_sdwa v7, v8, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u16_e32 v8, v9, v13
+; GFX8-NEXT:    flat_load_dwordx2 v[14:15], v[2:3]
+; GFX8-NEXT:    s_waitcnt vmcnt(1)
+; GFX8-NEXT:    v_add_u16_e32 v2, v6, v10
+; GFX8-NEXT:    v_add_u16_sdwa v3, v6, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_add_u16_e32 v10, v7, v11
+; GFX8-NEXT:    v_add_u16_sdwa v11, v7, v11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    flat_load_dwordx2 v[6:7], v[0:1]
+; GFX8-NEXT:    v_add_u16_e32 v16, v8, v12
+; GFX8-NEXT:    v_add_u16_sdwa v8, v8, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_add_u16_e32 v12, v9, v13
 ; GFX8-NEXT:    v_add_u16_sdwa v9, v9, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_or_b32_e32 v1, v2, v3
-; GFX8-NEXT:    v_or_b32_e32 v2, v6, v7
-; GFX8-NEXT:    v_or_b32_e32 v3, v8, v9
-; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_u16_e32 v6, v14, v16
-; GFX8-NEXT:    v_add_u16_sdwa v7, v14, v16 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; GFX8-NEXT:    v_add_u16_e32 v8, v15, v17
-; GFX8-NEXT:    v_add_u16_sdwa v9, v15, v17 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v0, v2, v3
+; GFX8-NEXT:    v_or_b32_e32 v1, v10, v11
+; GFX8-NEXT:    v_or_b32_e32 v2, v16, v8
+; GFX8-NEXT:    v_or_b32_e32 v3, v12, v9
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX8-NEXT:    v_or_b32_e32 v6, v6, v7
+; GFX8-NEXT:    s_waitcnt vmcnt(1)
+; GFX8-NEXT:    v_add_u16_e32 v8, v6, v14
+; GFX8-NEXT:    v_add_u16_sdwa v6, v6, v14 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_add_u16_e32 v9, v7, v15
+; GFX8-NEXT:    v_add_u16_sdwa v7, v7, v15 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_u32_e32 v0, vcc, 16, v4
-; GFX8-NEXT:    v_or_b32_e32 v7, v8, v9
+; GFX8-NEXT:    v_or_b32_e32 v6, v8, v6
+; GFX8-NEXT:    v_or_b32_e32 v7, v9, v7
 ; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v5, vcc
 ; GFX8-NEXT:    flat_store_dwordx2 v[0:1], v[6:7]
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/divergence-structurizer.mir b/llvm/test/CodeGen/AMDGPU/GlobalISel/divergence-structurizer.mir
index 1d291eeab8e9d..39ebf66411cc6 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/divergence-structurizer.mir
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/divergence-structurizer.mir
@@ -971,12 +971,10 @@ body: |
   ; GFX10-NEXT:   [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr5
   ; GFX10-NEXT:   [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
   ; GFX10-NEXT:   [[DEF:%[0-9]+]]:_(s1) = G_IMPLICIT_DEF
-  ; GFX10-NEXT:   [[COPY6:%[0-9]+]]:sreg_32(s1) = COPY [[DEF]](s1)
   ; GFX10-NEXT:   [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(sgt), [[COPY4]](s32), [[COPY1]]
   ; GFX10-NEXT:   [[DEF1:%[0-9]+]]:sreg_32(s1) = IMPLICIT_DEF
   ; GFX10-NEXT:   [[DEF2:%[0-9]+]]:sreg_32(s1) = IMPLICIT_DEF
-  ; GFX10-NEXT:   [[DEF3:%[0-9]+]]:sreg_32(s1) = IMPLICIT_DEF
-  ; GFX10-NEXT:   [[COPY7:%[0-9]+]]:sreg_32(s1) = COPY [[ICMP]](s1)
+  ; GFX10-NEXT:   [[COPY6:%[0-9]+]]:sreg_32(s1) = COPY [[ICMP]](s1)
   ; GFX10-NEXT:   G_BR %bb.7
   ; GFX10-NEXT: {{  $}}
   ; GFX10-NEXT: bb.1:
@@ -989,19 +987,18 @@ body: |
   ; GFX10-NEXT: bb.2:
   ; GFX10-NEXT:   successors: %bb.4(0x40000000), %bb.7(0x40000000)
   ; GFX10-NEXT: {{  $}}
-  ; GFX10-NEXT:   [[PHI:%[0-9]+]]:sreg_32_xm0_xexec(s1) = PHI %67(s1), %bb.6, %71(s1), %bb.7
-  ; GFX10-NEXT:   [[PHI1:%[0-9]+]]:sreg_32(s1) = PHI %49(s1), %bb.6, %48(s1), %bb.7
-  ; GFX10-NEXT:   [[PHI2:%[0-9]+]]:sreg_32(s1) = PHI %35(s1), %bb.6, %34(s1), %bb.7
+  ; GFX10-NEXT:   [[PHI:%[0-9]+]]:sreg_32_xm0_xexec(s1) = PHI %53(s1), %bb.6, %57(s1), %bb.7
+  ; GFX10-NEXT:   [[PHI1:%[0-9]+]]:sreg_32(s1) = PHI %35(s1), %bb.6, %34(s1), %bb.7
+  ; GFX10-NEXT:   [[PHI2:%[0-9]+]]:_(s1) = G_PHI %12(s1), %bb.6, [[DEF]](s1), %bb.7
+  ; GFX10-NEXT:   [[COPY7:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[PHI2]](s1)
   ; GFX10-NEXT:   [[COPY8:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[PHI]](s1)
   ; GFX10-NEXT:   [[COPY9:%[0-9]+]]:sreg_32(s1) = COPY [[PHI1]](s1)
-  ; GFX10-NEXT:   [[COPY10:%[0-9]+]]:sreg_32(s1) = COPY [[PHI2]](s1)
-  ; GFX10-NEXT:   [[COPY11:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[COPY10]](s1)
   ; GFX10-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %15(s32)
   ; GFX10-NEXT:   [[INT:%[0-9]+]]:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[COPY9]](s1), %17(s32)
   ; GFX10-NEXT:   [[S_ANDN2_B32_:%[0-9]+]]:sreg_32_xm0_xexec(s1) = S_ANDN2_B32 [[COPY8]](s1), $exec_lo, implicit-def $scc
-  ; GFX10-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32_xm0_xexec(s1) = S_AND_B32 $exec_lo, [[COPY11]](s1), implicit-def $scc
+  ; GFX10-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32_xm0_xexec(s1) = S_AND_B32 $exec_lo, [[COPY7]](s1), implicit-def $scc
   ; GFX10-NEXT:   [[S_OR_B32_:%[0-9]+]]:sreg_32_xm0_xexec(s1) = S_OR_B32 [[S_ANDN2_B32_]](s1), [[S_AND_B32_]](s1), implicit-def $scc
-  ; GFX10-NEXT:   [[COPY12:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[S_OR_B32_]](s1)
+  ; GFX10-NEXT:   [[COPY10:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[S_OR_B32_]](s1)
   ; GFX10-NEXT:   SI_LOOP [[INT]](s32), %bb.7, implicit-def $exec, implicit-def $scc, implicit $exec
   ; GFX10-NEXT:   G_BR %bb.4
   ; GFX10-NEXT: {{  $}}
@@ -1018,28 +1015,27 @@ body: |
   ; GFX10-NEXT: {{  $}}
   ; GFX10-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[INT]](s32)
   ; GFX10-NEXT:   [[ICMP2:%[0-9]+]]:_(s1) = G_ICMP intpred(sgt), [[COPY5]](s32), [[COPY]]
-  ; GFX10-NEXT:   [[COPY13:%[0-9]+]]:sreg_32(s1) = COPY [[ICMP2]](s1)
+  ; GFX10-NEXT:   [[COPY11:%[0-9]+]]:sreg_32(s1) = COPY [[ICMP2]](s1)
   ; GFX10-NEXT:   [[C2:%[0-9]+]]:_(s1) = G_CONSTANT i1 true
-  ; GFX10-NEXT:   [[COPY14:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[C2]](s1)
+  ; GFX10-NEXT:   [[COPY12:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[C2]](s1)
   ; GFX10-NEXT:   [[XOR:%[0-9]+]]:_(s1) = G_XOR [[ICMP]], [[C2]]
   ; GFX10-NEXT:   [[OR:%[0-9]+]]:_(s1) = G_OR [[ICMP2]], [[XOR]]
   ; GFX10-NEXT:   [[INT2:%[0-9]+]]:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[OR]](s1), %25(s32)
-  ; GFX10-NEXT:   [[DEF4:%[0-9]+]]:sreg_32(s1) = IMPLICIT_DEF
-  ; GFX10-NEXT:   [[DEF5:%[0-9]+]]:sreg_32(s1) = IMPLICIT_DEF
-  ; GFX10-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 %63(s1), $exec_lo, implicit-def $scc
-  ; GFX10-NEXT:   [[S_AND_B32_1:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY13]](s1), implicit-def $scc
+  ; GFX10-NEXT:   [[DEF3:%[0-9]+]]:sreg_32(s1) = IMPLICIT_DEF
+  ; GFX10-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 %49(s1), $exec_lo, implicit-def $scc
+  ; GFX10-NEXT:   [[S_AND_B32_1:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY11]](s1), implicit-def $scc
   ; GFX10-NEXT:   [[S_OR_B32_1:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_1]](s1), [[S_AND_B32_1]](s1), implicit-def $scc
-  ; GFX10-NEXT:   [[S_ANDN2_B32_2:%[0-9]+]]:sreg_32_xm0_xexec(s1) = S_ANDN2_B32 [[COPY12]](s1), $exec_lo, implicit-def $scc
-  ; GFX10-NEXT:   [[S_AND_B32_2:%[0-9]+]]:sreg_32_xm0_xexec(s1) = S_AND_B32 $exec_lo, [[COPY14]](s1), implicit-def $scc
+  ; GFX10-NEXT:   [[S_ANDN2_B32_2:%[0-9]+]]:sreg_32_xm0_xexec(s1) = S_ANDN2_B32 [[COPY10]](s1), $exec_lo, implicit-def $scc
+  ; GFX10-NEXT:   [[S_AND_B32_2:%[0-9]+]]:sreg_32_xm0_xexec(s1) = S_AND_B32 $exec_lo, [[COPY12]](s1), implicit-def $scc
   ; GFX10-NEXT:   [[S_OR_B32_2:%[0-9]+]]:sreg_32_xm0_xexec(s1) = S_OR_B32 [[S_ANDN2_B32_2]](s1), [[S_AND_B32_2]](s1), implicit-def $scc
   ; GFX10-NEXT:   SI_LOOP [[INT2]](s32), %bb.7, implicit-def $exec, implicit-def $scc, implicit $exec
   ; GFX10-NEXT:   G_BR %bb.5
   ; GFX10-NEXT: {{  $}}
   ; GFX10-NEXT: bb.5:
   ; GFX10-NEXT:   [[PHI4:%[0-9]+]]:_(s32) = G_PHI [[INT2]](s32), %bb.4
-  ; GFX10-NEXT:   [[COPY15:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_1]](s1)
+  ; GFX10-NEXT:   [[COPY13:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_1]](s1)
   ; GFX10-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[PHI4]](s32)
-  ; GFX10-NEXT:   [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[COPY15]](s1), [[COPY3]], [[COPY2]]
+  ; GFX10-NEXT:   [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[COPY13]](s1), [[COPY3]], [[COPY2]]
   ; GFX10-NEXT:   [[INTRINSIC_CONVERGENT:%[0-9]+]]:_(s32) = G_INTRINSIC_CONVERGENT intrinsic(@llvm.amdgcn.readfirstlane), [[SELECT]](s32)
   ; GFX10-NEXT:   $sgpr0 = COPY [[INTRINSIC_CONVERGENT]](s32)
   ; GFX10-NEXT:   SI_RETURN_TO_EPILOG implicit $sgpr0
@@ -1049,42 +1045,32 @@ body: |
   ; GFX10-NEXT: {{  $}}
   ; GFX10-NEXT:   [[PHI5:%[0-9]+]]:_(s32) = G_PHI [[INT1]](s32), %bb.3
   ; GFX10-NEXT:   [[C3:%[0-9]+]]:_(s1) = G_CONSTANT i1 false
-  ; GFX10-NEXT:   [[COPY16:%[0-9]+]]:sreg_32(s1) = COPY [[C3]](s1)
-  ; GFX10-NEXT:   [[COPY17:%[0-9]+]]:sreg_32(s1) = COPY [[C3]](s1)
+  ; GFX10-NEXT:   [[COPY14:%[0-9]+]]:sreg_32(s1) = COPY [[C3]](s1)
   ; GFX10-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[PHI5]](s32)
   ; GFX10-NEXT:   [[S_ANDN2_B32_3:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 %42(s1), $exec_lo, implicit-def $scc
-  ; GFX10-NEXT:   [[S_AND_B32_3:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY17]](s1), implicit-def $scc
+  ; GFX10-NEXT:   [[S_AND_B32_3:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY14]](s1), implicit-def $scc
   ; GFX10-NEXT:   [[S_OR_B32_3:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_3]](s1), [[S_AND_B32_3]](s1), implicit-def $scc
-  ; GFX10-NEXT:   [[S_ANDN2_B32_4:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 %56(s1), $exec_lo, implicit-def $scc
-  ; GFX10-NEXT:   [[S_AND_B32_4:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY16]](s1), implicit-def $scc
-  ; GFX10-NEXT:   [[S_OR_B32_4:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_4]](s1), [[S_AND_B32_4]](s1), implicit-def $scc
-  ; GFX10-NEXT:   [[DEF6:%[0-9]+]]:sreg_32_xm0_xexec(s1) = IMPLICIT_DEF
+  ; GFX10-NEXT:   [[DEF4:%[0-9]+]]:sreg_32_xm0_xexec(s1) = IMPLICIT_DEF
   ; GFX10-NEXT:   G_BR %bb.2
   ; GFX10-NEXT: {{  $}}
   ; GFX10-NEXT: bb.7:
   ; GFX10-NEXT:   successors: %bb.1(0x40000000), %bb.2(0x40000000)
   ; GFX10-NEXT: {{  $}}
-  ; GFX10-NEXT:   [[PHI6:%[0-9]+]]:sreg_32_xm0_xexec(s1) = PHI [[COPY7]](s1), %bb.0, [[S_OR_B32_]](s1), %bb.2, [[S_OR_B32_2]](s1), %bb.4
-  ; GFX10-NEXT:   [[PHI7:%[0-9]+]]:sreg_32(s1) = PHI [[DEF3]](s1), %bb.0, [[PHI7]](s1), %bb.2, [[S_OR_B32_1]](s1), %bb.4
-  ; GFX10-NEXT:   [[PHI8:%[0-9]+]]:sreg_32(s1) = PHI [[DEF2]](s1), %bb.0, [[PHI1]](s1), %bb.2, [[DEF5]](s1), %bb.4
-  ; GFX10-NEXT:   [[PHI9:%[0-9]+]]:sreg_32(s1) = PHI [[DEF1]](s1), %bb.0, [[PHI2]](s1), %bb.2, [[DEF4]](s1), %bb.4
-  ; GFX10-NEXT:   [[PHI10:%[0-9]+]]:_(s32) = G_PHI [[INT2]](s32), %bb.4, [[PHI10]](s32), %bb.2, [[C]](s32), %bb.0
-  ; GFX10-NEXT:   [[PHI11:%[0-9]+]]:_(s32) = G_PHI [[C]](s32), %bb.4, [[INT]](s32), %bb.2, [[C]](s32), %bb.0
-  ; GFX10-NEXT:   [[COPY18:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[PHI6]](s1)
-  ; GFX10-NEXT:   [[COPY19:%[0-9]+]]:sreg_32(s1) = COPY [[PHI7]](s1)
-  ; GFX10-NEXT:   [[COPY20:%[0-9]+]]:sreg_32(s1) = COPY [[PHI8]](s1)
-  ; GFX10-NEXT:   [[COPY21:%[0-9]+]]:sreg_32(s1) = COPY [[PHI9]](s1)
+  ; GFX10-NEXT:   [[PHI6:%[0-9]+]]:sreg_32_xm0_xexec(s1) = PHI [[COPY6]](s1), %bb.0, [[S_OR_B32_]](s1), %bb.2, [[S_OR_B32_2]](s1), %bb.4
+  ; GFX10-NEXT:   [[PHI7:%[0-9]+]]:sreg_32(s1) = PHI [[DEF2]](s1), %bb.0, [[PHI7]](s1), %bb.2, [[S_OR_B32_1]](s1), %bb.4
+  ; GFX10-NEXT:   [[PHI8:%[0-9]+]]:sreg_32(s1) = PHI [[DEF1]](s1), %bb.0, [[PHI1]](s1), %bb.2, [[DEF3]](s1), %bb.4
+  ; GFX10-NEXT:   [[PHI9:%[0-9]+]]:_(s32) = G_PHI [[INT2]](s32), %bb.4, [[PHI9]](s32), %bb.2, [[C]](s32), %bb.0
+  ; GFX10-NEXT:   [[PHI10:%[0-9]+]]:_(s32) = G_PHI [[C]](s32), %bb.4, [[INT]](s32), %bb.2, [[C]](s32), %bb.0
+  ; GFX10-NEXT:   [[COPY15:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[PHI6]](s1)
+  ; GFX10-NEXT:   [[COPY16:%[0-9]+]]:sreg_32(s1) = COPY [[PHI7]](s1)
+  ; GFX10-NEXT:   [[COPY17:%[0-9]+]]:sreg_32(s1) = COPY [[PHI8]](s1)
   ; GFX10-NEXT:   [[C4:%[0-9]+]]:_(s1) = G_CONSTANT i1 true
-  ; GFX10-NEXT:   [[COPY22:%[0-9]+]]:sreg_32(s1) = COPY [[C4]](s1)
-  ; GFX10-NEXT:   [[S_ANDN2_B32_5:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY21]](s1), $exec_lo, implicit-def $scc
-  ; GFX10-NEXT:   [[S_AND_B32_5:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY6]](s1), implicit-def $scc
-  ; GFX10-NEXT:   [[S_OR_B32_5:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_5]](s1), [[S_AND_B32_5]](s1), implicit-def $scc
-  ; GFX10-NEXT:   [[COPY23:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_5]](s1)
-  ; GFX10-NEXT:   [[S_ANDN2_B32_6:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY20]](s1), $exec_lo, implicit-def $scc
-  ; GFX10-NEXT:   [[S_AND_B32_6:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY22]](s1), implicit-def $scc
-  ; GFX10-NEXT:   [[S_OR_B32_6:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_6]](s1), [[S_AND_B32_6]](s1), implicit-def $scc
-  ; GFX10-NEXT:   [[COPY24:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_6]](s1)
-  ; GFX10-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY18]](s1), %bb.2, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; GFX10-NEXT:   [[COPY18:%[0-9]+]]:sreg_32(s1) = COPY [[C4]](s1)
+  ; GFX10-NEXT:   [[S_ANDN2_B32_4:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY17]](s1), $exec_lo, implicit-def $scc
+  ; GFX10-NEXT:   [[S_AND_B32_4:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY18]](s1), implicit-def $scc
+  ; GFX10-NEXT:   [[S_OR_B32_4:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_4]](s1), [[S_AND_B32_4]](s1), implicit-def $scc
+  ; GFX10-NEXT:   [[COPY19:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_4]](s1)
+  ; GFX10-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY15]](s1), %bb.2, implicit-def $exec, implicit-def $scc, implicit $exec
   ; GFX10-NEXT:   G_BR %bb.1
   bb.0:
     successors: %bb.7(0x80000000)
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f64.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f64.ll
index 0b66185d25f3e..8db1f46b0342a 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f64.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/fdiv.f64.ll
@@ -712,33 +712,33 @@ define <2 x double> @v_fdiv_v2f64(<2 x double> %a, <2 x double> %b) {
 ; GFX6:       ; %bb.0:
 ; GFX6-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX6-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[4:5], v[4:5], v[0:1]
-; GFX6-NEXT:    v_div_scale_f64 v[16:17], s[4:5], v[0:1], v[4:5], v[0:1]
+; GFX6-NEXT:    v_div_scale_f64 v[14:15], s[4:5], v[6:7], v[6:7], v[2:3]
 ; GFX6-NEXT:    v_rcp_f64_e32 v[10:11], v[8:9]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v1, v17
+; GFX6-NEXT:    v_div_scale_f64 v[18:19], s[4:5], v[0:1], v[4:5], v[0:1]
+; GFX6-NEXT:    v_rcp_f64_e32 v[16:17], v[14:15]
 ; GFX6-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], 1.0
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v1, v19
 ; GFX6-NEXT:    v_fma_f64 v[10:11], v[10:11], v[12:13], v[10:11]
-; GFX6-NEXT:    v_div_scale_f64 v[12:13], s[4:5], v[6:7], v[6:7], v[2:3]
-; GFX6-NEXT:    v_fma_f64 v[14:15], -v[8:9], v[10:11], 1.0
-; GFX6-NEXT:    v_rcp_f64_e32 v[18:19], v[12:13]
-; GFX6-NEXT:    v_fma_f64 v[10:11], v[10:11], v[14:15], v[10:11]
-; GFX6-NEXT:    v_mul_f64 v[14:15], v[16:17], v[10:11]
-; GFX6-NEXT:    v_fma_f64 v[20:21], -v[12:13], v[18:19], 1.0
-; GFX6-NEXT:    v_fma_f64 v[22:23], -v[8:9], v[14:15], v[16:17]
-; GFX6-NEXT:    v_fma_f64 v[18:19], v[18:19], v[20:21], v[18:19]
-; GFX6-NEXT:    v_div_scale_f64 v[20:21], s[4:5], v[2:3], v[6:7], v[2:3]
-; GFX6-NEXT:    v_fma_f64 v[16:17], -v[12:13], v[18:19], 1.0
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v5, v9
-; GFX6-NEXT:    v_fma_f64 v[8:9], v[18:19], v[16:17], v[18:19]
-; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; GFX6-NEXT:    v_mul_f64 v[16:17], v[20:21], v[8:9]
-; GFX6-NEXT:    v_div_fmas_f64 v[10:11], v[22:23], v[10:11], v[14:15]
-; GFX6-NEXT:    v_fma_f64 v[14:15], -v[12:13], v[16:17], v[20:21]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v3, v21
-; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v7, v13
+; GFX6-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], 1.0
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
+; GFX6-NEXT:    v_fma_f64 v[10:11], v[10:11], v[12:13], v[10:11]
+; GFX6-NEXT:    v_fma_f64 v[12:13], -v[14:15], v[16:17], 1.0
+; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v7, v15
+; GFX6-NEXT:    v_fma_f64 v[12:13], v[16:17], v[12:13], v[16:17]
+; GFX6-NEXT:    v_mul_f64 v[16:17], v[18:19], v[10:11]
+; GFX6-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[16:17], v[18:19]
+; GFX6-NEXT:    v_fma_f64 v[8:9], -v[14:15], v[12:13], 1.0
+; GFX6-NEXT:    v_div_fmas_f64 v[10:11], v[18:19], v[10:11], v[16:17]
+; GFX6-NEXT:    v_fma_f64 v[8:9], v[12:13], v[8:9], v[12:13]
+; GFX6-NEXT:    v_div_scale_f64 v[12:13], s[6:7], v[2:3], v[6:7], v[2:3]
 ; GFX6-NEXT:    v_div_fixup_f64 v[0:1], v[10:11], v[4:5], v[0:1]
-; GFX6-NEXT:    s_nop 0
-; GFX6-NEXT:    v_div_fmas_f64 v[8:9], v[14:15], v[8:9], v[16:17]
+; GFX6-NEXT:    v_mul_f64 v[16:17], v[12:13], v[8:9]
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v3, v13
+; GFX6-NEXT:    v_fma_f64 v[18:19], -v[14:15], v[16:17], v[12:13]
+; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
+; GFX6-NEXT:    s_nop 1
+; GFX6-NEXT:    v_div_fmas_f64 v[8:9], v[18:19], v[8:9], v[16:17]
 ; GFX6-NEXT:    v_div_fixup_f64 v[2:3], v[8:9], v[6:7], v[2:3]
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -747,26 +747,26 @@ define <2 x double> @v_fdiv_v2f64(<2 x double> %a, <2 x double> %b) {
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[4:5], v[4:5], v[0:1]
 ; GFX8-NEXT:    v_div_scale_f64 v[10:11], s[4:5], v[6:7], v[6:7], v[2:3]
-; GFX8-NEXT:    v_div_scale_f64 v[20:21], s[4:5], v[2:3], v[6:7], v[2:3]
 ; GFX8-NEXT:    v_rcp_f64_e32 v[12:13], v[8:9]
 ; GFX8-NEXT:    v_rcp_f64_e32 v[14:15], v[10:11]
 ; GFX8-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
 ; GFX8-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[14:15], 1.0
 ; GFX8-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
-; GFX8-NEXT:    v_div_scale_f64 v[16:17], vcc, v[0:1], v[4:5], v[0:1]
 ; GFX8-NEXT:    v_fma_f64 v[14:15], v[14:15], v[18:19], v[14:15]
-; GFX8-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[12:13], 1.0
-; GFX8-NEXT:    v_fma_f64 v[22:23], -v[10:11], v[14:15], 1.0
-; GFX8-NEXT:    v_fma_f64 v[12:13], v[12:13], v[18:19], v[12:13]
-; GFX8-NEXT:    v_fma_f64 v[14:15], v[14:15], v[22:23], v[14:15]
-; GFX8-NEXT:    v_mul_f64 v[18:19], v[16:17], v[12:13]
-; GFX8-NEXT:    v_mul_f64 v[22:23], v[20:21], v[14:15]
-; GFX8-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[18:19], v[16:17]
-; GFX8-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[22:23], v[20:21]
-; GFX8-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[18:19]
+; GFX8-NEXT:    v_div_scale_f64 v[18:19], vcc, v[0:1], v[4:5], v[0:1]
+; GFX8-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
+; GFX8-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
+; GFX8-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], 1.0
+; GFX8-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
+; GFX8-NEXT:    v_mul_f64 v[16:17], v[18:19], v[12:13]
+; GFX8-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[16:17], v[18:19]
+; GFX8-NEXT:    v_div_scale_f64 v[18:19], s[4:5], v[2:3], v[6:7], v[2:3]
+; GFX8-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[16:17]
 ; GFX8-NEXT:    s_mov_b64 vcc, s[4:5]
-; GFX8-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[22:23]
+; GFX8-NEXT:    v_mul_f64 v[20:21], v[18:19], v[14:15]
 ; GFX8-NEXT:    v_div_fixup_f64 v[0:1], v[8:9], v[4:5], v[0:1]
+; GFX8-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[20:21], v[18:19]
+; GFX8-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[20:21]
 ; GFX8-NEXT:    v_div_fixup_f64 v[2:3], v[10:11], v[6:7], v[2:3]
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -775,26 +775,26 @@ define <2 x double> @v_fdiv_v2f64(<2 x double> %a, <2 x double> %b) {
 ; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX9-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[4:5], v[4:5], v[0:1]
 ; GFX9-NEXT:    v_div_scale_f64 v[10:11], s[4:5], v[6:7], v[6:7], v[2:3]
-; GFX9-NEXT:    v_div_scale_f64 v[20:21], s[4:5], v[2:3], v[6:7], v[2:3]
 ; GFX9-NEXT:    v_rcp_f64_e32 v[12:13], v[8:9]
 ; GFX9-NEXT:    v_rcp_f64_e32 v[14:15], v[10:11]
 ; GFX9-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
 ; GFX9-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[14:15], 1.0
 ; GFX9-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
-; GFX9-NEXT:    v_div_scale_f64 v[16:17], vcc, v[0:1], v[4:5], v[0:1]
 ; GFX9-NEXT:    v_fma_f64 v[14:15], v[14:15], v[18:19], v[14:15]
-; GFX9-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[12:13], 1.0
-; GFX9-NEXT:    v_fma_f64 v[22:23], -v[10:11], v[14:15], 1.0
-; GFX9-NEXT:    v_fma_f64 v[12:13], v[12:13], v[18:19], v[12:13]
-; GFX9-NEXT:    v_fma_f64 v[14:15], v[14:15], v[22:23], v[14:15]
-; GFX9-NEXT:    v_mul_f64 v[18:19], v[16:17], v[12:13]
-; GFX9-NEXT:    v_mul_f64 v[22:23], v[20:21], v[14:15]
-; GFX9-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[18:19], v[16:17]
-; GFX9-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[22:23], v[20:21]
-; GFX9-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[18:19]
+; GFX9-NEXT:    v_div_scale_f64 v[18:19], vcc, v[0:1], v[4:5], v[0:1]
+; GFX9-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
+; GFX9-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
+; GFX9-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], 1.0
+; GFX9-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
+; GFX9-NEXT:    v_mul_f64 v[16:17], v[18:19], v[12:13]
+; GFX9-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[16:17], v[18:19]
+; GFX9-NEXT:    v_div_scale_f64 v[18:19], s[4:5], v[2:3], v[6:7], v[2:3]
+; GFX9-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[16:17]
 ; GFX9-NEXT:    s_mov_b64 vcc, s[4:5]
-; GFX9-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[22:23]
+; GFX9-NEXT:    v_mul_f64 v[20:21], v[18:19], v[14:15]
 ; GFX9-NEXT:    v_div_fixup_f64 v[0:1], v[8:9], v[4:5], v[0:1]
+; GFX9-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[20:21], v[18:19]
+; GFX9-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[20:21]
 ; GFX9-NEXT:    v_div_fixup_f64 v[2:3], v[10:11], v[6:7], v[2:3]
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -945,33 +945,33 @@ define <2 x double> @v_fdiv_v2f64_ulp25(<2 x double> %a, <2 x double> %b) {
 ; GFX6:       ; %bb.0:
 ; GFX6-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX6-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[4:5], v[4:5], v[0:1]
-; GFX6-NEXT:    v_div_scale_f64 v[16:17], s[4:5], v[0:1], v[4:5], v[0:1]
+; GFX6-NEXT:    v_div_scale_f64 v[14:15], s[4:5], v[6:7], v[6:7], v[2:3]
 ; GFX6-NEXT:    v_rcp_f64_e32 v[10:11], v[8:9]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v1, v17
+; GFX6-NEXT:    v_div_scale_f64 v[18:19], s[4:5], v[0:1], v[4:5], v[0:1]
+; GFX6-NEXT:    v_rcp_f64_e32 v[16:17], v[14:15]
 ; GFX6-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], 1.0
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v1, v19
 ; GFX6-NEXT:    v_fma_f64 v[10:11], v[10:11], v[12:13], v[10:11]
-; GFX6-NEXT:    v_div_scale_f64 v[12:13], s[4:5], v[6:7], v[6:7], v[2:3]
-; GFX6-NEXT:    v_fma_f64 v[14:15], -v[8:9], v[10:11], 1.0
-; GFX6-NEXT:    v_rcp_f64_e32 v[18:19], v[12:13]
-; GFX6-NEXT:    v_fma_f64 v[10:11], v[10:11], v[14:15], v[10:11]
-; GFX6-NEXT:    v_mul_f64 v[14:15], v[16:17], v[10:11]
-; GFX6-NEXT:    v_fma_f64 v[20:21], -v[12:13], v[18:19], 1.0
-; GFX6-NEXT:    v_fma_f64 v[22:23], -v[8:9], v[14:15], v[16:17]
-; GFX6-NEXT:    v_fma_f64 v[18:19], v[18:19], v[20:21], v[18:19]
-; GFX6-NEXT:    v_div_scale_f64 v[20:21], s[4:5], v[2:3], v[6:7], v[2:3]
-; GFX6-NEXT:    v_fma_f64 v[16:17], -v[12:13], v[18:19], 1.0
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v5, v9
-; GFX6-NEXT:    v_fma_f64 v[8:9], v[18:19], v[16:17], v[18:19]
-; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; GFX6-NEXT:    v_mul_f64 v[16:17], v[20:21], v[8:9]
-; GFX6-NEXT:    v_div_fmas_f64 v[10:11], v[22:23], v[10:11], v[14:15]
-; GFX6-NEXT:    v_fma_f64 v[14:15], -v[12:13], v[16:17], v[20:21]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v3, v21
-; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v7, v13
+; GFX6-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], 1.0
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
+; GFX6-NEXT:    v_fma_f64 v[10:11], v[10:11], v[12:13], v[10:11]
+; GFX6-NEXT:    v_fma_f64 v[12:13], -v[14:15], v[16:17], 1.0
+; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v7, v15
+; GFX6-NEXT:    v_fma_f64 v[12:13], v[16:17], v[12:13], v[16:17]
+; GFX6-NEXT:    v_mul_f64 v[16:17], v[18:19], v[10:11]
+; GFX6-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[16:17], v[18:19]
+; GFX6-NEXT:    v_fma_f64 v[8:9], -v[14:15], v[12:13], 1.0
+; GFX6-NEXT:    v_div_fmas_f64 v[10:11], v[18:19], v[10:11], v[16:17]
+; GFX6-NEXT:    v_fma_f64 v[8:9], v[12:13], v[8:9], v[12:13]
+; GFX6-NEXT:    v_div_scale_f64 v[12:13], s[6:7], v[2:3], v[6:7], v[2:3]
 ; GFX6-NEXT:    v_div_fixup_f64 v[0:1], v[10:11], v[4:5], v[0:1]
-; GFX6-NEXT:    s_nop 0
-; GFX6-NEXT:    v_div_fmas_f64 v[8:9], v[14:15], v[8:9], v[16:17]
+; GFX6-NEXT:    v_mul_f64 v[16:17], v[12:13], v[8:9]
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v3, v13
+; GFX6-NEXT:    v_fma_f64 v[18:19], -v[14:15], v[16:17], v[12:13]
+; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
+; GFX6-NEXT:    s_nop 1
+; GFX6-NEXT:    v_div_fmas_f64 v[8:9], v[18:19], v[8:9], v[16:17]
 ; GFX6-NEXT:    v_div_fixup_f64 v[2:3], v[8:9], v[6:7], v[2:3]
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -980,26 +980,26 @@ define <2 x double> @v_fdiv_v2f64_ulp25(<2 x double> %a, <2 x double> %b) {
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[4:5], v[4:5], v[0:1]
 ; GFX8-NEXT:    v_div_scale_f64 v[10:11], s[4:5], v[6:7], v[6:7], v[2:3]
-; GFX8-NEXT:    v_div_scale_f64 v[20:21], s[4:5], v[2:3], v[6:7], v[2:3]
 ; GFX8-NEXT:    v_rcp_f64_e32 v[12:13], v[8:9]
 ; GFX8-NEXT:    v_rcp_f64_e32 v[14:15], v[10:11]
 ; GFX8-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
 ; GFX8-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[14:15], 1.0
 ; GFX8-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
-; GFX8-NEXT:    v_div_scale_f64 v[16:17], vcc, v[0:1], v[4:5], v[0:1]
 ; GFX8-NEXT:    v_fma_f64 v[14:15], v[14:15], v[18:19], v[14:15]
-; GFX8-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[12:13], 1.0
-; GFX8-NEXT:    v_fma_f64 v[22:23], -v[10:11], v[14:15], 1.0
-; GFX8-NEXT:    v_fma_f64 v[12:13], v[12:13], v[18:19], v[12:13]
-; GFX8-NEXT:    v_fma_f64 v[14:15], v[14:15], v[22:23], v[14:15]
-; GFX8-NEXT:    v_mul_f64 v[18:19], v[16:17], v[12:13]
-; GFX8-NEXT:    v_mul_f64 v[22:23], v[20:21], v[14:15]
-; GFX8-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[18:19], v[16:17]
-; GFX8-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[22:23], v[20:21]
-; GFX8-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[18:19]
+; GFX8-NEXT:    v_div_scale_f64 v[18:19], vcc, v[0:1], v[4:5], v[0:1]
+; GFX8-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
+; GFX8-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
+; GFX8-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], 1.0
+; GFX8-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
+; GFX8-NEXT:    v_mul_f64 v[16:17], v[18:19], v[12:13]
+; GFX8-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[16:17], v[18:19]
+; GFX8-NEXT:    v_div_scale_f64 v[18:19], s[4:5], v[2:3], v[6:7], v[2:3]
+; GFX8-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[16:17]
 ; GFX8-NEXT:    s_mov_b64 vcc, s[4:5]
-; GFX8-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[22:23]
+; GFX8-NEXT:    v_mul_f64 v[20:21], v[18:19], v[14:15]
 ; GFX8-NEXT:    v_div_fixup_f64 v[0:1], v[8:9], v[4:5], v[0:1]
+; GFX8-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[20:21], v[18:19]
+; GFX8-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[20:21]
 ; GFX8-NEXT:    v_div_fixup_f64 v[2:3], v[10:11], v[6:7], v[2:3]
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1008,26 +1008,26 @@ define <2 x double> @v_fdiv_v2f64_ulp25(<2 x double> %a, <2 x double> %b) {
 ; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX9-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[4:5], v[4:5], v[0:1]
 ; GFX9-NEXT:    v_div_scale_f64 v[10:11], s[4:5], v[6:7], v[6:7], v[2:3]
-; GFX9-NEXT:    v_div_scale_f64 v[20:21], s[4:5], v[2:3], v[6:7], v[2:3]
 ; GFX9-NEXT:    v_rcp_f64_e32 v[12:13], v[8:9]
 ; GFX9-NEXT:    v_rcp_f64_e32 v[14:15], v[10:11]
 ; GFX9-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
 ; GFX9-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[14:15], 1.0
 ; GFX9-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
-; GFX9-NEXT:    v_div_scale_f64 v[16:17], vcc, v[0:1], v[4:5], v[0:1]
 ; GFX9-NEXT:    v_fma_f64 v[14:15], v[14:15], v[18:19], v[14:15]
-; GFX9-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[12:13], 1.0
-; GFX9-NEXT:    v_fma_f64 v[22:23], -v[10:11], v[14:15], 1.0
-; GFX9-NEXT:    v_fma_f64 v[12:13], v[12:13], v[18:19], v[12:13]
-; GFX9-NEXT:    v_fma_f64 v[14:15], v[14:15], v[22:23], v[14:15]
-; GFX9-NEXT:    v_mul_f64 v[18:19], v[16:17], v[12:13]
-; GFX9-NEXT:    v_mul_f64 v[22:23], v[20:21], v[14:15]
-; GFX9-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[18:19], v[16:17]
-; GFX9-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[22:23], v[20:21]
-; GFX9-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[18:19]
+; GFX9-NEXT:    v_div_scale_f64 v[18:19], vcc, v[0:1], v[4:5], v[0:1]
+; GFX9-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
+; GFX9-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
+; GFX9-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], 1.0
+; GFX9-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
+; GFX9-NEXT:    v_mul_f64 v[16:17], v[18:19], v[12:13]
+; GFX9-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[16:17], v[18:19]
+; GFX9-NEXT:    v_div_scale_f64 v[18:19], s[4:5], v[2:3], v[6:7], v[2:3]
+; GFX9-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[16:17]
 ; GFX9-NEXT:    s_mov_b64 vcc, s[4:5]
-; GFX9-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[22:23]
+; GFX9-NEXT:    v_mul_f64 v[20:21], v[18:19], v[14:15]
 ; GFX9-NEXT:    v_div_fixup_f64 v[0:1], v[8:9], v[4:5], v[0:1]
+; GFX9-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[20:21], v[18:19]
+; GFX9-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[20:21]
 ; GFX9-NEXT:    v_div_fixup_f64 v[2:3], v[10:11], v[6:7], v[2:3]
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1106,7 +1106,7 @@ define <2 x double> @v_rcp_v2f64(<2 x double> %x) {
 ; GFX6-NEXT:    v_div_scale_f64 v[4:5], s[4:5], v[0:1], v[0:1], 1.0
 ; GFX6-NEXT:    v_div_scale_f64 v[10:11], s[4:5], v[2:3], v[2:3], 1.0
 ; GFX6-NEXT:    v_rcp_f64_e32 v[6:7], v[4:5]
-; GFX6-NEXT:    v_mov_b32_e32 v20, 0x3ff00000
+; GFX6-NEXT:    v_mov_b32_e32 v18, 0x3ff00000
 ; GFX6-NEXT:    v_rcp_f64_e32 v[14:15], v[10:11]
 ; GFX6-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[6:7], 1.0
 ; GFX6-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], 1.0
@@ -1115,23 +1115,23 @@ define <2 x double> @v_rcp_v2f64(<2 x double> %x) {
 ; GFX6-NEXT:    v_fma_f64 v[12:13], -v[4:5], v[6:7], 1.0
 ; GFX6-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
 ; GFX6-NEXT:    v_fma_f64 v[6:7], v[6:7], v[12:13], v[6:7]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v9, v20
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v9, v18
 ; GFX6-NEXT:    v_mul_f64 v[12:13], v[8:9], v[6:7]
-; GFX6-NEXT:    v_div_scale_f64 v[16:17], s[4:5], 1.0, v[2:3], 1.0
-; GFX6-NEXT:    v_fma_f64 v[18:19], -v[4:5], v[12:13], v[8:9]
-; GFX6-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[14:15], 1.0
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v1, v5
-; GFX6-NEXT:    v_fma_f64 v[4:5], v[14:15], v[8:9], v[14:15]
+; GFX6-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[12:13], v[8:9]
+; GFX6-NEXT:    v_fma_f64 v[4:5], -v[10:11], v[14:15], 1.0
+; GFX6-NEXT:    v_div_scale_f64 v[16:17], s[6:7], 1.0, v[2:3], 1.0
+; GFX6-NEXT:    v_fma_f64 v[4:5], v[14:15], v[4:5], v[14:15]
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; GFX6-NEXT:    v_mul_f64 v[8:9], v[16:17], v[4:5]
-; GFX6-NEXT:    v_div_fmas_f64 v[6:7], v[18:19], v[6:7], v[12:13]
-; GFX6-NEXT:    v_fma_f64 v[12:13], -v[10:11], v[8:9], v[16:17]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v17, v20
+; GFX6-NEXT:    v_mul_f64 v[14:15], v[16:17], v[4:5]
+; GFX6-NEXT:    v_div_fmas_f64 v[6:7], v[8:9], v[6:7], v[12:13]
+; GFX6-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[14:15], v[16:17]
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v17, v18
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v3, v11
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
 ; GFX6-NEXT:    v_div_fixup_f64 v[0:1], v[6:7], v[0:1], 1.0
 ; GFX6-NEXT:    s_nop 0
-; GFX6-NEXT:    v_div_fmas_f64 v[4:5], v[12:13], v[4:5], v[8:9]
+; GFX6-NEXT:    v_div_fmas_f64 v[4:5], v[8:9], v[4:5], v[14:15]
 ; GFX6-NEXT:    v_div_fixup_f64 v[2:3], v[4:5], v[2:3], 1.0
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1266,7 +1266,7 @@ define <2 x double> @v_rcp_v2f64_arcp(<2 x double> %x) {
 ; GFX6-NEXT:    v_div_scale_f64 v[4:5], s[4:5], v[0:1], v[0:1], 1.0
 ; GFX6-NEXT:    v_div_scale_f64 v[10:11], s[4:5], v[2:3], v[2:3], 1.0
 ; GFX6-NEXT:    v_rcp_f64_e32 v[6:7], v[4:5]
-; GFX6-NEXT:    v_mov_b32_e32 v20, 0x3ff00000
+; GFX6-NEXT:    v_mov_b32_e32 v18, 0x3ff00000
 ; GFX6-NEXT:    v_rcp_f64_e32 v[14:15], v[10:11]
 ; GFX6-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[6:7], 1.0
 ; GFX6-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], 1.0
@@ -1275,23 +1275,23 @@ define <2 x double> @v_rcp_v2f64_arcp(<2 x double> %x) {
 ; GFX6-NEXT:    v_fma_f64 v[12:13], -v[4:5], v[6:7], 1.0
 ; GFX6-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
 ; GFX6-NEXT:    v_fma_f64 v[6:7], v[6:7], v[12:13], v[6:7]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v9, v20
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v9, v18
 ; GFX6-NEXT:    v_mul_f64 v[12:13], v[8:9], v[6:7]
-; GFX6-NEXT:    v_div_scale_f64 v[16:17], s[4:5], 1.0, v[2:3], 1.0
-; GFX6-NEXT:    v_fma_f64 v[18:19], -v[4:5], v[12:13], v[8:9]
-; GFX6-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[14:15], 1.0
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v1, v5
-; GFX6-NEXT:    v_fma_f64 v[4:5], v[14:15], v[8:9], v[14:15]
+; GFX6-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[12:13], v[8:9]
+; GFX6-NEXT:    v_fma_f64 v[4:5], -v[10:11], v[14:15], 1.0
+; GFX6-NEXT:    v_div_scale_f64 v[16:17], s[6:7], 1.0, v[2:3], 1.0
+; GFX6-NEXT:    v_fma_f64 v[4:5], v[14:15], v[4:5], v[14:15]
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; GFX6-NEXT:    v_mul_f64 v[8:9], v[16:17], v[4:5]
-; GFX6-NEXT:    v_div_fmas_f64 v[6:7], v[18:19], v[6:7], v[12:13]
-; GFX6-NEXT:    v_fma_f64 v[12:13], -v[10:11], v[8:9], v[16:17]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v17, v20
+; GFX6-NEXT:    v_mul_f64 v[14:15], v[16:17], v[4:5]
+; GFX6-NEXT:    v_div_fmas_f64 v[6:7], v[8:9], v[6:7], v[12:13]
+; GFX6-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[14:15], v[16:17]
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v17, v18
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v3, v11
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
 ; GFX6-NEXT:    v_div_fixup_f64 v[0:1], v[6:7], v[0:1], 1.0
 ; GFX6-NEXT:    s_nop 0
-; GFX6-NEXT:    v_div_fmas_f64 v[4:5], v[12:13], v[4:5], v[8:9]
+; GFX6-NEXT:    v_div_fmas_f64 v[4:5], v[8:9], v[4:5], v[14:15]
 ; GFX6-NEXT:    v_div_fixup_f64 v[2:3], v[4:5], v[2:3], 1.0
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1493,7 +1493,7 @@ define <2 x double> @v_rcp_v2f64_ulp25(<2 x double> %x) {
 ; GFX6-NEXT:    v_div_scale_f64 v[4:5], s[4:5], v[0:1], v[0:1], 1.0
 ; GFX6-NEXT:    v_div_scale_f64 v[10:11], s[4:5], v[2:3], v[2:3], 1.0
 ; GFX6-NEXT:    v_rcp_f64_e32 v[6:7], v[4:5]
-; GFX6-NEXT:    v_mov_b32_e32 v20, 0x3ff00000
+; GFX6-NEXT:    v_mov_b32_e32 v18, 0x3ff00000
 ; GFX6-NEXT:    v_rcp_f64_e32 v[14:15], v[10:11]
 ; GFX6-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[6:7], 1.0
 ; GFX6-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], 1.0
@@ -1502,23 +1502,23 @@ define <2 x double> @v_rcp_v2f64_ulp25(<2 x double> %x) {
 ; GFX6-NEXT:    v_fma_f64 v[12:13], -v[4:5], v[6:7], 1.0
 ; GFX6-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
 ; GFX6-NEXT:    v_fma_f64 v[6:7], v[6:7], v[12:13], v[6:7]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v9, v20
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v9, v18
 ; GFX6-NEXT:    v_mul_f64 v[12:13], v[8:9], v[6:7]
-; GFX6-NEXT:    v_div_scale_f64 v[16:17], s[4:5], 1.0, v[2:3], 1.0
-; GFX6-NEXT:    v_fma_f64 v[18:19], -v[4:5], v[12:13], v[8:9]
-; GFX6-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[14:15], 1.0
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v1, v5
-; GFX6-NEXT:    v_fma_f64 v[4:5], v[14:15], v[8:9], v[14:15]
+; GFX6-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[12:13], v[8:9]
+; GFX6-NEXT:    v_fma_f64 v[4:5], -v[10:11], v[14:15], 1.0
+; GFX6-NEXT:    v_div_scale_f64 v[16:17], s[6:7], 1.0, v[2:3], 1.0
+; GFX6-NEXT:    v_fma_f64 v[4:5], v[14:15], v[4:5], v[14:15]
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; GFX6-NEXT:    v_mul_f64 v[8:9], v[16:17], v[4:5]
-; GFX6-NEXT:    v_div_fmas_f64 v[6:7], v[18:19], v[6:7], v[12:13]
-; GFX6-NEXT:    v_fma_f64 v[12:13], -v[10:11], v[8:9], v[16:17]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v17, v20
+; GFX6-NEXT:    v_mul_f64 v[14:15], v[16:17], v[4:5]
+; GFX6-NEXT:    v_div_fmas_f64 v[6:7], v[8:9], v[6:7], v[12:13]
+; GFX6-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[14:15], v[16:17]
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v17, v18
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v3, v11
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
 ; GFX6-NEXT:    v_div_fixup_f64 v[0:1], v[6:7], v[0:1], 1.0
 ; GFX6-NEXT:    s_nop 0
-; GFX6-NEXT:    v_div_fmas_f64 v[4:5], v[12:13], v[4:5], v[8:9]
+; GFX6-NEXT:    v_div_fmas_f64 v[4:5], v[8:9], v[4:5], v[14:15]
 ; GFX6-NEXT:    v_div_fixup_f64 v[2:3], v[4:5], v[2:3], 1.0
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1725,33 +1725,33 @@ define <2 x double> @v_fdiv_v2f64_arcp_ulp25(<2 x double> %a, <2 x double> %b) {
 ; GFX6:       ; %bb.0:
 ; GFX6-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX6-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[4:5], v[4:5], v[0:1]
-; GFX6-NEXT:    v_div_scale_f64 v[16:17], s[4:5], v[0:1], v[4:5], v[0:1]
+; GFX6-NEXT:    v_div_scale_f64 v[14:15], s[4:5], v[6:7], v[6:7], v[2:3]
 ; GFX6-NEXT:    v_rcp_f64_e32 v[10:11], v[8:9]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v1, v17
+; GFX6-NEXT:    v_div_scale_f64 v[18:19], s[4:5], v[0:1], v[4:5], v[0:1]
+; GFX6-NEXT:    v_rcp_f64_e32 v[16:17], v[14:15]
 ; GFX6-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], 1.0
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v1, v19
 ; GFX6-NEXT:    v_fma_f64 v[10:11], v[10:11], v[12:13], v[10:11]
-; GFX6-NEXT:    v_div_scale_f64 v[12:13], s[4:5], v[6:7], v[6:7], v[2:3]
-; GFX6-NEXT:    v_fma_f64 v[14:15], -v[8:9], v[10:11], 1.0
-; GFX6-NEXT:    v_rcp_f64_e32 v[18:19], v[12:13]
-; GFX6-NEXT:    v_fma_f64 v[10:11], v[10:11], v[14:15], v[10:11]
-; GFX6-NEXT:    v_mul_f64 v[14:15], v[16:17], v[10:11]
-; GFX6-NEXT:    v_fma_f64 v[20:21], -v[12:13], v[18:19], 1.0
-; GFX6-NEXT:    v_fma_f64 v[22:23], -v[8:9], v[14:15], v[16:17]
-; GFX6-NEXT:    v_fma_f64 v[18:19], v[18:19], v[20:21], v[18:19]
-; GFX6-NEXT:    v_div_scale_f64 v[20:21], s[4:5], v[2:3], v[6:7], v[2:3]
-; GFX6-NEXT:    v_fma_f64 v[16:17], -v[12:13], v[18:19], 1.0
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v5, v9
-; GFX6-NEXT:    v_fma_f64 v[8:9], v[18:19], v[16:17], v[18:19]
-; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; GFX6-NEXT:    v_mul_f64 v[16:17], v[20:21], v[8:9]
-; GFX6-NEXT:    v_div_fmas_f64 v[10:11], v[22:23], v[10:11], v[14:15]
-; GFX6-NEXT:    v_fma_f64 v[14:15], -v[12:13], v[16:17], v[20:21]
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v3, v21
-; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v7, v13
+; GFX6-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], 1.0
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
+; GFX6-NEXT:    v_fma_f64 v[10:11], v[10:11], v[12:13], v[10:11]
+; GFX6-NEXT:    v_fma_f64 v[12:13], -v[14:15], v[16:17], 1.0
+; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], v7, v15
+; GFX6-NEXT:    v_fma_f64 v[12:13], v[16:17], v[12:13], v[16:17]
+; GFX6-NEXT:    v_mul_f64 v[16:17], v[18:19], v[10:11]
+; GFX6-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[16:17], v[18:19]
+; GFX6-NEXT:    v_fma_f64 v[8:9], -v[14:15], v[12:13], 1.0
+; GFX6-NEXT:    v_div_fmas_f64 v[10:11], v[18:19], v[10:11], v[16:17]
+; GFX6-NEXT:    v_fma_f64 v[8:9], v[12:13], v[8:9], v[12:13]
+; GFX6-NEXT:    v_div_scale_f64 v[12:13], s[6:7], v[2:3], v[6:7], v[2:3]
 ; GFX6-NEXT:    v_div_fixup_f64 v[0:1], v[10:11], v[4:5], v[0:1]
-; GFX6-NEXT:    s_nop 0
-; GFX6-NEXT:    v_div_fmas_f64 v[8:9], v[14:15], v[8:9], v[16:17]
+; GFX6-NEXT:    v_mul_f64 v[16:17], v[12:13], v[8:9]
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, v3, v13
+; GFX6-NEXT:    v_fma_f64 v[18:19], -v[14:15], v[16:17], v[12:13]
+; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
+; GFX6-NEXT:    s_nop 1
+; GFX6-NEXT:    v_div_fmas_f64 v[8:9], v[18:19], v[8:9], v[16:17]
 ; GFX6-NEXT:    v_div_fixup_f64 v[2:3], v[8:9], v[6:7], v[2:3]
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1760,26 +1760,26 @@ define <2 x double> @v_fdiv_v2f64_arcp_ulp25(<2 x double> %a, <2 x double> %b) {
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[4:5], v[4:5], v[0:1]
 ; GFX8-NEXT:    v_div_scale_f64 v[10:11], s[4:5], v[6:7], v[6:7], v[2:3]
-; GFX8-NEXT:    v_div_scale_f64 v[20:21], s[4:5], v[2:3], v[6:7], v[2:3]
 ; GFX8-NEXT:    v_rcp_f64_e32 v[12:13], v[8:9]
 ; GFX8-NEXT:    v_rcp_f64_e32 v[14:15], v[10:11]
 ; GFX8-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
 ; GFX8-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[14:15], 1.0
 ; GFX8-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
-; GFX8-NEXT:    v_div_scale_f64 v[16:17], vcc, v[0:1], v[4:5], v[0:1]
 ; GFX8-NEXT:    v_fma_f64 v[14:15], v[14:15], v[18:19], v[14:15]
-; GFX8-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[12:13], 1.0
-; GFX8-NEXT:    v_fma_f64 v[22:23], -v[10:11], v[14:15], 1.0
-; GFX8-NEXT:    v_fma_f64 v[12:13], v[12:13], v[18:19], v[12:13]
-; GFX8-NEXT:    v_fma_f64 v[14:15], v[14:15], v[22:23], v[14:15]
-; GFX8-NEXT:    v_mul_f64 v[18:19], v[16:17], v[12:13]
-; GFX8-NEXT:    v_mul_f64 v[22:23], v[20:21], v[14:15]
-; GFX8-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[18:19], v[16:17]
-; GFX8-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[22:23], v[20:21]
-; GFX8-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[18:19]
+; GFX8-NEXT:    v_div_scale_f64 v[18:19], vcc, v[0:1], v[4:5], v[0:1]
+; GFX8-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
+; GFX8-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
+; GFX8-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], 1.0
+; GFX8-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
+; GFX8-NEXT:    v_mul_f64 v[16:17], v[18:19], v[12:13]
+; GFX8-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[16:17], v[18:19]
+; GFX8-NEXT:    v_div_scale_f64 v[18:19], s[4:5], v[2:3], v[6:7], v[2:3]
+; GFX8-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[16:17]
 ; GFX8-NEXT:    s_mov_b64 vcc, s[4:5]
-; GFX8-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[22:23]
+; GFX8-NEXT:    v_mul_f64 v[20:21], v[18:19], v[14:15]
 ; GFX8-NEXT:    v_div_fixup_f64 v[0:1], v[8:9], v[4:5], v[0:1]
+; GFX8-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[20:21], v[18:19]
+; GFX8-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[20:21]
 ; GFX8-NEXT:    v_div_fixup_f64 v[2:3], v[10:11], v[6:7], v[2:3]
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1788,26 +1788,26 @@ define <2 x double> @v_fdiv_v2f64_arcp_ulp25(<2 x double> %a, <2 x double> %b) {
 ; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX9-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[4:5], v[4:5], v[0:1]
 ; GFX9-NEXT:    v_div_scale_f64 v[10:11], s[4:5], v[6:7], v[6:7], v[2:3]
-; GFX9-NEXT:    v_div_scale_f64 v[20:21], s[4:5], v[2:3], v[6:7], v[2:3]
 ; GFX9-NEXT:    v_rcp_f64_e32 v[12:13], v[8:9]
 ; GFX9-NEXT:    v_rcp_f64_e32 v[14:15], v[10:11]
 ; GFX9-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
 ; GFX9-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[14:15], 1.0
 ; GFX9-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
-; GFX9-NEXT:    v_div_scale_f64 v[16:17], vcc, v[0:1], v[4:5], v[0:1]
 ; GFX9-NEXT:    v_fma_f64 v[14:15], v[14:15], v[18:19], v[14:15]
-; GFX9-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[12:13], 1.0
-; GFX9-NEXT:    v_fma_f64 v[22:23], -v[10:11], v[14:15], 1.0
-; GFX9-NEXT:    v_fma_f64 v[12:13], v[12:13], v[18:19], v[12:13]
-; GFX9-NEXT:    v_fma_f64 v[14:15], v[14:15], v[22:23], v[14:15]
-; GFX9-NEXT:    v_mul_f64 v[18:19], v[16:17], v[12:13]
-; GFX9-NEXT:    v_mul_f64 v[22:23], v[20:21], v[14:15]
-; GFX9-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[18:19], v[16:17]
-; GFX9-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[22:23], v[20:21]
-; GFX9-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[18:19]
+; GFX9-NEXT:    v_div_scale_f64 v[18:19], vcc, v[0:1], v[4:5], v[0:1]
+; GFX9-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[12:13], 1.0
+; GFX9-NEXT:    v_fma_f64 v[12:13], v[12:13], v[16:17], v[12:13]
+; GFX9-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], 1.0
+; GFX9-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
+; GFX9-NEXT:    v_mul_f64 v[16:17], v[18:19], v[12:13]
+; GFX9-NEXT:    v_fma_f64 v[8:9], -v[8:9], v[16:17], v[18:19]
+; GFX9-NEXT:    v_div_scale_f64 v[18:19], s[4:5], v[2:3], v[6:7], v[2:3]
+; GFX9-NEXT:    v_div_fmas_f64 v[8:9], v[8:9], v[12:13], v[16:17]
 ; GFX9-NEXT:    s_mov_b64 vcc, s[4:5]
-; GFX9-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[22:23]
+; GFX9-NEXT:    v_mul_f64 v[20:21], v[18:19], v[14:15]
 ; GFX9-NEXT:    v_div_fixup_f64 v[0:1], v[8:9], v[4:5], v[0:1]
+; GFX9-NEXT:    v_fma_f64 v[10:11], -v[10:11], v[20:21], v[18:19]
+; GFX9-NEXT:    v_div_fmas_f64 v[10:11], v[10:11], v[14:15], v[20:21]
 ; GFX9-NEXT:    v_div_fixup_f64 v[2:3], v[10:11], v[6:7], v[2:3]
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll
index 5d76b542fad89..e60739fd84059 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll
@@ -7678,274 +7678,274 @@ define <2 x i128> @v_fshl_v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %a
 ; GFX6-LABEL: v_fshl_v2i128:
 ; GFX6:       ; %bb.0:
 ; GFX6-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX6-NEXT:    v_and_b32_e32 v19, 0x7f, v16
-; GFX6-NEXT:    v_not_b32_e32 v25, 63
-; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, 64, v19
-; GFX6-NEXT:    v_add_i32_e32 v26, vcc, v19, v25
+; GFX6-NEXT:    v_and_b32_e32 v23, 0x7f, v16
+; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, 64, v23
 ; GFX6-NEXT:    v_lshr_b64 v[17:18], v[0:1], v17
-; GFX6-NEXT:    v_lshl_b64 v[21:22], v[2:3], v19
-; GFX6-NEXT:    v_lshl_b64 v[23:24], v[0:1], v19
-; GFX6-NEXT:    v_lshl_b64 v[0:1], v[0:1], v26
-; GFX6-NEXT:    v_or_b32_e32 v17, v17, v21
-; GFX6-NEXT:    v_or_b32_e32 v18, v18, v22
-; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v19
-; GFX6-NEXT:    v_cndmask_b32_e32 v21, 0, v23, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v22, 0, v24, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v0, v0, v17, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v1, v1, v18, vcc
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v19
-; GFX6-NEXT:    v_cndmask_b32_e32 v18, v0, v2, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v19, v1, v3, vcc
-; GFX6-NEXT:    v_lshr_b64 v[0:1], v[8:9], 1
-; GFX6-NEXT:    v_lshlrev_b32_e32 v2, 31, v10
-; GFX6-NEXT:    v_not_b32_e32 v8, v16
-; GFX6-NEXT:    v_or_b32_e32 v1, v1, v2
-; GFX6-NEXT:    v_lshr_b64 v[2:3], v[10:11], 1
-; GFX6-NEXT:    v_and_b32_e32 v23, 0x7f, v8
-; GFX6-NEXT:    v_sub_i32_e32 v10, vcc, 64, v23
-; GFX6-NEXT:    v_add_i32_e32 v24, vcc, v23, v25
-; GFX6-NEXT:    v_lshr_b64 v[8:9], v[0:1], v23
-; GFX6-NEXT:    v_lshl_b64 v[10:11], v[2:3], v10
-; GFX6-NEXT:    v_lshr_b64 v[16:17], v[2:3], v23
-; GFX6-NEXT:    v_lshr_b64 v[2:3], v[2:3], v24
-; GFX6-NEXT:    v_or_b32_e32 v8, v8, v10
+; GFX6-NEXT:    v_lshl_b64 v[21:22], v[2:3], v23
+; GFX6-NEXT:    v_lshr_b64 v[8:9], v[8:9], 1
+; GFX6-NEXT:    v_not_b32_e32 v16, v16
+; GFX6-NEXT:    v_or_b32_e32 v21, v17, v21
+; GFX6-NEXT:    v_lshlrev_b32_e32 v17, 31, v10
+; GFX6-NEXT:    v_lshr_b64 v[10:11], v[10:11], 1
+; GFX6-NEXT:    v_and_b32_e32 v24, 0x7f, v16
+; GFX6-NEXT:    v_or_b32_e32 v9, v9, v17
+; GFX6-NEXT:    v_sub_i32_e32 v16, vcc, 64, v24
+; GFX6-NEXT:    v_or_b32_e32 v22, v18, v22
+; GFX6-NEXT:    v_lshl_b64 v[16:17], v[10:11], v16
+; GFX6-NEXT:    v_lshr_b64 v[18:19], v[8:9], v24
+; GFX6-NEXT:    v_not_b32_e32 v25, 63
+; GFX6-NEXT:    v_or_b32_e32 v18, v18, v16
+; GFX6-NEXT:    v_add_i32_e32 v16, vcc, v23, v25
+; GFX6-NEXT:    v_or_b32_e32 v19, v19, v17
+; GFX6-NEXT:    v_lshl_b64 v[16:17], v[0:1], v16
+; GFX6-NEXT:    v_lshl_b64 v[0:1], v[0:1], v23
 ; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v23
-; GFX6-NEXT:    v_cndmask_b32_e32 v2, v2, v8, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v26, 0, v0, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v0, v16, v21, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v16, v17, v22, vcc
 ; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v23
-; GFX6-NEXT:    v_or_b32_e32 v9, v9, v11
-; GFX6-NEXT:    v_cndmask_b32_e64 v0, v2, v0, s[4:5]
-; GFX6-NEXT:    v_cndmask_b32_e32 v2, 0, v16, vcc
+; GFX6-NEXT:    v_cndmask_b32_e64 v17, v0, v2, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e64 v16, v16, v3, s[4:5]
+; GFX6-NEXT:    v_add_i32_e64 v0, s[4:5], v24, v25
+; GFX6-NEXT:    v_lshr_b64 v[2:3], v[10:11], v0
+; GFX6-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v24
+; GFX6-NEXT:    v_cndmask_b32_e64 v2, v2, v18, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e32 v18, 0, v1, vcc
+; GFX6-NEXT:    v_lshr_b64 v[0:1], v[10:11], v24
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v24
+; GFX6-NEXT:    v_cndmask_b32_e64 v3, v3, v19, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e32 v2, v2, v8, vcc
+; GFX6-NEXT:    v_cndmask_b32_e64 v8, 0, v0, s[4:5]
 ; GFX6-NEXT:    v_cndmask_b32_e32 v3, v3, v9, vcc
-; GFX6-NEXT:    v_or_b32_e32 v2, v18, v2
-; GFX6-NEXT:    v_and_b32_e32 v18, 0x7f, v20
-; GFX6-NEXT:    v_cndmask_b32_e64 v1, v3, v1, s[4:5]
-; GFX6-NEXT:    v_cndmask_b32_e32 v3, 0, v17, vcc
-; GFX6-NEXT:    v_sub_i32_e32 v8, vcc, 64, v18
-; GFX6-NEXT:    v_or_b32_e32 v3, v19, v3
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v18, v25
-; GFX6-NEXT:    v_lshr_b64 v[8:9], v[4:5], v8
-; GFX6-NEXT:    v_lshl_b64 v[10:11], v[6:7], v18
-; GFX6-NEXT:    v_lshl_b64 v[16:17], v[4:5], v18
-; GFX6-NEXT:    v_lshl_b64 v[4:5], v[4:5], v19
-; GFX6-NEXT:    v_or_b32_e32 v8, v8, v10
-; GFX6-NEXT:    v_or_b32_e32 v9, v9, v11
-; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v18
-; GFX6-NEXT:    v_cndmask_b32_e32 v16, 0, v16, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v17, 0, v17, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v4, v4, v8, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v5, v5, v9, vcc
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v18
-; GFX6-NEXT:    v_cndmask_b32_e32 v18, v4, v6, vcc
+; GFX6-NEXT:    v_or_b32_e32 v0, v26, v2
+; GFX6-NEXT:    v_or_b32_e32 v2, v17, v8
+; GFX6-NEXT:    v_and_b32_e32 v17, 0x7f, v20
+; GFX6-NEXT:    v_cndmask_b32_e64 v19, 0, v1, s[4:5]
+; GFX6-NEXT:    v_or_b32_e32 v1, v18, v3
+; GFX6-NEXT:    v_sub_i32_e32 v3, vcc, 64, v17
+; GFX6-NEXT:    v_lshr_b64 v[8:9], v[4:5], v3
+; GFX6-NEXT:    v_lshl_b64 v[10:11], v[6:7], v17
+; GFX6-NEXT:    v_or_b32_e32 v3, v16, v19
+; GFX6-NEXT:    v_add_i32_e32 v16, vcc, v17, v25
+; GFX6-NEXT:    v_or_b32_e32 v10, v8, v10
+; GFX6-NEXT:    v_or_b32_e32 v11, v9, v11
+; GFX6-NEXT:    v_lshl_b64 v[8:9], v[4:5], v17
+; GFX6-NEXT:    v_lshl_b64 v[4:5], v[4:5], v16
+; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v17
+; GFX6-NEXT:    v_cndmask_b32_e32 v16, 0, v8, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v18, 0, v9, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v4, v4, v10, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v5, v5, v11, vcc
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v17
+; GFX6-NEXT:    v_cndmask_b32_e32 v17, v4, v6, vcc
 ; GFX6-NEXT:    v_cndmask_b32_e32 v19, v5, v7, vcc
 ; GFX6-NEXT:    v_lshr_b64 v[4:5], v[12:13], 1
 ; GFX6-NEXT:    v_lshlrev_b32_e32 v6, 31, v14
 ; GFX6-NEXT:    v_not_b32_e32 v8, v20
 ; GFX6-NEXT:    v_or_b32_e32 v5, v5, v6
 ; GFX6-NEXT:    v_lshr_b64 v[6:7], v[14:15], 1
-; GFX6-NEXT:    v_and_b32_e32 v14, 0x7f, v8
-; GFX6-NEXT:    v_sub_i32_e32 v10, vcc, 64, v14
-; GFX6-NEXT:    v_add_i32_e32 v15, vcc, v14, v25
-; GFX6-NEXT:    v_lshr_b64 v[8:9], v[4:5], v14
+; GFX6-NEXT:    v_and_b32_e32 v12, 0x7f, v8
+; GFX6-NEXT:    v_sub_i32_e32 v10, vcc, 64, v12
+; GFX6-NEXT:    v_lshr_b64 v[8:9], v[4:5], v12
 ; GFX6-NEXT:    v_lshl_b64 v[10:11], v[6:7], v10
-; GFX6-NEXT:    v_lshr_b64 v[12:13], v[6:7], v14
-; GFX6-NEXT:    v_lshr_b64 v[6:7], v[6:7], v15
-; GFX6-NEXT:    v_or_b32_e32 v8, v8, v10
-; GFX6-NEXT:    v_or_b32_e32 v9, v9, v11
-; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v14
-; GFX6-NEXT:    v_cndmask_b32_e32 v6, v6, v8, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v7, v7, v9, vcc
-; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v14
+; GFX6-NEXT:    v_add_i32_e32 v13, vcc, v12, v25
+; GFX6-NEXT:    v_or_b32_e32 v10, v8, v10
+; GFX6-NEXT:    v_or_b32_e32 v11, v9, v11
+; GFX6-NEXT:    v_lshr_b64 v[8:9], v[6:7], v12
+; GFX6-NEXT:    v_lshr_b64 v[6:7], v[6:7], v13
+; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v12
+; GFX6-NEXT:    v_cndmask_b32_e32 v6, v6, v10, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v7, v7, v11, vcc
+; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v12
 ; GFX6-NEXT:    v_cndmask_b32_e64 v4, v6, v4, s[4:5]
 ; GFX6-NEXT:    v_cndmask_b32_e64 v5, v7, v5, s[4:5]
-; GFX6-NEXT:    v_cndmask_b32_e32 v6, 0, v12, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v7, 0, v13, vcc
-; GFX6-NEXT:    v_or_b32_e32 v0, v21, v0
-; GFX6-NEXT:    v_or_b32_e32 v1, v22, v1
+; GFX6-NEXT:    v_cndmask_b32_e32 v6, 0, v8, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v7, 0, v9, vcc
 ; GFX6-NEXT:    v_or_b32_e32 v4, v16, v4
-; GFX6-NEXT:    v_or_b32_e32 v5, v17, v5
-; GFX6-NEXT:    v_or_b32_e32 v6, v18, v6
+; GFX6-NEXT:    v_or_b32_e32 v5, v18, v5
+; GFX6-NEXT:    v_or_b32_e32 v6, v17, v6
 ; GFX6-NEXT:    v_or_b32_e32 v7, v19, v7
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX8-LABEL: v_fshl_v2i128:
 ; GFX8:       ; %bb.0:
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_and_b32_e32 v19, 0x7f, v16
-; GFX8-NEXT:    v_not_b32_e32 v25, 63
-; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, 64, v19
-; GFX8-NEXT:    v_add_u32_e32 v26, vcc, v19, v25
+; GFX8-NEXT:    v_and_b32_e32 v23, 0x7f, v16
+; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, 64, v23
 ; GFX8-NEXT:    v_lshrrev_b64 v[17:18], v17, v[0:1]
-; GFX8-NEXT:    v_lshlrev_b64 v[21:22], v19, v[2:3]
-; GFX8-NEXT:    v_lshlrev_b64 v[23:24], v19, v[0:1]
-; GFX8-NEXT:    v_lshlrev_b64 v[0:1], v26, v[0:1]
-; GFX8-NEXT:    v_or_b32_e32 v17, v17, v21
-; GFX8-NEXT:    v_or_b32_e32 v18, v18, v22
-; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v19
-; GFX8-NEXT:    v_cndmask_b32_e32 v21, 0, v23, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v22, 0, v24, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v0, v0, v17, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v1, v1, v18, vcc
-; GFX8-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v19
-; GFX8-NEXT:    v_cndmask_b32_e32 v18, v0, v2, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v19, v1, v3, vcc
-; GFX8-NEXT:    v_lshrrev_b64 v[0:1], 1, v[8:9]
-; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 31, v10
-; GFX8-NEXT:    v_not_b32_e32 v8, v16
-; GFX8-NEXT:    v_or_b32_e32 v1, v1, v2
-; GFX8-NEXT:    v_lshrrev_b64 v[2:3], 1, v[10:11]
-; GFX8-NEXT:    v_and_b32_e32 v23, 0x7f, v8
-; GFX8-NEXT:    v_sub_u32_e32 v10, vcc, 64, v23
-; GFX8-NEXT:    v_add_u32_e32 v24, vcc, v23, v25
-; GFX8-NEXT:    v_lshrrev_b64 v[8:9], v23, v[0:1]
-; GFX8-NEXT:    v_lshlrev_b64 v[10:11], v10, v[2:3]
-; GFX8-NEXT:    v_lshrrev_b64 v[16:17], v23, v[2:3]
-; GFX8-NEXT:    v_lshrrev_b64 v[2:3], v24, v[2:3]
-; GFX8-NEXT:    v_or_b32_e32 v8, v8, v10
+; GFX8-NEXT:    v_lshlrev_b64 v[21:22], v23, v[2:3]
+; GFX8-NEXT:    v_lshrrev_b64 v[8:9], 1, v[8:9]
+; GFX8-NEXT:    v_not_b32_e32 v16, v16
+; GFX8-NEXT:    v_or_b32_e32 v21, v17, v21
+; GFX8-NEXT:    v_lshlrev_b32_e32 v17, 31, v10
+; GFX8-NEXT:    v_lshrrev_b64 v[10:11], 1, v[10:11]
+; GFX8-NEXT:    v_and_b32_e32 v24, 0x7f, v16
+; GFX8-NEXT:    v_or_b32_e32 v9, v9, v17
+; GFX8-NEXT:    v_sub_u32_e32 v16, vcc, 64, v24
+; GFX8-NEXT:    v_or_b32_e32 v22, v18, v22
+; GFX8-NEXT:    v_lshlrev_b64 v[16:17], v16, v[10:11]
+; GFX8-NEXT:    v_lshrrev_b64 v[18:19], v24, v[8:9]
+; GFX8-NEXT:    v_not_b32_e32 v25, 63
+; GFX8-NEXT:    v_or_b32_e32 v18, v18, v16
+; GFX8-NEXT:    v_add_u32_e32 v16, vcc, v23, v25
+; GFX8-NEXT:    v_or_b32_e32 v19, v19, v17
+; GFX8-NEXT:    v_lshlrev_b64 v[16:17], v16, v[0:1]
+; GFX8-NEXT:    v_lshlrev_b64 v[0:1], v23, v[0:1]
 ; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v23
-; GFX8-NEXT:    v_cndmask_b32_e32 v2, v2, v8, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v26, 0, v0, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v0, v16, v21, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v16, v17, v22, vcc
 ; GFX8-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v23
-; GFX8-NEXT:    v_or_b32_e32 v9, v9, v11
-; GFX8-NEXT:    v_cndmask_b32_e64 v0, v2, v0, s[4:5]
-; GFX8-NEXT:    v_cndmask_b32_e32 v2, 0, v16, vcc
+; GFX8-NEXT:    v_cndmask_b32_e64 v17, v0, v2, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v16, v16, v3, s[4:5]
+; GFX8-NEXT:    v_add_u32_e64 v0, s[4:5], v24, v25
+; GFX8-NEXT:    v_lshrrev_b64 v[2:3], v0, v[10:11]
+; GFX8-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v24
+; GFX8-NEXT:    v_cndmask_b32_e64 v2, v2, v18, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e32 v18, 0, v1, vcc
+; GFX8-NEXT:    v_lshrrev_b64 v[0:1], v24, v[10:11]
+; GFX8-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v24
+; GFX8-NEXT:    v_cndmask_b32_e64 v3, v3, v19, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e32 v2, v2, v8, vcc
+; GFX8-NEXT:    v_cndmask_b32_e64 v8, 0, v0, s[4:5]
 ; GFX8-NEXT:    v_cndmask_b32_e32 v3, v3, v9, vcc
-; GFX8-NEXT:    v_or_b32_e32 v2, v18, v2
-; GFX8-NEXT:    v_and_b32_e32 v18, 0x7f, v20
-; GFX8-NEXT:    v_cndmask_b32_e64 v1, v3, v1, s[4:5]
-; GFX8-NEXT:    v_cndmask_b32_e32 v3, 0, v17, vcc
-; GFX8-NEXT:    v_sub_u32_e32 v8, vcc, 64, v18
-; GFX8-NEXT:    v_or_b32_e32 v3, v19, v3
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v18, v25
-; GFX8-NEXT:    v_lshrrev_b64 v[8:9], v8, v[4:5]
-; GFX8-NEXT:    v_lshlrev_b64 v[10:11], v18, v[6:7]
-; GFX8-NEXT:    v_lshlrev_b64 v[16:17], v18, v[4:5]
-; GFX8-NEXT:    v_lshlrev_b64 v[4:5], v19, v[4:5]
-; GFX8-NEXT:    v_or_b32_e32 v8, v8, v10
-; GFX8-NEXT:    v_or_b32_e32 v9, v9, v11
-; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v18
-; GFX8-NEXT:    v_cndmask_b32_e32 v16, 0, v16, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v17, 0, v17, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v4, v4, v8, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v5, v5, v9, vcc
-; GFX8-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v18
-; GFX8-NEXT:    v_cndmask_b32_e32 v18, v4, v6, vcc
+; GFX8-NEXT:    v_or_b32_e32 v0, v26, v2
+; GFX8-NEXT:    v_or_b32_e32 v2, v17, v8
+; GFX8-NEXT:    v_and_b32_e32 v17, 0x7f, v20
+; GFX8-NEXT:    v_cndmask_b32_e64 v19, 0, v1, s[4:5]
+; GFX8-NEXT:    v_or_b32_e32 v1, v18, v3
+; GFX8-NEXT:    v_sub_u32_e32 v3, vcc, 64, v17
+; GFX8-NEXT:    v_lshrrev_b64 v[8:9], v3, v[4:5]
+; GFX8-NEXT:    v_lshlrev_b64 v[10:11], v17, v[6:7]
+; GFX8-NEXT:    v_or_b32_e32 v3, v16, v19
+; GFX8-NEXT:    v_add_u32_e32 v16, vcc, v17, v25
+; GFX8-NEXT:    v_or_b32_e32 v10, v8, v10
+; GFX8-NEXT:    v_or_b32_e32 v11, v9, v11
+; GFX8-NEXT:    v_lshlrev_b64 v[8:9], v17, v[4:5]
+; GFX8-NEXT:    v_lshlrev_b64 v[4:5], v16, v[4:5]
+; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v17
+; GFX8-NEXT:    v_cndmask_b32_e32 v16, 0, v8, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v18, 0, v9, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v4, v4, v10, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v5, v5, v11, vcc
+; GFX8-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v17
+; GFX8-NEXT:    v_cndmask_b32_e32 v17, v4, v6, vcc
 ; GFX8-NEXT:    v_cndmask_b32_e32 v19, v5, v7, vcc
 ; GFX8-NEXT:    v_lshrrev_b64 v[4:5], 1, v[12:13]
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v6, 31, v14
 ; GFX8-NEXT:    v_not_b32_e32 v8, v20
 ; GFX8-NEXT:    v_or_b32_e32 v5, v5, v6
 ; GFX8-NEXT:    v_lshrrev_b64 v[6:7], 1, v[14:15]
-; GFX8-NEXT:    v_and_b32_e32 v14, 0x7f, v8
-; GFX8-NEXT:    v_sub_u32_e32 v10, vcc, 64, v14
-; GFX8-NEXT:    v_add_u32_e32 v15, vcc, v14, v25
-; GFX8-NEXT:    v_lshrrev_b64 v[8:9], v14, v[4:5]
+; GFX8-NEXT:    v_and_b32_e32 v12, 0x7f, v8
+; GFX8-NEXT:    v_sub_u32_e32 v10, vcc, 64, v12
+; GFX8-NEXT:    v_lshrrev_b64 v[8:9], v12, v[4:5]
 ; GFX8-NEXT:    v_lshlrev_b64 v[10:11], v10, v[6:7]
-; GFX8-NEXT:    v_lshrrev_b64 v[12:13], v14, v[6:7]
-; GFX8-NEXT:    v_lshrrev_b64 v[6:7], v15, v[6:7]
-; GFX8-NEXT:    v_or_b32_e32 v8, v8, v10
-; GFX8-NEXT:    v_or_b32_e32 v9, v9, v11
-; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v14
-; GFX8-NEXT:    v_cndmask_b32_e32 v6, v6, v8, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v7, v7, v9, vcc
-; GFX8-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v14
+; GFX8-NEXT:    v_add_u32_e32 v13, vcc, v12, v25
+; GFX8-NEXT:    v_or_b32_e32 v10, v8, v10
+; GFX8-NEXT:    v_or_b32_e32 v11, v9, v11
+; GFX8-NEXT:    v_lshrrev_b64 v[8:9], v12, v[6:7]
+; GFX8-NEXT:    v_lshrrev_b64 v[6:7], v13, v[6:7]
+; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v12
+; GFX8-NEXT:    v_cndmask_b32_e32 v6, v6, v10, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v7, v7, v11, vcc
+; GFX8-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v12
 ; GFX8-NEXT:    v_cndmask_b32_e64 v4, v6, v4, s[4:5]
 ; GFX8-NEXT:    v_cndmask_b32_e64 v5, v7, v5, s[4:5]
-; GFX8-NEXT:    v_cndmask_b32_e32 v6, 0, v12, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v7, 0, v13, vcc
-; GFX8-NEXT:    v_or_b32_e32 v0, v21, v0
-; GFX8-NEXT:    v_or_b32_e32 v1, v22, v1
+; GFX8-NEXT:    v_cndmask_b32_e32 v6, 0, v8, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v7, 0, v9, vcc
 ; GFX8-NEXT:    v_or_b32_e32 v4, v16, v4
-; GFX8-NEXT:    v_or_b32_e32 v5, v17, v5
-; GFX8-NEXT:    v_or_b32_e32 v6, v18, v6
+; GFX8-NEXT:    v_or_b32_e32 v5, v18, v5
+; GFX8-NEXT:    v_or_b32_e32 v6, v17, v6
 ; GFX8-NEXT:    v_or_b32_e32 v7, v19, v7
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX9-LABEL: v_fshl_v2i128:
 ; GFX9:       ; %bb.0:
 ; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    v_and_b32_e32 v19, 0x7f, v16
-; GFX9-NEXT:    v_sub_u32_e32 v17, 64, v19
-; GFX9-NEXT:    v_add_u32_e32 v25, 0xffffffc0, v19
+; GFX9-NEXT:    v_and_b32_e32 v23, 0x7f, v16
+; GFX9-NEXT:    v_lshrrev_b64 v[8:9], 1, v[8:9]
+; GFX9-NEXT:    v_sub_u32_e32 v17, 64, v23
+; GFX9-NEXT:    v_not_b32_e32 v16, v16
 ; GFX9-NEXT:    v_lshrrev_b64 v[17:18], v17, v[0:1]
-; GFX9-NEXT:    v_lshlrev_b64 v[21:22], v19, v[2:3]
-; GFX9-NEXT:    v_lshlrev_b64 v[23:24], v19, v[0:1]
-; GFX9-NEXT:    v_lshlrev_b64 v[0:1], v25, v[0:1]
-; GFX9-NEXT:    v_or_b32_e32 v17, v17, v21
-; GFX9-NEXT:    v_or_b32_e32 v18, v18, v22
-; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v19
-; GFX9-NEXT:    v_cndmask_b32_e32 v21, 0, v23, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v22, 0, v24, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v0, v0, v17, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v17, v1, v18, vcc
-; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v19
-; GFX9-NEXT:    v_cndmask_b32_e32 v18, v0, v2, vcc
-; GFX9-NEXT:    v_lshrrev_b64 v[0:1], 1, v[8:9]
-; GFX9-NEXT:    v_not_b32_e32 v8, v16
-; GFX9-NEXT:    v_cndmask_b32_e32 v19, v17, v3, vcc
-; GFX9-NEXT:    v_lshrrev_b64 v[2:3], 1, v[10:11]
-; GFX9-NEXT:    v_and_b32_e32 v23, 0x7f, v8
-; GFX9-NEXT:    v_lshl_or_b32 v1, v10, 31, v1
-; GFX9-NEXT:    v_sub_u32_e32 v10, 64, v23
-; GFX9-NEXT:    v_add_u32_e32 v24, 0xffffffc0, v23
-; GFX9-NEXT:    v_lshrrev_b64 v[8:9], v23, v[0:1]
-; GFX9-NEXT:    v_lshlrev_b64 v[10:11], v10, v[2:3]
-; GFX9-NEXT:    v_lshrrev_b64 v[16:17], v23, v[2:3]
-; GFX9-NEXT:    v_lshrrev_b64 v[2:3], v24, v[2:3]
-; GFX9-NEXT:    v_or_b32_e32 v8, v8, v10
+; GFX9-NEXT:    v_lshlrev_b64 v[21:22], v23, v[2:3]
+; GFX9-NEXT:    v_lshl_or_b32 v9, v10, 31, v9
+; GFX9-NEXT:    v_lshrrev_b64 v[10:11], 1, v[10:11]
+; GFX9-NEXT:    v_and_b32_e32 v24, 0x7f, v16
+; GFX9-NEXT:    v_sub_u32_e32 v16, 64, v24
+; GFX9-NEXT:    v_or_b32_e32 v21, v17, v21
+; GFX9-NEXT:    v_or_b32_e32 v22, v18, v22
+; GFX9-NEXT:    v_lshlrev_b64 v[16:17], v16, v[10:11]
+; GFX9-NEXT:    v_lshrrev_b64 v[18:19], v24, v[8:9]
 ; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v23
-; GFX9-NEXT:    v_cndmask_b32_e32 v2, v2, v8, vcc
+; GFX9-NEXT:    v_or_b32_e32 v18, v18, v16
+; GFX9-NEXT:    v_add_u32_e32 v16, 0xffffffc0, v23
+; GFX9-NEXT:    v_or_b32_e32 v19, v19, v17
+; GFX9-NEXT:    v_lshlrev_b64 v[16:17], v16, v[0:1]
+; GFX9-NEXT:    v_lshlrev_b64 v[0:1], v23, v[0:1]
 ; GFX9-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v23
-; GFX9-NEXT:    v_or_b32_e32 v9, v9, v11
-; GFX9-NEXT:    v_cndmask_b32_e64 v0, v2, v0, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e32 v2, 0, v16, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v25, 0, v0, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v0, v16, v21, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v16, v17, v22, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v17, v0, v2, s[4:5]
+; GFX9-NEXT:    v_add_u32_e32 v0, 0xffffffc0, v24
+; GFX9-NEXT:    v_cndmask_b32_e64 v16, v16, v3, s[4:5]
+; GFX9-NEXT:    v_lshrrev_b64 v[2:3], v0, v[10:11]
+; GFX9-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v24
+; GFX9-NEXT:    v_cndmask_b32_e64 v2, v2, v18, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e32 v18, 0, v1, vcc
+; GFX9-NEXT:    v_lshrrev_b64 v[0:1], v24, v[10:11]
+; GFX9-NEXT:    v_cndmask_b32_e64 v3, v3, v19, s[4:5]
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v24
 ; GFX9-NEXT:    v_cndmask_b32_e32 v3, v3, v9, vcc
-; GFX9-NEXT:    v_or_b32_e32 v2, v18, v2
-; GFX9-NEXT:    v_and_b32_e32 v18, 0x7f, v20
-; GFX9-NEXT:    v_cndmask_b32_e64 v1, v3, v1, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e32 v3, 0, v17, vcc
-; GFX9-NEXT:    v_sub_u32_e32 v8, 64, v18
-; GFX9-NEXT:    v_or_b32_e32 v3, v19, v3
-; GFX9-NEXT:    v_add_u32_e32 v19, 0xffffffc0, v18
+; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, v1, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e32 v2, v2, v8, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v8, 0, v0, s[4:5]
+; GFX9-NEXT:    v_or_b32_e32 v1, v18, v3
+; GFX9-NEXT:    v_or_b32_e32 v3, v16, v9
+; GFX9-NEXT:    v_and_b32_e32 v16, 0x7f, v20
+; GFX9-NEXT:    v_or_b32_e32 v0, v25, v2
+; GFX9-NEXT:    v_or_b32_e32 v2, v17, v8
+; GFX9-NEXT:    v_sub_u32_e32 v8, 64, v16
 ; GFX9-NEXT:    v_lshrrev_b64 v[8:9], v8, v[4:5]
-; GFX9-NEXT:    v_lshlrev_b64 v[10:11], v18, v[6:7]
-; GFX9-NEXT:    v_lshlrev_b64 v[16:17], v18, v[4:5]
-; GFX9-NEXT:    v_lshlrev_b64 v[4:5], v19, v[4:5]
-; GFX9-NEXT:    v_or_b32_e32 v8, v8, v10
-; GFX9-NEXT:    v_or_b32_e32 v9, v9, v11
-; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v18
-; GFX9-NEXT:    v_cndmask_b32_e32 v16, 0, v16, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v17, 0, v17, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v4, v4, v8, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v8, v5, v9, vcc
-; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v18
-; GFX9-NEXT:    v_cndmask_b32_e32 v18, v4, v6, vcc
+; GFX9-NEXT:    v_lshlrev_b64 v[10:11], v16, v[6:7]
+; GFX9-NEXT:    v_add_u32_e32 v17, 0xffffffc0, v16
+; GFX9-NEXT:    v_or_b32_e32 v10, v8, v10
+; GFX9-NEXT:    v_or_b32_e32 v11, v9, v11
+; GFX9-NEXT:    v_lshlrev_b64 v[8:9], v16, v[4:5]
+; GFX9-NEXT:    v_lshlrev_b64 v[4:5], v17, v[4:5]
+; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v16
+; GFX9-NEXT:    v_cndmask_b32_e32 v17, 0, v8, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v18, 0, v9, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v4, v4, v10, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v8, v5, v11, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
+; GFX9-NEXT:    v_cndmask_b32_e32 v16, v4, v6, vcc
 ; GFX9-NEXT:    v_lshrrev_b64 v[4:5], 1, v[12:13]
-; GFX9-NEXT:    v_cndmask_b32_e32 v19, v8, v7, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v12, v8, v7, vcc
 ; GFX9-NEXT:    v_not_b32_e32 v8, v20
-; GFX9-NEXT:    v_lshl_or_b32 v5, v14, 31, v5
 ; GFX9-NEXT:    v_lshrrev_b64 v[6:7], 1, v[14:15]
-; GFX9-NEXT:    v_and_b32_e32 v14, 0x7f, v8
-; GFX9-NEXT:    v_sub_u32_e32 v10, 64, v14
-; GFX9-NEXT:    v_add_u32_e32 v15, 0xffffffc0, v14
-; GFX9-NEXT:    v_lshrrev_b64 v[8:9], v14, v[4:5]
+; GFX9-NEXT:    v_and_b32_e32 v13, 0x7f, v8
+; GFX9-NEXT:    v_lshl_or_b32 v5, v14, 31, v5
+; GFX9-NEXT:    v_sub_u32_e32 v10, 64, v13
+; GFX9-NEXT:    v_lshrrev_b64 v[8:9], v13, v[4:5]
 ; GFX9-NEXT:    v_lshlrev_b64 v[10:11], v10, v[6:7]
-; GFX9-NEXT:    v_lshrrev_b64 v[12:13], v14, v[6:7]
-; GFX9-NEXT:    v_lshrrev_b64 v[6:7], v15, v[6:7]
-; GFX9-NEXT:    v_or_b32_e32 v8, v8, v10
-; GFX9-NEXT:    v_or_b32_e32 v9, v9, v11
-; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v14
-; GFX9-NEXT:    v_cndmask_b32_e32 v6, v6, v8, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v7, v7, v9, vcc
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v14
+; GFX9-NEXT:    v_add_u32_e32 v14, 0xffffffc0, v13
+; GFX9-NEXT:    v_or_b32_e32 v10, v8, v10
+; GFX9-NEXT:    v_or_b32_e32 v11, v9, v11
+; GFX9-NEXT:    v_lshrrev_b64 v[8:9], v13, v[6:7]
+; GFX9-NEXT:    v_lshrrev_b64 v[6:7], v14, v[6:7]
+; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v13
+; GFX9-NEXT:    v_cndmask_b32_e32 v6, v6, v10, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v7, v7, v11, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v13
 ; GFX9-NEXT:    v_cndmask_b32_e64 v4, v6, v4, s[4:5]
 ; GFX9-NEXT:    v_cndmask_b32_e64 v5, v7, v5, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e32 v6, 0, v12, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v7, 0, v13, vcc
-; GFX9-NEXT:    v_or_b32_e32 v0, v21, v0
-; GFX9-NEXT:    v_or_b32_e32 v1, v22, v1
-; GFX9-NEXT:    v_or_b32_e32 v4, v16, v4
-; GFX9-NEXT:    v_or_b32_e32 v5, v17, v5
-; GFX9-NEXT:    v_or_b32_e32 v6, v18, v6
-; GFX9-NEXT:    v_or_b32_e32 v7, v19, v7
+; GFX9-NEXT:    v_cndmask_b32_e32 v6, 0, v8, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v7, 0, v9, vcc
+; GFX9-NEXT:    v_or_b32_e32 v4, v17, v4
+; GFX9-NEXT:    v_or_b32_e32 v5, v18, v5
+; GFX9-NEXT:    v_or_b32_e32 v6, v16, v6
+; GFX9-NEXT:    v_or_b32_e32 v7, v12, v7
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX10-LABEL: v_fshl_v2i128:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll
index dbc8f12c2c25c..36a6614a5620c 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll
@@ -7719,86 +7719,86 @@ define <2 x i128> @v_fshr_v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %a
 ; GFX6-NEXT:    v_not_b32_e32 v0, v16
 ; GFX6-NEXT:    v_and_b32_e32 v19, 0x7f, v0
 ; GFX6-NEXT:    v_sub_i32_e32 v0, vcc, 64, v19
-; GFX6-NEXT:    v_not_b32_e32 v25, 63
 ; GFX6-NEXT:    v_lshr_b64 v[0:1], v[17:18], v0
 ; GFX6-NEXT:    v_lshl_b64 v[21:22], v[2:3], v19
-; GFX6-NEXT:    v_add_i32_e32 v26, vcc, v19, v25
-; GFX6-NEXT:    v_lshl_b64 v[23:24], v[17:18], v19
-; GFX6-NEXT:    v_or_b32_e32 v21, v0, v21
-; GFX6-NEXT:    v_or_b32_e32 v22, v1, v22
-; GFX6-NEXT:    v_lshl_b64 v[0:1], v[17:18], v26
+; GFX6-NEXT:    v_and_b32_e32 v25, 0x7f, v16
+; GFX6-NEXT:    v_or_b32_e32 v23, v0, v21
+; GFX6-NEXT:    v_sub_i32_e32 v0, vcc, 64, v25
+; GFX6-NEXT:    v_or_b32_e32 v24, v1, v22
+; GFX6-NEXT:    v_lshl_b64 v[0:1], v[10:11], v0
+; GFX6-NEXT:    v_lshr_b64 v[21:22], v[8:9], v25
+; GFX6-NEXT:    v_not_b32_e32 v26, 63
+; GFX6-NEXT:    v_or_b32_e32 v21, v21, v0
+; GFX6-NEXT:    v_add_i32_e32 v0, vcc, v19, v26
+; GFX6-NEXT:    v_or_b32_e32 v22, v22, v1
+; GFX6-NEXT:    v_lshl_b64 v[0:1], v[17:18], v0
 ; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v19
-; GFX6-NEXT:    v_cndmask_b32_e32 v18, 0, v23, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v23, 0, v24, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v0, v0, v21, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v1, v1, v22, vcc
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v19
-; GFX6-NEXT:    v_and_b32_e32 v22, 0x7f, v16
-; GFX6-NEXT:    v_cndmask_b32_e32 v19, v0, v2, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v21, v1, v3, vcc
-; GFX6-NEXT:    v_sub_i32_e32 v2, vcc, 64, v22
-; GFX6-NEXT:    v_lshr_b64 v[0:1], v[8:9], v22
-; GFX6-NEXT:    v_lshl_b64 v[2:3], v[10:11], v2
-; GFX6-NEXT:    v_add_i32_e32 v24, vcc, v22, v25
-; GFX6-NEXT:    v_or_b32_e32 v2, v0, v2
-; GFX6-NEXT:    v_or_b32_e32 v3, v1, v3
-; GFX6-NEXT:    v_lshr_b64 v[0:1], v[10:11], v24
-; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v22
-; GFX6-NEXT:    v_cndmask_b32_e32 v0, v0, v2, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v1, v1, v3, vcc
-; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v22
+; GFX6-NEXT:    v_cndmask_b32_e32 v0, v0, v23, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v1, v1, v24, vcc
+; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v19
+; GFX6-NEXT:    v_cndmask_b32_e64 v2, v0, v2, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e64 v3, v1, v3, s[4:5]
+; GFX6-NEXT:    v_add_i32_e64 v0, s[4:5], v25, v26
+; GFX6-NEXT:    v_lshl_b64 v[16:17], v[17:18], v19
+; GFX6-NEXT:    v_lshr_b64 v[0:1], v[10:11], v0
+; GFX6-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v25
+; GFX6-NEXT:    v_cndmask_b32_e32 v16, 0, v16, vcc
+; GFX6-NEXT:    v_cndmask_b32_e64 v18, v0, v21, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e64 v19, v1, v22, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e32 v17, 0, v17, vcc
+; GFX6-NEXT:    v_lshr_b64 v[0:1], v[10:11], v25
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v25
+; GFX6-NEXT:    v_cndmask_b32_e32 v8, v18, v8, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v9, v19, v9, vcc
 ; GFX6-NEXT:    v_lshl_b64 v[6:7], v[6:7], 1
-; GFX6-NEXT:    v_cndmask_b32_e64 v0, v0, v8, s[4:5]
-; GFX6-NEXT:    v_cndmask_b32_e64 v1, v1, v9, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e64 v10, 0, v0, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e64 v18, 0, v1, s[4:5]
+; GFX6-NEXT:    v_or_b32_e32 v0, v16, v8
+; GFX6-NEXT:    v_or_b32_e32 v1, v17, v9
 ; GFX6-NEXT:    v_lshl_b64 v[8:9], v[4:5], 1
 ; GFX6-NEXT:    v_lshrrev_b32_e32 v4, 31, v5
-; GFX6-NEXT:    v_lshr_b64 v[16:17], v[10:11], v22
 ; GFX6-NEXT:    v_or_b32_e32 v6, v6, v4
 ; GFX6-NEXT:    v_not_b32_e32 v4, v20
-; GFX6-NEXT:    v_or_b32_e32 v0, v18, v0
-; GFX6-NEXT:    v_and_b32_e32 v18, 0x7f, v4
-; GFX6-NEXT:    v_cndmask_b32_e32 v2, 0, v16, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v3, 0, v17, vcc
-; GFX6-NEXT:    v_sub_i32_e32 v4, vcc, 64, v18
+; GFX6-NEXT:    v_and_b32_e32 v16, 0x7f, v4
+; GFX6-NEXT:    v_sub_i32_e32 v4, vcc, 64, v16
+; GFX6-NEXT:    v_or_b32_e32 v2, v2, v10
 ; GFX6-NEXT:    v_lshr_b64 v[4:5], v[8:9], v4
-; GFX6-NEXT:    v_lshl_b64 v[10:11], v[6:7], v18
-; GFX6-NEXT:    v_or_b32_e32 v2, v19, v2
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v18, v25
-; GFX6-NEXT:    v_lshl_b64 v[16:17], v[8:9], v18
+; GFX6-NEXT:    v_lshl_b64 v[10:11], v[6:7], v16
+; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v16, v26
 ; GFX6-NEXT:    v_or_b32_e32 v10, v4, v10
 ; GFX6-NEXT:    v_or_b32_e32 v11, v5, v11
-; GFX6-NEXT:    v_lshl_b64 v[4:5], v[8:9], v19
-; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v18
-; GFX6-NEXT:    v_cndmask_b32_e32 v16, 0, v16, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v17, 0, v17, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v4, v4, v10, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v5, v5, v11, vcc
-; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v18
-; GFX6-NEXT:    v_and_b32_e32 v18, 0x7f, v20
-; GFX6-NEXT:    v_cndmask_b32_e32 v10, v4, v6, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v11, v5, v7, vcc
-; GFX6-NEXT:    v_sub_i32_e32 v6, vcc, 64, v18
-; GFX6-NEXT:    v_lshr_b64 v[4:5], v[12:13], v18
+; GFX6-NEXT:    v_lshl_b64 v[4:5], v[8:9], v16
+; GFX6-NEXT:    v_lshl_b64 v[8:9], v[8:9], v17
+; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v16
+; GFX6-NEXT:    v_or_b32_e32 v3, v3, v18
+; GFX6-NEXT:    v_cndmask_b32_e32 v17, 0, v4, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v18, 0, v5, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v4, v8, v10, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v5, v9, v11, vcc
+; GFX6-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
+; GFX6-NEXT:    v_and_b32_e32 v10, 0x7f, v20
+; GFX6-NEXT:    v_cndmask_b32_e32 v8, v4, v6, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v9, v5, v7, vcc
+; GFX6-NEXT:    v_sub_i32_e32 v6, vcc, 64, v10
+; GFX6-NEXT:    v_lshr_b64 v[4:5], v[12:13], v10
 ; GFX6-NEXT:    v_lshl_b64 v[6:7], v[14:15], v6
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v18, v25
-; GFX6-NEXT:    v_or_b32_e32 v6, v4, v6
-; GFX6-NEXT:    v_or_b32_e32 v7, v5, v7
-; GFX6-NEXT:    v_lshr_b64 v[4:5], v[14:15], v19
-; GFX6-NEXT:    v_lshr_b64 v[8:9], v[14:15], v18
-; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v18
-; GFX6-NEXT:    v_cndmask_b32_e32 v4, v4, v6, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v5, v5, v7, vcc
-; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v18
-; GFX6-NEXT:    v_cndmask_b32_e64 v4, v4, v12, s[4:5]
-; GFX6-NEXT:    v_cndmask_b32_e64 v5, v5, v13, s[4:5]
-; GFX6-NEXT:    v_cndmask_b32_e32 v6, 0, v8, vcc
-; GFX6-NEXT:    v_cndmask_b32_e32 v7, 0, v9, vcc
-; GFX6-NEXT:    v_or_b32_e32 v1, v23, v1
-; GFX6-NEXT:    v_or_b32_e32 v3, v21, v3
-; GFX6-NEXT:    v_or_b32_e32 v4, v16, v4
-; GFX6-NEXT:    v_or_b32_e32 v5, v17, v5
-; GFX6-NEXT:    v_or_b32_e32 v6, v10, v6
-; GFX6-NEXT:    v_or_b32_e32 v7, v11, v7
+; GFX6-NEXT:    v_add_i32_e32 v11, vcc, v10, v26
+; GFX6-NEXT:    v_or_b32_e32 v16, v4, v6
+; GFX6-NEXT:    v_or_b32_e32 v19, v5, v7
+; GFX6-NEXT:    v_lshr_b64 v[6:7], v[14:15], v11
+; GFX6-NEXT:    v_lshr_b64 v[4:5], v[14:15], v10
+; GFX6-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v10
+; GFX6-NEXT:    v_cndmask_b32_e32 v6, v6, v16, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v7, v7, v19, vcc
+; GFX6-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v10
+; GFX6-NEXT:    v_cndmask_b32_e64 v6, v6, v12, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e64 v7, v7, v13, s[4:5]
+; GFX6-NEXT:    v_cndmask_b32_e32 v10, 0, v4, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v11, 0, v5, vcc
+; GFX6-NEXT:    v_or_b32_e32 v4, v17, v6
+; GFX6-NEXT:    v_or_b32_e32 v5, v18, v7
+; GFX6-NEXT:    v_or_b32_e32 v6, v8, v10
+; GFX6-NEXT:    v_or_b32_e32 v7, v9, v11
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX8-LABEL: v_fshr_v2i128:
@@ -7811,86 +7811,86 @@ define <2 x i128> @v_fshr_v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %a
 ; GFX8-NEXT:    v_not_b32_e32 v0, v16
 ; GFX8-NEXT:    v_and_b32_e32 v19, 0x7f, v0
 ; GFX8-NEXT:    v_sub_u32_e32 v0, vcc, 64, v19
-; GFX8-NEXT:    v_not_b32_e32 v25, 63
 ; GFX8-NEXT:    v_lshrrev_b64 v[0:1], v0, v[17:18]
 ; GFX8-NEXT:    v_lshlrev_b64 v[21:22], v19, v[2:3]
-; GFX8-NEXT:    v_add_u32_e32 v26, vcc, v19, v25
-; GFX8-NEXT:    v_lshlrev_b64 v[23:24], v19, v[17:18]
-; GFX8-NEXT:    v_or_b32_e32 v21, v0, v21
-; GFX8-NEXT:    v_or_b32_e32 v22, v1, v22
-; GFX8-NEXT:    v_lshlrev_b64 v[0:1], v26, v[17:18]
+; GFX8-NEXT:    v_and_b32_e32 v25, 0x7f, v16
+; GFX8-NEXT:    v_or_b32_e32 v23, v0, v21
+; GFX8-NEXT:    v_sub_u32_e32 v0, vcc, 64, v25
+; GFX8-NEXT:    v_or_b32_e32 v24, v1, v22
+; GFX8-NEXT:    v_lshlrev_b64 v[0:1], v0, v[10:11]
+; GFX8-NEXT:    v_lshrrev_b64 v[21:22], v25, v[8:9]
+; GFX8-NEXT:    v_not_b32_e32 v26, 63
+; GFX8-NEXT:    v_or_b32_e32 v21, v21, v0
+; GFX8-NEXT:    v_add_u32_e32 v0, vcc, v19, v26
+; GFX8-NEXT:    v_or_b32_e32 v22, v22, v1
+; GFX8-NEXT:    v_lshlrev_b64 v[0:1], v0, v[17:18]
 ; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v19
-; GFX8-NEXT:    v_cndmask_b32_e32 v18, 0, v23, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v23, 0, v24, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v0, v0, v21, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v1, v1, v22, vcc
-; GFX8-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v19
-; GFX8-NEXT:    v_and_b32_e32 v22, 0x7f, v16
-; GFX8-NEXT:    v_cndmask_b32_e32 v19, v0, v2, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v21, v1, v3, vcc
-; GFX8-NEXT:    v_sub_u32_e32 v2, vcc, 64, v22
-; GFX8-NEXT:    v_lshrrev_b64 v[0:1], v22, v[8:9]
-; GFX8-NEXT:    v_lshlrev_b64 v[2:3], v2, v[10:11]
-; GFX8-NEXT:    v_add_u32_e32 v24, vcc, v22, v25
-; GFX8-NEXT:    v_or_b32_e32 v2, v0, v2
-; GFX8-NEXT:    v_or_b32_e32 v3, v1, v3
-; GFX8-NEXT:    v_lshrrev_b64 v[0:1], v24, v[10:11]
-; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v22
-; GFX8-NEXT:    v_cndmask_b32_e32 v0, v0, v2, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v1, v1, v3, vcc
-; GFX8-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v22
+; GFX8-NEXT:    v_cndmask_b32_e32 v0, v0, v23, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v1, v1, v24, vcc
+; GFX8-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v19
+; GFX8-NEXT:    v_cndmask_b32_e64 v2, v0, v2, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v3, v1, v3, s[4:5]
+; GFX8-NEXT:    v_add_u32_e64 v0, s[4:5], v25, v26
+; GFX8-NEXT:    v_lshlrev_b64 v[16:17], v19, v[17:18]
+; GFX8-NEXT:    v_lshrrev_b64 v[0:1], v0, v[10:11]
+; GFX8-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v25
+; GFX8-NEXT:    v_cndmask_b32_e32 v16, 0, v16, vcc
+; GFX8-NEXT:    v_cndmask_b32_e64 v18, v0, v21, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v19, v1, v22, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e32 v17, 0, v17, vcc
+; GFX8-NEXT:    v_lshrrev_b64 v[0:1], v25, v[10:11]
+; GFX8-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v25
+; GFX8-NEXT:    v_cndmask_b32_e32 v8, v18, v8, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v9, v19, v9, vcc
 ; GFX8-NEXT:    v_lshlrev_b64 v[6:7], 1, v[6:7]
-; GFX8-NEXT:    v_cndmask_b32_e64 v0, v0, v8, s[4:5]
-; GFX8-NEXT:    v_cndmask_b32_e64 v1, v1, v9, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v10, 0, v0, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v18, 0, v1, s[4:5]
+; GFX8-NEXT:    v_or_b32_e32 v0, v16, v8
+; GFX8-NEXT:    v_or_b32_e32 v1, v17, v9
 ; GFX8-NEXT:    v_lshlrev_b64 v[8:9], 1, v[4:5]
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v4, 31, v5
-; GFX8-NEXT:    v_lshrrev_b64 v[16:17], v22, v[10:11]
 ; GFX8-NEXT:    v_or_b32_e32 v6, v6, v4
 ; GFX8-NEXT:    v_not_b32_e32 v4, v20
-; GFX8-NEXT:    v_or_b32_e32 v0, v18, v0
-; GFX8-NEXT:    v_and_b32_e32 v18, 0x7f, v4
-; GFX8-NEXT:    v_cndmask_b32_e32 v2, 0, v16, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v3, 0, v17, vcc
-; GFX8-NEXT:    v_sub_u32_e32 v4, vcc, 64, v18
+; GFX8-NEXT:    v_and_b32_e32 v16, 0x7f, v4
+; GFX8-NEXT:    v_sub_u32_e32 v4, vcc, 64, v16
+; GFX8-NEXT:    v_or_b32_e32 v2, v2, v10
 ; GFX8-NEXT:    v_lshrrev_b64 v[4:5], v4, v[8:9]
-; GFX8-NEXT:    v_lshlrev_b64 v[10:11], v18, v[6:7]
-; GFX8-NEXT:    v_or_b32_e32 v2, v19, v2
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v18, v25
-; GFX8-NEXT:    v_lshlrev_b64 v[16:17], v18, v[8:9]
+; GFX8-NEXT:    v_lshlrev_b64 v[10:11], v16, v[6:7]
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v16, v26
 ; GFX8-NEXT:    v_or_b32_e32 v10, v4, v10
 ; GFX8-NEXT:    v_or_b32_e32 v11, v5, v11
-; GFX8-NEXT:    v_lshlrev_b64 v[4:5], v19, v[8:9]
-; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v18
-; GFX8-NEXT:    v_cndmask_b32_e32 v16, 0, v16, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v17, 0, v17, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v4, v4, v10, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v5, v5, v11, vcc
-; GFX8-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v18
-; GFX8-NEXT:    v_and_b32_e32 v18, 0x7f, v20
-; GFX8-NEXT:    v_cndmask_b32_e32 v10, v4, v6, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v11, v5, v7, vcc
-; GFX8-NEXT:    v_sub_u32_e32 v6, vcc, 64, v18
-; GFX8-NEXT:    v_lshrrev_b64 v[4:5], v18, v[12:13]
+; GFX8-NEXT:    v_lshlrev_b64 v[4:5], v16, v[8:9]
+; GFX8-NEXT:    v_lshlrev_b64 v[8:9], v17, v[8:9]
+; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v16
+; GFX8-NEXT:    v_or_b32_e32 v3, v3, v18
+; GFX8-NEXT:    v_cndmask_b32_e32 v17, 0, v4, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v18, 0, v5, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v4, v8, v10, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v5, v9, v11, vcc
+; GFX8-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
+; GFX8-NEXT:    v_and_b32_e32 v10, 0x7f, v20
+; GFX8-NEXT:    v_cndmask_b32_e32 v8, v4, v6, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v9, v5, v7, vcc
+; GFX8-NEXT:    v_sub_u32_e32 v6, vcc, 64, v10
+; GFX8-NEXT:    v_lshrrev_b64 v[4:5], v10, v[12:13]
 ; GFX8-NEXT:    v_lshlrev_b64 v[6:7], v6, v[14:15]
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v18, v25
-; GFX8-NEXT:    v_or_b32_e32 v6, v4, v6
-; GFX8-NEXT:    v_or_b32_e32 v7, v5, v7
-; GFX8-NEXT:    v_lshrrev_b64 v[4:5], v19, v[14:15]
-; GFX8-NEXT:    v_lshrrev_b64 v[8:9], v18, v[14:15]
-; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v18
-; GFX8-NEXT:    v_cndmask_b32_e32 v4, v4, v6, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v5, v5, v7, vcc
-; GFX8-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v18
-; GFX8-NEXT:    v_cndmask_b32_e64 v4, v4, v12, s[4:5]
-; GFX8-NEXT:    v_cndmask_b32_e64 v5, v5, v13, s[4:5]
-; GFX8-NEXT:    v_cndmask_b32_e32 v6, 0, v8, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v7, 0, v9, vcc
-; GFX8-NEXT:    v_or_b32_e32 v1, v23, v1
-; GFX8-NEXT:    v_or_b32_e32 v3, v21, v3
-; GFX8-NEXT:    v_or_b32_e32 v4, v16, v4
-; GFX8-NEXT:    v_or_b32_e32 v5, v17, v5
-; GFX8-NEXT:    v_or_b32_e32 v6, v10, v6
-; GFX8-NEXT:    v_or_b32_e32 v7, v11, v7
+; GFX8-NEXT:    v_add_u32_e32 v11, vcc, v10, v26
+; GFX8-NEXT:    v_or_b32_e32 v16, v4, v6
+; GFX8-NEXT:    v_or_b32_e32 v19, v5, v7
+; GFX8-NEXT:    v_lshrrev_b64 v[6:7], v11, v[14:15]
+; GFX8-NEXT:    v_lshrrev_b64 v[4:5], v10, v[14:15]
+; GFX8-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v10
+; GFX8-NEXT:    v_cndmask_b32_e32 v6, v6, v16, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v7, v7, v19, vcc
+; GFX8-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v10
+; GFX8-NEXT:    v_cndmask_b32_e64 v6, v6, v12, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v7, v7, v13, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e32 v10, 0, v4, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v11, 0, v5, vcc
+; GFX8-NEXT:    v_or_b32_e32 v4, v17, v6
+; GFX8-NEXT:    v_or_b32_e32 v5, v18, v7
+; GFX8-NEXT:    v_or_b32_e32 v6, v8, v10
+; GFX8-NEXT:    v_or_b32_e32 v7, v9, v11
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX9-LABEL: v_fshr_v2i128:
@@ -7905,83 +7905,83 @@ define <2 x i128> @v_fshr_v2i128(<2 x i128> %lhs, <2 x i128> %rhs, <2 x i128> %a
 ; GFX9-NEXT:    v_sub_u32_e32 v0, 64, v19
 ; GFX9-NEXT:    v_lshrrev_b64 v[0:1], v0, v[17:18]
 ; GFX9-NEXT:    v_lshlrev_b64 v[21:22], v19, v[2:3]
-; GFX9-NEXT:    v_add_u32_e32 v25, 0xffffffc0, v19
-; GFX9-NEXT:    v_lshlrev_b64 v[23:24], v19, v[17:18]
-; GFX9-NEXT:    v_or_b32_e32 v21, v0, v21
-; GFX9-NEXT:    v_or_b32_e32 v22, v1, v22
-; GFX9-NEXT:    v_lshlrev_b64 v[0:1], v25, v[17:18]
+; GFX9-NEXT:    v_and_b32_e32 v25, 0x7f, v16
+; GFX9-NEXT:    v_or_b32_e32 v23, v0, v21
+; GFX9-NEXT:    v_sub_u32_e32 v0, 64, v25
+; GFX9-NEXT:    v_or_b32_e32 v24, v1, v22
+; GFX9-NEXT:    v_lshlrev_b64 v[0:1], v0, v[10:11]
+; GFX9-NEXT:    v_lshrrev_b64 v[21:22], v25, v[8:9]
 ; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v19
-; GFX9-NEXT:    v_cndmask_b32_e32 v18, 0, v23, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v23, 0, v24, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v0, v0, v21, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v1, v1, v22, vcc
-; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v19
-; GFX9-NEXT:    v_and_b32_e32 v22, 0x7f, v16
-; GFX9-NEXT:    v_cndmask_b32_e32 v19, v0, v2, vcc
-; GFX9-NEXT:    v_sub_u32_e32 v2, 64, v22
-; GFX9-NEXT:    v_cndmask_b32_e32 v21, v1, v3, vcc
-; GFX9-NEXT:    v_lshrrev_b64 v[0:1], v22, v[8:9]
-; GFX9-NEXT:    v_lshlrev_b64 v[2:3], v2, v[10:11]
-; GFX9-NEXT:    v_add_u32_e32 v24, 0xffffffc0, v22
-; GFX9-NEXT:    v_or_b32_e32 v2, v0, v2
-; GFX9-NEXT:    v_or_b32_e32 v3, v1, v3
-; GFX9-NEXT:    v_lshrrev_b64 v[0:1], v24, v[10:11]
-; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v22
-; GFX9-NEXT:    v_cndmask_b32_e32 v0, v0, v2, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v1, v1, v3, vcc
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v22
+; GFX9-NEXT:    v_or_b32_e32 v21, v21, v0
+; GFX9-NEXT:    v_add_u32_e32 v0, 0xffffffc0, v19
+; GFX9-NEXT:    v_or_b32_e32 v22, v22, v1
+; GFX9-NEXT:    v_lshlrev_b64 v[0:1], v0, v[17:18]
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v19
+; GFX9-NEXT:    v_cndmask_b32_e32 v0, v0, v23, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v1, v1, v24, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v2, v0, v2, s[4:5]
+; GFX9-NEXT:    v_add_u32_e32 v0, 0xffffffc0, v25
+; GFX9-NEXT:    v_lshlrev_b64 v[16:17], v19, v[17:18]
+; GFX9-NEXT:    v_cndmask_b32_e64 v3, v1, v3, s[4:5]
+; GFX9-NEXT:    v_lshrrev_b64 v[0:1], v0, v[10:11]
+; GFX9-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v25
+; GFX9-NEXT:    v_cndmask_b32_e32 v16, 0, v16, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v18, v0, v21, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v19, v1, v22, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e32 v17, 0, v17, vcc
+; GFX9-NEXT:    v_lshrrev_b64 v[0:1], v25, v[10:11]
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v25
+; GFX9-NEXT:    v_cndmask_b32_e32 v8, v18, v8, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v9, v19, v9, vcc
 ; GFX9-NEXT:    v_lshlrev_b64 v[6:7], 1, v[6:7]
-; GFX9-NEXT:    v_cndmask_b32_e64 v0, v0, v8, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e64 v1, v1, v9, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v10, 0, v0, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, v1, s[4:5]
+; GFX9-NEXT:    v_or_b32_e32 v0, v16, v8
+; GFX9-NEXT:    v_or_b32_e32 v1, v17, v9
 ; GFX9-NEXT:    v_lshlrev_b64 v[8:9], 1, v[4:5]
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v4, 31, v5
 ; GFX9-NEXT:    v_or_b32_e32 v6, v6, v4
 ; GFX9-NEXT:    v_not_b32_e32 v4, v20
-; GFX9-NEXT:    v_lshrrev_b64 v[16:17], v22, v[10:11]
-; GFX9-NEXT:    v_or_b32_e32 v0, v18, v0
-; GFX9-NEXT:    v_and_b32_e32 v18, 0x7f, v4
-; GFX9-NEXT:    v_sub_u32_e32 v4, 64, v18
-; GFX9-NEXT:    v_cndmask_b32_e32 v2, 0, v16, vcc
+; GFX9-NEXT:    v_and_b32_e32 v16, 0x7f, v4
+; GFX9-NEXT:    v_sub_u32_e32 v4, 64, v16
+; GFX9-NEXT:    v_or_b32_e32 v2, v2, v10
+; GFX9-NEXT:    v_or_b32_e32 v3, v3, v11
 ; GFX9-NEXT:    v_lshrrev_b64 v[4:5], v4, v[8:9]
-; GFX9-NEXT:    v_lshlrev_b64 v[10:11], v18, v[6:7]
-; GFX9-NEXT:    v_or_b32_e32 v2, v19, v2
-; GFX9-NEXT:    v_add_u32_e32 v19, 0xffffffc0, v18
-; GFX9-NEXT:    v_cndmask_b32_e32 v3, 0, v17, vcc
-; GFX9-NEXT:    v_lshlrev_b64 v[16:17], v18, v[8:9]
+; GFX9-NEXT:    v_lshlrev_b64 v[10:11], v16, v[6:7]
+; GFX9-NEXT:    v_add_u32_e32 v17, 0xffffffc0, v16
 ; GFX9-NEXT:    v_or_b32_e32 v10, v4, v10
 ; GFX9-NEXT:    v_or_b32_e32 v11, v5, v11
-; GFX9-NEXT:    v_lshlrev_b64 v[4:5], v19, v[8:9]
-; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v18
-; GFX9-NEXT:    v_cndmask_b32_e32 v16, 0, v16, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v17, 0, v17, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v4, v4, v10, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v5, v5, v11, vcc
-; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v18
-; GFX9-NEXT:    v_and_b32_e32 v18, 0x7f, v20
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, v4, v6, vcc
-; GFX9-NEXT:    v_sub_u32_e32 v6, 64, v18
-; GFX9-NEXT:    v_cndmask_b32_e32 v11, v5, v7, vcc
-; GFX9-NEXT:    v_lshrrev_b64 v[4:5], v18, v[12:13]
+; GFX9-NEXT:    v_lshlrev_b64 v[4:5], v16, v[8:9]
+; GFX9-NEXT:    v_lshlrev_b64 v[8:9], v17, v[8:9]
+; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v16
+; GFX9-NEXT:    v_cndmask_b32_e32 v17, 0, v4, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v18, 0, v5, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v4, v8, v10, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v5, v9, v11, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
+; GFX9-NEXT:    v_and_b32_e32 v10, 0x7f, v20
+; GFX9-NEXT:    v_cndmask_b32_e32 v8, v4, v6, vcc
+; GFX9-NEXT:    v_sub_u32_e32 v6, 64, v10
+; GFX9-NEXT:    v_cndmask_b32_e32 v9, v5, v7, vcc
+; GFX9-NEXT:    v_lshrrev_b64 v[4:5], v10, v[12:13]
 ; GFX9-NEXT:    v_lshlrev_b64 v[6:7], v6, v[14:15]
-; GFX9-NEXT:    v_add_u32_e32 v19, 0xffffffc0, v18
-; GFX9-NEXT:    v_or_b32_e32 v6, v4, v6
-; GFX9-NEXT:    v_or_b32_e32 v7, v5, v7
-; GFX9-NEXT:    v_lshrrev_b64 v[4:5], v19, v[14:15]
-; GFX9-NEXT:    v_lshrrev_b64 v[8:9], v18, v[14:15]
-; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v18
-; GFX9-NEXT:    v_cndmask_b32_e32 v4, v4, v6, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v5, v5, v7, vcc
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v18
-; GFX9-NEXT:    v_cndmask_b32_e64 v4, v4, v12, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, v5, v13, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e32 v6, 0, v8, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v7, 0, v9, vcc
-; GFX9-NEXT:    v_or_b32_e32 v1, v23, v1
-; GFX9-NEXT:    v_or_b32_e32 v3, v21, v3
-; GFX9-NEXT:    v_or_b32_e32 v4, v16, v4
-; GFX9-NEXT:    v_or_b32_e32 v5, v17, v5
-; GFX9-NEXT:    v_or_b32_e32 v6, v10, v6
-; GFX9-NEXT:    v_or_b32_e32 v7, v11, v7
+; GFX9-NEXT:    v_add_u32_e32 v11, 0xffffffc0, v10
+; GFX9-NEXT:    v_or_b32_e32 v16, v4, v6
+; GFX9-NEXT:    v_or_b32_e32 v19, v5, v7
+; GFX9-NEXT:    v_lshrrev_b64 v[6:7], v11, v[14:15]
+; GFX9-NEXT:    v_lshrrev_b64 v[4:5], v10, v[14:15]
+; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v10
+; GFX9-NEXT:    v_cndmask_b32_e32 v6, v6, v16, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v7, v7, v19, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v10
+; GFX9-NEXT:    v_cndmask_b32_e64 v6, v6, v12, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v7, v7, v13, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e32 v10, 0, v4, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v11, 0, v5, vcc
+; GFX9-NEXT:    v_or_b32_e32 v4, v17, v6
+; GFX9-NEXT:    v_or_b32_e32 v5, v18, v7
+; GFX9-NEXT:    v_or_b32_e32 v6, v8, v10
+; GFX9-NEXT:    v_or_b32_e32 v7, v9, v11
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX10-LABEL: v_fshr_v2i128:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.ll
index df1afdf77983c..298dfcf048fc4 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.ll
@@ -715,27 +715,27 @@ define void @dyn_insertelement_v8f64_const_s_v_v(double %val, i32 %idx) {
 ; GPRIDX-NEXT:    v_mov_b32_e32 v16, s17
 ; GPRIDX-NEXT:    v_mov_b32_e32 v17, s18
 ; GPRIDX-NEXT:    v_mov_b32_e32 v18, s19
-; GPRIDX-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v2
-; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v2
-; GPRIDX-NEXT:    v_cndmask_b32_e32 v3, v3, v0, vcc
-; GPRIDX-NEXT:    v_cndmask_b32_e64 v5, v5, v0, s[4:5]
-; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[6:7], 2, v2
-; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[8:9], 3, v2
+; GPRIDX-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v2
+; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[16:17], 0, v2
+; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[4:5], 2, v2
+; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[6:7], 3, v2
+; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[8:9], 4, v2
 ; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[10:11], 5, v2
 ; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[12:13], 6, v2
 ; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[14:15], 7, v2
-; GPRIDX-NEXT:    v_cmp_eq_u32_e64 s[16:17], 4, v2
-; GPRIDX-NEXT:    v_cndmask_b32_e32 v4, v4, v1, vcc
-; GPRIDX-NEXT:    v_cndmask_b32_e64 v6, v6, v1, s[4:5]
-; GPRIDX-NEXT:    v_cndmask_b32_e64 v7, v7, v0, s[6:7]
-; GPRIDX-NEXT:    v_cndmask_b32_e64 v9, v9, v0, s[8:9]
-; GPRIDX-NEXT:    v_cndmask_b32_e64 v11, v11, v0, s[16:17]
+; GPRIDX-NEXT:    v_cndmask_b32_e64 v3, v3, v0, s[16:17]
+; GPRIDX-NEXT:    v_cndmask_b32_e32 v5, v5, v0, vcc
+; GPRIDX-NEXT:    v_cndmask_b32_e64 v4, v4, v1, s[16:17]
+; GPRIDX-NEXT:    v_cndmask_b32_e32 v6, v6, v1, vcc
+; GPRIDX-NEXT:    v_cndmask_b32_e64 v7, v7, v0, s[4:5]
+; GPRIDX-NEXT:    v_cndmask_b32_e64 v9, v9, v0, s[6:7]
+; GPRIDX-NEXT:    v_cndmask_b32_e64 v11, v11, v0, s[8:9]
 ; GPRIDX-NEXT:    v_cndmask_b32_e64 v13, v13, v0, s[10:11]
 ; GPRIDX-NEXT:    v_cndmask_b32_e64 v15, v15, v0, s[12:13]
 ; GPRIDX-NEXT:    v_cndmask_b32_e64 v17, v17, v0, s[14:15]
-; GPRIDX-NEXT:    v_cndmask_b32_e64 v8, v8, v1, s[6:7]
-; GPRIDX-NEXT:    v_cndmask_b32_e64 v10, v10, v1, s[8:9]
-; GPRIDX-NEXT:    v_cndmask_b32_e64 v12, v12, v1, s[16:17]
+; GPRIDX-NEXT:    v_cndmask_b32_e64 v8, v8, v1, s[4:5]
+; GPRIDX-NEXT:    v_cndmask_b32_e64 v10, v10, v1, s[6:7]
+; GPRIDX-NEXT:    v_cndmask_b32_e64 v12, v12, v1, s[8:9]
 ; GPRIDX-NEXT:    v_cndmask_b32_e64 v14, v14, v1, s[10:11]
 ; GPRIDX-NEXT:    v_cndmask_b32_e64 v16, v16, v1, s[12:13]
 ; GPRIDX-NEXT:    v_cndmask_b32_e64 v18, v18, v1, s[14:15]
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.memcpy.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.memcpy.ll
index 75d4d8816fb30..e8de761540b7a 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.memcpy.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.memcpy.ll
@@ -14,167 +14,168 @@ define amdgpu_cs void @memcpy_p1i8(ptr addrspace(1) %dst, ptr addrspace(1) %src)
 ; LOOP-NEXT:    v_mov_b32_e32 v4, s0
 ; LOOP-NEXT:  .LBB0_1: ; %load-store-loop
 ; LOOP-NEXT:    ; =>This Inner Loop Header: Depth=1
+; LOOP-NEXT:    v_add_i32_e32 v6, vcc, v2, v4
+; LOOP-NEXT:    v_addc_u32_e32 v7, vcc, v3, v5, vcc
+; LOOP-NEXT:    buffer_load_ubyte v26, v[6:7], s[0:3], 0 addr64
+; LOOP-NEXT:    s_waitcnt expcnt(5)
+; LOOP-NEXT:    buffer_load_ubyte v29, v[6:7], s[0:3], 0 addr64 offset:1
 ; LOOP-NEXT:    s_waitcnt expcnt(2)
-; LOOP-NEXT:    v_add_i32_e32 v29, vcc, v2, v4
-; LOOP-NEXT:    v_addc_u32_e32 v30, vcc, v3, v5, vcc
-; LOOP-NEXT:    buffer_load_ubyte v24, v[29:30], s[0:3], 0 addr64
-; LOOP-NEXT:    buffer_load_ubyte v27, v[29:30], s[0:3], 0 addr64 offset:1
-; LOOP-NEXT:    buffer_load_ubyte v34, v[29:30], s[0:3], 0 addr64 offset:2
-; LOOP-NEXT:    buffer_load_ubyte v35, v[29:30], s[0:3], 0 addr64 offset:3
-; LOOP-NEXT:    buffer_load_ubyte v36, v[29:30], s[0:3], 0 addr64 offset:4
-; LOOP-NEXT:    buffer_load_ubyte v37, v[29:30], s[0:3], 0 addr64 offset:5
-; LOOP-NEXT:    buffer_load_ubyte v38, v[29:30], s[0:3], 0 addr64 offset:6
-; LOOP-NEXT:    buffer_load_ubyte v39, v[29:30], s[0:3], 0 addr64 offset:7
-; LOOP-NEXT:    buffer_load_ubyte v6, v[29:30], s[0:3], 0 addr64 offset:8
-; LOOP-NEXT:    buffer_load_ubyte v9, v[29:30], s[0:3], 0 addr64 offset:9
-; LOOP-NEXT:    buffer_load_ubyte v10, v[29:30], s[0:3], 0 addr64 offset:10
+; LOOP-NEXT:    buffer_load_ubyte v31, v[6:7], s[0:3], 0 addr64 offset:2
+; LOOP-NEXT:    buffer_load_ubyte v32, v[6:7], s[0:3], 0 addr64 offset:3
+; LOOP-NEXT:    buffer_load_ubyte v36, v[6:7], s[0:3], 0 addr64 offset:4
+; LOOP-NEXT:    buffer_load_ubyte v37, v[6:7], s[0:3], 0 addr64 offset:5
+; LOOP-NEXT:    buffer_load_ubyte v38, v[6:7], s[0:3], 0 addr64 offset:6
+; LOOP-NEXT:    buffer_load_ubyte v39, v[6:7], s[0:3], 0 addr64 offset:7
+; LOOP-NEXT:    buffer_load_ubyte v8, v[6:7], s[0:3], 0 addr64 offset:8
+; LOOP-NEXT:    buffer_load_ubyte v11, v[6:7], s[0:3], 0 addr64 offset:9
+; LOOP-NEXT:    buffer_load_ubyte v12, v[6:7], s[0:3], 0 addr64 offset:10
 ; LOOP-NEXT:    s_waitcnt expcnt(0)
-; LOOP-NEXT:    buffer_load_ubyte v11, v[29:30], s[0:3], 0 addr64 offset:11
-; LOOP-NEXT:    buffer_load_ubyte v7, v[29:30], s[0:3], 0 addr64 offset:12
-; LOOP-NEXT:    buffer_load_ubyte v13, v[29:30], s[0:3], 0 addr64 offset:13
-; LOOP-NEXT:    buffer_load_ubyte v14, v[29:30], s[0:3], 0 addr64 offset:14
-; LOOP-NEXT:    buffer_load_ubyte v15, v[29:30], s[0:3], 0 addr64 offset:15
-; LOOP-NEXT:    buffer_load_ubyte v8, v[29:30], s[0:3], 0 addr64 offset:16
-; LOOP-NEXT:    buffer_load_ubyte v17, v[29:30], s[0:3], 0 addr64 offset:17
-; LOOP-NEXT:    buffer_load_ubyte v18, v[29:30], s[0:3], 0 addr64 offset:18
-; LOOP-NEXT:    buffer_load_ubyte v19, v[29:30], s[0:3], 0 addr64 offset:19
-; LOOP-NEXT:    buffer_load_ubyte v12, v[29:30], s[0:3], 0 addr64 offset:20
-; LOOP-NEXT:    buffer_load_ubyte v21, v[29:30], s[0:3], 0 addr64 offset:21
-; LOOP-NEXT:    buffer_load_ubyte v22, v[29:30], s[0:3], 0 addr64 offset:22
-; LOOP-NEXT:    buffer_load_ubyte v23, v[29:30], s[0:3], 0 addr64 offset:23
-; LOOP-NEXT:    buffer_load_ubyte v16, v[29:30], s[0:3], 0 addr64 offset:24
-; LOOP-NEXT:    buffer_load_ubyte v25, v[29:30], s[0:3], 0 addr64 offset:25
-; LOOP-NEXT:    buffer_load_ubyte v26, v[29:30], s[0:3], 0 addr64 offset:26
-; LOOP-NEXT:    buffer_load_ubyte v28, v[29:30], s[0:3], 0 addr64 offset:27
-; LOOP-NEXT:    buffer_load_ubyte v20, v[29:30], s[0:3], 0 addr64 offset:28
-; LOOP-NEXT:    buffer_load_ubyte v31, v[29:30], s[0:3], 0 addr64 offset:29
-; LOOP-NEXT:    buffer_load_ubyte v32, v[29:30], s[0:3], 0 addr64 offset:30
-; LOOP-NEXT:    buffer_load_ubyte v33, v[29:30], s[0:3], 0 addr64 offset:31
+; LOOP-NEXT:    buffer_load_ubyte v13, v[6:7], s[0:3], 0 addr64 offset:11
+; LOOP-NEXT:    buffer_load_ubyte v9, v[6:7], s[0:3], 0 addr64 offset:12
+; LOOP-NEXT:    buffer_load_ubyte v15, v[6:7], s[0:3], 0 addr64 offset:13
+; LOOP-NEXT:    buffer_load_ubyte v16, v[6:7], s[0:3], 0 addr64 offset:14
+; LOOP-NEXT:    buffer_load_ubyte v17, v[6:7], s[0:3], 0 addr64 offset:15
+; LOOP-NEXT:    buffer_load_ubyte v10, v[6:7], s[0:3], 0 addr64 offset:16
+; LOOP-NEXT:    buffer_load_ubyte v19, v[6:7], s[0:3], 0 addr64 offset:17
+; LOOP-NEXT:    buffer_load_ubyte v20, v[6:7], s[0:3], 0 addr64 offset:18
+; LOOP-NEXT:    buffer_load_ubyte v21, v[6:7], s[0:3], 0 addr64 offset:19
+; LOOP-NEXT:    buffer_load_ubyte v14, v[6:7], s[0:3], 0 addr64 offset:20
+; LOOP-NEXT:    buffer_load_ubyte v23, v[6:7], s[0:3], 0 addr64 offset:21
+; LOOP-NEXT:    buffer_load_ubyte v24, v[6:7], s[0:3], 0 addr64 offset:22
+; LOOP-NEXT:    buffer_load_ubyte v25, v[6:7], s[0:3], 0 addr64 offset:23
+; LOOP-NEXT:    buffer_load_ubyte v18, v[6:7], s[0:3], 0 addr64 offset:24
+; LOOP-NEXT:    buffer_load_ubyte v27, v[6:7], s[0:3], 0 addr64 offset:25
+; LOOP-NEXT:    buffer_load_ubyte v28, v[6:7], s[0:3], 0 addr64 offset:26
+; LOOP-NEXT:    buffer_load_ubyte v30, v[6:7], s[0:3], 0 addr64 offset:27
+; LOOP-NEXT:    buffer_load_ubyte v22, v[6:7], s[0:3], 0 addr64 offset:28
+; LOOP-NEXT:    buffer_load_ubyte v33, v[6:7], s[0:3], 0 addr64 offset:29
+; LOOP-NEXT:    buffer_load_ubyte v34, v[6:7], s[0:3], 0 addr64 offset:30
+; LOOP-NEXT:    buffer_load_ubyte v35, v[6:7], s[0:3], 0 addr64 offset:31
 ; LOOP-NEXT:    s_waitcnt vmcnt(14)
-; LOOP-NEXT:    v_lshlrev_b32_e32 v27, 8, v27
-; LOOP-NEXT:    v_or_b32_e32 v24, v27, v24
-; LOOP-NEXT:    v_lshlrev_b32_e32 v27, 24, v35
-; LOOP-NEXT:    v_lshlrev_b32_e32 v29, 16, v34
-; LOOP-NEXT:    v_or_b32_e32 v27, v27, v29
-; LOOP-NEXT:    v_lshlrev_b32_e32 v29, 8, v37
-; LOOP-NEXT:    v_lshlrev_b32_e32 v30, 24, v39
-; LOOP-NEXT:    v_lshlrev_b32_e32 v34, 16, v38
-; LOOP-NEXT:    v_or_b32_e32 v29, v29, v36
-; LOOP-NEXT:    v_or_b32_e32 v30, v30, v34
-; LOOP-NEXT:    v_add_i32_e32 v34, vcc, v0, v4
-; LOOP-NEXT:    v_addc_u32_e32 v35, vcc, v1, v5, vcc
+; LOOP-NEXT:    v_lshlrev_b32_e32 v6, 8, v29
+; LOOP-NEXT:    v_or_b32_e32 v26, v6, v26
+; LOOP-NEXT:    v_lshlrev_b32_e32 v6, 24, v32
+; LOOP-NEXT:    v_lshlrev_b32_e32 v7, 16, v31
+; LOOP-NEXT:    v_or_b32_e32 v29, v6, v7
+; LOOP-NEXT:    v_lshlrev_b32_e32 v6, 8, v37
+; LOOP-NEXT:    v_lshlrev_b32_e32 v7, 24, v39
+; LOOP-NEXT:    v_lshlrev_b32_e32 v32, 16, v38
+; LOOP-NEXT:    v_or_b32_e32 v31, v6, v36
+; LOOP-NEXT:    v_or_b32_e32 v32, v7, v32
+; LOOP-NEXT:    v_add_i32_e32 v6, vcc, v0, v4
+; LOOP-NEXT:    v_addc_u32_e32 v7, vcc, v1, v5, vcc
 ; LOOP-NEXT:    v_add_i32_e32 v4, vcc, 32, v4
 ; LOOP-NEXT:    v_addc_u32_e32 v5, vcc, 0, v5, vcc
 ; LOOP-NEXT:    v_cmp_gt_u32_e32 vcc, 32, v4
-; LOOP-NEXT:    v_lshlrev_b32_e32 v9, 8, v9
-; LOOP-NEXT:    v_lshlrev_b32_e32 v11, 24, v11
-; LOOP-NEXT:    v_lshlrev_b32_e32 v10, 16, v10
-; LOOP-NEXT:    v_lshlrev_b32_e32 v13, 8, v13
-; LOOP-NEXT:    v_lshlrev_b32_e32 v15, 24, v15
-; LOOP-NEXT:    v_lshlrev_b32_e32 v14, 16, v14
-; LOOP-NEXT:    v_lshlrev_b32_e32 v17, 8, v17
+; LOOP-NEXT:    v_lshlrev_b32_e32 v11, 8, v11
+; LOOP-NEXT:    v_lshlrev_b32_e32 v13, 24, v13
+; LOOP-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
+; LOOP-NEXT:    v_lshlrev_b32_e32 v15, 8, v15
+; LOOP-NEXT:    v_lshlrev_b32_e32 v17, 24, v17
+; LOOP-NEXT:    v_lshlrev_b32_e32 v16, 16, v16
+; LOOP-NEXT:    v_lshlrev_b32_e32 v19, 8, v19
 ; LOOP-NEXT:    s_waitcnt vmcnt(12)
-; LOOP-NEXT:    v_lshlrev_b32_e32 v19, 24, v19
-; LOOP-NEXT:    v_lshlrev_b32_e32 v18, 16, v18
+; LOOP-NEXT:    v_lshlrev_b32_e32 v21, 24, v21
+; LOOP-NEXT:    v_lshlrev_b32_e32 v20, 16, v20
 ; LOOP-NEXT:    s_waitcnt vmcnt(10)
-; LOOP-NEXT:    v_lshlrev_b32_e32 v21, 8, v21
+; LOOP-NEXT:    v_lshlrev_b32_e32 v23, 8, v23
 ; LOOP-NEXT:    s_waitcnt vmcnt(8)
-; LOOP-NEXT:    v_lshlrev_b32_e32 v23, 24, v23
-; LOOP-NEXT:    v_lshlrev_b32_e32 v22, 16, v22
+; LOOP-NEXT:    v_lshlrev_b32_e32 v25, 24, v25
+; LOOP-NEXT:    v_lshlrev_b32_e32 v24, 16, v24
 ; LOOP-NEXT:    s_waitcnt vmcnt(6)
-; LOOP-NEXT:    v_lshlrev_b32_e32 v25, 8, v25
+; LOOP-NEXT:    v_lshlrev_b32_e32 v27, 8, v27
 ; LOOP-NEXT:    s_waitcnt vmcnt(4)
-; LOOP-NEXT:    v_lshlrev_b32_e32 v28, 24, v28
-; LOOP-NEXT:    v_lshlrev_b32_e32 v26, 16, v26
+; LOOP-NEXT:    v_lshlrev_b32_e32 v30, 24, v30
+; LOOP-NEXT:    v_lshlrev_b32_e32 v28, 16, v28
 ; LOOP-NEXT:    s_waitcnt vmcnt(2)
-; LOOP-NEXT:    v_lshlrev_b32_e32 v31, 8, v31
+; LOOP-NEXT:    v_lshlrev_b32_e32 v33, 8, v33
 ; LOOP-NEXT:    s_waitcnt vmcnt(0)
-; LOOP-NEXT:    v_lshlrev_b32_e32 v33, 24, v33
-; LOOP-NEXT:    v_lshlrev_b32_e32 v32, 16, v32
-; LOOP-NEXT:    v_or_b32_e32 v6, v9, v6
-; LOOP-NEXT:    v_or_b32_e32 v9, v11, v10
-; LOOP-NEXT:    v_or_b32_e32 v7, v13, v7
-; LOOP-NEXT:    v_or_b32_e32 v10, v15, v14
-; LOOP-NEXT:    v_or_b32_e32 v8, v17, v8
-; LOOP-NEXT:    v_or_b32_e32 v11, v19, v18
-; LOOP-NEXT:    v_or_b32_e32 v12, v21, v12
-; LOOP-NEXT:    v_or_b32_e32 v13, v23, v22
-; LOOP-NEXT:    v_or_b32_e32 v14, v25, v16
-; LOOP-NEXT:    v_or_b32_e32 v15, v28, v26
-; LOOP-NEXT:    v_or_b32_e32 v16, v31, v20
-; LOOP-NEXT:    v_or_b32_e32 v17, v33, v32
-; LOOP-NEXT:    v_or_b32_e32 v18, v27, v24
-; LOOP-NEXT:    v_or_b32_e32 v19, v30, v29
-; LOOP-NEXT:    v_or_b32_e32 v6, v9, v6
-; LOOP-NEXT:    v_or_b32_e32 v7, v10, v7
+; LOOP-NEXT:    v_lshlrev_b32_e32 v35, 24, v35
+; LOOP-NEXT:    v_lshlrev_b32_e32 v34, 16, v34
 ; LOOP-NEXT:    v_or_b32_e32 v8, v11, v8
-; LOOP-NEXT:    v_or_b32_e32 v9, v13, v12
-; LOOP-NEXT:    v_or_b32_e32 v10, v15, v14
-; LOOP-NEXT:    v_or_b32_e32 v11, v17, v16
-; LOOP-NEXT:    v_lshrrev_b32_e32 v12, 16, v18
-; LOOP-NEXT:    v_bfe_u32 v13, v18, 8, 8
-; LOOP-NEXT:    buffer_store_byte v18, v[34:35], s[0:3], 0 addr64
-; LOOP-NEXT:    v_lshrrev_b32_e32 v14, 24, v18
-; LOOP-NEXT:    v_lshrrev_b32_e32 v15, 16, v19
-; LOOP-NEXT:    v_bfe_u32 v16, v19, 8, 8
-; LOOP-NEXT:    buffer_store_byte v19, v[34:35], s[0:3], 0 addr64 offset:4
-; LOOP-NEXT:    v_lshrrev_b32_e32 v17, 24, v19
+; LOOP-NEXT:    v_or_b32_e32 v11, v13, v12
+; LOOP-NEXT:    v_or_b32_e32 v9, v15, v9
+; LOOP-NEXT:    v_or_b32_e32 v12, v17, v16
+; LOOP-NEXT:    v_or_b32_e32 v10, v19, v10
+; LOOP-NEXT:    v_or_b32_e32 v13, v21, v20
+; LOOP-NEXT:    v_or_b32_e32 v14, v23, v14
+; LOOP-NEXT:    v_or_b32_e32 v15, v25, v24
+; LOOP-NEXT:    v_or_b32_e32 v16, v27, v18
+; LOOP-NEXT:    v_or_b32_e32 v17, v30, v28
+; LOOP-NEXT:    v_or_b32_e32 v18, v33, v22
+; LOOP-NEXT:    v_or_b32_e32 v19, v35, v34
+; LOOP-NEXT:    v_or_b32_e32 v20, v29, v26
+; LOOP-NEXT:    v_or_b32_e32 v21, v32, v31
+; LOOP-NEXT:    v_or_b32_e32 v8, v11, v8
+; LOOP-NEXT:    v_or_b32_e32 v9, v12, v9
+; LOOP-NEXT:    v_or_b32_e32 v10, v13, v10
+; LOOP-NEXT:    v_or_b32_e32 v11, v15, v14
+; LOOP-NEXT:    v_or_b32_e32 v12, v17, v16
+; LOOP-NEXT:    v_or_b32_e32 v13, v19, v18
+; LOOP-NEXT:    v_lshrrev_b32_e32 v14, 16, v20
+; LOOP-NEXT:    v_bfe_u32 v15, v20, 8, 8
+; LOOP-NEXT:    buffer_store_byte v20, v[6:7], s[0:3], 0 addr64
+; LOOP-NEXT:    v_lshrrev_b32_e32 v16, 24, v20
+; LOOP-NEXT:    v_lshrrev_b32_e32 v17, 16, v21
+; LOOP-NEXT:    v_bfe_u32 v18, v21, 8, 8
+; LOOP-NEXT:    buffer_store_byte v21, v[6:7], s[0:3], 0 addr64 offset:4
+; LOOP-NEXT:    v_lshrrev_b32_e32 v19, 24, v21
 ; LOOP-NEXT:    s_waitcnt expcnt(1)
-; LOOP-NEXT:    v_lshrrev_b32_e32 v18, 16, v6
-; LOOP-NEXT:    s_waitcnt expcnt(0)
-; LOOP-NEXT:    v_bfe_u32 v19, v6, 8, 8
-; LOOP-NEXT:    buffer_store_byte v6, v[34:35], s[0:3], 0 addr64 offset:8
+; LOOP-NEXT:    v_lshrrev_b32_e32 v20, 16, v8
 ; LOOP-NEXT:    s_waitcnt expcnt(0)
-; LOOP-NEXT:    v_lshrrev_b32_e32 v6, 24, v6
-; LOOP-NEXT:    v_lshrrev_b32_e32 v20, 16, v7
-; LOOP-NEXT:    v_bfe_u32 v21, v7, 8, 8
-; LOOP-NEXT:    buffer_store_byte v7, v[34:35], s[0:3], 0 addr64 offset:12
-; LOOP-NEXT:    s_waitcnt expcnt(0)
-; LOOP-NEXT:    v_lshrrev_b32_e32 v7, 24, v7
-; LOOP-NEXT:    v_lshrrev_b32_e32 v22, 16, v8
-; LOOP-NEXT:    v_bfe_u32 v23, v8, 8, 8
-; LOOP-NEXT:    buffer_store_byte v8, v[34:35], s[0:3], 0 addr64 offset:16
+; LOOP-NEXT:    v_bfe_u32 v21, v8, 8, 8
+; LOOP-NEXT:    buffer_store_byte v8, v[6:7], s[0:3], 0 addr64 offset:8
 ; LOOP-NEXT:    s_waitcnt expcnt(0)
 ; LOOP-NEXT:    v_lshrrev_b32_e32 v8, 24, v8
-; LOOP-NEXT:    v_lshrrev_b32_e32 v24, 16, v9
-; LOOP-NEXT:    v_bfe_u32 v25, v9, 8, 8
-; LOOP-NEXT:    buffer_store_byte v9, v[34:35], s[0:3], 0 addr64 offset:20
+; LOOP-NEXT:    v_lshrrev_b32_e32 v22, 16, v9
+; LOOP-NEXT:    v_bfe_u32 v23, v9, 8, 8
+; LOOP-NEXT:    buffer_store_byte v9, v[6:7], s[0:3], 0 addr64 offset:12
 ; LOOP-NEXT:    s_waitcnt expcnt(0)
 ; LOOP-NEXT:    v_lshrrev_b32_e32 v9, 24, v9
-; LOOP-NEXT:    v_lshrrev_b32_e32 v26, 16, v10
-; LOOP-NEXT:    v_bfe_u32 v27, v10, 8, 8
-; LOOP-NEXT:    buffer_store_byte v10, v[34:35], s[0:3], 0 addr64 offset:24
+; LOOP-NEXT:    v_lshrrev_b32_e32 v24, 16, v10
+; LOOP-NEXT:    v_bfe_u32 v25, v10, 8, 8
+; LOOP-NEXT:    buffer_store_byte v10, v[6:7], s[0:3], 0 addr64 offset:16
 ; LOOP-NEXT:    s_waitcnt expcnt(0)
 ; LOOP-NEXT:    v_lshrrev_b32_e32 v10, 24, v10
-; LOOP-NEXT:    v_lshrrev_b32_e32 v28, 16, v11
-; LOOP-NEXT:    v_bfe_u32 v29, v11, 8, 8
-; LOOP-NEXT:    buffer_store_byte v11, v[34:35], s[0:3], 0 addr64 offset:28
+; LOOP-NEXT:    v_lshrrev_b32_e32 v26, 16, v11
+; LOOP-NEXT:    v_bfe_u32 v27, v11, 8, 8
+; LOOP-NEXT:    buffer_store_byte v11, v[6:7], s[0:3], 0 addr64 offset:20
 ; LOOP-NEXT:    s_waitcnt expcnt(0)
 ; LOOP-NEXT:    v_lshrrev_b32_e32 v11, 24, v11
-; LOOP-NEXT:    buffer_store_byte v13, v[34:35], s[0:3], 0 addr64 offset:1
-; LOOP-NEXT:    buffer_store_byte v12, v[34:35], s[0:3], 0 addr64 offset:2
-; LOOP-NEXT:    buffer_store_byte v14, v[34:35], s[0:3], 0 addr64 offset:3
-; LOOP-NEXT:    buffer_store_byte v16, v[34:35], s[0:3], 0 addr64 offset:5
-; LOOP-NEXT:    buffer_store_byte v15, v[34:35], s[0:3], 0 addr64 offset:6
-; LOOP-NEXT:    buffer_store_byte v17, v[34:35], s[0:3], 0 addr64 offset:7
-; LOOP-NEXT:    buffer_store_byte v19, v[34:35], s[0:3], 0 addr64 offset:9
-; LOOP-NEXT:    buffer_store_byte v18, v[34:35], s[0:3], 0 addr64 offset:10
-; LOOP-NEXT:    buffer_store_byte v6, v[34:35], s[0:3], 0 addr64 offset:11
-; LOOP-NEXT:    buffer_store_byte v21, v[34:35], s[0:3], 0 addr64 offset:13
-; LOOP-NEXT:    buffer_store_byte v20, v[34:35], s[0:3], 0 addr64 offset:14
-; LOOP-NEXT:    buffer_store_byte v7, v[34:35], s[0:3], 0 addr64 offset:15
-; LOOP-NEXT:    buffer_store_byte v23, v[34:35], s[0:3], 0 addr64 offset:17
-; LOOP-NEXT:    buffer_store_byte v22, v[34:35], s[0:3], 0 addr64 offset:18
-; LOOP-NEXT:    buffer_store_byte v8, v[34:35], s[0:3], 0 addr64 offset:19
-; LOOP-NEXT:    buffer_store_byte v25, v[34:35], s[0:3], 0 addr64 offset:21
-; LOOP-NEXT:    buffer_store_byte v24, v[34:35], s[0:3], 0 addr64 offset:22
-; LOOP-NEXT:    buffer_store_byte v9, v[34:35], s[0:3], 0 addr64 offset:23
-; LOOP-NEXT:    buffer_store_byte v27, v[34:35], s[0:3], 0 addr64 offset:25
-; LOOP-NEXT:    buffer_store_byte v26, v[34:35], s[0:3], 0 addr64 offset:26
-; LOOP-NEXT:    buffer_store_byte v10, v[34:35], s[0:3], 0 addr64 offset:27
-; LOOP-NEXT:    buffer_store_byte v29, v[34:35], s[0:3], 0 addr64 offset:29
-; LOOP-NEXT:    buffer_store_byte v28, v[34:35], s[0:3], 0 addr64 offset:30
-; LOOP-NEXT:    buffer_store_byte v11, v[34:35], s[0:3], 0 addr64 offset:31
+; LOOP-NEXT:    v_lshrrev_b32_e32 v28, 16, v12
+; LOOP-NEXT:    v_bfe_u32 v29, v12, 8, 8
+; LOOP-NEXT:    buffer_store_byte v12, v[6:7], s[0:3], 0 addr64 offset:24
+; LOOP-NEXT:    s_waitcnt expcnt(0)
+; LOOP-NEXT:    v_lshrrev_b32_e32 v12, 24, v12
+; LOOP-NEXT:    v_lshrrev_b32_e32 v30, 16, v13
+; LOOP-NEXT:    v_bfe_u32 v31, v13, 8, 8
+; LOOP-NEXT:    buffer_store_byte v13, v[6:7], s[0:3], 0 addr64 offset:28
+; LOOP-NEXT:    s_waitcnt expcnt(0)
+; LOOP-NEXT:    v_lshrrev_b32_e32 v13, 24, v13
+; LOOP-NEXT:    buffer_store_byte v15, v[6:7], s[0:3], 0 addr64 offset:1
+; LOOP-NEXT:    buffer_store_byte v14, v[6:7], s[0:3], 0 addr64 offset:2
+; LOOP-NEXT:    buffer_store_byte v16, v[6:7], s[0:3], 0 addr64 offset:3
+; LOOP-NEXT:    buffer_store_byte v18, v[6:7], s[0:3], 0 addr64 offset:5
+; LOOP-NEXT:    buffer_store_byte v17, v[6:7], s[0:3], 0 addr64 offset:6
+; LOOP-NEXT:    buffer_store_byte v19, v[6:7], s[0:3], 0 addr64 offset:7
+; LOOP-NEXT:    buffer_store_byte v21, v[6:7], s[0:3], 0 addr64 offset:9
+; LOOP-NEXT:    buffer_store_byte v20, v[6:7], s[0:3], 0 addr64 offset:10
+; LOOP-NEXT:    buffer_store_byte v8, v[6:7], s[0:3], 0 addr64 offset:11
+; LOOP-NEXT:    buffer_store_byte v23, v[6:7], s[0:3], 0 addr64 offset:13
+; LOOP-NEXT:    buffer_store_byte v22, v[6:7], s[0:3], 0 addr64 offset:14
+; LOOP-NEXT:    buffer_store_byte v9, v[6:7], s[0:3], 0 addr64 offset:15
+; LOOP-NEXT:    buffer_store_byte v25, v[6:7], s[0:3], 0 addr64 offset:17
+; LOOP-NEXT:    buffer_store_byte v24, v[6:7], s[0:3], 0 addr64 offset:18
+; LOOP-NEXT:    buffer_store_byte v10, v[6:7], s[0:3], 0 addr64 offset:19
+; LOOP-NEXT:    buffer_store_byte v27, v[6:7], s[0:3], 0 addr64 offset:21
+; LOOP-NEXT:    buffer_store_byte v26, v[6:7], s[0:3], 0 addr64 offset:22
+; LOOP-NEXT:    buffer_store_byte v11, v[6:7], s[0:3], 0 addr64 offset:23
+; LOOP-NEXT:    buffer_store_byte v29, v[6:7], s[0:3], 0 addr64 offset:25
+; LOOP-NEXT:    buffer_store_byte v28, v[6:7], s[0:3], 0 addr64 offset:26
+; LOOP-NEXT:    buffer_store_byte v12, v[6:7], s[0:3], 0 addr64 offset:27
+; LOOP-NEXT:    buffer_store_byte v31, v[6:7], s[0:3], 0 addr64 offset:29
+; LOOP-NEXT:    buffer_store_byte v30, v[6:7], s[0:3], 0 addr64 offset:30
+; LOOP-NEXT:    buffer_store_byte v13, v[6:7], s[0:3], 0 addr64 offset:31
 ; LOOP-NEXT:    s_cbranch_vccnz .LBB0_1
 ; LOOP-NEXT:  ; %bb.2: ; %memcpy-split
 ; LOOP-NEXT:    s_mov_b32 s2, 0
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/mul.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/mul.ll
index 756eb2788607b..7c6daf769aec2 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/mul.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/mul.ll
@@ -2074,208 +2074,208 @@ define i256 @v_mul_i256(i256 %num, i256 %den) {
 ; GFX7-LABEL: v_mul_i256:
 ; GFX7:       ; %bb.0:
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX7-NEXT:    v_mov_b32_e32 v16, v0
-; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v16, v14, 0
-; GFX7-NEXT:    v_mov_b32_e32 v17, v1
-; GFX7-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v16, v10, 0
-; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v17, v13, v[18:19]
-; GFX7-NEXT:    v_mad_u64_u32 v[20:21], s[4:5], v16, v12, 0
-; GFX7-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v17, v9, v[0:1]
-; GFX7-NEXT:    v_cndmask_b32_e64 v24, 0, 1, s[4:5]
-; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v2, v12, v[18:19]
-; GFX7-NEXT:    v_mad_u64_u32 v[22:23], vcc, v2, v8, v[0:1]
-; GFX7-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v3, v11, v[18:19]
-; GFX7-NEXT:    v_addc_u32_e32 v25, vcc, 0, v24, vcc
-; GFX7-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v10, v[0:1]
-; GFX7-NEXT:    v_mad_u64_u32 v[19:20], s[4:5], v17, v11, v[20:21]
-; GFX7-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[4:5]
-; GFX7-NEXT:    v_mad_u64_u32 v[0:1], s[6:7], v5, v9, v[0:1]
-; GFX7-NEXT:    v_mad_u64_u32 v[19:20], vcc, v2, v10, v[19:20]
-; GFX7-NEXT:    v_addc_u32_e32 v21, vcc, 0, v21, vcc
-; GFX7-NEXT:    v_mad_u64_u32 v[19:20], vcc, v3, v9, v[19:20]
-; GFX7-NEXT:    v_addc_u32_e32 v21, vcc, 0, v21, vcc
-; GFX7-NEXT:    v_mov_b32_e32 v18, v23
-; GFX7-NEXT:    v_mad_u64_u32 v[19:20], vcc, v4, v8, v[19:20]
-; GFX7-NEXT:    v_mad_u64_u32 v[23:24], s[4:5], v6, v8, v[0:1]
-; GFX7-NEXT:    v_addc_u32_e32 v21, vcc, 0, v21, vcc
-; GFX7-NEXT:    v_mov_b32_e32 v0, v20
-; GFX7-NEXT:    v_mov_b32_e32 v1, v23
-; GFX7-NEXT:    v_mad_u64_u32 v[0:1], vcc, v16, v13, v[0:1]
-; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[8:9], v16, v11, v[18:19]
-; GFX7-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v17, v12, v[0:1]
-; GFX7-NEXT:    v_mul_lo_u32 v20, v6, v9
-; GFX7-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[8:9]
-; GFX7-NEXT:    v_mad_u64_u32 v[0:1], s[6:7], v2, v11, v[0:1]
-; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[8:9], v17, v10, v[18:19]
-; GFX7-NEXT:    v_mul_lo_u32 v23, v5, v10
-; GFX7-NEXT:    v_mul_lo_u32 v26, v4, v11
-; GFX7-NEXT:    v_mad_u64_u32 v[10:11], s[10:11], v3, v10, v[0:1]
-; GFX7-NEXT:    v_addc_u32_e64 v6, s[8:9], 0, v6, s[8:9]
-; GFX7-NEXT:    v_mad_u64_u32 v[0:1], s[12:13], v16, v8, 0
-; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[8:9], v2, v9, v[18:19]
-; GFX7-NEXT:    v_mul_lo_u32 v13, v2, v13
-; GFX7-NEXT:    v_mov_b32_e32 v2, v22
-; GFX7-NEXT:    v_mad_u64_u32 v[10:11], s[12:13], v4, v9, v[10:11]
-; GFX7-NEXT:    v_mad_u64_u32 v[1:2], s[14:15], v16, v9, v[1:2]
-; GFX7-NEXT:    v_addc_u32_e64 v6, s[8:9], 0, v6, s[8:9]
-; GFX7-NEXT:    v_mul_lo_u32 v12, v3, v12
-; GFX7-NEXT:    v_mad_u64_u32 v[3:4], s[8:9], v3, v8, v[18:19]
-; GFX7-NEXT:    v_cndmask_b32_e64 v9, 0, 1, s[14:15]
-; GFX7-NEXT:    v_addc_u32_e64 v18, s[8:9], 0, v6, s[8:9]
-; GFX7-NEXT:    v_mad_u64_u32 v[5:6], s[14:15], v5, v8, v[10:11]
-; GFX7-NEXT:    v_mad_u64_u32 v[1:2], s[8:9], v17, v8, v[1:2]
-; GFX7-NEXT:    v_addc_u32_e64 v3, s[8:9], v9, v3, s[8:9]
-; GFX7-NEXT:    v_mul_lo_u32 v10, v16, v15
-; GFX7-NEXT:    v_mul_lo_u32 v9, v17, v14
-; GFX7-NEXT:    v_addc_u32_e64 v4, s[8:9], v25, v4, s[8:9]
-; GFX7-NEXT:    v_addc_u32_e64 v5, s[8:9], v18, v5, s[8:9]
-; GFX7-NEXT:    v_addc_u32_e64 v6, s[8:9], v21, v6, s[8:9]
-; GFX7-NEXT:    v_addc_u32_e64 v10, s[8:9], v24, v10, s[8:9]
-; GFX7-NEXT:    v_addc_u32_e64 v9, s[8:9], v10, v9, s[14:15]
-; GFX7-NEXT:    v_addc_u32_e64 v9, s[8:9], v9, v13, s[12:13]
-; GFX7-NEXT:    v_addc_u32_e64 v9, s[8:9], v9, v12, s[10:11]
-; GFX7-NEXT:    v_addc_u32_e64 v9, s[6:7], v9, v26, s[6:7]
-; GFX7-NEXT:    v_addc_u32_e64 v9, s[4:5], v9, v23, s[4:5]
-; GFX7-NEXT:    v_addc_u32_e32 v9, vcc, v9, v20, vcc
-; GFX7-NEXT:    v_mad_u64_u32 v[7:8], s[4:5], v7, v8, v[9:10]
+; GFX7-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v0, v14, 0
+; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v0, v12, 0
+; GFX7-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v1, v13, v[16:17]
+; GFX7-NEXT:    v_mul_lo_u32 v28, v4, v11
+; GFX7-NEXT:    v_mul_lo_u32 v27, v5, v10
+; GFX7-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v2, v12, v[16:17]
+; GFX7-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v3, v11, v[16:17]
+; GFX7-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v4, v10, v[16:17]
+; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v1, v11, v[18:19]
+; GFX7-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[4:5]
+; GFX7-NEXT:    v_mad_u64_u32 v[16:17], s[6:7], v5, v9, v[16:17]
+; GFX7-NEXT:    v_mad_u64_u32 v[18:19], vcc, v2, v10, v[18:19]
+; GFX7-NEXT:    v_addc_u32_e32 v20, vcc, 0, v20, vcc
+; GFX7-NEXT:    v_mad_u64_u32 v[18:19], vcc, v3, v9, v[18:19]
+; GFX7-NEXT:    v_addc_u32_e32 v20, vcc, 0, v20, vcc
+; GFX7-NEXT:    v_mad_u64_u32 v[21:22], s[4:5], v0, v10, 0
+; GFX7-NEXT:    v_mad_u64_u32 v[18:19], vcc, v4, v8, v[18:19]
+; GFX7-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v6, v8, v[16:17]
+; GFX7-NEXT:    v_mad_u64_u32 v[21:22], s[4:5], v1, v9, v[21:22]
+; GFX7-NEXT:    v_addc_u32_e32 v25, vcc, 0, v20, vcc
+; GFX7-NEXT:    v_mov_b32_e32 v20, v18
+; GFX7-NEXT:    v_mov_b32_e32 v18, v19
+; GFX7-NEXT:    v_mov_b32_e32 v19, v16
+; GFX7-NEXT:    v_mad_u64_u32 v[18:19], vcc, v0, v13, v[18:19]
+; GFX7-NEXT:    v_mul_lo_u32 v16, v6, v9
+; GFX7-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[4:5]
+; GFX7-NEXT:    v_mad_u64_u32 v[21:22], s[4:5], v2, v8, v[21:22]
+; GFX7-NEXT:    v_addc_u32_e64 v26, s[4:5], 0, v6, s[4:5]
+; GFX7-NEXT:    v_mad_u64_u32 v[23:24], s[4:5], v1, v12, v[18:19]
+; GFX7-NEXT:    v_mov_b32_e32 v19, v22
+; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[12:13], v0, v11, v[19:20]
+; GFX7-NEXT:    v_mad_u64_u32 v[22:23], s[6:7], v2, v11, v[23:24]
+; GFX7-NEXT:    v_mul_lo_u32 v24, v3, v12
+; GFX7-NEXT:    v_mad_u64_u32 v[11:12], s[8:9], v3, v10, v[22:23]
+; GFX7-NEXT:    v_mul_lo_u32 v22, v2, v13
+; GFX7-NEXT:    v_mad_u64_u32 v[12:13], s[10:11], v4, v9, v[11:12]
+; GFX7-NEXT:    v_cndmask_b32_e64 v4, 0, 1, s[12:13]
+; GFX7-NEXT:    v_mad_u64_u32 v[10:11], s[12:13], v1, v10, v[18:19]
+; GFX7-NEXT:    v_addc_u32_e64 v4, s[12:13], 0, v4, s[12:13]
+; GFX7-NEXT:    v_mad_u64_u32 v[18:19], s[12:13], v2, v9, v[10:11]
+; GFX7-NEXT:    v_mad_u64_u32 v[10:11], s[14:15], v0, v8, 0
+; GFX7-NEXT:    v_addc_u32_e64 v2, s[12:13], 0, v4, s[12:13]
+; GFX7-NEXT:    v_mov_b32_e32 v20, v11
+; GFX7-NEXT:    v_mad_u64_u32 v[20:21], s[16:17], v0, v9, v[20:21]
+; GFX7-NEXT:    v_mad_u64_u32 v[3:4], s[12:13], v3, v8, v[18:19]
+; GFX7-NEXT:    v_mad_u64_u32 v[5:6], s[14:15], v5, v8, v[12:13]
+; GFX7-NEXT:    v_addc_u32_e64 v11, s[12:13], 0, v2, s[12:13]
+; GFX7-NEXT:    v_mul_lo_u32 v9, v1, v14
+; GFX7-NEXT:    v_cndmask_b32_e64 v12, 0, 1, s[16:17]
+; GFX7-NEXT:    v_mad_u64_u32 v[1:2], s[12:13], v1, v8, v[20:21]
+; GFX7-NEXT:    v_addc_u32_e64 v3, s[12:13], v12, v3, s[12:13]
+; GFX7-NEXT:    v_mul_lo_u32 v0, v0, v15
+; GFX7-NEXT:    v_addc_u32_e64 v4, s[12:13], v26, v4, s[12:13]
+; GFX7-NEXT:    v_addc_u32_e64 v5, s[12:13], v11, v5, s[12:13]
+; GFX7-NEXT:    v_addc_u32_e64 v6, s[12:13], v25, v6, s[12:13]
+; GFX7-NEXT:    v_addc_u32_e64 v0, s[12:13], v17, v0, s[12:13]
+; GFX7-NEXT:    v_addc_u32_e64 v0, s[12:13], v0, v9, s[14:15]
+; GFX7-NEXT:    v_addc_u32_e64 v0, s[10:11], v0, v22, s[10:11]
+; GFX7-NEXT:    v_addc_u32_e64 v0, s[8:9], v0, v24, s[8:9]
+; GFX7-NEXT:    v_addc_u32_e64 v0, s[6:7], v0, v28, s[6:7]
+; GFX7-NEXT:    v_addc_u32_e64 v0, s[4:5], v0, v27, s[4:5]
+; GFX7-NEXT:    v_addc_u32_e32 v0, vcc, v0, v16, vcc
+; GFX7-NEXT:    v_mad_u64_u32 v[7:8], s[4:5], v7, v8, v[0:1]
+; GFX7-NEXT:    v_mov_b32_e32 v0, v10
 ; GFX7-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX8-LABEL: v_mul_i256:
 ; GFX8:       ; %bb.0:
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_mov_b32_e32 v16, v0
-; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v16, v14, 0
-; GFX8-NEXT:    v_mov_b32_e32 v17, v1
-; GFX8-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v16, v10, 0
-; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v17, v13, v[18:19]
-; GFX8-NEXT:    v_mad_u64_u32 v[20:21], s[4:5], v16, v12, 0
-; GFX8-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v17, v9, v[0:1]
-; GFX8-NEXT:    v_cndmask_b32_e64 v24, 0, 1, s[4:5]
-; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v2, v12, v[18:19]
-; GFX8-NEXT:    v_mad_u64_u32 v[22:23], vcc, v2, v8, v[0:1]
-; GFX8-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v3, v11, v[18:19]
-; GFX8-NEXT:    v_addc_u32_e32 v25, vcc, 0, v24, vcc
-; GFX8-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v10, v[0:1]
-; GFX8-NEXT:    v_mad_u64_u32 v[19:20], s[4:5], v17, v11, v[20:21]
-; GFX8-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[4:5]
-; GFX8-NEXT:    v_mad_u64_u32 v[0:1], s[6:7], v5, v9, v[0:1]
-; GFX8-NEXT:    v_mad_u64_u32 v[19:20], vcc, v2, v10, v[19:20]
-; GFX8-NEXT:    v_addc_u32_e32 v21, vcc, 0, v21, vcc
-; GFX8-NEXT:    v_mad_u64_u32 v[19:20], vcc, v3, v9, v[19:20]
-; GFX8-NEXT:    v_addc_u32_e32 v21, vcc, 0, v21, vcc
-; GFX8-NEXT:    v_mov_b32_e32 v18, v23
-; GFX8-NEXT:    v_mad_u64_u32 v[19:20], vcc, v4, v8, v[19:20]
-; GFX8-NEXT:    v_mad_u64_u32 v[23:24], s[4:5], v6, v8, v[0:1]
-; GFX8-NEXT:    v_addc_u32_e32 v21, vcc, 0, v21, vcc
-; GFX8-NEXT:    v_mov_b32_e32 v0, v20
-; GFX8-NEXT:    v_mov_b32_e32 v1, v23
-; GFX8-NEXT:    v_mad_u64_u32 v[0:1], vcc, v16, v13, v[0:1]
-; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[8:9], v16, v11, v[18:19]
-; GFX8-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v17, v12, v[0:1]
-; GFX8-NEXT:    v_mul_lo_u32 v20, v6, v9
-; GFX8-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[8:9]
-; GFX8-NEXT:    v_mad_u64_u32 v[0:1], s[6:7], v2, v11, v[0:1]
-; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[8:9], v17, v10, v[18:19]
-; GFX8-NEXT:    v_mul_lo_u32 v23, v5, v10
-; GFX8-NEXT:    v_mul_lo_u32 v26, v4, v11
-; GFX8-NEXT:    v_mad_u64_u32 v[10:11], s[10:11], v3, v10, v[0:1]
-; GFX8-NEXT:    v_addc_u32_e64 v6, s[8:9], 0, v6, s[8:9]
-; GFX8-NEXT:    v_mad_u64_u32 v[0:1], s[12:13], v16, v8, 0
-; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[8:9], v2, v9, v[18:19]
-; GFX8-NEXT:    v_mul_lo_u32 v13, v2, v13
-; GFX8-NEXT:    v_mov_b32_e32 v2, v22
-; GFX8-NEXT:    v_mad_u64_u32 v[10:11], s[12:13], v4, v9, v[10:11]
-; GFX8-NEXT:    v_mad_u64_u32 v[1:2], s[14:15], v16, v9, v[1:2]
-; GFX8-NEXT:    v_addc_u32_e64 v6, s[8:9], 0, v6, s[8:9]
-; GFX8-NEXT:    v_mul_lo_u32 v12, v3, v12
-; GFX8-NEXT:    v_mad_u64_u32 v[3:4], s[8:9], v3, v8, v[18:19]
-; GFX8-NEXT:    v_cndmask_b32_e64 v9, 0, 1, s[14:15]
-; GFX8-NEXT:    v_addc_u32_e64 v18, s[8:9], 0, v6, s[8:9]
-; GFX8-NEXT:    v_mad_u64_u32 v[5:6], s[14:15], v5, v8, v[10:11]
-; GFX8-NEXT:    v_mad_u64_u32 v[1:2], s[8:9], v17, v8, v[1:2]
-; GFX8-NEXT:    v_addc_u32_e64 v3, s[8:9], v9, v3, s[8:9]
-; GFX8-NEXT:    v_mul_lo_u32 v10, v16, v15
-; GFX8-NEXT:    v_mul_lo_u32 v9, v17, v14
-; GFX8-NEXT:    v_addc_u32_e64 v4, s[8:9], v25, v4, s[8:9]
-; GFX8-NEXT:    v_addc_u32_e64 v5, s[8:9], v18, v5, s[8:9]
-; GFX8-NEXT:    v_addc_u32_e64 v6, s[8:9], v21, v6, s[8:9]
-; GFX8-NEXT:    v_addc_u32_e64 v10, s[8:9], v24, v10, s[8:9]
-; GFX8-NEXT:    v_addc_u32_e64 v9, s[8:9], v10, v9, s[14:15]
-; GFX8-NEXT:    v_addc_u32_e64 v9, s[8:9], v9, v13, s[12:13]
-; GFX8-NEXT:    v_addc_u32_e64 v9, s[8:9], v9, v12, s[10:11]
-; GFX8-NEXT:    v_addc_u32_e64 v9, s[6:7], v9, v26, s[6:7]
-; GFX8-NEXT:    v_addc_u32_e64 v9, s[4:5], v9, v23, s[4:5]
-; GFX8-NEXT:    v_addc_u32_e32 v9, vcc, v9, v20, vcc
-; GFX8-NEXT:    v_mad_u64_u32 v[7:8], s[4:5], v7, v8, v[9:10]
+; GFX8-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v0, v14, 0
+; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v0, v12, 0
+; GFX8-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v1, v13, v[16:17]
+; GFX8-NEXT:    v_mul_lo_u32 v28, v4, v11
+; GFX8-NEXT:    v_mul_lo_u32 v27, v5, v10
+; GFX8-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v2, v12, v[16:17]
+; GFX8-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v3, v11, v[16:17]
+; GFX8-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v4, v10, v[16:17]
+; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v1, v11, v[18:19]
+; GFX8-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[4:5]
+; GFX8-NEXT:    v_mad_u64_u32 v[16:17], s[6:7], v5, v9, v[16:17]
+; GFX8-NEXT:    v_mad_u64_u32 v[18:19], vcc, v2, v10, v[18:19]
+; GFX8-NEXT:    v_addc_u32_e32 v20, vcc, 0, v20, vcc
+; GFX8-NEXT:    v_mad_u64_u32 v[18:19], vcc, v3, v9, v[18:19]
+; GFX8-NEXT:    v_addc_u32_e32 v20, vcc, 0, v20, vcc
+; GFX8-NEXT:    v_mad_u64_u32 v[21:22], s[4:5], v0, v10, 0
+; GFX8-NEXT:    v_mad_u64_u32 v[18:19], vcc, v4, v8, v[18:19]
+; GFX8-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v6, v8, v[16:17]
+; GFX8-NEXT:    v_mad_u64_u32 v[21:22], s[4:5], v1, v9, v[21:22]
+; GFX8-NEXT:    v_addc_u32_e32 v25, vcc, 0, v20, vcc
+; GFX8-NEXT:    v_mov_b32_e32 v20, v18
+; GFX8-NEXT:    v_mov_b32_e32 v18, v19
+; GFX8-NEXT:    v_mov_b32_e32 v19, v16
+; GFX8-NEXT:    v_mad_u64_u32 v[18:19], vcc, v0, v13, v[18:19]
+; GFX8-NEXT:    v_mul_lo_u32 v16, v6, v9
+; GFX8-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[4:5]
+; GFX8-NEXT:    v_mad_u64_u32 v[21:22], s[4:5], v2, v8, v[21:22]
+; GFX8-NEXT:    v_addc_u32_e64 v26, s[4:5], 0, v6, s[4:5]
+; GFX8-NEXT:    v_mad_u64_u32 v[23:24], s[4:5], v1, v12, v[18:19]
+; GFX8-NEXT:    v_mov_b32_e32 v19, v22
+; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[12:13], v0, v11, v[19:20]
+; GFX8-NEXT:    v_mad_u64_u32 v[22:23], s[6:7], v2, v11, v[23:24]
+; GFX8-NEXT:    v_mul_lo_u32 v24, v3, v12
+; GFX8-NEXT:    v_mad_u64_u32 v[11:12], s[8:9], v3, v10, v[22:23]
+; GFX8-NEXT:    v_mul_lo_u32 v22, v2, v13
+; GFX8-NEXT:    v_mad_u64_u32 v[12:13], s[10:11], v4, v9, v[11:12]
+; GFX8-NEXT:    v_cndmask_b32_e64 v4, 0, 1, s[12:13]
+; GFX8-NEXT:    v_mad_u64_u32 v[10:11], s[12:13], v1, v10, v[18:19]
+; GFX8-NEXT:    v_addc_u32_e64 v4, s[12:13], 0, v4, s[12:13]
+; GFX8-NEXT:    v_mad_u64_u32 v[18:19], s[12:13], v2, v9, v[10:11]
+; GFX8-NEXT:    v_mad_u64_u32 v[10:11], s[14:15], v0, v8, 0
+; GFX8-NEXT:    v_addc_u32_e64 v2, s[12:13], 0, v4, s[12:13]
+; GFX8-NEXT:    v_mov_b32_e32 v20, v11
+; GFX8-NEXT:    v_mad_u64_u32 v[20:21], s[16:17], v0, v9, v[20:21]
+; GFX8-NEXT:    v_mad_u64_u32 v[3:4], s[12:13], v3, v8, v[18:19]
+; GFX8-NEXT:    v_mad_u64_u32 v[5:6], s[14:15], v5, v8, v[12:13]
+; GFX8-NEXT:    v_addc_u32_e64 v11, s[12:13], 0, v2, s[12:13]
+; GFX8-NEXT:    v_mul_lo_u32 v9, v1, v14
+; GFX8-NEXT:    v_cndmask_b32_e64 v12, 0, 1, s[16:17]
+; GFX8-NEXT:    v_mad_u64_u32 v[1:2], s[12:13], v1, v8, v[20:21]
+; GFX8-NEXT:    v_addc_u32_e64 v3, s[12:13], v12, v3, s[12:13]
+; GFX8-NEXT:    v_mul_lo_u32 v0, v0, v15
+; GFX8-NEXT:    v_addc_u32_e64 v4, s[12:13], v26, v4, s[12:13]
+; GFX8-NEXT:    v_addc_u32_e64 v5, s[12:13], v11, v5, s[12:13]
+; GFX8-NEXT:    v_addc_u32_e64 v6, s[12:13], v25, v6, s[12:13]
+; GFX8-NEXT:    v_addc_u32_e64 v0, s[12:13], v17, v0, s[12:13]
+; GFX8-NEXT:    v_addc_u32_e64 v0, s[12:13], v0, v9, s[14:15]
+; GFX8-NEXT:    v_addc_u32_e64 v0, s[10:11], v0, v22, s[10:11]
+; GFX8-NEXT:    v_addc_u32_e64 v0, s[8:9], v0, v24, s[8:9]
+; GFX8-NEXT:    v_addc_u32_e64 v0, s[6:7], v0, v28, s[6:7]
+; GFX8-NEXT:    v_addc_u32_e64 v0, s[4:5], v0, v27, s[4:5]
+; GFX8-NEXT:    v_addc_u32_e32 v0, vcc, v0, v16, vcc
+; GFX8-NEXT:    v_mad_u64_u32 v[7:8], s[4:5], v7, v8, v[0:1]
+; GFX8-NEXT:    v_mov_b32_e32 v0, v10
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX9-LABEL: v_mul_i256:
 ; GFX9:       ; %bb.0:
 ; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    v_mov_b32_e32 v16, v0
-; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v16, v14, 0
-; GFX9-NEXT:    v_mov_b32_e32 v17, v1
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v16, v10, 0
-; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v17, v13, v[18:19]
-; GFX9-NEXT:    v_mad_u64_u32 v[20:21], s[4:5], v16, v12, 0
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v17, v9, v[0:1]
-; GFX9-NEXT:    v_cndmask_b32_e64 v24, 0, 1, s[4:5]
-; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v2, v12, v[18:19]
-; GFX9-NEXT:    v_mad_u64_u32 v[22:23], vcc, v2, v8, v[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v3, v11, v[18:19]
-; GFX9-NEXT:    v_addc_co_u32_e32 v25, vcc, 0, v24, vcc
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v10, v[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[19:20], s[4:5], v17, v11, v[20:21]
-; GFX9-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[4:5]
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[6:7], v5, v9, v[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[19:20], vcc, v2, v10, v[19:20]
-; GFX9-NEXT:    v_addc_co_u32_e32 v21, vcc, 0, v21, vcc
-; GFX9-NEXT:    v_mad_u64_u32 v[19:20], vcc, v3, v9, v[19:20]
-; GFX9-NEXT:    v_addc_co_u32_e32 v21, vcc, 0, v21, vcc
-; GFX9-NEXT:    v_mov_b32_e32 v18, v23
-; GFX9-NEXT:    v_mad_u64_u32 v[19:20], vcc, v4, v8, v[19:20]
-; GFX9-NEXT:    v_mad_u64_u32 v[23:24], s[4:5], v6, v8, v[0:1]
-; GFX9-NEXT:    v_addc_co_u32_e32 v21, vcc, 0, v21, vcc
-; GFX9-NEXT:    v_mov_b32_e32 v0, v20
-; GFX9-NEXT:    v_mov_b32_e32 v1, v23
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], vcc, v16, v13, v[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[8:9], v16, v11, v[18:19]
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v17, v12, v[0:1]
-; GFX9-NEXT:    v_mul_lo_u32 v20, v6, v9
-; GFX9-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[8:9]
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[6:7], v2, v11, v[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[8:9], v17, v10, v[18:19]
-; GFX9-NEXT:    v_mul_lo_u32 v23, v5, v10
-; GFX9-NEXT:    v_mul_lo_u32 v26, v4, v11
-; GFX9-NEXT:    v_mad_u64_u32 v[10:11], s[10:11], v3, v10, v[0:1]
-; GFX9-NEXT:    v_addc_co_u32_e64 v6, s[8:9], 0, v6, s[8:9]
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[12:13], v16, v8, 0
-; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[8:9], v2, v9, v[18:19]
-; GFX9-NEXT:    v_mul_lo_u32 v13, v2, v13
-; GFX9-NEXT:    v_mov_b32_e32 v2, v22
-; GFX9-NEXT:    v_mad_u64_u32 v[10:11], s[12:13], v4, v9, v[10:11]
-; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[14:15], v16, v9, v[1:2]
-; GFX9-NEXT:    v_addc_co_u32_e64 v6, s[8:9], 0, v6, s[8:9]
-; GFX9-NEXT:    v_mul_lo_u32 v12, v3, v12
-; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[8:9], v3, v8, v[18:19]
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, 1, s[14:15]
-; GFX9-NEXT:    v_addc_co_u32_e64 v18, s[8:9], 0, v6, s[8:9]
-; GFX9-NEXT:    v_mad_u64_u32 v[5:6], s[14:15], v5, v8, v[10:11]
-; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[8:9], v17, v8, v[1:2]
-; GFX9-NEXT:    v_addc_co_u32_e64 v3, s[8:9], v9, v3, s[8:9]
-; GFX9-NEXT:    v_mul_lo_u32 v10, v16, v15
-; GFX9-NEXT:    v_mul_lo_u32 v9, v17, v14
-; GFX9-NEXT:    v_addc_co_u32_e64 v4, s[8:9], v25, v4, s[8:9]
-; GFX9-NEXT:    v_addc_co_u32_e64 v5, s[8:9], v18, v5, s[8:9]
-; GFX9-NEXT:    v_addc_co_u32_e64 v6, s[8:9], v21, v6, s[8:9]
-; GFX9-NEXT:    v_addc_co_u32_e64 v10, s[8:9], v24, v10, s[8:9]
-; GFX9-NEXT:    v_addc_co_u32_e64 v9, s[8:9], v10, v9, s[14:15]
-; GFX9-NEXT:    v_addc_co_u32_e64 v9, s[8:9], v9, v13, s[12:13]
-; GFX9-NEXT:    v_addc_co_u32_e64 v9, s[8:9], v9, v12, s[10:11]
-; GFX9-NEXT:    v_addc_co_u32_e64 v9, s[6:7], v9, v26, s[6:7]
-; GFX9-NEXT:    v_addc_co_u32_e64 v9, s[4:5], v9, v23, s[4:5]
-; GFX9-NEXT:    v_addc_co_u32_e32 v9, vcc, v9, v20, vcc
-; GFX9-NEXT:    v_mad_u64_u32 v[7:8], s[4:5], v7, v8, v[9:10]
+; GFX9-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v0, v14, 0
+; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v0, v12, 0
+; GFX9-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v1, v13, v[16:17]
+; GFX9-NEXT:    v_mul_lo_u32 v28, v4, v11
+; GFX9-NEXT:    v_mul_lo_u32 v27, v5, v10
+; GFX9-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v2, v12, v[16:17]
+; GFX9-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v3, v11, v[16:17]
+; GFX9-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v4, v10, v[16:17]
+; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[4:5], v1, v11, v[18:19]
+; GFX9-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[4:5]
+; GFX9-NEXT:    v_mad_u64_u32 v[16:17], s[6:7], v5, v9, v[16:17]
+; GFX9-NEXT:    v_mad_u64_u32 v[18:19], vcc, v2, v10, v[18:19]
+; GFX9-NEXT:    v_addc_co_u32_e32 v20, vcc, 0, v20, vcc
+; GFX9-NEXT:    v_mad_u64_u32 v[18:19], vcc, v3, v9, v[18:19]
+; GFX9-NEXT:    v_addc_co_u32_e32 v20, vcc, 0, v20, vcc
+; GFX9-NEXT:    v_mad_u64_u32 v[21:22], s[4:5], v0, v10, 0
+; GFX9-NEXT:    v_mad_u64_u32 v[18:19], vcc, v4, v8, v[18:19]
+; GFX9-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v6, v8, v[16:17]
+; GFX9-NEXT:    v_mad_u64_u32 v[21:22], s[4:5], v1, v9, v[21:22]
+; GFX9-NEXT:    v_addc_co_u32_e32 v25, vcc, 0, v20, vcc
+; GFX9-NEXT:    v_mov_b32_e32 v20, v18
+; GFX9-NEXT:    v_mov_b32_e32 v18, v19
+; GFX9-NEXT:    v_mov_b32_e32 v19, v16
+; GFX9-NEXT:    v_mad_u64_u32 v[18:19], vcc, v0, v13, v[18:19]
+; GFX9-NEXT:    v_mul_lo_u32 v16, v6, v9
+; GFX9-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[4:5]
+; GFX9-NEXT:    v_mad_u64_u32 v[21:22], s[4:5], v2, v8, v[21:22]
+; GFX9-NEXT:    v_addc_co_u32_e64 v26, s[4:5], 0, v6, s[4:5]
+; GFX9-NEXT:    v_mad_u64_u32 v[23:24], s[4:5], v1, v12, v[18:19]
+; GFX9-NEXT:    v_mov_b32_e32 v19, v22
+; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[12:13], v0, v11, v[19:20]
+; GFX9-NEXT:    v_mad_u64_u32 v[22:23], s[6:7], v2, v11, v[23:24]
+; GFX9-NEXT:    v_mul_lo_u32 v24, v3, v12
+; GFX9-NEXT:    v_mad_u64_u32 v[11:12], s[8:9], v3, v10, v[22:23]
+; GFX9-NEXT:    v_mul_lo_u32 v22, v2, v13
+; GFX9-NEXT:    v_mad_u64_u32 v[12:13], s[10:11], v4, v9, v[11:12]
+; GFX9-NEXT:    v_cndmask_b32_e64 v4, 0, 1, s[12:13]
+; GFX9-NEXT:    v_mad_u64_u32 v[10:11], s[12:13], v1, v10, v[18:19]
+; GFX9-NEXT:    v_addc_co_u32_e64 v4, s[12:13], 0, v4, s[12:13]
+; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[12:13], v2, v9, v[10:11]
+; GFX9-NEXT:    v_mad_u64_u32 v[10:11], s[14:15], v0, v8, 0
+; GFX9-NEXT:    v_addc_co_u32_e64 v2, s[12:13], 0, v4, s[12:13]
+; GFX9-NEXT:    v_mov_b32_e32 v20, v11
+; GFX9-NEXT:    v_mad_u64_u32 v[20:21], s[16:17], v0, v9, v[20:21]
+; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[12:13], v3, v8, v[18:19]
+; GFX9-NEXT:    v_mad_u64_u32 v[5:6], s[14:15], v5, v8, v[12:13]
+; GFX9-NEXT:    v_addc_co_u32_e64 v11, s[12:13], 0, v2, s[12:13]
+; GFX9-NEXT:    v_mul_lo_u32 v9, v1, v14
+; GFX9-NEXT:    v_cndmask_b32_e64 v12, 0, 1, s[16:17]
+; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[12:13], v1, v8, v[20:21]
+; GFX9-NEXT:    v_addc_co_u32_e64 v3, s[12:13], v12, v3, s[12:13]
+; GFX9-NEXT:    v_mul_lo_u32 v0, v0, v15
+; GFX9-NEXT:    v_addc_co_u32_e64 v4, s[12:13], v26, v4, s[12:13]
+; GFX9-NEXT:    v_addc_co_u32_e64 v5, s[12:13], v11, v5, s[12:13]
+; GFX9-NEXT:    v_addc_co_u32_e64 v6, s[12:13], v25, v6, s[12:13]
+; GFX9-NEXT:    v_addc_co_u32_e64 v0, s[12:13], v17, v0, s[12:13]
+; GFX9-NEXT:    v_addc_co_u32_e64 v0, s[12:13], v0, v9, s[14:15]
+; GFX9-NEXT:    v_addc_co_u32_e64 v0, s[10:11], v0, v22, s[10:11]
+; GFX9-NEXT:    v_addc_co_u32_e64 v0, s[8:9], v0, v24, s[8:9]
+; GFX9-NEXT:    v_addc_co_u32_e64 v0, s[6:7], v0, v28, s[6:7]
+; GFX9-NEXT:    v_addc_co_u32_e64 v0, s[4:5], v0, v27, s[4:5]
+; GFX9-NEXT:    v_addc_co_u32_e32 v0, vcc, v0, v16, vcc
+; GFX9-NEXT:    v_mad_u64_u32 v[7:8], s[4:5], v7, v8, v[0:1]
+; GFX9-NEXT:    v_mov_b32_e32 v0, v10
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX10-LABEL: v_mul_i256:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-load.mir b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-load.mir
index b66560710e37e..bf1dcad80e4ec 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-load.mir
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-load.mir
@@ -1,7 +1,6 @@
 # NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
-# RUN: llc -amdgpu-global-isel-new-legality -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -run-pass=regbankselect %s -verify-machineinstrs -o - -regbankselect-fast | FileCheck %s -check-prefixes=GCN,GFX7
-# RUN: llc -amdgpu-global-isel-new-legality -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -run-pass=regbankselect %s -verify-machineinstrs -o - -regbankselect-greedy | FileCheck %s -check-prefixes=GCN,GFX7
-# RUN: llc -amdgpu-global-isel-new-legality -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1200 -run-pass=regbankselect %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=GCN,GFX12
+# RUN: llc -amdgpu-global-isel-new-legality -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -run-pass="amdgpu-regbankselect,amdgpu-regbanklegalize" %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=GCN,GFX7
+# RUN: llc -amdgpu-global-isel-new-legality -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1200 -run-pass="amdgpu-regbankselect,amdgpu-regbanklegalize" %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=GCN,GFX12
 
 --- |
   define amdgpu_kernel void @load_global_v8i32_non_uniform(ptr addrspace(1) %in) {
@@ -110,6 +109,7 @@
 ---
 name: load_global_v8i32_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -119,11 +119,21 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p1) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p1) = COPY [[COPY]](p1)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[COPY]](p1) :: (load (<4 x s32>) from %ir.global.not.uniform.v8i32, align 32, addrspace 1)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[COPY1]](p1) :: (load (<4 x s32>) from %ir.global.not.uniform.v8i32, align 32, addrspace 1)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[PTR_ADD]](p1) :: (load (<4 x s32>) from %ir.global.not.uniform.v8i32 + 16, basealign 32, addrspace 1)
     ; GCN-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<8 x s32>) = G_CONCAT_VECTORS [[LOAD]](<4 x s32>), [[LOAD1]](<4 x s32>)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32), [[UV4:%[0-9]+]]:vgpr(s32), [[UV5:%[0-9]+]]:vgpr(s32), [[UV6:%[0-9]+]]:vgpr(s32), [[UV7:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[CONCAT_VECTORS]](<8 x s32>)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV1]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV2]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV3]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV4]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV5]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV6]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV7]]
+    ; GCN-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<8 x s32>) = G_BUILD_VECTOR [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32), [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32), [[AMDGPU_READANYLANE4]](s32), [[AMDGPU_READANYLANE5]](s32), [[AMDGPU_READANYLANE6]](s32), [[AMDGPU_READANYLANE7]](s32)
     %0:_(p1) = COPY $sgpr0_sgpr1
     %1:_(<8 x s32>) = G_LOAD %0 :: (load (<8 x s32>) from %ir.global.not.uniform.v8i32)
 ...
@@ -131,6 +141,7 @@ body: |
 ---
 name: load_global_v4i64_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -141,11 +152,29 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p1) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p1) = COPY [[COPY]](p1)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[COPY]](p1) :: (load (<2 x s64>) from %ir.global.not.uniform.v4i64, align 32, addrspace 1)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[COPY1]](p1) :: (load (<2 x s64>) from %ir.global.not.uniform.v4i64, align 32, addrspace 1)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[PTR_ADD]](p1) :: (load (<2 x s64>) from %ir.global.not.uniform.v4i64 + 16, basealign 32, addrspace 1)
     ; GCN-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<4 x s64>) = G_CONCAT_VECTORS [[LOAD]](<2 x s64>), [[LOAD1]](<2 x s64>)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(s64), [[UV1:%[0-9]+]]:vgpr(s64), [[UV2:%[0-9]+]]:vgpr(s64), [[UV3:%[0-9]+]]:vgpr(s64) = G_UNMERGE_VALUES [[CONCAT_VECTORS]](<4 x s64>)
+    ; GCN-NEXT: [[UV4:%[0-9]+]]:vgpr(s32), [[UV5:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV4]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV5]]
+    ; GCN-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32)
+    ; GCN-NEXT: [[UV6:%[0-9]+]]:vgpr(s32), [[UV7:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV1]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV6]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV7]]
+    ; GCN-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32)
+    ; GCN-NEXT: [[UV8:%[0-9]+]]:vgpr(s32), [[UV9:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV2]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV8]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV9]]
+    ; GCN-NEXT: [[MV2:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE4]](s32), [[AMDGPU_READANYLANE5]](s32)
+    ; GCN-NEXT: [[UV10:%[0-9]+]]:vgpr(s32), [[UV11:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV3]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV10]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV11]]
+    ; GCN-NEXT: [[MV3:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE6]](s32), [[AMDGPU_READANYLANE7]](s32)
+    ; GCN-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s64>) = G_BUILD_VECTOR [[MV]](s64), [[MV1]](s64), [[MV2]](s64), [[MV3]](s64)
     %0:_(p1) = COPY $sgpr0_sgpr1
     %1:_(<4 x s64>) = G_LOAD %0 :: (load (<4 x s64>) from %ir.global.not.uniform.v4i64)
 ...
@@ -153,6 +182,7 @@ body: |
 ---
 name: load_global_v16i32_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -162,17 +192,35 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p1) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p1) = COPY [[COPY]](p1)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[COPY]](p1) :: (load (<4 x s32>) from %ir.global.not.uniform.v16i32, align 64, addrspace 1)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[COPY1]](p1) :: (load (<4 x s32>) from %ir.global.not.uniform.v16i32, align 64, addrspace 1)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[PTR_ADD]](p1) :: (load (<4 x s32>) from %ir.global.not.uniform.v16i32 + 16, basealign 64, addrspace 1)
     ; GCN-NEXT: [[C1:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 32
-    ; GCN-NEXT: [[PTR_ADD1:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY]], [[C1]](s64)
+    ; GCN-NEXT: [[PTR_ADD1:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY1]], [[C1]](s64)
     ; GCN-NEXT: [[LOAD2:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[PTR_ADD1]](p1) :: (load (<4 x s32>) from %ir.global.not.uniform.v16i32 + 32, align 32, basealign 64, addrspace 1)
     ; GCN-NEXT: [[C2:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 48
-    ; GCN-NEXT: [[PTR_ADD2:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY]], [[C2]](s64)
+    ; GCN-NEXT: [[PTR_ADD2:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY1]], [[C2]](s64)
     ; GCN-NEXT: [[LOAD3:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[PTR_ADD2]](p1) :: (load (<4 x s32>) from %ir.global.not.uniform.v16i32 + 48, basealign 64, addrspace 1)
     ; GCN-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<16 x s32>) = G_CONCAT_VECTORS [[LOAD]](<4 x s32>), [[LOAD1]](<4 x s32>), [[LOAD2]](<4 x s32>), [[LOAD3]](<4 x s32>)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32), [[UV4:%[0-9]+]]:vgpr(s32), [[UV5:%[0-9]+]]:vgpr(s32), [[UV6:%[0-9]+]]:vgpr(s32), [[UV7:%[0-9]+]]:vgpr(s32), [[UV8:%[0-9]+]]:vgpr(s32), [[UV9:%[0-9]+]]:vgpr(s32), [[UV10:%[0-9]+]]:vgpr(s32), [[UV11:%[0-9]+]]:vgpr(s32), [[UV12:%[0-9]+]]:vgpr(s32), [[UV13:%[0-9]+]]:vgpr(s32), [[UV14:%[0-9]+]]:vgpr(s32), [[UV15:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[CONCAT_VECTORS]](<16 x s32>)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV1]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV2]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV3]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV4]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV5]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV6]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV7]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE8:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV8]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE9:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV9]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE10:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV10]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE11:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV11]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE12:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV12]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE13:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV13]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE14:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV14]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE15:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV15]]
+    ; GCN-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<16 x s32>) = G_BUILD_VECTOR [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32), [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32), [[AMDGPU_READANYLANE4]](s32), [[AMDGPU_READANYLANE5]](s32), [[AMDGPU_READANYLANE6]](s32), [[AMDGPU_READANYLANE7]](s32), [[AMDGPU_READANYLANE8]](s32), [[AMDGPU_READANYLANE9]](s32), [[AMDGPU_READANYLANE10]](s32), [[AMDGPU_READANYLANE11]](s32), [[AMDGPU_READANYLANE12]](s32), [[AMDGPU_READANYLANE13]](s32), [[AMDGPU_READANYLANE14]](s32), [[AMDGPU_READANYLANE15]](s32)
     %0:_(p1) = COPY $sgpr0_sgpr1
     %1:_(<16 x s32>) = G_LOAD %0 :: (load (<16 x s32>) from %ir.global.not.uniform.v16i32)
 ...
@@ -180,6 +228,7 @@ body: |
 ---
 name: load_global_v8i64_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -189,17 +238,51 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p1) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p1) = COPY [[COPY]](p1)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[COPY]](p1) :: (load (<2 x s64>) from %ir.global.not.uniform.v8i64, align 64, addrspace 1)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[COPY1]](p1) :: (load (<2 x s64>) from %ir.global.not.uniform.v8i64, align 64, addrspace 1)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[PTR_ADD]](p1) :: (load (<2 x s64>) from %ir.global.not.uniform.v8i64 + 16, basealign 64, addrspace 1)
     ; GCN-NEXT: [[C1:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 32
-    ; GCN-NEXT: [[PTR_ADD1:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY]], [[C1]](s64)
+    ; GCN-NEXT: [[PTR_ADD1:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY1]], [[C1]](s64)
     ; GCN-NEXT: [[LOAD2:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[PTR_ADD1]](p1) :: (load (<2 x s64>) from %ir.global.not.uniform.v8i64 + 32, align 32, basealign 64, addrspace 1)
     ; GCN-NEXT: [[C2:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 48
-    ; GCN-NEXT: [[PTR_ADD2:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY]], [[C2]](s64)
+    ; GCN-NEXT: [[PTR_ADD2:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[COPY1]], [[C2]](s64)
     ; GCN-NEXT: [[LOAD3:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[PTR_ADD2]](p1) :: (load (<2 x s64>) from %ir.global.not.uniform.v8i64 + 48, basealign 64, addrspace 1)
     ; GCN-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<8 x s64>) = G_CONCAT_VECTORS [[LOAD]](<2 x s64>), [[LOAD1]](<2 x s64>), [[LOAD2]](<2 x s64>), [[LOAD3]](<2 x s64>)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(s64), [[UV1:%[0-9]+]]:vgpr(s64), [[UV2:%[0-9]+]]:vgpr(s64), [[UV3:%[0-9]+]]:vgpr(s64), [[UV4:%[0-9]+]]:vgpr(s64), [[UV5:%[0-9]+]]:vgpr(s64), [[UV6:%[0-9]+]]:vgpr(s64), [[UV7:%[0-9]+]]:vgpr(s64) = G_UNMERGE_VALUES [[CONCAT_VECTORS]](<8 x s64>)
+    ; GCN-NEXT: [[UV8:%[0-9]+]]:vgpr(s32), [[UV9:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV8]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV9]]
+    ; GCN-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32)
+    ; GCN-NEXT: [[UV10:%[0-9]+]]:vgpr(s32), [[UV11:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV1]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV10]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV11]]
+    ; GCN-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32)
+    ; GCN-NEXT: [[UV12:%[0-9]+]]:vgpr(s32), [[UV13:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV2]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV12]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV13]]
+    ; GCN-NEXT: [[MV2:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE4]](s32), [[AMDGPU_READANYLANE5]](s32)
+    ; GCN-NEXT: [[UV14:%[0-9]+]]:vgpr(s32), [[UV15:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV3]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV14]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV15]]
+    ; GCN-NEXT: [[MV3:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE6]](s32), [[AMDGPU_READANYLANE7]](s32)
+    ; GCN-NEXT: [[UV16:%[0-9]+]]:vgpr(s32), [[UV17:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV4]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE8:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV16]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE9:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV17]]
+    ; GCN-NEXT: [[MV4:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE8]](s32), [[AMDGPU_READANYLANE9]](s32)
+    ; GCN-NEXT: [[UV18:%[0-9]+]]:vgpr(s32), [[UV19:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV5]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE10:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV18]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE11:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV19]]
+    ; GCN-NEXT: [[MV5:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE10]](s32), [[AMDGPU_READANYLANE11]](s32)
+    ; GCN-NEXT: [[UV20:%[0-9]+]]:vgpr(s32), [[UV21:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV6]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE12:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV20]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE13:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV21]]
+    ; GCN-NEXT: [[MV6:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE12]](s32), [[AMDGPU_READANYLANE13]](s32)
+    ; GCN-NEXT: [[UV22:%[0-9]+]]:vgpr(s32), [[UV23:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV7]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE14:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV22]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE15:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV23]]
+    ; GCN-NEXT: [[MV7:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE14]](s32), [[AMDGPU_READANYLANE15]](s32)
+    ; GCN-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<8 x s64>) = G_BUILD_VECTOR [[MV]](s64), [[MV1]](s64), [[MV2]](s64), [[MV3]](s64), [[MV4]](s64), [[MV5]](s64), [[MV6]](s64), [[MV7]](s64)
     %0:_(p1) = COPY $sgpr0_sgpr1
     %1:_(<8 x s64>) = G_LOAD %0 :: (load (<8 x s64>) from %ir.global.not.uniform.v8i64)
 ...
@@ -207,6 +290,7 @@ body: |
 ---
 name: load_global_v8i32_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -223,6 +307,7 @@ body: |
 ---
 name: load_global_v4i64_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -239,6 +324,7 @@ body: |
 ---
 name: load_global_v16i32_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -255,6 +341,7 @@ body: |
 ---
 name: load_global_v8i64_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -271,6 +358,7 @@ body: |
 ---
 name: load_constant_v8i32_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -280,11 +368,21 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[COPY]](p4) :: (load (<4 x s32>) from %ir.constant.not.uniform.v8i32, align 32, addrspace 4)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[COPY1]](p4) :: (load (<4 x s32>) from %ir.constant.not.uniform.v8i32, align 32, addrspace 4)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[PTR_ADD]](p4) :: (load (<4 x s32>) from %ir.constant.not.uniform.v8i32 + 16, basealign 32, addrspace 4)
     ; GCN-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<8 x s32>) = G_CONCAT_VECTORS [[LOAD]](<4 x s32>), [[LOAD1]](<4 x s32>)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32), [[UV4:%[0-9]+]]:vgpr(s32), [[UV5:%[0-9]+]]:vgpr(s32), [[UV6:%[0-9]+]]:vgpr(s32), [[UV7:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[CONCAT_VECTORS]](<8 x s32>)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV1]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV2]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV3]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV4]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV5]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV6]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV7]]
+    ; GCN-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<8 x s32>) = G_BUILD_VECTOR [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32), [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32), [[AMDGPU_READANYLANE4]](s32), [[AMDGPU_READANYLANE5]](s32), [[AMDGPU_READANYLANE6]](s32), [[AMDGPU_READANYLANE7]](s32)
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(<8 x s32>) = G_LOAD %0 :: (load (<8 x s32>) from %ir.constant.not.uniform.v8i32)
 ...
@@ -292,6 +390,7 @@ body: |
 ---
 name: load_constant_i256_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -301,11 +400,21 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(s128) = G_LOAD [[COPY]](p4) :: (load (s128) from %ir.constant.not.uniform, align 32, addrspace 4)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(s128) = G_LOAD [[COPY1]](p4) :: (load (s128) from %ir.constant.not.uniform, align 32, addrspace 4)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(s128) = G_LOAD [[PTR_ADD]](p4) :: (load (s128) from %ir.constant.not.uniform + 16, basealign 32, addrspace 4)
     ; GCN-NEXT: [[MV:%[0-9]+]]:vgpr(s256) = G_MERGE_VALUES [[LOAD]](s128), [[LOAD1]](s128)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32), [[UV4:%[0-9]+]]:vgpr(s32), [[UV5:%[0-9]+]]:vgpr(s32), [[UV6:%[0-9]+]]:vgpr(s32), [[UV7:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[MV]](s256)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV1]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV2]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV3]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV4]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV5]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV6]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV7]]
+    ; GCN-NEXT: [[MV1:%[0-9]+]]:sgpr(s256) = G_MERGE_VALUES [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32), [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32), [[AMDGPU_READANYLANE4]](s32), [[AMDGPU_READANYLANE5]](s32), [[AMDGPU_READANYLANE6]](s32), [[AMDGPU_READANYLANE7]](s32)
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(s256) = G_LOAD %0 :: (load (s256) from %ir.constant.not.uniform)
 ...
@@ -313,6 +422,7 @@ body: |
 ---
 name: load_constant_v16i16_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -323,11 +433,21 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<8 x s16>) = G_LOAD [[COPY]](p4) :: (load (<8 x s16>) from %ir.constant.not.uniform, align 32, addrspace 4)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<8 x s16>) = G_LOAD [[COPY1]](p4) :: (load (<8 x s16>) from %ir.constant.not.uniform, align 32, addrspace 4)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(<8 x s16>) = G_LOAD [[PTR_ADD]](p4) :: (load (<8 x s16>) from %ir.constant.not.uniform + 16, basealign 32, addrspace 4)
     ; GCN-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<16 x s16>) = G_CONCAT_VECTORS [[LOAD]](<8 x s16>), [[LOAD1]](<8 x s16>)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(<2 x s16>), [[UV1:%[0-9]+]]:vgpr(<2 x s16>), [[UV2:%[0-9]+]]:vgpr(<2 x s16>), [[UV3:%[0-9]+]]:vgpr(<2 x s16>), [[UV4:%[0-9]+]]:vgpr(<2 x s16>), [[UV5:%[0-9]+]]:vgpr(<2 x s16>), [[UV6:%[0-9]+]]:vgpr(<2 x s16>), [[UV7:%[0-9]+]]:vgpr(<2 x s16>) = G_UNMERGE_VALUES [[CONCAT_VECTORS]](<16 x s16>)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(<2 x s16>) = G_AMDGPU_READANYLANE [[UV]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(<2 x s16>) = G_AMDGPU_READANYLANE [[UV1]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(<2 x s16>) = G_AMDGPU_READANYLANE [[UV2]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(<2 x s16>) = G_AMDGPU_READANYLANE [[UV3]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(<2 x s16>) = G_AMDGPU_READANYLANE [[UV4]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(<2 x s16>) = G_AMDGPU_READANYLANE [[UV5]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(<2 x s16>) = G_AMDGPU_READANYLANE [[UV6]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(<2 x s16>) = G_AMDGPU_READANYLANE [[UV7]]
+    ; GCN-NEXT: [[CONCAT_VECTORS1:%[0-9]+]]:sgpr(<16 x s16>) = G_CONCAT_VECTORS [[AMDGPU_READANYLANE]](<2 x s16>), [[AMDGPU_READANYLANE1]](<2 x s16>), [[AMDGPU_READANYLANE2]](<2 x s16>), [[AMDGPU_READANYLANE3]](<2 x s16>), [[AMDGPU_READANYLANE4]](<2 x s16>), [[AMDGPU_READANYLANE5]](<2 x s16>), [[AMDGPU_READANYLANE6]](<2 x s16>), [[AMDGPU_READANYLANE7]](<2 x s16>)
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(<16 x s16>) = G_LOAD %0 :: (load (<16 x s16>) from %ir.constant.not.uniform)
 ...
@@ -335,6 +455,7 @@ body: |
 ---
 name: load_constant_v4i64_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -344,11 +465,29 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[COPY]](p4) :: (load (<2 x s64>) from %ir.constant.not.uniform.v4i64, align 32, addrspace 4)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[COPY1]](p4) :: (load (<2 x s64>) from %ir.constant.not.uniform.v4i64, align 32, addrspace 4)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[PTR_ADD]](p4) :: (load (<2 x s64>) from %ir.constant.not.uniform.v4i64 + 16, basealign 32, addrspace 4)
     ; GCN-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<4 x s64>) = G_CONCAT_VECTORS [[LOAD]](<2 x s64>), [[LOAD1]](<2 x s64>)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(s64), [[UV1:%[0-9]+]]:vgpr(s64), [[UV2:%[0-9]+]]:vgpr(s64), [[UV3:%[0-9]+]]:vgpr(s64) = G_UNMERGE_VALUES [[CONCAT_VECTORS]](<4 x s64>)
+    ; GCN-NEXT: [[UV4:%[0-9]+]]:vgpr(s32), [[UV5:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV4]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV5]]
+    ; GCN-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32)
+    ; GCN-NEXT: [[UV6:%[0-9]+]]:vgpr(s32), [[UV7:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV1]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV6]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV7]]
+    ; GCN-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32)
+    ; GCN-NEXT: [[UV8:%[0-9]+]]:vgpr(s32), [[UV9:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV2]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV8]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV9]]
+    ; GCN-NEXT: [[MV2:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE4]](s32), [[AMDGPU_READANYLANE5]](s32)
+    ; GCN-NEXT: [[UV10:%[0-9]+]]:vgpr(s32), [[UV11:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV3]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV10]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV11]]
+    ; GCN-NEXT: [[MV3:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE6]](s32), [[AMDGPU_READANYLANE7]](s32)
+    ; GCN-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s64>) = G_BUILD_VECTOR [[MV]](s64), [[MV1]](s64), [[MV2]](s64), [[MV3]](s64)
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(<4 x s64>) = G_LOAD %0 :: (load (<4 x s64>) from %ir.constant.not.uniform.v4i64)
 ...
@@ -356,6 +495,7 @@ body: |
 ---
 name: load_constant_v16i32_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -365,17 +505,35 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[COPY]](p4) :: (load (<4 x s32>) from %ir.constant.not.uniform.v16i32, align 64, addrspace 4)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[COPY1]](p4) :: (load (<4 x s32>) from %ir.constant.not.uniform.v16i32, align 64, addrspace 4)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[PTR_ADD]](p4) :: (load (<4 x s32>) from %ir.constant.not.uniform.v16i32 + 16, basealign 64, addrspace 4)
     ; GCN-NEXT: [[C1:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 32
-    ; GCN-NEXT: [[PTR_ADD1:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C1]](s64)
+    ; GCN-NEXT: [[PTR_ADD1:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C1]](s64)
     ; GCN-NEXT: [[LOAD2:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[PTR_ADD1]](p4) :: (load (<4 x s32>) from %ir.constant.not.uniform.v16i32 + 32, align 32, basealign 64, addrspace 4)
     ; GCN-NEXT: [[C2:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 48
-    ; GCN-NEXT: [[PTR_ADD2:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C2]](s64)
+    ; GCN-NEXT: [[PTR_ADD2:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C2]](s64)
     ; GCN-NEXT: [[LOAD3:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[PTR_ADD2]](p4) :: (load (<4 x s32>) from %ir.constant.not.uniform.v16i32 + 48, basealign 64, addrspace 4)
     ; GCN-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<16 x s32>) = G_CONCAT_VECTORS [[LOAD]](<4 x s32>), [[LOAD1]](<4 x s32>), [[LOAD2]](<4 x s32>), [[LOAD3]](<4 x s32>)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32), [[UV4:%[0-9]+]]:vgpr(s32), [[UV5:%[0-9]+]]:vgpr(s32), [[UV6:%[0-9]+]]:vgpr(s32), [[UV7:%[0-9]+]]:vgpr(s32), [[UV8:%[0-9]+]]:vgpr(s32), [[UV9:%[0-9]+]]:vgpr(s32), [[UV10:%[0-9]+]]:vgpr(s32), [[UV11:%[0-9]+]]:vgpr(s32), [[UV12:%[0-9]+]]:vgpr(s32), [[UV13:%[0-9]+]]:vgpr(s32), [[UV14:%[0-9]+]]:vgpr(s32), [[UV15:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[CONCAT_VECTORS]](<16 x s32>)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV1]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV2]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV3]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV4]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV5]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV6]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV7]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE8:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV8]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE9:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV9]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE10:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV10]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE11:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV11]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE12:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV12]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE13:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV13]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE14:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV14]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE15:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV15]]
+    ; GCN-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<16 x s32>) = G_BUILD_VECTOR [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32), [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32), [[AMDGPU_READANYLANE4]](s32), [[AMDGPU_READANYLANE5]](s32), [[AMDGPU_READANYLANE6]](s32), [[AMDGPU_READANYLANE7]](s32), [[AMDGPU_READANYLANE8]](s32), [[AMDGPU_READANYLANE9]](s32), [[AMDGPU_READANYLANE10]](s32), [[AMDGPU_READANYLANE11]](s32), [[AMDGPU_READANYLANE12]](s32), [[AMDGPU_READANYLANE13]](s32), [[AMDGPU_READANYLANE14]](s32), [[AMDGPU_READANYLANE15]](s32)
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(<16 x s32>) = G_LOAD %0 :: (load (<16 x s32>) from %ir.constant.not.uniform.v16i32)
 ...
@@ -383,6 +541,7 @@ body: |
 ---
 name: load_constant_v8i64_non_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -392,17 +551,51 @@ body: |
     ; GCN-NEXT: {{  $}}
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
-    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[COPY]](p4) :: (load (<2 x s64>) from %ir.constant.not.uniform.v8i64, align 64, addrspace 4)
+    ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[COPY1]](p4) :: (load (<2 x s64>) from %ir.constant.not.uniform.v8i64, align 64, addrspace 4)
     ; GCN-NEXT: [[C:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 16
-    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C]](s64)
+    ; GCN-NEXT: [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C]](s64)
     ; GCN-NEXT: [[LOAD1:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[PTR_ADD]](p4) :: (load (<2 x s64>) from %ir.constant.not.uniform.v8i64 + 16, basealign 64, addrspace 4)
     ; GCN-NEXT: [[C1:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 32
-    ; GCN-NEXT: [[PTR_ADD1:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C1]](s64)
+    ; GCN-NEXT: [[PTR_ADD1:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C1]](s64)
     ; GCN-NEXT: [[LOAD2:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[PTR_ADD1]](p4) :: (load (<2 x s64>) from %ir.constant.not.uniform.v8i64 + 32, align 32, basealign 64, addrspace 4)
     ; GCN-NEXT: [[C2:%[0-9]+]]:vgpr(s64) = G_CONSTANT i64 48
-    ; GCN-NEXT: [[PTR_ADD2:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY]], [[C2]](s64)
+    ; GCN-NEXT: [[PTR_ADD2:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[COPY1]], [[C2]](s64)
     ; GCN-NEXT: [[LOAD3:%[0-9]+]]:vgpr(<2 x s64>) = G_LOAD [[PTR_ADD2]](p4) :: (load (<2 x s64>) from %ir.constant.not.uniform.v8i64 + 48, basealign 64, addrspace 4)
     ; GCN-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<8 x s64>) = G_CONCAT_VECTORS [[LOAD]](<2 x s64>), [[LOAD1]](<2 x s64>), [[LOAD2]](<2 x s64>), [[LOAD3]](<2 x s64>)
+    ; GCN-NEXT: [[UV:%[0-9]+]]:vgpr(s64), [[UV1:%[0-9]+]]:vgpr(s64), [[UV2:%[0-9]+]]:vgpr(s64), [[UV3:%[0-9]+]]:vgpr(s64), [[UV4:%[0-9]+]]:vgpr(s64), [[UV5:%[0-9]+]]:vgpr(s64), [[UV6:%[0-9]+]]:vgpr(s64), [[UV7:%[0-9]+]]:vgpr(s64) = G_UNMERGE_VALUES [[CONCAT_VECTORS]](<8 x s64>)
+    ; GCN-NEXT: [[UV8:%[0-9]+]]:vgpr(s32), [[UV9:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV8]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV9]]
+    ; GCN-NEXT: [[MV:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32)
+    ; GCN-NEXT: [[UV10:%[0-9]+]]:vgpr(s32), [[UV11:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV1]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV10]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV11]]
+    ; GCN-NEXT: [[MV1:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32)
+    ; GCN-NEXT: [[UV12:%[0-9]+]]:vgpr(s32), [[UV13:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV2]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE4:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV12]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE5:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV13]]
+    ; GCN-NEXT: [[MV2:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE4]](s32), [[AMDGPU_READANYLANE5]](s32)
+    ; GCN-NEXT: [[UV14:%[0-9]+]]:vgpr(s32), [[UV15:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV3]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE6:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV14]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE7:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV15]]
+    ; GCN-NEXT: [[MV3:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE6]](s32), [[AMDGPU_READANYLANE7]](s32)
+    ; GCN-NEXT: [[UV16:%[0-9]+]]:vgpr(s32), [[UV17:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV4]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE8:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV16]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE9:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV17]]
+    ; GCN-NEXT: [[MV4:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE8]](s32), [[AMDGPU_READANYLANE9]](s32)
+    ; GCN-NEXT: [[UV18:%[0-9]+]]:vgpr(s32), [[UV19:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV5]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE10:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV18]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE11:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV19]]
+    ; GCN-NEXT: [[MV5:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE10]](s32), [[AMDGPU_READANYLANE11]](s32)
+    ; GCN-NEXT: [[UV20:%[0-9]+]]:vgpr(s32), [[UV21:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV6]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE12:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV20]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE13:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV21]]
+    ; GCN-NEXT: [[MV6:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE12]](s32), [[AMDGPU_READANYLANE13]](s32)
+    ; GCN-NEXT: [[UV22:%[0-9]+]]:vgpr(s32), [[UV23:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[UV7]](s64)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE14:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV22]]
+    ; GCN-NEXT: [[AMDGPU_READANYLANE15:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV23]]
+    ; GCN-NEXT: [[MV7:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[AMDGPU_READANYLANE14]](s32), [[AMDGPU_READANYLANE15]](s32)
+    ; GCN-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<8 x s64>) = G_BUILD_VECTOR [[MV]](s64), [[MV1]](s64), [[MV2]](s64), [[MV3]](s64), [[MV4]](s64), [[MV5]](s64), [[MV6]](s64), [[MV7]](s64)
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(<8 x s64>) = G_LOAD %0 :: (load (<8 x s64>) from %ir.constant.not.uniform.v8i64)
 ...
@@ -410,6 +603,7 @@ body: |
 ---
 name: load_constant_v8i32_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -426,6 +620,7 @@ body: |
 ---
 name: load_constant_v16i16_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -442,6 +637,7 @@ body: |
 ---
 name: load_constant_v4i64_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -458,6 +654,7 @@ body: |
 ---
 name: load_constant_v16i32_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -474,6 +671,7 @@ body: |
 ---
 name: load_constant_v8i64_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -490,6 +688,7 @@ body: |
 ---
 name: load_local_uniform
 legalized: true
+tracksRegLiveness: true
 body: |
   bb.0:
     liveins: $sgpr0
@@ -500,6 +699,7 @@ body: |
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p3) = COPY $sgpr0
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p3) = COPY [[COPY]](p3)
     ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[COPY1]](p3) :: (load (s32), addrspace 3)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[LOAD]]
     %0:_(p3) = COPY $sgpr0
     %1:_(s32) = G_LOAD %0 :: (load (s32), addrspace 3)
 
@@ -507,6 +707,7 @@ body: |
 ---
 name: load_region_uniform
 legalized: true
+tracksRegLiveness: true
 body: |
   bb.0:
     liveins: $sgpr0
@@ -525,6 +726,7 @@ body: |
 ---
 name: extload_constant_i8_to_i32_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -535,6 +737,7 @@ body: |
     ; GFX7-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GFX7-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; GFX7-NEXT: [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[COPY1]](p4) :: (load (s8), addrspace 4)
+    ; GFX7-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[LOAD]]
     ;
     ; GFX12-LABEL: name: extload_constant_i8_to_i32_uniform
     ; GFX12: liveins: $sgpr0_sgpr1
@@ -548,6 +751,7 @@ body: |
 ---
 name: extload_global_i8_to_i32_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -559,6 +763,7 @@ body: |
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[COPY1]](p4) :: (load (s8), addrspace 1)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[LOAD]]
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(s32) = G_LOAD %0 :: (load (s8), addrspace 1, align 1)
 ...
@@ -566,6 +771,7 @@ body: |
 ---
 name: extload_constant_i16_to_i32_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -577,6 +783,7 @@ body: |
     ; GFX7-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GFX7-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; GFX7-NEXT: [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[COPY1]](p4) :: (load (s16), addrspace 4)
+    ; GFX7-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[LOAD]]
     ;
     ; GFX12-LABEL: name: extload_constant_i16_to_i32_uniform
     ; GFX12: liveins: $sgpr0_sgpr1
@@ -590,6 +797,7 @@ body: |
 ---
 name: extload_global_i16_to_i32_uniform
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -601,6 +809,7 @@ body: |
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[COPY1]](p4) :: (load (s16), addrspace 1)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[LOAD]]
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(s32) = G_LOAD %0 :: (load (s16), addrspace 1, align 2)
 ...
@@ -608,6 +817,7 @@ body: |
 ---
 name: load_constant_i32_uniform_align4
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -624,6 +834,7 @@ body: |
 ---
 name: load_constant_i32_uniform_align2
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -635,6 +846,7 @@ body: |
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[COPY1]](p4) :: (load (s32), align 2, addrspace 4)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[LOAD]]
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(s32) = G_LOAD %0 :: (load (s32), addrspace 4, align 2)
 ...
@@ -642,6 +854,7 @@ body: |
 ---
 name: load_constant_i32_uniform_align1
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -653,6 +866,7 @@ body: |
     ; GCN-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GCN-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; GCN-NEXT: [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[COPY1]](p4) :: (load (s32), align 1, addrspace 4)
+    ; GCN-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[LOAD]]
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(s32) = G_LOAD %0 :: (load (s32), addrspace 4, align 1)
 ...
@@ -660,6 +874,7 @@ body: |
 ---
 name: load_private_uniform_sgpr_i32
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -706,10 +921,10 @@ body: |
   ; GCN-LABEL: name: load_constant_v8i32_vgpr_crash_loop_phi
   ; GCN: bb.0:
   ; GCN-NEXT:   successors: %bb.1(0x80000000)
-  ; GCN-NEXT:   liveins: $sgpr0_sgpr1, $sgpr2_sgpr3
+  ; GCN-NEXT:   liveins: $vgpr0_vgpr1, $vgpr2_vgpr3
   ; GCN-NEXT: {{  $}}
-  ; GCN-NEXT:   [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
-  ; GCN-NEXT:   [[COPY1:%[0-9]+]]:sgpr(p4) = COPY $sgpr2_sgpr3
+  ; GCN-NEXT:   [[COPY:%[0-9]+]]:vgpr(p4) = COPY $vgpr0_vgpr1
+  ; GCN-NEXT:   [[COPY1:%[0-9]+]]:vgpr(p4) = COPY $vgpr2_vgpr3
   ; GCN-NEXT:   G_BR %bb.1
   ; GCN-NEXT: {{  $}}
   ; GCN-NEXT: bb.1:
@@ -721,14 +936,14 @@ body: |
   ; GCN-NEXT:   [[PTR_ADD:%[0-9]+]]:vgpr(p4) = G_PTR_ADD [[PHI]], [[C]](s64)
   ; GCN-NEXT:   [[LOAD1:%[0-9]+]]:vgpr(<4 x s32>) = G_LOAD [[PTR_ADD]](p4) :: (load (<4 x s32>) from unknown-address + 16, addrspace 4)
   ; GCN-NEXT:   [[CONCAT_VECTORS:%[0-9]+]]:vgpr(<8 x s32>) = G_CONCAT_VECTORS [[LOAD]](<4 x s32>), [[LOAD1]](<4 x s32>)
-  ; GCN-NEXT:   [[COPY2:%[0-9]+]]:sgpr(p4) = COPY [[COPY1]](p4)
+  ; GCN-NEXT:   [[COPY2:%[0-9]+]]:vgpr(p4) = COPY [[COPY1]](p4)
   ; GCN-NEXT:   G_BR %bb.1
   bb.0:
-    liveins: $sgpr0_sgpr1, $sgpr2_sgpr3
+    liveins: $vgpr0_vgpr1, $vgpr2_vgpr3
 
 
-    %0:_(p4) = COPY $sgpr0_sgpr1
-    %1:_(p4) = COPY $sgpr2_sgpr3
+    %0:_(p4) = COPY $vgpr0_vgpr1
+    %1:_(p4) = COPY $vgpr2_vgpr3
     G_BR %bb.1
 
   bb.1:
@@ -741,6 +956,7 @@ body: |
 ---
 name: load_constant_v3i32_align4
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -771,6 +987,7 @@ body: |
 ---
 name: load_constant_v3i32_align8
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -801,6 +1018,7 @@ body: |
 ---
 name: load_constant_v3i32_align16
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -828,6 +1046,7 @@ body: |
 ---
 name: load_constant_v6i16_align4
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -840,10 +1059,9 @@ body: |
     ; GFX7-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 8
     ; GFX7-NEXT: [[PTR_ADD:%[0-9]+]]:sgpr(p4) = G_PTR_ADD [[COPY]], [[C]](s64)
     ; GFX7-NEXT: [[LOAD1:%[0-9]+]]:sgpr(<2 x s16>) = G_LOAD [[PTR_ADD]](p4) :: (invariant load (<2 x s16>) from unknown-address + 8, addrspace 4)
-    ; GFX7-NEXT: [[UV:%[0-9]+]]:sgpr(s16), [[UV1:%[0-9]+]]:sgpr(s16), [[UV2:%[0-9]+]]:sgpr(s16), [[UV3:%[0-9]+]]:sgpr(s16) = G_UNMERGE_VALUES [[LOAD]](<4 x s16>)
-    ; GFX7-NEXT: [[UV4:%[0-9]+]]:sgpr(s16), [[UV5:%[0-9]+]]:sgpr(s16) = G_UNMERGE_VALUES [[LOAD1]](<2 x s16>)
-    ; GFX7-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<6 x s16>) = G_BUILD_VECTOR [[UV]](s16), [[UV1]](s16), [[UV2]](s16), [[UV3]](s16), [[UV4]](s16), [[UV5]](s16)
-    ; GFX7-NEXT: S_ENDPGM 0, implicit [[BUILD_VECTOR]](<6 x s16>)
+    ; GFX7-NEXT: [[UV:%[0-9]+]]:sgpr(<2 x s16>), [[UV1:%[0-9]+]]:sgpr(<2 x s16>) = G_UNMERGE_VALUES [[LOAD]](<4 x s16>)
+    ; GFX7-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:sgpr(<6 x s16>) = G_CONCAT_VECTORS [[UV]](<2 x s16>), [[UV1]](<2 x s16>), [[LOAD1]](<2 x s16>)
+    ; GFX7-NEXT: S_ENDPGM 0, implicit [[CONCAT_VECTORS]](<6 x s16>)
     ;
     ; GFX12-LABEL: name: load_constant_v6i16_align4
     ; GFX12: liveins: $sgpr0_sgpr1
@@ -859,6 +1077,7 @@ body: |
 ---
 name: load_constant_v6i16_align8
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -871,10 +1090,9 @@ body: |
     ; GFX7-NEXT: [[C:%[0-9]+]]:sgpr(s64) = G_CONSTANT i64 8
     ; GFX7-NEXT: [[PTR_ADD:%[0-9]+]]:sgpr(p4) = G_PTR_ADD [[COPY]], [[C]](s64)
     ; GFX7-NEXT: [[LOAD1:%[0-9]+]]:sgpr(<2 x s16>) = G_LOAD [[PTR_ADD]](p4) :: (invariant load (<2 x s16>) from unknown-address + 8, align 8, addrspace 4)
-    ; GFX7-NEXT: [[UV:%[0-9]+]]:sgpr(s16), [[UV1:%[0-9]+]]:sgpr(s16), [[UV2:%[0-9]+]]:sgpr(s16), [[UV3:%[0-9]+]]:sgpr(s16) = G_UNMERGE_VALUES [[LOAD]](<4 x s16>)
-    ; GFX7-NEXT: [[UV4:%[0-9]+]]:sgpr(s16), [[UV5:%[0-9]+]]:sgpr(s16) = G_UNMERGE_VALUES [[LOAD1]](<2 x s16>)
-    ; GFX7-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<6 x s16>) = G_BUILD_VECTOR [[UV]](s16), [[UV1]](s16), [[UV2]](s16), [[UV3]](s16), [[UV4]](s16), [[UV5]](s16)
-    ; GFX7-NEXT: S_ENDPGM 0, implicit [[BUILD_VECTOR]](<6 x s16>)
+    ; GFX7-NEXT: [[UV:%[0-9]+]]:sgpr(<2 x s16>), [[UV1:%[0-9]+]]:sgpr(<2 x s16>) = G_UNMERGE_VALUES [[LOAD]](<4 x s16>)
+    ; GFX7-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:sgpr(<6 x s16>) = G_CONCAT_VECTORS [[UV]](<2 x s16>), [[UV1]](<2 x s16>), [[LOAD1]](<2 x s16>)
+    ; GFX7-NEXT: S_ENDPGM 0, implicit [[CONCAT_VECTORS]](<6 x s16>)
     ;
     ; GFX12-LABEL: name: load_constant_v6i16_align8
     ; GFX12: liveins: $sgpr0_sgpr1
@@ -890,6 +1108,7 @@ body: |
 ---
 name: load_constant_v6i16_align16
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -899,9 +1118,9 @@ body: |
     ; GFX7-NEXT: {{  $}}
     ; GFX7-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; GFX7-NEXT: [[LOAD:%[0-9]+]]:sgpr(<8 x s16>) = G_LOAD [[COPY]](p4) :: (invariant load (<8 x s16>), addrspace 4)
-    ; GFX7-NEXT: [[UV:%[0-9]+]]:sgpr(s16), [[UV1:%[0-9]+]]:sgpr(s16), [[UV2:%[0-9]+]]:sgpr(s16), [[UV3:%[0-9]+]]:sgpr(s16), [[UV4:%[0-9]+]]:sgpr(s16), [[UV5:%[0-9]+]]:sgpr(s16), [[UV6:%[0-9]+]]:sgpr(s16), [[UV7:%[0-9]+]]:sgpr(s16) = G_UNMERGE_VALUES [[LOAD]](<8 x s16>)
-    ; GFX7-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<6 x s16>) = G_BUILD_VECTOR [[UV]](s16), [[UV1]](s16), [[UV2]](s16), [[UV3]](s16), [[UV4]](s16), [[UV5]](s16)
-    ; GFX7-NEXT: S_ENDPGM 0, implicit [[BUILD_VECTOR]](<6 x s16>)
+    ; GFX7-NEXT: [[UV:%[0-9]+]]:sgpr(<2 x s16>), [[UV1:%[0-9]+]]:sgpr(<2 x s16>), [[UV2:%[0-9]+]]:sgpr(<2 x s16>), [[UV3:%[0-9]+]]:sgpr(<2 x s16>) = G_UNMERGE_VALUES [[LOAD]](<8 x s16>)
+    ; GFX7-NEXT: [[CONCAT_VECTORS:%[0-9]+]]:sgpr(<6 x s16>) = G_CONCAT_VECTORS [[UV]](<2 x s16>), [[UV1]](<2 x s16>), [[UV2]](<2 x s16>)
+    ; GFX7-NEXT: S_ENDPGM 0, implicit [[CONCAT_VECTORS]](<6 x s16>)
     ;
     ; GFX12-LABEL: name: load_constant_v6i16_align16
     ; GFX12: liveins: $sgpr0_sgpr1
@@ -917,6 +1136,7 @@ body: |
 ---
 name: load_constant_i96_align4
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -947,6 +1167,7 @@ body: |
 ---
 name: load_constant_i96_align8
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
@@ -977,6 +1198,7 @@ body: |
 ---
 name: load_constant_i96_align16
 legalized: true
+tracksRegLiveness: true
 
 body: |
   bb.0:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-regbanklegalize.mir b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-regbanklegalize.mir
index e840c3f1b86ab..3674fb9156f7a 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-regbanklegalize.mir
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-regbanklegalize.mir
@@ -1,5 +1,5 @@
 # NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 5
-# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass=none %s -verify-machineinstrs -o - | FileCheck %s
+# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass=amdgpu-regbanklegalize %s -verify-machineinstrs -o - | FileCheck %s
 
 ---
 name: uniform_in_vgpr
@@ -11,22 +11,25 @@ body: |
     ; CHECK-LABEL: name: uniform_in_vgpr
     ; CHECK: liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[FPTOUI:%[0-9]+]]:_(s32) = G_FPTOUI [[COPY]](s32)
-    ; CHECK-NEXT: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[FPTOUI]], [[COPY1]]
-    ; CHECK-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
+    ; CHECK-NEXT: [[FPTOUI:%[0-9]+]]:vgpr(s32) = G_FPTOUI [[COPY4]](s32)
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[FPTOUI]]
+    ; CHECK-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[AMDGPU_READANYLANE]], [[COPY1]]
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+    ; CHECK-NEXT: G_STORE [[COPY5]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s32) = COPY $sgpr1
-    %2:_(s32) = COPY $vgpr0
-    %3:_(s32) = COPY $vgpr1
-    %4:_(p1) = G_MERGE_VALUES %2(s32), %3(s32)
-    %5:_(s32) = G_FPTOUI %0(s32)
-    %6:_(s32) = G_ADD %5, %1
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:sgpr(s32) = COPY $sgpr1
+    %2:vgpr(s32) = COPY $vgpr0
+    %3:vgpr(s32) = COPY $vgpr1
+    %4:vgpr(p1) = G_MERGE_VALUES %2(s32), %3(s32)
+    %5:sgpr(s32) = G_FPTOUI %0(s32)
+    %6:sgpr(s32) = G_ADD %5, %1
     G_STORE %6(s32), %4(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -41,26 +44,30 @@ body: |
     ; CHECK-LABEL: name: back_to_back_uniform_in_vgpr
     ; CHECK: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
-    ; CHECK-NEXT: [[FADD:%[0-9]+]]:_(s32) = G_FADD [[COPY]], [[COPY1]]
-    ; CHECK-NEXT: [[FPTOUI:%[0-9]+]]:_(s32) = G_FPTOUI [[FADD]](s32)
-    ; CHECK-NEXT: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[FPTOUI]], [[COPY2]]
-    ; CHECK-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
+    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
+    ; CHECK-NEXT: [[FADD:%[0-9]+]]:vgpr(s32) = G_FADD [[COPY5]], [[COPY6]]
+    ; CHECK-NEXT: [[FPTOUI:%[0-9]+]]:vgpr(s32) = G_FPTOUI [[FADD]](s32)
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[FPTOUI]]
+    ; CHECK-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[AMDGPU_READANYLANE]], [[COPY2]]
+    ; CHECK-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+    ; CHECK-NEXT: G_STORE [[COPY7]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s32) = COPY $sgpr1
-    %2:_(s32) = COPY $sgpr2
-    %3:_(s32) = COPY $vgpr0
-    %4:_(s32) = COPY $vgpr1
-    %5:_(p1) = G_MERGE_VALUES %3(s32), %4(s32)
-    %6:_(s32) = G_FADD %0, %1
-    %7:_(s32) = G_FPTOUI %6(s32)
-    %8:_(s32) = G_ADD %7, %2
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:sgpr(s32) = COPY $sgpr1
+    %2:sgpr(s32) = COPY $sgpr2
+    %3:vgpr(s32) = COPY $vgpr0
+    %4:vgpr(s32) = COPY $vgpr1
+    %5:vgpr(p1) = G_MERGE_VALUES %3(s32), %4(s32)
+    %6:sgpr(s32) = G_FADD %0, %1
+    %7:sgpr(s32) = G_FPTOUI %6(s32)
+    %8:sgpr(s32) = G_ADD %7, %2
     G_STORE %8(s32), %5(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -75,36 +82,45 @@ body: |
     ; CHECK-LABEL: name: buffer_load_uniform
     ; CHECK: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $sgpr3
-    ; CHECK-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<4 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $sgpr4
-    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY5]](s32), [[COPY6]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-    ; CHECK-NEXT: [[AMDGPU_BUFFER_LOAD:%[0-9]+]]:_(<4 x s32>) = G_AMDGPU_BUFFER_LOAD [[BUILD_VECTOR]](<4 x s32>), [[C]](s32), [[COPY4]], [[C]], 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
-    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-    ; CHECK-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32), [[UV2:%[0-9]+]]:_(s32), [[UV3:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[AMDGPU_BUFFER_LOAD]](<4 x s32>)
-    ; CHECK-NEXT: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[UV1]], [[C1]]
-    ; CHECK-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
+    ; CHECK-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:sgpr(s32) = COPY $sgpr4
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY5]](s32), [[COPY6]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
+    ; CHECK-NEXT: [[COPY8:%[0-9]+]]:vgpr(s32) = COPY [[COPY4]](s32)
+    ; CHECK-NEXT: [[AMDGPU_BUFFER_LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_AMDGPU_BUFFER_LOAD [[BUILD_VECTOR]](<4 x s32>), [[COPY7]](s32), [[COPY8]], [[C]], 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
+    ; CHECK-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[AMDGPU_BUFFER_LOAD]](<4 x s32>)
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV]]
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV1]]
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV2]]
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV3]]
+    ; CHECK-NEXT: [[BUILD_VECTOR1:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32), [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32)
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; CHECK-NEXT: [[UV4:%[0-9]+]]:sgpr(s32), [[UV5:%[0-9]+]]:sgpr(s32), [[UV6:%[0-9]+]]:sgpr(s32), [[UV7:%[0-9]+]]:sgpr(s32) = G_UNMERGE_VALUES [[BUILD_VECTOR1]](<4 x s32>)
+    ; CHECK-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[UV5]], [[C1]]
+    ; CHECK-NEXT: [[COPY9:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+    ; CHECK-NEXT: G_STORE [[COPY9]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s32) = COPY $sgpr1
-    %2:_(s32) = COPY $sgpr2
-    %3:_(s32) = COPY $sgpr3
-    %4:_(<4 x s32>) = G_BUILD_VECTOR %0(s32), %1(s32), %2(s32), %3(s32)
-    %5:_(s32) = COPY $sgpr4
-    %6:_(s32) = COPY $vgpr0
-    %7:_(s32) = COPY $vgpr1
-    %8:_(p1) = G_MERGE_VALUES %6(s32), %7(s32)
-    %9:_(s32) = G_CONSTANT i32 0
-    %10:_(<4 x s32>) = G_AMDGPU_BUFFER_LOAD %4(<4 x s32>), %9(s32), %5, %9, 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
-    %11:_(s32) = G_CONSTANT i32 1
-    %12:_(s32), %13:_(s32), %14:_(s32), %15:_(s32) = G_UNMERGE_VALUES %10(<4 x s32>)
-    %16:_(s32) = G_ADD %13, %11
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:sgpr(s32) = COPY $sgpr1
+    %2:sgpr(s32) = COPY $sgpr2
+    %3:sgpr(s32) = COPY $sgpr3
+    %4:sgpr(<4 x s32>) = G_BUILD_VECTOR %0(s32), %1(s32), %2(s32), %3(s32)
+    %5:sgpr(s32) = COPY $sgpr4
+    %6:vgpr(s32) = COPY $vgpr0
+    %7:vgpr(s32) = COPY $vgpr1
+    %8:vgpr(p1) = G_MERGE_VALUES %6(s32), %7(s32)
+    %9:sgpr(s32) = G_CONSTANT i32 0
+    %10:sgpr(<4 x s32>) = G_AMDGPU_BUFFER_LOAD %4(<4 x s32>), %9(s32), %5, %9, 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
+    %11:sgpr(s32) = G_CONSTANT i32 1
+    %12:sgpr(s32), %13:sgpr(s32), %14:sgpr(s32), %15:sgpr(s32) = G_UNMERGE_VALUES %10(<4 x s32>)
+    %16:sgpr(s32) = G_ADD %13, %11
     G_STORE %16(s32), %8(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -119,36 +135,38 @@ body: |
     ; CHECK-LABEL: name: buffer_load_divergent
     ; CHECK: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $sgpr3
-    ; CHECK-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<4 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY5]](s32), [[COPY6]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-    ; CHECK-NEXT: [[AMDGPU_BUFFER_LOAD:%[0-9]+]]:_(<4 x s32>) = G_AMDGPU_BUFFER_LOAD [[BUILD_VECTOR]](<4 x s32>), [[C]](s32), [[COPY4]], [[C]], 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
-    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-    ; CHECK-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32), [[UV2:%[0-9]+]]:_(s32), [[UV3:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[AMDGPU_BUFFER_LOAD]](<4 x s32>)
-    ; CHECK-NEXT: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[UV1]], [[C1]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
+    ; CHECK-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY5]](s32), [[COPY6]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
+    ; CHECK-NEXT: [[AMDGPU_BUFFER_LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_AMDGPU_BUFFER_LOAD [[BUILD_VECTOR]](<4 x s32>), [[COPY7]](s32), [[COPY4]], [[C]], 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; CHECK-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[AMDGPU_BUFFER_LOAD]](<4 x s32>)
+    ; CHECK-NEXT: [[COPY8:%[0-9]+]]:vgpr(s32) = COPY [[C1]](s32)
+    ; CHECK-NEXT: [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[UV1]], [[COPY8]]
     ; CHECK-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s32) = COPY $sgpr1
-    %2:_(s32) = COPY $sgpr2
-    %3:_(s32) = COPY $sgpr3
-    %4:_(<4 x s32>) = G_BUILD_VECTOR %0(s32), %1(s32), %2(s32), %3(s32)
-    %5:_(s32) = COPY $vgpr0
-    %6:_(s32) = COPY $vgpr1
-    %7:_(s32) = COPY $vgpr2
-    %8:_(p1) = G_MERGE_VALUES %6(s32), %7(s32)
-    %9:_(s32) = G_CONSTANT i32 0
-    %10:_(<4 x s32>) = G_AMDGPU_BUFFER_LOAD %4(<4 x s32>), %9(s32), %5, %9, 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
-    %11:_(s32) = G_CONSTANT i32 1
-    %12:_(s32), %13:_(s32), %14:_(s32), %15:_(s32) = G_UNMERGE_VALUES %10(<4 x s32>)
-    %16:_(s32) = G_ADD %13, %11
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:sgpr(s32) = COPY $sgpr1
+    %2:sgpr(s32) = COPY $sgpr2
+    %3:sgpr(s32) = COPY $sgpr3
+    %4:sgpr(<4 x s32>) = G_BUILD_VECTOR %0(s32), %1(s32), %2(s32), %3(s32)
+    %5:vgpr(s32) = COPY $vgpr0
+    %6:vgpr(s32) = COPY $vgpr1
+    %7:vgpr(s32) = COPY $vgpr2
+    %8:vgpr(p1) = G_MERGE_VALUES %6(s32), %7(s32)
+    %9:sgpr(s32) = G_CONSTANT i32 0
+    %10:vgpr(<4 x s32>) = G_AMDGPU_BUFFER_LOAD %4(<4 x s32>), %9(s32), %5, %9, 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
+    %11:sgpr(s32) = G_CONSTANT i32 1
+    %12:vgpr(s32), %13:vgpr(s32), %14:vgpr(s32), %15:vgpr(s32) = G_UNMERGE_VALUES %10(<4 x s32>)
+    %16:vgpr(s32) = G_ADD %13, %11
     G_STORE %16(s32), %8(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -163,28 +181,32 @@ body: |
     ; CHECK-LABEL: name: vgpr_and_i64
     ; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
-    ; CHECK-NEXT: [[MV1:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr4
-    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr5
-    ; CHECK-NEXT: [[MV2:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY4]](s32), [[COPY5]](s32)
-    ; CHECK-NEXT: [[AND:%[0-9]+]]:_(s64) = G_AND [[MV]], [[MV1]]
-    ; CHECK-NEXT: G_STORE [[AND]](s64), [[MV2]](p1) :: (store (s64), addrspace 1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+    ; CHECK-NEXT: [[MV1:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr4
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY $vgpr5
+    ; CHECK-NEXT: [[MV2:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY4]](s32), [[COPY5]](s32)
+    ; CHECK-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[MV]](s64)
+    ; CHECK-NEXT: [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[MV1]](s64)
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:vgpr(s32) = G_AND [[UV]], [[UV2]]
+    ; CHECK-NEXT: [[AND1:%[0-9]+]]:vgpr(s32) = G_AND [[UV1]], [[UV3]]
+    ; CHECK-NEXT: [[MV3:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[AND]](s32), [[AND1]](s32)
+    ; CHECK-NEXT: G_STORE [[MV3]](s64), [[MV2]](p1) :: (store (s64), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $vgpr0
-    %1:_(s32) = COPY $vgpr1
-    %2:_(s64) = G_MERGE_VALUES %0(s32), %1(s32)
-    %3:_(s32) = COPY $vgpr2
-    %4:_(s32) = COPY $vgpr3
-    %5:_(s64) = G_MERGE_VALUES %3(s32), %4(s32)
-    %6:_(s32) = COPY $vgpr4
-    %7:_(s32) = COPY $vgpr5
-    %8:_(p1) = G_MERGE_VALUES %6(s32), %7(s32)
-    %9:_(s64) = G_AND %2, %5
+    %0:vgpr(s32) = COPY $vgpr0
+    %1:vgpr(s32) = COPY $vgpr1
+    %2:vgpr(s64) = G_MERGE_VALUES %0(s32), %1(s32)
+    %3:vgpr(s32) = COPY $vgpr2
+    %4:vgpr(s32) = COPY $vgpr3
+    %5:vgpr(s64) = G_MERGE_VALUES %3(s32), %4(s32)
+    %6:vgpr(s32) = COPY $vgpr4
+    %7:vgpr(s32) = COPY $vgpr5
+    %8:vgpr(p1) = G_MERGE_VALUES %6(s32), %7(s32)
+    %9:vgpr(s64) = G_AND %2, %5
     G_STORE %9(s64), %8(p1) :: (store (s64), addrspace 1)
     S_ENDPGM 0
 ...
@@ -199,22 +221,25 @@ body: |
     ; CHECK-LABEL: name: abs_sgpr_i16
     ; CHECK: liveins: $sgpr0, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-    ; CHECK-NEXT: [[ABS:%[0-9]+]]:_(s16) = G_ABS [[TRUNC]]
-    ; CHECK-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[ABS]](s16)
-    ; CHECK-NEXT: G_STORE [[ANYEXT]](s32), [[MV]](p1) :: (store (s16), addrspace 1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s16) = G_TRUNC [[COPY]](s32)
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+    ; CHECK-NEXT: [[SEXT:%[0-9]+]]:sgpr(s32) = G_SEXT [[TRUNC]](s16)
+    ; CHECK-NEXT: [[ABS:%[0-9]+]]:sgpr(s32) = G_ABS [[SEXT]]
+    ; CHECK-NEXT: [[TRUNC1:%[0-9]+]]:sgpr(s16) = G_TRUNC [[ABS]](s32)
+    ; CHECK-NEXT: [[ANYEXT:%[0-9]+]]:sgpr(s32) = G_ANYEXT [[TRUNC1]](s16)
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[ANYEXT]](s32)
+    ; CHECK-NEXT: G_STORE [[COPY3]](s32), [[MV]](p1) :: (store (s16), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s16) = G_TRUNC %0(s32)
-    %2:_(s32) = COPY $vgpr0
-    %3:_(s32) = COPY $vgpr1
-    %4:_(p1) = G_MERGE_VALUES %2(s32), %3(s32)
-    %5:_(s16) = G_ABS %1
-    %6:_(s32) = G_ANYEXT %5(s16)
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:sgpr(s16) = G_TRUNC %0(s32)
+    %2:vgpr(s32) = COPY $vgpr0
+    %3:vgpr(s32) = COPY $vgpr1
+    %4:vgpr(p1) = G_MERGE_VALUES %2(s32), %3(s32)
+    %5:sgpr(s16) = G_ABS %1
+    %6:sgpr(s32) = G_ANYEXT %5(s16)
     G_STORE %6(s32), %4(p1) :: (store (s16), addrspace 1)
     S_ENDPGM 0
 ...
@@ -229,58 +254,65 @@ body: |
   ; CHECK-NEXT:   successors: %bb.1(0x30000000), %bb.2(0x50000000)
   ; CHECK-NEXT:   liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-  ; CHECK-NEXT:   [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
-  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr0
-  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:_(s32) = COPY $sgpr1
-  ; CHECK-NEXT:   [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 6
-  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY2]](s32), [[C]]
-  ; CHECK-NEXT:   [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-  ; CHECK-NEXT:   [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY3]](s32), [[C1]]
-  ; CHECK-NEXT:   G_BRCOND [[ICMP1]](s1), %bb.2
+  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+  ; CHECK-NEXT:   [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
+  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+  ; CHECK-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 6
+  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(uge), [[COPY2]](s32), [[C]]
+  ; CHECK-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[ICMP1:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(ne), [[COPY3]](s32), [[C1]]
+  ; CHECK-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP1]], [[C2]]
+  ; CHECK-NEXT:   G_BRCOND [[AND]](s32), %bb.2
   ; CHECK-NEXT:   G_BR %bb.1
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-  ; CHECK-NEXT:   [[ICMP2:%[0-9]+]]:_(s1) = G_ICMP intpred(ult), [[COPY2]](s32), [[C2]]
+  ; CHECK-NEXT:   [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[ICMP2:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(ult), [[COPY2]](s32), [[C3]]
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.2:
-  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:_(s1) = G_PHI [[ICMP]](s1), %bb.0, [[ICMP2]](s1), %bb.1
-  ; CHECK-NEXT:   [[SEXT:%[0-9]+]]:_(s32) = G_SEXT [[PHI]](s1)
-  ; CHECK-NEXT:   [[C3:%[0-9]+]]:_(s32) = G_CONSTANT i32 2
-  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:_(s32) = G_ADD [[SEXT]], [[C3]]
-  ; CHECK-NEXT:   G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:sgpr(s32) = G_PHI [[ICMP]](s32), %bb.0, [[ICMP2]](s32), %bb.1
+  ; CHECK-NEXT:   [[C4:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[AND1:%[0-9]+]]:sgpr(s32) = G_AND [[PHI]], [[C4]]
+  ; CHECK-NEXT:   [[C5:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 -1
+  ; CHECK-NEXT:   [[C6:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND1]](s32), [[C5]], [[C6]]
+  ; CHECK-NEXT:   [[C7:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
+  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[SELECT]], [[C7]]
+  ; CHECK-NEXT:   [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+  ; CHECK-NEXT:   G_STORE [[COPY4]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
   ; CHECK-NEXT:   S_ENDPGM 0
   bb.0:
     successors: %bb.1(0x30000000), %bb.2(0x50000000)
     liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
 
-    %0:_(s32) = COPY $vgpr0
-    %1:_(s32) = COPY $vgpr1
-    %2:_(p1) = G_MERGE_VALUES %0(s32), %1(s32)
-    %3:_(s32) = COPY $sgpr0
-    %4:_(s32) = COPY $sgpr1
-    %5:_(s32) = G_CONSTANT i32 6
-    %6:_(s1) = G_ICMP intpred(uge), %3(s32), %5
-    %7:_(s32) = G_CONSTANT i32 0
-    %8:_(s1) = G_ICMP intpred(ne), %4(s32), %7
+    %0:vgpr(s32) = COPY $vgpr0
+    %1:vgpr(s32) = COPY $vgpr1
+    %2:vgpr(p1) = G_MERGE_VALUES %0(s32), %1(s32)
+    %3:sgpr(s32) = COPY $sgpr0
+    %4:sgpr(s32) = COPY $sgpr1
+    %5:sgpr(s32) = G_CONSTANT i32 6
+    %6:sgpr(s1) = G_ICMP intpred(uge), %3(s32), %5
+    %7:sgpr(s32) = G_CONSTANT i32 0
+    %8:sgpr(s1) = G_ICMP intpred(ne), %4(s32), %7
     G_BRCOND %8(s1), %bb.2
     G_BR %bb.1
 
   bb.1:
     successors: %bb.2(0x80000000)
 
-    %9:_(s32) = G_CONSTANT i32 1
-    %10:_(s1) = G_ICMP intpred(ult), %3(s32), %9
+    %9:sgpr(s32) = G_CONSTANT i32 1
+    %10:sgpr(s1) = G_ICMP intpred(ult), %3(s32), %9
 
   bb.2:
-    %11:_(s1) = G_PHI %6(s1), %bb.0, %10(s1), %bb.1
-    %12:_(s32) = G_SEXT %11(s1)
-    %13:_(s32) = G_CONSTANT i32 2
-    %14:_(s32) = G_ADD %12, %13
+    %11:sgpr(s1) = G_PHI %6(s1), %bb.0, %10(s1), %bb.1
+    %12:sgpr(s32) = G_SEXT %11(s1)
+    %13:sgpr(s32) = G_CONSTANT i32 2
+    %14:sgpr(s32) = G_ADD %12, %13
     G_STORE %14(s32), %2(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -295,26 +327,32 @@ body: |
     ; CHECK-LABEL: name: vcc_to_scc
     ; CHECK: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_FCONSTANT float 0.000000e+00
-    ; CHECK-NEXT: [[FCMP:%[0-9]+]]:_(s1) = G_FCMP floatpred(oeq), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[FCMP]](s1), [[COPY1]], [[COPY2]]
-    ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_FCONSTANT float 0.000000e+00
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
+    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
+    ; CHECK-NEXT: [[FCMP:%[0-9]+]]:vcc(s1) = G_FCMP floatpred(oeq), [[COPY5]](s32), [[COPY6]]
+    ; CHECK-NEXT: [[AMDGPU_COPY_SCC_VCC:%[0-9]+]]:sgpr(s32) = G_AMDGPU_COPY_SCC_VCC [[FCMP]](s1)
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[AMDGPU_COPY_SCC_VCC]], [[C1]]
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND]](s32), [[COPY1]], [[COPY2]]
+    ; CHECK-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[SELECT]](s32)
+    ; CHECK-NEXT: G_STORE [[COPY7]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s32) = COPY $sgpr1
-    %2:_(s32) = COPY $sgpr2
-    %3:_(s32) = COPY $vgpr0
-    %4:_(s32) = COPY $vgpr1
-    %5:_(p1) = G_MERGE_VALUES %3(s32), %4(s32)
-    %6:_(s32) = G_FCONSTANT float 0.000000e+00
-    %7:_(s1) = G_FCMP floatpred(oeq), %0(s32), %6
-    %8:_(s32) = G_SELECT %7(s1), %1, %2
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:sgpr(s32) = COPY $sgpr1
+    %2:sgpr(s32) = COPY $sgpr2
+    %3:vgpr(s32) = COPY $vgpr0
+    %4:vgpr(s32) = COPY $vgpr1
+    %5:vgpr(p1) = G_MERGE_VALUES %3(s32), %4(s32)
+    %6:sgpr(s32) = G_FCONSTANT float 0.000000e+00
+    %7:sgpr(s1) = G_FCMP floatpred(oeq), %0(s32), %6
+    %8:sgpr(s32) = G_SELECT %7(s1), %1, %2
     G_STORE %8(s32), %5(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -329,26 +367,27 @@ body: |
     ; CHECK-LABEL: name: scc_to_vcc
     ; CHECK: liveins: $sgpr0, $vgpr0, $vgpr1, $vgpr2, $vgpr3
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr3
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[ICMP]](s1), [[COPY1]], [[COPY2]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[AMDGPU_COPY_VCC_SCC:%[0-9]+]]:vcc(s1) = G_AMDGPU_COPY_VCC_SCC [[ICMP]](s32)
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[AMDGPU_COPY_VCC_SCC]](s1), [[COPY1]], [[COPY2]]
     ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s32) = COPY $vgpr0
-    %2:_(s32) = COPY $vgpr1
-    %3:_(s32) = COPY $vgpr2
-    %4:_(s32) = COPY $vgpr3
-    %5:_(p1) = G_MERGE_VALUES %3(s32), %4(s32)
-    %6:_(s32) = G_CONSTANT i32 0
-    %7:_(s1) = G_ICMP intpred(eq), %0(s32), %6
-    %8:_(s32) = G_SELECT %7(s1), %1, %2
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:vgpr(s32) = COPY $vgpr0
+    %2:vgpr(s32) = COPY $vgpr1
+    %3:vgpr(s32) = COPY $vgpr2
+    %4:vgpr(s32) = COPY $vgpr3
+    %5:vgpr(p1) = G_MERGE_VALUES %3(s32), %4(s32)
+    %6:sgpr(s32) = G_CONSTANT i32 0
+    %7:sgpr(s1) = G_ICMP intpred(eq), %0(s32), %6
+    %8:vgpr(s32) = G_SELECT %7(s1), %1, %2
     G_STORE %8(s32), %5(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -363,24 +402,27 @@ body: |
     ; CHECK-LABEL: name: vgpr_to_vcc_trunc
     ; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr4
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
-    ; CHECK-NEXT: [[TRUNC:%[0-9]+]]:_(s1) = G_TRUNC [[COPY]](s32)
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[TRUNC]](s1), [[COPY1]], [[COPY2]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr4
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 1
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:vgpr(s32) = G_AND [[COPY]], [[C]]
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(ne), [[AND]](s32), [[C1]]
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP]](s1), [[COPY1]], [[COPY2]]
     ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $vgpr0
-    %1:_(s32) = COPY $vgpr1
-    %2:_(s32) = COPY $vgpr2
-    %3:_(s32) = COPY $vgpr3
-    %4:_(s32) = COPY $vgpr4
-    %5:_(p1) = G_MERGE_VALUES %3(s32), %4(s32)
-    %6:_(s1) = G_TRUNC %0(s32)
-    %7:_(s32) = G_SELECT %6(s1), %1, %2
+    %0:vgpr(s32) = COPY $vgpr0
+    %1:vgpr(s32) = COPY $vgpr1
+    %2:vgpr(s32) = COPY $vgpr2
+    %3:vgpr(s32) = COPY $vgpr3
+    %4:vgpr(s32) = COPY $vgpr4
+    %5:vgpr(p1) = G_MERGE_VALUES %3(s32), %4(s32)
+    %6:vcc(s1) = G_TRUNC %0(s32)
+    %7:vgpr(s32) = G_SELECT %6(s1), %1, %2
     G_STORE %7(s32), %5(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -395,22 +437,26 @@ body: |
     ; CHECK-LABEL: name: zext
     ; CHECK: liveins: $sgpr0, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[ZEXT:%[0-9]+]]:_(s32) = G_ZEXT [[ICMP]](s1)
-    ; CHECK-NEXT: G_STORE [[ZEXT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP]], [[C1]]
+    ; CHECK-NEXT: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND]](s32), [[C1]], [[C2]]
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[SELECT]](s32)
+    ; CHECK-NEXT: G_STORE [[COPY3]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s32) = COPY $vgpr0
-    %2:_(s32) = COPY $vgpr1
-    %3:_(p1) = G_MERGE_VALUES %1(s32), %2(s32)
-    %4:_(s32) = G_CONSTANT i32 10
-    %5:_(s1) = G_ICMP intpred(eq), %0(s32), %4
-    %6:_(s32) = G_ZEXT %5(s1)
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:vgpr(s32) = COPY $vgpr0
+    %2:vgpr(s32) = COPY $vgpr1
+    %3:vgpr(p1) = G_MERGE_VALUES %1(s32), %2(s32)
+    %4:sgpr(s32) = G_CONSTANT i32 10
+    %5:sgpr(s1) = G_ICMP intpred(eq), %0(s32), %4
+    %6:sgpr(s32) = G_ZEXT %5(s1)
     G_STORE %6(s32), %3(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -425,22 +471,27 @@ body: |
     ; CHECK-LABEL: name: sext
     ; CHECK: liveins: $sgpr0, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[SEXT:%[0-9]+]]:_(s32) = G_SEXT [[ICMP]](s1)
-    ; CHECK-NEXT: G_STORE [[SEXT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP]], [[C1]]
+    ; CHECK-NEXT: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 -1
+    ; CHECK-NEXT: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND]](s32), [[C2]], [[C3]]
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[SELECT]](s32)
+    ; CHECK-NEXT: G_STORE [[COPY3]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s32) = COPY $vgpr0
-    %2:_(s32) = COPY $vgpr1
-    %3:_(p1) = G_MERGE_VALUES %1(s32), %2(s32)
-    %4:_(s32) = G_CONSTANT i32 10
-    %5:_(s1) = G_ICMP intpred(eq), %0(s32), %4
-    %6:_(s32) = G_SEXT %5(s1)
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:vgpr(s32) = COPY $vgpr0
+    %2:vgpr(s32) = COPY $vgpr1
+    %3:vgpr(p1) = G_MERGE_VALUES %1(s32), %2(s32)
+    %4:sgpr(s32) = G_CONSTANT i32 10
+    %5:sgpr(s1) = G_ICMP intpred(eq), %0(s32), %4
+    %6:sgpr(s32) = G_SEXT %5(s1)
     G_STORE %6(s32), %3(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -455,30 +506,32 @@ body: |
     ; CHECK-LABEL: name: and_i1_vcc
     ; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 20
-    ; CHECK-NEXT: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY1]](s32), [[C1]]
-    ; CHECK-NEXT: [[AND:%[0-9]+]]:_(s1) = G_AND [[ICMP]], [[ICMP1]]
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[AND]](s1), [[COPY]], [[COPY1]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(uge), [[COPY]](s32), [[COPY4]]
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 20
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[C1]](s32)
+    ; CHECK-NEXT: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(uge), [[COPY1]](s32), [[COPY5]]
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:vcc(s1) = G_AND [[ICMP]], [[ICMP1]]
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[AND]](s1), [[COPY]], [[COPY1]]
     ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $vgpr0
-    %1:_(s32) = COPY $vgpr1
-    %2:_(s32) = COPY $vgpr2
-    %3:_(s32) = COPY $vgpr3
-    %4:_(p1) = G_MERGE_VALUES %2(s32), %3(s32)
-    %5:_(s32) = G_CONSTANT i32 10
-    %6:_(s1) = G_ICMP intpred(uge), %0(s32), %5
-    %7:_(s32) = G_CONSTANT i32 20
-    %8:_(s1) = G_ICMP intpred(uge), %1(s32), %7
-    %9:_(s1) = G_AND %6, %8
-    %10:_(s32) = G_SELECT %9(s1), %0, %1
+    %0:vgpr(s32) = COPY $vgpr0
+    %1:vgpr(s32) = COPY $vgpr1
+    %2:vgpr(s32) = COPY $vgpr2
+    %3:vgpr(s32) = COPY $vgpr3
+    %4:vgpr(p1) = G_MERGE_VALUES %2(s32), %3(s32)
+    %5:sgpr(s32) = G_CONSTANT i32 10
+    %6:vcc(s1) = G_ICMP intpred(uge), %0(s32), %5
+    %7:sgpr(s32) = G_CONSTANT i32 20
+    %8:vcc(s1) = G_ICMP intpred(uge), %1(s32), %7
+    %9:vcc(s1) = G_AND %6, %8
+    %10:vgpr(s32) = G_SELECT %9(s1), %0, %1
     G_STORE %10(s32), %4(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -493,30 +546,33 @@ body: |
     ; CHECK-LABEL: name: and_i1_scc
     ; CHECK: liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 20
-    ; CHECK-NEXT: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY1]](s32), [[C1]]
-    ; CHECK-NEXT: [[AND:%[0-9]+]]:_(s1) = G_AND [[ICMP]], [[ICMP1]]
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[AND]](s1), [[COPY]], [[COPY1]]
-    ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(uge), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 20
+    ; CHECK-NEXT: [[ICMP1:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(uge), [[COPY1]](s32), [[C1]]
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP]], [[ICMP1]]
+    ; CHECK-NEXT: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; CHECK-NEXT: [[AND1:%[0-9]+]]:sgpr(s32) = G_AND [[AND]], [[C2]]
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND1]](s32), [[COPY]], [[COPY1]]
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[SELECT]](s32)
+    ; CHECK-NEXT: G_STORE [[COPY4]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
-    %0:_(s32) = COPY $sgpr0
-    %1:_(s32) = COPY $sgpr1
-    %2:_(s32) = COPY $vgpr0
-    %3:_(s32) = COPY $vgpr1
-    %4:_(p1) = G_MERGE_VALUES %2(s32), %3(s32)
-    %5:_(s32) = G_CONSTANT i32 10
-    %6:_(s1) = G_ICMP intpred(uge), %0(s32), %5
-    %7:_(s32) = G_CONSTANT i32 20
-    %8:_(s1) = G_ICMP intpred(uge), %1(s32), %7
-    %9:_(s1) = G_AND %6, %8
-    %10:_(s32) = G_SELECT %9(s1), %0, %1
+    %0:sgpr(s32) = COPY $sgpr0
+    %1:sgpr(s32) = COPY $sgpr1
+    %2:vgpr(s32) = COPY $vgpr0
+    %3:vgpr(s32) = COPY $vgpr1
+    %4:vgpr(p1) = G_MERGE_VALUES %2(s32), %3(s32)
+    %5:sgpr(s32) = G_CONSTANT i32 10
+    %6:sgpr(s1) = G_ICMP intpred(uge), %0(s32), %5
+    %7:sgpr(s32) = G_CONSTANT i32 20
+    %8:sgpr(s1) = G_ICMP intpred(uge), %1(s32), %7
+    %9:sgpr(s1) = G_AND %6, %8
+    %10:sgpr(s32) = G_SELECT %9(s1), %0, %1
     G_STORE %10(s32), %4(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -531,46 +587,51 @@ body: |
   ; CHECK-NEXT:   successors: %bb.1(0x40000000), %bb.2(0x40000000)
   ; CHECK-NEXT:   liveins: $vgpr0, $vgpr1, $vgpr2
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-  ; CHECK-NEXT:   [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-  ; CHECK-NEXT:   [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:sreg_32_xm0_xexec(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-  ; CHECK-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[ICMP]](s1), %bb.2, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+  ; CHECK-NEXT:   [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+  ; CHECK-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
+  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[COPY3]]
+  ; CHECK-NEXT:   [[COPY4:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[ICMP]](s1)
+  ; CHECK-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY4]](s1), %bb.2, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.1
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.2:
-  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:_(s32) = G_PHI [[C]](s32), %bb.0, [[C1]](s32), %bb.1
-  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[SI_IF]](s32)
+  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:vgpr(s32) = G_PHI [[C]](s32), %bb.0, [[C1]](s32), %bb.1
+  ; CHECK-NEXT:   [[COPY5:%[0-9]+]]:sgpr(s32) = COPY [[SI_IF]](s32)
+  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[COPY5]](s32)
   ; CHECK-NEXT:   G_STORE [[PHI]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
   ; CHECK-NEXT:   S_ENDPGM 0
   bb.0:
     successors: %bb.1(0x40000000), %bb.2(0x40000000)
     liveins: $vgpr0, $vgpr1, $vgpr2
 
-    %0:_(s32) = COPY $vgpr0
-    %1:_(s32) = COPY $vgpr1
-    %2:_(s32) = COPY $vgpr2
-    %3:_(p1) = G_MERGE_VALUES %1(s32), %2(s32)
-    %4:_(s32) = G_CONSTANT i32 0
-    %5:sreg_32_xm0_xexec(s1) = G_ICMP intpred(eq), %0(s32), %4
+    %0:vgpr(s32) = COPY $vgpr0
+    %1:vgpr(s32) = COPY $vgpr1
+    %2:vgpr(s32) = COPY $vgpr2
+    %3:vgpr(p1) = G_MERGE_VALUES %1(s32), %2(s32)
+    %4:sgpr(s32) = G_CONSTANT i32 0
+    %9:vcc(s1) = G_ICMP intpred(eq), %0(s32), %4
+    %5:sreg_32_xm0_xexec(s1) = COPY %9(s1)
     %6:sreg_32_xm0_xexec(s32) = SI_IF %5(s1), %bb.2, implicit-def $exec, implicit-def $scc, implicit $exec
     G_BR %bb.1
 
   bb.1:
     successors: %bb.2(0x80000000)
 
-    %7:_(s32) = G_CONSTANT i32 1
+    %7:sgpr(s32) = G_CONSTANT i32 1
 
   bb.2:
-    %8:_(s32) = G_PHI %4(s32), %bb.0, %7(s32), %bb.1
-    G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %6(s32)
+    %8:vgpr(s32) = G_PHI %4(s32), %bb.0, %7(s32), %bb.1
+    %10:sgpr(s32) = COPY %6(s32)
+    G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %10(s32)
     G_STORE %8(s32), %3(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -585,64 +646,68 @@ body: |
   ; CHECK-NEXT:   successors: %bb.1(0x80000000)
   ; CHECK-NEXT:   liveins: $vgpr0, $vgpr1, $vgpr2
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-  ; CHECK-NEXT:   [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-  ; CHECK-NEXT:   [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 -1
-  ; CHECK-NEXT:   [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+  ; CHECK-NEXT:   [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+  ; CHECK-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 -1
+  ; CHECK-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x04000000), %bb.1(0x7c000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:_(s32) = G_PHI %7(s32), %bb.1, [[C1]](s32), %bb.0
-  ; CHECK-NEXT:   [[PHI1:%[0-9]+]]:_(s32) = G_PHI [[C]](s32), %bb.0, %9(s32), %bb.1
-  ; CHECK-NEXT:   [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:_(s32) = G_ADD [[PHI1]], [[C2]]
-  ; CHECK-NEXT:   [[UITOFP:%[0-9]+]]:_(s32) = G_UITOFP [[ADD]](s32)
-  ; CHECK-NEXT:   [[FCMP:%[0-9]+]]:_(s1) = G_FCMP floatpred(ogt), [[UITOFP]](s32), [[COPY]]
-  ; CHECK-NEXT:   [[INT:%[0-9]+]]:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[FCMP]](s1), [[PHI]](s32)
-  ; CHECK-NEXT:   SI_LOOP [[INT]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:sgpr(s32) = G_PHI %7(s32), %bb.1, [[C1]](s32), %bb.0
+  ; CHECK-NEXT:   [[PHI1:%[0-9]+]]:sgpr(s32) = G_PHI [[C]](s32), %bb.0, %9(s32), %bb.1
+  ; CHECK-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[PHI1]], [[C2]]
+  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+  ; CHECK-NEXT:   [[UITOFP:%[0-9]+]]:vgpr(s32) = G_UITOFP [[COPY3]](s32)
+  ; CHECK-NEXT:   [[FCMP:%[0-9]+]]:vcc(s1) = G_FCMP floatpred(ogt), [[UITOFP]](s32), [[COPY]]
+  ; CHECK-NEXT:   [[INT:%[0-9]+]]:sgpr(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[FCMP]](s1), [[PHI]](s32)
+  ; CHECK-NEXT:   [[COPY4:%[0-9]+]]:sreg_32_xm0_xexec(s32) = COPY [[INT]](s32)
+  ; CHECK-NEXT:   SI_LOOP [[COPY4]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.2
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.2:
-  ; CHECK-NEXT:   [[PHI2:%[0-9]+]]:_(s32) = G_PHI [[ADD]](s32), %bb.1
-  ; CHECK-NEXT:   [[PHI3:%[0-9]+]]:_(s32) = G_PHI [[INT]](s32), %bb.1
+  ; CHECK-NEXT:   [[PHI2:%[0-9]+]]:vgpr(s32) = G_PHI [[ADD]](s32), %bb.1
+  ; CHECK-NEXT:   [[PHI3:%[0-9]+]]:sgpr(s32) = G_PHI [[INT]](s32), %bb.1
   ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[PHI3]](s32)
-  ; CHECK-NEXT:   [[C3:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-  ; CHECK-NEXT:   [[MUL:%[0-9]+]]:_(s32) = G_MUL [[PHI2]], [[C3]]
+  ; CHECK-NEXT:   [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+  ; CHECK-NEXT:   [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[C3]](s32)
+  ; CHECK-NEXT:   [[MUL:%[0-9]+]]:vgpr(s32) = G_MUL [[PHI2]], [[COPY5]]
   ; CHECK-NEXT:   G_STORE [[MUL]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
   ; CHECK-NEXT:   S_ENDPGM 0
   bb.0:
     successors: %bb.1(0x80000000)
     liveins: $vgpr0, $vgpr1, $vgpr2
 
-    %0:_(s32) = COPY $vgpr0
-    %1:_(s32) = COPY $vgpr1
-    %2:_(s32) = COPY $vgpr2
-    %3:_(p1) = G_MERGE_VALUES %1(s32), %2(s32)
-    %4:_(s32) = G_CONSTANT i32 -1
-    %5:_(s32) = G_CONSTANT i32 0
+    %0:vgpr(s32) = COPY $vgpr0
+    %1:vgpr(s32) = COPY $vgpr1
+    %2:vgpr(s32) = COPY $vgpr2
+    %3:vgpr(p1) = G_MERGE_VALUES %1(s32), %2(s32)
+    %4:sgpr(s32) = G_CONSTANT i32 -1
+    %5:sgpr(s32) = G_CONSTANT i32 0
 
   bb.1:
     successors: %bb.2(0x04000000), %bb.1(0x7c000000)
 
-    %6:_(s32) = G_PHI %7(s32), %bb.1, %5(s32), %bb.0
-    %8:_(s32) = G_PHI %4(s32), %bb.0, %9(s32), %bb.1
-    %10:_(s32) = G_CONSTANT i32 1
-    %9:_(s32) = G_ADD %8, %10
-    %11:_(s32) = G_UITOFP %9(s32)
-    %12:_(s1) = G_FCMP floatpred(ogt), %11(s32), %0
-    %7:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), %12(s1), %6(s32)
+    %6:sgpr(s32) = G_PHI %17(s32), %bb.1, %5(s32), %bb.0
+    %8:sgpr(s32) = G_PHI %4(s32), %bb.0, %9(s32), %bb.1
+    %10:sgpr(s32) = G_CONSTANT i32 1
+    %9:sgpr(s32) = G_ADD %8, %10
+    %11:sgpr(s32) = G_UITOFP %9(s32)
+    %12:vcc(s1) = G_FCMP floatpred(ogt), %11(s32), %0
+    %17:sgpr(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), %12(s1), %6(s32)
+    %7:sreg_32_xm0_xexec(s32) = COPY %17(s32)
     SI_LOOP %7(s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
     G_BR %bb.2
 
   bb.2:
-    %13:_(s32) = G_PHI %9(s32), %bb.1
-    %14:_(s32) = G_PHI %7(s32), %bb.1
+    %13:vgpr(s32) = G_PHI %9(s32), %bb.1
+    %14:sgpr(s32) = G_PHI %17(s32), %bb.1
     G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %14(s32)
-    %15:_(s32) = G_CONSTANT i32 10
-    %16:_(s32) = G_MUL %13, %15
+    %15:sgpr(s32) = G_CONSTANT i32 10
+    %16:vgpr(s32) = G_MUL %13, %15
     G_STORE %16(s32), %3(p1) :: (store (s32), addrspace 1)
     S_ENDPGM 0
 ...
@@ -657,202 +722,223 @@ body: |
   ; CHECK-NEXT:   successors: %bb.1(0x80000000)
   ; CHECK-NEXT:   liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-  ; CHECK-NEXT:   [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
-  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
-  ; CHECK-NEXT:   [[MV1:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-  ; CHECK-NEXT:   [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr4
-  ; CHECK-NEXT:   [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr5
-  ; CHECK-NEXT:   [[MV2:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY4]](s32), [[COPY5]](s32)
-  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:_(s32) = G_IMPLICIT_DEF
-  ; CHECK-NEXT:   [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+  ; CHECK-NEXT:   [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
+  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+  ; CHECK-NEXT:   [[MV1:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+  ; CHECK-NEXT:   [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr4
+  ; CHECK-NEXT:   [[COPY5:%[0-9]+]]:vgpr(s32) = COPY $vgpr5
+  ; CHECK-NEXT:   [[MV2:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY4]](s32), [[COPY5]](s32)
+  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
+  ; CHECK-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
   ; CHECK-NEXT:   [[DEF1:%[0-9]+]]:sreg_32(s1) = IMPLICIT_DEF
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT:   [[PHI:%[0-9]+]]:sreg_32(s1) = PHI [[DEF1]](s1), %bb.0, %13(s1), %bb.3
-  ; CHECK-NEXT:   [[PHI1:%[0-9]+]]:_(s32) = G_PHI %15(s32), %bb.3, [[C]](s32), %bb.0
-  ; CHECK-NEXT:   [[PHI2:%[0-9]+]]:_(s32) = G_PHI [[C]](s32), %bb.0, %17(s32), %bb.3
+  ; CHECK-NEXT:   [[PHI1:%[0-9]+]]:sgpr(s32) = G_PHI %15(s32), %bb.3, [[C]](s32), %bb.0
+  ; CHECK-NEXT:   [[PHI2:%[0-9]+]]:sgpr(s32) = G_PHI [[C]](s32), %bb.0, %17(s32), %bb.3
   ; CHECK-NEXT:   [[COPY6:%[0-9]+]]:sreg_32(s1) = COPY [[PHI]](s1)
-  ; CHECK-NEXT:   [[SEXT:%[0-9]+]]:_(s64) = G_SEXT [[PHI2]](s32)
-  ; CHECK-NEXT:   [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 2
-  ; CHECK-NEXT:   [[SHL:%[0-9]+]]:_(s64) = G_SHL [[SEXT]], [[C1]](s32)
-  ; CHECK-NEXT:   [[PTR_ADD:%[0-9]+]]:_(p1) = G_PTR_ADD [[MV1]], [[SHL]](s64)
-  ; CHECK-NEXT:   [[LOAD:%[0-9]+]]:_(s32) = G_LOAD [[PTR_ADD]](p1) :: (load (s32), addrspace 1)
-  ; CHECK-NEXT:   [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:sreg_32_xm0_xexec(s1) = G_ICMP intpred(ne), [[LOAD]](s32), [[C2]]
-  ; CHECK-NEXT:   [[C3:%[0-9]+]]:_(s1) = G_CONSTANT i1 true
-  ; CHECK-NEXT:   [[COPY7:%[0-9]+]]:sreg_32(s1) = COPY [[C3]](s1)
+  ; CHECK-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 31
+  ; CHECK-NEXT:   [[ASHR:%[0-9]+]]:sgpr(s32) = G_ASHR [[PHI2]], [[C1]](s32)
+  ; CHECK-NEXT:   [[MV3:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[PHI2]](s32), [[ASHR]](s32)
+  ; CHECK-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
+  ; CHECK-NEXT:   [[SHL:%[0-9]+]]:sgpr(s64) = G_SHL [[MV3]], [[C2]](s32)
+  ; CHECK-NEXT:   [[COPY7:%[0-9]+]]:vgpr(s64) = COPY [[SHL]](s64)
+  ; CHECK-NEXT:   [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV1]], [[COPY7]](s64)
+  ; CHECK-NEXT:   [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[PTR_ADD]](p1) :: (load (s32), addrspace 1)
+  ; CHECK-NEXT:   [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[COPY8:%[0-9]+]]:vgpr(s32) = COPY [[C3]](s32)
+  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(ne), [[LOAD]](s32), [[COPY8]]
+  ; CHECK-NEXT:   [[COPY9:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[ICMP]](s1)
+  ; CHECK-NEXT:   [[C4:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[AMDGPU_COPY_VCC_SCC:%[0-9]+]]:sreg_32(s1) = G_AMDGPU_COPY_VCC_SCC [[C4]](s32)
   ; CHECK-NEXT:   [[S_ANDN2_B32_:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY6]](s1), $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY7]](s1), implicit-def $scc
+  ; CHECK-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[AMDGPU_COPY_VCC_SCC]](s1), implicit-def $scc
   ; CHECK-NEXT:   [[S_OR_B32_:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_]](s1), [[S_AND_B32_]](s1), implicit-def $scc
-  ; CHECK-NEXT:   [[COPY8:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_]](s1)
-  ; CHECK-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[ICMP]](s1), %bb.3, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[COPY10:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_]](s1)
+  ; CHECK-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY9]](s1), %bb.3, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.2
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.2:
   ; CHECK-NEXT:   successors: %bb.4(0x40000000), %bb.5(0x40000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[C4:%[0-9]+]]:_(s32) = G_CONSTANT i32 2
-  ; CHECK-NEXT:   [[SHL1:%[0-9]+]]:_(s64) = G_SHL [[SEXT]], [[C4]](s32)
-  ; CHECK-NEXT:   [[PTR_ADD1:%[0-9]+]]:_(p1) = G_PTR_ADD [[MV2]], [[SHL1]](s64)
-  ; CHECK-NEXT:   [[LOAD1:%[0-9]+]]:_(s32) = G_LOAD [[PTR_ADD1]](p1) :: (load (s32), addrspace 1)
-  ; CHECK-NEXT:   [[C5:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-  ; CHECK-NEXT:   [[ICMP1:%[0-9]+]]:sreg_32_xm0_xexec(s1) = G_ICMP intpred(ne), [[LOAD1]](s32), [[C5]]
-  ; CHECK-NEXT:   [[C6:%[0-9]+]]:_(s1) = G_CONSTANT i1 true
-  ; CHECK-NEXT:   [[COPY9:%[0-9]+]]:sreg_32(s1) = COPY [[C6]](s1)
-  ; CHECK-NEXT:   [[COPY10:%[0-9]+]]:sreg_32(s1) = COPY [[COPY9]](s1)
-  ; CHECK-NEXT:   [[SI_IF1:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[ICMP1]](s1), %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[C5:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
+  ; CHECK-NEXT:   [[SHL1:%[0-9]+]]:sgpr(s64) = G_SHL [[MV3]], [[C5]](s32)
+  ; CHECK-NEXT:   [[COPY11:%[0-9]+]]:vgpr(s64) = COPY [[SHL1]](s64)
+  ; CHECK-NEXT:   [[PTR_ADD1:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV2]], [[COPY11]](s64)
+  ; CHECK-NEXT:   [[LOAD1:%[0-9]+]]:vgpr(s32) = G_LOAD [[PTR_ADD1]](p1) :: (load (s32), addrspace 1)
+  ; CHECK-NEXT:   [[C6:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[COPY12:%[0-9]+]]:vgpr(s32) = COPY [[C6]](s32)
+  ; CHECK-NEXT:   [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(ne), [[LOAD1]](s32), [[COPY12]]
+  ; CHECK-NEXT:   [[COPY13:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[ICMP1]](s1)
+  ; CHECK-NEXT:   [[C7:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[AMDGPU_COPY_VCC_SCC1:%[0-9]+]]:sreg_32(s1) = G_AMDGPU_COPY_VCC_SCC [[C7]](s32)
+  ; CHECK-NEXT:   [[COPY14:%[0-9]+]]:sreg_32(s1) = COPY [[AMDGPU_COPY_VCC_SCC1]](s1)
+  ; CHECK-NEXT:   [[SI_IF1:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY13]](s1), %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.4
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.3:
   ; CHECK-NEXT:   successors: %bb.6(0x04000000), %bb.1(0x7c000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[PHI3:%[0-9]+]]:sreg_32(s1) = PHI [[S_OR_B32_]](s1), %bb.1, %43(s1), %bb.5
-  ; CHECK-NEXT:   [[PHI4:%[0-9]+]]:_(s32) = G_PHI %44(s32), %bb.5, [[DEF]](s32), %bb.1
-  ; CHECK-NEXT:   [[COPY11:%[0-9]+]]:sreg_32(s1) = COPY [[PHI3]](s1)
-  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[SI_IF]](s32)
-  ; CHECK-NEXT:   [[INT:%[0-9]+]]:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[COPY11]](s1), [[PHI1]](s32)
-  ; CHECK-NEXT:   SI_LOOP [[INT]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[PHI3:%[0-9]+]]:sreg_32(s1) = PHI [[S_OR_B32_]](s1), %bb.1, %45(s1), %bb.5
+  ; CHECK-NEXT:   [[PHI4:%[0-9]+]]:sgpr(s32) = G_PHI %46(s32), %bb.5, [[DEF]](s32), %bb.1
+  ; CHECK-NEXT:   [[COPY15:%[0-9]+]]:sreg_32(s1) = COPY [[PHI3]](s1)
+  ; CHECK-NEXT:   [[COPY16:%[0-9]+]]:sgpr(s32) = COPY [[SI_IF]](s32)
+  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[COPY16]](s32)
+  ; CHECK-NEXT:   [[COPY17:%[0-9]+]]:vcc(s1) = COPY [[COPY15]](s1)
+  ; CHECK-NEXT:   [[INT:%[0-9]+]]:sgpr(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[COPY17]](s1), [[PHI1]](s32)
+  ; CHECK-NEXT:   [[COPY18:%[0-9]+]]:sreg_32_xm0_xexec(s32) = COPY [[INT]](s32)
+  ; CHECK-NEXT:   SI_LOOP [[COPY18]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.6
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.4:
   ; CHECK-NEXT:   successors: %bb.5(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[C7:%[0-9]+]]:_(s32) = G_CONSTANT i32 2
-  ; CHECK-NEXT:   [[SHL2:%[0-9]+]]:_(s64) = G_SHL [[SEXT]], [[C7]](s32)
-  ; CHECK-NEXT:   [[PTR_ADD2:%[0-9]+]]:_(p1) = G_PTR_ADD [[MV]], [[SHL2]](s64)
-  ; CHECK-NEXT:   [[LOAD2:%[0-9]+]]:_(s32) = G_LOAD [[PTR_ADD2]](p1) :: (load (s32), addrspace 1)
-  ; CHECK-NEXT:   [[C8:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:_(s32) = G_ADD [[LOAD2]], [[C8]]
+  ; CHECK-NEXT:   [[C8:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
+  ; CHECK-NEXT:   [[SHL2:%[0-9]+]]:sgpr(s64) = G_SHL [[MV3]], [[C8]](s32)
+  ; CHECK-NEXT:   [[COPY19:%[0-9]+]]:vgpr(s64) = COPY [[SHL2]](s64)
+  ; CHECK-NEXT:   [[PTR_ADD2:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV]], [[COPY19]](s64)
+  ; CHECK-NEXT:   [[LOAD2:%[0-9]+]]:vgpr(s32) = G_LOAD [[PTR_ADD2]](p1) :: (load (s32), addrspace 1)
+  ; CHECK-NEXT:   [[C9:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[COPY20:%[0-9]+]]:vgpr(s32) = COPY [[C9]](s32)
+  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[LOAD2]], [[COPY20]]
   ; CHECK-NEXT:   G_STORE [[ADD]](s32), [[PTR_ADD2]](p1) :: (store (s32), addrspace 1)
-  ; CHECK-NEXT:   [[ADD1:%[0-9]+]]:_(s32) = G_ADD [[PHI2]], [[C8]]
-  ; CHECK-NEXT:   [[C9:%[0-9]+]]:_(s32) = G_CONSTANT i32 100
-  ; CHECK-NEXT:   [[ICMP2:%[0-9]+]]:_(s1) = G_ICMP intpred(ult), [[PHI2]](s32), [[C9]]
-  ; CHECK-NEXT:   [[COPY12:%[0-9]+]]:sreg_32(s1) = COPY [[ICMP2]](s1)
-  ; CHECK-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY10]](s1), $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[S_AND_B32_1:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY12]](s1), implicit-def $scc
+  ; CHECK-NEXT:   [[ADD1:%[0-9]+]]:sgpr(s32) = G_ADD [[PHI2]], [[C9]]
+  ; CHECK-NEXT:   [[C10:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 100
+  ; CHECK-NEXT:   [[ICMP2:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(ult), [[PHI2]](s32), [[C10]]
+  ; CHECK-NEXT:   [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP2]], [[C9]]
+  ; CHECK-NEXT:   [[AMDGPU_COPY_VCC_SCC2:%[0-9]+]]:sreg_32(s1) = G_AMDGPU_COPY_VCC_SCC [[AND]](s32)
+  ; CHECK-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY14]](s1), $exec_lo, implicit-def $scc
+  ; CHECK-NEXT:   [[S_AND_B32_1:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[AMDGPU_COPY_VCC_SCC2]](s1), implicit-def $scc
   ; CHECK-NEXT:   [[S_OR_B32_1:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_1]](s1), [[S_AND_B32_1]](s1), implicit-def $scc
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.5:
   ; CHECK-NEXT:   successors: %bb.3(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[PHI5:%[0-9]+]]:sreg_32(s1) = PHI [[COPY9]](s1), %bb.2, [[S_OR_B32_1]](s1), %bb.4
-  ; CHECK-NEXT:   [[PHI6:%[0-9]+]]:_(s32) = G_PHI [[ADD1]](s32), %bb.4, [[DEF]](s32), %bb.2
-  ; CHECK-NEXT:   [[COPY13:%[0-9]+]]:sreg_32(s1) = COPY [[PHI5]](s1)
-  ; CHECK-NEXT:   [[COPY14:%[0-9]+]]:sreg_32(s1) = COPY [[COPY13]](s1)
-  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[SI_IF1]](s32)
-  ; CHECK-NEXT:   [[S_ANDN2_B32_2:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY8]](s1), $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[S_AND_B32_2:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY14]](s1), implicit-def $scc
+  ; CHECK-NEXT:   [[PHI5:%[0-9]+]]:sreg_32(s1) = PHI [[AMDGPU_COPY_VCC_SCC1]](s1), %bb.2, [[S_OR_B32_1]](s1), %bb.4
+  ; CHECK-NEXT:   [[PHI6:%[0-9]+]]:sgpr(s32) = G_PHI [[ADD1]](s32), %bb.4, [[DEF]](s32), %bb.2
+  ; CHECK-NEXT:   [[COPY21:%[0-9]+]]:sreg_32(s1) = COPY [[PHI5]](s1)
+  ; CHECK-NEXT:   [[COPY22:%[0-9]+]]:sreg_32(s1) = COPY [[COPY21]](s1)
+  ; CHECK-NEXT:   [[COPY23:%[0-9]+]]:sgpr(s32) = COPY [[SI_IF1]](s32)
+  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[COPY23]](s32)
+  ; CHECK-NEXT:   [[S_ANDN2_B32_2:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY10]](s1), $exec_lo, implicit-def $scc
+  ; CHECK-NEXT:   [[S_AND_B32_2:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY22]](s1), implicit-def $scc
   ; CHECK-NEXT:   [[S_OR_B32_2:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_2]](s1), [[S_AND_B32_2]](s1), implicit-def $scc
   ; CHECK-NEXT:   G_BR %bb.3
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.6:
-  ; CHECK-NEXT:   [[PHI7:%[0-9]+]]:_(s32) = G_PHI [[INT]](s32), %bb.3
+  ; CHECK-NEXT:   [[PHI7:%[0-9]+]]:sgpr(s32) = G_PHI [[INT]](s32), %bb.3
   ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[PHI7]](s32)
   ; CHECK-NEXT:   S_ENDPGM 0
   bb.0:
     successors: %bb.1(0x80000000)
     liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5
 
-    %0:_(s32) = COPY $vgpr0
-    %1:_(s32) = COPY $vgpr1
-    %2:_(p1) = G_MERGE_VALUES %0(s32), %1(s32)
-    %3:_(s32) = COPY $vgpr2
-    %4:_(s32) = COPY $vgpr3
-    %5:_(p1) = G_MERGE_VALUES %3(s32), %4(s32)
-    %6:_(s32) = COPY $vgpr4
-    %7:_(s32) = COPY $vgpr5
-    %8:_(p1) = G_MERGE_VALUES %6(s32), %7(s32)
-    %9:_(s32) = G_IMPLICIT_DEF
-    %10:_(s32) = G_CONSTANT i32 0
+    %0:vgpr(s32) = COPY $vgpr0
+    %1:vgpr(s32) = COPY $vgpr1
+    %2:vgpr(p1) = G_MERGE_VALUES %0(s32), %1(s32)
+    %3:vgpr(s32) = COPY $vgpr2
+    %4:vgpr(s32) = COPY $vgpr3
+    %5:vgpr(p1) = G_MERGE_VALUES %3(s32), %4(s32)
+    %6:vgpr(s32) = COPY $vgpr4
+    %7:vgpr(s32) = COPY $vgpr5
+    %8:vgpr(p1) = G_MERGE_VALUES %6(s32), %7(s32)
+    %9:sgpr(s32) = G_IMPLICIT_DEF
+    %10:sgpr(s32) = G_CONSTANT i32 0
     %11:sreg_32(s1) = IMPLICIT_DEF
 
   bb.1:
     successors: %bb.2(0x40000000), %bb.3(0x40000000)
 
     %12:sreg_32(s1) = PHI %11(s1), %bb.0, %13(s1), %bb.3
-    %14:_(s32) = G_PHI %15(s32), %bb.3, %10(s32), %bb.0
-    %16:_(s32) = G_PHI %10(s32), %bb.0, %17(s32), %bb.3
+    %14:sgpr(s32) = G_PHI %15(s32), %bb.3, %10(s32), %bb.0
+    %16:sgpr(s32) = G_PHI %10(s32), %bb.0, %17(s32), %bb.3
     %18:sreg_32(s1) = COPY %12(s1)
-    %19:_(s64) = G_SEXT %16(s32)
-    %20:_(s32) = G_CONSTANT i32 2
-    %21:_(s64) = G_SHL %19, %20(s32)
-    %22:_(p1) = G_PTR_ADD %5, %21(s64)
-    %23:_(s32) = G_LOAD %22(p1) :: (load (s32), addrspace 1)
-    %24:_(s32) = G_CONSTANT i32 0
-    %25:sreg_32_xm0_xexec(s1) = G_ICMP intpred(ne), %23(s32), %24
-    %26:_(s1) = G_CONSTANT i1 true
-    %27:sreg_32(s1) = COPY %26(s1)
-    %28:sreg_32(s1) = S_ANDN2_B32 %18(s1), $exec_lo, implicit-def $scc
-    %29:sreg_32(s1) = S_AND_B32 $exec_lo, %27(s1), implicit-def $scc
-    %30:sreg_32(s1) = S_OR_B32 %28(s1), %29(s1), implicit-def $scc
-    %31:sreg_32(s1) = COPY %30(s1)
-    %32:sreg_32_xm0_xexec(s32) = SI_IF %25(s1), %bb.3, implicit-def $exec, implicit-def $scc, implicit $exec
+    %19:sgpr(s64) = G_SEXT %16(s32)
+    %20:sgpr(s32) = G_CONSTANT i32 2
+    %21:sgpr(s64) = G_SHL %19, %20(s32)
+    %22:vgpr(p1) = G_PTR_ADD %5, %21(s64)
+    %23:vgpr(s32) = G_LOAD %22(p1) :: (load (s32), addrspace 1)
+    %24:sgpr(s32) = G_CONSTANT i32 0
+    %25:vcc(s1) = G_ICMP intpred(ne), %23(s32), %24
+    %26:sreg_32_xm0_xexec(s1) = COPY %25(s1)
+    %27:sgpr(s1) = G_CONSTANT i1 true
+    %28:sreg_32(s1) = COPY %27(s1)
+    %29:sreg_32(s1) = S_ANDN2_B32 %18(s1), $exec_lo, implicit-def $scc
+    %30:sreg_32(s1) = S_AND_B32 $exec_lo, %28(s1), implicit-def $scc
+    %31:sreg_32(s1) = S_OR_B32 %29(s1), %30(s1), implicit-def $scc
+    %32:sreg_32(s1) = COPY %31(s1)
+    %33:sreg_32_xm0_xexec(s32) = SI_IF %26(s1), %bb.3, implicit-def $exec, implicit-def $scc, implicit $exec
     G_BR %bb.2
 
   bb.2:
     successors: %bb.4(0x40000000), %bb.5(0x40000000)
 
-    %33:_(s32) = G_CONSTANT i32 2
-    %34:_(s64) = G_SHL %19, %33(s32)
-    %35:_(p1) = G_PTR_ADD %8, %34(s64)
-    %36:_(s32) = G_LOAD %35(p1) :: (load (s32), addrspace 1)
-    %37:_(s32) = G_CONSTANT i32 0
-    %38:sreg_32_xm0_xexec(s1) = G_ICMP intpred(ne), %36(s32), %37
-    %39:_(s1) = G_CONSTANT i1 true
-    %40:sreg_32(s1) = COPY %39(s1)
-    %41:sreg_32(s1) = COPY %40(s1)
-    %42:sreg_32_xm0_xexec(s32) = SI_IF %38(s1), %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
+    %34:sgpr(s32) = G_CONSTANT i32 2
+    %35:sgpr(s64) = G_SHL %19, %34(s32)
+    %36:vgpr(p1) = G_PTR_ADD %8, %35(s64)
+    %37:vgpr(s32) = G_LOAD %36(p1) :: (load (s32), addrspace 1)
+    %38:sgpr(s32) = G_CONSTANT i32 0
+    %39:vcc(s1) = G_ICMP intpred(ne), %37(s32), %38
+    %40:sreg_32_xm0_xexec(s1) = COPY %39(s1)
+    %41:sgpr(s1) = G_CONSTANT i1 true
+    %42:sreg_32(s1) = COPY %41(s1)
+    %43:sreg_32(s1) = COPY %42(s1)
+    %44:sreg_32_xm0_xexec(s32) = SI_IF %40(s1), %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
     G_BR %bb.4
 
   bb.3:
     successors: %bb.6(0x04000000), %bb.1(0x7c000000)
 
-    %13:sreg_32(s1) = PHI %30(s1), %bb.1, %43(s1), %bb.5
-    %17:_(s32) = G_PHI %44(s32), %bb.5, %9(s32), %bb.1
-    %45:sreg_32(s1) = COPY %13(s1)
-    G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %32(s32)
-    %15:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), %45(s1), %14(s32)
-    SI_LOOP %15(s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
+    %13:sreg_32(s1) = PHI %31(s1), %bb.1, %45(s1), %bb.5
+    %17:sgpr(s32) = G_PHI %46(s32), %bb.5, %9(s32), %bb.1
+    %47:sreg_32(s1) = COPY %13(s1)
+    %48:sgpr(s32) = COPY %33(s32)
+    G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %48(s32)
+    %49:vcc(s1) = COPY %47(s1)
+    %15:sgpr(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), %49(s1), %14(s32)
+    %50:sreg_32_xm0_xexec(s32) = COPY %15(s32)
+    SI_LOOP %50(s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
     G_BR %bb.6
 
   bb.4:
     successors: %bb.5(0x80000000)
 
-    %46:_(s32) = G_CONSTANT i32 2
-    %47:_(s64) = G_SHL %19, %46(s32)
-    %48:_(p1) = G_PTR_ADD %2, %47(s64)
-    %49:_(s32) = G_LOAD %48(p1) :: (load (s32), addrspace 1)
-    %50:_(s32) = G_CONSTANT i32 1
-    %51:_(s32) = G_ADD %49, %50
-    G_STORE %51(s32), %48(p1) :: (store (s32), addrspace 1)
-    %52:_(s32) = G_ADD %16, %50
-    %53:_(s32) = G_CONSTANT i32 100
-    %54:_(s1) = G_ICMP intpred(ult), %16(s32), %53
-    %55:sreg_32(s1) = COPY %54(s1)
-    %56:sreg_32(s1) = S_ANDN2_B32 %41(s1), $exec_lo, implicit-def $scc
-    %57:sreg_32(s1) = S_AND_B32 $exec_lo, %55(s1), implicit-def $scc
-    %58:sreg_32(s1) = S_OR_B32 %56(s1), %57(s1), implicit-def $scc
+    %51:sgpr(s32) = G_CONSTANT i32 2
+    %52:sgpr(s64) = G_SHL %19, %51(s32)
+    %53:vgpr(p1) = G_PTR_ADD %2, %52(s64)
+    %54:vgpr(s32) = G_LOAD %53(p1) :: (load (s32), addrspace 1)
+    %55:sgpr(s32) = G_CONSTANT i32 1
+    %56:vgpr(s32) = G_ADD %54, %55
+    G_STORE %56(s32), %53(p1) :: (store (s32), addrspace 1)
+    %57:sgpr(s32) = G_ADD %16, %55
+    %58:sgpr(s32) = G_CONSTANT i32 100
+    %59:sgpr(s1) = G_ICMP intpred(ult), %16(s32), %58
+    %60:sreg_32(s1) = COPY %59(s1)
+    %61:sreg_32(s1) = S_ANDN2_B32 %43(s1), $exec_lo, implicit-def $scc
+    %62:sreg_32(s1) = S_AND_B32 $exec_lo, %60(s1), implicit-def $scc
+    %63:sreg_32(s1) = S_OR_B32 %61(s1), %62(s1), implicit-def $scc
 
   bb.5:
     successors: %bb.3(0x80000000)
 
-    %59:sreg_32(s1) = PHI %40(s1), %bb.2, %58(s1), %bb.4
-    %44:_(s32) = G_PHI %52(s32), %bb.4, %9(s32), %bb.2
-    %60:sreg_32(s1) = COPY %59(s1)
-    %61:sreg_32(s1) = COPY %60(s1)
-    G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %42(s32)
-    %62:sreg_32(s1) = S_ANDN2_B32 %31(s1), $exec_lo, implicit-def $scc
-    %63:sreg_32(s1) = S_AND_B32 $exec_lo, %61(s1), implicit-def $scc
-    %43:sreg_32(s1) = S_OR_B32 %62(s1), %63(s1), implicit-def $scc
+    %64:sreg_32(s1) = PHI %42(s1), %bb.2, %63(s1), %bb.4
+    %46:sgpr(s32) = G_PHI %57(s32), %bb.4, %9(s32), %bb.2
+    %65:sreg_32(s1) = COPY %64(s1)
+    %66:sreg_32(s1) = COPY %65(s1)
+    %67:sgpr(s32) = COPY %44(s32)
+    G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %67(s32)
+    %68:sreg_32(s1) = S_ANDN2_B32 %32(s1), $exec_lo, implicit-def $scc
+    %69:sreg_32(s1) = S_AND_B32 $exec_lo, %66(s1), implicit-def $scc
+    %45:sreg_32(s1) = S_OR_B32 %68(s1), %69(s1), implicit-def $scc
     G_BR %bb.3
 
   bb.6:
-    %64:_(s32) = G_PHI %15(s32), %bb.3
-    G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %64(s32)
+    %70:sgpr(s32) = G_PHI %15(s32), %bb.3
+    G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), %70(s32)
     S_ENDPGM 0
 ...
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-regbankselect.mir b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-regbankselect.mir
index e840c3f1b86ab..8f3495ea87eec 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-regbankselect.mir
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-regbankselect.mir
@@ -1,5 +1,5 @@
 # NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 5
-# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass=none %s -verify-machineinstrs -o - | FileCheck %s
+# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass=amdgpu-regbankselect %s -verify-machineinstrs -o - | FileCheck %s
 
 ---
 name: uniform_in_vgpr
@@ -11,13 +11,13 @@ body: |
     ; CHECK-LABEL: name: uniform_in_vgpr
     ; CHECK: liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[FPTOUI:%[0-9]+]]:_(s32) = G_FPTOUI [[COPY]](s32)
-    ; CHECK-NEXT: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[FPTOUI]], [[COPY1]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[FPTOUI:%[0-9]+]]:sgpr(s32) = G_FPTOUI [[COPY]](s32)
+    ; CHECK-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[FPTOUI]], [[COPY1]]
     ; CHECK-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -41,15 +41,15 @@ body: |
     ; CHECK-LABEL: name: back_to_back_uniform_in_vgpr
     ; CHECK: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
-    ; CHECK-NEXT: [[FADD:%[0-9]+]]:_(s32) = G_FADD [[COPY]], [[COPY1]]
-    ; CHECK-NEXT: [[FPTOUI:%[0-9]+]]:_(s32) = G_FPTOUI [[FADD]](s32)
-    ; CHECK-NEXT: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[FPTOUI]], [[COPY2]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
+    ; CHECK-NEXT: [[FADD:%[0-9]+]]:sgpr(s32) = G_FADD [[COPY]], [[COPY1]]
+    ; CHECK-NEXT: [[FPTOUI:%[0-9]+]]:sgpr(s32) = G_FPTOUI [[FADD]](s32)
+    ; CHECK-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[FPTOUI]], [[COPY2]]
     ; CHECK-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -75,20 +75,20 @@ body: |
     ; CHECK-LABEL: name: buffer_load_uniform
     ; CHECK: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $sgpr4, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $sgpr3
-    ; CHECK-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<4 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $sgpr4
-    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY5]](s32), [[COPY6]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-    ; CHECK-NEXT: [[AMDGPU_BUFFER_LOAD:%[0-9]+]]:_(<4 x s32>) = G_AMDGPU_BUFFER_LOAD [[BUILD_VECTOR]](<4 x s32>), [[C]](s32), [[COPY4]], [[C]], 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
-    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-    ; CHECK-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32), [[UV2:%[0-9]+]]:_(s32), [[UV3:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[AMDGPU_BUFFER_LOAD]](<4 x s32>)
-    ; CHECK-NEXT: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[UV1]], [[C1]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
+    ; CHECK-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:sgpr(s32) = COPY $sgpr4
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY5]](s32), [[COPY6]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[AMDGPU_BUFFER_LOAD:%[0-9]+]]:sgpr(<4 x s32>) = G_AMDGPU_BUFFER_LOAD [[BUILD_VECTOR]](<4 x s32>), [[C]](s32), [[COPY4]], [[C]], 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; CHECK-NEXT: [[UV:%[0-9]+]]:sgpr(s32), [[UV1:%[0-9]+]]:sgpr(s32), [[UV2:%[0-9]+]]:sgpr(s32), [[UV3:%[0-9]+]]:sgpr(s32) = G_UNMERGE_VALUES [[AMDGPU_BUFFER_LOAD]](<4 x s32>)
+    ; CHECK-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[UV1]], [[C1]]
     ; CHECK-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -119,20 +119,20 @@ body: |
     ; CHECK-LABEL: name: buffer_load_divergent
     ; CHECK: liveins: $sgpr0, $sgpr1, $sgpr2, $sgpr3, $vgpr0, $vgpr1, $vgpr2
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $sgpr3
-    ; CHECK-NEXT: [[BUILD_VECTOR:%[0-9]+]]:_(<4 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY5]](s32), [[COPY6]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-    ; CHECK-NEXT: [[AMDGPU_BUFFER_LOAD:%[0-9]+]]:_(<4 x s32>) = G_AMDGPU_BUFFER_LOAD [[BUILD_VECTOR]](<4 x s32>), [[C]](s32), [[COPY4]], [[C]], 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
-    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-    ; CHECK-NEXT: [[UV:%[0-9]+]]:_(s32), [[UV1:%[0-9]+]]:_(s32), [[UV2:%[0-9]+]]:_(s32), [[UV3:%[0-9]+]]:_(s32) = G_UNMERGE_VALUES [[AMDGPU_BUFFER_LOAD]](<4 x s32>)
-    ; CHECK-NEXT: [[ADD:%[0-9]+]]:_(s32) = G_ADD [[UV1]], [[C1]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr3
+    ; CHECK-NEXT: [[BUILD_VECTOR:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[COPY]](s32), [[COPY1]](s32), [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY5]](s32), [[COPY6]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[AMDGPU_BUFFER_LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_AMDGPU_BUFFER_LOAD [[BUILD_VECTOR]](<4 x s32>), [[C]](s32), [[COPY4]], [[C]], 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; CHECK-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[AMDGPU_BUFFER_LOAD]](<4 x s32>)
+    ; CHECK-NEXT: [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[UV1]], [[C1]]
     ; CHECK-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -163,16 +163,16 @@ body: |
     ; CHECK-LABEL: name: vgpr_and_i64
     ; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
-    ; CHECK-NEXT: [[MV1:%[0-9]+]]:_(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr4
-    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr5
-    ; CHECK-NEXT: [[MV2:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY4]](s32), [[COPY5]](s32)
-    ; CHECK-NEXT: [[AND:%[0-9]+]]:_(s64) = G_AND [[MV]], [[MV1]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+    ; CHECK-NEXT: [[MV1:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr4
+    ; CHECK-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY $vgpr5
+    ; CHECK-NEXT: [[MV2:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY4]](s32), [[COPY5]](s32)
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:vgpr(s64) = G_AND [[MV]], [[MV1]]
     ; CHECK-NEXT: G_STORE [[AND]](s64), [[MV2]](p1) :: (store (s64), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $vgpr0
@@ -199,13 +199,13 @@ body: |
     ; CHECK-LABEL: name: abs_sgpr_i16
     ; CHECK: liveins: $sgpr0, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[TRUNC:%[0-9]+]]:_(s16) = G_TRUNC [[COPY]](s32)
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-    ; CHECK-NEXT: [[ABS:%[0-9]+]]:_(s16) = G_ABS [[TRUNC]]
-    ; CHECK-NEXT: [[ANYEXT:%[0-9]+]]:_(s32) = G_ANYEXT [[ABS]](s16)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s16) = G_TRUNC [[COPY]](s32)
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+    ; CHECK-NEXT: [[ABS:%[0-9]+]]:sgpr(s16) = G_ABS [[TRUNC]]
+    ; CHECK-NEXT: [[ANYEXT:%[0-9]+]]:sgpr(s32) = G_ANYEXT [[ABS]](s16)
     ; CHECK-NEXT: G_STORE [[ANYEXT]](s32), [[MV]](p1) :: (store (s16), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -229,29 +229,29 @@ body: |
   ; CHECK-NEXT:   successors: %bb.1(0x30000000), %bb.2(0x50000000)
   ; CHECK-NEXT:   liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-  ; CHECK-NEXT:   [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
-  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr0
-  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:_(s32) = COPY $sgpr1
-  ; CHECK-NEXT:   [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 6
-  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY2]](s32), [[C]]
-  ; CHECK-NEXT:   [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-  ; CHECK-NEXT:   [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(ne), [[COPY3]](s32), [[C1]]
+  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+  ; CHECK-NEXT:   [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
+  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+  ; CHECK-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 6
+  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:sgpr(s1) = G_ICMP intpred(uge), [[COPY2]](s32), [[C]]
+  ; CHECK-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[ICMP1:%[0-9]+]]:sgpr(s1) = G_ICMP intpred(ne), [[COPY3]](s32), [[C1]]
   ; CHECK-NEXT:   G_BRCOND [[ICMP1]](s1), %bb.2
   ; CHECK-NEXT:   G_BR %bb.1
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-  ; CHECK-NEXT:   [[ICMP2:%[0-9]+]]:_(s1) = G_ICMP intpred(ult), [[COPY2]](s32), [[C2]]
+  ; CHECK-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[ICMP2:%[0-9]+]]:sgpr(s1) = G_ICMP intpred(ult), [[COPY2]](s32), [[C2]]
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.2:
-  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:_(s1) = G_PHI [[ICMP]](s1), %bb.0, [[ICMP2]](s1), %bb.1
-  ; CHECK-NEXT:   [[SEXT:%[0-9]+]]:_(s32) = G_SEXT [[PHI]](s1)
-  ; CHECK-NEXT:   [[C3:%[0-9]+]]:_(s32) = G_CONSTANT i32 2
-  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:_(s32) = G_ADD [[SEXT]], [[C3]]
+  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:sgpr(s1) = G_PHI [[ICMP]](s1), %bb.0, [[ICMP2]](s1), %bb.1
+  ; CHECK-NEXT:   [[SEXT:%[0-9]+]]:sgpr(s32) = G_SEXT [[PHI]](s1)
+  ; CHECK-NEXT:   [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
+  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[SEXT]], [[C3]]
   ; CHECK-NEXT:   G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
   ; CHECK-NEXT:   S_ENDPGM 0
   bb.0:
@@ -295,15 +295,15 @@ body: |
     ; CHECK-LABEL: name: vcc_to_scc
     ; CHECK: liveins: $sgpr0, $sgpr1, $sgpr2, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $sgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_FCONSTANT float 0.000000e+00
-    ; CHECK-NEXT: [[FCMP:%[0-9]+]]:_(s1) = G_FCMP floatpred(oeq), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[FCMP]](s1), [[COPY1]], [[COPY2]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_FCONSTANT float 0.000000e+00
+    ; CHECK-NEXT: [[FCMP:%[0-9]+]]:sgpr(s1) = G_FCMP floatpred(oeq), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[FCMP]](s1), [[COPY1]], [[COPY2]]
     ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -329,15 +329,15 @@ body: |
     ; CHECK-LABEL: name: scc_to_vcc
     ; CHECK: liveins: $sgpr0, $vgpr0, $vgpr1, $vgpr2, $vgpr3
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr3
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[ICMP]](s1), [[COPY1]], [[COPY2]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:sgpr(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP]](s1), [[COPY1]], [[COPY2]]
     ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -363,14 +363,14 @@ body: |
     ; CHECK-LABEL: name: vgpr_to_vcc_trunc
     ; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
-    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr4
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
-    ; CHECK-NEXT: [[TRUNC:%[0-9]+]]:_(s1) = G_TRUNC [[COPY]](s32)
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[TRUNC]](s1), [[COPY1]], [[COPY2]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+    ; CHECK-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr4
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
+    ; CHECK-NEXT: [[TRUNC:%[0-9]+]]:vcc(s1) = G_TRUNC [[COPY]](s32)
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[TRUNC]](s1), [[COPY1]], [[COPY2]]
     ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $vgpr0
@@ -395,13 +395,13 @@ body: |
     ; CHECK-LABEL: name: zext
     ; CHECK: liveins: $sgpr0, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[ZEXT:%[0-9]+]]:_(s32) = G_ZEXT [[ICMP]](s1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:sgpr(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[ZEXT:%[0-9]+]]:sgpr(s32) = G_ZEXT [[ICMP]](s1)
     ; CHECK-NEXT: G_STORE [[ZEXT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -425,13 +425,13 @@ body: |
     ; CHECK-LABEL: name: sext
     ; CHECK: liveins: $sgpr0, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[SEXT:%[0-9]+]]:_(s32) = G_SEXT [[ICMP]](s1)
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:sgpr(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[SEXT:%[0-9]+]]:sgpr(s32) = G_SEXT [[ICMP]](s1)
     ; CHECK-NEXT: G_STORE [[SEXT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -455,17 +455,17 @@ body: |
     ; CHECK-LABEL: name: and_i1_vcc
     ; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 20
-    ; CHECK-NEXT: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY1]](s32), [[C1]]
-    ; CHECK-NEXT: [[AND:%[0-9]+]]:_(s1) = G_AND [[ICMP]], [[ICMP1]]
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[AND]](s1), [[COPY]], [[COPY1]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(uge), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 20
+    ; CHECK-NEXT: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(uge), [[COPY1]](s32), [[C1]]
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:vcc(s1) = G_AND [[ICMP]], [[ICMP1]]
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[AND]](s1), [[COPY]], [[COPY1]]
     ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $vgpr0
@@ -493,17 +493,17 @@ body: |
     ; CHECK-LABEL: name: and_i1_scc
     ; CHECK: liveins: $sgpr0, $sgpr1, $vgpr0, $vgpr1
     ; CHECK-NEXT: {{  $}}
-    ; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $sgpr0
-    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:_(s32) = COPY $sgpr1
-    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr0
-    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr1
-    ; CHECK-NEXT: [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-    ; CHECK-NEXT: [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY]](s32), [[C]]
-    ; CHECK-NEXT: [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 20
-    ; CHECK-NEXT: [[ICMP1:%[0-9]+]]:_(s1) = G_ICMP intpred(uge), [[COPY1]](s32), [[C1]]
-    ; CHECK-NEXT: [[AND:%[0-9]+]]:_(s1) = G_AND [[ICMP]], [[ICMP1]]
-    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:_(s32) = G_SELECT [[AND]](s1), [[COPY]], [[COPY1]]
+    ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
+    ; CHECK-NEXT: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
+    ; CHECK-NEXT: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+    ; CHECK-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+    ; CHECK-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+    ; CHECK-NEXT: [[ICMP:%[0-9]+]]:sgpr(s1) = G_ICMP intpred(uge), [[COPY]](s32), [[C]]
+    ; CHECK-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 20
+    ; CHECK-NEXT: [[ICMP1:%[0-9]+]]:sgpr(s1) = G_ICMP intpred(uge), [[COPY1]](s32), [[C1]]
+    ; CHECK-NEXT: [[AND:%[0-9]+]]:sgpr(s1) = G_AND [[ICMP]], [[ICMP1]]
+    ; CHECK-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND]](s1), [[COPY]], [[COPY1]]
     ; CHECK-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; CHECK-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -531,23 +531,25 @@ body: |
   ; CHECK-NEXT:   successors: %bb.1(0x40000000), %bb.2(0x40000000)
   ; CHECK-NEXT:   liveins: $vgpr0, $vgpr1, $vgpr2
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-  ; CHECK-NEXT:   [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-  ; CHECK-NEXT:   [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:sreg_32_xm0_xexec(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-  ; CHECK-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[ICMP]](s1), %bb.2, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+  ; CHECK-NEXT:   [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+  ; CHECK-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
+  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[ICMP]](s1)
+  ; CHECK-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY3]](s1), %bb.2, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.1
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.2:
-  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:_(s32) = G_PHI [[C]](s32), %bb.0, [[C1]](s32), %bb.1
-  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[SI_IF]](s32)
+  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:vgpr(s32) = G_PHI [[C]](s32), %bb.0, [[C1]](s32), %bb.1
+  ; CHECK-NEXT:   [[COPY4:%[0-9]+]]:sgpr(s32) = COPY [[SI_IF]](s32)
+  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[COPY4]](s32)
   ; CHECK-NEXT:   G_STORE [[PHI]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
   ; CHECK-NEXT:   S_ENDPGM 0
   bb.0:
@@ -585,32 +587,33 @@ body: |
   ; CHECK-NEXT:   successors: %bb.1(0x80000000)
   ; CHECK-NEXT:   liveins: $vgpr0, $vgpr1, $vgpr2
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-  ; CHECK-NEXT:   [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
-  ; CHECK-NEXT:   [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 -1
-  ; CHECK-NEXT:   [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+  ; CHECK-NEXT:   [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
+  ; CHECK-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 -1
+  ; CHECK-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x04000000), %bb.1(0x7c000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:_(s32) = G_PHI %7(s32), %bb.1, [[C1]](s32), %bb.0
-  ; CHECK-NEXT:   [[PHI1:%[0-9]+]]:_(s32) = G_PHI [[C]](s32), %bb.0, %9(s32), %bb.1
-  ; CHECK-NEXT:   [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:_(s32) = G_ADD [[PHI1]], [[C2]]
-  ; CHECK-NEXT:   [[UITOFP:%[0-9]+]]:_(s32) = G_UITOFP [[ADD]](s32)
-  ; CHECK-NEXT:   [[FCMP:%[0-9]+]]:_(s1) = G_FCMP floatpred(ogt), [[UITOFP]](s32), [[COPY]]
-  ; CHECK-NEXT:   [[INT:%[0-9]+]]:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[FCMP]](s1), [[PHI]](s32)
-  ; CHECK-NEXT:   SI_LOOP [[INT]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:sgpr(s32) = G_PHI %17(s32), %bb.1, [[C1]](s32), %bb.0
+  ; CHECK-NEXT:   [[PHI1:%[0-9]+]]:sgpr(s32) = G_PHI [[C]](s32), %bb.0, %9(s32), %bb.1
+  ; CHECK-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[PHI1]], [[C2]]
+  ; CHECK-NEXT:   [[UITOFP:%[0-9]+]]:sgpr(s32) = G_UITOFP [[ADD]](s32)
+  ; CHECK-NEXT:   [[FCMP:%[0-9]+]]:vcc(s1) = G_FCMP floatpred(ogt), [[UITOFP]](s32), [[COPY]]
+  ; CHECK-NEXT:   [[INT:%[0-9]+]]:sgpr(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[FCMP]](s1), [[PHI]](s32)
+  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:sreg_32_xm0_xexec(s32) = COPY [[INT]](s32)
+  ; CHECK-NEXT:   SI_LOOP [[COPY3]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.2
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.2:
-  ; CHECK-NEXT:   [[PHI2:%[0-9]+]]:_(s32) = G_PHI [[ADD]](s32), %bb.1
-  ; CHECK-NEXT:   [[PHI3:%[0-9]+]]:_(s32) = G_PHI [[INT]](s32), %bb.1
+  ; CHECK-NEXT:   [[PHI2:%[0-9]+]]:vgpr(s32) = G_PHI [[ADD]](s32), %bb.1
+  ; CHECK-NEXT:   [[PHI3:%[0-9]+]]:sgpr(s32) = G_PHI [[INT]](s32), %bb.1
   ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[PHI3]](s32)
-  ; CHECK-NEXT:   [[C3:%[0-9]+]]:_(s32) = G_CONSTANT i32 10
-  ; CHECK-NEXT:   [[MUL:%[0-9]+]]:_(s32) = G_MUL [[PHI2]], [[C3]]
+  ; CHECK-NEXT:   [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
+  ; CHECK-NEXT:   [[MUL:%[0-9]+]]:vgpr(s32) = G_MUL [[PHI2]], [[C3]]
   ; CHECK-NEXT:   G_STORE [[MUL]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
   ; CHECK-NEXT:   S_ENDPGM 0
   bb.0:
@@ -657,101 +660,107 @@ body: |
   ; CHECK-NEXT:   successors: %bb.1(0x80000000)
   ; CHECK-NEXT:   liveins: $vgpr0, $vgpr1, $vgpr2, $vgpr3, $vgpr4, $vgpr5
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
-  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
-  ; CHECK-NEXT:   [[MV:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
-  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
-  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:_(s32) = COPY $vgpr3
-  ; CHECK-NEXT:   [[MV1:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
-  ; CHECK-NEXT:   [[COPY4:%[0-9]+]]:_(s32) = COPY $vgpr4
-  ; CHECK-NEXT:   [[COPY5:%[0-9]+]]:_(s32) = COPY $vgpr5
-  ; CHECK-NEXT:   [[MV2:%[0-9]+]]:_(p1) = G_MERGE_VALUES [[COPY4]](s32), [[COPY5]](s32)
-  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:_(s32) = G_IMPLICIT_DEF
-  ; CHECK-NEXT:   [[C:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
+  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $vgpr1
+  ; CHECK-NEXT:   [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY]](s32), [[COPY1]](s32)
+  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr2
+  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
+  ; CHECK-NEXT:   [[MV1:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
+  ; CHECK-NEXT:   [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr4
+  ; CHECK-NEXT:   [[COPY5:%[0-9]+]]:vgpr(s32) = COPY $vgpr5
+  ; CHECK-NEXT:   [[MV2:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY4]](s32), [[COPY5]](s32)
+  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:sgpr(s32) = G_IMPLICIT_DEF
+  ; CHECK-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
   ; CHECK-NEXT:   [[DEF1:%[0-9]+]]:sreg_32(s1) = IMPLICIT_DEF
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT:   [[PHI:%[0-9]+]]:sreg_32(s1) = PHI [[DEF1]](s1), %bb.0, %13(s1), %bb.3
-  ; CHECK-NEXT:   [[PHI1:%[0-9]+]]:_(s32) = G_PHI %15(s32), %bb.3, [[C]](s32), %bb.0
-  ; CHECK-NEXT:   [[PHI2:%[0-9]+]]:_(s32) = G_PHI [[C]](s32), %bb.0, %17(s32), %bb.3
+  ; CHECK-NEXT:   [[PHI1:%[0-9]+]]:sgpr(s32) = G_PHI %68(s32), %bb.3, [[C]](s32), %bb.0
+  ; CHECK-NEXT:   [[PHI2:%[0-9]+]]:sgpr(s32) = G_PHI [[C]](s32), %bb.0, %17(s32), %bb.3
   ; CHECK-NEXT:   [[COPY6:%[0-9]+]]:sreg_32(s1) = COPY [[PHI]](s1)
-  ; CHECK-NEXT:   [[SEXT:%[0-9]+]]:_(s64) = G_SEXT [[PHI2]](s32)
-  ; CHECK-NEXT:   [[C1:%[0-9]+]]:_(s32) = G_CONSTANT i32 2
-  ; CHECK-NEXT:   [[SHL:%[0-9]+]]:_(s64) = G_SHL [[SEXT]], [[C1]](s32)
-  ; CHECK-NEXT:   [[PTR_ADD:%[0-9]+]]:_(p1) = G_PTR_ADD [[MV1]], [[SHL]](s64)
-  ; CHECK-NEXT:   [[LOAD:%[0-9]+]]:_(s32) = G_LOAD [[PTR_ADD]](p1) :: (load (s32), addrspace 1)
-  ; CHECK-NEXT:   [[C2:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:sreg_32_xm0_xexec(s1) = G_ICMP intpred(ne), [[LOAD]](s32), [[C2]]
-  ; CHECK-NEXT:   [[C3:%[0-9]+]]:_(s1) = G_CONSTANT i1 true
-  ; CHECK-NEXT:   [[COPY7:%[0-9]+]]:sreg_32(s1) = COPY [[C3]](s1)
+  ; CHECK-NEXT:   [[SEXT:%[0-9]+]]:sgpr(s64) = G_SEXT [[PHI2]](s32)
+  ; CHECK-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
+  ; CHECK-NEXT:   [[SHL:%[0-9]+]]:sgpr(s64) = G_SHL [[SEXT]], [[C1]](s32)
+  ; CHECK-NEXT:   [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV1]], [[SHL]](s64)
+  ; CHECK-NEXT:   [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[PTR_ADD]](p1) :: (load (s32), addrspace 1)
+  ; CHECK-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(ne), [[LOAD]](s32), [[C2]]
+  ; CHECK-NEXT:   [[COPY7:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[ICMP]](s1)
+  ; CHECK-NEXT:   [[C3:%[0-9]+]]:sgpr(s1) = G_CONSTANT i1 true
+  ; CHECK-NEXT:   [[COPY8:%[0-9]+]]:sreg_32(s1) = COPY [[C3]](s1)
   ; CHECK-NEXT:   [[S_ANDN2_B32_:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY6]](s1), $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY7]](s1), implicit-def $scc
+  ; CHECK-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY8]](s1), implicit-def $scc
   ; CHECK-NEXT:   [[S_OR_B32_:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_]](s1), [[S_AND_B32_]](s1), implicit-def $scc
-  ; CHECK-NEXT:   [[COPY8:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_]](s1)
-  ; CHECK-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[ICMP]](s1), %bb.3, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[COPY9:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_]](s1)
+  ; CHECK-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY7]](s1), %bb.3, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.2
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.2:
   ; CHECK-NEXT:   successors: %bb.4(0x40000000), %bb.5(0x40000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[C4:%[0-9]+]]:_(s32) = G_CONSTANT i32 2
-  ; CHECK-NEXT:   [[SHL1:%[0-9]+]]:_(s64) = G_SHL [[SEXT]], [[C4]](s32)
-  ; CHECK-NEXT:   [[PTR_ADD1:%[0-9]+]]:_(p1) = G_PTR_ADD [[MV2]], [[SHL1]](s64)
-  ; CHECK-NEXT:   [[LOAD1:%[0-9]+]]:_(s32) = G_LOAD [[PTR_ADD1]](p1) :: (load (s32), addrspace 1)
-  ; CHECK-NEXT:   [[C5:%[0-9]+]]:_(s32) = G_CONSTANT i32 0
-  ; CHECK-NEXT:   [[ICMP1:%[0-9]+]]:sreg_32_xm0_xexec(s1) = G_ICMP intpred(ne), [[LOAD1]](s32), [[C5]]
-  ; CHECK-NEXT:   [[C6:%[0-9]+]]:_(s1) = G_CONSTANT i1 true
-  ; CHECK-NEXT:   [[COPY9:%[0-9]+]]:sreg_32(s1) = COPY [[C6]](s1)
-  ; CHECK-NEXT:   [[COPY10:%[0-9]+]]:sreg_32(s1) = COPY [[COPY9]](s1)
-  ; CHECK-NEXT:   [[SI_IF1:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[ICMP1]](s1), %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[C4:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
+  ; CHECK-NEXT:   [[SHL1:%[0-9]+]]:sgpr(s64) = G_SHL [[SEXT]], [[C4]](s32)
+  ; CHECK-NEXT:   [[PTR_ADD1:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV2]], [[SHL1]](s64)
+  ; CHECK-NEXT:   [[LOAD1:%[0-9]+]]:vgpr(s32) = G_LOAD [[PTR_ADD1]](p1) :: (load (s32), addrspace 1)
+  ; CHECK-NEXT:   [[C5:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; CHECK-NEXT:   [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(ne), [[LOAD1]](s32), [[C5]]
+  ; CHECK-NEXT:   [[COPY10:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[ICMP1]](s1)
+  ; CHECK-NEXT:   [[C6:%[0-9]+]]:sgpr(s1) = G_CONSTANT i1 true
+  ; CHECK-NEXT:   [[COPY11:%[0-9]+]]:sreg_32(s1) = COPY [[C6]](s1)
+  ; CHECK-NEXT:   [[COPY12:%[0-9]+]]:sreg_32(s1) = COPY [[COPY11]](s1)
+  ; CHECK-NEXT:   [[SI_IF1:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY10]](s1), %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.4
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.3:
   ; CHECK-NEXT:   successors: %bb.6(0x04000000), %bb.1(0x7c000000)
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT:   [[PHI3:%[0-9]+]]:sreg_32(s1) = PHI [[S_OR_B32_]](s1), %bb.1, %43(s1), %bb.5
-  ; CHECK-NEXT:   [[PHI4:%[0-9]+]]:_(s32) = G_PHI %44(s32), %bb.5, [[DEF]](s32), %bb.1
-  ; CHECK-NEXT:   [[COPY11:%[0-9]+]]:sreg_32(s1) = COPY [[PHI3]](s1)
-  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[SI_IF]](s32)
-  ; CHECK-NEXT:   [[INT:%[0-9]+]]:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[COPY11]](s1), [[PHI1]](s32)
-  ; CHECK-NEXT:   SI_LOOP [[INT]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; CHECK-NEXT:   [[PHI4:%[0-9]+]]:sgpr(s32) = G_PHI %44(s32), %bb.5, [[DEF]](s32), %bb.1
+  ; CHECK-NEXT:   [[COPY13:%[0-9]+]]:sreg_32(s1) = COPY [[PHI3]](s1)
+  ; CHECK-NEXT:   [[COPY14:%[0-9]+]]:sgpr(s32) = COPY [[SI_IF]](s32)
+  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[COPY14]](s32)
+  ; CHECK-NEXT:   [[COPY15:%[0-9]+]]:vcc(s1) = COPY [[COPY13]](s1)
+  ; CHECK-NEXT:   [[INT:%[0-9]+]]:sgpr(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[COPY15]](s1), [[PHI1]](s32)
+  ; CHECK-NEXT:   [[COPY16:%[0-9]+]]:sreg_32_xm0_xexec(s32) = COPY [[INT]](s32)
+  ; CHECK-NEXT:   SI_LOOP [[COPY16]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
   ; CHECK-NEXT:   G_BR %bb.6
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.4:
   ; CHECK-NEXT:   successors: %bb.5(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[C7:%[0-9]+]]:_(s32) = G_CONSTANT i32 2
-  ; CHECK-NEXT:   [[SHL2:%[0-9]+]]:_(s64) = G_SHL [[SEXT]], [[C7]](s32)
-  ; CHECK-NEXT:   [[PTR_ADD2:%[0-9]+]]:_(p1) = G_PTR_ADD [[MV]], [[SHL2]](s64)
-  ; CHECK-NEXT:   [[LOAD2:%[0-9]+]]:_(s32) = G_LOAD [[PTR_ADD2]](p1) :: (load (s32), addrspace 1)
-  ; CHECK-NEXT:   [[C8:%[0-9]+]]:_(s32) = G_CONSTANT i32 1
-  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:_(s32) = G_ADD [[LOAD2]], [[C8]]
+  ; CHECK-NEXT:   [[C7:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
+  ; CHECK-NEXT:   [[SHL2:%[0-9]+]]:sgpr(s64) = G_SHL [[SEXT]], [[C7]](s32)
+  ; CHECK-NEXT:   [[PTR_ADD2:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV]], [[SHL2]](s64)
+  ; CHECK-NEXT:   [[LOAD2:%[0-9]+]]:vgpr(s32) = G_LOAD [[PTR_ADD2]](p1) :: (load (s32), addrspace 1)
+  ; CHECK-NEXT:   [[C8:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; CHECK-NEXT:   [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[LOAD2]], [[C8]]
   ; CHECK-NEXT:   G_STORE [[ADD]](s32), [[PTR_ADD2]](p1) :: (store (s32), addrspace 1)
-  ; CHECK-NEXT:   [[ADD1:%[0-9]+]]:_(s32) = G_ADD [[PHI2]], [[C8]]
-  ; CHECK-NEXT:   [[C9:%[0-9]+]]:_(s32) = G_CONSTANT i32 100
-  ; CHECK-NEXT:   [[ICMP2:%[0-9]+]]:_(s1) = G_ICMP intpred(ult), [[PHI2]](s32), [[C9]]
-  ; CHECK-NEXT:   [[COPY12:%[0-9]+]]:sreg_32(s1) = COPY [[ICMP2]](s1)
-  ; CHECK-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY10]](s1), $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[S_AND_B32_1:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY12]](s1), implicit-def $scc
+  ; CHECK-NEXT:   [[ADD1:%[0-9]+]]:sgpr(s32) = G_ADD [[PHI2]], [[C8]]
+  ; CHECK-NEXT:   [[C9:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 100
+  ; CHECK-NEXT:   [[ICMP2:%[0-9]+]]:sgpr(s1) = G_ICMP intpred(ult), [[PHI2]](s32), [[C9]]
+  ; CHECK-NEXT:   [[COPY17:%[0-9]+]]:sreg_32(s1) = COPY [[ICMP2]](s1)
+  ; CHECK-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY12]](s1), $exec_lo, implicit-def $scc
+  ; CHECK-NEXT:   [[S_AND_B32_1:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY17]](s1), implicit-def $scc
   ; CHECK-NEXT:   [[S_OR_B32_1:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_1]](s1), [[S_AND_B32_1]](s1), implicit-def $scc
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.5:
   ; CHECK-NEXT:   successors: %bb.3(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[PHI5:%[0-9]+]]:sreg_32(s1) = PHI [[COPY9]](s1), %bb.2, [[S_OR_B32_1]](s1), %bb.4
-  ; CHECK-NEXT:   [[PHI6:%[0-9]+]]:_(s32) = G_PHI [[ADD1]](s32), %bb.4, [[DEF]](s32), %bb.2
-  ; CHECK-NEXT:   [[COPY13:%[0-9]+]]:sreg_32(s1) = COPY [[PHI5]](s1)
-  ; CHECK-NEXT:   [[COPY14:%[0-9]+]]:sreg_32(s1) = COPY [[COPY13]](s1)
-  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[SI_IF1]](s32)
-  ; CHECK-NEXT:   [[S_ANDN2_B32_2:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY8]](s1), $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[S_AND_B32_2:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY14]](s1), implicit-def $scc
+  ; CHECK-NEXT:   [[PHI5:%[0-9]+]]:sreg_32(s1) = PHI [[COPY11]](s1), %bb.2, [[S_OR_B32_1]](s1), %bb.4
+  ; CHECK-NEXT:   [[PHI6:%[0-9]+]]:sgpr(s32) = G_PHI [[ADD1]](s32), %bb.4, [[DEF]](s32), %bb.2
+  ; CHECK-NEXT:   [[COPY18:%[0-9]+]]:sreg_32(s1) = COPY [[PHI5]](s1)
+  ; CHECK-NEXT:   [[COPY19:%[0-9]+]]:sreg_32(s1) = COPY [[COPY18]](s1)
+  ; CHECK-NEXT:   [[COPY20:%[0-9]+]]:sgpr(s32) = COPY [[SI_IF1]](s32)
+  ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[COPY20]](s32)
+  ; CHECK-NEXT:   [[S_ANDN2_B32_2:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY9]](s1), $exec_lo, implicit-def $scc
+  ; CHECK-NEXT:   [[S_AND_B32_2:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY19]](s1), implicit-def $scc
   ; CHECK-NEXT:   [[S_OR_B32_2:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_2]](s1), [[S_AND_B32_2]](s1), implicit-def $scc
   ; CHECK-NEXT:   G_BR %bb.3
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.6:
-  ; CHECK-NEXT:   [[PHI7:%[0-9]+]]:_(s32) = G_PHI [[INT]](s32), %bb.3
+  ; CHECK-NEXT:   [[PHI7:%[0-9]+]]:sgpr(s32) = G_PHI [[INT]](s32), %bb.3
   ; CHECK-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[PHI7]](s32)
   ; CHECK-NEXT:   S_ENDPGM 0
   bb.0:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-salu-float.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-salu-float.ll
index 0b4eb458b254f..f8f7f972f6c0a 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-salu-float.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-salu-float.ll
@@ -1,8 +1,8 @@
 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
 ; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s | FileCheck -check-prefix=OLD_RBS_GFX10 %s
 ; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1200 < %s | FileCheck -check-prefix=OLD_RBS_GFX12 %s
-; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s | FileCheck -check-prefix=NEW_RBS_GFX10 %s
-; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1200 < %s | FileCheck -check-prefix=NEW_RBS_GFX12 %s
+; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 -new-reg-bank-select < %s | FileCheck -check-prefix=NEW_RBS_GFX10 %s
+; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1200 -new-reg-bank-select < %s | FileCheck -check-prefix=NEW_RBS_GFX12 %s
 
 define amdgpu_ps void @salu_float(float inreg %a, float inreg %b, i32 inreg %c, ptr addrspace(1) %ptr) {
 ; OLD_RBS_GFX10-LABEL: salu_float:
@@ -28,7 +28,9 @@ define amdgpu_ps void @salu_float(float inreg %a, float inreg %b, i32 inreg %c,
 ; NEW_RBS_GFX10:       ; %bb.0:
 ; NEW_RBS_GFX10-NEXT:    v_add_f32_e64 v2, s0, s1
 ; NEW_RBS_GFX10-NEXT:    v_cvt_u32_f32_e32 v2, v2
-; NEW_RBS_GFX10-NEXT:    v_add_nc_u32_e32 v2, s2, v2
+; NEW_RBS_GFX10-NEXT:    v_readfirstlane_b32 s0, v2
+; NEW_RBS_GFX10-NEXT:    s_add_i32 s0, s0, s2
+; NEW_RBS_GFX10-NEXT:    v_mov_b32_e32 v2, s0
 ; NEW_RBS_GFX10-NEXT:    global_store_dword v[0:1], v2, off
 ; NEW_RBS_GFX10-NEXT:    s_endpgm
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-salu-float.mir b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-salu-float.mir
index 98a8f4f04e49d..733f3d302472c 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-salu-float.mir
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui-salu-float.mir
@@ -1,8 +1,8 @@
 # NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 5
-# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass=regbankselect %s -o - | FileCheck %s -check-prefixes=OLD_RBS_GFX10
-# RUN: llc -mtriple=amdgcn -mcpu=gfx1200 -run-pass=regbankselect %s -o - | FileCheck %s -check-prefixes=OLD_RBS_GFX12
-# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass=regbankselect %s -o - | FileCheck %s -check-prefixes=NEW_RBS_GFX10
-# RUN: llc -mtriple=amdgcn -mcpu=gfx1200 -run-pass=regbankselect %s -o - | FileCheck %s -check-prefixes=NEW_RBS_GFX12
+# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass=regbankselect %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=OLD_RBS_GFX10
+# RUN: llc -mtriple=amdgcn -mcpu=gfx1200 -run-pass=regbankselect %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=OLD_RBS_GFX12
+# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass="amdgpu-regbankselect,amdgpu-regbanklegalize" %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=NEW_RBS_GFX10
+# RUN: llc -mtriple=amdgcn -mcpu=gfx1200 -run-pass="amdgpu-regbankselect,amdgpu-regbanklegalize" %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=NEW_RBS_GFX12
 
 ---
 name: salu_float
@@ -58,9 +58,10 @@ body: |
     ; NEW_RBS_GFX10-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
     ; NEW_RBS_GFX10-NEXT: [[FADD:%[0-9]+]]:vgpr(s32) = G_FADD [[COPY5]], [[COPY6]]
     ; NEW_RBS_GFX10-NEXT: [[FPTOUI:%[0-9]+]]:vgpr(s32) = G_FPTOUI [[FADD]](s32)
-    ; NEW_RBS_GFX10-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[COPY2]](s32)
-    ; NEW_RBS_GFX10-NEXT: [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[FPTOUI]], [[COPY7]]
-    ; NEW_RBS_GFX10-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; NEW_RBS_GFX10-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[FPTOUI]]
+    ; NEW_RBS_GFX10-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[AMDGPU_READANYLANE]], [[COPY2]]
+    ; NEW_RBS_GFX10-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+    ; NEW_RBS_GFX10-NEXT: G_STORE [[COPY7]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS_GFX10-NEXT: S_ENDPGM 0
     ;
     ; NEW_RBS_GFX12-LABEL: name: salu_float
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui.ll
index 287a8ab0e52f5..191739b37672e 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui.ll
@@ -1,6 +1,6 @@
 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
 ; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s | FileCheck -check-prefix=OLD_RBS %s
-; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 < %s | FileCheck -check-prefix=NEW_RBS %s
+; RUN: llc -global-isel -mtriple=amdgcn-amd-amdpal -mcpu=gfx1010 -new-reg-bank-select < %s | FileCheck -check-prefix=NEW_RBS %s
 
 ; if instruction is uniform and there is available instruction, select SALU instruction
 define amdgpu_ps void @uniform_in_vgpr(float inreg %a, i32 inreg %b, ptr addrspace(1) %ptr) {
@@ -14,7 +14,9 @@ define amdgpu_ps void @uniform_in_vgpr(float inreg %a, i32 inreg %b, ptr addrspa
 ; NEW_RBS-LABEL: uniform_in_vgpr:
 ; NEW_RBS:       ; %bb.0:
 ; NEW_RBS-NEXT:    v_cvt_u32_f32_e32 v2, s0
-; NEW_RBS-NEXT:    v_add_nc_u32_e32 v2, s1, v2
+; NEW_RBS-NEXT:    v_readfirstlane_b32 s0, v2
+; NEW_RBS-NEXT:    s_add_i32 s0, s0, s1
+; NEW_RBS-NEXT:    v_mov_b32_e32 v2, s0
 ; NEW_RBS-NEXT:    global_store_dword v[0:1], v2, off
 ; NEW_RBS-NEXT:    s_endpgm
   %a.i32 = fptoui float %a to i32
@@ -37,7 +39,9 @@ define amdgpu_ps void @back_to_back_uniform_in_vgpr(float inreg %a, float inreg
 ; NEW_RBS:       ; %bb.0:
 ; NEW_RBS-NEXT:    v_add_f32_e64 v2, s0, s1
 ; NEW_RBS-NEXT:    v_cvt_u32_f32_e32 v2, v2
-; NEW_RBS-NEXT:    v_add_nc_u32_e32 v2, s2, v2
+; NEW_RBS-NEXT:    v_readfirstlane_b32 s0, v2
+; NEW_RBS-NEXT:    s_add_i32 s0, s0, s2
+; NEW_RBS-NEXT:    v_mov_b32_e32 v2, s0
 ; NEW_RBS-NEXT:    global_store_dword v[0:1], v2, off
 ; NEW_RBS-NEXT:    s_endpgm
   %add = fadd float %a, %b
@@ -63,7 +67,9 @@ define amdgpu_cs void @buffer_load_uniform(<4 x i32> inreg %rsrc, i32 inreg %vof
 ; NEW_RBS-NEXT:    v_mov_b32_e32 v2, s4
 ; NEW_RBS-NEXT:    buffer_load_dwordx4 v[2:5], v2, s[0:3], 0 offen
 ; NEW_RBS-NEXT:    s_waitcnt vmcnt(0)
-; NEW_RBS-NEXT:    v_add_nc_u32_e32 v2, 1, v3
+; NEW_RBS-NEXT:    v_readfirstlane_b32 s0, v3
+; NEW_RBS-NEXT:    s_add_i32 s0, s0, 1
+; NEW_RBS-NEXT:    v_mov_b32_e32 v2, s0
 ; NEW_RBS-NEXT:    global_store_dword v[0:1], v2, off
 ; NEW_RBS-NEXT:    s_endpgm
 .entry:
@@ -168,7 +174,8 @@ define amdgpu_ps void @uniform_i1_phi(ptr addrspace(1) %out, i32 inreg %tid, i32
 ; NEW_RBS-NEXT:    s_cmp_lt_u32 s0, 1
 ; NEW_RBS-NEXT:    s_cselect_b32 s2, 1, 0
 ; NEW_RBS-NEXT:  .LBB6_2: ; %exit
-; NEW_RBS-NEXT:    s_bfe_i32 s0, s2, 0x10000
+; NEW_RBS-NEXT:    s_cmp_lg_u32 s2, 0
+; NEW_RBS-NEXT:    s_cselect_b32 s0, -1, 0
 ; NEW_RBS-NEXT:    s_add_i32 s0, s0, 2
 ; NEW_RBS-NEXT:    v_mov_b32_e32 v2, s0
 ; NEW_RBS-NEXT:    global_store_dword v[0:1], v2, off
@@ -202,9 +209,13 @@ define amdgpu_ps void @vcc_to_scc(float inreg %a, i32 inreg %b, i32 inreg %c, pt
 ;
 ; NEW_RBS-LABEL: vcc_to_scc:
 ; NEW_RBS:       ; %bb.0:
-; NEW_RBS-NEXT:    v_mov_b32_e32 v2, s2
 ; NEW_RBS-NEXT:    v_cmp_eq_f32_e64 s0, s0, 0
-; NEW_RBS-NEXT:    v_cndmask_b32_e64 v2, v2, s1, s0
+; NEW_RBS-NEXT:    s_cmp_lg_u32 s0, 0
+; NEW_RBS-NEXT:    s_cselect_b32 s0, 1, 0
+; NEW_RBS-NEXT:    s_and_b32 s0, s0, 1
+; NEW_RBS-NEXT:    s_cmp_lg_u32 s0, 0
+; NEW_RBS-NEXT:    s_cselect_b32 s0, s1, s2
+; NEW_RBS-NEXT:    v_mov_b32_e32 v2, s0
 ; NEW_RBS-NEXT:    global_store_dword v[0:1], v2, off
 ; NEW_RBS-NEXT:    s_endpgm
   %vcc_to_scc = fcmp oeq float %a, 0.0
@@ -228,9 +239,7 @@ define amdgpu_ps void @scc_to_vcc(i32 inreg %a, i32 %b, i32 %c, ptr addrspace(1)
 ; NEW_RBS-LABEL: scc_to_vcc:
 ; NEW_RBS:       ; %bb.0:
 ; NEW_RBS-NEXT:    s_cmp_eq_u32 s0, 0
-; NEW_RBS-NEXT:    s_cselect_b32 s0, 1, 0
-; NEW_RBS-NEXT:    s_and_b32 s0, 1, s0
-; NEW_RBS-NEXT:    v_cmp_ne_u32_e64 vcc_lo, 0, s0
+; NEW_RBS-NEXT:    s_cselect_b32 vcc_lo, exec_lo, 0
 ; NEW_RBS-NEXT:    v_cndmask_b32_e32 v0, v1, v0, vcc_lo
 ; NEW_RBS-NEXT:    global_store_dword v[2:3], v0, off
 ; NEW_RBS-NEXT:    s_endpgm
@@ -300,8 +309,7 @@ define amdgpu_ps void @sext(i32 inreg %a, ptr addrspace(1) %ptr) {
 ; NEW_RBS-LABEL: sext:
 ; NEW_RBS:       ; %bb.0:
 ; NEW_RBS-NEXT:    s_cmp_eq_u32 s0, 10
-; NEW_RBS-NEXT:    s_cselect_b32 s0, 1, 0
-; NEW_RBS-NEXT:    s_bfe_i32 s0, s0, 0x10000
+; NEW_RBS-NEXT:    s_cselect_b32 s0, -1, 0
 ; NEW_RBS-NEXT:    v_mov_b32_e32 v2, s0
 ; NEW_RBS-NEXT:    global_store_dword v[0:1], v2, off
 ; NEW_RBS-NEXT:    s_endpgm
@@ -362,7 +370,6 @@ define amdgpu_ps void @and_i1_scc(i32 inreg %a, i32 inreg %b, ptr addrspace(1) %
 ; NEW_RBS-NEXT:    s_cmp_ge_u32 s1, 20
 ; NEW_RBS-NEXT:    s_cselect_b32 s3, 1, 0
 ; NEW_RBS-NEXT:    s_and_b32 s2, s2, s3
-; NEW_RBS-NEXT:    s_and_b32 s2, s2, 1
 ; NEW_RBS-NEXT:    s_cmp_lg_u32 s2, 0
 ; NEW_RBS-NEXT:    s_cselect_b32 s0, s0, s1
 ; NEW_RBS-NEXT:    v_mov_b32_e32 v2, s0
@@ -395,12 +402,13 @@ define amdgpu_ps void @divergent_phi_with_uniform_inputs(i32 %a, ptr addrspace(1
 ; NEW_RBS:       ; %bb.0: ; %A
 ; NEW_RBS-NEXT:    s_mov_b32 s0, 0
 ; NEW_RBS-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 0, v0
-; NEW_RBS-NEXT:    s_and_saveexec_b32 s1, vcc_lo
+; NEW_RBS-NEXT:    v_mov_b32_e32 v0, s0
+; NEW_RBS-NEXT:    s_and_saveexec_b32 s0, vcc_lo
 ; NEW_RBS-NEXT:  ; %bb.1: ; %B
-; NEW_RBS-NEXT:    s_mov_b32 s0, 1
+; NEW_RBS-NEXT:    s_mov_b32 s1, 1
+; NEW_RBS-NEXT:    v_mov_b32_e32 v0, s1
 ; NEW_RBS-NEXT:  ; %bb.2: ; %exit
-; NEW_RBS-NEXT:    s_or_b32 exec_lo, exec_lo, s1
-; NEW_RBS-NEXT:    v_mov_b32_e32 v0, s0
+; NEW_RBS-NEXT:    s_or_b32 exec_lo, exec_lo, s0
 ; NEW_RBS-NEXT:    global_store_dword v[1:2], v0, off
 ; NEW_RBS-NEXT:    s_endpgm
 A:
@@ -443,19 +451,19 @@ define amdgpu_ps void @divergent_because_of_temporal_divergent_use(float %val, p
 ; NEW_RBS-LABEL: divergent_because_of_temporal_divergent_use:
 ; NEW_RBS:       ; %bb.0: ; %entry
 ; NEW_RBS-NEXT:    s_mov_b32 s0, -1
-; NEW_RBS-NEXT:    v_mov_b32_e32 v3, s0
-; NEW_RBS-NEXT:    s_mov_b32 s0, 0
+; NEW_RBS-NEXT:    s_mov_b32 s1, 0
 ; NEW_RBS-NEXT:  .LBB15_1: ; %loop
 ; NEW_RBS-NEXT:    ; =>This Inner Loop Header: Depth=1
-; NEW_RBS-NEXT:    v_add_nc_u32_e32 v3, 1, v3
-; NEW_RBS-NEXT:    v_cvt_f32_u32_e32 v4, v3
-; NEW_RBS-NEXT:    v_cmp_gt_f32_e32 vcc_lo, v4, v0
-; NEW_RBS-NEXT:    s_or_b32 s0, vcc_lo, s0
-; NEW_RBS-NEXT:    s_andn2_b32 exec_lo, exec_lo, s0
+; NEW_RBS-NEXT:    s_add_i32 s0, s0, 1
+; NEW_RBS-NEXT:    v_cvt_f32_u32_e32 v3, s0
+; NEW_RBS-NEXT:    v_cmp_gt_f32_e32 vcc_lo, v3, v0
+; NEW_RBS-NEXT:    s_or_b32 s1, vcc_lo, s1
+; NEW_RBS-NEXT:    s_andn2_b32 exec_lo, exec_lo, s1
 ; NEW_RBS-NEXT:    s_cbranch_execnz .LBB15_1
 ; NEW_RBS-NEXT:  ; %bb.2: ; %exit
-; NEW_RBS-NEXT:    s_or_b32 exec_lo, exec_lo, s0
-; NEW_RBS-NEXT:    v_mul_lo_u32 v0, v3, 10
+; NEW_RBS-NEXT:    s_or_b32 exec_lo, exec_lo, s1
+; NEW_RBS-NEXT:    v_mov_b32_e32 v0, s0
+; NEW_RBS-NEXT:    v_mul_lo_u32 v0, v0, 10
 ; NEW_RBS-NEXT:    global_store_dword v[1:2], v0, off
 ; NEW_RBS-NEXT:    s_endpgm
 entry:
@@ -475,9 +483,6 @@ exit:
 }
 
 ; Variables that hande counter can be allocated to sgprs.
-; Machine uniformity analysis claims some of those registers are divergent while
-; LLVM-IR uniformity analysis claims corresponding values are uniform.
-; TODO: fix this in Machine uniformity analysis.
 define amdgpu_cs void @loop_with_2breaks(ptr addrspace(1) %x, ptr addrspace(1) %a, ptr addrspace(1) %b) {
 ; OLD_RBS-LABEL: loop_with_2breaks:
 ; OLD_RBS:       ; %bb.0: ; %entry
@@ -543,62 +548,69 @@ define amdgpu_cs void @loop_with_2breaks(ptr addrspace(1) %x, ptr addrspace(1) %
 ;
 ; NEW_RBS-LABEL: loop_with_2breaks:
 ; NEW_RBS:       ; %bb.0: ; %entry
+; NEW_RBS-NEXT:    s_mov_b32 s4, 0
 ; NEW_RBS-NEXT:    s_mov_b32 s0, 0
-; NEW_RBS-NEXT:    ; implicit-def: $sgpr1
-; NEW_RBS-NEXT:    v_mov_b32_e32 v6, s0
+; NEW_RBS-NEXT:    ; implicit-def: $sgpr5
 ; NEW_RBS-NEXT:    s_branch .LBB16_3
 ; NEW_RBS-NEXT:  .LBB16_1: ; %Flow3
 ; NEW_RBS-NEXT:    ; in Loop: Header=BB16_3 Depth=1
 ; NEW_RBS-NEXT:    s_waitcnt_depctr 0xffe3
-; NEW_RBS-NEXT:    s_or_b32 exec_lo, exec_lo, s3
-; NEW_RBS-NEXT:    s_andn2_b32 s1, s1, exec_lo
-; NEW_RBS-NEXT:    s_and_b32 s3, exec_lo, s4
-; NEW_RBS-NEXT:    s_or_b32 s1, s1, s3
+; NEW_RBS-NEXT:    s_or_b32 exec_lo, exec_lo, s7
+; NEW_RBS-NEXT:    s_andn2_b32 s2, s5, exec_lo
+; NEW_RBS-NEXT:    s_and_b32 s3, exec_lo, s6
+; NEW_RBS-NEXT:    s_or_b32 s5, s2, s3
 ; NEW_RBS-NEXT:  .LBB16_2: ; %Flow
 ; NEW_RBS-NEXT:    ; in Loop: Header=BB16_3 Depth=1
-; NEW_RBS-NEXT:    s_or_b32 exec_lo, exec_lo, s2
-; NEW_RBS-NEXT:    s_and_b32 s2, exec_lo, s1
-; NEW_RBS-NEXT:    s_or_b32 s0, s2, s0
-; NEW_RBS-NEXT:    s_andn2_b32 exec_lo, exec_lo, s0
+; NEW_RBS-NEXT:    s_or_b32 exec_lo, exec_lo, s1
+; NEW_RBS-NEXT:    s_and_b32 s1, exec_lo, s5
+; NEW_RBS-NEXT:    s_or_b32 s4, s1, s4
+; NEW_RBS-NEXT:    s_andn2_b32 exec_lo, exec_lo, s4
 ; NEW_RBS-NEXT:    s_cbranch_execz .LBB16_6
 ; NEW_RBS-NEXT:  .LBB16_3: ; %A
 ; NEW_RBS-NEXT:    ; =>This Inner Loop Header: Depth=1
-; NEW_RBS-NEXT:    v_ashrrev_i32_e32 v7, 31, v6
-; NEW_RBS-NEXT:    s_andn2_b32 s1, s1, exec_lo
-; NEW_RBS-NEXT:    s_and_b32 s2, exec_lo, -1
-; NEW_RBS-NEXT:    s_or_b32 s1, s1, s2
-; NEW_RBS-NEXT:    v_lshlrev_b64 v[7:8], 2, v[6:7]
-; NEW_RBS-NEXT:    v_add_co_u32 v9, vcc_lo, v2, v7
-; NEW_RBS-NEXT:    v_add_co_ci_u32_e32 v10, vcc_lo, v3, v8, vcc_lo
-; NEW_RBS-NEXT:    global_load_dword v9, v[9:10], off
+; NEW_RBS-NEXT:    s_ashr_i32 s1, s0, 31
+; NEW_RBS-NEXT:    s_lshl_b64 s[2:3], s[0:1], 2
+; NEW_RBS-NEXT:    s_andn2_b32 s1, s5, exec_lo
+; NEW_RBS-NEXT:    v_mov_b32_e32 v7, s3
+; NEW_RBS-NEXT:    v_mov_b32_e32 v6, s2
+; NEW_RBS-NEXT:    s_and_b32 s5, exec_lo, exec_lo
+; NEW_RBS-NEXT:    s_or_b32 s5, s1, s5
+; NEW_RBS-NEXT:    v_add_co_u32 v6, vcc_lo, v2, v6
+; NEW_RBS-NEXT:    v_add_co_ci_u32_e32 v7, vcc_lo, v3, v7, vcc_lo
+; NEW_RBS-NEXT:    global_load_dword v6, v[6:7], off
 ; NEW_RBS-NEXT:    s_waitcnt vmcnt(0)
-; NEW_RBS-NEXT:    v_cmp_ne_u32_e32 vcc_lo, 0, v9
-; NEW_RBS-NEXT:    s_and_saveexec_b32 s2, vcc_lo
+; NEW_RBS-NEXT:    v_cmp_ne_u32_e32 vcc_lo, 0, v6
+; NEW_RBS-NEXT:    s_and_saveexec_b32 s1, vcc_lo
 ; NEW_RBS-NEXT:    s_cbranch_execz .LBB16_2
 ; NEW_RBS-NEXT:  ; %bb.4: ; %B
 ; NEW_RBS-NEXT:    ; in Loop: Header=BB16_3 Depth=1
-; NEW_RBS-NEXT:    v_add_co_u32 v9, vcc_lo, v4, v7
-; NEW_RBS-NEXT:    v_add_co_ci_u32_e32 v10, vcc_lo, v5, v8, vcc_lo
-; NEW_RBS-NEXT:    s_mov_b32 s4, -1
-; NEW_RBS-NEXT:    global_load_dword v9, v[9:10], off
+; NEW_RBS-NEXT:    v_mov_b32_e32 v7, s3
+; NEW_RBS-NEXT:    v_mov_b32_e32 v6, s2
+; NEW_RBS-NEXT:    s_mov_b32 s6, exec_lo
+; NEW_RBS-NEXT:    v_add_co_u32 v6, vcc_lo, v4, v6
+; NEW_RBS-NEXT:    v_add_co_ci_u32_e32 v7, vcc_lo, v5, v7, vcc_lo
+; NEW_RBS-NEXT:    global_load_dword v6, v[6:7], off
 ; NEW_RBS-NEXT:    s_waitcnt vmcnt(0)
-; NEW_RBS-NEXT:    v_cmp_ne_u32_e32 vcc_lo, 0, v9
-; NEW_RBS-NEXT:    s_and_saveexec_b32 s3, vcc_lo
+; NEW_RBS-NEXT:    v_cmp_ne_u32_e32 vcc_lo, 0, v6
+; NEW_RBS-NEXT:    s_and_saveexec_b32 s7, vcc_lo
 ; NEW_RBS-NEXT:    s_cbranch_execz .LBB16_1
 ; NEW_RBS-NEXT:  ; %bb.5: ; %loop.body
 ; NEW_RBS-NEXT:    ; in Loop: Header=BB16_3 Depth=1
-; NEW_RBS-NEXT:    v_add_co_u32 v7, vcc_lo, v0, v7
-; NEW_RBS-NEXT:    v_add_co_ci_u32_e32 v8, vcc_lo, v1, v8, vcc_lo
-; NEW_RBS-NEXT:    v_add_nc_u32_e32 v10, 1, v6
-; NEW_RBS-NEXT:    v_cmp_gt_u32_e32 vcc_lo, 0x64, v6
-; NEW_RBS-NEXT:    s_andn2_b32 s4, -1, exec_lo
-; NEW_RBS-NEXT:    global_load_dword v9, v[7:8], off
-; NEW_RBS-NEXT:    v_mov_b32_e32 v6, v10
-; NEW_RBS-NEXT:    s_and_b32 s5, exec_lo, vcc_lo
-; NEW_RBS-NEXT:    s_or_b32 s4, s4, s5
+; NEW_RBS-NEXT:    v_mov_b32_e32 v7, s3
+; NEW_RBS-NEXT:    v_mov_b32_e32 v6, s2
+; NEW_RBS-NEXT:    s_add_i32 s2, s0, 1
+; NEW_RBS-NEXT:    s_cmpk_lt_u32 s0, 0x64
+; NEW_RBS-NEXT:    s_cselect_b32 s0, exec_lo, 0
+; NEW_RBS-NEXT:    v_add_co_u32 v6, vcc_lo, v0, v6
+; NEW_RBS-NEXT:    v_add_co_ci_u32_e32 v7, vcc_lo, v1, v7, vcc_lo
+; NEW_RBS-NEXT:    s_andn2_b32 s3, s6, exec_lo
+; NEW_RBS-NEXT:    s_and_b32 s0, exec_lo, s0
+; NEW_RBS-NEXT:    s_or_b32 s6, s3, s0
+; NEW_RBS-NEXT:    global_load_dword v8, v[6:7], off
+; NEW_RBS-NEXT:    s_mov_b32 s0, s2
 ; NEW_RBS-NEXT:    s_waitcnt vmcnt(0)
-; NEW_RBS-NEXT:    v_add_nc_u32_e32 v9, 1, v9
-; NEW_RBS-NEXT:    global_store_dword v[7:8], v9, off
+; NEW_RBS-NEXT:    v_add_nc_u32_e32 v8, 1, v8
+; NEW_RBS-NEXT:    global_store_dword v[6:7], v8, off
 ; NEW_RBS-NEXT:    s_branch .LBB16_1
 ; NEW_RBS-NEXT:  .LBB16_6: ; %exit
 ; NEW_RBS-NEXT:    s_endpgm
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui.mir b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui.mir
index ef3a0a3a67594..1b22ee4b3fffc 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui.mir
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-mui.mir
@@ -1,6 +1,6 @@
 # NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 5
 # RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass=regbankselect %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=OLD_RBS
-# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass=regbankselect %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=NEW_RBS
+# RUN: llc -mtriple=amdgcn -mcpu=gfx1010 -run-pass="amdgpu-regbankselect,amdgpu-regbanklegalize" %s -verify-machineinstrs -o - | FileCheck %s -check-prefixes=NEW_RBS
 
 ---
 name: uniform_in_vgpr
@@ -34,9 +34,10 @@ body: |
     ; NEW_RBS-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
     ; NEW_RBS-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
     ; NEW_RBS-NEXT: [[FPTOUI:%[0-9]+]]:vgpr(s32) = G_FPTOUI [[COPY4]](s32)
-    ; NEW_RBS-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
-    ; NEW_RBS-NEXT: [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[FPTOUI]], [[COPY5]]
-    ; NEW_RBS-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; NEW_RBS-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[FPTOUI]]
+    ; NEW_RBS-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[AMDGPU_READANYLANE]], [[COPY1]]
+    ; NEW_RBS-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+    ; NEW_RBS-NEXT: G_STORE [[COPY5]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
     %1:_(s32) = COPY $sgpr1
@@ -87,9 +88,10 @@ body: |
     ; NEW_RBS-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
     ; NEW_RBS-NEXT: [[FADD:%[0-9]+]]:vgpr(s32) = G_FADD [[COPY5]], [[COPY6]]
     ; NEW_RBS-NEXT: [[FPTOUI:%[0-9]+]]:vgpr(s32) = G_FPTOUI [[FADD]](s32)
-    ; NEW_RBS-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[COPY2]](s32)
-    ; NEW_RBS-NEXT: [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[FPTOUI]], [[COPY7]]
-    ; NEW_RBS-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; NEW_RBS-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[FPTOUI]]
+    ; NEW_RBS-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[AMDGPU_READANYLANE]], [[COPY2]]
+    ; NEW_RBS-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+    ; NEW_RBS-NEXT: G_STORE [[COPY7]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
     %1:_(s32) = COPY $sgpr1
@@ -150,11 +152,17 @@ body: |
     ; NEW_RBS-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
     ; NEW_RBS-NEXT: [[COPY8:%[0-9]+]]:vgpr(s32) = COPY [[COPY4]](s32)
     ; NEW_RBS-NEXT: [[AMDGPU_BUFFER_LOAD:%[0-9]+]]:vgpr(<4 x s32>) = G_AMDGPU_BUFFER_LOAD [[BUILD_VECTOR]](<4 x s32>), [[COPY7]](s32), [[COPY8]], [[C]], 0, 0, 0 :: (dereferenceable load (<4 x s32>), align 1, addrspace 8)
-    ; NEW_RBS-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
     ; NEW_RBS-NEXT: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[AMDGPU_BUFFER_LOAD]](<4 x s32>)
-    ; NEW_RBS-NEXT: [[COPY9:%[0-9]+]]:vgpr(s32) = COPY [[C1]](s32)
-    ; NEW_RBS-NEXT: [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[UV1]], [[COPY9]]
-    ; NEW_RBS-NEXT: G_STORE [[ADD]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; NEW_RBS-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV]]
+    ; NEW_RBS-NEXT: [[AMDGPU_READANYLANE1:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV1]]
+    ; NEW_RBS-NEXT: [[AMDGPU_READANYLANE2:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV2]]
+    ; NEW_RBS-NEXT: [[AMDGPU_READANYLANE3:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[UV3]]
+    ; NEW_RBS-NEXT: [[BUILD_VECTOR1:%[0-9]+]]:sgpr(<4 x s32>) = G_BUILD_VECTOR [[AMDGPU_READANYLANE]](s32), [[AMDGPU_READANYLANE1]](s32), [[AMDGPU_READANYLANE2]](s32), [[AMDGPU_READANYLANE3]](s32)
+    ; NEW_RBS-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; NEW_RBS-NEXT: [[UV4:%[0-9]+]]:sgpr(s32), [[UV5:%[0-9]+]]:sgpr(s32), [[UV6:%[0-9]+]]:sgpr(s32), [[UV7:%[0-9]+]]:sgpr(s32) = G_UNMERGE_VALUES [[BUILD_VECTOR1]](<4 x s32>)
+    ; NEW_RBS-NEXT: [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[UV5]], [[C1]]
+    ; NEW_RBS-NEXT: [[COPY9:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+    ; NEW_RBS-NEXT: G_STORE [[COPY9]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
     %1:_(s32) = COPY $sgpr1
@@ -407,29 +415,28 @@ body: |
   ; NEW_RBS-NEXT:   [[COPY3:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
   ; NEW_RBS-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 6
   ; NEW_RBS-NEXT:   [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(uge), [[COPY2]](s32), [[C]]
-  ; NEW_RBS-NEXT:   [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP]](s32)
   ; NEW_RBS-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
   ; NEW_RBS-NEXT:   [[ICMP1:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(ne), [[COPY3]](s32), [[C1]]
-  ; NEW_RBS-NEXT:   [[TRUNC1:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP1]](s32)
-  ; NEW_RBS-NEXT:   [[ZEXT:%[0-9]+]]:sgpr(s32) = G_ZEXT [[TRUNC1]](s1)
-  ; NEW_RBS-NEXT:   [[ANYEXT:%[0-9]+]]:sgpr(s32) = G_ANYEXT [[TRUNC]](s1)
-  ; NEW_RBS-NEXT:   G_BRCOND [[ZEXT]](s32), %bb.2
+  ; NEW_RBS-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; NEW_RBS-NEXT:   [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP1]], [[C2]]
+  ; NEW_RBS-NEXT:   G_BRCOND [[AND]](s32), %bb.2
   ; NEW_RBS-NEXT:   G_BR %bb.1
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT: bb.1:
   ; NEW_RBS-NEXT:   successors: %bb.2(0x80000000)
   ; NEW_RBS-NEXT: {{  $}}
-  ; NEW_RBS-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
-  ; NEW_RBS-NEXT:   [[ICMP2:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(ult), [[COPY2]](s32), [[C2]]
-  ; NEW_RBS-NEXT:   [[TRUNC2:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP2]](s32)
-  ; NEW_RBS-NEXT:   [[ANYEXT1:%[0-9]+]]:sgpr(s32) = G_ANYEXT [[TRUNC2]](s1)
+  ; NEW_RBS-NEXT:   [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; NEW_RBS-NEXT:   [[ICMP2:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(ult), [[COPY2]](s32), [[C3]]
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT: bb.2:
-  ; NEW_RBS-NEXT:   [[PHI:%[0-9]+]]:sgpr(s32) = G_PHI [[ANYEXT]](s32), %bb.0, [[ANYEXT1]](s32), %bb.1
-  ; NEW_RBS-NEXT:   [[TRUNC3:%[0-9]+]]:sgpr(s1) = G_TRUNC [[PHI]](s32)
-  ; NEW_RBS-NEXT:   [[SEXT:%[0-9]+]]:sgpr(s32) = G_SEXT [[TRUNC3]](s1)
-  ; NEW_RBS-NEXT:   [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
-  ; NEW_RBS-NEXT:   [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[SEXT]], [[C3]]
+  ; NEW_RBS-NEXT:   [[PHI:%[0-9]+]]:sgpr(s32) = G_PHI [[ICMP]](s32), %bb.0, [[ICMP2]](s32), %bb.1
+  ; NEW_RBS-NEXT:   [[C4:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+  ; NEW_RBS-NEXT:   [[AND1:%[0-9]+]]:sgpr(s32) = G_AND [[PHI]], [[C4]]
+  ; NEW_RBS-NEXT:   [[C5:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 -1
+  ; NEW_RBS-NEXT:   [[C6:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+  ; NEW_RBS-NEXT:   [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND1]](s32), [[C5]], [[C6]]
+  ; NEW_RBS-NEXT:   [[C7:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
+  ; NEW_RBS-NEXT:   [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[SELECT]], [[C7]]
   ; NEW_RBS-NEXT:   [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
   ; NEW_RBS-NEXT:   G_STORE [[COPY4]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
   ; NEW_RBS-NEXT:   S_ENDPGM 0
@@ -503,10 +510,12 @@ body: |
     ; NEW_RBS-NEXT: [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[COPY]](s32)
     ; NEW_RBS-NEXT: [[COPY6:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
     ; NEW_RBS-NEXT: [[FCMP:%[0-9]+]]:vcc(s1) = G_FCMP floatpred(oeq), [[COPY5]](s32), [[COPY6]]
-    ; NEW_RBS-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
-    ; NEW_RBS-NEXT: [[COPY8:%[0-9]+]]:vgpr(s32) = COPY [[COPY2]](s32)
-    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[FCMP]](s1), [[COPY7]], [[COPY8]]
-    ; NEW_RBS-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+    ; NEW_RBS-NEXT: [[AMDGPU_COPY_SCC_VCC:%[0-9]+]]:sgpr(s32) = G_AMDGPU_COPY_SCC_VCC [[FCMP]](s1)
+    ; NEW_RBS-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; NEW_RBS-NEXT: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[AMDGPU_COPY_SCC_VCC]], [[C1]]
+    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND]](s32), [[COPY1]], [[COPY2]]
+    ; NEW_RBS-NEXT: [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[SELECT]](s32)
+    ; NEW_RBS-NEXT: G_STORE [[COPY7]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
     %1:_(s32) = COPY $sgpr1
@@ -556,9 +565,8 @@ body: |
     ; NEW_RBS-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
     ; NEW_RBS-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
     ; NEW_RBS-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-    ; NEW_RBS-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP]](s32)
-    ; NEW_RBS-NEXT: [[COPY5:%[0-9]+]]:vcc(s1) = COPY [[TRUNC]](s1)
-    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[COPY5]](s1), [[COPY1]], [[COPY2]]
+    ; NEW_RBS-NEXT: [[AMDGPU_COPY_VCC_SCC:%[0-9]+]]:vcc(s1) = G_AMDGPU_COPY_VCC_SCC [[ICMP]](s32)
+    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[AMDGPU_COPY_VCC_SCC]](s1), [[COPY1]], [[COPY2]]
     ; NEW_RBS-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -605,9 +613,11 @@ body: |
     ; NEW_RBS-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY $vgpr3
     ; NEW_RBS-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY $vgpr4
     ; NEW_RBS-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY3]](s32), [[COPY4]](s32)
-    ; NEW_RBS-NEXT: [[TRUNC:%[0-9]+]]:vgpr(s1) = G_TRUNC [[COPY]](s32)
-    ; NEW_RBS-NEXT: [[COPY5:%[0-9]+]]:vcc(s1) = COPY [[TRUNC]](s1)
-    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[COPY5]](s1), [[COPY1]], [[COPY2]]
+    ; NEW_RBS-NEXT: [[C:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 1
+    ; NEW_RBS-NEXT: [[AND:%[0-9]+]]:vgpr(s32) = G_AND [[COPY]], [[C]]
+    ; NEW_RBS-NEXT: [[C1:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 0
+    ; NEW_RBS-NEXT: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(ne), [[AND]](s32), [[C1]]
+    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP]](s1), [[COPY1]], [[COPY2]]
     ; NEW_RBS-NEXT: G_STORE [[SELECT]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $vgpr0
@@ -653,9 +663,11 @@ body: |
     ; NEW_RBS-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
     ; NEW_RBS-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
     ; NEW_RBS-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-    ; NEW_RBS-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP]](s32)
-    ; NEW_RBS-NEXT: [[ZEXT:%[0-9]+]]:sgpr(s32) = G_ZEXT [[TRUNC]](s1)
-    ; NEW_RBS-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[ZEXT]](s32)
+    ; NEW_RBS-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; NEW_RBS-NEXT: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP]], [[C1]]
+    ; NEW_RBS-NEXT: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND]](s32), [[C1]], [[C2]]
+    ; NEW_RBS-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[SELECT]](s32)
     ; NEW_RBS-NEXT: G_STORE [[COPY3]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -700,9 +712,12 @@ body: |
     ; NEW_RBS-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
     ; NEW_RBS-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
     ; NEW_RBS-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(eq), [[COPY]](s32), [[C]]
-    ; NEW_RBS-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP]](s32)
-    ; NEW_RBS-NEXT: [[SEXT:%[0-9]+]]:sgpr(s32) = G_SEXT [[TRUNC]](s1)
-    ; NEW_RBS-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[SEXT]](s32)
+    ; NEW_RBS-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; NEW_RBS-NEXT: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP]], [[C1]]
+    ; NEW_RBS-NEXT: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 -1
+    ; NEW_RBS-NEXT: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
+    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND]](s32), [[C2]], [[C3]]
+    ; NEW_RBS-NEXT: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[SELECT]](s32)
     ; NEW_RBS-NEXT: G_STORE [[COPY3]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS-NEXT: S_ENDPGM 0
     %0:_(s32) = COPY $sgpr0
@@ -816,16 +831,12 @@ body: |
     ; NEW_RBS-NEXT: [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY2]](s32), [[COPY3]](s32)
     ; NEW_RBS-NEXT: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
     ; NEW_RBS-NEXT: [[ICMP:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(uge), [[COPY]](s32), [[C]]
-    ; NEW_RBS-NEXT: [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP]](s32)
     ; NEW_RBS-NEXT: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 20
     ; NEW_RBS-NEXT: [[ICMP1:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(uge), [[COPY1]](s32), [[C1]]
-    ; NEW_RBS-NEXT: [[TRUNC1:%[0-9]+]]:sgpr(s1) = G_TRUNC [[ICMP1]](s32)
-    ; NEW_RBS-NEXT: [[ANYEXT:%[0-9]+]]:sgpr(s32) = G_ANYEXT [[TRUNC]](s1)
-    ; NEW_RBS-NEXT: [[ANYEXT1:%[0-9]+]]:sgpr(s32) = G_ANYEXT [[TRUNC1]](s1)
-    ; NEW_RBS-NEXT: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ANYEXT]], [[ANYEXT1]]
-    ; NEW_RBS-NEXT: [[TRUNC2:%[0-9]+]]:sgpr(s1) = G_TRUNC [[AND]](s32)
-    ; NEW_RBS-NEXT: [[ZEXT:%[0-9]+]]:sgpr(s32) = G_ZEXT [[TRUNC2]](s1)
-    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[ZEXT]](s32), [[COPY]], [[COPY1]]
+    ; NEW_RBS-NEXT: [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP]], [[ICMP1]]
+    ; NEW_RBS-NEXT: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
+    ; NEW_RBS-NEXT: [[AND1:%[0-9]+]]:sgpr(s32) = G_AND [[AND]], [[C2]]
+    ; NEW_RBS-NEXT: [[SELECT:%[0-9]+]]:sgpr(s32) = G_SELECT [[AND1]](s32), [[COPY]], [[COPY1]]
     ; NEW_RBS-NEXT: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[SELECT]](s32)
     ; NEW_RBS-NEXT: G_STORE [[COPY4]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
     ; NEW_RBS-NEXT: S_ENDPGM 0
@@ -887,8 +898,9 @@ body: |
   ; NEW_RBS-NEXT:   [[MV:%[0-9]+]]:vgpr(p1) = G_MERGE_VALUES [[COPY1]](s32), [[COPY2]](s32)
   ; NEW_RBS-NEXT:   [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
   ; NEW_RBS-NEXT:   [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[C]](s32)
-  ; NEW_RBS-NEXT:   [[ICMP:%[0-9]+]]:sreg_32_xm0_xexec(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[COPY3]]
-  ; NEW_RBS-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[ICMP]](s1), %bb.2, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; NEW_RBS-NEXT:   [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY]](s32), [[COPY3]]
+  ; NEW_RBS-NEXT:   [[COPY4:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[ICMP]](s1)
+  ; NEW_RBS-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY4]](s1), %bb.2, implicit-def $exec, implicit-def $scc, implicit $exec
   ; NEW_RBS-NEXT:   G_BR %bb.1
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT: bb.1:
@@ -897,10 +909,10 @@ body: |
   ; NEW_RBS-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT: bb.2:
-  ; NEW_RBS-NEXT:   [[PHI:%[0-9]+]]:sgpr(s32) = G_PHI [[C]](s32), %bb.0, [[C1]](s32), %bb.1
-  ; NEW_RBS-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[SI_IF]](s32)
-  ; NEW_RBS-NEXT:   [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[PHI]](s32)
-  ; NEW_RBS-NEXT:   G_STORE [[COPY4]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
+  ; NEW_RBS-NEXT:   [[PHI:%[0-9]+]]:vgpr(s32) = G_PHI [[C]](s32), %bb.0, [[C1]](s32), %bb.1
+  ; NEW_RBS-NEXT:   [[COPY5:%[0-9]+]]:sgpr(s32) = COPY [[SI_IF]](s32)
+  ; NEW_RBS-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[COPY5]](s32)
+  ; NEW_RBS-NEXT:   G_STORE [[PHI]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
   ; NEW_RBS-NEXT:   S_ENDPGM 0
   bb.0:
     successors: %bb.1(0x40000000), %bb.2(0x40000000)
@@ -983,15 +995,16 @@ body: |
   ; NEW_RBS-NEXT: bb.1:
   ; NEW_RBS-NEXT:   successors: %bb.2(0x04000000), %bb.1(0x7c000000)
   ; NEW_RBS-NEXT: {{  $}}
-  ; NEW_RBS-NEXT:   [[PHI:%[0-9]+]]:sgpr(s32) = G_PHI %7(s32), %bb.1, [[C1]](s32), %bb.0
-  ; NEW_RBS-NEXT:   [[PHI1:%[0-9]+]]:vgpr(s32) = G_PHI [[C]](s32), %bb.0, %9(s32), %bb.1
+  ; NEW_RBS-NEXT:   [[PHI:%[0-9]+]]:sgpr(s32) = G_PHI %17(s32), %bb.1, [[C1]](s32), %bb.0
+  ; NEW_RBS-NEXT:   [[PHI1:%[0-9]+]]:sgpr(s32) = G_PHI [[C]](s32), %bb.0, %9(s32), %bb.1
   ; NEW_RBS-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
-  ; NEW_RBS-NEXT:   [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[C2]](s32)
-  ; NEW_RBS-NEXT:   [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[PHI1]], [[COPY3]]
-  ; NEW_RBS-NEXT:   [[UITOFP:%[0-9]+]]:vgpr(s32) = G_UITOFP [[ADD]](s32)
+  ; NEW_RBS-NEXT:   [[ADD:%[0-9]+]]:sgpr(s32) = G_ADD [[PHI1]], [[C2]]
+  ; NEW_RBS-NEXT:   [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[ADD]](s32)
+  ; NEW_RBS-NEXT:   [[UITOFP:%[0-9]+]]:vgpr(s32) = G_UITOFP [[COPY3]](s32)
   ; NEW_RBS-NEXT:   [[FCMP:%[0-9]+]]:vcc(s1) = G_FCMP floatpred(ogt), [[UITOFP]](s32), [[COPY]]
-  ; NEW_RBS-NEXT:   [[INT:%[0-9]+]]:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[FCMP]](s1), [[PHI]](s32)
-  ; NEW_RBS-NEXT:   SI_LOOP [[INT]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; NEW_RBS-NEXT:   [[INT:%[0-9]+]]:sgpr(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[FCMP]](s1), [[PHI]](s32)
+  ; NEW_RBS-NEXT:   [[COPY4:%[0-9]+]]:sreg_32_xm0_xexec(s32) = COPY [[INT]](s32)
+  ; NEW_RBS-NEXT:   SI_LOOP [[COPY4]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
   ; NEW_RBS-NEXT:   G_BR %bb.2
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT: bb.2:
@@ -999,8 +1012,8 @@ body: |
   ; NEW_RBS-NEXT:   [[PHI3:%[0-9]+]]:sgpr(s32) = G_PHI [[INT]](s32), %bb.1
   ; NEW_RBS-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[PHI3]](s32)
   ; NEW_RBS-NEXT:   [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 10
-  ; NEW_RBS-NEXT:   [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[C3]](s32)
-  ; NEW_RBS-NEXT:   [[MUL:%[0-9]+]]:vgpr(s32) = G_MUL [[PHI2]], [[COPY4]]
+  ; NEW_RBS-NEXT:   [[COPY5:%[0-9]+]]:vgpr(s32) = COPY [[C3]](s32)
+  ; NEW_RBS-NEXT:   [[MUL:%[0-9]+]]:vgpr(s32) = G_MUL [[PHI2]], [[COPY5]]
   ; NEW_RBS-NEXT:   G_STORE [[MUL]](s32), [[MV]](p1) :: (store (s32), addrspace 1)
   ; NEW_RBS-NEXT:   S_ENDPGM 0
   bb.0:
@@ -1180,92 +1193,94 @@ body: |
   ; NEW_RBS-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT:   [[PHI:%[0-9]+]]:sreg_32(s1) = PHI [[DEF1]](s1), %bb.0, %13(s1), %bb.3
-  ; NEW_RBS-NEXT:   [[PHI1:%[0-9]+]]:sgpr(s32) = G_PHI %15(s32), %bb.3, [[C]](s32), %bb.0
-  ; NEW_RBS-NEXT:   [[PHI2:%[0-9]+]]:vgpr(s32) = G_PHI [[C]](s32), %bb.0, %17(s32), %bb.3
+  ; NEW_RBS-NEXT:   [[PHI1:%[0-9]+]]:sgpr(s32) = G_PHI %68(s32), %bb.3, [[C]](s32), %bb.0
+  ; NEW_RBS-NEXT:   [[PHI2:%[0-9]+]]:sgpr(s32) = G_PHI [[C]](s32), %bb.0, %17(s32), %bb.3
   ; NEW_RBS-NEXT:   [[COPY6:%[0-9]+]]:sreg_32(s1) = COPY [[PHI]](s1)
-  ; NEW_RBS-NEXT:   [[COPY7:%[0-9]+]]:vgpr(s32) = COPY [[PHI2]](s32)
-  ; NEW_RBS-NEXT:   [[C1:%[0-9]+]]:vgpr(s32) = G_CONSTANT i32 31
-  ; NEW_RBS-NEXT:   [[ASHR:%[0-9]+]]:vgpr(s32) = G_ASHR [[COPY7]], [[C1]](s32)
-  ; NEW_RBS-NEXT:   [[MV3:%[0-9]+]]:vgpr(s64) = G_MERGE_VALUES [[COPY7]](s32), [[ASHR]](s32)
+  ; NEW_RBS-NEXT:   [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 31
+  ; NEW_RBS-NEXT:   [[ASHR:%[0-9]+]]:sgpr(s32) = G_ASHR [[PHI2]], [[C1]](s32)
+  ; NEW_RBS-NEXT:   [[MV3:%[0-9]+]]:sgpr(s64) = G_MERGE_VALUES [[PHI2]](s32), [[ASHR]](s32)
   ; NEW_RBS-NEXT:   [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
-  ; NEW_RBS-NEXT:   [[COPY8:%[0-9]+]]:vgpr(s32) = COPY [[C2]](s32)
-  ; NEW_RBS-NEXT:   [[SHL:%[0-9]+]]:vgpr(s64) = G_SHL [[MV3]], [[COPY8]](s32)
-  ; NEW_RBS-NEXT:   [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV1]], [[SHL]](s64)
+  ; NEW_RBS-NEXT:   [[SHL:%[0-9]+]]:sgpr(s64) = G_SHL [[MV3]], [[C2]](s32)
+  ; NEW_RBS-NEXT:   [[COPY7:%[0-9]+]]:vgpr(s64) = COPY [[SHL]](s64)
+  ; NEW_RBS-NEXT:   [[PTR_ADD:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV1]], [[COPY7]](s64)
   ; NEW_RBS-NEXT:   [[LOAD:%[0-9]+]]:vgpr(s32) = G_LOAD [[PTR_ADD]](p1) :: (load (s32), addrspace 1)
   ; NEW_RBS-NEXT:   [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
-  ; NEW_RBS-NEXT:   [[COPY9:%[0-9]+]]:vgpr(s32) = COPY [[C3]](s32)
-  ; NEW_RBS-NEXT:   [[ICMP:%[0-9]+]]:sreg_32_xm0_xexec(s1) = G_ICMP intpred(ne), [[LOAD]](s32), [[COPY9]]
+  ; NEW_RBS-NEXT:   [[COPY8:%[0-9]+]]:vgpr(s32) = COPY [[C3]](s32)
+  ; NEW_RBS-NEXT:   [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(ne), [[LOAD]](s32), [[COPY8]]
+  ; NEW_RBS-NEXT:   [[COPY9:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[ICMP]](s1)
   ; NEW_RBS-NEXT:   [[C4:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
-  ; NEW_RBS-NEXT:   [[TRUNC:%[0-9]+]]:sgpr(s1) = G_TRUNC [[C4]](s32)
-  ; NEW_RBS-NEXT:   [[COPY10:%[0-9]+]]:sreg_32(s1) = COPY [[TRUNC]](s1)
+  ; NEW_RBS-NEXT:   [[AMDGPU_COPY_VCC_SCC:%[0-9]+]]:sreg_32(s1) = G_AMDGPU_COPY_VCC_SCC [[C4]](s32)
   ; NEW_RBS-NEXT:   [[S_ANDN2_B32_:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY6]](s1), $exec_lo, implicit-def $scc
-  ; NEW_RBS-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY10]](s1), implicit-def $scc
+  ; NEW_RBS-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[AMDGPU_COPY_VCC_SCC]](s1), implicit-def $scc
   ; NEW_RBS-NEXT:   [[S_OR_B32_:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_]](s1), [[S_AND_B32_]](s1), implicit-def $scc
-  ; NEW_RBS-NEXT:   [[COPY11:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_]](s1)
-  ; NEW_RBS-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[ICMP]](s1), %bb.3, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; NEW_RBS-NEXT:   [[COPY10:%[0-9]+]]:sreg_32(s1) = COPY [[S_OR_B32_]](s1)
+  ; NEW_RBS-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY9]](s1), %bb.3, implicit-def $exec, implicit-def $scc, implicit $exec
   ; NEW_RBS-NEXT:   G_BR %bb.2
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT: bb.2:
   ; NEW_RBS-NEXT:   successors: %bb.4(0x40000000), %bb.5(0x40000000)
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT:   [[C5:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
-  ; NEW_RBS-NEXT:   [[COPY12:%[0-9]+]]:vgpr(s32) = COPY [[C5]](s32)
-  ; NEW_RBS-NEXT:   [[SHL1:%[0-9]+]]:vgpr(s64) = G_SHL [[MV3]], [[COPY12]](s32)
-  ; NEW_RBS-NEXT:   [[PTR_ADD1:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV2]], [[SHL1]](s64)
+  ; NEW_RBS-NEXT:   [[SHL1:%[0-9]+]]:sgpr(s64) = G_SHL [[MV3]], [[C5]](s32)
+  ; NEW_RBS-NEXT:   [[COPY11:%[0-9]+]]:vgpr(s64) = COPY [[SHL1]](s64)
+  ; NEW_RBS-NEXT:   [[PTR_ADD1:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV2]], [[COPY11]](s64)
   ; NEW_RBS-NEXT:   [[LOAD1:%[0-9]+]]:vgpr(s32) = G_LOAD [[PTR_ADD1]](p1) :: (load (s32), addrspace 1)
   ; NEW_RBS-NEXT:   [[C6:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
-  ; NEW_RBS-NEXT:   [[COPY13:%[0-9]+]]:vgpr(s32) = COPY [[C6]](s32)
-  ; NEW_RBS-NEXT:   [[ICMP1:%[0-9]+]]:sreg_32_xm0_xexec(s1) = G_ICMP intpred(ne), [[LOAD1]](s32), [[COPY13]]
+  ; NEW_RBS-NEXT:   [[COPY12:%[0-9]+]]:vgpr(s32) = COPY [[C6]](s32)
+  ; NEW_RBS-NEXT:   [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(ne), [[LOAD1]](s32), [[COPY12]]
+  ; NEW_RBS-NEXT:   [[COPY13:%[0-9]+]]:sreg_32_xm0_xexec(s1) = COPY [[ICMP1]](s1)
   ; NEW_RBS-NEXT:   [[C7:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
-  ; NEW_RBS-NEXT:   [[TRUNC1:%[0-9]+]]:sgpr(s1) = G_TRUNC [[C7]](s32)
-  ; NEW_RBS-NEXT:   [[COPY14:%[0-9]+]]:sreg_32(s1) = COPY [[TRUNC1]](s1)
-  ; NEW_RBS-NEXT:   [[COPY15:%[0-9]+]]:sreg_32(s1) = COPY [[COPY14]](s1)
-  ; NEW_RBS-NEXT:   [[SI_IF1:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[ICMP1]](s1), %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; NEW_RBS-NEXT:   [[AMDGPU_COPY_VCC_SCC1:%[0-9]+]]:sreg_32(s1) = G_AMDGPU_COPY_VCC_SCC [[C7]](s32)
+  ; NEW_RBS-NEXT:   [[COPY14:%[0-9]+]]:sreg_32(s1) = COPY [[AMDGPU_COPY_VCC_SCC1]](s1)
+  ; NEW_RBS-NEXT:   [[SI_IF1:%[0-9]+]]:sreg_32_xm0_xexec(s32) = SI_IF [[COPY13]](s1), %bb.5, implicit-def $exec, implicit-def $scc, implicit $exec
   ; NEW_RBS-NEXT:   G_BR %bb.4
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT: bb.3:
   ; NEW_RBS-NEXT:   successors: %bb.6(0x04000000), %bb.1(0x7c000000)
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT:   [[PHI3:%[0-9]+]]:sreg_32(s1) = PHI [[S_OR_B32_]](s1), %bb.1, %43(s1), %bb.5
-  ; NEW_RBS-NEXT:   [[PHI4:%[0-9]+]]:vgpr(s32) = G_PHI %44(s32), %bb.5, [[DEF]](s32), %bb.1
-  ; NEW_RBS-NEXT:   [[COPY16:%[0-9]+]]:sreg_32(s1) = COPY [[PHI3]](s1)
-  ; NEW_RBS-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[SI_IF]](s32)
-  ; NEW_RBS-NEXT:   [[INT:%[0-9]+]]:sreg_32_xm0_xexec(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[COPY16]](s1), [[PHI1]](s32)
-  ; NEW_RBS-NEXT:   SI_LOOP [[INT]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
+  ; NEW_RBS-NEXT:   [[PHI4:%[0-9]+]]:sgpr(s32) = G_PHI %44(s32), %bb.5, [[DEF]](s32), %bb.1
+  ; NEW_RBS-NEXT:   [[COPY15:%[0-9]+]]:sreg_32(s1) = COPY [[PHI3]](s1)
+  ; NEW_RBS-NEXT:   [[COPY16:%[0-9]+]]:sgpr(s32) = COPY [[SI_IF]](s32)
+  ; NEW_RBS-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[COPY16]](s32)
+  ; NEW_RBS-NEXT:   [[COPY17:%[0-9]+]]:vcc(s1) = COPY [[COPY15]](s1)
+  ; NEW_RBS-NEXT:   [[INT:%[0-9]+]]:sgpr(s32) = G_INTRINSIC intrinsic(@llvm.amdgcn.if.break), [[COPY17]](s1), [[PHI1]](s32)
+  ; NEW_RBS-NEXT:   [[COPY18:%[0-9]+]]:sreg_32_xm0_xexec(s32) = COPY [[INT]](s32)
+  ; NEW_RBS-NEXT:   SI_LOOP [[COPY18]](s32), %bb.1, implicit-def $exec, implicit-def $scc, implicit $exec
   ; NEW_RBS-NEXT:   G_BR %bb.6
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT: bb.4:
   ; NEW_RBS-NEXT:   successors: %bb.5(0x80000000)
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT:   [[C8:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
-  ; NEW_RBS-NEXT:   [[COPY17:%[0-9]+]]:vgpr(s32) = COPY [[C8]](s32)
-  ; NEW_RBS-NEXT:   [[SHL2:%[0-9]+]]:vgpr(s64) = G_SHL [[MV3]], [[COPY17]](s32)
-  ; NEW_RBS-NEXT:   [[PTR_ADD2:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV]], [[SHL2]](s64)
+  ; NEW_RBS-NEXT:   [[SHL2:%[0-9]+]]:sgpr(s64) = G_SHL [[MV3]], [[C8]](s32)
+  ; NEW_RBS-NEXT:   [[COPY19:%[0-9]+]]:vgpr(s64) = COPY [[SHL2]](s64)
+  ; NEW_RBS-NEXT:   [[PTR_ADD2:%[0-9]+]]:vgpr(p1) = G_PTR_ADD [[MV]], [[COPY19]](s64)
   ; NEW_RBS-NEXT:   [[LOAD2:%[0-9]+]]:vgpr(s32) = G_LOAD [[PTR_ADD2]](p1) :: (load (s32), addrspace 1)
   ; NEW_RBS-NEXT:   [[C9:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
-  ; NEW_RBS-NEXT:   [[COPY18:%[0-9]+]]:vgpr(s32) = COPY [[C9]](s32)
-  ; NEW_RBS-NEXT:   [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[LOAD2]], [[COPY18]]
+  ; NEW_RBS-NEXT:   [[COPY20:%[0-9]+]]:vgpr(s32) = COPY [[C9]](s32)
+  ; NEW_RBS-NEXT:   [[ADD:%[0-9]+]]:vgpr(s32) = G_ADD [[LOAD2]], [[COPY20]]
   ; NEW_RBS-NEXT:   G_STORE [[ADD]](s32), [[PTR_ADD2]](p1) :: (store (s32), addrspace 1)
-  ; NEW_RBS-NEXT:   [[COPY19:%[0-9]+]]:vgpr(s32) = COPY [[C9]](s32)
-  ; NEW_RBS-NEXT:   [[ADD1:%[0-9]+]]:vgpr(s32) = G_ADD [[PHI2]], [[COPY19]]
+  ; NEW_RBS-NEXT:   [[ADD1:%[0-9]+]]:sgpr(s32) = G_ADD [[PHI2]], [[C9]]
   ; NEW_RBS-NEXT:   [[C10:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 100
-  ; NEW_RBS-NEXT:   [[COPY20:%[0-9]+]]:vgpr(s32) = COPY [[C10]](s32)
-  ; NEW_RBS-NEXT:   [[ICMP2:%[0-9]+]]:vcc(s1) = G_ICMP intpred(ult), [[PHI2]](s32), [[COPY20]]
-  ; NEW_RBS-NEXT:   [[COPY21:%[0-9]+]]:sreg_32(s1) = COPY [[ICMP2]](s1)
-  ; NEW_RBS-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY15]](s1), $exec_lo, implicit-def $scc
-  ; NEW_RBS-NEXT:   [[S_AND_B32_1:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY21]](s1), implicit-def $scc
+  ; NEW_RBS-NEXT:   [[ICMP2:%[0-9]+]]:sgpr(s32) = G_ICMP intpred(ult), [[PHI2]](s32), [[C10]]
+  ; NEW_RBS-NEXT:   [[AND:%[0-9]+]]:sgpr(s32) = G_AND [[ICMP2]], [[C9]]
+  ; NEW_RBS-NEXT:   [[AMDGPU_COPY_VCC_SCC2:%[0-9]+]]:sreg_32(s1) = G_AMDGPU_COPY_VCC_SCC [[AND]](s32)
+  ; NEW_RBS-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY14]](s1), $exec_lo, implicit-def $scc
+  ; NEW_RBS-NEXT:   [[S_AND_B32_1:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[AMDGPU_COPY_VCC_SCC2]](s1), implicit-def $scc
   ; NEW_RBS-NEXT:   [[S_OR_B32_1:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_1]](s1), [[S_AND_B32_1]](s1), implicit-def $scc
   ; NEW_RBS-NEXT: {{  $}}
   ; NEW_RBS-NEXT: bb.5:
   ; NEW_RBS-NEXT:   successors: %bb.3(0x80000000)
   ; NEW_RBS-NEXT: {{  $}}
-  ; NEW_RBS-NEXT:   [[PHI5:%[0-9]+]]:sreg_32(s1) = PHI [[COPY14]](s1), %bb.2, [[S_OR_B32_1]](s1), %bb.4
-  ; NEW_RBS-NEXT:   [[PHI6:%[0-9]+]]:vgpr(s32) = G_PHI [[ADD1]](s32), %bb.4, [[DEF]](s32), %bb.2
-  ; NEW_RBS-NEXT:   [[COPY22:%[0-9]+]]:sreg_32(s1) = COPY [[PHI5]](s1)
-  ; NEW_RBS-NEXT:   [[COPY23:%[0-9]+]]:sreg_32(s1) = COPY [[COPY22]](s1)
-  ; NEW_RBS-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[SI_IF1]](s32)
-  ; NEW_RBS-NEXT:   [[S_ANDN2_B32_2:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY11]](s1), $exec_lo, implicit-def $scc
-  ; NEW_RBS-NEXT:   [[S_AND_B32_2:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY23]](s1), implicit-def $scc
+  ; NEW_RBS-NEXT:   [[PHI5:%[0-9]+]]:sreg_32(s1) = PHI [[AMDGPU_COPY_VCC_SCC1]](s1), %bb.2, [[S_OR_B32_1]](s1), %bb.4
+  ; NEW_RBS-NEXT:   [[PHI6:%[0-9]+]]:sgpr(s32) = G_PHI [[ADD1]](s32), %bb.4, [[DEF]](s32), %bb.2
+  ; NEW_RBS-NEXT:   [[COPY21:%[0-9]+]]:sreg_32(s1) = COPY [[PHI5]](s1)
+  ; NEW_RBS-NEXT:   [[COPY22:%[0-9]+]]:sreg_32(s1) = COPY [[COPY21]](s1)
+  ; NEW_RBS-NEXT:   [[COPY23:%[0-9]+]]:sgpr(s32) = COPY [[SI_IF1]](s32)
+  ; NEW_RBS-NEXT:   G_INTRINSIC_W_SIDE_EFFECTS intrinsic(@llvm.amdgcn.end.cf), [[COPY23]](s32)
+  ; NEW_RBS-NEXT:   [[S_ANDN2_B32_2:%[0-9]+]]:sreg_32(s1) = S_ANDN2_B32 [[COPY10]](s1), $exec_lo, implicit-def $scc
+  ; NEW_RBS-NEXT:   [[S_AND_B32_2:%[0-9]+]]:sreg_32(s1) = S_AND_B32 $exec_lo, [[COPY22]](s1), implicit-def $scc
   ; NEW_RBS-NEXT:   [[S_OR_B32_2:%[0-9]+]]:sreg_32(s1) = S_OR_B32 [[S_ANDN2_B32_2]](s1), [[S_AND_B32_2]](s1), implicit-def $scc
   ; NEW_RBS-NEXT:   G_BR %bb.3
   ; NEW_RBS-NEXT: {{  $}}
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-zextload.mir b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-zextload.mir
index 821b78f8810b6..29db4cf9eedf5 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-zextload.mir
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-zextload.mir
@@ -1,6 +1,5 @@
 # NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
-# RUN: llc -mtriple=amdgcn -mcpu=fiji -run-pass=regbankselect  -regbankselect-fast -verify-machineinstrs -o - %s | FileCheck %s
-# RUN: llc -mtriple=amdgcn -mcpu=fiji -run-pass=regbankselect  -regbankselect-greedy -verify-machineinstrs -o - %s | FileCheck %s
+# RUN: llc -mtriple=amdgcn -mcpu=fiji -run-pass="amdgpu-regbankselect,amdgpu-regbanklegalize" -verify-machineinstrs -o - %s | FileCheck %s
 
 ---
 name: zextload_constant_i8_to_i32_uniform
@@ -15,6 +14,7 @@ body: |
     ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; CHECK-NEXT: [[ZEXTLOAD:%[0-9]+]]:vgpr(s32) = G_ZEXTLOAD [[COPY1]](p4) :: (load (s8), addrspace 4)
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[ZEXTLOAD]]
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(s32) = G_ZEXTLOAD %0 :: (load (s8), addrspace 4, align 1)
 ...
@@ -33,6 +33,7 @@ body: |
     ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; CHECK-NEXT: [[ZEXTLOAD:%[0-9]+]]:vgpr(s32) = G_ZEXTLOAD [[COPY1]](p4) :: (load (s8), addrspace 1)
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[ZEXTLOAD]]
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(s32) = G_ZEXTLOAD %0 :: (load (s8), addrspace 1, align 1)
 ...
@@ -51,6 +52,7 @@ body: |
     ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; CHECK-NEXT: [[ZEXTLOAD:%[0-9]+]]:vgpr(s32) = G_ZEXTLOAD [[COPY1]](p4) :: (load (s16), addrspace 4)
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[ZEXTLOAD]]
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(s32) = G_ZEXTLOAD %0 :: (load (s16), addrspace 4, align 2)
 ...
@@ -69,6 +71,7 @@ body: |
     ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(p4) = COPY $sgpr0_sgpr1
     ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(p4) = COPY [[COPY]](p4)
     ; CHECK-NEXT: [[ZEXTLOAD:%[0-9]+]]:vgpr(s32) = G_ZEXTLOAD [[COPY1]](p4) :: (load (s16), addrspace 1)
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[ZEXTLOAD]]
     %0:_(p4) = COPY $sgpr0_sgpr1
     %1:_(s32) = G_ZEXTLOAD %0 :: (load (s16), addrspace 1, align 2)
 ...
@@ -86,6 +89,7 @@ body: |
     ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(p3) = COPY $sgpr0
     ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(p3) = COPY [[COPY]](p3)
     ; CHECK-NEXT: [[ZEXTLOAD:%[0-9]+]]:vgpr(s32) = G_ZEXTLOAD [[COPY1]](p3) :: (load (s8), addrspace 3)
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[ZEXTLOAD]]
     %0:_(p3) = COPY $sgpr0
     %1:_(s32) = G_ZEXTLOAD %0 :: (load (s8), addrspace 3, align 1)
 ...
@@ -104,6 +108,7 @@ body: |
     ; CHECK-NEXT: [[COPY:%[0-9]+]]:sgpr(p3) = COPY $sgpr0
     ; CHECK-NEXT: [[COPY1:%[0-9]+]]:vgpr(p3) = COPY [[COPY]](p3)
     ; CHECK-NEXT: [[ZEXTLOAD:%[0-9]+]]:vgpr(s32) = G_ZEXTLOAD [[COPY1]](p3) :: (load (s16), addrspace 3)
+    ; CHECK-NEXT: [[AMDGPU_READANYLANE:%[0-9]+]]:sgpr(s32) = G_AMDGPU_READANYLANE [[ZEXTLOAD]]
     %0:_(p3) = COPY $sgpr0
     %1:_(s32) = G_ZEXTLOAD %0 :: (load (s16), addrspace 3, align 2)
 ...
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll
index e289ee759da15..08184e700c1a4 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/saddsat.ll
@@ -280,8 +280,9 @@ define i16 @v_saddsat_v2i8(i16 %lhs.arg, i16 %rhs.arg) {
 ; GFX8-NEXT:    v_min_i16_e32 v1, v2, v1
 ; GFX8-NEXT:    v_add_u16_e32 v1, v3, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v2, 0xff
+; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v1), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_and_b32_sdwa v0, sext(v0), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
-; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v1), v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -299,7 +300,8 @@ define i16 @v_saddsat_v2i8(i16 %lhs.arg, i16 %rhs.arg) {
 ; GFX9-NEXT:    v_pk_add_i16 v0, v0, v1 clamp
 ; GFX9-NEXT:    v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
 ; GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -439,7 +441,8 @@ define amdgpu_ps i16 @s_saddsat_v2i8(i16 inreg %lhs.arg, i16 inreg %rhs.arg) {
 ; GFX9-NEXT:    v_pk_add_i16 v0, s0, v0 clamp
 ; GFX9-NEXT:    v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
 ; GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_readfirstlane_b32 s0, v0
 ; GFX9-NEXT:    ; return to shader part epilog
@@ -609,9 +612,11 @@ define i32 @v_saddsat_v4i8(i32 %lhs.arg, i32 %rhs.arg) {
 ; GFX8-NEXT:    v_and_b32_sdwa v0, sext(v0), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 8, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v2), v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v2), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v3), v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v3), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 24, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1962,8 +1967,9 @@ define <16 x i32> @v_saddsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX6-NEXT:    v_add_i32_e32 v2, vcc, v2, v17
 ; GFX6-NEXT:    v_min_i32_e32 v17, 0, v3
 ; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
-; GFX6-NEXT:    v_max_i32_e32 v18, 0, v3
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v19
+; GFX6-NEXT:    buffer_load_dword v19, off, s[0:3], s32
+; GFX6-NEXT:    v_max_i32_e32 v18, 0, v3
 ; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
 ; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_add_i32_e32 v3, vcc, v3, v17
@@ -1987,70 +1993,69 @@ define <16 x i32> @v_saddsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v22
 ; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
 ; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
-; GFX6-NEXT:    buffer_load_dword v18, off, s[0:3], s32
 ; GFX6-NEXT:    v_add_i32_e32 v6, vcc, v6, v17
 ; GFX6-NEXT:    v_min_i32_e32 v17, 0, v7
 ; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
-; GFX6-NEXT:    v_max_i32_e32 v19, 0, v7
+; GFX6-NEXT:    v_max_i32_e32 v18, 0, v7
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v23
-; GFX6-NEXT:    v_sub_i32_e32 v19, vcc, v16, v19
-; GFX6-NEXT:    v_min_i32_e32 v17, v17, v19
-; GFX6-NEXT:    v_min_i32_e32 v19, 0, v8
+; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_add_i32_e32 v7, vcc, v7, v17
-; GFX6-NEXT:    v_max_i32_e32 v17, 0, v8
-; GFX6-NEXT:    v_sub_i32_e32 v19, vcc, v31, v19
-; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v16, v17
-; GFX6-NEXT:    v_max_i32_e32 v19, v19, v24
-; GFX6-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX6-NEXT:    v_min_i32_e32 v19, 0, v9
+; GFX6-NEXT:    v_min_i32_e32 v17, 0, v8
+; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
+; GFX6-NEXT:    v_max_i32_e32 v18, 0, v8
+; GFX6-NEXT:    v_max_i32_e32 v17, v17, v24
+; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_add_i32_e32 v8, vcc, v8, v17
-; GFX6-NEXT:    v_max_i32_e32 v17, 0, v9
-; GFX6-NEXT:    v_sub_i32_e32 v19, vcc, v31, v19
-; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v16, v17
-; GFX6-NEXT:    v_max_i32_e32 v19, v19, v25
-; GFX6-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX6-NEXT:    v_min_i32_e32 v19, 0, v10
+; GFX6-NEXT:    v_min_i32_e32 v17, 0, v9
+; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
+; GFX6-NEXT:    v_max_i32_e32 v18, 0, v9
+; GFX6-NEXT:    v_max_i32_e32 v17, v17, v25
+; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_add_i32_e32 v9, vcc, v9, v17
-; GFX6-NEXT:    v_max_i32_e32 v17, 0, v10
-; GFX6-NEXT:    v_sub_i32_e32 v19, vcc, v31, v19
-; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v16, v17
-; GFX6-NEXT:    v_max_i32_e32 v19, v19, v26
-; GFX6-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX6-NEXT:    v_min_i32_e32 v19, 0, v11
+; GFX6-NEXT:    v_min_i32_e32 v17, 0, v10
+; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
+; GFX6-NEXT:    v_max_i32_e32 v18, 0, v10
+; GFX6-NEXT:    v_max_i32_e32 v17, v17, v26
+; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_add_i32_e32 v10, vcc, v10, v17
-; GFX6-NEXT:    v_max_i32_e32 v17, 0, v11
-; GFX6-NEXT:    v_sub_i32_e32 v19, vcc, v31, v19
-; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v16, v17
-; GFX6-NEXT:    v_max_i32_e32 v19, v19, v27
-; GFX6-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX6-NEXT:    v_min_i32_e32 v19, 0, v12
+; GFX6-NEXT:    v_min_i32_e32 v17, 0, v11
+; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
+; GFX6-NEXT:    v_max_i32_e32 v18, 0, v11
+; GFX6-NEXT:    v_max_i32_e32 v17, v17, v27
+; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_add_i32_e32 v11, vcc, v11, v17
-; GFX6-NEXT:    v_max_i32_e32 v17, 0, v12
-; GFX6-NEXT:    v_sub_i32_e32 v19, vcc, v31, v19
-; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v16, v17
-; GFX6-NEXT:    v_max_i32_e32 v19, v19, v28
-; GFX6-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX6-NEXT:    v_min_i32_e32 v19, 0, v13
+; GFX6-NEXT:    v_min_i32_e32 v17, 0, v12
+; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
+; GFX6-NEXT:    v_max_i32_e32 v18, 0, v12
+; GFX6-NEXT:    v_max_i32_e32 v17, v17, v28
+; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
-; GFX6-NEXT:    v_max_i32_e32 v17, 0, v13
-; GFX6-NEXT:    v_sub_i32_e32 v19, vcc, v31, v19
-; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v16, v17
-; GFX6-NEXT:    v_max_i32_e32 v19, v19, v29
-; GFX6-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX6-NEXT:    v_min_i32_e32 v19, 0, v14
+; GFX6-NEXT:    v_min_i32_e32 v17, 0, v13
+; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
+; GFX6-NEXT:    v_max_i32_e32 v18, 0, v13
+; GFX6-NEXT:    v_max_i32_e32 v17, v17, v29
+; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_add_i32_e32 v13, vcc, v13, v17
-; GFX6-NEXT:    v_max_i32_e32 v17, 0, v14
-; GFX6-NEXT:    v_sub_i32_e32 v19, vcc, v31, v19
-; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v16, v17
-; GFX6-NEXT:    v_max_i32_e32 v19, v19, v30
-; GFX6-NEXT:    v_min_i32_e32 v17, v19, v17
+; GFX6-NEXT:    v_min_i32_e32 v17, 0, v14
+; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
+; GFX6-NEXT:    v_max_i32_e32 v18, 0, v14
+; GFX6-NEXT:    v_max_i32_e32 v17, v17, v30
+; GFX6-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_add_i32_e32 v14, vcc, v14, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, 0, v15
 ; GFX6-NEXT:    v_sub_i32_e32 v16, vcc, v16, v17
 ; GFX6-NEXT:    v_min_i32_e32 v17, 0, v15
 ; GFX6-NEXT:    v_sub_i32_e32 v17, vcc, v31, v17
 ; GFX6-NEXT:    s_waitcnt vmcnt(0)
-; GFX6-NEXT:    v_max_i32_e32 v17, v17, v18
+; GFX6-NEXT:    v_max_i32_e32 v17, v17, v19
 ; GFX6-NEXT:    v_min_i32_e32 v16, v17, v16
 ; GFX6-NEXT:    v_add_i32_e32 v15, vcc, v15, v16
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
@@ -2083,8 +2088,9 @@ define <16 x i32> @v_saddsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v2, v17
 ; GFX8-NEXT:    v_min_i32_e32 v17, 0, v3
 ; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
-; GFX8-NEXT:    v_max_i32_e32 v18, 0, v3
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v19
+; GFX8-NEXT:    buffer_load_dword v19, off, s[0:3], s32
+; GFX8-NEXT:    v_max_i32_e32 v18, 0, v3
 ; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
 ; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v3, v17
@@ -2108,70 +2114,69 @@ define <16 x i32> @v_saddsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v22
 ; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
 ; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
-; GFX8-NEXT:    buffer_load_dword v18, off, s[0:3], s32
 ; GFX8-NEXT:    v_add_u32_e32 v6, vcc, v6, v17
 ; GFX8-NEXT:    v_min_i32_e32 v17, 0, v7
 ; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
-; GFX8-NEXT:    v_max_i32_e32 v19, 0, v7
+; GFX8-NEXT:    v_max_i32_e32 v18, 0, v7
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v23
-; GFX8-NEXT:    v_sub_u32_e32 v19, vcc, v16, v19
-; GFX8-NEXT:    v_min_i32_e32 v17, v17, v19
-; GFX8-NEXT:    v_min_i32_e32 v19, 0, v8
+; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_add_u32_e32 v7, vcc, v7, v17
-; GFX8-NEXT:    v_max_i32_e32 v17, 0, v8
-; GFX8-NEXT:    v_sub_u32_e32 v19, vcc, v31, v19
-; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v16, v17
-; GFX8-NEXT:    v_max_i32_e32 v19, v19, v24
-; GFX8-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX8-NEXT:    v_min_i32_e32 v19, 0, v9
+; GFX8-NEXT:    v_min_i32_e32 v17, 0, v8
+; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
+; GFX8-NEXT:    v_max_i32_e32 v18, 0, v8
+; GFX8-NEXT:    v_max_i32_e32 v17, v17, v24
+; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_add_u32_e32 v8, vcc, v8, v17
-; GFX8-NEXT:    v_max_i32_e32 v17, 0, v9
-; GFX8-NEXT:    v_sub_u32_e32 v19, vcc, v31, v19
-; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v16, v17
-; GFX8-NEXT:    v_max_i32_e32 v19, v19, v25
-; GFX8-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX8-NEXT:    v_min_i32_e32 v19, 0, v10
+; GFX8-NEXT:    v_min_i32_e32 v17, 0, v9
+; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
+; GFX8-NEXT:    v_max_i32_e32 v18, 0, v9
+; GFX8-NEXT:    v_max_i32_e32 v17, v17, v25
+; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_add_u32_e32 v9, vcc, v9, v17
-; GFX8-NEXT:    v_max_i32_e32 v17, 0, v10
-; GFX8-NEXT:    v_sub_u32_e32 v19, vcc, v31, v19
-; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v16, v17
-; GFX8-NEXT:    v_max_i32_e32 v19, v19, v26
-; GFX8-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX8-NEXT:    v_min_i32_e32 v19, 0, v11
+; GFX8-NEXT:    v_min_i32_e32 v17, 0, v10
+; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
+; GFX8-NEXT:    v_max_i32_e32 v18, 0, v10
+; GFX8-NEXT:    v_max_i32_e32 v17, v17, v26
+; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_add_u32_e32 v10, vcc, v10, v17
-; GFX8-NEXT:    v_max_i32_e32 v17, 0, v11
-; GFX8-NEXT:    v_sub_u32_e32 v19, vcc, v31, v19
-; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v16, v17
-; GFX8-NEXT:    v_max_i32_e32 v19, v19, v27
-; GFX8-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX8-NEXT:    v_min_i32_e32 v19, 0, v12
+; GFX8-NEXT:    v_min_i32_e32 v17, 0, v11
+; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
+; GFX8-NEXT:    v_max_i32_e32 v18, 0, v11
+; GFX8-NEXT:    v_max_i32_e32 v17, v17, v27
+; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_add_u32_e32 v11, vcc, v11, v17
-; GFX8-NEXT:    v_max_i32_e32 v17, 0, v12
-; GFX8-NEXT:    v_sub_u32_e32 v19, vcc, v31, v19
-; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v16, v17
-; GFX8-NEXT:    v_max_i32_e32 v19, v19, v28
-; GFX8-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX8-NEXT:    v_min_i32_e32 v19, 0, v13
+; GFX8-NEXT:    v_min_i32_e32 v17, 0, v12
+; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
+; GFX8-NEXT:    v_max_i32_e32 v18, 0, v12
+; GFX8-NEXT:    v_max_i32_e32 v17, v17, v28
+; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_add_u32_e32 v12, vcc, v12, v17
-; GFX8-NEXT:    v_max_i32_e32 v17, 0, v13
-; GFX8-NEXT:    v_sub_u32_e32 v19, vcc, v31, v19
-; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v16, v17
-; GFX8-NEXT:    v_max_i32_e32 v19, v19, v29
-; GFX8-NEXT:    v_min_i32_e32 v17, v19, v17
-; GFX8-NEXT:    v_min_i32_e32 v19, 0, v14
+; GFX8-NEXT:    v_min_i32_e32 v17, 0, v13
+; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
+; GFX8-NEXT:    v_max_i32_e32 v18, 0, v13
+; GFX8-NEXT:    v_max_i32_e32 v17, v17, v29
+; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_add_u32_e32 v13, vcc, v13, v17
-; GFX8-NEXT:    v_max_i32_e32 v17, 0, v14
-; GFX8-NEXT:    v_sub_u32_e32 v19, vcc, v31, v19
-; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v16, v17
-; GFX8-NEXT:    v_max_i32_e32 v19, v19, v30
-; GFX8-NEXT:    v_min_i32_e32 v17, v19, v17
+; GFX8-NEXT:    v_min_i32_e32 v17, 0, v14
+; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
+; GFX8-NEXT:    v_max_i32_e32 v18, 0, v14
+; GFX8-NEXT:    v_max_i32_e32 v17, v17, v30
+; GFX8-NEXT:    v_sub_u32_e32 v18, vcc, v16, v18
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_add_u32_e32 v14, vcc, v14, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, 0, v15
 ; GFX8-NEXT:    v_sub_u32_e32 v16, vcc, v16, v17
 ; GFX8-NEXT:    v_min_i32_e32 v17, 0, v15
 ; GFX8-NEXT:    v_sub_u32_e32 v17, vcc, v31, v17
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_max_i32_e32 v17, v17, v18
+; GFX8-NEXT:    v_max_i32_e32 v17, v17, v19
 ; GFX8-NEXT:    v_min_i32_e32 v16, v17, v16
 ; GFX8-NEXT:    v_add_u32_e32 v15, vcc, v15, v16
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i64.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i64.ll
index 80cda2e7f3c81..0c9ff3eee8231 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i64.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/sdiv.i64.ll
@@ -429,190 +429,193 @@ define <2 x i64> @v_sdiv_v2i64(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v15, v17, v[5:6]
 ; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v9, vcc
 ; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v16, v14, v[12:13]
-; GISEL-NEXT:    v_xor_b32_e32 v5, v0, v9
+; GISEL-NEXT:    v_xor_b32_e32 v15, v0, v9
 ; GISEL-NEXT:    v_mul_lo_u32 v0, v17, v11
-; GISEL-NEXT:    v_mul_lo_u32 v13, v14, v12
-; GISEL-NEXT:    v_xor_b32_e32 v15, v1, v9
+; GISEL-NEXT:    v_mul_lo_u32 v5, v14, v12
+; GISEL-NEXT:    v_xor_b32_e32 v16, v1, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v1, v14, v11
 ; GISEL-NEXT:    v_mul_hi_u32 v11, v17, v11
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v1, v17, v12
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v13, v0
-; GISEL-NEXT:    v_mul_hi_u32 v13, v14, v12
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v5, v0
+; GISEL-NEXT:    v_mul_hi_u32 v5, v14, v12
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
-; GISEL-NEXT:    v_mul_hi_u32 v12, v17, v12
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v11, v5
+; GISEL-NEXT:    v_mul_hi_u32 v11, v17, v12
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v5, v1
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v11, v1
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v12, v1
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v14, v0
 ; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v17, v1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v11, v15, v0
-; GISEL-NEXT:    v_mul_lo_u32 v12, v5, v1
-; GISEL-NEXT:    v_mul_hi_u32 v13, v5, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v15, v0
-; GISEL-NEXT:    v_mul_hi_u32 v14, v15, v1
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_mul_lo_u32 v5, v16, v0
+; GISEL-NEXT:    v_mul_lo_u32 v11, v15, v1
+; GISEL-NEXT:    v_mul_hi_u32 v12, v15, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v16, v0
+; GISEL-NEXT:    v_xor_b32_e32 v8, v9, v8
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v13, v15, v1
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; GISEL-NEXT:    v_mul_hi_u32 v12, v5, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v13, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v12
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v12, v16, v1
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v11, v5
+; GISEL-NEXT:    v_mul_hi_u32 v11, v15, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v12, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v0, v11
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v10, v13, 0
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v11
-; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v10, v14, v[1:2]
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v5, v0
-; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v4, v13, v[11:12]
-; GISEL-NEXT:    v_subb_u32_e64 v1, s[4:5], v15, v11, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v5, s[4:5], v15, v11
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v1, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v0, v10
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v1, v4
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v5, v4, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v10
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, v11, v12, s[4:5]
-; GISEL-NEXT:    v_subbrev_u32_e32 v11, vcc, 0, v1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v12, v11
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v5
+; GISEL-NEXT:    v_mul_hi_u32 v1, v16, v1
+; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v10, v0, 0
+; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v13, v5
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v1, v5
+; GISEL-NEXT:    v_mov_b32_e32 v1, v12
+; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v10, v14, v[1:2]
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v5, 31, v7
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v6, v5
 ; GISEL-NEXT:    v_addc_u32_e32 v6, vcc, v7, v5, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v4, v0, v[12:13]
 ; GISEL-NEXT:    v_xor_b32_e32 v7, v1, v5
 ; GISEL-NEXT:    v_xor_b32_e32 v6, v6, v5
 ; GISEL-NEXT:    v_cvt_f32_u32_e32 v1, v7
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v15, v6
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, 1, v13
-; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, 0, v14, vcc
-; GISEL-NEXT:    v_mac_f32_e32 v1, 0x4f800000, v15
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v13, v6
+; GISEL-NEXT:    v_sub_i32_e32 v15, vcc, v15, v11
+; GISEL-NEXT:    v_sub_i32_e64 v11, s[4:5], v16, v12
+; GISEL-NEXT:    v_mac_f32_e32 v1, 0x4f800000, v13
 ; GISEL-NEXT:    v_rcp_iflag_f32_e32 v1, v1
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v11, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, -1, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v0, v10
-; GISEL-NEXT:    v_mul_f32_e32 v0, 0x5f7ffffc, v1
-; GISEL-NEXT:    v_mul_f32_e32 v1, 0x2f800000, v0
-; GISEL-NEXT:    v_trunc_f32_e32 v18, v1
-; GISEL-NEXT:    v_mac_f32_e32 v0, 0xcf800000, v18
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v19, v0
+; GISEL-NEXT:    v_subb_u32_e64 v17, s[4:5], v16, v12, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v13, vcc, v11, v4, vcc
+; GISEL-NEXT:    v_mul_f32_e32 v1, 0x5f7ffffc, v1
+; GISEL-NEXT:    v_mul_f32_e32 v11, 0x2f800000, v1
+; GISEL-NEXT:    v_trunc_f32_e32 v16, v11
+; GISEL-NEXT:    v_mac_f32_e32 v1, 0xcf800000, v16
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v18, v1
+; GISEL-NEXT:    v_sub_i32_e32 v19, vcc, 0, v7
+; GISEL-NEXT:    v_subb_u32_e32 v20, vcc, 0, v6, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[6:7], v19, v18, 0
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v16, v16
+; GISEL-NEXT:    v_sub_i32_e32 v1, vcc, v15, v10
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v15, v10
+; GISEL-NEXT:    v_subbrev_u32_e32 v15, vcc, 0, v13, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v1, v10
+; GISEL-NEXT:    v_mov_b32_e32 v1, v12
+; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[6:7], v19, v16, v[1:2]
+; GISEL-NEXT:    v_mul_lo_u32 v1, v16, v11
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v15, v4
+; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[6:7], v20, v18, v[12:13]
+; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v17, v4
+; GISEL-NEXT:    v_mul_lo_u32 v10, v18, v12
+; GISEL-NEXT:    v_add_i32_e64 v1, s[6:7], v1, v10
+; GISEL-NEXT:    v_mul_hi_u32 v10, v18, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, s[6:7]
+; GISEL-NEXT:    v_mul_hi_u32 v11, v16, v11
+; GISEL-NEXT:    v_add_i32_e64 v1, s[6:7], v1, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, -1, s[8:9]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, -1, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v20, vcc, 0, v7
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v20, v19, 0
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v18, v18
-; GISEL-NEXT:    v_subb_u32_e32 v21, vcc, 0, v6, vcc
-; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v11, v4
-; GISEL-NEXT:    v_cndmask_b32_e32 v4, v15, v10, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v20, v18, v[1:2]
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, 1, v16
-; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v21, v19, v[10:11]
-; GISEL-NEXT:    v_addc_u32_e32 v15, vcc, 0, v17, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v4
-; GISEL-NEXT:    v_cndmask_b32_e32 v4, v16, v1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v1, v18, v0
-; GISEL-NEXT:    v_mul_lo_u32 v11, v19, v10
-; GISEL-NEXT:    v_mul_hi_u32 v16, v19, v0
-; GISEL-NEXT:    v_cndmask_b32_e32 v15, v17, v15, vcc
-; GISEL-NEXT:    v_mul_hi_u32 v0, v18, v0
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v16
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v16, v18, v10
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v11, v1
-; GISEL-NEXT:    v_mul_hi_u32 v11, v19, v10
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v11
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v15, v4
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v17, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, -1, s[8:9]
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v1, v10, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, 1, v0
+; GISEL-NEXT:    v_cndmask_b32_e64 v4, v15, v21, s[4:5]
+; GISEL-NEXT:    v_addc_u32_e32 v15, vcc, 0, v14, vcc
+; GISEL-NEXT:    v_add_i32_e32 v17, vcc, 1, v10
+; GISEL-NEXT:    v_addc_u32_e32 v21, vcc, 0, v15, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v1
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v10, v17, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, s[6:7]
+; GISEL-NEXT:    v_cndmask_b32_e32 v15, v15, v21, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v13, v10
+; GISEL-NEXT:    v_mul_lo_u32 v13, v16, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v11
+; GISEL-NEXT:    v_mul_hi_u32 v13, v18, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
+; GISEL-NEXT:    v_mul_hi_u32 v12, v16, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v17, v13
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v16, v11
-; GISEL-NEXT:    v_mul_hi_u32 v10, v18, v10
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v11
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v18, v10
+; GISEL-NEXT:    v_addc_u32_e32 v13, vcc, v16, v11, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v19, v12, 0
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v4
+; GISEL-NEXT:    v_cndmask_b32_e32 v4, v0, v1, vcc
+; GISEL-NEXT:    v_mov_b32_e32 v0, v11
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v19, v13, v[0:1]
+; GISEL-NEXT:    v_ashrrev_i32_e32 v11, 31, v3
+; GISEL-NEXT:    v_cndmask_b32_e32 v14, v14, v15, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v20, v12, v[0:1]
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v2, v11
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v3, v11, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v15, v1, v11
+; GISEL-NEXT:    v_mul_lo_u32 v1, v13, v10
+; GISEL-NEXT:    v_mul_lo_u32 v3, v12, v0
+; GISEL-NEXT:    v_xor_b32_e32 v16, v2, v11
+; GISEL-NEXT:    v_mul_hi_u32 v2, v12, v10
+; GISEL-NEXT:    v_xor_b32_e32 v9, v4, v8
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v3
+; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v2
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v11, v1
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v19, v0
-; GISEL-NEXT:    v_addc_u32_e32 v11, vcc, v18, v1, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v20, v10, 0
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v12
-; GISEL-NEXT:    v_cndmask_b32_e32 v4, v13, v4, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v13, v9, v8
-; GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v20, v11, v[1:2]
-; GISEL-NEXT:    v_cndmask_b32_e32 v12, v14, v15, vcc
-; GISEL-NEXT:    v_ashrrev_i32_e32 v14, 31, v3
-; GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v21, v10, v[8:9]
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v14
-; GISEL-NEXT:    v_xor_b32_e32 v1, v4, v13
-; GISEL-NEXT:    v_addc_u32_e32 v3, vcc, v3, v14, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v9, v2, v14
-; GISEL-NEXT:    v_mul_lo_u32 v2, v11, v0
-; GISEL-NEXT:    v_mul_lo_u32 v4, v10, v8
-; GISEL-NEXT:    v_xor_b32_e32 v15, v3, v14
-; GISEL-NEXT:    v_mul_hi_u32 v3, v10, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v11, v0
+; GISEL-NEXT:    v_mul_lo_u32 v2, v13, v0
+; GISEL-NEXT:    v_mul_hi_u32 v4, v13, v10
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v3, v1
+; GISEL-NEXT:    v_mul_hi_u32 v3, v12, v0
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v4
 ; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v11, v8
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v4, v2
-; GISEL-NEXT:    v_mul_hi_u32 v4, v10, v8
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v4
-; GISEL-NEXT:    v_mul_hi_u32 v4, v11, v8
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
+; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v4, v3
+; GISEL-NEXT:    v_mul_hi_u32 v0, v13, v0
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v2, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v4, v2
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v10, v0
-; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v11, v2, vcc
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v12, v1
+; GISEL-NEXT:    v_addc_u32_e32 v0, vcc, v13, v0, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v2, v16, v1
 ; GISEL-NEXT:    v_mul_lo_u32 v3, v15, v0
-; GISEL-NEXT:    v_mul_lo_u32 v4, v9, v2
-; GISEL-NEXT:    v_mul_hi_u32 v10, v9, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v15, v0
-; GISEL-NEXT:    v_mul_hi_u32 v11, v15, v2
-; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v10
+; GISEL-NEXT:    v_mul_hi_u32 v4, v15, v1
+; GISEL-NEXT:    v_mul_hi_u32 v1, v16, v1
+; GISEL-NEXT:    v_xor_b32_e32 v10, v14, v8
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v10, v15, v2
-; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v4, v3
-; GISEL-NEXT:    v_mul_hi_u32 v4, v9, v2
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v10, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v4, v16, v0
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
+; GISEL-NEXT:    v_mul_hi_u32 v3, v15, v0
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v10, v4
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v0, v3
-; GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v7, v10, 0
-; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v4, v0
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v0
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v3
+; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v3
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v1, v2
+; GISEL-NEXT:    v_mul_hi_u32 v0, v16, v0
+; GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v7, v12, 0
+; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v0, v1
 ; GISEL-NEXT:    v_mov_b32_e32 v0, v3
-; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v7, v11, v[0:1]
-; GISEL-NEXT:    v_xor_b32_e32 v8, v12, v13
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v1, v13
-; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v6, v10, v[3:4]
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v8, v13, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v9, v2
-; GISEL-NEXT:    v_subb_u32_e64 v4, s[4:5], v15, v3, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v15, v3
+; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v7, v13, v[0:1]
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v9, v8
+; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v6, v12, v[3:4]
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v10, v8, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v15, v2
+; GISEL-NEXT:    v_subb_u32_e64 v4, s[4:5], v16, v3, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v16, v3
 ; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v4, v6
 ; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v6, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, -1, s[4:5]
@@ -622,23 +625,23 @@ define <2 x i64> @v_sdiv_v2i64(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v4, v6
 ; GISEL-NEXT:    v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e64 v4, v8, v9, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, 1, v10
-; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, 0, v11, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, 1, v12
+; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, 0, v13, vcc
 ; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v3, v6
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, -1, vcc
 ; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v7
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, -1, vcc
 ; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v3, v6
-; GISEL-NEXT:    v_cndmask_b32_e32 v2, v12, v2, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v10, v2, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, 1, v8
 ; GISEL-NEXT:    v_addc_u32_e32 v6, vcc, 0, v9, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v2
 ; GISEL-NEXT:    v_cndmask_b32_e32 v2, v8, v3, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v3, v9, v6, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v4
-; GISEL-NEXT:    v_cndmask_b32_e32 v2, v10, v2, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v4, v14, v5
-; GISEL-NEXT:    v_cndmask_b32_e32 v3, v11, v3, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v12, v2, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v4, v11, v5
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v13, v3, vcc
 ; GISEL-NEXT:    v_xor_b32_e32 v2, v2, v4
 ; GISEL-NEXT:    v_xor_b32_e32 v3, v3, v4
 ; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v4
@@ -1189,123 +1192,123 @@ define <2 x i64> @v_sdiv_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_trunc_f32_e32 v8, v5
 ; GISEL-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v8
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v7, v4
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v9, v8
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v8, v8
 ; GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v6, v7, 0
-; GISEL-NEXT:    v_mov_b32_e32 v8, v5
-; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v6, v9, v[8:9]
-; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v4
-; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], s6, v7, v[10:11]
-; GISEL-NEXT:    v_mul_lo_u32 v10, v9, v4
+; GISEL-NEXT:    v_mov_b32_e32 v9, v5
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v6, v8, v[9:10]
 ; GISEL-NEXT:    v_mul_hi_u32 v11, v7, v4
-; GISEL-NEXT:    v_mul_lo_u32 v8, v7, v13
-; GISEL-NEXT:    v_mul_lo_u32 v4, v9, v13
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v10, v8
+; GISEL-NEXT:    v_mul_hi_u32 v12, v8, v4
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], s6, v7, v[9:10]
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v4
+; GISEL-NEXT:    v_mul_lo_u32 v13, v7, v9
+; GISEL-NEXT:    v_mul_lo_u32 v4, v8, v9
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v10, v13
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v14, v8
-; GISEL-NEXT:    v_mul_hi_u32 v14, v7, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; GISEL-NEXT:    v_mul_hi_u32 v14, v7, v9
 ; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v12
 ; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
-; GISEL-NEXT:    v_mul_hi_u32 v13, v9, v13
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v14, v8
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v13, v8
+; GISEL-NEXT:    v_mul_hi_u32 v9, v8, v9
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v13
 ; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v7, v4
 ; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v6, v16, 0
-; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, v9, v8, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, v8, v9, vcc
 ; GISEL-NEXT:    v_mov_b32_e32 v4, v14
 ; GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v6, v17, v[4:5]
-; GISEL-NEXT:    v_ashrrev_i32_e32 v8, 31, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v8
+; GISEL-NEXT:    v_mul_lo_u32 v4, v17, v13
 ; GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], s6, v16, v[14:15]
-; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v8, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v15, v0, v8
-; GISEL-NEXT:    v_mul_lo_u32 v0, v17, v13
-; GISEL-NEXT:    v_mul_lo_u32 v4, v16, v14
-; GISEL-NEXT:    v_xor_b32_e32 v18, v1, v8
-; GISEL-NEXT:    v_mul_hi_u32 v1, v16, v13
-; GISEL-NEXT:    v_mul_hi_u32 v13, v17, v13
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
+; GISEL-NEXT:    s_mov_b32 s6, 1
+; GISEL-NEXT:    s_cmp_lg_u32 s6, 0
+; GISEL-NEXT:    v_mul_lo_u32 v9, v16, v14
+; GISEL-NEXT:    s_subb_u32 s6, 0, 0
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; GISEL-NEXT:    v_mul_hi_u32 v9, v16, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
-; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v1, v17, v14
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v4, v0
-; GISEL-NEXT:    v_mul_hi_u32 v4, v16, v14
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
+; GISEL-NEXT:    v_mul_hi_u32 v9, v17, v13
+; GISEL-NEXT:    v_mul_lo_u32 v13, v17, v14
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v15, v4
+; GISEL-NEXT:    v_mul_hi_u32 v15, v16, v14
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v13, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v13, v4
-; GISEL-NEXT:    v_mul_hi_u32 v13, v17, v14
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v9, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v9
+; GISEL-NEXT:    v_ashrrev_i32_e32 v9, 31, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v9
+; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v9, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v18, v0, v9
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v15, v4
+; GISEL-NEXT:    v_mul_hi_u32 v4, v17, v14
+; GISEL-NEXT:    v_xor_b32_e32 v19, v1, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v13, v1
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
 ; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v17, v1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v13, v18, v0
-; GISEL-NEXT:    v_mul_lo_u32 v14, v15, v1
-; GISEL-NEXT:    v_mul_hi_u32 v16, v15, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v18, v0
+; GISEL-NEXT:    v_mul_lo_u32 v13, v19, v0
+; GISEL-NEXT:    v_mul_lo_u32 v14, v18, v1
+; GISEL-NEXT:    v_mul_hi_u32 v15, v18, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v19, v0
 ; GISEL-NEXT:    v_mov_b32_e32 v4, 0x12d8fb
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v16, v18, v1
+; GISEL-NEXT:    v_mul_lo_u32 v15, v19, v1
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_mul_hi_u32 v14, v15, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; GISEL-NEXT:    v_mul_hi_u32 v14, v18, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v15, v0
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v16, v14
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v0, v13
-; GISEL-NEXT:    v_mul_hi_u32 v17, v18, v1
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v16, 0
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v0, v13
+; GISEL-NEXT:    v_mul_hi_u32 v16, v19, v1
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v15, 0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v13
-; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v4, v17, v[1:2]
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v15, v0
-; GISEL-NEXT:    v_subb_u32_e64 v1, s[4:5], v18, v13, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v13, s[4:5], v18, v13
+; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v13
+; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v4, v16, v[1:2]
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v18, v0
+; GISEL-NEXT:    v_subb_u32_e64 v1, s[4:5], v19, v13, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v13, s[4:5], v19, v13
 ; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v0, v4
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[4:5]
 ; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v1
 ; GISEL-NEXT:    v_subbrev_u32_e32 v1, vcc, 0, v13, vcc
 ; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v4
 ; GISEL-NEXT:    v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, 1, v16
-; GISEL-NEXT:    v_addc_u32_e32 v15, vcc, 0, v17, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, 1, v15
+; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, 0, v16, vcc
 ; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v0, v4
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, -1, vcc
 ; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v1
 ; GISEL-NEXT:    v_cndmask_b32_e32 v18, -1, v0, vcc
 ; GISEL-NEXT:    v_mov_b32_e32 v0, v5
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, -1, v14, s[4:5]
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v9, v[0:1]
-; GISEL-NEXT:    s_mov_b32 s6, 1
-; GISEL-NEXT:    s_cmp_lg_u32 s6, 0
-; GISEL-NEXT:    s_subb_u32 s6, 0, 0
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v8, v[0:1]
 ; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], s6, v7, v[0:1]
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, 1, v13
-; GISEL-NEXT:    v_mul_lo_u32 v19, v7, v0
-; GISEL-NEXT:    v_addc_u32_e32 v5, vcc, 0, v15, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v5, vcc, 0, v17, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v18
+; GISEL-NEXT:    v_mul_lo_u32 v18, v7, v0
 ; GISEL-NEXT:    v_cndmask_b32_e32 v13, v13, v1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v5, v15, v5, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v19
+; GISEL-NEXT:    v_cndmask_b32_e32 v5, v17, v5, vcc
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v18
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v0
+; GISEL-NEXT:    v_mul_lo_u32 v11, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
 ; GISEL-NEXT:    v_mul_hi_u32 v10, v7, v0
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
@@ -1313,34 +1316,34 @@ define <2 x i64> @v_sdiv_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; GISEL-NEXT:    v_mul_hi_u32 v0, v9, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v1
-; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v0, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v8, vcc, v8, v0, vcc
 ; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v7, 0
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v14
-; GISEL-NEXT:    v_cndmask_b32_e32 v11, v17, v5, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v9, v[1:2]
-; GISEL-NEXT:    v_xor_b32_e32 v1, v11, v8
+; GISEL-NEXT:    v_cndmask_b32_e32 v11, v16, v5, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v8, v[1:2]
+; GISEL-NEXT:    v_xor_b32_e32 v1, v11, v9
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v11, 31, v3
 ; GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], s6, v7, v[5:6]
-; GISEL-NEXT:    v_cndmask_b32_e32 v10, v16, v13, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v10, v15, v13, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v11
 ; GISEL-NEXT:    v_addc_u32_e32 v3, vcc, v3, v11, vcc
 ; GISEL-NEXT:    v_xor_b32_e32 v12, v2, v11
-; GISEL-NEXT:    v_mul_lo_u32 v2, v9, v0
+; GISEL-NEXT:    v_mul_lo_u32 v2, v8, v0
 ; GISEL-NEXT:    v_mul_lo_u32 v6, v7, v5
 ; GISEL-NEXT:    v_xor_b32_e32 v13, v3, v11
 ; GISEL-NEXT:    v_mul_hi_u32 v3, v7, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v9, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v9, v5
+; GISEL-NEXT:    v_mul_lo_u32 v3, v8, v5
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v6, v2
 ; GISEL-NEXT:    v_mul_hi_u32 v6, v7, v5
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
@@ -1348,19 +1351,19 @@ define <2 x i64> @v_sdiv_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v6
-; GISEL-NEXT:    v_mul_hi_u32 v5, v9, v5
+; GISEL-NEXT:    v_mul_hi_u32 v5, v8, v5
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v5, v2
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v7, v0
-; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v9, v2, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v8, v2, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v5, v13, v3
 ; GISEL-NEXT:    v_mul_lo_u32 v6, v12, v2
-; GISEL-NEXT:    v_xor_b32_e32 v10, v10, v8
+; GISEL-NEXT:    v_xor_b32_e32 v10, v10, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v7, v12, v3
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v10, v8
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v8, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v10, v9
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v9, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v7
@@ -1421,178 +1424,178 @@ define <2 x i64> @v_sdiv_v2i64_oddk_denom(<2 x i64> %num) {
 ; CGP-NEXT:    v_rcp_iflag_f32_e32 v4, v4
 ; CGP-NEXT:    v_mul_f32_e32 v4, 0x5f7ffffc, v4
 ; CGP-NEXT:    v_mul_f32_e32 v5, 0x2f800000, v4
-; CGP-NEXT:    v_trunc_f32_e32 v7, v5
-; CGP-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v7
-; CGP-NEXT:    v_cvt_u32_f32_e32 v8, v4
-; CGP-NEXT:    v_cvt_u32_f32_e32 v9, v7
-; CGP-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v6, v8, 0
-; CGP-NEXT:    v_mov_b32_e32 v7, v5
-; CGP-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v6, v9, v[7:8]
-; CGP-NEXT:    v_mul_hi_u32 v12, v9, v4
-; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], -1, v8, v[10:11]
-; CGP-NEXT:    v_mul_lo_u32 v10, v9, v4
-; CGP-NEXT:    v_mul_hi_u32 v11, v8, v4
-; CGP-NEXT:    v_mul_lo_u32 v4, v8, v13
-; CGP-NEXT:    v_mul_lo_u32 v7, v9, v13
-; CGP-NEXT:    v_mul_hi_u32 v14, v8, v13
-; CGP-NEXT:    v_mul_hi_u32 v13, v9, v13
+; CGP-NEXT:    v_trunc_f32_e32 v8, v5
+; CGP-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v8
+; CGP-NEXT:    v_cvt_u32_f32_e32 v7, v4
+; CGP-NEXT:    v_cvt_u32_f32_e32 v8, v8
+; CGP-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v6, v7, 0
+; CGP-NEXT:    v_mov_b32_e32 v9, v5
+; CGP-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v6, v8, v[9:10]
+; CGP-NEXT:    v_mul_hi_u32 v11, v7, v4
+; CGP-NEXT:    v_mul_hi_u32 v12, v8, v4
+; CGP-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], -1, v7, v[9:10]
+; CGP-NEXT:    v_mul_lo_u32 v10, v8, v4
+; CGP-NEXT:    v_mul_lo_u32 v4, v7, v9
+; CGP-NEXT:    v_mul_lo_u32 v13, v8, v9
+; CGP-NEXT:    v_mul_hi_u32 v14, v7, v9
+; CGP-NEXT:    v_mul_hi_u32 v9, v8, v9
 ; CGP-NEXT:    v_add_i32_e32 v4, vcc, v10, v4
 ; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v4, vcc, v4, v11
 ; CGP-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v4, vcc, v15, v4
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v7, v12
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v12
 ; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v7, v14
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
-; CGP-NEXT:    v_add_i32_e32 v4, vcc, v7, v4
-; CGP-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v14, v7
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v13, v7
-; CGP-NEXT:    v_add_i32_e32 v16, vcc, v8, v4
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v13, v4
+; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; CGP-NEXT:    v_add_i32_e32 v9, vcc, v9, v13
+; CGP-NEXT:    v_add_i32_e32 v16, vcc, v7, v4
 ; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v6, v16, 0
-; CGP-NEXT:    v_addc_u32_e32 v17, vcc, v9, v7, vcc
+; CGP-NEXT:    v_addc_u32_e32 v17, vcc, v8, v9, vcc
 ; CGP-NEXT:    v_mov_b32_e32 v4, v14
 ; CGP-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v6, v17, v[4:5]
-; CGP-NEXT:    v_ashrrev_i32_e32 v7, 31, v1
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v7
+; CGP-NEXT:    v_mul_lo_u32 v4, v17, v13
 ; CGP-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], -1, v16, v[14:15]
-; CGP-NEXT:    v_addc_u32_e32 v1, vcc, v1, v7, vcc
-; CGP-NEXT:    v_xor_b32_e32 v15, v0, v7
-; CGP-NEXT:    v_mul_lo_u32 v0, v17, v13
-; CGP-NEXT:    v_mul_lo_u32 v4, v16, v14
-; CGP-NEXT:    v_xor_b32_e32 v18, v1, v7
-; CGP-NEXT:    v_mul_hi_u32 v1, v16, v13
-; CGP-NEXT:    v_mul_hi_u32 v13, v17, v13
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
+; CGP-NEXT:    v_mul_lo_u32 v9, v16, v14
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; CGP-NEXT:    v_mul_hi_u32 v9, v16, v13
+; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
 ; CGP-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
-; CGP-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v1, v17, v14
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v4, v0
-; CGP-NEXT:    v_mul_hi_u32 v4, v16, v14
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
+; CGP-NEXT:    v_mul_hi_u32 v9, v17, v13
+; CGP-NEXT:    v_mul_lo_u32 v13, v17, v14
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v15, v4
+; CGP-NEXT:    v_mul_hi_u32 v15, v16, v14
+; CGP-NEXT:    v_add_i32_e32 v9, vcc, v13, v9
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v1, v4
-; CGP-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v4, vcc, v13, v4
-; CGP-NEXT:    v_mul_hi_u32 v13, v17, v14
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
+; CGP-NEXT:    v_add_i32_e32 v15, vcc, v9, v15
+; CGP-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v9
+; CGP-NEXT:    v_ashrrev_i32_e32 v9, 31, v1
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v9
+; CGP-NEXT:    v_addc_u32_e32 v1, vcc, v1, v9, vcc
+; CGP-NEXT:    v_xor_b32_e32 v18, v0, v9
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v15, v4
+; CGP-NEXT:    v_mul_hi_u32 v4, v17, v14
+; CGP-NEXT:    v_xor_b32_e32 v19, v1, v9
 ; CGP-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; CGP-NEXT:    v_add_i32_e32 v1, vcc, v13, v1
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
 ; CGP-NEXT:    v_addc_u32_e32 v1, vcc, v17, v1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v13, v18, v0
-; CGP-NEXT:    v_mul_lo_u32 v14, v15, v1
-; CGP-NEXT:    v_mul_hi_u32 v16, v15, v0
-; CGP-NEXT:    v_mul_hi_u32 v0, v18, v0
+; CGP-NEXT:    v_mul_lo_u32 v13, v19, v0
+; CGP-NEXT:    v_mul_lo_u32 v14, v18, v1
+; CGP-NEXT:    v_mul_hi_u32 v15, v18, v0
+; CGP-NEXT:    v_mul_hi_u32 v0, v19, v0
 ; CGP-NEXT:    v_mov_b32_e32 v4, 0x12d8fb
 ; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v16, v18, v1
+; CGP-NEXT:    v_mul_lo_u32 v15, v19, v1
 ; CGP-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; CGP-NEXT:    v_mul_hi_u32 v14, v15, v1
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
-; CGP-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; CGP-NEXT:    v_mul_hi_u32 v14, v18, v1
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v15, v0
+; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v14
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v14, vcc, v16, v14
-; CGP-NEXT:    v_add_i32_e32 v16, vcc, v0, v13
-; CGP-NEXT:    v_mul_hi_u32 v17, v18, v1
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v16, 0
+; CGP-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; CGP-NEXT:    v_add_i32_e32 v15, vcc, v0, v13
+; CGP-NEXT:    v_mul_hi_u32 v16, v19, v1
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v15, 0
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; CGP-NEXT:    v_add_i32_e32 v17, vcc, v17, v13
-; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v4, v17, v[1:2]
-; CGP-NEXT:    v_sub_i32_e32 v0, vcc, v15, v0
-; CGP-NEXT:    v_subb_u32_e64 v1, s[4:5], v18, v13, vcc
-; CGP-NEXT:    v_sub_i32_e64 v13, s[4:5], v18, v13
+; CGP-NEXT:    v_add_i32_e32 v16, vcc, v16, v13
+; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v4, v16, v[1:2]
+; CGP-NEXT:    v_sub_i32_e32 v0, vcc, v18, v0
+; CGP-NEXT:    v_subb_u32_e64 v1, s[4:5], v19, v13, vcc
+; CGP-NEXT:    v_sub_i32_e64 v13, s[4:5], v19, v13
 ; CGP-NEXT:    v_cmp_ge_u32_e64 s[4:5], v0, v4
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[4:5]
 ; CGP-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v1
 ; CGP-NEXT:    v_subbrev_u32_e32 v1, vcc, 0, v13, vcc
 ; CGP-NEXT:    v_sub_i32_e32 v0, vcc, v0, v4
 ; CGP-NEXT:    v_subbrev_u32_e32 v13, vcc, 0, v1, vcc
-; CGP-NEXT:    v_add_i32_e32 v15, vcc, 1, v16
-; CGP-NEXT:    v_addc_u32_e32 v18, vcc, 0, v17, vcc
+; CGP-NEXT:    v_add_i32_e32 v17, vcc, 1, v15
+; CGP-NEXT:    v_addc_u32_e32 v18, vcc, 0, v16, vcc
 ; CGP-NEXT:    v_cmp_ge_u32_e32 vcc, v0, v4
 ; CGP-NEXT:    v_mov_b32_e32 v0, v5
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, -1, v14, s[4:5]
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v9, v[0:1]
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v8, v[0:1]
 ; CGP-NEXT:    v_cndmask_b32_e64 v19, 0, -1, vcc
 ; CGP-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v13
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], -1, v8, v[0:1]
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], -1, v7, v[0:1]
 ; CGP-NEXT:    v_cndmask_b32_e32 v5, -1, v19, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, 1, v15
-; CGP-NEXT:    v_mul_lo_u32 v19, v8, v0
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, 1, v17
 ; CGP-NEXT:    v_addc_u32_e32 v13, vcc, 0, v18, vcc
 ; CGP-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v5
-; CGP-NEXT:    v_cndmask_b32_e32 v5, v15, v1, vcc
+; CGP-NEXT:    v_mul_lo_u32 v5, v7, v0
+; CGP-NEXT:    v_cndmask_b32_e32 v17, v17, v1, vcc
 ; CGP-NEXT:    v_cndmask_b32_e32 v13, v18, v13, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v19
-; CGP-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v5
+; CGP-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
 ; CGP-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v11, v9, v0
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
-; CGP-NEXT:    v_mul_hi_u32 v10, v8, v0
-; CGP-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
-; CGP-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; CGP-NEXT:    v_mul_lo_u32 v10, v8, v0
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v5, v1
+; CGP-NEXT:    v_mul_hi_u32 v5, v7, v0
+; CGP-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
 ; CGP-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; CGP-NEXT:    v_mul_hi_u32 v0, v9, v0
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
+; CGP-NEXT:    v_add_i32_e32 v5, vcc, v10, v5
 ; CGP-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
-; CGP-NEXT:    v_add_i32_e32 v8, vcc, v8, v1
-; CGP-NEXT:    v_addc_u32_e32 v9, vcc, v9, v0, vcc
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v8, 0
+; CGP-NEXT:    v_mul_hi_u32 v0, v8, v0
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v5, v1
+; CGP-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v5, vcc, v10, v5
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v5
+; CGP-NEXT:    v_add_i32_e32 v7, vcc, v7, v1
+; CGP-NEXT:    v_addc_u32_e32 v8, vcc, v8, v0, vcc
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v7, 0
 ; CGP-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v14
-; CGP-NEXT:    v_cndmask_b32_e32 v5, v16, v5, vcc
-; CGP-NEXT:    v_xor_b32_e32 v11, v5, v7
-; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v9, v[1:2]
-; CGP-NEXT:    v_cndmask_b32_e32 v10, v17, v13, vcc
-; CGP-NEXT:    v_xor_b32_e32 v1, v10, v7
-; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], -1, v8, v[5:6]
+; CGP-NEXT:    v_cndmask_b32_e32 v5, v15, v17, vcc
+; CGP-NEXT:    v_xor_b32_e32 v11, v5, v9
+; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v8, v[1:2]
+; CGP-NEXT:    v_cndmask_b32_e32 v10, v16, v13, vcc
+; CGP-NEXT:    v_xor_b32_e32 v1, v10, v9
+; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], -1, v7, v[5:6]
 ; CGP-NEXT:    v_ashrrev_i32_e32 v10, 31, v3
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v2, v10
 ; CGP-NEXT:    v_addc_u32_e32 v3, vcc, v3, v10, vcc
 ; CGP-NEXT:    v_xor_b32_e32 v12, v2, v10
-; CGP-NEXT:    v_mul_lo_u32 v2, v9, v0
-; CGP-NEXT:    v_mul_lo_u32 v6, v8, v5
+; CGP-NEXT:    v_mul_lo_u32 v2, v8, v0
+; CGP-NEXT:    v_mul_lo_u32 v6, v7, v5
 ; CGP-NEXT:    v_xor_b32_e32 v13, v3, v10
-; CGP-NEXT:    v_mul_hi_u32 v3, v8, v0
-; CGP-NEXT:    v_mul_hi_u32 v0, v9, v0
+; CGP-NEXT:    v_mul_hi_u32 v3, v7, v0
+; CGP-NEXT:    v_mul_hi_u32 v0, v8, v0
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v2, v6
 ; CGP-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
 ; CGP-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v3, v9, v5
+; CGP-NEXT:    v_mul_lo_u32 v3, v8, v5
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v6, v2
-; CGP-NEXT:    v_mul_hi_u32 v6, v8, v5
+; CGP-NEXT:    v_mul_hi_u32 v6, v7, v5
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
 ; CGP-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v6
 ; CGP-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v3, vcc, v3, v6
-; CGP-NEXT:    v_mul_hi_u32 v5, v9, v5
+; CGP-NEXT:    v_mul_hi_u32 v5, v8, v5
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
 ; CGP-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v5, v2
-; CGP-NEXT:    v_add_i32_e32 v3, vcc, v8, v0
-; CGP-NEXT:    v_addc_u32_e32 v2, vcc, v9, v2, vcc
+; CGP-NEXT:    v_add_i32_e32 v3, vcc, v7, v0
+; CGP-NEXT:    v_addc_u32_e32 v2, vcc, v8, v2, vcc
 ; CGP-NEXT:    v_mul_lo_u32 v5, v13, v3
 ; CGP-NEXT:    v_mul_lo_u32 v6, v12, v2
-; CGP-NEXT:    v_sub_i32_e32 v0, vcc, v11, v7
-; CGP-NEXT:    v_subb_u32_e32 v1, vcc, v1, v7, vcc
 ; CGP-NEXT:    v_mul_hi_u32 v7, v12, v3
+; CGP-NEXT:    v_sub_i32_e32 v0, vcc, v11, v9
+; CGP-NEXT:    v_subb_u32_e32 v1, vcc, v1, v9, vcc
 ; CGP-NEXT:    v_add_i32_e32 v5, vcc, v5, v6
 ; CGP-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v5, vcc, v5, v7
@@ -1851,6 +1854,7 @@ define <2 x i64> @v_sdiv_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_subb_u32_e32 v16, vcc, 0, v5, vcc
 ; GISEL-NEXT:    v_mac_f32_e32 v7, 0x4f800000, v11
 ; GISEL-NEXT:    v_rcp_iflag_f32_e32 v7, v7
+; GISEL-NEXT:    v_ashrrev_i32_e32 v6, 31, v10
 ; GISEL-NEXT:    v_mul_f32_e32 v7, 0x5f7ffffc, v7
 ; GISEL-NEXT:    v_mul_f32_e32 v11, 0x2f800000, v7
 ; GISEL-NEXT:    v_trunc_f32_e32 v13, v11
@@ -1861,22 +1865,22 @@ define <2 x i64> @v_sdiv_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_mov_b32_e32 v7, v12
 ; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v15, v17, v[7:8]
 ; GISEL-NEXT:    v_mul_lo_u32 v7, v17, v11
-; GISEL-NEXT:    v_mul_hi_u32 v18, v14, v11
 ; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v16, v14, v[12:13]
-; GISEL-NEXT:    v_mul_hi_u32 v11, v17, v11
 ; GISEL-NEXT:    v_mul_lo_u32 v13, v14, v12
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v18, v17, v12
-; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v13, v7
-; GISEL-NEXT:    v_mul_hi_u32 v13, v14, v12
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v18, v11
+; GISEL-NEXT:    v_mul_hi_u32 v13, v14, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_mul_hi_u32 v11, v17, v11
+; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v13, v17, v12
+; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v18, v7
+; GISEL-NEXT:    v_mul_hi_u32 v18, v14, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v18, v13
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v18
+; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v18
 ; GISEL-NEXT:    v_mul_hi_u32 v12, v17, v12
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v11, v7
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
@@ -1891,24 +1895,24 @@ define <2 x i64> @v_sdiv_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v7
 ; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v16, v14, v[12:13]
 ; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v7, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v13, v0, v7
+; GISEL-NEXT:    v_xor_b32_e32 v15, v0, v7
 ; GISEL-NEXT:    v_mul_lo_u32 v0, v17, v11
-; GISEL-NEXT:    v_mul_lo_u32 v15, v14, v12
+; GISEL-NEXT:    v_mul_lo_u32 v13, v14, v12
 ; GISEL-NEXT:    v_xor_b32_e32 v16, v1, v7
 ; GISEL-NEXT:    v_mul_hi_u32 v1, v14, v11
 ; GISEL-NEXT:    v_mul_hi_u32 v11, v17, v11
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v15
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v1, v17, v12
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v15, v0
-; GISEL-NEXT:    v_mul_hi_u32 v15, v14, v12
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v13, v0
+; GISEL-NEXT:    v_mul_hi_u32 v13, v14, v12
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v15
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v15
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
 ; GISEL-NEXT:    v_mul_hi_u32 v12, v17, v12
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
@@ -1917,164 +1921,166 @@ define <2 x i64> @v_sdiv_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v14, v0
 ; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v17, v1, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v11, v16, v0
-; GISEL-NEXT:    v_mul_lo_u32 v12, v13, v1
-; GISEL-NEXT:    v_mul_hi_u32 v14, v13, v0
+; GISEL-NEXT:    v_mul_lo_u32 v12, v15, v1
+; GISEL-NEXT:    v_mul_hi_u32 v13, v15, v0
 ; GISEL-NEXT:    v_mul_hi_u32 v0, v16, v0
-; GISEL-NEXT:    v_mul_hi_u32 v15, v16, v1
+; GISEL-NEXT:    v_xor_b32_e32 v7, v7, v4
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
 ; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v14
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v14, v16, v1
+; GISEL-NEXT:    v_mul_lo_u32 v13, v16, v1
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; GISEL-NEXT:    v_mul_hi_u32 v12, v13, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v14, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_mul_hi_u32 v12, v15, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v13, v0
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v12
 ; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v14, v12
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v0, v11
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v8, v14, 0
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v11
-; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v8, v15, v[1:2]
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v13, v0
-; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v5, v14, v[11:12]
-; GISEL-NEXT:    v_xor_b32_e32 v7, v7, v4
-; GISEL-NEXT:    v_subb_u32_e64 v1, s[4:5], v16, v11, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v6, s[4:5], v16, v11
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v1, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v0, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v1, v5
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v6, v5, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, v11, v12, s[4:5]
-; GISEL-NEXT:    v_subbrev_u32_e32 v11, vcc, 0, v1, vcc
-; GISEL-NEXT:    v_ashrrev_i32_e32 v6, 31, v10
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v12
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v11
+; GISEL-NEXT:    v_mul_hi_u32 v1, v16, v1
+; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v8, v0, 0
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v1, v13
+; GISEL-NEXT:    v_mov_b32_e32 v1, v12
+; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v8, v14, v[1:2]
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v9, v6
 ; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v10, v6, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v5, v0, v[12:13]
 ; GISEL-NEXT:    v_xor_b32_e32 v10, v1, v6
 ; GISEL-NEXT:    v_xor_b32_e32 v9, v9, v6
 ; GISEL-NEXT:    v_cvt_f32_u32_e32 v1, v10
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v12, v9
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, 1, v14
-; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, 0, v15, vcc
-; GISEL-NEXT:    v_mac_f32_e32 v1, 0x4f800000, v12
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v13, v9
+; GISEL-NEXT:    v_sub_i32_e32 v15, vcc, v15, v11
+; GISEL-NEXT:    v_sub_i32_e64 v11, s[4:5], v16, v12
+; GISEL-NEXT:    v_mac_f32_e32 v1, 0x4f800000, v13
 ; GISEL-NEXT:    v_rcp_iflag_f32_e32 v1, v1
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v11, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v0, v8
-; GISEL-NEXT:    v_mul_f32_e32 v0, 0x5f7ffffc, v1
-; GISEL-NEXT:    v_mul_f32_e32 v1, 0x2f800000, v0
-; GISEL-NEXT:    v_trunc_f32_e32 v18, v1
-; GISEL-NEXT:    v_mac_f32_e32 v0, 0xcf800000, v18
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v19, v0
+; GISEL-NEXT:    v_subb_u32_e64 v17, s[4:5], v16, v12, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v13, vcc, v11, v5, vcc
+; GISEL-NEXT:    v_mul_f32_e32 v1, 0x5f7ffffc, v1
+; GISEL-NEXT:    v_mul_f32_e32 v11, 0x2f800000, v1
+; GISEL-NEXT:    v_trunc_f32_e32 v16, v11
+; GISEL-NEXT:    v_mac_f32_e32 v1, 0xcf800000, v16
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v18, v1
+; GISEL-NEXT:    v_sub_i32_e32 v19, vcc, 0, v10
+; GISEL-NEXT:    v_subb_u32_e32 v20, vcc, 0, v9, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[6:7], v19, v18, 0
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v16, v16
+; GISEL-NEXT:    v_sub_i32_e32 v1, vcc, v15, v8
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v15, v8
+; GISEL-NEXT:    v_subbrev_u32_e32 v15, vcc, 0, v13, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v1, v8
+; GISEL-NEXT:    v_mov_b32_e32 v1, v12
+; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[6:7], v19, v16, v[1:2]
+; GISEL-NEXT:    v_mul_lo_u32 v1, v16, v11
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v15, v5
+; GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[6:7], v20, v18, v[12:13]
+; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v17, v5
+; GISEL-NEXT:    v_mul_lo_u32 v8, v18, v12
+; GISEL-NEXT:    v_add_i32_e64 v1, s[6:7], v1, v8
+; GISEL-NEXT:    v_mul_hi_u32 v8, v18, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, s[6:7]
+; GISEL-NEXT:    v_mul_hi_u32 v11, v16, v11
+; GISEL-NEXT:    v_add_i32_e64 v1, s[6:7], v1, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, -1, s[8:9]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, -1, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v20, vcc, 0, v10
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v20, v19, 0
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v18, v18
-; GISEL-NEXT:    v_subb_u32_e32 v21, vcc, 0, v9, vcc
-; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v11, v5
-; GISEL-NEXT:    v_cndmask_b32_e32 v5, v12, v8, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v20, v18, v[1:2]
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, 1, v16
-; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v21, v19, v[11:12]
-; GISEL-NEXT:    v_addc_u32_e32 v8, vcc, 0, v17, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v15, v5
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v17, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, -1, s[8:9]
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v1, v8, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, 1, v0
+; GISEL-NEXT:    v_cndmask_b32_e64 v5, v15, v21, s[4:5]
+; GISEL-NEXT:    v_addc_u32_e32 v15, vcc, 0, v14, vcc
+; GISEL-NEXT:    v_add_i32_e32 v17, vcc, 1, v8
+; GISEL-NEXT:    v_addc_u32_e32 v21, vcc, 0, v15, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v1
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v8, v17, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v8, v15, v21, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[6:7]
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
+; GISEL-NEXT:    v_mul_lo_u32 v15, v16, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v15, v11
+; GISEL-NEXT:    v_mul_hi_u32 v15, v18, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
+; GISEL-NEXT:    v_mul_hi_u32 v12, v16, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v17, v15
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v15, v13
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v18, v11
+; GISEL-NEXT:    v_addc_u32_e32 v15, vcc, v16, v12, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v19, v13, 0
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v5
-; GISEL-NEXT:    v_cndmask_b32_e32 v5, v16, v1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v1, v18, v0
-; GISEL-NEXT:    v_mul_lo_u32 v12, v19, v11
-; GISEL-NEXT:    v_mul_hi_u32 v16, v19, v0
-; GISEL-NEXT:    v_cndmask_b32_e32 v8, v17, v8, vcc
-; GISEL-NEXT:    v_mul_hi_u32 v0, v18, v0
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v16
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v16, v18, v11
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v12, v1
-; GISEL-NEXT:    v_mul_hi_u32 v12, v19, v11
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v16, v12
-; GISEL-NEXT:    v_mul_hi_u32 v11, v18, v11
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
+; GISEL-NEXT:    v_cndmask_b32_e32 v5, v0, v1, vcc
+; GISEL-NEXT:    v_mov_b32_e32 v0, v12
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v19, v15, v[0:1]
+; GISEL-NEXT:    v_ashrrev_i32_e32 v12, 31, v3
+; GISEL-NEXT:    v_cndmask_b32_e32 v8, v14, v8, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v20, v13, v[0:1]
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v2, v12
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v3, v12, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v14, v1, v12
+; GISEL-NEXT:    v_mul_lo_u32 v1, v15, v11
+; GISEL-NEXT:    v_mul_lo_u32 v3, v13, v0
+; GISEL-NEXT:    v_xor_b32_e32 v16, v2, v12
+; GISEL-NEXT:    v_mul_hi_u32 v2, v13, v11
+; GISEL-NEXT:    v_mul_hi_u32 v4, v15, v11
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v3
+; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v2
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v12, v1
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v11, v1
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v19, v0
-; GISEL-NEXT:    v_addc_u32_e32 v12, vcc, v18, v1, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v20, v11, 0
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
-; GISEL-NEXT:    v_cndmask_b32_e32 v13, v14, v5, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v20, v12, v[1:2]
-; GISEL-NEXT:    v_xor_b32_e32 v1, v13, v7
-; GISEL-NEXT:    v_ashrrev_i32_e32 v13, 31, v3
-; GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v21, v11, v[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e32 v8, v15, v8, vcc
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v13
-; GISEL-NEXT:    v_addc_u32_e32 v3, vcc, v3, v13, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v5, v2, v13
-; GISEL-NEXT:    v_mul_lo_u32 v2, v12, v0
-; GISEL-NEXT:    v_mul_lo_u32 v14, v11, v4
-; GISEL-NEXT:    v_xor_b32_e32 v15, v3, v13
-; GISEL-NEXT:    v_mul_hi_u32 v3, v11, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v12, v0
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v2, v15, v0
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v3, v1
+; GISEL-NEXT:    v_mul_hi_u32 v3, v13, v0
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v12, v4
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v14, v2
-; GISEL-NEXT:    v_mul_hi_u32 v14, v11, v4
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v14
-; GISEL-NEXT:    v_mul_hi_u32 v4, v12, v4
+; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v4, v3
+; GISEL-NEXT:    v_mul_hi_u32 v0, v15, v0
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v2, v1
+; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v13, v1
+; GISEL-NEXT:    v_addc_u32_e32 v0, vcc, v15, v0, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v2, v16, v1
+; GISEL-NEXT:    v_mul_lo_u32 v3, v14, v0
+; GISEL-NEXT:    v_mul_hi_u32 v4, v14, v1
+; GISEL-NEXT:    v_mul_hi_u32 v1, v16, v1
+; GISEL-NEXT:    v_xor_b32_e32 v5, v5, v7
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
+; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v4
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v4, v16, v0
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v4, v2
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v11, v0
-; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v12, v2, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v15, v0
-; GISEL-NEXT:    v_mul_lo_u32 v4, v5, v2
-; GISEL-NEXT:    v_mul_hi_u32 v11, v5, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v15, v0
-; GISEL-NEXT:    v_mul_hi_u32 v12, v15, v2
-; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v4
+; GISEL-NEXT:    v_mul_hi_u32 v3, v14, v0
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v11
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v11, v15, v2
-; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v4, v3
-; GISEL-NEXT:    v_mul_hi_u32 v4, v5, v2
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v11, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v11, v4
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v0, v3
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v3
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v1, v2
+; GISEL-NEXT:    v_mul_hi_u32 v0, v16, v0
 ; GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v10, v11, 0
-; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v4, v0
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v0
+; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v0, v1
 ; GISEL-NEXT:    v_mov_b32_e32 v0, v3
-; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v10, v12, v[0:1]
+; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v10, v13, v[0:1]
 ; GISEL-NEXT:    v_xor_b32_e32 v8, v8, v7
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v1, v7
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v5, v7
 ; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v9, v11, v[3:4]
 ; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v8, v7, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v5, v2
-; GISEL-NEXT:    v_subb_u32_e64 v4, s[4:5], v15, v3, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v15, v3
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v14, v2
+; GISEL-NEXT:    v_subb_u32_e64 v4, s[4:5], v16, v3, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v16, v3
 ; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v4, v9
 ; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v9, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, -1, s[4:5]
@@ -2085,7 +2091,7 @@ define <2 x i64> @v_sdiv_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e64 v4, v5, v7, s[4:5]
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, 1, v11
-; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, 0, v12, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, 0, v13, vcc
 ; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v3, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, -1, vcc
 ; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v10
@@ -2099,8 +2105,8 @@ define <2 x i64> @v_sdiv_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_cndmask_b32_e32 v3, v7, v8, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v4
 ; GISEL-NEXT:    v_cndmask_b32_e32 v2, v11, v2, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v4, v13, v6
-; GISEL-NEXT:    v_cndmask_b32_e32 v3, v12, v3, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v4, v12, v6
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v13, v3, vcc
 ; GISEL-NEXT:    v_xor_b32_e32 v2, v2, v4
 ; GISEL-NEXT:    v_xor_b32_e32 v3, v3, v4
 ; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v4
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll
index 5f568839a28dd..40f29c56c8f12 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/sdivrem.ll
@@ -1537,36 +1537,36 @@ define amdgpu_kernel void @sdivrem_v2i64(ptr addrspace(1) %out0, ptr addrspace(1
 ; GFX8-NEXT:    v_cndmask_b32_e64 v10, v10, v11, s[0:1]
 ; GFX8-NEXT:    v_subrev_u32_e32 v11, vcc, s2, v2
 ; GFX8-NEXT:    v_subbrev_u32_e64 v12, s[0:1], 0, v6, vcc
-; GFX8-NEXT:    v_add_u32_e64 v13, s[0:1], 1, v8
-; GFX8-NEXT:    v_addc_u32_e64 v14, s[0:1], 0, v9, s[0:1]
 ; GFX8-NEXT:    v_cmp_le_u32_e64 s[0:1], s3, v12
-; GFX8-NEXT:    v_cndmask_b32_e64 v15, 0, -1, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e64 v13, 0, -1, s[0:1]
 ; GFX8-NEXT:    v_cmp_le_u32_e64 s[0:1], s2, v11
-; GFX8-NEXT:    v_subb_u32_e32 v3, vcc, v6, v3, vcc
-; GFX8-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[0:1]
 ; GFX8-NEXT:    v_cmp_eq_u32_e64 s[0:1], s3, v12
-; GFX8-NEXT:    v_subrev_u32_e32 v6, vcc, s2, v11
-; GFX8-NEXT:    v_cndmask_b32_e64 v15, v15, v16, s[0:1]
-; GFX8-NEXT:    v_add_u32_e64 v16, s[0:1], 1, v13
-; GFX8-NEXT:    v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
-; GFX8-NEXT:    v_addc_u32_e64 v17, s[0:1], 0, v14, s[0:1]
-; GFX8-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v15
-; GFX8-NEXT:    v_cndmask_b32_e32 v13, v13, v16, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v14, v14, v17, vcc
+; GFX8-NEXT:    v_cndmask_b32_e64 v13, v13, v14, s[0:1]
+; GFX8-NEXT:    v_add_u32_e64 v14, s[0:1], 1, v8
+; GFX8-NEXT:    v_subb_u32_e32 v3, vcc, v6, v3, vcc
+; GFX8-NEXT:    v_addc_u32_e64 v15, s[0:1], 0, v9, s[0:1]
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 1, v14
+; GFX8-NEXT:    v_addc_u32_e32 v16, vcc, 0, v15, vcc
+; GFX8-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
+; GFX8-NEXT:    v_subrev_u32_e64 v13, s[0:1], s2, v11
+; GFX8-NEXT:    v_subbrev_u32_e64 v3, s[0:1], 0, v3, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e32 v6, v14, v6, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v14, v15, v16, vcc
 ; GFX8-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v10
-; GFX8-NEXT:    v_cndmask_b32_e32 v6, v11, v6, vcc
+; GFX8-NEXT:    v_cndmask_b32_e64 v6, v8, v6, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e64 v8, v9, v14, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e32 v9, v11, v13, vcc
 ; GFX8-NEXT:    v_cndmask_b32_e32 v3, v12, v3, vcc
-; GFX8-NEXT:    v_cndmask_b32_e64 v8, v8, v13, s[0:1]
-; GFX8-NEXT:    v_cndmask_b32_e64 v9, v9, v14, s[0:1]
-; GFX8-NEXT:    v_cndmask_b32_e64 v6, v2, v6, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e64 v9, v2, v9, s[0:1]
 ; GFX8-NEXT:    v_cndmask_b32_e64 v7, v7, v3, s[0:1]
 ; GFX8-NEXT:    s_xor_b64 s[0:1], s[6:7], s[10:11]
-; GFX8-NEXT:    v_xor_b32_e32 v2, s0, v8
-; GFX8-NEXT:    v_xor_b32_e32 v3, s1, v9
-; GFX8-NEXT:    v_mov_b32_e32 v8, s1
+; GFX8-NEXT:    v_xor_b32_e32 v2, s0, v6
+; GFX8-NEXT:    v_xor_b32_e32 v3, s1, v8
+; GFX8-NEXT:    v_mov_b32_e32 v6, s1
 ; GFX8-NEXT:    v_subrev_u32_e32 v2, vcc, s0, v2
-; GFX8-NEXT:    v_subb_u32_e32 v3, vcc, v3, v8, vcc
-; GFX8-NEXT:    v_xor_b32_e32 v6, s6, v6
+; GFX8-NEXT:    v_subb_u32_e32 v3, vcc, v3, v6, vcc
+; GFX8-NEXT:    v_xor_b32_e32 v6, s6, v9
 ; GFX8-NEXT:    v_xor_b32_e32 v7, s6, v7
 ; GFX8-NEXT:    v_mov_b32_e32 v8, s6
 ; GFX8-NEXT:    v_subrev_u32_e32 v6, vcc, s6, v6
@@ -1635,7 +1635,6 @@ define amdgpu_kernel void @sdivrem_v2i64(ptr addrspace(1) %out0, ptr addrspace(1
 ; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v3, v0
 ; GFX9-NEXT:    v_addc_co_u32_e32 v4, vcc, v4, v1, vcc
 ; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[0:1], s16, v3, 0
-; GFX9-NEXT:    v_mov_b32_e32 v7, s9
 ; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s16, v4, v[1:2]
 ; GFX9-NEXT:    v_mul_hi_u32 v6, v3, v0
 ; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s17, v3, v[1:2]
@@ -1680,206 +1679,206 @@ define amdgpu_kernel void @sdivrem_v2i64(ptr addrspace(1) %out0, ptr addrspace(1
 ; GFX9-NEXT:    v_add_co_u32_e32 v0, vcc, v0, v3
 ; GFX9-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
 ; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v0, v2
-; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s8, v5, 0
-; GFX9-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
+; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[0:1], s8, v5, 0
+; GFX9-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; GFX9-NEXT:    v_add_u32_e32 v3, v4, v3
-; GFX9-NEXT:    v_add3_u32 v4, v3, v0, v6
-; GFX9-NEXT:    v_mov_b32_e32 v0, v2
-; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s8, v4, v[0:1]
+; GFX9-NEXT:    v_add3_u32 v3, v3, v2, v6
+; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s8, v3, v[1:2]
 ; GFX9-NEXT:    v_mov_b32_e32 v6, s11
-; GFX9-NEXT:    v_sub_co_u32_e32 v8, vcc, s10, v1
-; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s9, v5, v[2:3]
+; GFX9-NEXT:    v_sub_co_u32_e32 v7, vcc, s10, v0
+; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s9, v5, v[1:2]
+; GFX9-NEXT:    v_mov_b32_e32 v4, s9
 ; GFX9-NEXT:    s_ashr_i32 s10, s3, 31
-; GFX9-NEXT:    v_mov_b32_e32 v0, 0
-; GFX9-NEXT:    v_subb_co_u32_e64 v6, s[0:1], v6, v2, vcc
-; GFX9-NEXT:    v_sub_u32_e32 v1, s11, v2
+; GFX9-NEXT:    v_subb_co_u32_e64 v6, s[0:1], v6, v1, vcc
+; GFX9-NEXT:    v_sub_u32_e32 v0, s11, v1
 ; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s9, v6
+; GFX9-NEXT:    v_cndmask_b32_e64 v1, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s8, v7
+; GFX9-NEXT:    v_subb_co_u32_e32 v0, vcc, v0, v4, vcc
 ; GFX9-NEXT:    v_cndmask_b32_e64 v2, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s8, v8
-; GFX9-NEXT:    v_subb_co_u32_e32 v1, vcc, v1, v7, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v3, 0, -1, s[0:1]
 ; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s9, v6
-; GFX9-NEXT:    v_subrev_co_u32_e32 v10, vcc, s8, v8
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, v2, v3, s[0:1]
-; GFX9-NEXT:    v_subbrev_co_u32_e64 v11, s[0:1], 0, v1, vcc
-; GFX9-NEXT:    v_add_co_u32_e64 v3, s[0:1], 1, v5
-; GFX9-NEXT:    v_addc_co_u32_e64 v12, s[0:1], 0, v4, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s9, v11
-; GFX9-NEXT:    v_cndmask_b32_e64 v2, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s8, v10
-; GFX9-NEXT:    v_cndmask_b32_e64 v13, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s9, v11
-; GFX9-NEXT:    v_cndmask_b32_e64 v13, v2, v13, s[0:1]
-; GFX9-NEXT:    v_add_co_u32_e64 v14, s[0:1], 1, v3
-; GFX9-NEXT:    v_addc_co_u32_e64 v15, s[0:1], 0, v12, s[0:1]
+; GFX9-NEXT:    v_subrev_co_u32_e32 v9, vcc, s8, v7
+; GFX9-NEXT:    v_cndmask_b32_e64 v8, v1, v2, s[0:1]
+; GFX9-NEXT:    v_subbrev_co_u32_e64 v10, s[0:1], 0, v0, vcc
+; GFX9-NEXT:    v_add_co_u32_e64 v2, s[0:1], 1, v5
+; GFX9-NEXT:    v_addc_co_u32_e64 v11, s[0:1], 0, v3, s[0:1]
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s9, v10
+; GFX9-NEXT:    v_cndmask_b32_e64 v1, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s8, v9
+; GFX9-NEXT:    v_cndmask_b32_e64 v12, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s9, v10
+; GFX9-NEXT:    v_cndmask_b32_e64 v12, v1, v12, s[0:1]
+; GFX9-NEXT:    v_add_co_u32_e64 v13, s[0:1], 1, v2
+; GFX9-NEXT:    v_addc_co_u32_e64 v14, s[0:1], 0, v11, s[0:1]
 ; GFX9-NEXT:    s_add_u32 s0, s18, s6
 ; GFX9-NEXT:    s_addc_u32 s1, s19, s6
 ; GFX9-NEXT:    s_add_u32 s2, s2, s10
 ; GFX9-NEXT:    s_mov_b32 s11, s10
 ; GFX9-NEXT:    s_addc_u32 s3, s3, s10
 ; GFX9-NEXT:    s_xor_b64 s[2:3], s[2:3], s[10:11]
-; GFX9-NEXT:    v_cvt_f32_u32_e32 v2, s3
-; GFX9-NEXT:    v_cvt_f32_u32_e32 v16, s2
-; GFX9-NEXT:    v_subb_co_u32_e32 v1, vcc, v1, v7, vcc
-; GFX9-NEXT:    v_mul_f32_e32 v2, 0x4f800000, v2
-; GFX9-NEXT:    v_add_f32_e32 v2, v2, v16
-; GFX9-NEXT:    v_rcp_iflag_f32_e32 v2, v2
-; GFX9-NEXT:    v_subrev_co_u32_e32 v7, vcc, s8, v10
-; GFX9-NEXT:    v_subbrev_co_u32_e32 v16, vcc, 0, v1, vcc
-; GFX9-NEXT:    v_mul_f32_e32 v1, 0x5f7ffffc, v2
-; GFX9-NEXT:    v_mul_f32_e32 v2, 0x2f800000, v1
-; GFX9-NEXT:    v_trunc_f32_e32 v17, v2
-; GFX9-NEXT:    v_mul_f32_e32 v2, 0xcf800000, v17
-; GFX9-NEXT:    v_add_f32_e32 v1, v2, v1
-; GFX9-NEXT:    v_cvt_u32_f32_e32 v18, v1
+; GFX9-NEXT:    v_cvt_f32_u32_e32 v1, s3
+; GFX9-NEXT:    v_cvt_f32_u32_e32 v15, s2
+; GFX9-NEXT:    v_subb_co_u32_e32 v0, vcc, v0, v4, vcc
+; GFX9-NEXT:    v_mul_f32_e32 v1, 0x4f800000, v1
+; GFX9-NEXT:    v_add_f32_e32 v1, v1, v15
+; GFX9-NEXT:    v_rcp_iflag_f32_e32 v1, v1
+; GFX9-NEXT:    v_subrev_co_u32_e32 v4, vcc, s8, v9
+; GFX9-NEXT:    v_subbrev_co_u32_e32 v15, vcc, 0, v0, vcc
+; GFX9-NEXT:    v_mul_f32_e32 v0, 0x5f7ffffc, v1
+; GFX9-NEXT:    v_mul_f32_e32 v1, 0x2f800000, v0
+; GFX9-NEXT:    v_trunc_f32_e32 v16, v1
+; GFX9-NEXT:    v_mul_f32_e32 v1, 0xcf800000, v16
+; GFX9-NEXT:    v_add_f32_e32 v0, v1, v0
+; GFX9-NEXT:    v_cvt_u32_f32_e32 v17, v0
 ; GFX9-NEXT:    s_xor_b64 s[8:9], s[0:1], s[6:7]
 ; GFX9-NEXT:    s_sub_u32 s5, 0, s2
-; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
-; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s5, v18, 0
-; GFX9-NEXT:    v_cndmask_b32_e32 v13, v3, v14, vcc
-; GFX9-NEXT:    v_cvt_u32_f32_e32 v14, v17
+; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v12
+; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[0:1], s5, v17, 0
+; GFX9-NEXT:    v_cndmask_b32_e32 v12, v2, v13, vcc
+; GFX9-NEXT:    v_cvt_u32_f32_e32 v13, v16
 ; GFX9-NEXT:    s_subb_u32 s20, 0, s3
-; GFX9-NEXT:    v_cndmask_b32_e32 v12, v12, v15, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v7, v10, v7, vcc
-; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s5, v14, v[2:3]
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v9
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, v4, v12, s[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[18:19], s20, v18, v[2:3]
-; GFX9-NEXT:    v_mul_lo_u32 v3, v14, v1
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, v11, v16, vcc
-; GFX9-NEXT:    v_mul_lo_u32 v4, v18, v2
-; GFX9-NEXT:    v_mul_hi_u32 v11, v18, v1
-; GFX9-NEXT:    v_mul_hi_u32 v1, v14, v1
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, v5, v13, s[0:1]
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v3, v4
-; GFX9-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v3, v11
+; GFX9-NEXT:    v_cndmask_b32_e32 v11, v11, v14, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v4, v9, v4, vcc
+; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s5, v13, v[1:2]
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v8
+; GFX9-NEXT:    v_cndmask_b32_e64 v8, v3, v11, s[0:1]
+; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[18:19], s20, v17, v[1:2]
+; GFX9-NEXT:    v_mul_lo_u32 v2, v13, v0
+; GFX9-NEXT:    v_cndmask_b32_e32 v9, v10, v15, vcc
+; GFX9-NEXT:    v_mul_lo_u32 v3, v17, v1
+; GFX9-NEXT:    v_mul_hi_u32 v10, v17, v0
+; GFX9-NEXT:    v_mul_hi_u32 v0, v13, v0
+; GFX9-NEXT:    v_cndmask_b32_e64 v5, v5, v12, s[0:1]
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v2, v3
 ; GFX9-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GFX9-NEXT:    v_mul_lo_u32 v11, v14, v2
-; GFX9-NEXT:    v_add_u32_e32 v3, v4, v3
-; GFX9-NEXT:    v_mul_hi_u32 v4, v18, v2
-; GFX9-NEXT:    v_mul_hi_u32 v2, v14, v2
-; GFX9-NEXT:    v_add_co_u32_e32 v1, vcc, v11, v1
-; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v1, vcc, v1, v4
-; GFX9-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v1, vcc, v1, v3
-; GFX9-NEXT:    v_add_u32_e32 v4, v11, v4
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v2, v10
+; GFX9-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
+; GFX9-NEXT:    v_mul_lo_u32 v10, v13, v1
+; GFX9-NEXT:    v_add_u32_e32 v2, v3, v2
+; GFX9-NEXT:    v_mul_hi_u32 v3, v17, v1
+; GFX9-NEXT:    v_mul_hi_u32 v1, v13, v1
+; GFX9-NEXT:    v_add_co_u32_e32 v0, vcc, v10, v0
+; GFX9-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v0, vcc, v0, v3
 ; GFX9-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v11, vcc, v18, v1
-; GFX9-NEXT:    v_add3_u32 v2, v4, v3, v2
-; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[18:19], s5, v11, 0
-; GFX9-NEXT:    v_addc_co_u32_e32 v12, vcc, v14, v2, vcc
-; GFX9-NEXT:    v_mov_b32_e32 v1, v4
-; GFX9-NEXT:    v_cndmask_b32_e64 v7, v8, v7, s[0:1]
-; GFX9-NEXT:    v_cndmask_b32_e64 v6, v6, v10, s[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s5, v12, v[1:2]
-; GFX9-NEXT:    v_xor_b32_e32 v8, s16, v5
-; GFX9-NEXT:    v_xor_b32_e32 v9, s17, v9
-; GFX9-NEXT:    v_mad_u64_u32 v[4:5], s[0:1], s20, v11, v[1:2]
-; GFX9-NEXT:    v_mov_b32_e32 v10, s17
-; GFX9-NEXT:    v_subrev_co_u32_e32 v1, vcc, s16, v8
-; GFX9-NEXT:    v_xor_b32_e32 v5, s4, v7
-; GFX9-NEXT:    v_mul_lo_u32 v7, v12, v3
-; GFX9-NEXT:    v_mul_lo_u32 v8, v11, v4
-; GFX9-NEXT:    v_subb_co_u32_e32 v2, vcc, v9, v10, vcc
-; GFX9-NEXT:    v_mul_hi_u32 v9, v11, v3
-; GFX9-NEXT:    v_add_co_u32_e32 v7, vcc, v7, v8
-; GFX9-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v7, vcc, v7, v9
-; GFX9-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; GFX9-NEXT:    v_mul_lo_u32 v9, v12, v4
-; GFX9-NEXT:    v_mul_hi_u32 v3, v12, v3
-; GFX9-NEXT:    v_add_u32_e32 v7, v8, v7
-; GFX9-NEXT:    v_mul_hi_u32 v8, v11, v4
-; GFX9-NEXT:    v_mul_hi_u32 v4, v12, v4
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v9, v3
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v3, v8
-; GFX9-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v3, v7
-; GFX9-NEXT:    v_add_u32_e32 v8, v9, v8
+; GFX9-NEXT:    v_add_co_u32_e32 v0, vcc, v0, v2
+; GFX9-NEXT:    v_add_u32_e32 v3, v10, v3
+; GFX9-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v10, vcc, v17, v0
+; GFX9-NEXT:    v_add3_u32 v1, v3, v2, v1
+; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[18:19], s5, v10, 0
+; GFX9-NEXT:    v_addc_co_u32_e32 v11, vcc, v13, v1, vcc
+; GFX9-NEXT:    v_mov_b32_e32 v0, v3
+; GFX9-NEXT:    v_cndmask_b32_e64 v7, v7, v4, s[0:1]
+; GFX9-NEXT:    v_cndmask_b32_e64 v6, v6, v9, s[0:1]
+; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[0:1], s5, v11, v[0:1]
+; GFX9-NEXT:    v_xor_b32_e32 v5, s16, v5
+; GFX9-NEXT:    v_xor_b32_e32 v8, s17, v8
+; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], s20, v10, v[0:1]
+; GFX9-NEXT:    v_mov_b32_e32 v9, s17
+; GFX9-NEXT:    v_subrev_co_u32_e32 v0, vcc, s16, v5
+; GFX9-NEXT:    v_xor_b32_e32 v4, s4, v7
+; GFX9-NEXT:    v_mul_lo_u32 v5, v11, v2
+; GFX9-NEXT:    v_mul_lo_u32 v7, v10, v3
+; GFX9-NEXT:    v_subb_co_u32_e32 v1, vcc, v8, v9, vcc
+; GFX9-NEXT:    v_mul_hi_u32 v8, v10, v2
+; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v5, v7
 ; GFX9-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; GFX9-NEXT:    v_add3_u32 v4, v8, v7, v4
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v11, v3
-; GFX9-NEXT:    v_addc_co_u32_e32 v4, vcc, v12, v4, vcc
-; GFX9-NEXT:    v_mul_lo_u32 v7, s9, v3
-; GFX9-NEXT:    v_mul_lo_u32 v8, s8, v4
-; GFX9-NEXT:    v_mul_hi_u32 v10, s8, v3
-; GFX9-NEXT:    v_mul_hi_u32 v3, s9, v3
-; GFX9-NEXT:    v_mul_hi_u32 v12, s9, v4
-; GFX9-NEXT:    v_add_co_u32_e32 v7, vcc, v7, v8
+; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v5, v8
+; GFX9-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
+; GFX9-NEXT:    v_mul_lo_u32 v8, v11, v3
+; GFX9-NEXT:    v_mul_hi_u32 v2, v11, v2
+; GFX9-NEXT:    v_add_u32_e32 v5, v7, v5
+; GFX9-NEXT:    v_mul_hi_u32 v7, v10, v3
+; GFX9-NEXT:    v_mul_hi_u32 v3, v11, v3
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v8, v2
 ; GFX9-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v7, vcc, v7, v10
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v2, v7
 ; GFX9-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; GFX9-NEXT:    v_mul_lo_u32 v10, s9, v4
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v2, v5
 ; GFX9-NEXT:    v_add_u32_e32 v7, v8, v7
-; GFX9-NEXT:    v_mul_hi_u32 v8, s8, v4
+; GFX9-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
+; GFX9-NEXT:    v_add3_u32 v3, v7, v5, v3
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v10, v2
+; GFX9-NEXT:    v_addc_co_u32_e32 v3, vcc, v11, v3, vcc
+; GFX9-NEXT:    v_mul_lo_u32 v5, s9, v2
+; GFX9-NEXT:    v_mul_lo_u32 v7, s8, v3
+; GFX9-NEXT:    v_mul_hi_u32 v9, s8, v2
+; GFX9-NEXT:    v_mul_hi_u32 v2, s9, v2
+; GFX9-NEXT:    v_mul_hi_u32 v12, s9, v3
+; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v5, v7
+; GFX9-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v5, v9
+; GFX9-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
+; GFX9-NEXT:    v_mul_lo_u32 v9, s9, v3
+; GFX9-NEXT:    v_add_u32_e32 v5, v7, v5
+; GFX9-NEXT:    v_mul_hi_u32 v7, s8, v3
 ; GFX9-NEXT:    v_xor_b32_e32 v6, s4, v6
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v10, v3
-; GFX9-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v3, v8
-; GFX9-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v11, vcc, v3, v7
-; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], s2, v11, 0
-; GFX9-NEXT:    v_mov_b32_e32 v9, s4
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v9, v2
+; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v2, v7
 ; GFX9-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; GFX9-NEXT:    v_subrev_co_u32_e32 v5, vcc, s4, v5
-; GFX9-NEXT:    v_add_u32_e32 v8, v10, v8
-; GFX9-NEXT:    v_subb_co_u32_e32 v6, vcc, v6, v9, vcc
-; GFX9-NEXT:    v_add3_u32 v9, v8, v7, v12
-; GFX9-NEXT:    v_mad_u64_u32 v[7:8], s[0:1], s2, v9, v[4:5]
-; GFX9-NEXT:    v_mov_b32_e32 v10, s9
-; GFX9-NEXT:    v_sub_co_u32_e32 v3, vcc, s8, v3
-; GFX9-NEXT:    v_mad_u64_u32 v[7:8], s[0:1], s3, v11, v[7:8]
-; GFX9-NEXT:    v_mov_b32_e32 v4, s3
-; GFX9-NEXT:    v_subb_co_u32_e64 v8, s[0:1], v10, v7, vcc
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s3, v8
-; GFX9-NEXT:    v_sub_u32_e32 v7, s9, v7
-; GFX9-NEXT:    v_cndmask_b32_e64 v10, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s2, v3
-; GFX9-NEXT:    v_cndmask_b32_e64 v12, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s3, v8
-; GFX9-NEXT:    v_subb_co_u32_e32 v7, vcc, v7, v4, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v10, v10, v12, s[0:1]
-; GFX9-NEXT:    v_subrev_co_u32_e32 v12, vcc, s2, v3
-; GFX9-NEXT:    v_subbrev_co_u32_e64 v13, s[0:1], 0, v7, vcc
-; GFX9-NEXT:    v_add_co_u32_e64 v14, s[0:1], 1, v11
-; GFX9-NEXT:    v_addc_co_u32_e64 v15, s[0:1], 0, v9, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s3, v13
-; GFX9-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s2, v12
-; GFX9-NEXT:    v_subb_co_u32_e32 v4, vcc, v7, v4, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v17, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s3, v13
-; GFX9-NEXT:    v_subrev_co_u32_e32 v7, vcc, s2, v12
-; GFX9-NEXT:    v_cndmask_b32_e64 v16, v16, v17, s[0:1]
-; GFX9-NEXT:    v_add_co_u32_e64 v17, s[0:1], 1, v14
-; GFX9-NEXT:    v_subbrev_co_u32_e32 v4, vcc, 0, v4, vcc
-; GFX9-NEXT:    v_addc_co_u32_e64 v18, s[0:1], 0, v15, s[0:1]
-; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v16
-; GFX9-NEXT:    v_cndmask_b32_e32 v14, v14, v17, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v15, v15, v18, vcc
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v10
-; GFX9-NEXT:    v_cndmask_b32_e32 v7, v12, v7, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v4, v13, v4, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v10, v11, v14, s[0:1]
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, v9, v15, s[0:1]
-; GFX9-NEXT:    v_cndmask_b32_e64 v7, v3, v7, s[0:1]
-; GFX9-NEXT:    v_cndmask_b32_e64 v8, v8, v4, s[0:1]
+; GFX9-NEXT:    v_add_co_u32_e32 v10, vcc, v2, v5
+; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s2, v10, 0
+; GFX9-NEXT:    v_mov_b32_e32 v8, s4
+; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GFX9-NEXT:    v_subrev_co_u32_e32 v4, vcc, s4, v4
+; GFX9-NEXT:    v_subb_co_u32_e32 v5, vcc, v6, v8, vcc
+; GFX9-NEXT:    v_add_u32_e32 v6, v9, v7
+; GFX9-NEXT:    v_add3_u32 v8, v6, v11, v12
+; GFX9-NEXT:    v_mad_u64_u32 v[6:7], s[0:1], s2, v8, v[3:4]
+; GFX9-NEXT:    v_mov_b32_e32 v9, s9
+; GFX9-NEXT:    v_sub_co_u32_e32 v2, vcc, s8, v2
+; GFX9-NEXT:    v_mad_u64_u32 v[6:7], s[0:1], s3, v10, v[6:7]
+; GFX9-NEXT:    v_mov_b32_e32 v3, s3
+; GFX9-NEXT:    v_subb_co_u32_e64 v7, s[0:1], v9, v6, vcc
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s3, v7
+; GFX9-NEXT:    v_sub_u32_e32 v6, s9, v6
+; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s2, v2
+; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s3, v7
+; GFX9-NEXT:    v_subb_co_u32_e32 v6, vcc, v6, v3, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v9, v9, v11, s[0:1]
+; GFX9-NEXT:    v_subrev_co_u32_e32 v11, vcc, s2, v2
+; GFX9-NEXT:    v_subbrev_co_u32_e64 v12, s[0:1], 0, v6, vcc
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s3, v12
+; GFX9-NEXT:    v_cndmask_b32_e64 v13, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s2, v11
+; GFX9-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s3, v12
+; GFX9-NEXT:    v_cndmask_b32_e64 v13, v13, v14, s[0:1]
+; GFX9-NEXT:    v_add_co_u32_e64 v14, s[0:1], 1, v10
+; GFX9-NEXT:    v_subb_co_u32_e32 v3, vcc, v6, v3, vcc
+; GFX9-NEXT:    v_addc_co_u32_e64 v15, s[0:1], 0, v8, s[0:1]
+; GFX9-NEXT:    v_add_co_u32_e32 v6, vcc, 1, v14
+; GFX9-NEXT:    v_addc_co_u32_e32 v16, vcc, 0, v15, vcc
+; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
+; GFX9-NEXT:    v_cndmask_b32_e32 v6, v14, v6, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v14, v15, v16, vcc
+; GFX9-NEXT:    v_subrev_co_u32_e64 v15, s[0:1], s2, v11
+; GFX9-NEXT:    v_subbrev_co_u32_e64 v3, s[0:1], 0, v3, s[0:1]
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v9
+; GFX9-NEXT:    v_cndmask_b32_e32 v9, v11, v15, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v3, v12, v3, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v6, v10, v6, s[0:1]
+; GFX9-NEXT:    v_cndmask_b32_e64 v8, v8, v14, s[0:1]
+; GFX9-NEXT:    v_cndmask_b32_e64 v9, v2, v9, s[0:1]
+; GFX9-NEXT:    v_cndmask_b32_e64 v7, v7, v3, s[0:1]
 ; GFX9-NEXT:    s_xor_b64 s[0:1], s[6:7], s[10:11]
-; GFX9-NEXT:    v_xor_b32_e32 v3, s0, v10
-; GFX9-NEXT:    v_xor_b32_e32 v4, s1, v9
-; GFX9-NEXT:    v_mov_b32_e32 v9, s1
-; GFX9-NEXT:    v_subrev_co_u32_e32 v3, vcc, s0, v3
-; GFX9-NEXT:    v_subb_co_u32_e32 v4, vcc, v4, v9, vcc
+; GFX9-NEXT:    v_xor_b32_e32 v2, s0, v6
+; GFX9-NEXT:    v_xor_b32_e32 v3, s1, v8
+; GFX9-NEXT:    v_mov_b32_e32 v6, s1
+; GFX9-NEXT:    v_subrev_co_u32_e32 v2, vcc, s0, v2
+; GFX9-NEXT:    v_subb_co_u32_e32 v3, vcc, v3, v6, vcc
+; GFX9-NEXT:    v_xor_b32_e32 v6, s6, v9
+; GFX9-NEXT:    v_mov_b32_e32 v13, 0
 ; GFX9-NEXT:    v_xor_b32_e32 v7, s6, v7
-; GFX9-NEXT:    v_xor_b32_e32 v8, s6, v8
-; GFX9-NEXT:    v_mov_b32_e32 v9, s6
-; GFX9-NEXT:    v_subrev_co_u32_e32 v7, vcc, s6, v7
-; GFX9-NEXT:    v_subb_co_u32_e32 v8, vcc, v8, v9, vcc
-; GFX9-NEXT:    global_store_dwordx4 v0, v[1:4], s[12:13]
-; GFX9-NEXT:    global_store_dwordx4 v0, v[5:8], s[14:15]
+; GFX9-NEXT:    v_mov_b32_e32 v8, s6
+; GFX9-NEXT:    v_subrev_co_u32_e32 v6, vcc, s6, v6
+; GFX9-NEXT:    v_subb_co_u32_e32 v7, vcc, v7, v8, vcc
+; GFX9-NEXT:    global_store_dwordx4 v13, v[0:3], s[12:13]
+; GFX9-NEXT:    global_store_dwordx4 v13, v[4:7], s[14:15]
 ; GFX9-NEXT:    s_endpgm
 ;
 ; GFX10-LABEL: sdivrem_v2i64:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i64.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i64.ll
index 1f4448d9a632a..df645888626c6 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i64.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/srem.i64.ll
@@ -419,24 +419,24 @@ define <2 x i64> @v_srem_v2i64(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
 ; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v14, v12, v[10:11]
 ; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v4, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v11, v0, v4
+; GISEL-NEXT:    v_xor_b32_e32 v13, v0, v4
 ; GISEL-NEXT:    v_mul_lo_u32 v0, v15, v9
-; GISEL-NEXT:    v_mul_lo_u32 v13, v12, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v12, v10
 ; GISEL-NEXT:    v_xor_b32_e32 v14, v1, v4
 ; GISEL-NEXT:    v_mul_hi_u32 v1, v12, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v9, v15, v9
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v1, v15, v10
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v13, v0
-; GISEL-NEXT:    v_mul_hi_u32 v13, v12, v10
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v11, v0
+; GISEL-NEXT:    v_mul_hi_u32 v11, v12, v10
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v13
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
 ; GISEL-NEXT:    v_mul_hi_u32 v10, v15, v10
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
@@ -445,190 +445,191 @@ define <2 x i64> @v_srem_v2i64(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v12, v0
 ; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v15, v1, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v9, v14, v0
-; GISEL-NEXT:    v_mul_lo_u32 v10, v11, v1
-; GISEL-NEXT:    v_mul_hi_u32 v12, v11, v0
+; GISEL-NEXT:    v_mul_lo_u32 v10, v13, v1
+; GISEL-NEXT:    v_mul_hi_u32 v11, v13, v0
 ; GISEL-NEXT:    v_mul_hi_u32 v0, v14, v0
-; GISEL-NEXT:    v_mul_hi_u32 v13, v14, v1
 ; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v12
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v12, v14, v1
+; GISEL-NEXT:    v_mul_lo_u32 v11, v14, v1
 ; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
-; GISEL-NEXT:    v_mul_hi_u32 v10, v11, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v12, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_mul_hi_u32 v10, v13, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v11, v0
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v12, v10
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v0, v9
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v5, v12, 0
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v13, v9
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_hi_u32 v1, v14, v1
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v0, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v10, v0
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v1, v0
+; GISEL-NEXT:    v_ashrrev_i32_e32 v10, 31, v7
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v10
+; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, v7, v10, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v6, v6, v10
+; GISEL-NEXT:    v_xor_b32_e32 v7, v7, v10
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v12, v6
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v15, v7
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v5, v11, 0
+; GISEL-NEXT:    v_sub_i32_e32 v16, vcc, 0, v6
+; GISEL-NEXT:    v_mac_f32_e32 v12, 0x4f800000, v15
 ; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v5, v9, v[1:2]
-; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v8, v12, v[9:10]
-; GISEL-NEXT:    v_sub_i32_e32 v10, vcc, v11, v0
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v1, v12
+; GISEL-NEXT:    v_subb_u32_e32 v17, vcc, 0, v7, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v8, v11, v[9:10]
+; GISEL-NEXT:    v_mul_f32_e32 v1, 0x5f7ffffc, v1
+; GISEL-NEXT:    v_mul_f32_e32 v10, 0x2f800000, v1
+; GISEL-NEXT:    v_trunc_f32_e32 v12, v10
+; GISEL-NEXT:    v_mac_f32_e32 v1, 0xcf800000, v12
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v15, v1
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v12, v12
+; GISEL-NEXT:    v_sub_i32_e32 v13, vcc, v13, v0
+; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v16, v15, 0
+; GISEL-NEXT:    v_mov_b32_e32 v0, v11
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v16, v12, v[0:1]
 ; GISEL-NEXT:    v_subb_u32_e64 v11, s[4:5], v14, v9, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v14, v9
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v11, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v10, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v11, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, v1, v9, s[4:5]
-; GISEL-NEXT:    v_subb_u32_e32 v9, vcc, v0, v8, vcc
-; GISEL-NEXT:    v_ashrrev_i32_e32 v0, 31, v7
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v6, v0
-; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, v7, v0, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v6, v1, v0
-; GISEL-NEXT:    v_xor_b32_e32 v7, v7, v0
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v0, v6
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v1, v7
-; GISEL-NEXT:    v_sub_i32_e32 v13, vcc, v10, v5
-; GISEL-NEXT:    v_subbrev_u32_e64 v14, s[4:5], 0, v9, vcc
-; GISEL-NEXT:    v_mac_f32_e32 v0, 0x4f800000, v1
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v0, v0
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v14, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v13, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v14, v8
-; GISEL-NEXT:    v_mul_f32_e32 v0, 0x5f7ffffc, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, v15, v1, s[4:5]
-; GISEL-NEXT:    v_mul_f32_e32 v1, 0x2f800000, v0
-; GISEL-NEXT:    v_trunc_f32_e32 v16, v1
-; GISEL-NEXT:    v_mac_f32_e32 v0, 0xcf800000, v16
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v17, v0
-; GISEL-NEXT:    v_sub_i32_e64 v18, s[4:5], 0, v6
-; GISEL-NEXT:    v_subb_u32_e64 v19, s[4:5], 0, v7, s[4:5]
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v18, v17, 0
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v16, v16
-; GISEL-NEXT:    v_subb_u32_e32 v20, vcc, v9, v8, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v18, v16, v[1:2]
-; GISEL-NEXT:    v_sub_i32_e32 v1, vcc, v13, v5
-; GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v19, v17, v[8:9]
-; GISEL-NEXT:    v_subbrev_u32_e32 v5, vcc, 0, v20, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v15
-; GISEL-NEXT:    v_cndmask_b32_e32 v9, v13, v1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v1, v16, v0
-; GISEL-NEXT:    v_mul_lo_u32 v13, v17, v8
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v17, v15, v[0:1]
+; GISEL-NEXT:    v_sub_i32_e64 v1, s[4:5], v14, v9
+; GISEL-NEXT:    v_mul_lo_u32 v9, v12, v10
+; GISEL-NEXT:    v_mul_lo_u32 v14, v15, v0
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v11, v8
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v8, vcc
+; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v9, v14
+; GISEL-NEXT:    v_mul_hi_u32 v14, v15, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, s[4:5]
+; GISEL-NEXT:    v_mul_hi_u32 v10, v12, v10
+; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v9, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[6:7]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v13, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[6:7]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], v11, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, v9, v14, s[6:7]
+; GISEL-NEXT:    v_sub_i32_e32 v14, vcc, v13, v5
+; GISEL-NEXT:    v_subbrev_u32_e64 v19, s[6:7], 0, v1, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v14, v5
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v19, v8
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v8, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, -1, s[8:9]
+; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, -1, s[6:7]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], v19, v8
+; GISEL-NEXT:    v_sub_i32_e32 v5, vcc, v14, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v20, v20, v21, s[6:7]
+; GISEL-NEXT:    v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v20
 ; GISEL-NEXT:    v_cndmask_b32_e32 v5, v14, v5, vcc
-; GISEL-NEXT:    v_mul_hi_u32 v14, v17, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v16, v0
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v14, v16, v8
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v13, v1
-; GISEL-NEXT:    v_mul_hi_u32 v13, v17, v8
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v14, v0
+; GISEL-NEXT:    v_cndmask_b32_e32 v8, v19, v1, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, s[4:5]
+; GISEL-NEXT:    v_mul_lo_u32 v14, v12, v0
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v18, v1
+; GISEL-NEXT:    v_mul_hi_u32 v18, v15, v0
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v14, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_mul_hi_u32 v8, v16, v8
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v13, v1
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v8, v1
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v17, v0
-; GISEL-NEXT:    v_addc_u32_e32 v14, vcc, v16, v1, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v18, v13, 0
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v12
-; GISEL-NEXT:    v_cndmask_b32_e32 v10, v10, v9, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v18, v14, v[1:2]
-; GISEL-NEXT:    v_xor_b32_e32 v1, v10, v4
-; GISEL-NEXT:    v_ashrrev_i32_e32 v10, 31, v3
-; GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v19, v13, v[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e32 v5, v11, v5, vcc
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v10
-; GISEL-NEXT:    v_addc_u32_e32 v3, vcc, v3, v10, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v11, v2, v10
-; GISEL-NEXT:    v_mul_lo_u32 v2, v14, v0
-; GISEL-NEXT:    v_mul_lo_u32 v9, v13, v8
-; GISEL-NEXT:    v_xor_b32_e32 v12, v3, v10
-; GISEL-NEXT:    v_mul_hi_u32 v3, v13, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v14, v0
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v18
+; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v18
+; GISEL-NEXT:    v_mul_hi_u32 v0, v12, v0
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v14, v10
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v15, v1
+; GISEL-NEXT:    v_addc_u32_e32 v12, vcc, v12, v0, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v16, v10, 0
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v9
+; GISEL-NEXT:    v_cndmask_b32_e32 v11, v11, v8, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v16, v12, v[1:2]
+; GISEL-NEXT:    v_cndmask_b32_e32 v5, v13, v5, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v1, v5, v4
+; GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v17, v10, v[8:9]
+; GISEL-NEXT:    v_ashrrev_i32_e32 v5, 31, v3
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v5
+; GISEL-NEXT:    v_addc_u32_e32 v3, vcc, v3, v5, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v13, v2, v5
+; GISEL-NEXT:    v_mul_lo_u32 v2, v12, v0
+; GISEL-NEXT:    v_mul_lo_u32 v9, v10, v8
+; GISEL-NEXT:    v_xor_b32_e32 v14, v3, v5
+; GISEL-NEXT:    v_mul_hi_u32 v3, v10, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v12, v0
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v14, v8
+; GISEL-NEXT:    v_mul_lo_u32 v3, v12, v8
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v9, v2
-; GISEL-NEXT:    v_mul_hi_u32 v9, v13, v8
+; GISEL-NEXT:    v_mul_hi_u32 v9, v10, v8
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v9
-; GISEL-NEXT:    v_mul_hi_u32 v8, v14, v8
+; GISEL-NEXT:    v_mul_hi_u32 v8, v12, v8
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v8, v2
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v13, v0
-; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v14, v2, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v12, v0
-; GISEL-NEXT:    v_mul_lo_u32 v8, v11, v2
-; GISEL-NEXT:    v_mul_hi_u32 v9, v11, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v12, v0
-; GISEL-NEXT:    v_xor_b32_e32 v5, v5, v4
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v10, v0
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v12, v2, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v3, v14, v0
+; GISEL-NEXT:    v_mul_lo_u32 v8, v13, v2
+; GISEL-NEXT:    v_mul_hi_u32 v9, v13, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v14, v0
+; GISEL-NEXT:    v_xor_b32_e32 v10, v11, v4
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v8
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v9, v12, v2
+; GISEL-NEXT:    v_mul_lo_u32 v9, v14, v2
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v8, v3
-; GISEL-NEXT:    v_mul_hi_u32 v8, v11, v2
+; GISEL-NEXT:    v_mul_hi_u32 v8, v13, v2
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v9, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v8
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v0, v3
-; GISEL-NEXT:    v_mul_hi_u32 v9, v12, v2
-; GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v6, v13, 0
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v0, v3
+; GISEL-NEXT:    v_mul_hi_u32 v9, v14, v2
+; GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v6, v11, 0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v0
 ; GISEL-NEXT:    v_mov_b32_e32 v0, v3
 ; GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v6, v8, v[0:1]
 ; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v1, v4
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v5, v4, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v7, v13, v[8:9]
-; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v11, v2
-; GISEL-NEXT:    v_subb_u32_e64 v4, s[4:5], v12, v3, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v12, v3
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v10, v4, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v7, v11, v[8:9]
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v13, v2
+; GISEL-NEXT:    v_subb_u32_e64 v4, s[4:5], v14, v3, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v14, v3
 ; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v4, v7
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v2, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v2, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[4:5]
 ; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v4, v7
 ; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v7, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, v5, v8, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e32 v8, vcc, v2, v6
-; GISEL-NEXT:    v_subbrev_u32_e64 v9, s[4:5], 0, v3, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v9, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, v8, v9, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e32 v9, vcc, v2, v6
+; GISEL-NEXT:    v_subbrev_u32_e64 v10, s[4:5], 0, v3, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v10, v7
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v8, v6
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v9, v6
 ; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v7, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v9, v7
-; GISEL-NEXT:    v_sub_i32_e32 v6, vcc, v8, v6
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v10, v7
+; GISEL-NEXT:    v_sub_i32_e32 v6, vcc, v9, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, v11, v12, s[4:5]
 ; GISEL-NEXT:    v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v11
-; GISEL-NEXT:    v_cndmask_b32_e32 v6, v8, v6, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v3, v9, v3, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v5
+; GISEL-NEXT:    v_cndmask_b32_e32 v6, v9, v6, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v10, v3, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v8
 ; GISEL-NEXT:    v_cndmask_b32_e32 v2, v2, v6, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v3, v4, v3, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v2, v2, v10
-; GISEL-NEXT:    v_xor_b32_e32 v3, v3, v10
-; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v10
-; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v10, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v2, v2, v5
+; GISEL-NEXT:    v_xor_b32_e32 v3, v3, v5
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v5
+; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v5, vcc
 ; GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; CGP-LABEL: v_srem_v2i64:
@@ -1117,93 +1118,96 @@ define <2 x i64> @v_srem_v2i64_pow2k_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_trunc_f32_e32 v8, v5
 ; GISEL-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v8
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v7, v4
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v9, v8
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v8, v8
 ; GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v6, v7, 0
-; GISEL-NEXT:    v_mov_b32_e32 v8, v5
-; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v6, v9, v[8:9]
-; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v4
-; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], s6, v7, v[10:11]
-; GISEL-NEXT:    v_mul_lo_u32 v10, v9, v4
+; GISEL-NEXT:    v_mov_b32_e32 v9, v5
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v6, v8, v[9:10]
 ; GISEL-NEXT:    v_mul_hi_u32 v11, v7, v4
-; GISEL-NEXT:    v_mul_lo_u32 v8, v7, v13
-; GISEL-NEXT:    v_mul_lo_u32 v4, v9, v13
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v10, v8
+; GISEL-NEXT:    v_mul_hi_u32 v12, v8, v4
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], s6, v7, v[9:10]
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v4
+; GISEL-NEXT:    v_mul_lo_u32 v13, v7, v9
+; GISEL-NEXT:    v_mul_lo_u32 v4, v8, v9
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v10, v13
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v14, v8
-; GISEL-NEXT:    v_mul_hi_u32 v14, v7, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; GISEL-NEXT:    v_mul_hi_u32 v14, v7, v9
 ; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v12
 ; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
-; GISEL-NEXT:    v_mul_hi_u32 v13, v9, v13
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v14, v8
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v13, v8
+; GISEL-NEXT:    v_mul_hi_u32 v9, v8, v9
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v13
 ; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v7, v4
 ; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v6, v16, 0
-; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, v9, v8, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, v8, v9, vcc
 ; GISEL-NEXT:    v_mov_b32_e32 v4, v14
 ; GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v6, v17, v[4:5]
-; GISEL-NEXT:    v_ashrrev_i32_e32 v8, 31, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v8
+; GISEL-NEXT:    v_mul_lo_u32 v4, v17, v13
 ; GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], s6, v16, v[14:15]
-; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v8, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v15, v0, v8
-; GISEL-NEXT:    v_mul_lo_u32 v0, v17, v13
-; GISEL-NEXT:    v_mul_lo_u32 v4, v16, v14
-; GISEL-NEXT:    v_xor_b32_e32 v18, v1, v8
-; GISEL-NEXT:    v_mul_hi_u32 v1, v16, v13
-; GISEL-NEXT:    v_mul_hi_u32 v13, v17, v13
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
+; GISEL-NEXT:    s_mov_b32 s6, 1
+; GISEL-NEXT:    s_cmp_lg_u32 s6, 0
+; GISEL-NEXT:    v_mul_lo_u32 v9, v16, v14
+; GISEL-NEXT:    s_subb_u32 s6, 0, 0
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; GISEL-NEXT:    v_mul_hi_u32 v9, v16, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
-; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v1, v17, v14
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v4, v0
-; GISEL-NEXT:    v_mul_hi_u32 v4, v16, v14
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
+; GISEL-NEXT:    v_mul_hi_u32 v9, v17, v13
+; GISEL-NEXT:    v_mul_lo_u32 v13, v17, v14
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v15, v4
+; GISEL-NEXT:    v_mul_hi_u32 v15, v16, v14
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v13, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v13, v4
-; GISEL-NEXT:    v_mul_hi_u32 v13, v17, v14
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v9, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v9
+; GISEL-NEXT:    v_ashrrev_i32_e32 v9, 31, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v9
+; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v9, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v18, v0, v9
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v15, v4
+; GISEL-NEXT:    v_mul_hi_u32 v4, v17, v14
+; GISEL-NEXT:    v_xor_b32_e32 v19, v1, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v13, v1
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
 ; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v17, v1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v13, v18, v0
-; GISEL-NEXT:    v_mul_lo_u32 v14, v15, v1
-; GISEL-NEXT:    v_mul_hi_u32 v16, v15, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v18, v0
+; GISEL-NEXT:    v_mul_lo_u32 v13, v19, v0
+; GISEL-NEXT:    v_mul_lo_u32 v14, v18, v1
+; GISEL-NEXT:    v_mul_hi_u32 v15, v18, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v19, v0
 ; GISEL-NEXT:    v_mov_b32_e32 v4, 0x1000
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v16, v18, v1
+; GISEL-NEXT:    v_mul_lo_u32 v15, v19, v1
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_mul_hi_u32 v14, v15, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; GISEL-NEXT:    v_mul_hi_u32 v14, v18, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v15, v0
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v16, v14
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v13
-; GISEL-NEXT:    v_mul_hi_u32 v16, v18, v1
+; GISEL-NEXT:    v_mul_hi_u32 v15, v19, v1
 ; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v0, 0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v16, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v15, v13
 ; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v4, v13, v[1:2]
-; GISEL-NEXT:    v_sub_i32_e32 v14, vcc, v15, v0
-; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v18, v13
-; GISEL-NEXT:    v_subb_u32_e64 v15, s[4:5], v18, v13, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v14, vcc, v18, v0
+; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v19, v13
+; GISEL-NEXT:    v_subb_u32_e64 v15, s[4:5], v19, v13, vcc
 ; GISEL-NEXT:    v_subbrev_u32_e32 v0, vcc, 0, v0, vcc
 ; GISEL-NEXT:    v_sub_i32_e32 v16, vcc, v14, v4
 ; GISEL-NEXT:    v_subbrev_u32_e32 v17, vcc, 0, v0, vcc
@@ -1216,22 +1220,19 @@ define <2 x i64> @v_srem_v2i64_pow2k_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_cndmask_b32_e32 v18, -1, v0, vcc
 ; GISEL-NEXT:    v_mov_b32_e32 v0, v5
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, -1, v1, s[4:5]
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v9, v[0:1]
-; GISEL-NEXT:    s_mov_b32 s6, 1
-; GISEL-NEXT:    s_cmp_lg_u32 s6, 0
-; GISEL-NEXT:    s_subb_u32 s6, 0, 0
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v8, v[0:1]
 ; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], s6, v7, v[0:1]
 ; GISEL-NEXT:    v_sub_i32_e32 v1, vcc, v16, v4
-; GISEL-NEXT:    v_mul_lo_u32 v19, v7, v0
 ; GISEL-NEXT:    v_subbrev_u32_e32 v5, vcc, 0, v17, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v18
+; GISEL-NEXT:    v_mul_lo_u32 v18, v7, v0
 ; GISEL-NEXT:    v_cndmask_b32_e32 v16, v16, v1, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v5, v17, v5, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v19
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v18
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v0
+; GISEL-NEXT:    v_mul_lo_u32 v11, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
 ; GISEL-NEXT:    v_mul_hi_u32 v10, v7, v0
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
@@ -1239,34 +1240,34 @@ define <2 x i64> @v_srem_v2i64_pow2k_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; GISEL-NEXT:    v_mul_hi_u32 v0, v9, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v1
-; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v0, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v8, vcc, v8, v0, vcc
 ; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v7, 0
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
 ; GISEL-NEXT:    v_cndmask_b32_e32 v11, v15, v5, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v9, v[1:2]
-; GISEL-NEXT:    v_xor_b32_e32 v1, v11, v8
+; GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v8, v[1:2]
+; GISEL-NEXT:    v_xor_b32_e32 v1, v11, v9
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v11, 31, v3
 ; GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], s6, v7, v[5:6]
 ; GISEL-NEXT:    v_cndmask_b32_e32 v10, v14, v16, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v11
 ; GISEL-NEXT:    v_addc_u32_e32 v3, vcc, v3, v11, vcc
 ; GISEL-NEXT:    v_xor_b32_e32 v12, v2, v11
-; GISEL-NEXT:    v_mul_lo_u32 v2, v9, v0
+; GISEL-NEXT:    v_mul_lo_u32 v2, v8, v0
 ; GISEL-NEXT:    v_mul_lo_u32 v6, v7, v5
 ; GISEL-NEXT:    v_xor_b32_e32 v13, v3, v11
 ; GISEL-NEXT:    v_mul_hi_u32 v3, v7, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v9, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v9, v5
+; GISEL-NEXT:    v_mul_lo_u32 v3, v8, v5
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v6, v2
 ; GISEL-NEXT:    v_mul_hi_u32 v6, v7, v5
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
@@ -1274,19 +1275,19 @@ define <2 x i64> @v_srem_v2i64_pow2k_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v6
-; GISEL-NEXT:    v_mul_hi_u32 v5, v9, v5
+; GISEL-NEXT:    v_mul_hi_u32 v5, v8, v5
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v5, v2
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v7, v0
-; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v9, v2, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v8, v2, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v5, v13, v3
 ; GISEL-NEXT:    v_mul_lo_u32 v6, v12, v2
-; GISEL-NEXT:    v_xor_b32_e32 v10, v10, v8
+; GISEL-NEXT:    v_xor_b32_e32 v10, v10, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v7, v12, v3
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v10, v8
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v8, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v10, v9
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v9, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v7
@@ -1345,96 +1346,96 @@ define <2 x i64> @v_srem_v2i64_pow2k_denom(<2 x i64> %num) {
 ; CGP-NEXT:    v_rcp_iflag_f32_e32 v4, v4
 ; CGP-NEXT:    v_mul_f32_e32 v4, 0x5f7ffffc, v4
 ; CGP-NEXT:    v_mul_f32_e32 v5, 0x2f800000, v4
-; CGP-NEXT:    v_trunc_f32_e32 v7, v5
-; CGP-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v7
-; CGP-NEXT:    v_cvt_u32_f32_e32 v8, v4
-; CGP-NEXT:    v_cvt_u32_f32_e32 v9, v7
-; CGP-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v6, v8, 0
-; CGP-NEXT:    v_mov_b32_e32 v7, v5
-; CGP-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v6, v9, v[7:8]
-; CGP-NEXT:    v_mul_hi_u32 v12, v9, v4
-; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], -1, v8, v[10:11]
-; CGP-NEXT:    v_mul_lo_u32 v10, v9, v4
-; CGP-NEXT:    v_mul_hi_u32 v11, v8, v4
-; CGP-NEXT:    v_mul_lo_u32 v4, v8, v13
-; CGP-NEXT:    v_mul_lo_u32 v7, v9, v13
-; CGP-NEXT:    v_mul_hi_u32 v14, v8, v13
-; CGP-NEXT:    v_mul_hi_u32 v13, v9, v13
+; CGP-NEXT:    v_trunc_f32_e32 v8, v5
+; CGP-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v8
+; CGP-NEXT:    v_cvt_u32_f32_e32 v7, v4
+; CGP-NEXT:    v_cvt_u32_f32_e32 v8, v8
+; CGP-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v6, v7, 0
+; CGP-NEXT:    v_mov_b32_e32 v9, v5
+; CGP-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v6, v8, v[9:10]
+; CGP-NEXT:    v_mul_hi_u32 v11, v7, v4
+; CGP-NEXT:    v_mul_hi_u32 v12, v8, v4
+; CGP-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], -1, v7, v[9:10]
+; CGP-NEXT:    v_mul_lo_u32 v10, v8, v4
+; CGP-NEXT:    v_mul_lo_u32 v4, v7, v9
+; CGP-NEXT:    v_mul_lo_u32 v13, v8, v9
+; CGP-NEXT:    v_mul_hi_u32 v14, v7, v9
+; CGP-NEXT:    v_mul_hi_u32 v9, v8, v9
 ; CGP-NEXT:    v_add_i32_e32 v4, vcc, v10, v4
 ; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v4, vcc, v4, v11
 ; CGP-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v4, vcc, v15, v4
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v7, v12
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v12
 ; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v7, v14
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
-; CGP-NEXT:    v_add_i32_e32 v4, vcc, v7, v4
-; CGP-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v14, v7
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v13, v7
-; CGP-NEXT:    v_add_i32_e32 v16, vcc, v8, v4
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v13, v4
+; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; CGP-NEXT:    v_add_i32_e32 v9, vcc, v9, v13
+; CGP-NEXT:    v_add_i32_e32 v16, vcc, v7, v4
 ; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v6, v16, 0
-; CGP-NEXT:    v_addc_u32_e32 v17, vcc, v9, v7, vcc
+; CGP-NEXT:    v_addc_u32_e32 v17, vcc, v8, v9, vcc
 ; CGP-NEXT:    v_mov_b32_e32 v4, v14
 ; CGP-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v6, v17, v[4:5]
-; CGP-NEXT:    v_ashrrev_i32_e32 v7, 31, v1
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v7
+; CGP-NEXT:    v_mul_lo_u32 v4, v17, v13
 ; CGP-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], -1, v16, v[14:15]
-; CGP-NEXT:    v_addc_u32_e32 v1, vcc, v1, v7, vcc
-; CGP-NEXT:    v_xor_b32_e32 v15, v0, v7
-; CGP-NEXT:    v_mul_lo_u32 v0, v17, v13
-; CGP-NEXT:    v_mul_lo_u32 v4, v16, v14
-; CGP-NEXT:    v_xor_b32_e32 v18, v1, v7
-; CGP-NEXT:    v_mul_hi_u32 v1, v16, v13
-; CGP-NEXT:    v_mul_hi_u32 v13, v17, v13
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
+; CGP-NEXT:    v_mul_lo_u32 v9, v16, v14
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; CGP-NEXT:    v_mul_hi_u32 v9, v16, v13
+; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
 ; CGP-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
-; CGP-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v1, v17, v14
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v4, v0
-; CGP-NEXT:    v_mul_hi_u32 v4, v16, v14
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
+; CGP-NEXT:    v_mul_hi_u32 v9, v17, v13
+; CGP-NEXT:    v_mul_lo_u32 v13, v17, v14
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v15, v4
+; CGP-NEXT:    v_mul_hi_u32 v15, v16, v14
+; CGP-NEXT:    v_add_i32_e32 v9, vcc, v13, v9
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v1, v4
-; CGP-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v4, vcc, v13, v4
-; CGP-NEXT:    v_mul_hi_u32 v13, v17, v14
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
+; CGP-NEXT:    v_add_i32_e32 v15, vcc, v9, v15
+; CGP-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v9
+; CGP-NEXT:    v_ashrrev_i32_e32 v9, 31, v1
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v9
+; CGP-NEXT:    v_addc_u32_e32 v1, vcc, v1, v9, vcc
+; CGP-NEXT:    v_xor_b32_e32 v18, v0, v9
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v15, v4
+; CGP-NEXT:    v_mul_hi_u32 v4, v17, v14
+; CGP-NEXT:    v_xor_b32_e32 v19, v1, v9
 ; CGP-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; CGP-NEXT:    v_add_i32_e32 v1, vcc, v13, v1
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
 ; CGP-NEXT:    v_addc_u32_e32 v1, vcc, v17, v1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v13, v18, v0
-; CGP-NEXT:    v_mul_lo_u32 v14, v15, v1
-; CGP-NEXT:    v_mul_hi_u32 v16, v15, v0
-; CGP-NEXT:    v_mul_hi_u32 v0, v18, v0
+; CGP-NEXT:    v_mul_lo_u32 v13, v19, v0
+; CGP-NEXT:    v_mul_lo_u32 v14, v18, v1
+; CGP-NEXT:    v_mul_hi_u32 v15, v18, v0
+; CGP-NEXT:    v_mul_hi_u32 v0, v19, v0
 ; CGP-NEXT:    v_mov_b32_e32 v4, 0x1000
 ; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v16, v18, v1
+; CGP-NEXT:    v_mul_lo_u32 v15, v19, v1
 ; CGP-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; CGP-NEXT:    v_mul_hi_u32 v14, v15, v1
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
-; CGP-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; CGP-NEXT:    v_mul_hi_u32 v14, v18, v1
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v15, v0
+; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v14
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v14, vcc, v16, v14
+; CGP-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v13
-; CGP-NEXT:    v_mul_hi_u32 v16, v18, v1
+; CGP-NEXT:    v_mul_hi_u32 v15, v19, v1
 ; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v0, 0
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; CGP-NEXT:    v_add_i32_e32 v13, vcc, v16, v13
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v15, v13
 ; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v4, v13, v[1:2]
-; CGP-NEXT:    v_sub_i32_e32 v14, vcc, v15, v0
-; CGP-NEXT:    v_sub_i32_e64 v0, s[4:5], v18, v13
-; CGP-NEXT:    v_subb_u32_e64 v15, s[4:5], v18, v13, vcc
+; CGP-NEXT:    v_sub_i32_e32 v14, vcc, v18, v0
+; CGP-NEXT:    v_sub_i32_e64 v0, s[4:5], v19, v13
+; CGP-NEXT:    v_subb_u32_e64 v15, s[4:5], v19, v13, vcc
 ; CGP-NEXT:    v_subbrev_u32_e32 v0, vcc, 0, v0, vcc
 ; CGP-NEXT:    v_cmp_ge_u32_e64 s[4:5], v14, v4
 ; CGP-NEXT:    v_sub_i32_e32 v16, vcc, v14, v4
@@ -1443,78 +1444,78 @@ define <2 x i64> @v_srem_v2i64_pow2k_denom(<2 x i64> %num) {
 ; CGP-NEXT:    v_subbrev_u32_e32 v17, vcc, 0, v0, vcc
 ; CGP-NEXT:    v_mov_b32_e32 v0, v5
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, -1, v1, s[4:5]
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v9, v[0:1]
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v8, v[0:1]
 ; CGP-NEXT:    v_cmp_ge_u32_e32 vcc, v16, v4
 ; CGP-NEXT:    v_cndmask_b32_e64 v18, 0, -1, vcc
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], -1, v8, v[0:1]
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], -1, v7, v[0:1]
 ; CGP-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v17
 ; CGP-NEXT:    v_cndmask_b32_e32 v5, -1, v18, vcc
-; CGP-NEXT:    v_mul_lo_u32 v19, v8, v0
 ; CGP-NEXT:    v_sub_i32_e32 v1, vcc, v16, v4
 ; CGP-NEXT:    v_subbrev_u32_e32 v18, vcc, 0, v17, vcc
 ; CGP-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v5
-; CGP-NEXT:    v_cndmask_b32_e32 v5, v16, v1, vcc
-; CGP-NEXT:    v_cndmask_b32_e32 v16, v17, v18, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v19
-; CGP-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; CGP-NEXT:    v_mul_lo_u32 v5, v7, v0
+; CGP-NEXT:    v_cndmask_b32_e32 v16, v16, v1, vcc
+; CGP-NEXT:    v_cndmask_b32_e32 v17, v17, v18, vcc
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v5
+; CGP-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
 ; CGP-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v11, v9, v0
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
-; CGP-NEXT:    v_mul_hi_u32 v10, v8, v0
-; CGP-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
-; CGP-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; CGP-NEXT:    v_mul_lo_u32 v10, v8, v0
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v5, v1
+; CGP-NEXT:    v_mul_hi_u32 v5, v7, v0
+; CGP-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
 ; CGP-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; CGP-NEXT:    v_mul_hi_u32 v0, v9, v0
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
+; CGP-NEXT:    v_add_i32_e32 v5, vcc, v10, v5
 ; CGP-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
-; CGP-NEXT:    v_add_i32_e32 v8, vcc, v8, v1
-; CGP-NEXT:    v_addc_u32_e32 v9, vcc, v9, v0, vcc
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v8, 0
+; CGP-NEXT:    v_mul_hi_u32 v0, v8, v0
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v5, v1
+; CGP-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v5, vcc, v10, v5
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v5
+; CGP-NEXT:    v_add_i32_e32 v7, vcc, v7, v1
+; CGP-NEXT:    v_addc_u32_e32 v8, vcc, v8, v0, vcc
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v7, 0
 ; CGP-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
-; CGP-NEXT:    v_cndmask_b32_e32 v5, v14, v5, vcc
-; CGP-NEXT:    v_xor_b32_e32 v11, v5, v7
-; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v9, v[1:2]
-; CGP-NEXT:    v_cndmask_b32_e32 v10, v15, v16, vcc
-; CGP-NEXT:    v_xor_b32_e32 v1, v10, v7
-; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], -1, v8, v[5:6]
+; CGP-NEXT:    v_cndmask_b32_e32 v5, v14, v16, vcc
+; CGP-NEXT:    v_xor_b32_e32 v11, v5, v9
+; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v8, v[1:2]
+; CGP-NEXT:    v_cndmask_b32_e32 v10, v15, v17, vcc
+; CGP-NEXT:    v_xor_b32_e32 v1, v10, v9
+; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], -1, v7, v[5:6]
 ; CGP-NEXT:    v_ashrrev_i32_e32 v10, 31, v3
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v2, v10
 ; CGP-NEXT:    v_addc_u32_e32 v3, vcc, v3, v10, vcc
 ; CGP-NEXT:    v_xor_b32_e32 v12, v2, v10
-; CGP-NEXT:    v_mul_lo_u32 v2, v9, v0
-; CGP-NEXT:    v_mul_lo_u32 v6, v8, v5
+; CGP-NEXT:    v_mul_lo_u32 v2, v8, v0
+; CGP-NEXT:    v_mul_lo_u32 v6, v7, v5
 ; CGP-NEXT:    v_xor_b32_e32 v13, v3, v10
-; CGP-NEXT:    v_mul_hi_u32 v3, v8, v0
-; CGP-NEXT:    v_mul_hi_u32 v0, v9, v0
+; CGP-NEXT:    v_mul_hi_u32 v3, v7, v0
+; CGP-NEXT:    v_mul_hi_u32 v0, v8, v0
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v2, v6
 ; CGP-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
 ; CGP-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v3, v9, v5
+; CGP-NEXT:    v_mul_lo_u32 v3, v8, v5
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v6, v2
-; CGP-NEXT:    v_mul_hi_u32 v6, v8, v5
+; CGP-NEXT:    v_mul_hi_u32 v6, v7, v5
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
 ; CGP-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v6
 ; CGP-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v3, vcc, v3, v6
-; CGP-NEXT:    v_mul_hi_u32 v5, v9, v5
+; CGP-NEXT:    v_mul_hi_u32 v5, v8, v5
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
 ; CGP-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v5, v2
-; CGP-NEXT:    v_add_i32_e32 v3, vcc, v8, v0
-; CGP-NEXT:    v_addc_u32_e32 v2, vcc, v9, v2, vcc
+; CGP-NEXT:    v_add_i32_e32 v3, vcc, v7, v0
+; CGP-NEXT:    v_addc_u32_e32 v2, vcc, v8, v2, vcc
 ; CGP-NEXT:    v_mul_lo_u32 v5, v13, v3
 ; CGP-NEXT:    v_mul_lo_u32 v6, v12, v2
-; CGP-NEXT:    v_sub_i32_e32 v0, vcc, v11, v7
-; CGP-NEXT:    v_subb_u32_e32 v1, vcc, v1, v7, vcc
 ; CGP-NEXT:    v_mul_hi_u32 v7, v12, v3
+; CGP-NEXT:    v_sub_i32_e32 v0, vcc, v11, v9
+; CGP-NEXT:    v_subb_u32_e32 v1, vcc, v1, v9, vcc
 ; CGP-NEXT:    v_add_i32_e32 v5, vcc, v5, v6
 ; CGP-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v5, vcc, v5, v7
@@ -1710,93 +1711,96 @@ define <2 x i64> @v_srem_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_trunc_f32_e32 v8, v5
 ; GISEL-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v8
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v7, v4
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v9, v8
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v8, v8
 ; GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v6, v7, 0
-; GISEL-NEXT:    v_mov_b32_e32 v8, v5
-; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v6, v9, v[8:9]
-; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v4
-; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], s6, v7, v[10:11]
-; GISEL-NEXT:    v_mul_lo_u32 v10, v9, v4
+; GISEL-NEXT:    v_mov_b32_e32 v9, v5
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v6, v8, v[9:10]
 ; GISEL-NEXT:    v_mul_hi_u32 v11, v7, v4
-; GISEL-NEXT:    v_mul_lo_u32 v8, v7, v13
-; GISEL-NEXT:    v_mul_lo_u32 v4, v9, v13
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v10, v8
+; GISEL-NEXT:    v_mul_hi_u32 v12, v8, v4
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], s6, v7, v[9:10]
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v4
+; GISEL-NEXT:    v_mul_lo_u32 v13, v7, v9
+; GISEL-NEXT:    v_mul_lo_u32 v4, v8, v9
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v10, v13
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v14, v8
-; GISEL-NEXT:    v_mul_hi_u32 v14, v7, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; GISEL-NEXT:    v_mul_hi_u32 v14, v7, v9
 ; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v12
 ; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
-; GISEL-NEXT:    v_mul_hi_u32 v13, v9, v13
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v14, v8
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v13, v8
+; GISEL-NEXT:    v_mul_hi_u32 v9, v8, v9
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v13
 ; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v7, v4
 ; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v6, v16, 0
-; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, v9, v8, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, v8, v9, vcc
 ; GISEL-NEXT:    v_mov_b32_e32 v4, v14
 ; GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v6, v17, v[4:5]
-; GISEL-NEXT:    v_ashrrev_i32_e32 v8, 31, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v8
+; GISEL-NEXT:    v_mul_lo_u32 v4, v17, v13
 ; GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], s6, v16, v[14:15]
-; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v8, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v15, v0, v8
-; GISEL-NEXT:    v_mul_lo_u32 v0, v17, v13
-; GISEL-NEXT:    v_mul_lo_u32 v4, v16, v14
-; GISEL-NEXT:    v_xor_b32_e32 v18, v1, v8
-; GISEL-NEXT:    v_mul_hi_u32 v1, v16, v13
-; GISEL-NEXT:    v_mul_hi_u32 v13, v17, v13
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
+; GISEL-NEXT:    s_mov_b32 s6, 1
+; GISEL-NEXT:    s_cmp_lg_u32 s6, 0
+; GISEL-NEXT:    v_mul_lo_u32 v9, v16, v14
+; GISEL-NEXT:    s_subb_u32 s6, 0, 0
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; GISEL-NEXT:    v_mul_hi_u32 v9, v16, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
-; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v1, v17, v14
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v4, v0
-; GISEL-NEXT:    v_mul_hi_u32 v4, v16, v14
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
+; GISEL-NEXT:    v_mul_hi_u32 v9, v17, v13
+; GISEL-NEXT:    v_mul_lo_u32 v13, v17, v14
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v15, v4
+; GISEL-NEXT:    v_mul_hi_u32 v15, v16, v14
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v13, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v13, v4
-; GISEL-NEXT:    v_mul_hi_u32 v13, v17, v14
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v9, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v9
+; GISEL-NEXT:    v_ashrrev_i32_e32 v9, 31, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v9
+; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v9, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v18, v0, v9
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v15, v4
+; GISEL-NEXT:    v_mul_hi_u32 v4, v17, v14
+; GISEL-NEXT:    v_xor_b32_e32 v19, v1, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v13, v1
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
 ; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v17, v1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v13, v18, v0
-; GISEL-NEXT:    v_mul_lo_u32 v14, v15, v1
-; GISEL-NEXT:    v_mul_hi_u32 v16, v15, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v18, v0
+; GISEL-NEXT:    v_mul_lo_u32 v13, v19, v0
+; GISEL-NEXT:    v_mul_lo_u32 v14, v18, v1
+; GISEL-NEXT:    v_mul_hi_u32 v15, v18, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v19, v0
 ; GISEL-NEXT:    v_mov_b32_e32 v4, 0x12d8fb
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v16, v18, v1
+; GISEL-NEXT:    v_mul_lo_u32 v15, v19, v1
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_mul_hi_u32 v14, v15, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; GISEL-NEXT:    v_mul_hi_u32 v14, v18, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v15, v0
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v16, v14
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v13
-; GISEL-NEXT:    v_mul_hi_u32 v16, v18, v1
+; GISEL-NEXT:    v_mul_hi_u32 v15, v19, v1
 ; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v0, 0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v16, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v15, v13
 ; GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v4, v13, v[1:2]
-; GISEL-NEXT:    v_sub_i32_e32 v14, vcc, v15, v0
-; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v18, v13
-; GISEL-NEXT:    v_subb_u32_e64 v15, s[4:5], v18, v13, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v14, vcc, v18, v0
+; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v19, v13
+; GISEL-NEXT:    v_subb_u32_e64 v15, s[4:5], v19, v13, vcc
 ; GISEL-NEXT:    v_subbrev_u32_e32 v0, vcc, 0, v0, vcc
 ; GISEL-NEXT:    v_sub_i32_e32 v16, vcc, v14, v4
 ; GISEL-NEXT:    v_subbrev_u32_e32 v17, vcc, 0, v0, vcc
@@ -1809,22 +1813,19 @@ define <2 x i64> @v_srem_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_cndmask_b32_e32 v18, -1, v0, vcc
 ; GISEL-NEXT:    v_mov_b32_e32 v0, v5
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, -1, v1, s[4:5]
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v9, v[0:1]
-; GISEL-NEXT:    s_mov_b32 s6, 1
-; GISEL-NEXT:    s_cmp_lg_u32 s6, 0
-; GISEL-NEXT:    s_subb_u32 s6, 0, 0
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v8, v[0:1]
 ; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], s6, v7, v[0:1]
 ; GISEL-NEXT:    v_sub_i32_e32 v1, vcc, v16, v4
-; GISEL-NEXT:    v_mul_lo_u32 v19, v7, v0
 ; GISEL-NEXT:    v_subbrev_u32_e32 v5, vcc, 0, v17, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v18
+; GISEL-NEXT:    v_mul_lo_u32 v18, v7, v0
 ; GISEL-NEXT:    v_cndmask_b32_e32 v16, v16, v1, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v5, v17, v5, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v19
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v18
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v0
+; GISEL-NEXT:    v_mul_lo_u32 v11, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
 ; GISEL-NEXT:    v_mul_hi_u32 v10, v7, v0
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
@@ -1832,34 +1833,34 @@ define <2 x i64> @v_srem_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; GISEL-NEXT:    v_mul_hi_u32 v0, v9, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v1
-; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v0, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v8, vcc, v8, v0, vcc
 ; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v7, 0
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
 ; GISEL-NEXT:    v_cndmask_b32_e32 v11, v15, v5, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v9, v[1:2]
-; GISEL-NEXT:    v_xor_b32_e32 v1, v11, v8
+; GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v8, v[1:2]
+; GISEL-NEXT:    v_xor_b32_e32 v1, v11, v9
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v11, 31, v3
 ; GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], s6, v7, v[5:6]
 ; GISEL-NEXT:    v_cndmask_b32_e32 v10, v14, v16, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v11
 ; GISEL-NEXT:    v_addc_u32_e32 v3, vcc, v3, v11, vcc
 ; GISEL-NEXT:    v_xor_b32_e32 v12, v2, v11
-; GISEL-NEXT:    v_mul_lo_u32 v2, v9, v0
+; GISEL-NEXT:    v_mul_lo_u32 v2, v8, v0
 ; GISEL-NEXT:    v_mul_lo_u32 v6, v7, v5
 ; GISEL-NEXT:    v_xor_b32_e32 v13, v3, v11
 ; GISEL-NEXT:    v_mul_hi_u32 v3, v7, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v9, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v8, v0
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v9, v5
+; GISEL-NEXT:    v_mul_lo_u32 v3, v8, v5
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v6, v2
 ; GISEL-NEXT:    v_mul_hi_u32 v6, v7, v5
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
@@ -1867,19 +1868,19 @@ define <2 x i64> @v_srem_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v6
-; GISEL-NEXT:    v_mul_hi_u32 v5, v9, v5
+; GISEL-NEXT:    v_mul_hi_u32 v5, v8, v5
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v5, v2
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v7, v0
-; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v9, v2, vcc
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v8, v2, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v5, v13, v3
 ; GISEL-NEXT:    v_mul_lo_u32 v6, v12, v2
-; GISEL-NEXT:    v_xor_b32_e32 v10, v10, v8
+; GISEL-NEXT:    v_xor_b32_e32 v10, v10, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v7, v12, v3
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v10, v8
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v8, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v10, v9
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v9, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v7
@@ -1938,96 +1939,96 @@ define <2 x i64> @v_srem_v2i64_oddk_denom(<2 x i64> %num) {
 ; CGP-NEXT:    v_rcp_iflag_f32_e32 v4, v4
 ; CGP-NEXT:    v_mul_f32_e32 v4, 0x5f7ffffc, v4
 ; CGP-NEXT:    v_mul_f32_e32 v5, 0x2f800000, v4
-; CGP-NEXT:    v_trunc_f32_e32 v7, v5
-; CGP-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v7
-; CGP-NEXT:    v_cvt_u32_f32_e32 v8, v4
-; CGP-NEXT:    v_cvt_u32_f32_e32 v9, v7
-; CGP-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v6, v8, 0
-; CGP-NEXT:    v_mov_b32_e32 v7, v5
-; CGP-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v6, v9, v[7:8]
-; CGP-NEXT:    v_mul_hi_u32 v12, v9, v4
-; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], -1, v8, v[10:11]
-; CGP-NEXT:    v_mul_lo_u32 v10, v9, v4
-; CGP-NEXT:    v_mul_hi_u32 v11, v8, v4
-; CGP-NEXT:    v_mul_lo_u32 v4, v8, v13
-; CGP-NEXT:    v_mul_lo_u32 v7, v9, v13
-; CGP-NEXT:    v_mul_hi_u32 v14, v8, v13
-; CGP-NEXT:    v_mul_hi_u32 v13, v9, v13
+; CGP-NEXT:    v_trunc_f32_e32 v8, v5
+; CGP-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v8
+; CGP-NEXT:    v_cvt_u32_f32_e32 v7, v4
+; CGP-NEXT:    v_cvt_u32_f32_e32 v8, v8
+; CGP-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v6, v7, 0
+; CGP-NEXT:    v_mov_b32_e32 v9, v5
+; CGP-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v6, v8, v[9:10]
+; CGP-NEXT:    v_mul_hi_u32 v11, v7, v4
+; CGP-NEXT:    v_mul_hi_u32 v12, v8, v4
+; CGP-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], -1, v7, v[9:10]
+; CGP-NEXT:    v_mul_lo_u32 v10, v8, v4
+; CGP-NEXT:    v_mul_lo_u32 v4, v7, v9
+; CGP-NEXT:    v_mul_lo_u32 v13, v8, v9
+; CGP-NEXT:    v_mul_hi_u32 v14, v7, v9
+; CGP-NEXT:    v_mul_hi_u32 v9, v8, v9
 ; CGP-NEXT:    v_add_i32_e32 v4, vcc, v10, v4
 ; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v4, vcc, v4, v11
 ; CGP-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v4, vcc, v15, v4
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v7, v12
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v12
 ; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v7, v14
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
-; CGP-NEXT:    v_add_i32_e32 v4, vcc, v7, v4
-; CGP-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v14, v7
-; CGP-NEXT:    v_add_i32_e32 v7, vcc, v13, v7
-; CGP-NEXT:    v_add_i32_e32 v16, vcc, v8, v4
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v13, v4
+; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; CGP-NEXT:    v_add_i32_e32 v9, vcc, v9, v13
+; CGP-NEXT:    v_add_i32_e32 v16, vcc, v7, v4
 ; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v6, v16, 0
-; CGP-NEXT:    v_addc_u32_e32 v17, vcc, v9, v7, vcc
+; CGP-NEXT:    v_addc_u32_e32 v17, vcc, v8, v9, vcc
 ; CGP-NEXT:    v_mov_b32_e32 v4, v14
 ; CGP-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v6, v17, v[4:5]
-; CGP-NEXT:    v_ashrrev_i32_e32 v7, 31, v1
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v7
+; CGP-NEXT:    v_mul_lo_u32 v4, v17, v13
 ; CGP-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], -1, v16, v[14:15]
-; CGP-NEXT:    v_addc_u32_e32 v1, vcc, v1, v7, vcc
-; CGP-NEXT:    v_xor_b32_e32 v15, v0, v7
-; CGP-NEXT:    v_mul_lo_u32 v0, v17, v13
-; CGP-NEXT:    v_mul_lo_u32 v4, v16, v14
-; CGP-NEXT:    v_xor_b32_e32 v18, v1, v7
-; CGP-NEXT:    v_mul_hi_u32 v1, v16, v13
-; CGP-NEXT:    v_mul_hi_u32 v13, v17, v13
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v4
+; CGP-NEXT:    v_mul_lo_u32 v9, v16, v14
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; CGP-NEXT:    v_mul_hi_u32 v9, v16, v13
+; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
 ; CGP-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
-; CGP-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v1, v17, v14
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v4, v0
-; CGP-NEXT:    v_mul_hi_u32 v4, v16, v14
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v1, v13
+; CGP-NEXT:    v_mul_hi_u32 v9, v17, v13
+; CGP-NEXT:    v_mul_lo_u32 v13, v17, v14
+; CGP-NEXT:    v_add_i32_e32 v4, vcc, v15, v4
+; CGP-NEXT:    v_mul_hi_u32 v15, v16, v14
+; CGP-NEXT:    v_add_i32_e32 v9, vcc, v13, v9
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v1, v4
-; CGP-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v4, vcc, v13, v4
-; CGP-NEXT:    v_mul_hi_u32 v13, v17, v14
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
+; CGP-NEXT:    v_add_i32_e32 v15, vcc, v9, v15
+; CGP-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v9
+; CGP-NEXT:    v_ashrrev_i32_e32 v9, 31, v1
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v9
+; CGP-NEXT:    v_addc_u32_e32 v1, vcc, v1, v9, vcc
+; CGP-NEXT:    v_xor_b32_e32 v18, v0, v9
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v15, v4
+; CGP-NEXT:    v_mul_hi_u32 v4, v17, v14
+; CGP-NEXT:    v_xor_b32_e32 v19, v1, v9
 ; CGP-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; CGP-NEXT:    v_add_i32_e32 v1, vcc, v13, v1
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v4, v1
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
 ; CGP-NEXT:    v_addc_u32_e32 v1, vcc, v17, v1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v13, v18, v0
-; CGP-NEXT:    v_mul_lo_u32 v14, v15, v1
-; CGP-NEXT:    v_mul_hi_u32 v16, v15, v0
-; CGP-NEXT:    v_mul_hi_u32 v0, v18, v0
+; CGP-NEXT:    v_mul_lo_u32 v13, v19, v0
+; CGP-NEXT:    v_mul_lo_u32 v14, v18, v1
+; CGP-NEXT:    v_mul_hi_u32 v15, v18, v0
+; CGP-NEXT:    v_mul_hi_u32 v0, v19, v0
 ; CGP-NEXT:    v_mov_b32_e32 v4, 0x12d8fb
 ; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v16, v18, v1
+; CGP-NEXT:    v_mul_lo_u32 v15, v19, v1
 ; CGP-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; CGP-NEXT:    v_mul_hi_u32 v14, v15, v1
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v16, v0
-; CGP-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; CGP-NEXT:    v_mul_hi_u32 v14, v18, v1
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v15, v0
+; CGP-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v14
 ; CGP-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v14, vcc, v16, v14
+; CGP-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v13
-; CGP-NEXT:    v_mul_hi_u32 v16, v18, v1
+; CGP-NEXT:    v_mul_hi_u32 v15, v19, v1
 ; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v4, v0, 0
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; CGP-NEXT:    v_add_i32_e32 v13, vcc, v16, v13
+; CGP-NEXT:    v_add_i32_e32 v13, vcc, v15, v13
 ; CGP-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v4, v13, v[1:2]
-; CGP-NEXT:    v_sub_i32_e32 v14, vcc, v15, v0
-; CGP-NEXT:    v_sub_i32_e64 v0, s[4:5], v18, v13
-; CGP-NEXT:    v_subb_u32_e64 v15, s[4:5], v18, v13, vcc
+; CGP-NEXT:    v_sub_i32_e32 v14, vcc, v18, v0
+; CGP-NEXT:    v_sub_i32_e64 v0, s[4:5], v19, v13
+; CGP-NEXT:    v_subb_u32_e64 v15, s[4:5], v19, v13, vcc
 ; CGP-NEXT:    v_subbrev_u32_e32 v0, vcc, 0, v0, vcc
 ; CGP-NEXT:    v_cmp_ge_u32_e64 s[4:5], v14, v4
 ; CGP-NEXT:    v_sub_i32_e32 v16, vcc, v14, v4
@@ -2036,78 +2037,78 @@ define <2 x i64> @v_srem_v2i64_oddk_denom(<2 x i64> %num) {
 ; CGP-NEXT:    v_subbrev_u32_e32 v17, vcc, 0, v0, vcc
 ; CGP-NEXT:    v_mov_b32_e32 v0, v5
 ; CGP-NEXT:    v_cndmask_b32_e64 v13, -1, v1, s[4:5]
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v9, v[0:1]
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v8, v[0:1]
 ; CGP-NEXT:    v_cmp_ge_u32_e32 vcc, v16, v4
 ; CGP-NEXT:    v_cndmask_b32_e64 v18, 0, -1, vcc
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], -1, v8, v[0:1]
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], -1, v7, v[0:1]
 ; CGP-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v17
 ; CGP-NEXT:    v_cndmask_b32_e32 v5, -1, v18, vcc
-; CGP-NEXT:    v_mul_lo_u32 v19, v8, v0
 ; CGP-NEXT:    v_sub_i32_e32 v1, vcc, v16, v4
 ; CGP-NEXT:    v_subbrev_u32_e32 v18, vcc, 0, v17, vcc
 ; CGP-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v5
-; CGP-NEXT:    v_cndmask_b32_e32 v5, v16, v1, vcc
-; CGP-NEXT:    v_cndmask_b32_e32 v16, v17, v18, vcc
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v19
-; CGP-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; CGP-NEXT:    v_mul_lo_u32 v5, v7, v0
+; CGP-NEXT:    v_cndmask_b32_e32 v16, v16, v1, vcc
+; CGP-NEXT:    v_cndmask_b32_e32 v17, v17, v18, vcc
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v5
+; CGP-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v1, vcc, v1, v11
 ; CGP-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v11, v9, v0
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
-; CGP-NEXT:    v_mul_hi_u32 v10, v8, v0
-; CGP-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
-; CGP-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; CGP-NEXT:    v_mul_lo_u32 v10, v8, v0
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v5, v1
+; CGP-NEXT:    v_mul_hi_u32 v5, v7, v0
+; CGP-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
 ; CGP-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; CGP-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
-; CGP-NEXT:    v_mul_hi_u32 v0, v9, v0
-; CGP-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
+; CGP-NEXT:    v_add_i32_e32 v5, vcc, v10, v5
 ; CGP-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
-; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
-; CGP-NEXT:    v_add_i32_e32 v8, vcc, v8, v1
-; CGP-NEXT:    v_addc_u32_e32 v9, vcc, v9, v0, vcc
-; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v8, 0
+; CGP-NEXT:    v_mul_hi_u32 v0, v8, v0
+; CGP-NEXT:    v_add_i32_e32 v1, vcc, v5, v1
+; CGP-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
+; CGP-NEXT:    v_add_i32_e32 v5, vcc, v10, v5
+; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v5
+; CGP-NEXT:    v_add_i32_e32 v7, vcc, v7, v1
+; CGP-NEXT:    v_addc_u32_e32 v8, vcc, v8, v0, vcc
+; CGP-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v6, v7, 0
 ; CGP-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
-; CGP-NEXT:    v_cndmask_b32_e32 v5, v14, v5, vcc
-; CGP-NEXT:    v_xor_b32_e32 v11, v5, v7
-; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v9, v[1:2]
-; CGP-NEXT:    v_cndmask_b32_e32 v10, v15, v16, vcc
-; CGP-NEXT:    v_xor_b32_e32 v1, v10, v7
-; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], -1, v8, v[5:6]
+; CGP-NEXT:    v_cndmask_b32_e32 v5, v14, v16, vcc
+; CGP-NEXT:    v_xor_b32_e32 v11, v5, v9
+; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v6, v8, v[1:2]
+; CGP-NEXT:    v_cndmask_b32_e32 v10, v15, v17, vcc
+; CGP-NEXT:    v_xor_b32_e32 v1, v10, v9
+; CGP-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], -1, v7, v[5:6]
 ; CGP-NEXT:    v_ashrrev_i32_e32 v10, 31, v3
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v2, v10
 ; CGP-NEXT:    v_addc_u32_e32 v3, vcc, v3, v10, vcc
 ; CGP-NEXT:    v_xor_b32_e32 v12, v2, v10
-; CGP-NEXT:    v_mul_lo_u32 v2, v9, v0
-; CGP-NEXT:    v_mul_lo_u32 v6, v8, v5
+; CGP-NEXT:    v_mul_lo_u32 v2, v8, v0
+; CGP-NEXT:    v_mul_lo_u32 v6, v7, v5
 ; CGP-NEXT:    v_xor_b32_e32 v13, v3, v10
-; CGP-NEXT:    v_mul_hi_u32 v3, v8, v0
-; CGP-NEXT:    v_mul_hi_u32 v0, v9, v0
+; CGP-NEXT:    v_mul_hi_u32 v3, v7, v0
+; CGP-NEXT:    v_mul_hi_u32 v0, v8, v0
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v2, v6
 ; CGP-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
 ; CGP-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; CGP-NEXT:    v_mul_lo_u32 v3, v9, v5
+; CGP-NEXT:    v_mul_lo_u32 v3, v8, v5
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v6, v2
-; CGP-NEXT:    v_mul_hi_u32 v6, v8, v5
+; CGP-NEXT:    v_mul_hi_u32 v6, v7, v5
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
 ; CGP-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v6
 ; CGP-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v3, vcc, v3, v6
-; CGP-NEXT:    v_mul_hi_u32 v5, v9, v5
+; CGP-NEXT:    v_mul_hi_u32 v5, v8, v5
 ; CGP-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
 ; CGP-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
 ; CGP-NEXT:    v_add_i32_e32 v2, vcc, v5, v2
-; CGP-NEXT:    v_add_i32_e32 v3, vcc, v8, v0
-; CGP-NEXT:    v_addc_u32_e32 v2, vcc, v9, v2, vcc
+; CGP-NEXT:    v_add_i32_e32 v3, vcc, v7, v0
+; CGP-NEXT:    v_addc_u32_e32 v2, vcc, v8, v2, vcc
 ; CGP-NEXT:    v_mul_lo_u32 v5, v13, v3
 ; CGP-NEXT:    v_mul_lo_u32 v6, v12, v2
-; CGP-NEXT:    v_sub_i32_e32 v0, vcc, v11, v7
-; CGP-NEXT:    v_subb_u32_e32 v1, vcc, v1, v7, vcc
 ; CGP-NEXT:    v_mul_hi_u32 v7, v12, v3
+; CGP-NEXT:    v_sub_i32_e32 v0, vcc, v11, v9
+; CGP-NEXT:    v_subb_u32_e32 v1, vcc, v1, v9, vcc
 ; CGP-NEXT:    v_add_i32_e32 v5, vcc, v5, v6
 ; CGP-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
 ; CGP-NEXT:    v_add_i32_e32 v5, vcc, v5, v7
@@ -2350,7 +2351,6 @@ define <2 x i64> @v_srem_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_mov_b32_e32 v8, 0x1000
 ; GISEL-NEXT:    v_mov_b32_e32 v9, 0
 ; GISEL-NEXT:    v_lshl_b64 v[4:5], v[8:9], v4
-; GISEL-NEXT:    v_lshl_b64 v[8:9], v[8:9], v6
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v7, 31, v5
 ; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v7
 ; GISEL-NEXT:    v_addc_u32_e32 v10, vcc, v5, v7, vcc
@@ -2425,172 +2425,175 @@ define <2 x i64> @v_srem_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v11, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v13, v0
-; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v16, v1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v10, v15, v0
-; GISEL-NEXT:    v_mul_lo_u32 v11, v12, v1
-; GISEL-NEXT:    v_mul_hi_u32 v13, v12, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v15, v0
-; GISEL-NEXT:    v_mul_hi_u32 v14, v15, v1
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v13, v15, v1
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
-; GISEL-NEXT:    v_mul_hi_u32 v11, v12, v1
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v13, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v11
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v0, v10
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v5, v13, 0
-; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v14, v10
-; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v5, v10, v[1:2]
-; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v7, v13, v[10:11]
-; GISEL-NEXT:    v_sub_i32_e32 v11, vcc, v12, v0
-; GISEL-NEXT:    v_subb_u32_e64 v12, s[4:5], v15, v10, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v15, v10
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v12, v7
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v11, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v12, v7
-; GISEL-NEXT:    v_subb_u32_e32 v10, vcc, v0, v7, vcc
-; GISEL-NEXT:    v_ashrrev_i32_e32 v0, 31, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, v1, v6, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v8, v0
-; GISEL-NEXT:    v_addc_u32_e32 v8, vcc, v9, v0, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v6, v1, v0
-; GISEL-NEXT:    v_xor_b32_e32 v8, v8, v0
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v0, v6
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v1, v8
-; GISEL-NEXT:    v_sub_i32_e32 v14, vcc, v11, v5
-; GISEL-NEXT:    v_subbrev_u32_e64 v15, s[4:5], 0, v10, vcc
-; GISEL-NEXT:    v_mac_f32_e32 v0, 0x4f800000, v1
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v0, v0
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v15, v7
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v14, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v15, v7
-; GISEL-NEXT:    v_mul_f32_e32 v0, 0x5f7ffffc, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, v9, v1, s[4:5]
-; GISEL-NEXT:    v_mul_f32_e32 v1, 0x2f800000, v0
-; GISEL-NEXT:    v_trunc_f32_e32 v9, v1
-; GISEL-NEXT:    v_mac_f32_e32 v0, 0xcf800000, v9
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v17, v0
-; GISEL-NEXT:    v_sub_i32_e64 v18, s[4:5], 0, v6
-; GISEL-NEXT:    v_subb_u32_e64 v19, s[4:5], 0, v8, s[4:5]
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v18, v17, 0
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v20, v9
-; GISEL-NEXT:    v_subb_u32_e32 v7, vcc, v10, v7, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v18, v20, v[1:2]
-; GISEL-NEXT:    v_sub_i32_e32 v1, vcc, v14, v5
-; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v19, v17, v[9:10]
-; GISEL-NEXT:    v_subbrev_u32_e32 v5, vcc, 0, v7, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v16
-; GISEL-NEXT:    v_cndmask_b32_e32 v7, v14, v1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v1, v20, v0
-; GISEL-NEXT:    v_mul_lo_u32 v10, v17, v9
-; GISEL-NEXT:    v_mul_hi_u32 v14, v17, v0
-; GISEL-NEXT:    v_cndmask_b32_e32 v5, v15, v5, vcc
-; GISEL-NEXT:    v_mul_hi_u32 v0, v20, v0
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v10
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v13, v0
+; GISEL-NEXT:    v_addc_u32_e32 v11, vcc, v16, v1, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v13, v15, v10
+; GISEL-NEXT:    v_mul_lo_u32 v14, v12, v11
+; GISEL-NEXT:    v_lshl_b64 v[0:1], v[8:9], v6
+; GISEL-NEXT:    v_mul_hi_u32 v6, v12, v10
+; GISEL-NEXT:    v_mul_hi_u32 v10, v15, v10
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v13, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v8, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v8, v15, v11
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v9, v6
+; GISEL-NEXT:    v_mul_hi_u32 v9, v12, v11
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v14, v20, v9
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v8, v6
+; GISEL-NEXT:    v_mul_hi_u32 v8, v15, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v9, v6
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v8, v6
+; GISEL-NEXT:    v_ashrrev_i32_e32 v8, 31, v1
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v8
+; GISEL-NEXT:    v_addc_u32_e32 v1, vcc, v1, v8, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v5, v13, 0
+; GISEL-NEXT:    v_xor_b32_e32 v6, v0, v8
+; GISEL-NEXT:    v_xor_b32_e32 v8, v1, v8
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v14, v6
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v16, v8
+; GISEL-NEXT:    v_mov_b32_e32 v0, v10
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v5, v11, v[0:1]
+; GISEL-NEXT:    v_mac_f32_e32 v14, 0x4f800000, v16
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v10, v14
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v7, v13, v[0:1]
+; GISEL-NEXT:    v_sub_i32_e32 v16, vcc, 0, v6
+; GISEL-NEXT:    v_mul_f32_e32 v1, 0x5f7ffffc, v10
+; GISEL-NEXT:    v_mul_f32_e32 v10, 0x2f800000, v1
+; GISEL-NEXT:    v_trunc_f32_e32 v13, v10
+; GISEL-NEXT:    v_mac_f32_e32 v1, 0xcf800000, v13
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v14, v1
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v13, v13
+; GISEL-NEXT:    v_subb_u32_e32 v17, vcc, 0, v8, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v16, v14, 0
+; GISEL-NEXT:    v_sub_i32_e32 v9, vcc, v12, v9
+; GISEL-NEXT:    v_mov_b32_e32 v1, v11
+; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v16, v13, v[1:2]
+; GISEL-NEXT:    v_mul_lo_u32 v1, v13, v10
+; GISEL-NEXT:    v_subb_u32_e64 v18, s[4:5], v15, v0, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v17, v14, v[11:12]
+; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v15, v0
+; GISEL-NEXT:    v_mul_lo_u32 v12, v14, v11
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v18, v7
+; GISEL-NEXT:    v_subb_u32_e32 v0, vcc, v0, v7, vcc
+; GISEL-NEXT:    v_add_i32_e64 v1, s[4:5], v1, v12
+; GISEL-NEXT:    v_mul_hi_u32 v12, v14, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v1, s[4:5], v1, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, -1, s[6:7]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v9, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, s[6:7]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], v18, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, v1, v12, s[6:7]
+; GISEL-NEXT:    v_sub_i32_e32 v1, vcc, v9, v5
+; GISEL-NEXT:    v_subbrev_u32_e64 v19, s[6:7], 0, v0, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v1, v5
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v19, v7
+; GISEL-NEXT:    v_subb_u32_e32 v0, vcc, v0, v7, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, -1, s[8:9]
+; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, -1, s[6:7]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], v19, v7
+; GISEL-NEXT:    v_sub_i32_e32 v5, vcc, v1, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v20, v20, v21, s[6:7]
+; GISEL-NEXT:    v_subbrev_u32_e32 v0, vcc, 0, v0, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v20
+; GISEL-NEXT:    v_cndmask_b32_e32 v5, v1, v5, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v7, v19, v0, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, s[4:5]
+; GISEL-NEXT:    v_mul_hi_u32 v1, v13, v10
+; GISEL-NEXT:    v_mul_lo_u32 v10, v13, v11
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v15, v0
+; GISEL-NEXT:    v_mul_hi_u32 v15, v14, v11
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
-; GISEL-NEXT:    v_mul_hi_u32 v10, v17, v9
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v14, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v14, v10
-; GISEL-NEXT:    v_mul_hi_u32 v9, v20, v9
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v1
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v1, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v15
+; GISEL-NEXT:    v_mul_hi_u32 v11, v13, v11
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v1, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v10, v1
-; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v9, v1
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v17, v0
-; GISEL-NEXT:    v_addc_u32_e32 v15, vcc, v20, v1, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v18, v14, 0
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
-; GISEL-NEXT:    v_cndmask_b32_e32 v7, v11, v7, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v18, v15, v[1:2]
-; GISEL-NEXT:    v_xor_b32_e32 v1, v7, v4
-; GISEL-NEXT:    v_ashrrev_i32_e32 v7, 31, v3
-; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v19, v14, v[9:10]
-; GISEL-NEXT:    v_cndmask_b32_e32 v5, v12, v5, vcc
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v7
-; GISEL-NEXT:    v_addc_u32_e32 v3, vcc, v3, v7, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v11, v2, v7
-; GISEL-NEXT:    v_mul_lo_u32 v2, v15, v0
-; GISEL-NEXT:    v_mul_lo_u32 v10, v14, v9
-; GISEL-NEXT:    v_xor_b32_e32 v12, v3, v7
-; GISEL-NEXT:    v_mul_hi_u32 v3, v14, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v15, v0
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, v11, v1
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v14, v0
+; GISEL-NEXT:    v_addc_u32_e32 v13, vcc, v13, v1, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v16, v11, 0
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v12
+; GISEL-NEXT:    v_cndmask_b32_e32 v5, v9, v5, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v16, v13, v[1:2]
+; GISEL-NEXT:    v_xor_b32_e32 v1, v5, v4
+; GISEL-NEXT:    v_ashrrev_i32_e32 v5, 31, v3
+; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v17, v11, v[9:10]
+; GISEL-NEXT:    v_cndmask_b32_e32 v7, v18, v7, vcc
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v5
+; GISEL-NEXT:    v_addc_u32_e32 v3, vcc, v3, v5, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v12, v2, v5
+; GISEL-NEXT:    v_mul_lo_u32 v2, v13, v0
+; GISEL-NEXT:    v_mul_lo_u32 v10, v11, v9
+; GISEL-NEXT:    v_xor_b32_e32 v14, v3, v5
+; GISEL-NEXT:    v_mul_hi_u32 v3, v11, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v13, v0
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v15, v9
+; GISEL-NEXT:    v_mul_lo_u32 v3, v13, v9
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v10, v2
-; GISEL-NEXT:    v_mul_hi_u32 v10, v14, v9
+; GISEL-NEXT:    v_mul_hi_u32 v10, v11, v9
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v3, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v10
-; GISEL-NEXT:    v_mul_hi_u32 v9, v15, v9
+; GISEL-NEXT:    v_mul_hi_u32 v9, v13, v9
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v2
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v3, v2
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v9, v2
-; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v14, v0
-; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v15, v2, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v3, v12, v0
-; GISEL-NEXT:    v_mul_lo_u32 v9, v11, v2
-; GISEL-NEXT:    v_mul_hi_u32 v10, v11, v0
-; GISEL-NEXT:    v_mul_hi_u32 v0, v12, v0
-; GISEL-NEXT:    v_xor_b32_e32 v5, v5, v4
+; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v11, v0
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v13, v2, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v3, v14, v0
+; GISEL-NEXT:    v_mul_lo_u32 v9, v12, v2
+; GISEL-NEXT:    v_mul_hi_u32 v10, v12, v0
+; GISEL-NEXT:    v_mul_hi_u32 v0, v14, v0
+; GISEL-NEXT:    v_xor_b32_e32 v7, v7, v4
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v3, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v10, v12, v2
+; GISEL-NEXT:    v_mul_lo_u32 v10, v14, v2
 ; GISEL-NEXT:    v_add_i32_e32 v3, vcc, v9, v3
-; GISEL-NEXT:    v_mul_hi_u32 v9, v11, v2
+; GISEL-NEXT:    v_mul_hi_u32 v9, v12, v2
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v10, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v0, v9
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v0, v3
-; GISEL-NEXT:    v_mul_hi_u32 v10, v12, v2
-; GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v6, v13, 0
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v0, v3
+; GISEL-NEXT:    v_mul_hi_u32 v10, v14, v2
+; GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v6, v11, 0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v0, vcc, v9, v0
 ; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v0
 ; GISEL-NEXT:    v_mov_b32_e32 v0, v3
 ; GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v6, v9, v[0:1]
 ; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v1, v4
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v5, v4, vcc
-; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v8, v13, v[9:10]
-; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v11, v2
-; GISEL-NEXT:    v_subb_u32_e64 v4, s[4:5], v12, v3, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v12, v3
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v7, v4, vcc
+; GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v8, v11, v[9:10]
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v12, v2
+; GISEL-NEXT:    v_subb_u32_e64 v4, s[4:5], v14, v3, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v14, v3
 ; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v4, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v7, 0, -1, s[4:5]
 ; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v2, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[4:5]
 ; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v4, v8
 ; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v8, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, v5, v9, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v7, v7, v9, s[4:5]
 ; GISEL-NEXT:    v_sub_i32_e32 v9, vcc, v2, v6
 ; GISEL-NEXT:    v_subbrev_u32_e64 v10, s[4:5], 0, v3, vcc
 ; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v10, v8
@@ -2605,13 +2608,13 @@ define <2 x i64> @v_srem_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v11
 ; GISEL-NEXT:    v_cndmask_b32_e32 v6, v9, v6, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v3, v10, v3, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v5
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v7
 ; GISEL-NEXT:    v_cndmask_b32_e32 v2, v2, v6, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v3, v4, v3, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v2, v2, v7
-; GISEL-NEXT:    v_xor_b32_e32 v3, v3, v7
-; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v7
-; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v7, vcc
+; GISEL-NEXT:    v_xor_b32_e32 v2, v2, v5
+; GISEL-NEXT:    v_xor_b32_e32 v3, v3, v5
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v5
+; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v5, vcc
 ; GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; CGP-LABEL: v_srem_v2i64_pow2_shl_denom:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll
index 43ebe156eb2a2..94f943af2532a 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/ssubsat.ll
@@ -281,8 +281,9 @@ define i16 @v_ssubsat_v2i8(i16 %lhs.arg, i16 %rhs.arg) {
 ; GFX8-NEXT:    v_min_i16_e32 v1, v1, v4
 ; GFX8-NEXT:    v_sub_u16_e32 v1, v3, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v2, 0xff
+; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v1), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_and_b32_sdwa v0, sext(v0), v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
-; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v1), v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -300,7 +301,8 @@ define i16 @v_ssubsat_v2i8(i16 %lhs.arg, i16 %rhs.arg) {
 ; GFX9-NEXT:    v_pk_sub_i16 v0, v0, v1 clamp
 ; GFX9-NEXT:    v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
 ; GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -440,7 +442,8 @@ define amdgpu_ps i16 @s_ssubsat_v2i8(i16 inreg %lhs.arg, i16 inreg %rhs.arg) {
 ; GFX9-NEXT:    v_pk_sub_i16 v0, s0, v0 clamp
 ; GFX9-NEXT:    v_pk_ashrrev_i16 v0, 8, v0 op_sel_hi:[0,1]
 ; GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_readfirstlane_b32 s0, v0
 ; GFX9-NEXT:    ; return to shader part epilog
@@ -610,9 +613,11 @@ define i32 @v_ssubsat_v4i8(i32 %lhs.arg, i32 %rhs.arg) {
 ; GFX8-NEXT:    v_and_b32_sdwa v0, sext(v0), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 8, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v2), v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v2), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v3), v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, sext(v3), v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 24, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1965,8 +1970,9 @@ define <16 x i32> @v_ssubsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX6-NEXT:    v_sub_i32_e32 v2, vcc, v2, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v3
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v18, -1, v3
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v19
+; GFX6-NEXT:    buffer_load_dword v19, off, s[0:3], s32
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v3
 ; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
 ; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_sub_i32_e32 v3, vcc, v3, v17
@@ -1990,70 +1996,69 @@ define <16 x i32> @v_ssubsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v22
 ; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
 ; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
-; GFX6-NEXT:    buffer_load_dword v18, off, s[0:3], s32
 ; GFX6-NEXT:    v_sub_i32_e32 v6, vcc, v6, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v7
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v19, -1, v7
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v7
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v23
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v19, v16
-; GFX6-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_sub_i32_e32 v7, vcc, v7, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v8
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v19, -1, v8
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v19, v16
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v8
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v24
-; GFX6-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_sub_i32_e32 v8, vcc, v8, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v9
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v19, -1, v9
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v19, v16
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v9
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v25
-; GFX6-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_sub_i32_e32 v9, vcc, v9, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v10
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v19, -1, v10
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v19, v16
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v10
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v26
-; GFX6-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_sub_i32_e32 v10, vcc, v10, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v11
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v19, -1, v11
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v19, v16
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v11
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v27
-; GFX6-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_sub_i32_e32 v11, vcc, v11, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v12
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v19, -1, v12
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v19, v16
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v12
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v28
-; GFX6-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_sub_i32_e32 v12, vcc, v12, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v13
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v19, -1, v13
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v19, v16
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v13
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v29
-; GFX6-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_sub_i32_e32 v13, vcc, v13, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v14
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v19, -1, v14
-; GFX6-NEXT:    v_add_i32_e32 v19, vcc, v19, v16
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v14
 ; GFX6-NEXT:    v_max_i32_e32 v17, v17, v30
-; GFX6-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX6-NEXT:    v_add_i32_e32 v18, vcc, v18, v16
+; GFX6-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX6-NEXT:    v_sub_i32_e32 v14, vcc, v14, v17
 ; GFX6-NEXT:    v_max_i32_e32 v17, -1, v15
 ; GFX6-NEXT:    v_add_i32_e32 v17, vcc, v17, v31
-; GFX6-NEXT:    v_min_i32_e32 v19, -1, v15
-; GFX6-NEXT:    v_add_i32_e32 v16, vcc, v19, v16
+; GFX6-NEXT:    v_min_i32_e32 v18, -1, v15
+; GFX6-NEXT:    v_add_i32_e32 v16, vcc, v18, v16
 ; GFX6-NEXT:    s_waitcnt vmcnt(0)
-; GFX6-NEXT:    v_max_i32_e32 v17, v17, v18
+; GFX6-NEXT:    v_max_i32_e32 v17, v17, v19
 ; GFX6-NEXT:    v_min_i32_e32 v16, v17, v16
 ; GFX6-NEXT:    v_sub_i32_e32 v15, vcc, v15, v16
 ; GFX6-NEXT:    s_setpc_b64 s[30:31]
@@ -2086,8 +2091,9 @@ define <16 x i32> @v_ssubsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX8-NEXT:    v_sub_u32_e32 v2, vcc, v2, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v3
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v18, -1, v3
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v19
+; GFX8-NEXT:    buffer_load_dword v19, off, s[0:3], s32
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v3
 ; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
 ; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_sub_u32_e32 v3, vcc, v3, v17
@@ -2111,70 +2117,69 @@ define <16 x i32> @v_ssubsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v22
 ; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
 ; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
-; GFX8-NEXT:    buffer_load_dword v18, off, s[0:3], s32
 ; GFX8-NEXT:    v_sub_u32_e32 v6, vcc, v6, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v7
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v19, -1, v7
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v7
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v23
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v19, v16
-; GFX8-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_sub_u32_e32 v7, vcc, v7, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v8
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v19, -1, v8
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v19, v16
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v8
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v24
-; GFX8-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_sub_u32_e32 v8, vcc, v8, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v9
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v19, -1, v9
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v19, v16
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v9
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v25
-; GFX8-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_sub_u32_e32 v9, vcc, v9, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v10
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v19, -1, v10
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v19, v16
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v10
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v26
-; GFX8-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_sub_u32_e32 v10, vcc, v10, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v11
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v19, -1, v11
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v19, v16
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v11
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v27
-; GFX8-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_sub_u32_e32 v11, vcc, v11, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v12
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v19, -1, v12
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v19, v16
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v12
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v28
-; GFX8-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_sub_u32_e32 v12, vcc, v12, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v13
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v19, -1, v13
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v19, v16
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v13
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v29
-; GFX8-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_sub_u32_e32 v13, vcc, v13, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v14
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v19, -1, v14
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, v19, v16
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v14
 ; GFX8-NEXT:    v_max_i32_e32 v17, v17, v30
-; GFX8-NEXT:    v_min_i32_e32 v17, v17, v19
+; GFX8-NEXT:    v_add_u32_e32 v18, vcc, v18, v16
+; GFX8-NEXT:    v_min_i32_e32 v17, v17, v18
 ; GFX8-NEXT:    v_sub_u32_e32 v14, vcc, v14, v17
 ; GFX8-NEXT:    v_max_i32_e32 v17, -1, v15
 ; GFX8-NEXT:    v_add_u32_e32 v17, vcc, v17, v31
-; GFX8-NEXT:    v_min_i32_e32 v19, -1, v15
-; GFX8-NEXT:    v_add_u32_e32 v16, vcc, v19, v16
+; GFX8-NEXT:    v_min_i32_e32 v18, -1, v15
+; GFX8-NEXT:    v_add_u32_e32 v16, vcc, v18, v16
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_max_i32_e32 v17, v17, v18
+; GFX8-NEXT:    v_max_i32_e32 v17, v17, v19
 ; GFX8-NEXT:    v_min_i32_e32 v16, v17, v16
 ; GFX8-NEXT:    v_sub_u32_e32 v15, vcc, v15, v16
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll
index 788692c94b0cf..3d7fec9a5986c 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll
@@ -224,7 +224,8 @@ define i16 @v_uaddsat_v2i8(i16 %lhs.arg, i16 %rhs.arg) {
 ; GFX9-NEXT:    v_pk_add_u16 v0, v0, v1 clamp
 ; GFX9-NEXT:    v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
 ; GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -329,7 +330,8 @@ define amdgpu_ps i16 @s_uaddsat_v2i8(i16 inreg %lhs.arg, i16 inreg %rhs.arg) {
 ; GFX9-NEXT:    v_pk_add_u16 v0, s0, v0 clamp
 ; GFX9-NEXT:    v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
 ; GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_readfirstlane_b32 s0, v0
 ; GFX9-NEXT:    ; return to shader part epilog
@@ -451,9 +453,11 @@ define i32 @v_uaddsat_v4i8(i32 %lhs.arg, i32 %rhs.arg) {
 ; GFX8-NEXT:    v_and_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 8, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, v2, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 24, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -618,18 +622,20 @@ define amdgpu_ps i32 @s_uaddsat_v4i8(i32 inreg %lhs.arg, i32 inreg %rhs.arg) {
 ; GFX8-NEXT:    v_mov_b32_e32 v4, 0xff
 ; GFX8-NEXT:    s_lshl_b32 s0, s3, 8
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s1
-; GFX8-NEXT:    s_lshl_b32 s1, s7, 8
 ; GFX8-NEXT:    v_and_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_add_u16_e64 v2, s0, v2 clamp
-; GFX8-NEXT:    s_lshl_b32 s0, s4, 8
-; GFX8-NEXT:    v_mov_b32_e32 v3, s1
+; GFX8-NEXT:    s_lshl_b32 s1, s7, 8
 ; GFX8-NEXT:    v_and_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 8, v1
-; GFX8-NEXT:    v_add_u16_e64 v3, s0, v3 clamp
+; GFX8-NEXT:    s_lshl_b32 s0, s4, 8
+; GFX8-NEXT:    v_mov_b32_e32 v3, s1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, v2, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_add_u16_e64 v3, s0, v3 clamp
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 24, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
 ; GFX8-NEXT:    v_readfirstlane_b32 s0, v0
 ; GFX8-NEXT:    ; return to shader part epilog
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i64.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i64.ll
index 1ee521b3dedac..f5a901b024ef5 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i64.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/udiv.i64.ll
@@ -365,256 +365,256 @@ define <2 x i64> @v_udiv_v2i64(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-LABEL: v_udiv_v2i64:
 ; GISEL:       ; %bb.0:
 ; GISEL-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v10, v4
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v11, v5
-; GISEL-NEXT:    v_sub_i32_e32 v8, vcc, 0, v4
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v13, v6
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v14, v7
-; GISEL-NEXT:    v_sub_i32_e64 v9, s[4:5], 0, v6
-; GISEL-NEXT:    v_subb_u32_e32 v15, vcc, 0, v5, vcc
-; GISEL-NEXT:    v_subb_u32_e64 v12, vcc, 0, v7, s[4:5]
-; GISEL-NEXT:    v_mac_f32_e32 v10, 0x4f800000, v11
-; GISEL-NEXT:    v_mac_f32_e32 v13, 0x4f800000, v14
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v10, v10
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v11, v13
-; GISEL-NEXT:    v_mul_f32_e32 v10, 0x5f7ffffc, v10
-; GISEL-NEXT:    v_mul_f32_e32 v11, 0x5f7ffffc, v11
-; GISEL-NEXT:    v_mul_f32_e32 v13, 0x2f800000, v10
-; GISEL-NEXT:    v_mul_f32_e32 v14, 0x2f800000, v11
-; GISEL-NEXT:    v_trunc_f32_e32 v13, v13
-; GISEL-NEXT:    v_trunc_f32_e32 v14, v14
-; GISEL-NEXT:    v_mac_f32_e32 v10, 0xcf800000, v13
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v13, v13
-; GISEL-NEXT:    v_mac_f32_e32 v11, 0xcf800000, v14
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v14, v14
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v10, v10
-; GISEL-NEXT:    v_mul_lo_u32 v16, v8, v13
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v11, v11
-; GISEL-NEXT:    v_mul_lo_u32 v17, v9, v14
-; GISEL-NEXT:    v_mul_lo_u32 v18, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v19, v12, v11
-; GISEL-NEXT:    v_mul_hi_u32 v20, v9, v11
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v19, v17
-; GISEL-NEXT:    v_mul_lo_u32 v19, v14, v18
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v11, v17
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v11, v18
-; GISEL-NEXT:    v_add_i32_e64 v19, s[4:5], v19, v20
-; GISEL-NEXT:    v_mul_lo_u32 v19, v8, v10
-; GISEL-NEXT:    v_mul_lo_u32 v20, v15, v10
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v20, v16
-; GISEL-NEXT:    v_mul_hi_u32 v20, v8, v10
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v13, v19
-; GISEL-NEXT:    v_mul_lo_u32 v21, v10, v16
-; GISEL-NEXT:    v_add_i32_e64 v20, s[6:7], v20, v21
-; GISEL-NEXT:    v_mul_hi_u32 v21, v10, v19
-; GISEL-NEXT:    v_add_i32_e64 v20, s[8:9], v20, v21
-; GISEL-NEXT:    v_mul_hi_u32 v19, v13, v19
-; GISEL-NEXT:    v_mul_hi_u32 v18, v14, v18
-; GISEL-NEXT:    v_mul_lo_u32 v20, v13, v16
-; GISEL-NEXT:    v_add_i32_e64 v19, s[10:11], v20, v19
-; GISEL-NEXT:    v_mul_lo_u32 v20, v14, v17
-; GISEL-NEXT:    v_add_i32_e64 v18, s[12:13], v20, v18
-; GISEL-NEXT:    v_mul_hi_u32 v20, v10, v16
-; GISEL-NEXT:    v_add_i32_e64 v19, s[14:15], v19, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v11, v17
-; GISEL-NEXT:    v_add_i32_e64 v18, s[16:17], v18, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v20, s[6:7], v20, v21
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, s[14:15]
-; GISEL-NEXT:    v_add_i32_e64 v21, s[6:7], v21, v22
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v22, vcc, v22, v23
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, s[12:13]
-; GISEL-NEXT:    v_cndmask_b32_e64 v24, 0, 1, s[16:17]
-; GISEL-NEXT:    v_add_i32_e32 v23, vcc, v23, v24
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v20
-; GISEL-NEXT:    v_add_i32_e64 v18, s[4:5], v18, v22
-; GISEL-NEXT:    v_add_i32_e64 v10, s[6:7], v10, v19
-; GISEL-NEXT:    v_mul_hi_u32 v16, v13, v16
-; GISEL-NEXT:    v_mul_hi_u32 v17, v14, v17
-; GISEL-NEXT:    v_add_i32_e64 v11, s[8:9], v11, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v21, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v23, v19
-; GISEL-NEXT:    v_mul_lo_u32 v20, v8, v10
-; GISEL-NEXT:    v_mul_lo_u32 v15, v15, v10
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v18
-; GISEL-NEXT:    v_mul_hi_u32 v18, v8, v10
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v19
-; GISEL-NEXT:    v_mul_lo_u32 v19, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v12, v12, v11
-; GISEL-NEXT:    v_addc_u32_e64 v13, vcc, v13, v16, s[6:7]
-; GISEL-NEXT:    v_mul_hi_u32 v16, v9, v11
-; GISEL-NEXT:    v_addc_u32_e64 v14, vcc, v14, v17, s[8:9]
-; GISEL-NEXT:    v_mul_hi_u32 v17, v10, v20
-; GISEL-NEXT:    v_mul_lo_u32 v8, v8, v13
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v15, v8
-; GISEL-NEXT:    v_mul_hi_u32 v15, v11, v19
-; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v14
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v12, v9
-; GISEL-NEXT:    v_mul_lo_u32 v12, v13, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v13, v20
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v18
-; GISEL-NEXT:    v_mul_lo_u32 v18, v14, v19
-; GISEL-NEXT:    v_mul_hi_u32 v19, v14, v19
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v16
-; GISEL-NEXT:    v_mul_lo_u32 v16, v10, v8
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v8, v4
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v9, v5
+; GISEL-NEXT:    v_mac_f32_e32 v8, 0x4f800000, v9
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v8, v8
+; GISEL-NEXT:    v_mul_f32_e32 v8, 0x5f7ffffc, v8
+; GISEL-NEXT:    v_mul_f32_e32 v9, 0x2f800000, v8
+; GISEL-NEXT:    v_trunc_f32_e32 v9, v9
+; GISEL-NEXT:    v_mac_f32_e32 v8, 0xcf800000, v9
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v8, v8
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v9, v9
+; GISEL-NEXT:    v_sub_i32_e32 v10, vcc, 0, v4
+; GISEL-NEXT:    v_subb_u32_e32 v11, vcc, 0, v5, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v12, v10, v8
+; GISEL-NEXT:    v_mul_lo_u32 v13, v11, v8
+; GISEL-NEXT:    v_mul_lo_u32 v14, v10, v9
+; GISEL-NEXT:    v_mul_hi_u32 v15, v10, v8
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
+; GISEL-NEXT:    v_mul_lo_u32 v14, v9, v12
+; GISEL-NEXT:    v_mul_lo_u32 v15, v8, v13
+; GISEL-NEXT:    v_mul_hi_u32 v16, v8, v12
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v16
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; GISEL-NEXT:    v_mul_lo_u32 v15, v9, v13
+; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v12
+; GISEL-NEXT:    v_mul_hi_u32 v16, v8, v13
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v15, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v16
-; GISEL-NEXT:    v_mul_lo_u32 v16, v13, v8
-; GISEL-NEXT:    v_add_i32_e64 v12, s[4:5], v12, v17
-; GISEL-NEXT:    v_mul_hi_u32 v12, v10, v8
-; GISEL-NEXT:    v_mul_hi_u32 v8, v13, v8
-; GISEL-NEXT:    v_mul_lo_u32 v17, v11, v9
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v14, v9
-; GISEL-NEXT:    v_add_i32_e64 v17, s[8:9], v18, v17
-; GISEL-NEXT:    v_mul_hi_u32 v18, v11, v9
-; GISEL-NEXT:    v_mul_hi_u32 v9, v14, v9
-; GISEL-NEXT:    v_add_i32_e64 v19, s[10:11], v20, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v17, v15
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v12, s[6:7], v16, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[10:11]
-; GISEL-NEXT:    v_add_i32_e64 v18, s[8:9], v19, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e64 v19, s[4:5], v20, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_add_i32_e64 v15, s[4:5], v15, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v20
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v19
-; GISEL-NEXT:    v_add_i32_e64 v17, s[4:5], v18, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v16
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; GISEL-NEXT:    v_mul_hi_u32 v13, v9, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v12
+; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v13, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v12, v10, v8
+; GISEL-NEXT:    v_mul_lo_u32 v11, v11, v8
+; GISEL-NEXT:    v_mul_lo_u32 v13, v10, v9
+; GISEL-NEXT:    v_mul_hi_u32 v10, v10, v8
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v12
+; GISEL-NEXT:    v_mul_lo_u32 v13, v8, v10
+; GISEL-NEXT:    v_mul_hi_u32 v14, v8, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v11
+; GISEL-NEXT:    v_mul_lo_u32 v13, v9, v10
+; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v12
+; GISEL-NEXT:    v_mul_hi_u32 v14, v8, v10
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_hi_u32 v10, v9, v10
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
-; GISEL-NEXT:    v_add_i32_e64 v11, s[4:5], v11, v17
-; GISEL-NEXT:    v_add_i32_e64 v12, s[6:7], v15, v18
-; GISEL-NEXT:    v_add_i32_e64 v15, s[6:7], v16, v19
-; GISEL-NEXT:    v_mul_lo_u32 v16, v1, v10
-; GISEL-NEXT:    v_mul_hi_u32 v17, v0, v10
-; GISEL-NEXT:    v_mul_hi_u32 v10, v1, v10
-; GISEL-NEXT:    v_mul_lo_u32 v18, v3, v11
-; GISEL-NEXT:    v_mul_hi_u32 v19, v2, v11
-; GISEL-NEXT:    v_mul_hi_u32 v11, v3, v11
-; GISEL-NEXT:    v_add_i32_e64 v8, s[6:7], v8, v12
-; GISEL-NEXT:    v_add_i32_e64 v9, s[6:7], v9, v15
-; GISEL-NEXT:    v_addc_u32_e32 v8, vcc, v13, v8, vcc
-; GISEL-NEXT:    v_addc_u32_e64 v9, vcc, v14, v9, s[4:5]
-; GISEL-NEXT:    v_mul_lo_u32 v12, v0, v8
-; GISEL-NEXT:    v_mul_lo_u32 v13, v1, v8
-; GISEL-NEXT:    v_mul_hi_u32 v14, v0, v8
-; GISEL-NEXT:    v_mul_hi_u32 v15, v1, v8
-; GISEL-NEXT:    v_mul_lo_u32 v8, v2, v9
-; GISEL-NEXT:    v_mul_lo_u32 v20, v3, v9
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v16, v12
-; GISEL-NEXT:    v_mul_hi_u32 v16, v2, v9
-; GISEL-NEXT:    v_mul_hi_u32 v21, v3, v9
-; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v13, v10
-; GISEL-NEXT:    v_add_i32_e64 v8, s[6:7], v18, v8
-; GISEL-NEXT:    v_add_i32_e64 v10, s[8:9], v20, v11
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v11
+; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v10, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v1, v8
+; GISEL-NEXT:    v_mul_lo_u32 v11, v0, v9
+; GISEL-NEXT:    v_mul_hi_u32 v12, v0, v8
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, s[6:7]
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v9, v14
-; GISEL-NEXT:    v_add_i32_e64 v8, s[6:7], v8, v19
-; GISEL-NEXT:    v_add_i32_e64 v10, s[8:9], v10, v16
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, s[8:9]
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v1, v9
+; GISEL-NEXT:    v_mul_hi_u32 v8, v1, v8
+; GISEL-NEXT:    v_mul_hi_u32 v12, v0, v9
 ; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v11, v8
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v14
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v18, v16
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
-; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v10, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, s[4:5]
-; GISEL-NEXT:    v_mul_lo_u32 v14, v4, v8
-; GISEL-NEXT:    v_mul_lo_u32 v16, v5, v8
-; GISEL-NEXT:    v_mul_hi_u32 v17, v4, v8
-; GISEL-NEXT:    v_mul_lo_u32 v18, v6, v9
-; GISEL-NEXT:    v_mul_lo_u32 v19, v7, v9
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
-; GISEL-NEXT:    v_mul_hi_u32 v11, v6, v9
+; GISEL-NEXT:    v_mul_hi_u32 v9, v1, v9
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_mul_lo_u32 v10, v4, v8
+; GISEL-NEXT:    v_mul_lo_u32 v11, v5, v8
+; GISEL-NEXT:    v_mul_lo_u32 v12, v4, v9
+; GISEL-NEXT:    v_mul_hi_u32 v13, v4, v8
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v10
+; GISEL-NEXT:    v_subb_u32_e64 v10, s[4:5], v1, v11, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v1, s[4:5], v1, v11
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v10, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v0, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v10, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, v11, v12, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v0, v4
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v5, vcc
+; GISEL-NEXT:    v_subbrev_u32_e64 v1, vcc, 0, v1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, 1, v8
+; GISEL-NEXT:    v_addc_u32_e32 v12, vcc, 0, v9, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v1, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v0, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v1, v5
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v13, v0, vcc
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, 1, v11
+; GISEL-NEXT:    v_addc_u32_e32 v4, vcc, 0, v12, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v0
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v11, v1, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v12, v4, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v10
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v8, v0, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v9, v1, vcc
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v4, v6
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v5, v7
+; GISEL-NEXT:    v_mac_f32_e32 v4, 0x4f800000, v5
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v4, v4
+; GISEL-NEXT:    v_mul_f32_e32 v4, 0x5f7ffffc, v4
+; GISEL-NEXT:    v_mul_f32_e32 v5, 0x2f800000, v4
+; GISEL-NEXT:    v_trunc_f32_e32 v5, v5
+; GISEL-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v5
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v4, v4
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v5, v5
+; GISEL-NEXT:    v_sub_i32_e32 v8, vcc, 0, v6
+; GISEL-NEXT:    v_subb_u32_e32 v9, vcc, 0, v7, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v4
+; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v4
+; GISEL-NEXT:    v_mul_lo_u32 v12, v8, v5
+; GISEL-NEXT:    v_mul_hi_u32 v13, v8, v4
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_mul_lo_u32 v12, v5, v10
+; GISEL-NEXT:    v_mul_lo_u32 v13, v4, v11
+; GISEL-NEXT:    v_mul_hi_u32 v14, v4, v10
 ; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v13
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, 1, v8
-; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v0, v14
-; GISEL-NEXT:    v_add_i32_e64 v14, s[6:7], 1, v9
-; GISEL-NEXT:    v_sub_i32_e64 v2, s[8:9], v2, v18
-; GISEL-NEXT:    v_add_i32_e64 v18, s[10:11], 1, v13
-; GISEL-NEXT:    v_add_i32_e64 v10, s[12:13], v15, v10
-; GISEL-NEXT:    v_add_i32_e64 v15, s[12:13], 1, v14
-; GISEL-NEXT:    v_add_i32_e64 v12, s[14:15], v21, v12
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[14:15], v0, v4
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[16:17], v2, v6
-; GISEL-NEXT:    v_sub_i32_e64 v0, s[18:19], v0, v4
-; GISEL-NEXT:    v_sub_i32_e64 v2, s[20:21], v2, v6
-; GISEL-NEXT:    v_mul_lo_u32 v20, v4, v10
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[22:23], v0, v4
-; GISEL-NEXT:    v_addc_u32_e32 v0, vcc, 0, v10, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v4, v6, v12
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v6
-; GISEL-NEXT:    v_addc_u32_e64 v2, s[6:7], 0, v12, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, -1, s[14:15]
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, -1, s[16:17]
-; GISEL-NEXT:    v_add_i32_e64 v4, s[6:7], v19, v4
-; GISEL-NEXT:    v_addc_u32_e64 v19, s[6:7], 0, v0, s[10:11]
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v17
-; GISEL-NEXT:    v_addc_u32_e64 v17, s[6:7], 0, v2, s[12:13]
-; GISEL-NEXT:    v_add_i32_e64 v4, s[6:7], v4, v11
-; GISEL-NEXT:    v_subb_u32_e64 v11, s[6:7], v1, v16, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e64 v1, s[6:7], v1, v16
-; GISEL-NEXT:    v_subb_u32_e64 v16, s[6:7], v3, v4, s[8:9]
-; GISEL-NEXT:    v_sub_i32_e64 v3, s[6:7], v3, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, -1, s[22:23]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v11, v5
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[10:11], v11, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_lo_u32 v13, v5, v11
+; GISEL-NEXT:    v_mul_hi_u32 v10, v5, v10
+; GISEL-NEXT:    v_mul_hi_u32 v14, v4, v11
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v13, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_hi_u32 v11, v5, v11
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v10
+; GISEL-NEXT:    v_addc_u32_e32 v5, vcc, v5, v11, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v4
+; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v4
+; GISEL-NEXT:    v_mul_lo_u32 v11, v8, v5
+; GISEL-NEXT:    v_mul_hi_u32 v8, v8, v4
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_lo_u32 v9, v5, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v4, v8
+; GISEL-NEXT:    v_mul_hi_u32 v12, v4, v10
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v11, v9
+; GISEL-NEXT:    v_mul_lo_u32 v11, v5, v8
+; GISEL-NEXT:    v_mul_hi_u32 v10, v5, v10
+; GISEL-NEXT:    v_mul_hi_u32 v12, v4, v8
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_hi_u32 v8, v5, v8
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; GISEL-NEXT:    v_addc_u32_e32 v5, vcc, v5, v8, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v8, v3, v4
+; GISEL-NEXT:    v_mul_lo_u32 v9, v2, v5
+; GISEL-NEXT:    v_mul_hi_u32 v10, v2, v4
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_lo_u32 v9, v3, v5
+; GISEL-NEXT:    v_mul_hi_u32 v4, v3, v4
+; GISEL-NEXT:    v_mul_hi_u32 v10, v2, v5
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v9, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_hi_u32 v5, v3, v5
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v8
+; GISEL-NEXT:    v_mul_lo_u32 v8, v6, v4
+; GISEL-NEXT:    v_mul_lo_u32 v9, v7, v4
+; GISEL-NEXT:    v_mul_lo_u32 v10, v6, v5
+; GISEL-NEXT:    v_mul_hi_u32 v11, v6, v4
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v8
+; GISEL-NEXT:    v_subb_u32_e64 v8, s[4:5], v3, v9, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v3, v9
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v8, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v2, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v8, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, v9, v10, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v2, s[4:5], v2, v6
+; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v7, vcc
+; GISEL-NEXT:    v_subbrev_u32_e64 v3, vcc, 0, v3, s[4:5]
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, 1, v4
+; GISEL-NEXT:    v_addc_u32_e32 v10, vcc, 0, v5, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v3, v7
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, vcc
-; GISEL-NEXT:    v_subb_u32_e64 v1, vcc, v1, v5, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v16, v7
-; GISEL-NEXT:    v_subb_u32_e64 v3, s[4:5], v3, v7, s[8:9]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v16, v7
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v6, v16, v6, s[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, -1, vcc
-; GISEL-NEXT:    v_subbrev_u32_e64 v1, vcc, 0, v1, s[18:19]
-; GISEL-NEXT:    v_subbrev_u32_e64 v3, vcc, 0, v3, s[20:21]
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, v16, v20, s[4:5]
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v1, v5
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v3, v7
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], v1, v5
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[8:9], v3, v7
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, -1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v6
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v16
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, v1, v4, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v3, v11, s[8:9]
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[6:7], 0, v1
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[8:9], 0, v3
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, v13, v18, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v14, v15, s[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, v0, v19, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, v2, v17, s[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e32 v0, v8, v1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, v9, v3, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v10, v4, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v12, v5, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v3, v7
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v11, v2, vcc
+; GISEL-NEXT:    v_add_i32_e32 v3, vcc, 1, v9
+; GISEL-NEXT:    v_addc_u32_e32 v6, vcc, 0, v10, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v2
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v9, v3, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v10, v6, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v8
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v4, v2, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v5, v3, vcc
 ; GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; CGP-LABEL: v_udiv_v2i64:
@@ -1252,256 +1252,256 @@ define <2 x i64> @v_udiv_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_mov_b32_e32 v10, 0
 ; GISEL-NEXT:    v_lshl_b64 v[7:8], v[9:10], v4
 ; GISEL-NEXT:    v_lshl_b64 v[4:5], v[9:10], v6
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v10, v7
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v11, v8
-; GISEL-NEXT:    v_sub_i32_e32 v6, vcc, 0, v7
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v13, v4
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v14, v5
-; GISEL-NEXT:    v_sub_i32_e64 v9, s[4:5], 0, v4
-; GISEL-NEXT:    v_subb_u32_e32 v15, vcc, 0, v8, vcc
-; GISEL-NEXT:    v_subb_u32_e64 v12, vcc, 0, v5, s[4:5]
-; GISEL-NEXT:    v_mac_f32_e32 v10, 0x4f800000, v11
-; GISEL-NEXT:    v_mac_f32_e32 v13, 0x4f800000, v14
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v10, v10
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v11, v13
-; GISEL-NEXT:    v_mul_f32_e32 v10, 0x5f7ffffc, v10
-; GISEL-NEXT:    v_mul_f32_e32 v11, 0x5f7ffffc, v11
-; GISEL-NEXT:    v_mul_f32_e32 v13, 0x2f800000, v10
-; GISEL-NEXT:    v_mul_f32_e32 v14, 0x2f800000, v11
-; GISEL-NEXT:    v_trunc_f32_e32 v13, v13
-; GISEL-NEXT:    v_trunc_f32_e32 v14, v14
-; GISEL-NEXT:    v_mac_f32_e32 v10, 0xcf800000, v13
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v13, v13
-; GISEL-NEXT:    v_mac_f32_e32 v11, 0xcf800000, v14
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v14, v14
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v10, v10
-; GISEL-NEXT:    v_mul_lo_u32 v16, v6, v13
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v11, v11
-; GISEL-NEXT:    v_mul_lo_u32 v17, v9, v14
-; GISEL-NEXT:    v_mul_lo_u32 v18, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v19, v12, v11
-; GISEL-NEXT:    v_mul_hi_u32 v20, v9, v11
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v19, v17
-; GISEL-NEXT:    v_mul_lo_u32 v19, v14, v18
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v11, v17
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v11, v18
-; GISEL-NEXT:    v_add_i32_e64 v19, s[4:5], v19, v20
-; GISEL-NEXT:    v_mul_lo_u32 v19, v6, v10
-; GISEL-NEXT:    v_mul_lo_u32 v20, v15, v10
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v20, v16
-; GISEL-NEXT:    v_mul_hi_u32 v20, v6, v10
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v13, v19
-; GISEL-NEXT:    v_mul_lo_u32 v21, v10, v16
-; GISEL-NEXT:    v_add_i32_e64 v20, s[6:7], v20, v21
-; GISEL-NEXT:    v_mul_hi_u32 v21, v10, v19
-; GISEL-NEXT:    v_add_i32_e64 v20, s[8:9], v20, v21
-; GISEL-NEXT:    v_mul_hi_u32 v19, v13, v19
-; GISEL-NEXT:    v_mul_hi_u32 v18, v14, v18
-; GISEL-NEXT:    v_mul_lo_u32 v20, v13, v16
-; GISEL-NEXT:    v_add_i32_e64 v19, s[10:11], v20, v19
-; GISEL-NEXT:    v_mul_lo_u32 v20, v14, v17
-; GISEL-NEXT:    v_add_i32_e64 v18, s[12:13], v20, v18
-; GISEL-NEXT:    v_mul_hi_u32 v20, v10, v16
-; GISEL-NEXT:    v_add_i32_e64 v19, s[14:15], v19, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v11, v17
-; GISEL-NEXT:    v_add_i32_e64 v18, s[16:17], v18, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v20, s[6:7], v20, v21
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, s[14:15]
-; GISEL-NEXT:    v_add_i32_e64 v21, s[6:7], v21, v22
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v22, vcc, v22, v23
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, s[12:13]
-; GISEL-NEXT:    v_cndmask_b32_e64 v24, 0, 1, s[16:17]
-; GISEL-NEXT:    v_add_i32_e32 v23, vcc, v23, v24
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v20
-; GISEL-NEXT:    v_add_i32_e64 v18, s[4:5], v18, v22
-; GISEL-NEXT:    v_add_i32_e64 v10, s[6:7], v10, v19
-; GISEL-NEXT:    v_mul_hi_u32 v16, v13, v16
-; GISEL-NEXT:    v_mul_hi_u32 v17, v14, v17
-; GISEL-NEXT:    v_add_i32_e64 v11, s[8:9], v11, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v21, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v23, v19
-; GISEL-NEXT:    v_mul_lo_u32 v20, v6, v10
-; GISEL-NEXT:    v_mul_lo_u32 v15, v15, v10
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v18
-; GISEL-NEXT:    v_mul_hi_u32 v18, v6, v10
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v19
-; GISEL-NEXT:    v_mul_lo_u32 v19, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v12, v12, v11
-; GISEL-NEXT:    v_addc_u32_e64 v13, vcc, v13, v16, s[6:7]
-; GISEL-NEXT:    v_mul_hi_u32 v16, v9, v11
-; GISEL-NEXT:    v_addc_u32_e64 v14, vcc, v14, v17, s[8:9]
-; GISEL-NEXT:    v_mul_hi_u32 v17, v10, v20
-; GISEL-NEXT:    v_mul_lo_u32 v6, v6, v13
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v15, v6
-; GISEL-NEXT:    v_mul_hi_u32 v15, v11, v19
-; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v14
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v12, v9
-; GISEL-NEXT:    v_mul_lo_u32 v12, v13, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v13, v20
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v18
-; GISEL-NEXT:    v_mul_lo_u32 v18, v14, v19
-; GISEL-NEXT:    v_mul_hi_u32 v19, v14, v19
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v16
-; GISEL-NEXT:    v_mul_lo_u32 v16, v10, v6
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v6, v7
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v9, v8
+; GISEL-NEXT:    v_mac_f32_e32 v6, 0x4f800000, v9
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v6, v6
+; GISEL-NEXT:    v_mul_f32_e32 v6, 0x5f7ffffc, v6
+; GISEL-NEXT:    v_mul_f32_e32 v9, 0x2f800000, v6
+; GISEL-NEXT:    v_trunc_f32_e32 v9, v9
+; GISEL-NEXT:    v_mac_f32_e32 v6, 0xcf800000, v9
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v6, v6
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v9, v9
+; GISEL-NEXT:    v_sub_i32_e32 v10, vcc, 0, v7
+; GISEL-NEXT:    v_subb_u32_e32 v11, vcc, 0, v8, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v12, v10, v6
+; GISEL-NEXT:    v_mul_lo_u32 v13, v11, v6
+; GISEL-NEXT:    v_mul_lo_u32 v14, v10, v9
+; GISEL-NEXT:    v_mul_hi_u32 v15, v10, v6
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
+; GISEL-NEXT:    v_mul_lo_u32 v14, v9, v12
+; GISEL-NEXT:    v_mul_lo_u32 v15, v6, v13
+; GISEL-NEXT:    v_mul_hi_u32 v16, v6, v12
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v16
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; GISEL-NEXT:    v_mul_lo_u32 v15, v9, v13
+; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v12
+; GISEL-NEXT:    v_mul_hi_u32 v16, v6, v13
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v15, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v16
-; GISEL-NEXT:    v_mul_lo_u32 v16, v13, v6
-; GISEL-NEXT:    v_add_i32_e64 v12, s[4:5], v12, v17
-; GISEL-NEXT:    v_mul_hi_u32 v12, v10, v6
-; GISEL-NEXT:    v_mul_hi_u32 v6, v13, v6
-; GISEL-NEXT:    v_mul_lo_u32 v17, v11, v9
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v14, v9
-; GISEL-NEXT:    v_add_i32_e64 v17, s[8:9], v18, v17
-; GISEL-NEXT:    v_mul_hi_u32 v18, v11, v9
-; GISEL-NEXT:    v_mul_hi_u32 v9, v14, v9
-; GISEL-NEXT:    v_add_i32_e64 v19, s[10:11], v20, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v17, v15
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v12, s[6:7], v16, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[10:11]
-; GISEL-NEXT:    v_add_i32_e64 v18, s[8:9], v19, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e64 v19, s[4:5], v20, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_add_i32_e64 v15, s[4:5], v15, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v20
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v19
-; GISEL-NEXT:    v_add_i32_e64 v17, s[4:5], v18, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v16
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; GISEL-NEXT:    v_mul_hi_u32 v13, v9, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v12
+; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v13, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v12, v10, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v11, v6
+; GISEL-NEXT:    v_mul_lo_u32 v13, v10, v9
+; GISEL-NEXT:    v_mul_hi_u32 v10, v10, v6
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v12
+; GISEL-NEXT:    v_mul_lo_u32 v13, v6, v10
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v11
+; GISEL-NEXT:    v_mul_lo_u32 v13, v9, v10
+; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v12
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v10
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_hi_u32 v10, v9, v10
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
-; GISEL-NEXT:    v_add_i32_e64 v11, s[4:5], v11, v17
-; GISEL-NEXT:    v_add_i32_e64 v12, s[6:7], v15, v18
-; GISEL-NEXT:    v_add_i32_e64 v15, s[6:7], v16, v19
-; GISEL-NEXT:    v_mul_lo_u32 v16, v1, v10
-; GISEL-NEXT:    v_mul_hi_u32 v17, v0, v10
-; GISEL-NEXT:    v_mul_hi_u32 v10, v1, v10
-; GISEL-NEXT:    v_mul_lo_u32 v18, v3, v11
-; GISEL-NEXT:    v_mul_hi_u32 v19, v2, v11
-; GISEL-NEXT:    v_mul_hi_u32 v11, v3, v11
-; GISEL-NEXT:    v_add_i32_e64 v6, s[6:7], v6, v12
-; GISEL-NEXT:    v_add_i32_e64 v9, s[6:7], v9, v15
-; GISEL-NEXT:    v_addc_u32_e32 v6, vcc, v13, v6, vcc
-; GISEL-NEXT:    v_addc_u32_e64 v9, vcc, v14, v9, s[4:5]
-; GISEL-NEXT:    v_mul_lo_u32 v12, v0, v6
-; GISEL-NEXT:    v_mul_lo_u32 v13, v1, v6
-; GISEL-NEXT:    v_mul_hi_u32 v14, v0, v6
-; GISEL-NEXT:    v_mul_hi_u32 v15, v1, v6
-; GISEL-NEXT:    v_mul_lo_u32 v6, v2, v9
-; GISEL-NEXT:    v_mul_lo_u32 v20, v3, v9
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v16, v12
-; GISEL-NEXT:    v_mul_hi_u32 v16, v2, v9
-; GISEL-NEXT:    v_mul_hi_u32 v21, v3, v9
-; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v13, v10
-; GISEL-NEXT:    v_add_i32_e64 v6, s[6:7], v18, v6
-; GISEL-NEXT:    v_add_i32_e64 v10, s[8:9], v20, v11
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v11
+; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v10, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v1, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v0, v9
+; GISEL-NEXT:    v_mul_hi_u32 v12, v0, v6
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, s[6:7]
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v9, v14
-; GISEL-NEXT:    v_add_i32_e64 v6, s[6:7], v6, v19
-; GISEL-NEXT:    v_add_i32_e64 v10, s[8:9], v10, v16
-; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, s[8:9]
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v1, v9
+; GISEL-NEXT:    v_mul_hi_u32 v6, v1, v6
+; GISEL-NEXT:    v_mul_hi_u32 v12, v0, v9
 ; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v11, v6
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v14
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v18, v16
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v9, v6
-; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v10, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, s[4:5]
-; GISEL-NEXT:    v_mul_lo_u32 v14, v7, v6
-; GISEL-NEXT:    v_mul_lo_u32 v16, v8, v6
-; GISEL-NEXT:    v_mul_hi_u32 v17, v7, v6
-; GISEL-NEXT:    v_mul_lo_u32 v18, v4, v9
-; GISEL-NEXT:    v_mul_lo_u32 v19, v5, v9
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
-; GISEL-NEXT:    v_mul_hi_u32 v11, v4, v9
+; GISEL-NEXT:    v_mul_hi_u32 v9, v1, v9
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_mul_lo_u32 v10, v7, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v8, v6
+; GISEL-NEXT:    v_mul_lo_u32 v12, v7, v9
+; GISEL-NEXT:    v_mul_hi_u32 v13, v7, v6
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v10
+; GISEL-NEXT:    v_subb_u32_e64 v10, s[4:5], v1, v11, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v1, s[4:5], v1, v11
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v10, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v0, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v10, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, v11, v12, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v0, v7
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v8, vcc
+; GISEL-NEXT:    v_subbrev_u32_e64 v1, vcc, 0, v1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, 1, v6
+; GISEL-NEXT:    v_addc_u32_e32 v12, vcc, 0, v9, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v1, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v0, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v1, v8
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v13, v0, vcc
+; GISEL-NEXT:    v_add_i32_e32 v1, vcc, 1, v11
+; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, 0, v12, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v0
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v11, v1, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v12, v7, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v10
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v6, v0, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v9, v1, vcc
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v6, v4
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v7, v5
+; GISEL-NEXT:    v_mac_f32_e32 v6, 0x4f800000, v7
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v6, v6
+; GISEL-NEXT:    v_mul_f32_e32 v6, 0x5f7ffffc, v6
+; GISEL-NEXT:    v_mul_f32_e32 v7, 0x2f800000, v6
+; GISEL-NEXT:    v_trunc_f32_e32 v7, v7
+; GISEL-NEXT:    v_mac_f32_e32 v6, 0xcf800000, v7
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v6, v6
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v7, v7
+; GISEL-NEXT:    v_sub_i32_e32 v8, vcc, 0, v4
+; GISEL-NEXT:    v_subb_u32_e32 v9, vcc, 0, v5, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v6
+; GISEL-NEXT:    v_mul_lo_u32 v12, v8, v7
+; GISEL-NEXT:    v_mul_hi_u32 v13, v8, v6
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_mul_lo_u32 v12, v7, v10
+; GISEL-NEXT:    v_mul_lo_u32 v13, v6, v11
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v10
 ; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v13
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, 1, v6
-; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v0, v14
-; GISEL-NEXT:    v_add_i32_e64 v14, s[6:7], 1, v9
-; GISEL-NEXT:    v_sub_i32_e64 v2, s[8:9], v2, v18
-; GISEL-NEXT:    v_add_i32_e64 v18, s[10:11], 1, v13
-; GISEL-NEXT:    v_add_i32_e64 v10, s[12:13], v15, v10
-; GISEL-NEXT:    v_add_i32_e64 v15, s[12:13], 1, v14
-; GISEL-NEXT:    v_add_i32_e64 v12, s[14:15], v21, v12
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[14:15], v0, v7
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[16:17], v2, v4
-; GISEL-NEXT:    v_sub_i32_e64 v0, s[18:19], v0, v7
-; GISEL-NEXT:    v_sub_i32_e64 v2, s[20:21], v2, v4
-; GISEL-NEXT:    v_mul_lo_u32 v20, v7, v10
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[22:23], v0, v7
-; GISEL-NEXT:    v_addc_u32_e32 v0, vcc, 0, v10, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v4
-; GISEL-NEXT:    v_mul_lo_u32 v2, v4, v12
-; GISEL-NEXT:    v_add_i32_e64 v4, s[24:25], v16, v20
-; GISEL-NEXT:    v_addc_u32_e64 v7, s[6:7], 0, v12, s[6:7]
-; GISEL-NEXT:    v_add_i32_e64 v2, s[6:7], v19, v2
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[14:15]
-; GISEL-NEXT:    v_add_i32_e64 v4, s[6:7], v4, v17
-; GISEL-NEXT:    v_subb_u32_e64 v17, s[6:7], v1, v4, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e64 v1, s[6:7], v1, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, -1, s[16:17]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v17, v8
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[14:15], v17, v8
-; GISEL-NEXT:    v_addc_u32_e64 v17, s[10:11], 0, v0, s[10:11]
-; GISEL-NEXT:    v_subb_u32_e64 v1, s[4:5], v1, v8, s[4:5]
-; GISEL-NEXT:    v_subbrev_u32_e64 v1, s[4:5], 0, v1, s[18:19]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v1, v8
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[10:11], v1, v8
-; GISEL-NEXT:    v_addc_u32_e64 v1, s[12:13], 0, v7, s[12:13]
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, -1, s[22:23]
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, -1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v11
-; GISEL-NEXT:    v_subb_u32_e64 v11, vcc, v3, v2, s[8:9]
-; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v3, v2
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v11, v5
-; GISEL-NEXT:    v_subb_u32_e64 v2, s[8:9], v2, v5, s[8:9]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[8:9], v11, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, -1, s[6:7]
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_lo_u32 v13, v7, v11
+; GISEL-NEXT:    v_mul_hi_u32 v10, v7, v10
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v11
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v13, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_hi_u32 v11, v7, v11
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v10
+; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, v7, v11, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v8, v7
+; GISEL-NEXT:    v_mul_hi_u32 v8, v8, v6
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_lo_u32 v9, v7, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v6, v8
+; GISEL-NEXT:    v_mul_hi_u32 v12, v6, v10
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v11, v9
+; GISEL-NEXT:    v_mul_lo_u32 v11, v7, v8
+; GISEL-NEXT:    v_mul_hi_u32 v10, v7, v10
+; GISEL-NEXT:    v_mul_hi_u32 v12, v6, v8
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_hi_u32 v8, v7, v8
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v9
+; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, v7, v8, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v8, v3, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, v2, v7
+; GISEL-NEXT:    v_mul_hi_u32 v10, v2, v6
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_lo_u32 v9, v3, v7
+; GISEL-NEXT:    v_mul_hi_u32 v6, v3, v6
+; GISEL-NEXT:    v_mul_hi_u32 v10, v2, v7
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v9, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_hi_u32 v7, v3, v7
+; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v8
+; GISEL-NEXT:    v_mul_lo_u32 v8, v4, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, v5, v6
+; GISEL-NEXT:    v_mul_lo_u32 v10, v4, v7
+; GISEL-NEXT:    v_mul_hi_u32 v11, v4, v6
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v8
+; GISEL-NEXT:    v_subb_u32_e64 v8, s[4:5], v3, v9, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v3, v9
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v8, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v2, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v8, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, v9, v10, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v2, s[4:5], v2, v4
+; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v5, vcc
+; GISEL-NEXT:    v_subbrev_u32_e64 v3, vcc, 0, v3, s[4:5]
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, 1, v6
+; GISEL-NEXT:    v_addc_u32_e32 v10, vcc, 0, v7, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v3, v5
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, vcc
-; GISEL-NEXT:    v_subbrev_u32_e64 v2, vcc, 0, v2, s[20:21]
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v3, v16, s[14:15]
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, v11, v4, s[8:9]
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v5
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], v2, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, -1, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v3
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v4
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, v2, v8, s[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v5, v19, s[6:7]
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[6:7], 0, v2
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[8:9], 0, v3
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, v13, v18, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v14, v15, s[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, v0, v17, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, v7, v1, s[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e32 v0, v6, v2, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, v9, v3, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v10, v4, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v12, v5, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v3, v5
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v11, v2, vcc
+; GISEL-NEXT:    v_add_i32_e32 v3, vcc, 1, v9
+; GISEL-NEXT:    v_addc_u32_e32 v4, vcc, 0, v10, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v2
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v9, v3, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v10, v4, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v8
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v6, v2, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v7, v3, vcc
 ; GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; CGP-LABEL: v_udiv_v2i64_pow2_shl_denom:
@@ -1904,16 +1904,14 @@ define <2 x i64> @v_udiv_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-LABEL: v_udiv_v2i64_24bit:
 ; GISEL:       ; %bb.0:
 ; GISEL-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GISEL-NEXT:    v_and_b32_e32 v3, 0xffffff, v0
-; GISEL-NEXT:    v_and_b32_e32 v2, 0xffffff, v2
-; GISEL-NEXT:    v_and_b32_e32 v1, 0xffffff, v4
-; GISEL-NEXT:    v_and_b32_e32 v0, 0xffffff, v6
+; GISEL-NEXT:    v_and_b32_e32 v3, 0xffffff, v4
+; GISEL-NEXT:    v_and_b32_e32 v1, 0xffffff, v6
 ; GISEL-NEXT:    v_cvt_f32_ubyte0_e32 v6, 0
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v7, v1
-; GISEL-NEXT:    v_sub_i32_e32 v4, vcc, 0, v1
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v7, v3
+; GISEL-NEXT:    v_sub_i32_e32 v4, vcc, 0, v3
 ; GISEL-NEXT:    v_subb_u32_e64 v5, s[4:5], 0, 0, vcc
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v8, v0
-; GISEL-NEXT:    v_sub_i32_e32 v9, vcc, 0, v0
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v8, v1
+; GISEL-NEXT:    v_sub_i32_e32 v9, vcc, 0, v1
 ; GISEL-NEXT:    v_subb_u32_e64 v10, s[4:5], 0, 0, vcc
 ; GISEL-NEXT:    v_mac_f32_e32 v7, 0x4f800000, v6
 ; GISEL-NEXT:    v_mac_f32_e32 v8, 0x4f800000, v6
@@ -1929,76 +1927,78 @@ define <2 x i64> @v_udiv_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v8, v8
 ; GISEL-NEXT:    v_mac_f32_e32 v7, 0xcf800000, v11
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v11, v11
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v6, v6
-; GISEL-NEXT:    v_mul_lo_u32 v12, v4, v8
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v12, v6
+; GISEL-NEXT:    v_mul_lo_u32 v6, v4, v8
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v7, v7
 ; GISEL-NEXT:    v_mul_lo_u32 v13, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v14, v4, v6
-; GISEL-NEXT:    v_mul_lo_u32 v15, v5, v6
-; GISEL-NEXT:    v_mul_hi_u32 v16, v4, v6
+; GISEL-NEXT:    v_mul_lo_u32 v14, v4, v12
+; GISEL-NEXT:    v_mul_lo_u32 v15, v5, v12
+; GISEL-NEXT:    v_mul_hi_u32 v16, v4, v12
 ; GISEL-NEXT:    v_mul_lo_u32 v17, v9, v7
 ; GISEL-NEXT:    v_mul_lo_u32 v18, v10, v7
 ; GISEL-NEXT:    v_mul_hi_u32 v19, v9, v7
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v15, v12
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v15, v6
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v18, v13
+; GISEL-NEXT:    v_mul_lo_u32 v15, v11, v17
+; GISEL-NEXT:    v_mul_hi_u32 v18, v7, v17
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v19
+; GISEL-NEXT:    v_mul_lo_u32 v19, v7, v13
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v19
+; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v18
 ; GISEL-NEXT:    v_mul_lo_u32 v15, v8, v14
-; GISEL-NEXT:    v_mul_hi_u32 v20, v6, v14
+; GISEL-NEXT:    v_mul_hi_u32 v18, v12, v14
 ; GISEL-NEXT:    v_mul_hi_u32 v14, v8, v14
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v18, v13
-; GISEL-NEXT:    v_mul_lo_u32 v18, v11, v17
-; GISEL-NEXT:    v_mul_hi_u32 v21, v7, v17
 ; GISEL-NEXT:    v_mul_hi_u32 v17, v11, v17
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v16
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v19
-; GISEL-NEXT:    v_mul_lo_u32 v16, v6, v12
-; GISEL-NEXT:    v_mul_lo_u32 v19, v8, v12
-; GISEL-NEXT:    v_mul_hi_u32 v22, v6, v12
-; GISEL-NEXT:    v_mul_hi_u32 v12, v8, v12
-; GISEL-NEXT:    v_mul_lo_u32 v23, v7, v13
-; GISEL-NEXT:    v_mul_lo_u32 v24, v11, v13
-; GISEL-NEXT:    v_mul_hi_u32 v25, v7, v13
+; GISEL-NEXT:    v_add_i32_e64 v16, s[4:5], v6, v16
+; GISEL-NEXT:    v_mul_lo_u32 v6, v12, v16
+; GISEL-NEXT:    v_add_i32_e64 v6, s[4:5], v15, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v6, s[4:5], v6, v18
+; GISEL-NEXT:    v_mul_lo_u32 v6, v8, v16
+; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v15, s[4:5], v15, v18
+; GISEL-NEXT:    v_mul_hi_u32 v18, v12, v16
+; GISEL-NEXT:    v_add_i32_e64 v6, s[4:5], v6, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v18, s[4:5], v6, v18
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v14, s[4:5], v14, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v6
+; GISEL-NEXT:    v_mul_lo_u32 v6, v11, v13
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v17
+; GISEL-NEXT:    v_mul_hi_u32 v17, v7, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v6, v17
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v20, vcc, v20, v6
+; GISEL-NEXT:    v_and_b32_e32 v6, 0xffffff, v0
+; GISEL-NEXT:    v_and_b32_e32 v0, 0xffffff, v2
+; GISEL-NEXT:    v_mul_hi_u32 v2, v8, v16
 ; GISEL-NEXT:    v_mul_hi_u32 v13, v11, v13
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v16
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v18, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v19, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v18, v23
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v24, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v24, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v22
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v18, v21
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v25
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v16, v15
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v19, v20
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v23, v18
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v24, v21
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v15
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v18
+; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v19
 ; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v16, v15
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v19, v18
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v15
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v16
+; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v20, v18
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v14
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v14
-; GISEL-NEXT:    v_addc_u32_e32 v8, vcc, v8, v12, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v12, v4, v6
-; GISEL-NEXT:    v_mul_lo_u32 v5, v5, v6
-; GISEL-NEXT:    v_mul_hi_u32 v14, v4, v6
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v15
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v8, v2, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v8, v4, v12
+; GISEL-NEXT:    v_mul_lo_u32 v5, v5, v12
+; GISEL-NEXT:    v_mul_hi_u32 v14, v4, v12
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v17
 ; GISEL-NEXT:    v_addc_u32_e32 v11, vcc, v11, v13, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v13, v9, v7
 ; GISEL-NEXT:    v_mul_lo_u32 v10, v10, v7
 ; GISEL-NEXT:    v_mul_hi_u32 v15, v9, v7
-; GISEL-NEXT:    v_mul_lo_u32 v4, v4, v8
-; GISEL-NEXT:    v_mul_lo_u32 v16, v8, v12
-; GISEL-NEXT:    v_mul_hi_u32 v17, v6, v12
-; GISEL-NEXT:    v_mul_hi_u32 v12, v8, v12
+; GISEL-NEXT:    v_mul_lo_u32 v4, v4, v2
+; GISEL-NEXT:    v_mul_lo_u32 v16, v2, v8
+; GISEL-NEXT:    v_mul_hi_u32 v17, v12, v8
+; GISEL-NEXT:    v_mul_hi_u32 v8, v2, v8
 ; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v11
 ; GISEL-NEXT:    v_mul_lo_u32 v18, v11, v13
 ; GISEL-NEXT:    v_mul_hi_u32 v19, v7, v13
@@ -2007,140 +2007,140 @@ define <2 x i64> @v_udiv_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v10, v9
 ; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v14
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v15
-; GISEL-NEXT:    v_mul_lo_u32 v9, v6, v4
-; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v4
-; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v4
-; GISEL-NEXT:    v_mul_hi_u32 v4, v8, v4
+; GISEL-NEXT:    v_mul_lo_u32 v9, v12, v4
+; GISEL-NEXT:    v_mul_lo_u32 v10, v2, v4
+; GISEL-NEXT:    v_mul_hi_u32 v14, v12, v4
+; GISEL-NEXT:    v_mul_hi_u32 v4, v2, v4
 ; GISEL-NEXT:    v_mul_lo_u32 v15, v7, v5
-; GISEL-NEXT:    v_mul_lo_u32 v20, v11, v5
-; GISEL-NEXT:    v_mul_hi_u32 v21, v7, v5
-; GISEL-NEXT:    v_mul_hi_u32 v5, v11, v5
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v16, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v18, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v20, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v21
+; GISEL-NEXT:    v_mul_lo_u32 v15, v11, v5
+; GISEL-NEXT:    v_mul_hi_u32 v19, v7, v5
+; GISEL-NEXT:    v_mul_hi_u32 v5, v11, v5
+; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v16, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v8, s[4:5], v10, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v13, s[4:5], v15, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v9, v17
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v8, s[4:5], v8, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[4:5]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v19
+; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v16, v9
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v18, v15
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v20, v17
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v14
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v18, v17
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v19
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v12, v10
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v15, v14
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v10
-; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v12
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v9
-; GISEL-NEXT:    v_addc_u32_e32 v4, vcc, v8, v4, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v8, 0, v6
-; GISEL-NEXT:    v_mul_hi_u32 v9, v3, v6
-; GISEL-NEXT:    v_mul_hi_u32 v6, 0, v6
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v15, v14
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v10
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v12, v8
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v2, v4, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v4, 0, v8
+; GISEL-NEXT:    v_mul_hi_u32 v9, v6, v8
+; GISEL-NEXT:    v_mul_hi_u32 v8, 0, v8
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v13
 ; GISEL-NEXT:    v_addc_u32_e32 v5, vcc, v11, v5, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v10, 0, v7
-; GISEL-NEXT:    v_mul_hi_u32 v11, v2, v7
+; GISEL-NEXT:    v_mul_hi_u32 v11, v0, v7
 ; GISEL-NEXT:    v_mul_hi_u32 v7, 0, v7
-; GISEL-NEXT:    v_mul_lo_u32 v12, v3, v4
-; GISEL-NEXT:    v_mul_lo_u32 v13, 0, v4
-; GISEL-NEXT:    v_mul_hi_u32 v14, v3, v4
-; GISEL-NEXT:    v_mul_hi_u32 v4, 0, v4
-; GISEL-NEXT:    v_mul_lo_u32 v15, v2, v5
+; GISEL-NEXT:    v_mul_lo_u32 v12, v6, v2
+; GISEL-NEXT:    v_mul_lo_u32 v13, 0, v2
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v2
+; GISEL-NEXT:    v_mul_hi_u32 v2, 0, v2
+; GISEL-NEXT:    v_mul_lo_u32 v15, v0, v5
 ; GISEL-NEXT:    v_mul_lo_u32 v16, 0, v5
-; GISEL-NEXT:    v_mul_hi_u32 v17, v2, v5
+; GISEL-NEXT:    v_mul_hi_u32 v17, v0, v5
 ; GISEL-NEXT:    v_mul_hi_u32 v5, 0, v5
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v12
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v13, v6
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v12
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v13, v8
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v15
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v16, v7
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v14
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v17
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v8
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v8, v4
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
-; GISEL-NEXT:    v_mul_lo_u32 v9, v1, v6
-; GISEL-NEXT:    v_mul_lo_u32 v12, 0, v6
-; GISEL-NEXT:    v_mul_hi_u32 v13, v1, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, v3, v4
+; GISEL-NEXT:    v_mul_lo_u32 v12, 0, v4
+; GISEL-NEXT:    v_mul_hi_u32 v13, v3, v4
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
-; GISEL-NEXT:    v_mul_lo_u32 v11, v0, v7
+; GISEL-NEXT:    v_mul_lo_u32 v11, v1, v7
 ; GISEL-NEXT:    v_mul_lo_u32 v14, 0, v7
-; GISEL-NEXT:    v_mul_hi_u32 v15, v0, v7
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v8
+; GISEL-NEXT:    v_mul_hi_u32 v15, v1, v7
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v2, v8
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v10
-; GISEL-NEXT:    v_mul_lo_u32 v8, v1, v4
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, 1, v6
-; GISEL-NEXT:    v_addc_u32_e32 v16, vcc, 0, v4, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v17, v0, v5
+; GISEL-NEXT:    v_mul_lo_u32 v2, v3, v8
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, 1, v4
+; GISEL-NEXT:    v_addc_u32_e32 v16, vcc, 0, v8, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v17, v1, v5
 ; GISEL-NEXT:    v_add_i32_e32 v18, vcc, 1, v7
 ; GISEL-NEXT:    v_addc_u32_e32 v19, vcc, 0, v5, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v12, v8
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, 1, v10
-; GISEL-NEXT:    v_addc_u32_e32 v20, vcc, 0, v16, vcc
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v17
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, 1, v18
-; GISEL-NEXT:    v_addc_u32_e32 v21, vcc, 0, v19, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v13
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v15
-; GISEL-NEXT:    v_sub_i32_e32 v3, vcc, v3, v9
-; GISEL-NEXT:    v_subb_u32_e64 v9, s[4:5], 0, v8, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v8, s[4:5], 0, v8
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v3, v1
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e64 v2, s[4:5], v2, v11
-; GISEL-NEXT:    v_subb_u32_e64 v11, s[6:7], 0, v13, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e64 v13, s[6:7], 0, v13
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v2, v0
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v12, v2
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v14, v17
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, 1, v10
+; GISEL-NEXT:    v_addc_u32_e32 v17, vcc, 0, v16, vcc
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v13
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v15
+; GISEL-NEXT:    v_sub_i32_e32 v6, vcc, v6, v9
+; GISEL-NEXT:    v_subb_u32_e64 v9, s[4:5], 0, v2, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v6, v3
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, -1, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v0, s[4:5], v0, v11
+; GISEL-NEXT:    v_subb_u32_e64 v11, s[6:7], 0, v12, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v0, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, -1, s[6:7]
 ; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], 0, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, -1, v14, s[6:7]
-; GISEL-NEXT:    v_subbrev_u32_e32 v8, vcc, 0, v8, vcc
-; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v11
-; GISEL-NEXT:    v_cndmask_b32_e32 v11, -1, v15, vcc
-; GISEL-NEXT:    v_subbrev_u32_e64 v13, vcc, 0, v13, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e32 v3, vcc, v3, v1
-; GISEL-NEXT:    v_subbrev_u32_e32 v8, vcc, 0, v8, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v3, v1
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, -1, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v0
-; GISEL-NEXT:    v_subbrev_u32_e32 v3, vcc, 0, v13, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v0
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[8:9], 0, v11
+; GISEL-NEXT:    v_add_i32_e64 v9, s[10:11], 1, v18
+; GISEL-NEXT:    v_addc_u32_e64 v11, s[10:11], 0, v19, s[10:11]
+; GISEL-NEXT:    v_sub_i32_e64 v2, s[10:11], 0, v2
+; GISEL-NEXT:    v_sub_i32_e64 v12, s[10:11], 0, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, -1, v13, s[6:7]
+; GISEL-NEXT:    v_subbrev_u32_e32 v2, vcc, 0, v2, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, -1, v15, s[8:9]
+; GISEL-NEXT:    v_subbrev_u32_e64 v12, vcc, 0, v12, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e32 v6, vcc, v6, v3
+; GISEL-NEXT:    v_subbrev_u32_e32 v2, vcc, 0, v2, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v6, v3
+; GISEL-NEXT:    v_cndmask_b32_e64 v3, 0, -1, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v1
+; GISEL-NEXT:    v_subbrev_u32_e32 v6, vcc, 0, v12, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v0, v1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, -1, vcc
-; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v8
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, -1, v1, vcc
-; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v3
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v2
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, -1, v3, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v6
 ; GISEL-NEXT:    v_cndmask_b32_e32 v0, -1, v0, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v1
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v10, v12, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v10, v14, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, v18, v17, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e32 v3, v16, v20, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v9
-; GISEL-NEXT:    v_cndmask_b32_e32 v0, v6, v1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v6, v19, v21, s[4:5]
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v2, v18, v9, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v16, v17, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v4, v1, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v4, v19, v11, s[4:5]
+; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, v7, v2, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v4, v3, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v5, v6, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v8, v3, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v3, v5, v4, s[4:5]
 ; GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; CGP-LABEL: v_udiv_v2i64_24bit:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll
index ffebde52df4a3..e3c1a52696b47 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/udivrem.ll
@@ -1087,95 +1087,95 @@ define amdgpu_kernel void @udivrem_v2i64(ptr addrspace(1) %out0, ptr addrspace(1
 ; GFX8-NEXT:    v_cmp_eq_u32_e64 s[0:1], s13, v0
 ; GFX8-NEXT:    v_cndmask_b32_e64 v9, v2, v3, s[0:1]
 ; GFX8-NEXT:    v_cvt_f32_u32_e32 v2, s15
+; GFX8-NEXT:    v_cvt_f32_u32_e32 v3, s14
 ; GFX8-NEXT:    v_subb_u32_e32 v5, vcc, v1, v4, vcc
-; GFX8-NEXT:    v_cvt_f32_u32_e32 v1, s14
-; GFX8-NEXT:    v_mul_f32_e32 v2, 0x4f800000, v2
-; GFX8-NEXT:    v_subrev_u32_e32 v10, vcc, s12, v8
-; GFX8-NEXT:    v_add_f32_e32 v1, v2, v1
+; GFX8-NEXT:    v_mul_f32_e32 v1, 0x4f800000, v2
+; GFX8-NEXT:    v_add_f32_e32 v1, v1, v3
 ; GFX8-NEXT:    v_rcp_iflag_f32_e32 v1, v1
+; GFX8-NEXT:    v_subrev_u32_e32 v10, vcc, s12, v8
 ; GFX8-NEXT:    v_subbrev_u32_e64 v11, s[0:1], 0, v5, vcc
-; GFX8-NEXT:    v_add_u32_e64 v12, s[0:1], 1, v6
 ; GFX8-NEXT:    v_mul_f32_e32 v1, 0x5f7ffffc, v1
 ; GFX8-NEXT:    v_mul_f32_e32 v2, 0x2f800000, v1
-; GFX8-NEXT:    v_trunc_f32_e32 v14, v2
-; GFX8-NEXT:    v_mul_f32_e32 v2, 0xcf800000, v14
+; GFX8-NEXT:    v_trunc_f32_e32 v3, v2
+; GFX8-NEXT:    v_mul_f32_e32 v2, 0xcf800000, v3
 ; GFX8-NEXT:    v_add_f32_e32 v1, v2, v1
-; GFX8-NEXT:    v_cvt_u32_f32_e32 v15, v1
-; GFX8-NEXT:    v_addc_u32_e64 v13, s[0:1], 0, v7, s[0:1]
+; GFX8-NEXT:    v_cvt_u32_f32_e32 v12, v1
+; GFX8-NEXT:    v_add_u32_e64 v13, s[0:1], 1, v6
+; GFX8-NEXT:    v_addc_u32_e64 v14, s[0:1], 0, v7, s[0:1]
+; GFX8-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s2, v12, 0
+; GFX8-NEXT:    v_cvt_u32_f32_e32 v15, v3
 ; GFX8-NEXT:    v_cmp_le_u32_e64 s[0:1], s13, v11
-; GFX8-NEXT:    v_cndmask_b32_e64 v3, 0, -1, s[0:1]
-; GFX8-NEXT:    v_cmp_le_u32_e64 s[0:1], s12, v10
 ; GFX8-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[0:1]
-; GFX8-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s2, v15, 0
-; GFX8-NEXT:    v_cvt_u32_f32_e32 v14, v14
+; GFX8-NEXT:    v_subb_u32_e32 v4, vcc, v5, v4, vcc
+; GFX8-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s2, v15, v[2:3]
+; GFX8-NEXT:    v_cmp_le_u32_e64 s[0:1], s12, v10
+; GFX8-NEXT:    v_cndmask_b32_e64 v17, 0, -1, s[0:1]
+; GFX8-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s3, v12, v[2:3]
 ; GFX8-NEXT:    v_cmp_eq_u32_e64 s[0:1], s13, v11
-; GFX8-NEXT:    v_cndmask_b32_e64 v16, v3, v16, s[0:1]
-; GFX8-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s2, v14, v[2:3]
-; GFX8-NEXT:    v_add_u32_e64 v17, s[0:1], 1, v12
-; GFX8-NEXT:    v_addc_u32_e64 v18, s[0:1], 0, v13, s[0:1]
-; GFX8-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s3, v15, v[2:3]
-; GFX8-NEXT:    v_subb_u32_e32 v3, vcc, v5, v4, vcc
-; GFX8-NEXT:    v_mul_lo_u32 v4, v14, v1
-; GFX8-NEXT:    v_mul_lo_u32 v5, v15, v2
-; GFX8-NEXT:    v_subrev_u32_e32 v19, vcc, s12, v10
-; GFX8-NEXT:    v_subbrev_u32_e32 v20, vcc, 0, v3, vcc
-; GFX8-NEXT:    v_mul_hi_u32 v3, v15, v1
-; GFX8-NEXT:    v_add_u32_e32 v4, vcc, v4, v5
-; GFX8-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
-; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v4, v3
+; GFX8-NEXT:    v_cndmask_b32_e64 v16, v16, v17, s[0:1]
+; GFX8-NEXT:    v_mul_lo_u32 v3, v15, v1
+; GFX8-NEXT:    v_mul_lo_u32 v17, v12, v2
+; GFX8-NEXT:    v_mul_hi_u32 v5, v12, v1
+; GFX8-NEXT:    v_mul_hi_u32 v1, v15, v1
+; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v3, v17
+; GFX8-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
+; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v3, v5
 ; GFX8-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GFX8-NEXT:    v_mul_lo_u32 v4, v14, v2
-; GFX8-NEXT:    v_mul_hi_u32 v1, v14, v1
-; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v5, v3
-; GFX8-NEXT:    v_mul_hi_u32 v5, v15, v2
-; GFX8-NEXT:    v_add_u32_e32 v1, vcc, v4, v1
-; GFX8-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
-; GFX8-NEXT:    v_add_u32_e32 v1, vcc, v1, v5
+; GFX8-NEXT:    v_mul_lo_u32 v5, v15, v2
+; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v17, v3
+; GFX8-NEXT:    v_mul_hi_u32 v17, v12, v2
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, v5, v1
 ; GFX8-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
-; GFX8-NEXT:    v_add_u32_e32 v4, vcc, v4, v5
-; GFX8-NEXT:    v_mul_hi_u32 v2, v14, v2
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, v1, v17
+; GFX8-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
+; GFX8-NEXT:    v_add_u32_e32 v5, vcc, v5, v17
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 1, v13
+; GFX8-NEXT:    v_addc_u32_e32 v18, vcc, 0, v14, vcc
+; GFX8-NEXT:    v_subrev_u32_e32 v19, vcc, s12, v10
+; GFX8-NEXT:    v_mul_hi_u32 v2, v15, v2
+; GFX8-NEXT:    v_subbrev_u32_e32 v20, vcc, 0, v4, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v1, vcc, v1, v3
 ; GFX8-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v4, v3
+; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v5, v3
 ; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v2, v3
-; GFX8-NEXT:    v_add_u32_e32 v15, vcc, v15, v1
-; GFX8-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], s2, v15, 0
-; GFX8-NEXT:    v_addc_u32_e32 v14, vcc, v14, v2, vcc
+; GFX8-NEXT:    v_add_u32_e32 v12, vcc, v12, v1
+; GFX8-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], s2, v12, 0
+; GFX8-NEXT:    v_addc_u32_e32 v15, vcc, v15, v2, vcc
 ; GFX8-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v16
-; GFX8-NEXT:    v_cndmask_b32_e32 v2, v12, v17, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v2, v13, v17, vcc
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v4
-; GFX8-NEXT:    v_mad_u64_u32 v[4:5], s[0:1], s2, v14, v[1:2]
-; GFX8-NEXT:    v_cndmask_b32_e32 v12, v13, v18, vcc
+; GFX8-NEXT:    v_mad_u64_u32 v[4:5], s[0:1], s2, v15, v[1:2]
+; GFX8-NEXT:    v_cndmask_b32_e32 v13, v14, v18, vcc
 ; GFX8-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v9
-; GFX8-NEXT:    v_mad_u64_u32 v[4:5], s[2:3], s3, v15, v[4:5]
+; GFX8-NEXT:    v_mad_u64_u32 v[4:5], s[2:3], s3, v12, v[4:5]
 ; GFX8-NEXT:    v_cndmask_b32_e64 v1, v6, v2, s[0:1]
-; GFX8-NEXT:    v_cndmask_b32_e64 v2, v7, v12, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e64 v2, v7, v13, s[0:1]
 ; GFX8-NEXT:    v_cndmask_b32_e32 v5, v10, v19, vcc
-; GFX8-NEXT:    v_mul_lo_u32 v7, v14, v3
-; GFX8-NEXT:    v_mul_lo_u32 v9, v15, v4
+; GFX8-NEXT:    v_mul_lo_u32 v7, v15, v3
+; GFX8-NEXT:    v_mul_lo_u32 v9, v12, v4
 ; GFX8-NEXT:    v_cndmask_b32_e64 v5, v8, v5, s[0:1]
-; GFX8-NEXT:    v_mul_hi_u32 v8, v15, v3
+; GFX8-NEXT:    v_mul_hi_u32 v8, v12, v3
 ; GFX8-NEXT:    v_cndmask_b32_e32 v6, v11, v20, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v7, vcc, v7, v9
 ; GFX8-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v7, vcc, v7, v8
 ; GFX8-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; GFX8-NEXT:    v_mul_lo_u32 v8, v14, v4
-; GFX8-NEXT:    v_mul_hi_u32 v3, v14, v3
+; GFX8-NEXT:    v_mul_lo_u32 v8, v15, v4
+; GFX8-NEXT:    v_mul_hi_u32 v3, v15, v3
 ; GFX8-NEXT:    v_add_u32_e32 v7, vcc, v9, v7
-; GFX8-NEXT:    v_mul_hi_u32 v9, v15, v4
+; GFX8-NEXT:    v_mul_hi_u32 v9, v12, v4
 ; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v8, v3
 ; GFX8-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v3, v9
 ; GFX8-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v8, vcc, v8, v9
-; GFX8-NEXT:    v_mul_hi_u32 v4, v14, v4
+; GFX8-NEXT:    v_mul_hi_u32 v4, v15, v4
 ; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v3, v7
 ; GFX8-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v7, vcc, v8, v7
 ; GFX8-NEXT:    v_add_u32_e32 v4, vcc, v4, v7
-; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v15, v3
-; GFX8-NEXT:    v_addc_u32_e32 v4, vcc, v14, v4, vcc
+; GFX8-NEXT:    v_add_u32_e32 v3, vcc, v12, v3
+; GFX8-NEXT:    v_addc_u32_e32 v4, vcc, v15, v4, vcc
 ; GFX8-NEXT:    v_mul_lo_u32 v7, s11, v3
 ; GFX8-NEXT:    v_mul_lo_u32 v8, s10, v4
 ; GFX8-NEXT:    v_cndmask_b32_e64 v6, v0, v6, s[0:1]
@@ -1216,27 +1216,27 @@ define amdgpu_kernel void @udivrem_v2i64(ptr addrspace(1) %out0, ptr addrspace(1
 ; GFX8-NEXT:    v_cndmask_b32_e64 v4, v4, v7, s[0:1]
 ; GFX8-NEXT:    v_subrev_u32_e32 v7, vcc, s14, v8
 ; GFX8-NEXT:    v_subbrev_u32_e64 v12, s[0:1], 0, v3, vcc
-; GFX8-NEXT:    v_add_u32_e64 v13, s[0:1], 1, v9
-; GFX8-NEXT:    v_addc_u32_e64 v14, s[0:1], 0, v10, s[0:1]
 ; GFX8-NEXT:    v_cmp_le_u32_e64 s[0:1], s15, v12
-; GFX8-NEXT:    v_cndmask_b32_e64 v15, 0, -1, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e64 v13, 0, -1, s[0:1]
 ; GFX8-NEXT:    v_cmp_le_u32_e64 s[0:1], s14, v7
-; GFX8-NEXT:    v_subb_u32_e32 v0, vcc, v3, v0, vcc
-; GFX8-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[0:1]
 ; GFX8-NEXT:    v_cmp_eq_u32_e64 s[0:1], s15, v12
-; GFX8-NEXT:    v_subrev_u32_e32 v18, vcc, s14, v7
-; GFX8-NEXT:    v_cndmask_b32_e64 v15, v15, v16, s[0:1]
-; GFX8-NEXT:    v_add_u32_e64 v16, s[0:1], 1, v13
-; GFX8-NEXT:    v_subbrev_u32_e32 v0, vcc, 0, v0, vcc
-; GFX8-NEXT:    v_addc_u32_e64 v17, s[0:1], 0, v14, s[0:1]
-; GFX8-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v15
-; GFX8-NEXT:    v_cndmask_b32_e32 v3, v13, v16, vcc
-; GFX8-NEXT:    v_cndmask_b32_e32 v13, v14, v17, vcc
+; GFX8-NEXT:    v_cndmask_b32_e64 v13, v13, v14, s[0:1]
+; GFX8-NEXT:    v_add_u32_e64 v14, s[0:1], 1, v9
+; GFX8-NEXT:    v_subb_u32_e32 v0, vcc, v3, v0, vcc
+; GFX8-NEXT:    v_addc_u32_e64 v15, s[0:1], 0, v10, s[0:1]
+; GFX8-NEXT:    v_add_u32_e32 v3, vcc, 1, v14
+; GFX8-NEXT:    v_addc_u32_e32 v16, vcc, 0, v15, vcc
+; GFX8-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
+; GFX8-NEXT:    v_subrev_u32_e64 v13, s[0:1], s14, v7
+; GFX8-NEXT:    v_subbrev_u32_e64 v0, s[0:1], 0, v0, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e32 v3, v14, v3, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v14, v15, v16, vcc
 ; GFX8-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v4
 ; GFX8-NEXT:    v_cndmask_b32_e64 v3, v9, v3, s[0:1]
-; GFX8-NEXT:    v_cndmask_b32_e64 v4, v10, v13, s[0:1]
+; GFX8-NEXT:    v_cndmask_b32_e64 v4, v10, v14, s[0:1]
 ; GFX8-NEXT:    v_mov_b32_e32 v10, s5
-; GFX8-NEXT:    v_cndmask_b32_e32 v7, v7, v18, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v7, v7, v13, vcc
 ; GFX8-NEXT:    v_cndmask_b32_e32 v0, v12, v0, vcc
 ; GFX8-NEXT:    v_mov_b32_e32 v9, s4
 ; GFX8-NEXT:    v_cndmask_b32_e64 v7, v8, v7, s[0:1]
@@ -1330,182 +1330,181 @@ define amdgpu_kernel void @udivrem_v2i64(ptr addrspace(1) %out0, ptr addrspace(1
 ; GFX9-NEXT:    v_mul_lo_u32 v4, s17, v1
 ; GFX9-NEXT:    v_add_u32_e32 v2, v3, v2
 ; GFX9-NEXT:    v_mul_hi_u32 v3, s16, v1
-; GFX9-NEXT:    v_mov_b32_e32 v6, s5
 ; GFX9-NEXT:    v_add_co_u32_e32 v0, vcc, v4, v0
 ; GFX9-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
 ; GFX9-NEXT:    v_add_co_u32_e32 v0, vcc, v0, v3
 ; GFX9-NEXT:    v_cndmask_b32_e64 v3, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v8, vcc, v0, v2
-; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s4, v8, 0
-; GFX9-NEXT:    v_cndmask_b32_e64 v0, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v7, vcc, v0, v2
+; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[0:1], s4, v7, 0
+; GFX9-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; GFX9-NEXT:    v_add_u32_e32 v3, v4, v3
-; GFX9-NEXT:    v_add3_u32 v9, v3, v0, v5
-; GFX9-NEXT:    v_mov_b32_e32 v0, v2
-; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s4, v9, v[0:1]
-; GFX9-NEXT:    v_mov_b32_e32 v5, s17
-; GFX9-NEXT:    v_mov_b32_e32 v0, 0
-; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], s5, v8, v[2:3]
-; GFX9-NEXT:    v_sub_co_u32_e32 v2, vcc, s16, v1
-; GFX9-NEXT:    v_subb_co_u32_e64 v1, s[0:1], v5, v3, vcc
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s5, v1
+; GFX9-NEXT:    v_add3_u32 v8, v3, v2, v5
+; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s4, v8, v[1:2]
+; GFX9-NEXT:    v_mov_b32_e32 v4, s17
+; GFX9-NEXT:    v_mov_b32_e32 v5, s5
+; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s5, v7, v[1:2]
+; GFX9-NEXT:    v_sub_co_u32_e32 v1, vcc, s16, v0
+; GFX9-NEXT:    v_subb_co_u32_e64 v0, s[0:1], v4, v2, vcc
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s5, v0
+; GFX9-NEXT:    v_cndmask_b32_e64 v3, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s4, v1
 ; GFX9-NEXT:    v_cndmask_b32_e64 v4, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s4, v2
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s5, v1
-; GFX9-NEXT:    v_sub_u32_e32 v3, s17, v3
-; GFX9-NEXT:    v_cndmask_b32_e64 v10, v4, v5, s[0:1]
-; GFX9-NEXT:    v_cvt_f32_u32_e32 v4, s7
-; GFX9-NEXT:    v_subb_co_u32_e32 v7, vcc, v3, v6, vcc
-; GFX9-NEXT:    v_cvt_f32_u32_e32 v3, s6
-; GFX9-NEXT:    v_mul_f32_e32 v4, 0x4f800000, v4
-; GFX9-NEXT:    v_subrev_co_u32_e32 v11, vcc, s4, v2
-; GFX9-NEXT:    v_add_f32_e32 v3, v4, v3
-; GFX9-NEXT:    v_rcp_iflag_f32_e32 v3, v3
-; GFX9-NEXT:    v_subbrev_co_u32_e64 v12, s[0:1], 0, v7, vcc
-; GFX9-NEXT:    v_add_co_u32_e64 v13, s[0:1], 1, v8
-; GFX9-NEXT:    v_mul_f32_e32 v3, 0x5f7ffffc, v3
-; GFX9-NEXT:    v_mul_f32_e32 v4, 0x2f800000, v3
-; GFX9-NEXT:    v_trunc_f32_e32 v15, v4
-; GFX9-NEXT:    v_mul_f32_e32 v4, 0xcf800000, v15
-; GFX9-NEXT:    v_add_f32_e32 v3, v4, v3
-; GFX9-NEXT:    v_cvt_u32_f32_e32 v16, v3
-; GFX9-NEXT:    v_addc_co_u32_e64 v14, s[0:1], 0, v9, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s5, v12
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s4, v11
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s5, v0
+; GFX9-NEXT:    v_cndmask_b32_e64 v9, v3, v4, s[0:1]
+; GFX9-NEXT:    v_cvt_f32_u32_e32 v3, s7
+; GFX9-NEXT:    v_cvt_f32_u32_e32 v4, s6
+; GFX9-NEXT:    v_sub_u32_e32 v2, s17, v2
+; GFX9-NEXT:    v_subb_co_u32_e32 v6, vcc, v2, v5, vcc
+; GFX9-NEXT:    v_mul_f32_e32 v2, 0x4f800000, v3
+; GFX9-NEXT:    v_add_f32_e32 v2, v2, v4
+; GFX9-NEXT:    v_rcp_iflag_f32_e32 v2, v2
+; GFX9-NEXT:    v_subrev_co_u32_e32 v10, vcc, s4, v1
+; GFX9-NEXT:    v_subbrev_co_u32_e64 v11, s[0:1], 0, v6, vcc
+; GFX9-NEXT:    v_mul_f32_e32 v2, 0x5f7ffffc, v2
+; GFX9-NEXT:    v_mul_f32_e32 v3, 0x2f800000, v2
+; GFX9-NEXT:    v_trunc_f32_e32 v4, v3
+; GFX9-NEXT:    v_mul_f32_e32 v3, 0xcf800000, v4
+; GFX9-NEXT:    v_add_f32_e32 v2, v3, v2
+; GFX9-NEXT:    v_cvt_u32_f32_e32 v12, v2
+; GFX9-NEXT:    v_add_co_u32_e64 v13, s[0:1], 1, v7
+; GFX9-NEXT:    v_addc_co_u32_e64 v14, s[0:1], 0, v8, s[0:1]
+; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], s2, v12, 0
+; GFX9-NEXT:    v_cvt_u32_f32_e32 v15, v4
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s5, v11
+; GFX9-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[0:1]
+; GFX9-NEXT:    v_subb_co_u32_e32 v5, vcc, v6, v5, vcc
+; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], s2, v15, v[3:4]
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s4, v10
 ; GFX9-NEXT:    v_cndmask_b32_e64 v17, 0, -1, s[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], s2, v16, 0
-; GFX9-NEXT:    v_cvt_u32_f32_e32 v15, v15
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s5, v12
-; GFX9-NEXT:    v_cndmask_b32_e64 v17, v5, v17, s[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[4:5], s[0:1], s2, v15, v[4:5]
-; GFX9-NEXT:    v_add_co_u32_e64 v18, s[0:1], 1, v13
-; GFX9-NEXT:    v_addc_co_u32_e64 v19, s[0:1], 0, v14, s[0:1]
-; GFX9-NEXT:    v_mad_u64_u32 v[4:5], s[0:1], s3, v16, v[4:5]
-; GFX9-NEXT:    v_subb_co_u32_e32 v5, vcc, v7, v6, vcc
+; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], s3, v12, v[3:4]
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s5, v11
+; GFX9-NEXT:    v_cndmask_b32_e64 v16, v16, v17, s[0:1]
+; GFX9-NEXT:    v_mul_lo_u32 v4, v15, v2
+; GFX9-NEXT:    v_mul_lo_u32 v17, v12, v3
+; GFX9-NEXT:    v_mul_hi_u32 v6, v12, v2
+; GFX9-NEXT:    v_mul_hi_u32 v2, v15, v2
+; GFX9-NEXT:    v_add_co_u32_e32 v4, vcc, v4, v17
+; GFX9-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v4, vcc, v4, v6
+; GFX9-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
 ; GFX9-NEXT:    v_mul_lo_u32 v6, v15, v3
-; GFX9-NEXT:    v_mul_lo_u32 v7, v16, v4
-; GFX9-NEXT:    v_subrev_co_u32_e32 v20, vcc, s4, v11
-; GFX9-NEXT:    v_subbrev_co_u32_e32 v21, vcc, 0, v5, vcc
-; GFX9-NEXT:    v_mul_hi_u32 v5, v16, v3
-; GFX9-NEXT:    v_add_co_u32_e32 v6, vcc, v6, v7
-; GFX9-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v6, v5
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
-; GFX9-NEXT:    v_mul_lo_u32 v6, v15, v4
+; GFX9-NEXT:    v_add_u32_e32 v4, v17, v4
+; GFX9-NEXT:    v_mul_hi_u32 v17, v12, v3
 ; GFX9-NEXT:    v_mul_hi_u32 v3, v15, v3
-; GFX9-NEXT:    v_add_u32_e32 v5, v7, v5
-; GFX9-NEXT:    v_mul_hi_u32 v7, v16, v4
-; GFX9-NEXT:    v_mul_hi_u32 v4, v15, v4
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v6, v3
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v6, v2
 ; GFX9-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v3, v7
-; GFX9-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v3, vcc, v3, v5
-; GFX9-NEXT:    v_add_u32_e32 v6, v6, v7
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v16, vcc, v16, v3
-; GFX9-NEXT:    v_add3_u32 v4, v6, v5, v4
-; GFX9-NEXT:    v_mad_u64_u32 v[5:6], s[0:1], s2, v16, 0
-; GFX9-NEXT:    v_addc_co_u32_e32 v15, vcc, v15, v4, vcc
-; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v17
-; GFX9-NEXT:    v_cndmask_b32_e32 v4, v13, v18, vcc
-; GFX9-NEXT:    v_mov_b32_e32 v3, v6
-; GFX9-NEXT:    v_mad_u64_u32 v[6:7], s[0:1], s2, v15, v[3:4]
-; GFX9-NEXT:    v_cndmask_b32_e32 v13, v14, v19, vcc
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v10
-; GFX9-NEXT:    v_mad_u64_u32 v[6:7], s[2:3], s3, v16, v[6:7]
-; GFX9-NEXT:    v_cndmask_b32_e64 v3, v8, v4, s[0:1]
-; GFX9-NEXT:    v_cndmask_b32_e64 v4, v9, v13, s[0:1]
-; GFX9-NEXT:    v_mul_lo_u32 v8, v15, v5
-; GFX9-NEXT:    v_mul_lo_u32 v9, v16, v6
-; GFX9-NEXT:    v_cndmask_b32_e32 v7, v11, v20, vcc
-; GFX9-NEXT:    v_mul_hi_u32 v11, v16, v5
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, v12, v21, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v8, vcc, v8, v9
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v8, vcc, v8, v11
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v2, v17
+; GFX9-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
+; GFX9-NEXT:    v_add_u32_e32 v6, v6, v17
+; GFX9-NEXT:    v_add_co_u32_e32 v17, vcc, 1, v13
+; GFX9-NEXT:    v_addc_co_u32_e32 v18, vcc, 0, v14, vcc
+; GFX9-NEXT:    v_subrev_co_u32_e32 v19, vcc, s4, v10
+; GFX9-NEXT:    v_subbrev_co_u32_e32 v20, vcc, 0, v5, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v2, v4
+; GFX9-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v12, vcc, v12, v2
+; GFX9-NEXT:    v_add3_u32 v3, v6, v4, v3
+; GFX9-NEXT:    v_mad_u64_u32 v[4:5], s[0:1], s2, v12, 0
+; GFX9-NEXT:    v_addc_co_u32_e32 v15, vcc, v15, v3, vcc
+; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v16
+; GFX9-NEXT:    v_cndmask_b32_e32 v3, v13, v17, vcc
+; GFX9-NEXT:    v_mov_b32_e32 v2, v5
+; GFX9-NEXT:    v_mad_u64_u32 v[5:6], s[0:1], s2, v15, v[2:3]
+; GFX9-NEXT:    v_cndmask_b32_e32 v13, v14, v18, vcc
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v9
+; GFX9-NEXT:    v_mad_u64_u32 v[5:6], s[2:3], s3, v12, v[5:6]
+; GFX9-NEXT:    v_cndmask_b32_e64 v2, v7, v3, s[0:1]
+; GFX9-NEXT:    v_cndmask_b32_e64 v3, v8, v13, s[0:1]
+; GFX9-NEXT:    v_mul_lo_u32 v7, v15, v4
+; GFX9-NEXT:    v_mul_lo_u32 v8, v12, v5
+; GFX9-NEXT:    v_cndmask_b32_e32 v6, v10, v19, vcc
+; GFX9-NEXT:    v_mul_hi_u32 v10, v12, v4
+; GFX9-NEXT:    v_cndmask_b32_e32 v9, v11, v20, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v7, vcc, v7, v8
 ; GFX9-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GFX9-NEXT:    v_mul_lo_u32 v11, v15, v6
+; GFX9-NEXT:    v_add_co_u32_e32 v7, vcc, v7, v10
+; GFX9-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
+; GFX9-NEXT:    v_mul_lo_u32 v10, v15, v5
+; GFX9-NEXT:    v_mul_hi_u32 v4, v15, v4
+; GFX9-NEXT:    v_add_u32_e32 v7, v8, v7
+; GFX9-NEXT:    v_mul_hi_u32 v8, v12, v5
 ; GFX9-NEXT:    v_mul_hi_u32 v5, v15, v5
-; GFX9-NEXT:    v_add_u32_e32 v8, v9, v8
-; GFX9-NEXT:    v_mul_hi_u32 v9, v16, v6
-; GFX9-NEXT:    v_mul_hi_u32 v6, v15, v6
-; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v11, v5
-; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v5, v9
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v5, v8
-; GFX9-NEXT:    v_add_u32_e32 v9, v11, v9
+; GFX9-NEXT:    v_add_co_u32_e32 v4, vcc, v10, v4
+; GFX9-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v4, vcc, v4, v8
 ; GFX9-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GFX9-NEXT:    v_add3_u32 v6, v9, v8, v6
-; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v16, v5
-; GFX9-NEXT:    v_addc_co_u32_e32 v6, vcc, v15, v6, vcc
-; GFX9-NEXT:    v_mul_lo_u32 v8, s19, v5
-; GFX9-NEXT:    v_mul_lo_u32 v9, s18, v6
-; GFX9-NEXT:    v_cndmask_b32_e64 v7, v2, v7, s[0:1]
-; GFX9-NEXT:    v_mul_hi_u32 v2, s18, v5
-; GFX9-NEXT:    v_mul_hi_u32 v5, s19, v5
-; GFX9-NEXT:    v_add_co_u32_e32 v8, vcc, v8, v9
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v2, vcc, v8, v2
-; GFX9-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; GFX9-NEXT:    v_mul_lo_u32 v8, s19, v6
-; GFX9-NEXT:    v_add_u32_e32 v2, v9, v2
-; GFX9-NEXT:    v_mul_hi_u32 v9, s18, v6
-; GFX9-NEXT:    v_mul_hi_u32 v13, s19, v6
-; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v8, v5
-; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, v5, v9
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GFX9-NEXT:    v_add_co_u32_e32 v12, vcc, v5, v2
-; GFX9-NEXT:    v_mad_u64_u32 v[5:6], s[2:3], s6, v12, 0
-; GFX9-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v8, v1, v10, s[0:1]
-; GFX9-NEXT:    v_add_u32_e32 v1, v11, v9
-; GFX9-NEXT:    v_add3_u32 v9, v1, v2, v13
-; GFX9-NEXT:    v_mov_b32_e32 v1, v6
-; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s6, v9, v[1:2]
-; GFX9-NEXT:    v_mov_b32_e32 v10, s19
-; GFX9-NEXT:    v_mov_b32_e32 v6, s7
-; GFX9-NEXT:    v_mad_u64_u32 v[1:2], s[0:1], s7, v12, v[1:2]
-; GFX9-NEXT:    v_sub_co_u32_e32 v2, vcc, s18, v5
-; GFX9-NEXT:    v_subb_co_u32_e64 v10, s[0:1], v10, v1, vcc
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s7, v10
-; GFX9-NEXT:    v_sub_u32_e32 v1, s19, v1
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s6, v2
-; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s7, v10
-; GFX9-NEXT:    v_subb_co_u32_e32 v1, vcc, v1, v6, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, v5, v11, s[0:1]
-; GFX9-NEXT:    v_subrev_co_u32_e32 v11, vcc, s6, v2
-; GFX9-NEXT:    v_subbrev_co_u32_e64 v13, s[0:1], 0, v1, vcc
-; GFX9-NEXT:    v_add_co_u32_e64 v14, s[0:1], 1, v12
-; GFX9-NEXT:    v_addc_co_u32_e64 v15, s[0:1], 0, v9, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s7, v13
-; GFX9-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s6, v11
-; GFX9-NEXT:    v_subb_co_u32_e32 v1, vcc, v1, v6, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v17, 0, -1, s[0:1]
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s7, v13
-; GFX9-NEXT:    v_subrev_co_u32_e32 v19, vcc, s6, v11
-; GFX9-NEXT:    v_cndmask_b32_e64 v16, v16, v17, s[0:1]
-; GFX9-NEXT:    v_add_co_u32_e64 v17, s[0:1], 1, v14
-; GFX9-NEXT:    v_subbrev_co_u32_e32 v1, vcc, 0, v1, vcc
-; GFX9-NEXT:    v_addc_co_u32_e64 v18, s[0:1], 0, v15, s[0:1]
-; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v16
-; GFX9-NEXT:    v_cndmask_b32_e32 v6, v14, v17, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v14, v15, v18, vcc
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v5
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, v12, v6, s[0:1]
-; GFX9-NEXT:    v_cndmask_b32_e64 v6, v9, v14, s[0:1]
-; GFX9-NEXT:    v_cndmask_b32_e32 v9, v11, v19, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v1, v13, v1, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, v2, v9, s[0:1]
-; GFX9-NEXT:    v_cndmask_b32_e64 v10, v10, v1, s[0:1]
-; GFX9-NEXT:    global_store_dwordx4 v0, v[3:6], s[12:13]
-; GFX9-NEXT:    global_store_dwordx4 v0, v[7:10], s[14:15]
+; GFX9-NEXT:    v_add_co_u32_e32 v4, vcc, v4, v7
+; GFX9-NEXT:    v_add_u32_e32 v8, v10, v8
+; GFX9-NEXT:    v_cndmask_b32_e64 v7, 0, 1, vcc
+; GFX9-NEXT:    v_add3_u32 v5, v8, v7, v5
+; GFX9-NEXT:    v_add_co_u32_e32 v4, vcc, v12, v4
+; GFX9-NEXT:    v_addc_co_u32_e32 v5, vcc, v15, v5, vcc
+; GFX9-NEXT:    v_mul_lo_u32 v7, s19, v4
+; GFX9-NEXT:    v_mul_lo_u32 v8, s18, v5
+; GFX9-NEXT:    v_cndmask_b32_e64 v6, v1, v6, s[0:1]
+; GFX9-NEXT:    v_mul_hi_u32 v1, s18, v4
+; GFX9-NEXT:    v_mul_hi_u32 v4, s19, v4
+; GFX9-NEXT:    v_add_co_u32_e32 v7, vcc, v7, v8
+; GFX9-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v1, vcc, v7, v1
+; GFX9-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
+; GFX9-NEXT:    v_mul_lo_u32 v7, s19, v5
+; GFX9-NEXT:    v_add_u32_e32 v1, v8, v1
+; GFX9-NEXT:    v_mul_hi_u32 v8, s18, v5
+; GFX9-NEXT:    v_mul_hi_u32 v12, s19, v5
+; GFX9-NEXT:    v_add_co_u32_e32 v4, vcc, v7, v4
+; GFX9-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v4, vcc, v4, v8
+; GFX9-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GFX9-NEXT:    v_add_co_u32_e32 v11, vcc, v4, v1
+; GFX9-NEXT:    v_mad_u64_u32 v[4:5], s[2:3], s6, v11, 0
+; GFX9-NEXT:    v_cndmask_b32_e64 v1, 0, 1, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v7, v0, v9, s[0:1]
+; GFX9-NEXT:    v_add_u32_e32 v0, v10, v8
+; GFX9-NEXT:    v_add3_u32 v8, v0, v1, v12
+; GFX9-NEXT:    v_mov_b32_e32 v0, v5
+; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[0:1], s6, v8, v[0:1]
+; GFX9-NEXT:    v_mov_b32_e32 v9, s19
+; GFX9-NEXT:    v_mov_b32_e32 v5, s7
+; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[0:1], s7, v11, v[0:1]
+; GFX9-NEXT:    v_sub_co_u32_e32 v1, vcc, s18, v4
+; GFX9-NEXT:    v_subb_co_u32_e64 v9, s[0:1], v9, v0, vcc
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s7, v9
+; GFX9-NEXT:    v_sub_u32_e32 v0, s19, v0
+; GFX9-NEXT:    v_cndmask_b32_e64 v4, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s6, v1
+; GFX9-NEXT:    v_cndmask_b32_e64 v10, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s7, v9
+; GFX9-NEXT:    v_subb_co_u32_e32 v0, vcc, v0, v5, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v4, v4, v10, s[0:1]
+; GFX9-NEXT:    v_subrev_co_u32_e32 v10, vcc, s6, v1
+; GFX9-NEXT:    v_subbrev_co_u32_e64 v12, s[0:1], 0, v0, vcc
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s7, v12
+; GFX9-NEXT:    v_cndmask_b32_e64 v13, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_le_u32_e64 s[0:1], s6, v10
+; GFX9-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[0:1]
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[0:1], s7, v12
+; GFX9-NEXT:    v_cndmask_b32_e64 v13, v13, v14, s[0:1]
+; GFX9-NEXT:    v_add_co_u32_e64 v14, s[0:1], 1, v11
+; GFX9-NEXT:    v_subb_co_u32_e32 v0, vcc, v0, v5, vcc
+; GFX9-NEXT:    v_addc_co_u32_e64 v15, s[0:1], 0, v8, s[0:1]
+; GFX9-NEXT:    v_add_co_u32_e32 v5, vcc, 1, v14
+; GFX9-NEXT:    v_addc_co_u32_e32 v16, vcc, 0, v15, vcc
+; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v13
+; GFX9-NEXT:    v_cndmask_b32_e32 v5, v14, v5, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v14, v15, v16, vcc
+; GFX9-NEXT:    v_subrev_co_u32_e64 v15, s[0:1], s6, v10
+; GFX9-NEXT:    v_subbrev_co_u32_e64 v0, s[0:1], 0, v0, s[0:1]
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v4
+; GFX9-NEXT:    v_mov_b32_e32 v13, 0
+; GFX9-NEXT:    v_cndmask_b32_e64 v4, v11, v5, s[0:1]
+; GFX9-NEXT:    v_cndmask_b32_e64 v5, v8, v14, s[0:1]
+; GFX9-NEXT:    v_cndmask_b32_e32 v8, v10, v15, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v0, v12, v0, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v8, v1, v8, s[0:1]
+; GFX9-NEXT:    v_cndmask_b32_e64 v9, v9, v0, s[0:1]
+; GFX9-NEXT:    global_store_dwordx4 v13, v[2:5], s[12:13]
+; GFX9-NEXT:    global_store_dwordx4 v13, v[6:9], s[14:15]
 ; GFX9-NEXT:    s_endpgm
 ;
 ; GFX10-LABEL: udivrem_v2i64:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i64.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i64.ll
index faad7e93da5d3..2be4b52198b45 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i64.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/urem.i64.ll
@@ -359,254 +359,254 @@ define <2 x i64> @v_urem_v2i64(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-LABEL: v_urem_v2i64:
 ; GISEL:       ; %bb.0:
 ; GISEL-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v10, v4
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v11, v5
-; GISEL-NEXT:    v_sub_i32_e32 v8, vcc, 0, v4
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v13, v6
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v14, v7
-; GISEL-NEXT:    v_sub_i32_e64 v9, s[4:5], 0, v6
-; GISEL-NEXT:    v_subb_u32_e32 v15, vcc, 0, v5, vcc
-; GISEL-NEXT:    v_subb_u32_e64 v12, vcc, 0, v7, s[4:5]
-; GISEL-NEXT:    v_mac_f32_e32 v10, 0x4f800000, v11
-; GISEL-NEXT:    v_mac_f32_e32 v13, 0x4f800000, v14
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v10, v10
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v11, v13
-; GISEL-NEXT:    v_mul_f32_e32 v10, 0x5f7ffffc, v10
-; GISEL-NEXT:    v_mul_f32_e32 v11, 0x5f7ffffc, v11
-; GISEL-NEXT:    v_mul_f32_e32 v13, 0x2f800000, v10
-; GISEL-NEXT:    v_mul_f32_e32 v14, 0x2f800000, v11
-; GISEL-NEXT:    v_trunc_f32_e32 v13, v13
-; GISEL-NEXT:    v_trunc_f32_e32 v14, v14
-; GISEL-NEXT:    v_mac_f32_e32 v10, 0xcf800000, v13
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v13, v13
-; GISEL-NEXT:    v_mac_f32_e32 v11, 0xcf800000, v14
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v14, v14
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v10, v10
-; GISEL-NEXT:    v_mul_lo_u32 v16, v8, v13
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v11, v11
-; GISEL-NEXT:    v_mul_lo_u32 v17, v9, v14
-; GISEL-NEXT:    v_mul_lo_u32 v18, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v19, v12, v11
-; GISEL-NEXT:    v_mul_hi_u32 v20, v9, v11
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v19, v17
-; GISEL-NEXT:    v_mul_lo_u32 v19, v14, v18
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v11, v17
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v11, v18
-; GISEL-NEXT:    v_add_i32_e64 v19, s[4:5], v19, v20
-; GISEL-NEXT:    v_mul_lo_u32 v19, v8, v10
-; GISEL-NEXT:    v_mul_lo_u32 v20, v15, v10
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v20, v16
-; GISEL-NEXT:    v_mul_hi_u32 v20, v8, v10
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v13, v19
-; GISEL-NEXT:    v_mul_lo_u32 v21, v10, v16
-; GISEL-NEXT:    v_add_i32_e64 v20, s[6:7], v20, v21
-; GISEL-NEXT:    v_mul_hi_u32 v21, v10, v19
-; GISEL-NEXT:    v_add_i32_e64 v20, s[8:9], v20, v21
-; GISEL-NEXT:    v_mul_hi_u32 v19, v13, v19
-; GISEL-NEXT:    v_mul_hi_u32 v18, v14, v18
-; GISEL-NEXT:    v_mul_lo_u32 v20, v13, v16
-; GISEL-NEXT:    v_add_i32_e64 v19, s[10:11], v20, v19
-; GISEL-NEXT:    v_mul_lo_u32 v20, v14, v17
-; GISEL-NEXT:    v_add_i32_e64 v18, s[12:13], v20, v18
-; GISEL-NEXT:    v_mul_hi_u32 v20, v10, v16
-; GISEL-NEXT:    v_add_i32_e64 v19, s[14:15], v19, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v11, v17
-; GISEL-NEXT:    v_add_i32_e64 v18, s[16:17], v18, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v20, s[6:7], v20, v21
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, s[14:15]
-; GISEL-NEXT:    v_add_i32_e64 v21, s[6:7], v21, v22
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v22, vcc, v22, v23
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, s[12:13]
-; GISEL-NEXT:    v_cndmask_b32_e64 v24, 0, 1, s[16:17]
-; GISEL-NEXT:    v_add_i32_e32 v23, vcc, v23, v24
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v20
-; GISEL-NEXT:    v_add_i32_e64 v18, s[4:5], v18, v22
-; GISEL-NEXT:    v_add_i32_e64 v10, s[6:7], v10, v19
-; GISEL-NEXT:    v_mul_hi_u32 v16, v13, v16
-; GISEL-NEXT:    v_mul_hi_u32 v17, v14, v17
-; GISEL-NEXT:    v_add_i32_e64 v11, s[8:9], v11, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v21, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v23, v19
-; GISEL-NEXT:    v_mul_lo_u32 v20, v8, v10
-; GISEL-NEXT:    v_mul_lo_u32 v15, v15, v10
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v18
-; GISEL-NEXT:    v_mul_hi_u32 v18, v8, v10
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v19
-; GISEL-NEXT:    v_mul_lo_u32 v19, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v12, v12, v11
-; GISEL-NEXT:    v_addc_u32_e64 v13, vcc, v13, v16, s[6:7]
-; GISEL-NEXT:    v_mul_hi_u32 v16, v9, v11
-; GISEL-NEXT:    v_addc_u32_e64 v14, vcc, v14, v17, s[8:9]
-; GISEL-NEXT:    v_mul_hi_u32 v17, v10, v20
-; GISEL-NEXT:    v_mul_lo_u32 v8, v8, v13
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v15, v8
-; GISEL-NEXT:    v_mul_hi_u32 v15, v11, v19
-; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v14
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v12, v9
-; GISEL-NEXT:    v_mul_lo_u32 v12, v13, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v13, v20
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v18
-; GISEL-NEXT:    v_mul_lo_u32 v18, v14, v19
-; GISEL-NEXT:    v_mul_hi_u32 v19, v14, v19
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v16
-; GISEL-NEXT:    v_mul_lo_u32 v16, v10, v8
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v8, v4
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v9, v5
+; GISEL-NEXT:    v_mac_f32_e32 v8, 0x4f800000, v9
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v8, v8
+; GISEL-NEXT:    v_mul_f32_e32 v8, 0x5f7ffffc, v8
+; GISEL-NEXT:    v_mul_f32_e32 v9, 0x2f800000, v8
+; GISEL-NEXT:    v_trunc_f32_e32 v9, v9
+; GISEL-NEXT:    v_mac_f32_e32 v8, 0xcf800000, v9
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v8, v8
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v9, v9
+; GISEL-NEXT:    v_sub_i32_e32 v10, vcc, 0, v4
+; GISEL-NEXT:    v_subb_u32_e32 v11, vcc, 0, v5, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v12, v10, v8
+; GISEL-NEXT:    v_mul_lo_u32 v13, v11, v8
+; GISEL-NEXT:    v_mul_lo_u32 v14, v10, v9
+; GISEL-NEXT:    v_mul_hi_u32 v15, v10, v8
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
+; GISEL-NEXT:    v_mul_lo_u32 v14, v9, v12
+; GISEL-NEXT:    v_mul_lo_u32 v15, v8, v13
+; GISEL-NEXT:    v_mul_hi_u32 v16, v8, v12
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v16
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; GISEL-NEXT:    v_mul_lo_u32 v15, v9, v13
+; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v12
+; GISEL-NEXT:    v_mul_hi_u32 v16, v8, v13
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v15, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v16
-; GISEL-NEXT:    v_mul_lo_u32 v16, v13, v8
-; GISEL-NEXT:    v_add_i32_e64 v12, s[4:5], v12, v17
-; GISEL-NEXT:    v_mul_hi_u32 v12, v10, v8
-; GISEL-NEXT:    v_mul_hi_u32 v8, v13, v8
-; GISEL-NEXT:    v_mul_lo_u32 v17, v11, v9
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v14, v9
-; GISEL-NEXT:    v_add_i32_e64 v17, s[8:9], v18, v17
-; GISEL-NEXT:    v_mul_hi_u32 v18, v11, v9
-; GISEL-NEXT:    v_mul_hi_u32 v9, v14, v9
-; GISEL-NEXT:    v_add_i32_e64 v19, s[10:11], v20, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v17, v15
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v12, s[6:7], v16, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[10:11]
-; GISEL-NEXT:    v_add_i32_e64 v18, s[8:9], v19, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e64 v19, s[4:5], v20, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_add_i32_e64 v15, s[4:5], v15, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v20
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v19
-; GISEL-NEXT:    v_add_i32_e64 v17, s[4:5], v18, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v16
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; GISEL-NEXT:    v_mul_hi_u32 v13, v9, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v12
+; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v13, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v12, v10, v8
+; GISEL-NEXT:    v_mul_lo_u32 v11, v11, v8
+; GISEL-NEXT:    v_mul_lo_u32 v13, v10, v9
+; GISEL-NEXT:    v_mul_hi_u32 v10, v10, v8
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v12
+; GISEL-NEXT:    v_mul_lo_u32 v13, v8, v10
+; GISEL-NEXT:    v_mul_hi_u32 v14, v8, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v11
+; GISEL-NEXT:    v_mul_lo_u32 v13, v9, v10
+; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v12
+; GISEL-NEXT:    v_mul_hi_u32 v14, v8, v10
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_hi_u32 v10, v9, v10
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v11
+; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v10, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v1, v8
+; GISEL-NEXT:    v_mul_lo_u32 v11, v0, v9
+; GISEL-NEXT:    v_mul_hi_u32 v12, v0, v8
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
-; GISEL-NEXT:    v_add_i32_e64 v11, s[4:5], v11, v17
-; GISEL-NEXT:    v_add_i32_e64 v12, s[6:7], v15, v18
-; GISEL-NEXT:    v_add_i32_e64 v15, s[6:7], v16, v19
-; GISEL-NEXT:    v_mul_lo_u32 v16, v1, v10
-; GISEL-NEXT:    v_mul_hi_u32 v17, v0, v10
-; GISEL-NEXT:    v_mul_hi_u32 v10, v1, v10
-; GISEL-NEXT:    v_mul_lo_u32 v18, v3, v11
-; GISEL-NEXT:    v_mul_hi_u32 v19, v2, v11
-; GISEL-NEXT:    v_mul_hi_u32 v11, v3, v11
-; GISEL-NEXT:    v_add_i32_e64 v8, s[6:7], v8, v12
-; GISEL-NEXT:    v_add_i32_e64 v9, s[6:7], v9, v15
-; GISEL-NEXT:    v_addc_u32_e32 v8, vcc, v13, v8, vcc
-; GISEL-NEXT:    v_addc_u32_e64 v9, vcc, v14, v9, s[4:5]
-; GISEL-NEXT:    v_mul_lo_u32 v12, v0, v8
-; GISEL-NEXT:    v_mul_lo_u32 v13, v1, v8
-; GISEL-NEXT:    v_mul_hi_u32 v14, v0, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v1, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v8, v1, v8
-; GISEL-NEXT:    v_mul_lo_u32 v15, v2, v9
-; GISEL-NEXT:    v_mul_lo_u32 v20, v3, v9
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v16, v12
-; GISEL-NEXT:    v_mul_hi_u32 v16, v2, v9
-; GISEL-NEXT:    v_mul_hi_u32 v9, v3, v9
-; GISEL-NEXT:    v_add_i32_e64 v10, s[4:5], v13, v10
-; GISEL-NEXT:    v_add_i32_e64 v13, s[6:7], v18, v15
-; GISEL-NEXT:    v_add_i32_e64 v11, s[8:9], v20, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v10, s[4:5], v10, v14
-; GISEL-NEXT:    v_add_i32_e64 v13, s[6:7], v13, v19
-; GISEL-NEXT:    v_add_i32_e64 v11, s[8:9], v11, v16
+; GISEL-NEXT:    v_mul_hi_u32 v12, v0, v9
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v11, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_hi_u32 v9, v1, v9
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_mul_lo_u32 v10, v4, v8
+; GISEL-NEXT:    v_mul_lo_u32 v11, v5, v8
+; GISEL-NEXT:    v_mul_lo_u32 v9, v4, v9
+; GISEL-NEXT:    v_mul_hi_u32 v8, v4, v8
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v11, v9
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v10
+; GISEL-NEXT:    v_subb_u32_e64 v9, s[4:5], v1, v8, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v1, s[4:5], v1, v8
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v9, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v0, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v9, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, v8, v10, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v10, s[4:5], v0, v4
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v5, vcc
+; GISEL-NEXT:    v_subbrev_u32_e64 v11, vcc, 0, v1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v11, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v10, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v11, v5
+; GISEL-NEXT:    v_cndmask_b32_e32 v12, v12, v13, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v4, vcc, v10, v4
+; GISEL-NEXT:    v_subb_u32_e64 v1, s[4:5], v1, v5, s[4:5]
+; GISEL-NEXT:    v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v12
+; GISEL-NEXT:    v_cndmask_b32_e32 v4, v10, v4, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v11, v1, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v8
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v0, v4, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v9, v1, vcc
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v4, v6
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v5, v7
+; GISEL-NEXT:    v_mac_f32_e32 v4, 0x4f800000, v5
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v4, v4
+; GISEL-NEXT:    v_mul_f32_e32 v4, 0x5f7ffffc, v4
+; GISEL-NEXT:    v_mul_f32_e32 v5, 0x2f800000, v4
+; GISEL-NEXT:    v_trunc_f32_e32 v5, v5
+; GISEL-NEXT:    v_mac_f32_e32 v4, 0xcf800000, v5
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v4, v4
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v5, v5
+; GISEL-NEXT:    v_sub_i32_e32 v8, vcc, 0, v6
+; GISEL-NEXT:    v_subb_u32_e32 v9, vcc, 0, v7, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v4
+; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v4
+; GISEL-NEXT:    v_mul_lo_u32 v12, v8, v5
+; GISEL-NEXT:    v_mul_hi_u32 v13, v8, v4
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_mul_lo_u32 v12, v5, v10
+; GISEL-NEXT:    v_mul_lo_u32 v13, v4, v11
+; GISEL-NEXT:    v_mul_hi_u32 v14, v4, v10
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v13
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v15, v13
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v18, v14
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v20, v16
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v13
-; GISEL-NEXT:    v_add_i32_e64 v11, s[4:5], v11, v15
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_lo_u32 v13, v5, v11
+; GISEL-NEXT:    v_mul_hi_u32 v10, v5, v10
+; GISEL-NEXT:    v_mul_hi_u32 v14, v4, v11
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v13, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[4:5]
-; GISEL-NEXT:    v_mul_lo_u32 v16, v4, v10
-; GISEL-NEXT:    v_mul_lo_u32 v17, v5, v10
-; GISEL-NEXT:    v_mul_hi_u32 v10, v4, v10
-; GISEL-NEXT:    v_mul_lo_u32 v18, v6, v11
-; GISEL-NEXT:    v_mul_lo_u32 v19, v7, v11
-; GISEL-NEXT:    v_mul_hi_u32 v11, v6, v11
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v15
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v16
-; GISEL-NEXT:    v_sub_i32_e64 v2, s[4:5], v2, v18
-; GISEL-NEXT:    v_add_i32_e64 v8, s[6:7], v8, v13
-; GISEL-NEXT:    v_add_i32_e64 v9, s[6:7], v9, v12
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v0, v4
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v2, v6
-; GISEL-NEXT:    v_sub_i32_e64 v12, s[10:11], v0, v4
-; GISEL-NEXT:    v_sub_i32_e64 v13, s[12:13], v2, v6
-; GISEL-NEXT:    v_mul_lo_u32 v8, v4, v8
-; GISEL-NEXT:    v_mul_lo_u32 v9, v6, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, -1, s[8:9]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v12, v4
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v13, v6
-; GISEL-NEXT:    v_sub_i32_e64 v4, s[14:15], v12, v4
-; GISEL-NEXT:    v_sub_i32_e64 v6, s[16:17], v13, v6
-; GISEL-NEXT:    v_add_i32_e64 v8, s[18:19], v17, v8
-; GISEL-NEXT:    v_add_i32_e64 v9, s[18:19], v19, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, -1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v8, s[6:7], v8, v10
-; GISEL-NEXT:    v_add_i32_e64 v9, s[6:7], v9, v11
-; GISEL-NEXT:    v_subb_u32_e64 v10, s[6:7], v1, v8, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v1, s[6:7], v1, v8
-; GISEL-NEXT:    v_subb_u32_e64 v8, s[6:7], v3, v9, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e64 v3, s[6:7], v3, v9
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v10, v5
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v5, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v8, v7
-; GISEL-NEXT:    v_subb_u32_e64 v3, s[4:5], v3, v7, s[4:5]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v10, v5
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[8:9], v8, v7
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[6:7]
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_hi_u32 v11, v5, v11
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v10
+; GISEL-NEXT:    v_addc_u32_e32 v5, vcc, v5, v11, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v4
+; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v4
+; GISEL-NEXT:    v_mul_lo_u32 v11, v8, v5
+; GISEL-NEXT:    v_mul_hi_u32 v8, v8, v4
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_lo_u32 v9, v5, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v4, v8
+; GISEL-NEXT:    v_mul_hi_u32 v12, v4, v10
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v11, v9
+; GISEL-NEXT:    v_mul_lo_u32 v11, v5, v8
+; GISEL-NEXT:    v_mul_hi_u32 v10, v5, v10
+; GISEL-NEXT:    v_mul_hi_u32 v12, v4, v8
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_hi_u32 v8, v5, v8
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; GISEL-NEXT:    v_addc_u32_e32 v5, vcc, v5, v8, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v8, v3, v4
+; GISEL-NEXT:    v_mul_lo_u32 v9, v2, v5
+; GISEL-NEXT:    v_mul_hi_u32 v10, v2, v4
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_lo_u32 v9, v3, v5
+; GISEL-NEXT:    v_mul_hi_u32 v4, v3, v4
+; GISEL-NEXT:    v_mul_hi_u32 v10, v2, v5
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v9, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_hi_u32 v5, v3, v5
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v8
+; GISEL-NEXT:    v_mul_lo_u32 v8, v6, v4
+; GISEL-NEXT:    v_mul_lo_u32 v9, v7, v4
+; GISEL-NEXT:    v_mul_lo_u32 v5, v6, v5
+; GISEL-NEXT:    v_mul_hi_u32 v4, v6, v4
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v9, v5
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v5, v4
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v8
+; GISEL-NEXT:    v_subb_u32_e64 v5, s[4:5], v3, v4, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v3, v4
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v5, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v2, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v5, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v4, v4, v8, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v8, s[4:5], v2, v6
+; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v7, vcc
+; GISEL-NEXT:    v_subbrev_u32_e64 v9, vcc, 0, v3, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v9, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v8, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, vcc
-; GISEL-NEXT:    v_subbrev_u32_e64 v18, vcc, 0, v1, s[10:11]
-; GISEL-NEXT:    v_subb_u32_e64 v1, vcc, v1, v5, s[10:11]
-; GISEL-NEXT:    v_subbrev_u32_e64 v19, vcc, 0, v3, s[12:13]
-; GISEL-NEXT:    v_subb_u32_e64 v3, vcc, v3, v7, s[12:13]
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, v9, v14, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, v11, v15, s[8:9]
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v18, v5
-; GISEL-NEXT:    v_subbrev_u32_e64 v1, s[4:5], 0, v1, s[14:15]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v19, v7
-; GISEL-NEXT:    v_subbrev_u32_e64 v3, s[6:7], 0, v3, s[16:17]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], v18, v5
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[8:9], v19, v7
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, -1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v7, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v9
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, v5, v16, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v7, v7, v17, s[8:9]
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[6:7], 0, v5
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[8:9], 0, v7
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, v12, v4, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, v13, v6, s[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, v18, v1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v19, v3, s[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e32 v0, v0, v4, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, v2, v5, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v10, v1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v8, v3, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v9, v7
+; GISEL-NEXT:    v_cndmask_b32_e32 v10, v10, v11, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v6, vcc, v8, v6
+; GISEL-NEXT:    v_subb_u32_e64 v3, s[4:5], v3, v7, s[4:5]
+; GISEL-NEXT:    v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v10
+; GISEL-NEXT:    v_cndmask_b32_e32 v6, v8, v6, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v9, v3, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v4
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v2, v6, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v5, v3, vcc
 ; GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; CGP-LABEL: v_urem_v2i64:
@@ -1103,20 +1103,20 @@ define <2 x i64> @v_urem_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_mac_f32_e32 v6, 0x4f800000, v7
 ; GISEL-NEXT:    v_rcp_iflag_f32_e32 v6, v6
 ; GISEL-NEXT:    s_cmp_lg_u32 s4, 0
-; GISEL-NEXT:    s_subb_u32 s4, 0, 0
+; GISEL-NEXT:    s_subb_u32 s6, 0, 0
 ; GISEL-NEXT:    v_mul_f32_e32 v6, 0x5f7ffffc, v6
 ; GISEL-NEXT:    v_mul_f32_e32 v7, 0x2f800000, v6
 ; GISEL-NEXT:    s_cmp_lg_u32 s5, 0
-; GISEL-NEXT:    s_subb_u32 s5, 0, 0
+; GISEL-NEXT:    s_subb_u32 s7, 0, 0
 ; GISEL-NEXT:    v_trunc_f32_e32 v7, v7
 ; GISEL-NEXT:    v_mac_f32_e32 v6, 0xcf800000, v7
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v7, v7
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v6, v6
 ; GISEL-NEXT:    v_mul_lo_u32 v8, v7, v5
 ; GISEL-NEXT:    v_mul_lo_u32 v9, v6, v5
-; GISEL-NEXT:    v_mul_lo_u32 v10, s4, v6
+; GISEL-NEXT:    v_mul_lo_u32 v10, s6, v6
 ; GISEL-NEXT:    v_mul_hi_u32 v11, v6, v5
-; GISEL-NEXT:    v_mul_lo_u32 v12, s5, v6
+; GISEL-NEXT:    v_mul_lo_u32 v12, s7, v6
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v8
 ; GISEL-NEXT:    v_mul_lo_u32 v13, v7, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v9
@@ -1134,41 +1134,41 @@ define <2 x i64> @v_urem_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_mul_hi_u32 v8, v7, v8
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
 ; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v17, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v15
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e64 v12, s[4:5], v12, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v17, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v11, s[4:5], v11, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v12, s[4:5], v12, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v19, v11
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v20, v15
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v16, v13
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v17, v14
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v16, v15
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v17, v18
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v15, v12
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v15, v14
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
 ; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v13
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v6, v11
 ; GISEL-NEXT:    v_addc_u32_e32 v10, vcc, v7, v10, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v12, v11, v5
-; GISEL-NEXT:    v_mul_lo_u32 v13, s4, v11
+; GISEL-NEXT:    v_mul_lo_u32 v13, s6, v11
 ; GISEL-NEXT:    v_mul_hi_u32 v14, v11, v5
 ; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v9
 ; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, v7, v8, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v8, v6, v5
-; GISEL-NEXT:    v_mul_lo_u32 v9, s5, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, s7, v6
 ; GISEL-NEXT:    v_mul_hi_u32 v15, v6, v5
 ; GISEL-NEXT:    v_mul_lo_u32 v16, v10, v5
 ; GISEL-NEXT:    v_mul_lo_u32 v17, v10, v12
@@ -1176,9 +1176,9 @@ define <2 x i64> @v_urem_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_mul_hi_u32 v12, v10, v12
 ; GISEL-NEXT:    v_mul_lo_u32 v5, v7, v5
 ; GISEL-NEXT:    v_mul_lo_u32 v19, v7, v8
-; GISEL-NEXT:    v_mul_hi_u32 v20, v6, v8
-; GISEL-NEXT:    v_mul_hi_u32 v8, v7, v8
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
+; GISEL-NEXT:    v_mul_hi_u32 v16, v6, v8
+; GISEL-NEXT:    v_mul_hi_u32 v8, v7, v8
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v9, v5
 ; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v13, v14
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v15
@@ -1186,38 +1186,38 @@ define <2 x i64> @v_urem_v2i64_oddk_denom(<2 x i64> %num) {
 ; GISEL-NEXT:    v_mul_lo_u32 v14, v10, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v15, v11, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v9, v10, v9
-; GISEL-NEXT:    v_mul_lo_u32 v16, v6, v5
-; GISEL-NEXT:    v_mul_lo_u32 v21, v7, v5
-; GISEL-NEXT:    v_mul_hi_u32 v22, v6, v5
-; GISEL-NEXT:    v_mul_hi_u32 v5, v7, v5
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v17, v13
 ; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v14, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v19, v16
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v21, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v13, v6, v5
+; GISEL-NEXT:    v_mul_lo_u32 v18, v7, v5
+; GISEL-NEXT:    v_add_i32_e64 v13, s[4:5], v19, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v13, s[4:5], v13, v16
+; GISEL-NEXT:    v_mul_hi_u32 v13, v6, v5
+; GISEL-NEXT:    v_mul_hi_u32 v5, v7, v5
+; GISEL-NEXT:    v_add_i32_e64 v12, s[6:7], v14, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[6:7]
+; GISEL-NEXT:    v_add_i32_e64 v8, s[6:7], v18, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[6:7]
+; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v22
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v17, v13
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v15
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v19, v16
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v21, v18
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v13
+; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v18
+; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v13
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v15
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v19, v18
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v16, v13
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
+; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v16, v15
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v13
-; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v14
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v16
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v14
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v13
 ; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
 ; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v10, v9, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v10, v1, v11
@@ -1675,254 +1675,254 @@ define <2 x i64> @v_urem_v2i64_pow2_shl_denom(<2 x i64> %x, <2 x i64> %y) {
 ; GISEL-NEXT:    v_mov_b32_e32 v10, 0
 ; GISEL-NEXT:    v_lshl_b64 v[7:8], v[9:10], v4
 ; GISEL-NEXT:    v_lshl_b64 v[4:5], v[9:10], v6
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v10, v7
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v11, v8
-; GISEL-NEXT:    v_sub_i32_e32 v6, vcc, 0, v7
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v13, v4
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v14, v5
-; GISEL-NEXT:    v_sub_i32_e64 v9, s[4:5], 0, v4
-; GISEL-NEXT:    v_subb_u32_e32 v15, vcc, 0, v8, vcc
-; GISEL-NEXT:    v_subb_u32_e64 v12, vcc, 0, v5, s[4:5]
-; GISEL-NEXT:    v_mac_f32_e32 v10, 0x4f800000, v11
-; GISEL-NEXT:    v_mac_f32_e32 v13, 0x4f800000, v14
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v10, v10
-; GISEL-NEXT:    v_rcp_iflag_f32_e32 v11, v13
-; GISEL-NEXT:    v_mul_f32_e32 v10, 0x5f7ffffc, v10
-; GISEL-NEXT:    v_mul_f32_e32 v11, 0x5f7ffffc, v11
-; GISEL-NEXT:    v_mul_f32_e32 v13, 0x2f800000, v10
-; GISEL-NEXT:    v_mul_f32_e32 v14, 0x2f800000, v11
-; GISEL-NEXT:    v_trunc_f32_e32 v13, v13
-; GISEL-NEXT:    v_trunc_f32_e32 v14, v14
-; GISEL-NEXT:    v_mac_f32_e32 v10, 0xcf800000, v13
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v13, v13
-; GISEL-NEXT:    v_mac_f32_e32 v11, 0xcf800000, v14
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v14, v14
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v10, v10
-; GISEL-NEXT:    v_mul_lo_u32 v16, v6, v13
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v11, v11
-; GISEL-NEXT:    v_mul_lo_u32 v17, v9, v14
-; GISEL-NEXT:    v_mul_lo_u32 v18, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v19, v12, v11
-; GISEL-NEXT:    v_mul_hi_u32 v20, v9, v11
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v19, v17
-; GISEL-NEXT:    v_mul_lo_u32 v19, v14, v18
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v11, v17
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v11, v18
-; GISEL-NEXT:    v_add_i32_e64 v19, s[4:5], v19, v20
-; GISEL-NEXT:    v_mul_lo_u32 v19, v6, v10
-; GISEL-NEXT:    v_mul_lo_u32 v20, v15, v10
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v20, v16
-; GISEL-NEXT:    v_mul_hi_u32 v20, v6, v10
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v13, v19
-; GISEL-NEXT:    v_mul_lo_u32 v21, v10, v16
-; GISEL-NEXT:    v_add_i32_e64 v20, s[6:7], v20, v21
-; GISEL-NEXT:    v_mul_hi_u32 v21, v10, v19
-; GISEL-NEXT:    v_add_i32_e64 v20, s[8:9], v20, v21
-; GISEL-NEXT:    v_mul_hi_u32 v19, v13, v19
-; GISEL-NEXT:    v_mul_hi_u32 v18, v14, v18
-; GISEL-NEXT:    v_mul_lo_u32 v20, v13, v16
-; GISEL-NEXT:    v_add_i32_e64 v19, s[10:11], v20, v19
-; GISEL-NEXT:    v_mul_lo_u32 v20, v14, v17
-; GISEL-NEXT:    v_add_i32_e64 v18, s[12:13], v20, v18
-; GISEL-NEXT:    v_mul_hi_u32 v20, v10, v16
-; GISEL-NEXT:    v_add_i32_e64 v19, s[14:15], v19, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v11, v17
-; GISEL-NEXT:    v_add_i32_e64 v18, s[16:17], v18, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v20, s[6:7], v20, v21
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, s[14:15]
-; GISEL-NEXT:    v_add_i32_e64 v21, s[6:7], v21, v22
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v22, vcc, v22, v23
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, s[12:13]
-; GISEL-NEXT:    v_cndmask_b32_e64 v24, 0, 1, s[16:17]
-; GISEL-NEXT:    v_add_i32_e32 v23, vcc, v23, v24
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v20
-; GISEL-NEXT:    v_add_i32_e64 v18, s[4:5], v18, v22
-; GISEL-NEXT:    v_add_i32_e64 v10, s[6:7], v10, v19
-; GISEL-NEXT:    v_mul_hi_u32 v16, v13, v16
-; GISEL-NEXT:    v_mul_hi_u32 v17, v14, v17
-; GISEL-NEXT:    v_add_i32_e64 v11, s[8:9], v11, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v21, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v23, v19
-; GISEL-NEXT:    v_mul_lo_u32 v20, v6, v10
-; GISEL-NEXT:    v_mul_lo_u32 v15, v15, v10
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v18
-; GISEL-NEXT:    v_mul_hi_u32 v18, v6, v10
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v19
-; GISEL-NEXT:    v_mul_lo_u32 v19, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v12, v12, v11
-; GISEL-NEXT:    v_addc_u32_e64 v13, vcc, v13, v16, s[6:7]
-; GISEL-NEXT:    v_mul_hi_u32 v16, v9, v11
-; GISEL-NEXT:    v_addc_u32_e64 v14, vcc, v14, v17, s[8:9]
-; GISEL-NEXT:    v_mul_hi_u32 v17, v10, v20
-; GISEL-NEXT:    v_mul_lo_u32 v6, v6, v13
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v15, v6
-; GISEL-NEXT:    v_mul_hi_u32 v15, v11, v19
-; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v14
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v12, v9
-; GISEL-NEXT:    v_mul_lo_u32 v12, v13, v20
-; GISEL-NEXT:    v_mul_hi_u32 v20, v13, v20
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v18
-; GISEL-NEXT:    v_mul_lo_u32 v18, v14, v19
-; GISEL-NEXT:    v_mul_hi_u32 v19, v14, v19
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v16
-; GISEL-NEXT:    v_mul_lo_u32 v16, v10, v6
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v6, v7
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v9, v8
+; GISEL-NEXT:    v_mac_f32_e32 v6, 0x4f800000, v9
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v6, v6
+; GISEL-NEXT:    v_mul_f32_e32 v6, 0x5f7ffffc, v6
+; GISEL-NEXT:    v_mul_f32_e32 v9, 0x2f800000, v6
+; GISEL-NEXT:    v_trunc_f32_e32 v9, v9
+; GISEL-NEXT:    v_mac_f32_e32 v6, 0xcf800000, v9
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v6, v6
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v9, v9
+; GISEL-NEXT:    v_sub_i32_e32 v10, vcc, 0, v7
+; GISEL-NEXT:    v_subb_u32_e32 v11, vcc, 0, v8, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v12, v10, v6
+; GISEL-NEXT:    v_mul_lo_u32 v13, v11, v6
+; GISEL-NEXT:    v_mul_lo_u32 v14, v10, v9
+; GISEL-NEXT:    v_mul_hi_u32 v15, v10, v6
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v15
+; GISEL-NEXT:    v_mul_lo_u32 v14, v9, v12
+; GISEL-NEXT:    v_mul_lo_u32 v15, v6, v13
+; GISEL-NEXT:    v_mul_hi_u32 v16, v6, v12
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v15
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v16
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; GISEL-NEXT:    v_mul_lo_u32 v15, v9, v13
+; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v12
+; GISEL-NEXT:    v_mul_hi_u32 v16, v6, v13
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v15, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v16
-; GISEL-NEXT:    v_mul_lo_u32 v16, v13, v6
-; GISEL-NEXT:    v_add_i32_e64 v12, s[4:5], v12, v17
-; GISEL-NEXT:    v_mul_hi_u32 v12, v10, v6
-; GISEL-NEXT:    v_mul_hi_u32 v6, v13, v6
-; GISEL-NEXT:    v_mul_lo_u32 v17, v11, v9
-; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], v16, v20
-; GISEL-NEXT:    v_mul_lo_u32 v20, v14, v9
-; GISEL-NEXT:    v_add_i32_e64 v17, s[8:9], v18, v17
-; GISEL-NEXT:    v_mul_hi_u32 v18, v11, v9
-; GISEL-NEXT:    v_mul_hi_u32 v9, v14, v9
-; GISEL-NEXT:    v_add_i32_e64 v19, s[10:11], v20, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v17, v15
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v12, s[6:7], v16, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[10:11]
-; GISEL-NEXT:    v_add_i32_e64 v18, s[8:9], v19, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
-; GISEL-NEXT:    v_add_i32_e64 v19, s[4:5], v20, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_add_i32_e64 v15, s[4:5], v15, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v16, v20
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v19
-; GISEL-NEXT:    v_add_i32_e64 v17, s[4:5], v18, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v16
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v15, v14
+; GISEL-NEXT:    v_mul_hi_u32 v13, v9, v13
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v12
+; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v13, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v12, v10, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v11, v6
+; GISEL-NEXT:    v_mul_lo_u32 v13, v10, v9
+; GISEL-NEXT:    v_mul_hi_u32 v10, v10, v6
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v12
+; GISEL-NEXT:    v_mul_lo_u32 v13, v6, v10
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v13, v11
+; GISEL-NEXT:    v_mul_lo_u32 v13, v9, v10
+; GISEL-NEXT:    v_mul_hi_u32 v12, v9, v12
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v10
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v12, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_hi_u32 v10, v9, v10
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
-; GISEL-NEXT:    v_add_i32_e64 v11, s[4:5], v11, v17
-; GISEL-NEXT:    v_add_i32_e64 v12, s[6:7], v15, v18
-; GISEL-NEXT:    v_add_i32_e64 v15, s[6:7], v16, v19
-; GISEL-NEXT:    v_mul_lo_u32 v16, v1, v10
-; GISEL-NEXT:    v_mul_hi_u32 v17, v0, v10
-; GISEL-NEXT:    v_mul_hi_u32 v10, v1, v10
-; GISEL-NEXT:    v_mul_lo_u32 v18, v3, v11
-; GISEL-NEXT:    v_mul_hi_u32 v19, v2, v11
-; GISEL-NEXT:    v_mul_hi_u32 v11, v3, v11
-; GISEL-NEXT:    v_add_i32_e64 v6, s[6:7], v6, v12
-; GISEL-NEXT:    v_add_i32_e64 v9, s[6:7], v9, v15
-; GISEL-NEXT:    v_addc_u32_e32 v6, vcc, v13, v6, vcc
-; GISEL-NEXT:    v_addc_u32_e64 v9, vcc, v14, v9, s[4:5]
-; GISEL-NEXT:    v_mul_lo_u32 v12, v0, v6
-; GISEL-NEXT:    v_mul_lo_u32 v13, v1, v6
-; GISEL-NEXT:    v_mul_hi_u32 v14, v0, v6
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v11
+; GISEL-NEXT:    v_addc_u32_e32 v9, vcc, v9, v10, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v1, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v0, v9
+; GISEL-NEXT:    v_mul_hi_u32 v12, v0, v6
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v1, v9
 ; GISEL-NEXT:    v_mul_hi_u32 v6, v1, v6
-; GISEL-NEXT:    v_mul_lo_u32 v15, v2, v9
-; GISEL-NEXT:    v_mul_lo_u32 v20, v3, v9
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v16, v12
-; GISEL-NEXT:    v_mul_hi_u32 v16, v2, v9
-; GISEL-NEXT:    v_mul_hi_u32 v9, v3, v9
-; GISEL-NEXT:    v_add_i32_e64 v10, s[4:5], v13, v10
-; GISEL-NEXT:    v_add_i32_e64 v13, s[6:7], v18, v15
-; GISEL-NEXT:    v_add_i32_e64 v11, s[8:9], v20, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[6:7]
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v10, s[4:5], v10, v14
-; GISEL-NEXT:    v_add_i32_e64 v13, s[6:7], v13, v19
-; GISEL-NEXT:    v_add_i32_e64 v11, s[8:9], v11, v16
+; GISEL-NEXT:    v_mul_hi_u32 v12, v0, v9
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v11, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_hi_u32 v9, v1, v9
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_mul_lo_u32 v10, v7, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v8, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, v7, v9
+; GISEL-NEXT:    v_mul_hi_u32 v6, v7, v6
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v11, v9
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v9, v6
+; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v10
+; GISEL-NEXT:    v_subb_u32_e64 v9, s[4:5], v1, v6, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v1, s[4:5], v1, v6
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v9, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v0, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v9, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, v6, v10, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v10, s[4:5], v0, v7
+; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v8, vcc
+; GISEL-NEXT:    v_subbrev_u32_e64 v11, vcc, 0, v1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v11, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v10, v7
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v11, v8
+; GISEL-NEXT:    v_cndmask_b32_e32 v12, v12, v13, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v7, vcc, v10, v7
+; GISEL-NEXT:    v_subb_u32_e64 v1, s[4:5], v1, v8, s[4:5]
+; GISEL-NEXT:    v_subbrev_u32_e32 v1, vcc, 0, v1, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v12
+; GISEL-NEXT:    v_cndmask_b32_e32 v7, v10, v7, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v11, v1, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v6
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v0, v7, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v9, v1, vcc
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v6, v4
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v7, v5
+; GISEL-NEXT:    v_mac_f32_e32 v6, 0x4f800000, v7
+; GISEL-NEXT:    v_rcp_iflag_f32_e32 v6, v6
+; GISEL-NEXT:    v_mul_f32_e32 v6, 0x5f7ffffc, v6
+; GISEL-NEXT:    v_mul_f32_e32 v7, 0x2f800000, v6
+; GISEL-NEXT:    v_trunc_f32_e32 v7, v7
+; GISEL-NEXT:    v_mac_f32_e32 v6, 0xcf800000, v7
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v6, v6
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v7, v7
+; GISEL-NEXT:    v_sub_i32_e32 v8, vcc, 0, v4
+; GISEL-NEXT:    v_subb_u32_e32 v9, vcc, 0, v5, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v9, v6
+; GISEL-NEXT:    v_mul_lo_u32 v12, v8, v7
+; GISEL-NEXT:    v_mul_hi_u32 v13, v8, v6
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v13
+; GISEL-NEXT:    v_mul_lo_u32 v12, v7, v10
+; GISEL-NEXT:    v_mul_lo_u32 v13, v6, v11
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v10
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v13
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v15, v13
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v18, v14
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v20, v16
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v17
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v13
-; GISEL-NEXT:    v_add_i32_e64 v11, s[4:5], v11, v15
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_lo_u32 v13, v7, v11
+; GISEL-NEXT:    v_mul_hi_u32 v10, v7, v10
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v11
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v13, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[4:5]
-; GISEL-NEXT:    v_mul_lo_u32 v16, v7, v10
-; GISEL-NEXT:    v_mul_lo_u32 v17, v8, v10
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v13, v12
+; GISEL-NEXT:    v_mul_hi_u32 v11, v7, v11
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v10
+; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, v7, v11, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v6
+; GISEL-NEXT:    v_mul_lo_u32 v11, v8, v7
+; GISEL-NEXT:    v_mul_hi_u32 v8, v8, v6
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_lo_u32 v9, v7, v10
+; GISEL-NEXT:    v_mul_lo_u32 v11, v6, v8
+; GISEL-NEXT:    v_mul_hi_u32 v12, v6, v10
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v11
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v11, v9
+; GISEL-NEXT:    v_mul_lo_u32 v11, v7, v8
 ; GISEL-NEXT:    v_mul_hi_u32 v10, v7, v10
-; GISEL-NEXT:    v_mul_lo_u32 v18, v4, v11
-; GISEL-NEXT:    v_mul_lo_u32 v19, v5, v11
-; GISEL-NEXT:    v_mul_hi_u32 v11, v4, v11
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v14, v13
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v15
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v0, v16
-; GISEL-NEXT:    v_sub_i32_e64 v2, s[4:5], v2, v18
-; GISEL-NEXT:    v_add_i32_e64 v6, s[6:7], v6, v13
-; GISEL-NEXT:    v_add_i32_e64 v9, s[6:7], v9, v12
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v0, v7
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v2, v4
-; GISEL-NEXT:    v_sub_i32_e64 v12, s[10:11], v0, v7
-; GISEL-NEXT:    v_sub_i32_e64 v13, s[12:13], v2, v4
-; GISEL-NEXT:    v_mul_lo_u32 v6, v7, v6
-; GISEL-NEXT:    v_mul_lo_u32 v9, v4, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, -1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, -1, s[8:9]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v12, v7
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[8:9], v13, v4
-; GISEL-NEXT:    v_sub_i32_e64 v7, s[14:15], v12, v7
-; GISEL-NEXT:    v_sub_i32_e64 v4, s[16:17], v13, v4
-; GISEL-NEXT:    v_add_i32_e64 v6, s[18:19], v17, v6
-; GISEL-NEXT:    v_add_i32_e64 v9, s[18:19], v19, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, -1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, -1, s[8:9]
-; GISEL-NEXT:    v_add_i32_e64 v6, s[6:7], v6, v10
-; GISEL-NEXT:    v_add_i32_e64 v9, s[6:7], v9, v11
-; GISEL-NEXT:    v_subb_u32_e64 v10, s[6:7], v1, v6, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v1, s[6:7], v1, v6
-; GISEL-NEXT:    v_subb_u32_e64 v6, s[6:7], v3, v9, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e64 v3, s[6:7], v3, v9
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v10, v8
-; GISEL-NEXT:    v_subb_u32_e32 v1, vcc, v1, v8, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v6, v5
-; GISEL-NEXT:    v_subb_u32_e64 v3, s[4:5], v3, v5, s[4:5]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v10, v8
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[8:9], v6, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, vcc
-; GISEL-NEXT:    v_subbrev_u32_e64 v18, vcc, 0, v1, s[10:11]
-; GISEL-NEXT:    v_subb_u32_e64 v1, vcc, v1, v8, s[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, v9, v14, s[4:5]
-; GISEL-NEXT:    v_subbrev_u32_e64 v14, vcc, 0, v3, s[12:13]
-; GISEL-NEXT:    v_subb_u32_e64 v3, vcc, v3, v5, s[12:13]
-; GISEL-NEXT:    v_cndmask_b32_e64 v11, v11, v15, s[8:9]
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v18, v8
-; GISEL-NEXT:    v_subbrev_u32_e64 v1, s[4:5], 0, v1, s[14:15]
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v14, v5
-; GISEL-NEXT:    v_subbrev_u32_e64 v3, s[6:7], 0, v3, s[16:17]
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], v18, v8
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[8:9], v14, v5
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, 0, -1, vcc
+; GISEL-NEXT:    v_mul_hi_u32 v12, v6, v8
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
+; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v11, vcc, v11, v12
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
+; GISEL-NEXT:    v_mul_hi_u32 v8, v7, v8
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v9
+; GISEL-NEXT:    v_addc_u32_e32 v7, vcc, v7, v8, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v8, v3, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, v2, v7
+; GISEL-NEXT:    v_mul_hi_u32 v10, v2, v6
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_lo_u32 v9, v3, v7
+; GISEL-NEXT:    v_mul_hi_u32 v6, v3, v6
+; GISEL-NEXT:    v_mul_hi_u32 v10, v2, v7
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v9, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v10
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v10
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
+; GISEL-NEXT:    v_mul_hi_u32 v7, v3, v7
+; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v8
+; GISEL-NEXT:    v_mul_lo_u32 v8, v4, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, v5, v6
+; GISEL-NEXT:    v_mul_lo_u32 v7, v4, v7
+; GISEL-NEXT:    v_mul_hi_u32 v6, v4, v6
+; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v9, v7
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v7, v6
+; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v2, v8
+; GISEL-NEXT:    v_subb_u32_e64 v7, s[4:5], v3, v6, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v3, s[4:5], v3, v6
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v7, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, -1, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v2, v4
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, -1, s[4:5]
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v9
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v11
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, v5, v16, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, v8, v17, s[8:9]
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[6:7], 0, v5
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[8:9], 0, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v5, v12, v7, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v4, v13, v4, s[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, v18, v1, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v14, v3, s[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e32 v0, v0, v5, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, v2, v4, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v10, v1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v6, v3, s[4:5]
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v7, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, v6, v8, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v8, s[4:5], v2, v4
+; GISEL-NEXT:    v_subb_u32_e32 v3, vcc, v3, v5, vcc
+; GISEL-NEXT:    v_subbrev_u32_e64 v9, vcc, 0, v3, s[4:5]
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v9, v5
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v8, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v9, v5
+; GISEL-NEXT:    v_cndmask_b32_e32 v10, v10, v11, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v4, vcc, v8, v4
+; GISEL-NEXT:    v_subb_u32_e64 v3, s[4:5], v3, v5, s[4:5]
+; GISEL-NEXT:    v_subbrev_u32_e32 v3, vcc, 0, v3, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v10
+; GISEL-NEXT:    v_cndmask_b32_e32 v4, v8, v4, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v9, v3, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v6
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v2, v4, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v7, v3, vcc
 ; GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; CGP-LABEL: v_urem_v2i64_pow2_shl_denom:
@@ -2319,16 +2319,14 @@ define <2 x i64> @v_urem_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-LABEL: v_urem_v2i64_24bit:
 ; GISEL:       ; %bb.0:
 ; GISEL-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GISEL-NEXT:    v_and_b32_e32 v3, 0xffffff, v0
-; GISEL-NEXT:    v_and_b32_e32 v2, 0xffffff, v2
-; GISEL-NEXT:    v_and_b32_e32 v1, 0xffffff, v4
-; GISEL-NEXT:    v_and_b32_e32 v0, 0xffffff, v6
+; GISEL-NEXT:    v_and_b32_e32 v3, 0xffffff, v4
+; GISEL-NEXT:    v_and_b32_e32 v1, 0xffffff, v6
 ; GISEL-NEXT:    v_cvt_f32_ubyte0_e32 v6, 0
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v7, v1
-; GISEL-NEXT:    v_sub_i32_e32 v4, vcc, 0, v1
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v7, v3
+; GISEL-NEXT:    v_sub_i32_e32 v4, vcc, 0, v3
 ; GISEL-NEXT:    v_subb_u32_e64 v5, s[4:5], 0, 0, vcc
-; GISEL-NEXT:    v_cvt_f32_u32_e32 v8, v0
-; GISEL-NEXT:    v_sub_i32_e32 v9, vcc, 0, v0
+; GISEL-NEXT:    v_cvt_f32_u32_e32 v8, v1
+; GISEL-NEXT:    v_sub_i32_e32 v9, vcc, 0, v1
 ; GISEL-NEXT:    v_subb_u32_e64 v10, s[4:5], 0, 0, vcc
 ; GISEL-NEXT:    v_mac_f32_e32 v7, 0x4f800000, v6
 ; GISEL-NEXT:    v_mac_f32_e32 v8, 0x4f800000, v6
@@ -2344,76 +2342,78 @@ define <2 x i64> @v_urem_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v8, v8
 ; GISEL-NEXT:    v_mac_f32_e32 v7, 0xcf800000, v11
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v11, v11
-; GISEL-NEXT:    v_cvt_u32_f32_e32 v6, v6
-; GISEL-NEXT:    v_mul_lo_u32 v12, v4, v8
+; GISEL-NEXT:    v_cvt_u32_f32_e32 v12, v6
+; GISEL-NEXT:    v_mul_lo_u32 v6, v4, v8
 ; GISEL-NEXT:    v_cvt_u32_f32_e32 v7, v7
 ; GISEL-NEXT:    v_mul_lo_u32 v13, v9, v11
-; GISEL-NEXT:    v_mul_lo_u32 v14, v4, v6
-; GISEL-NEXT:    v_mul_lo_u32 v15, v5, v6
-; GISEL-NEXT:    v_mul_hi_u32 v16, v4, v6
+; GISEL-NEXT:    v_mul_lo_u32 v14, v4, v12
+; GISEL-NEXT:    v_mul_lo_u32 v15, v5, v12
+; GISEL-NEXT:    v_mul_hi_u32 v16, v4, v12
 ; GISEL-NEXT:    v_mul_lo_u32 v17, v9, v7
 ; GISEL-NEXT:    v_mul_lo_u32 v18, v10, v7
 ; GISEL-NEXT:    v_mul_hi_u32 v19, v9, v7
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v15, v12
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v15, v6
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v18, v13
+; GISEL-NEXT:    v_mul_lo_u32 v15, v11, v17
+; GISEL-NEXT:    v_mul_hi_u32 v18, v7, v17
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v19
+; GISEL-NEXT:    v_mul_lo_u32 v19, v7, v13
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v19
+; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v18
 ; GISEL-NEXT:    v_mul_lo_u32 v15, v8, v14
-; GISEL-NEXT:    v_mul_hi_u32 v20, v6, v14
+; GISEL-NEXT:    v_mul_hi_u32 v18, v12, v14
 ; GISEL-NEXT:    v_mul_hi_u32 v14, v8, v14
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v18, v13
-; GISEL-NEXT:    v_mul_lo_u32 v18, v11, v17
-; GISEL-NEXT:    v_mul_hi_u32 v21, v7, v17
 ; GISEL-NEXT:    v_mul_hi_u32 v17, v11, v17
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v16
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v19
-; GISEL-NEXT:    v_mul_lo_u32 v16, v6, v12
-; GISEL-NEXT:    v_mul_lo_u32 v19, v8, v12
-; GISEL-NEXT:    v_mul_hi_u32 v22, v6, v12
-; GISEL-NEXT:    v_mul_hi_u32 v12, v8, v12
-; GISEL-NEXT:    v_mul_lo_u32 v23, v7, v13
-; GISEL-NEXT:    v_mul_lo_u32 v24, v11, v13
-; GISEL-NEXT:    v_mul_hi_u32 v25, v7, v13
+; GISEL-NEXT:    v_add_i32_e64 v16, s[4:5], v6, v16
+; GISEL-NEXT:    v_mul_lo_u32 v6, v12, v16
+; GISEL-NEXT:    v_add_i32_e64 v6, s[4:5], v15, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v6, s[4:5], v6, v18
+; GISEL-NEXT:    v_mul_lo_u32 v6, v8, v16
+; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v15, s[4:5], v15, v18
+; GISEL-NEXT:    v_mul_hi_u32 v18, v12, v16
+; GISEL-NEXT:    v_add_i32_e64 v6, s[4:5], v6, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v18, s[4:5], v6, v18
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v14, s[4:5], v14, v6
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v19, v6
+; GISEL-NEXT:    v_mul_lo_u32 v6, v11, v13
+; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v17
+; GISEL-NEXT:    v_mul_hi_u32 v17, v7, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v6, v17
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v20, vcc, v20, v6
+; GISEL-NEXT:    v_and_b32_e32 v6, 0xffffff, v0
+; GISEL-NEXT:    v_and_b32_e32 v0, 0xffffff, v2
+; GISEL-NEXT:    v_mul_hi_u32 v2, v8, v16
 ; GISEL-NEXT:    v_mul_hi_u32 v13, v11, v13
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v16
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v18, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v19, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v18, v23
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v24, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v24, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v22
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v18, v21
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v25
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v16, v15
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v19, v20
-; GISEL-NEXT:    v_add_i32_e32 v18, vcc, v23, v18
-; GISEL-NEXT:    v_add_i32_e32 v19, vcc, v24, v21
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v15
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v18
+; GISEL-NEXT:    v_add_i32_e32 v17, vcc, v17, v19
 ; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v16, v15
-; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v19, v18
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v15
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v14, v16
+; GISEL-NEXT:    v_add_i32_e32 v16, vcc, v20, v18
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v14
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v16
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v14
-; GISEL-NEXT:    v_addc_u32_e32 v8, vcc, v8, v12, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v12, v4, v6
-; GISEL-NEXT:    v_mul_lo_u32 v5, v5, v6
-; GISEL-NEXT:    v_mul_hi_u32 v14, v4, v6
+; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v15
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v8, v2, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v8, v4, v12
+; GISEL-NEXT:    v_mul_lo_u32 v5, v5, v12
+; GISEL-NEXT:    v_mul_hi_u32 v14, v4, v12
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v17
 ; GISEL-NEXT:    v_addc_u32_e32 v11, vcc, v11, v13, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v13, v9, v7
 ; GISEL-NEXT:    v_mul_lo_u32 v10, v10, v7
 ; GISEL-NEXT:    v_mul_hi_u32 v15, v9, v7
-; GISEL-NEXT:    v_mul_lo_u32 v4, v4, v8
-; GISEL-NEXT:    v_mul_lo_u32 v16, v8, v12
-; GISEL-NEXT:    v_mul_hi_u32 v17, v6, v12
-; GISEL-NEXT:    v_mul_hi_u32 v12, v8, v12
+; GISEL-NEXT:    v_mul_lo_u32 v4, v4, v2
+; GISEL-NEXT:    v_mul_lo_u32 v16, v2, v8
+; GISEL-NEXT:    v_mul_hi_u32 v17, v12, v8
+; GISEL-NEXT:    v_mul_hi_u32 v8, v2, v8
 ; GISEL-NEXT:    v_mul_lo_u32 v9, v9, v11
 ; GISEL-NEXT:    v_mul_lo_u32 v18, v11, v13
 ; GISEL-NEXT:    v_mul_hi_u32 v19, v7, v13
@@ -2422,136 +2422,136 @@ define <2 x i64> @v_urem_v2i64_24bit(<2 x i64> %num, <2 x i64> %den) {
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v10, v9
 ; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v14
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v15
-; GISEL-NEXT:    v_mul_lo_u32 v9, v6, v4
-; GISEL-NEXT:    v_mul_lo_u32 v10, v8, v4
-; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v4
-; GISEL-NEXT:    v_mul_hi_u32 v4, v8, v4
+; GISEL-NEXT:    v_mul_lo_u32 v9, v12, v4
+; GISEL-NEXT:    v_mul_lo_u32 v10, v2, v4
+; GISEL-NEXT:    v_mul_hi_u32 v14, v12, v4
+; GISEL-NEXT:    v_mul_hi_u32 v4, v2, v4
 ; GISEL-NEXT:    v_mul_lo_u32 v15, v7, v5
-; GISEL-NEXT:    v_mul_lo_u32 v20, v11, v5
-; GISEL-NEXT:    v_mul_hi_u32 v21, v7, v5
-; GISEL-NEXT:    v_mul_hi_u32 v5, v11, v5
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v16, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v12
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v18, v15
 ; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v20, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v9, v17
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v14
-; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v19
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v21
+; GISEL-NEXT:    v_mul_lo_u32 v15, v11, v5
+; GISEL-NEXT:    v_mul_hi_u32 v19, v7, v5
+; GISEL-NEXT:    v_mul_hi_u32 v5, v11, v5
+; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v16, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v8, s[4:5], v10, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v13, s[4:5], v15, v13
+; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v9, s[4:5], v9, v17
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, s[4:5]
+; GISEL-NEXT:    v_add_i32_e64 v8, s[4:5], v8, v14
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, s[4:5]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v19
+; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v16, v9
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v12, v14
-; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v18, v15
-; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v20, v17
-; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v14
+; GISEL-NEXT:    v_add_i32_e32 v14, vcc, v18, v17
+; GISEL-NEXT:    v_add_i32_e32 v15, vcc, v15, v19
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v13, vcc, v13, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v12, v10
-; GISEL-NEXT:    v_add_i32_e32 v12, vcc, v15, v14
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v10
-; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v12
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v9
-; GISEL-NEXT:    v_addc_u32_e32 v4, vcc, v8, v4, vcc
-; GISEL-NEXT:    v_mul_lo_u32 v8, 0, v6
-; GISEL-NEXT:    v_mul_hi_u32 v9, v3, v6
-; GISEL-NEXT:    v_mul_hi_u32 v6, 0, v6
+; GISEL-NEXT:    v_add_i32_e32 v9, vcc, v10, v9
+; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v15, v14
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v10
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v12, v8
+; GISEL-NEXT:    v_addc_u32_e32 v2, vcc, v2, v4, vcc
+; GISEL-NEXT:    v_mul_lo_u32 v4, 0, v8
+; GISEL-NEXT:    v_mul_hi_u32 v9, v6, v8
+; GISEL-NEXT:    v_mul_hi_u32 v8, 0, v8
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v13
 ; GISEL-NEXT:    v_addc_u32_e32 v5, vcc, v11, v5, vcc
 ; GISEL-NEXT:    v_mul_lo_u32 v10, 0, v7
-; GISEL-NEXT:    v_mul_hi_u32 v11, v2, v7
+; GISEL-NEXT:    v_mul_hi_u32 v11, v0, v7
 ; GISEL-NEXT:    v_mul_hi_u32 v7, 0, v7
-; GISEL-NEXT:    v_mul_lo_u32 v12, v3, v4
-; GISEL-NEXT:    v_mul_lo_u32 v13, 0, v4
-; GISEL-NEXT:    v_mul_hi_u32 v14, v3, v4
-; GISEL-NEXT:    v_mul_hi_u32 v4, 0, v4
-; GISEL-NEXT:    v_mul_lo_u32 v15, v2, v5
+; GISEL-NEXT:    v_mul_lo_u32 v12, v6, v2
+; GISEL-NEXT:    v_mul_lo_u32 v13, 0, v2
+; GISEL-NEXT:    v_mul_hi_u32 v14, v6, v2
+; GISEL-NEXT:    v_mul_hi_u32 v2, 0, v2
+; GISEL-NEXT:    v_mul_lo_u32 v15, v0, v5
 ; GISEL-NEXT:    v_mul_lo_u32 v16, 0, v5
-; GISEL-NEXT:    v_mul_hi_u32 v17, v2, v5
+; GISEL-NEXT:    v_mul_hi_u32 v17, v0, v5
 ; GISEL-NEXT:    v_mul_hi_u32 v5, 0, v5
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v12
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v13, v6
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v12
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v13, v8
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v15
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v16, v7
-; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v14
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, 1, vcc
+; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v8, v14
 ; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v10, v11
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v17
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; GISEL-NEXT:    v_add_i32_e32 v6, vcc, v6, v8
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v8, v4
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v7, vcc, v7, v10
 ; GISEL-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v8, vcc, v9, v8
-; GISEL-NEXT:    v_mul_lo_u32 v9, v1, v6
-; GISEL-NEXT:    v_mul_lo_u32 v12, 0, v6
-; GISEL-NEXT:    v_mul_hi_u32 v6, v1, v6
+; GISEL-NEXT:    v_mul_lo_u32 v9, v3, v4
+; GISEL-NEXT:    v_mul_lo_u32 v12, 0, v4
+; GISEL-NEXT:    v_mul_hi_u32 v4, v3, v4
 ; GISEL-NEXT:    v_add_i32_e32 v10, vcc, v11, v10
-; GISEL-NEXT:    v_mul_lo_u32 v11, v0, v7
+; GISEL-NEXT:    v_mul_lo_u32 v11, v1, v7
 ; GISEL-NEXT:    v_mul_lo_u32 v13, 0, v7
-; GISEL-NEXT:    v_mul_hi_u32 v7, v0, v7
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v8
+; GISEL-NEXT:    v_mul_hi_u32 v7, v1, v7
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v8
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v10
-; GISEL-NEXT:    v_mul_lo_u32 v4, v1, v4
-; GISEL-NEXT:    v_mul_lo_u32 v5, v0, v5
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v12, v4
+; GISEL-NEXT:    v_mul_lo_u32 v2, v3, v2
+; GISEL-NEXT:    v_mul_lo_u32 v5, v1, v5
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v12, v2
 ; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v13, v5
-; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v4, v6
-; GISEL-NEXT:    v_add_i32_e32 v5, vcc, v5, v7
-; GISEL-NEXT:    v_sub_i32_e32 v3, vcc, v3, v9
-; GISEL-NEXT:    v_subb_u32_e64 v6, s[4:5], 0, v4, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v4, s[4:5], 0, v4
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v3, v1
+; GISEL-NEXT:    v_add_i32_e32 v2, vcc, v2, v4
+; GISEL-NEXT:    v_add_i32_e32 v4, vcc, v5, v7
+; GISEL-NEXT:    v_sub_i32_e32 v5, vcc, v6, v9
+; GISEL-NEXT:    v_subb_u32_e64 v6, s[4:5], 0, v2, vcc
+; GISEL-NEXT:    v_sub_i32_e64 v2, s[4:5], 0, v2
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[4:5], v5, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v7, 0, -1, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e64 v2, s[4:5], v2, v11
-; GISEL-NEXT:    v_subb_u32_e64 v8, s[6:7], 0, v5, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e64 v5, s[6:7], 0, v5
-; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v2, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, 0, -1, s[6:7]
+; GISEL-NEXT:    v_sub_i32_e64 v8, s[4:5], v0, v11
+; GISEL-NEXT:    v_subb_u32_e64 v9, s[6:7], 0, v4, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v0, s[6:7], 0, v4
+; GISEL-NEXT:    v_cmp_ge_u32_e64 s[6:7], v8, v1
+; GISEL-NEXT:    v_cndmask_b32_e64 v4, 0, -1, s[6:7]
 ; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], 0, v6
 ; GISEL-NEXT:    v_cndmask_b32_e64 v7, -1, v7, s[6:7]
-; GISEL-NEXT:    v_subbrev_u32_e32 v4, vcc, 0, v4, vcc
-; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v8
-; GISEL-NEXT:    v_cndmask_b32_e32 v9, -1, v9, vcc
-; GISEL-NEXT:    v_subbrev_u32_e64 v5, vcc, 0, v5, s[4:5]
-; GISEL-NEXT:    v_sub_i32_e32 v10, vcc, v3, v1
-; GISEL-NEXT:    v_subbrev_u32_e32 v4, vcc, 0, v4, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v10, v1
+; GISEL-NEXT:    v_subbrev_u32_e32 v2, vcc, 0, v2, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v9
+; GISEL-NEXT:    v_cndmask_b32_e32 v4, -1, v4, vcc
+; GISEL-NEXT:    v_subbrev_u32_e64 v0, vcc, 0, v0, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e32 v10, vcc, v5, v3
+; GISEL-NEXT:    v_subbrev_u32_e32 v2, vcc, 0, v2, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v10, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v11, 0, -1, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v12, vcc, v2, v0
-; GISEL-NEXT:    v_subbrev_u32_e32 v5, vcc, 0, v5, vcc
-; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v12, v0
-; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, -1, vcc
-; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v4
+; GISEL-NEXT:    v_sub_i32_e32 v12, vcc, v8, v1
+; GISEL-NEXT:    v_subbrev_u32_e32 v13, vcc, 0, v0, vcc
+; GISEL-NEXT:    v_cmp_ge_u32_e32 vcc, v12, v1
+; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, -1, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v2
 ; GISEL-NEXT:    v_cndmask_b32_e32 v11, -1, v11, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v1, vcc, v10, v1
-; GISEL-NEXT:    v_subbrev_u32_e32 v14, vcc, 0, v4, vcc
-; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v5
-; GISEL-NEXT:    v_cndmask_b32_e32 v13, -1, v13, vcc
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v12, v0
-; GISEL-NEXT:    v_subbrev_u32_e32 v15, vcc, 0, v5, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v3, vcc, v10, v3
+; GISEL-NEXT:    v_subbrev_u32_e32 v14, vcc, 0, v2, vcc
+; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v13
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, -1, v0, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v1, vcc, v12, v1
+; GISEL-NEXT:    v_subbrev_u32_e32 v15, vcc, 0, v13, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v11
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v10, v1, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v13
-; GISEL-NEXT:    v_cndmask_b32_e64 v10, v12, v0, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e32 v4, v4, v14, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v10, v3, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v0
+; GISEL-NEXT:    v_cndmask_b32_e64 v1, v12, v1, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e32 v10, v2, v14, vcc
 ; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v7
-; GISEL-NEXT:    v_cndmask_b32_e32 v0, v3, v1, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v5, v15, s[4:5]
-; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v9
-; GISEL-NEXT:    v_cndmask_b32_e64 v2, v2, v10, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v6, v4, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v3, v8, v3, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v5, v3, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v3, v13, v15, s[4:5]
+; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v4
+; GISEL-NEXT:    v_cndmask_b32_e64 v2, v8, v1, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v6, v10, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v3, v9, v3, s[4:5]
 ; GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; CGP-LABEL: v_urem_v2i64_24bit:
diff --git a/llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll b/llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll
index 0042d34e235d1..5a8b5fcc93f61 100644
--- a/llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll
+++ b/llvm/test/CodeGen/AMDGPU/GlobalISel/usubsat.ll
@@ -218,7 +218,8 @@ define i16 @v_usubsat_v2i8(i16 %lhs.arg, i16 %rhs.arg) {
 ; GFX9-NEXT:    v_pk_sub_u16 v0, v0, v1 clamp
 ; GFX9-NEXT:    v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
 ; GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -321,7 +322,8 @@ define amdgpu_ps i16 @s_usubsat_v2i8(i16 inreg %lhs.arg, i16 inreg %rhs.arg) {
 ; GFX9-NEXT:    v_pk_sub_u16 v0, s0, v0 clamp
 ; GFX9-NEXT:    v_pk_lshrrev_b16 v0, 8, v0 op_sel_hi:[0,1]
 ; GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_readfirstlane_b32 s0, v0
 ; GFX9-NEXT:    ; return to shader part epilog
@@ -439,9 +441,11 @@ define i32 @v_usubsat_v4i8(i32 %lhs.arg, i32 %rhs.arg) {
 ; GFX8-NEXT:    v_and_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 8, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, v2, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 24, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -602,18 +606,20 @@ define amdgpu_ps i32 @s_usubsat_v4i8(i32 inreg %lhs.arg, i32 inreg %rhs.arg) {
 ; GFX8-NEXT:    v_mov_b32_e32 v4, 0xff
 ; GFX8-NEXT:    s_lshl_b32 s0, s3, 8
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s1
-; GFX8-NEXT:    s_lshl_b32 s1, s7, 8
 ; GFX8-NEXT:    v_and_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_sub_u16_e64 v2, s0, v2 clamp
-; GFX8-NEXT:    s_lshl_b32 s0, s4, 8
-; GFX8-NEXT:    v_mov_b32_e32 v3, s1
+; GFX8-NEXT:    s_lshl_b32 s1, s7, 8
 ; GFX8-NEXT:    v_and_b32_sdwa v0, v0, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 8, v1
-; GFX8-NEXT:    v_sub_u16_e64 v3, s0, v3 clamp
+; GFX8-NEXT:    s_lshl_b32 s0, s4, 8
+; GFX8-NEXT:    v_mov_b32_e32 v3, s1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, v2, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_sub_u16_e64 v3, s0, v3 clamp
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
-; GFX8-NEXT:    v_and_b32_sdwa v1, v3, v4 dst_sel:BYTE_3 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_and_b32_sdwa v1, v3, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 24, v1
 ; GFX8-NEXT:    v_or_b32_e32 v0, v0, v1
 ; GFX8-NEXT:    v_readfirstlane_b32 s0, v0
 ; GFX8-NEXT:    ; return to shader part epilog
@@ -1346,29 +1352,29 @@ define <16 x i32> @v_usubsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX6-NEXT:    v_sub_i32_e32 v2, vcc, v2, v16
 ; GFX6-NEXT:    v_min_u32_e32 v16, v3, v19
 ; GFX6-NEXT:    v_sub_i32_e32 v3, vcc, v3, v16
-; GFX6-NEXT:    v_min_u32_e32 v16, v4, v20
-; GFX6-NEXT:    v_sub_i32_e32 v4, vcc, v4, v16
-; GFX6-NEXT:    v_min_u32_e32 v16, v5, v21
-; GFX6-NEXT:    v_sub_i32_e32 v5, vcc, v5, v16
-; GFX6-NEXT:    v_min_u32_e32 v16, v6, v22
-; GFX6-NEXT:    v_sub_i32_e32 v6, vcc, v6, v16
-; GFX6-NEXT:    v_min_u32_e32 v16, v7, v23
-; GFX6-NEXT:    v_sub_i32_e32 v7, vcc, v7, v16
-; GFX6-NEXT:    v_min_u32_e32 v16, v8, v24
-; GFX6-NEXT:    v_sub_i32_e32 v8, vcc, v8, v16
-; GFX6-NEXT:    v_min_u32_e32 v16, v9, v25
-; GFX6-NEXT:    v_sub_i32_e32 v9, vcc, v9, v16
-; GFX6-NEXT:    v_min_u32_e32 v16, v10, v26
-; GFX6-NEXT:    v_sub_i32_e32 v10, vcc, v10, v16
 ; GFX6-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; GFX6-NEXT:    v_min_u32_e32 v17, v11, v27
-; GFX6-NEXT:    v_min_u32_e32 v18, v12, v28
-; GFX6-NEXT:    v_min_u32_e32 v19, v13, v29
-; GFX6-NEXT:    v_min_u32_e32 v20, v14, v30
-; GFX6-NEXT:    v_sub_i32_e32 v11, vcc, v11, v17
-; GFX6-NEXT:    v_sub_i32_e32 v12, vcc, v12, v18
-; GFX6-NEXT:    v_sub_i32_e32 v13, vcc, v13, v19
-; GFX6-NEXT:    v_sub_i32_e32 v14, vcc, v14, v20
+; GFX6-NEXT:    v_min_u32_e32 v17, v4, v20
+; GFX6-NEXT:    v_min_u32_e32 v18, v5, v21
+; GFX6-NEXT:    v_min_u32_e32 v19, v6, v22
+; GFX6-NEXT:    v_min_u32_e32 v20, v7, v23
+; GFX6-NEXT:    v_min_u32_e32 v21, v8, v24
+; GFX6-NEXT:    v_min_u32_e32 v22, v9, v25
+; GFX6-NEXT:    v_min_u32_e32 v23, v10, v26
+; GFX6-NEXT:    v_min_u32_e32 v24, v11, v27
+; GFX6-NEXT:    v_min_u32_e32 v25, v12, v28
+; GFX6-NEXT:    v_min_u32_e32 v26, v13, v29
+; GFX6-NEXT:    v_min_u32_e32 v27, v14, v30
+; GFX6-NEXT:    v_sub_i32_e32 v4, vcc, v4, v17
+; GFX6-NEXT:    v_sub_i32_e32 v5, vcc, v5, v18
+; GFX6-NEXT:    v_sub_i32_e32 v6, vcc, v6, v19
+; GFX6-NEXT:    v_sub_i32_e32 v7, vcc, v7, v20
+; GFX6-NEXT:    v_sub_i32_e32 v8, vcc, v8, v21
+; GFX6-NEXT:    v_sub_i32_e32 v9, vcc, v9, v22
+; GFX6-NEXT:    v_sub_i32_e32 v10, vcc, v10, v23
+; GFX6-NEXT:    v_sub_i32_e32 v11, vcc, v11, v24
+; GFX6-NEXT:    v_sub_i32_e32 v12, vcc, v12, v25
+; GFX6-NEXT:    v_sub_i32_e32 v13, vcc, v13, v26
+; GFX6-NEXT:    v_sub_i32_e32 v14, vcc, v14, v27
 ; GFX6-NEXT:    s_waitcnt vmcnt(0)
 ; GFX6-NEXT:    v_min_u32_e32 v16, v15, v16
 ; GFX6-NEXT:    v_sub_i32_e32 v15, vcc, v15, v16
diff --git a/llvm/test/CodeGen/AMDGPU/abs_i16.ll b/llvm/test/CodeGen/AMDGPU/abs_i16.ll
index daed0986fa9c8..0ae2b4f549919 100644
--- a/llvm/test/CodeGen/AMDGPU/abs_i16.ll
+++ b/llvm/test/CodeGen/AMDGPU/abs_i16.ll
@@ -823,32 +823,32 @@ define <16 x i16> @v_abs_v16i16(<16 x i16> %arg) {
 ; GFX8-NEXT:    v_sub_u16_sdwa v14, v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_u16_sdwa v15, v8, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_u16_sdwa v8, v8, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v0
+; GFX8-NEXT:    v_max_i16_sdwa v8, v0, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v0, v0, v19
+; GFX8-NEXT:    v_or_b32_e32 v0, v0, v8
+; GFX8-NEXT:    v_sub_u16_e32 v8, 0, v1
+; GFX8-NEXT:    v_max_i16_sdwa v15, v1, v15 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v1, v1, v8
 ; GFX8-NEXT:    v_sub_u16_e32 v16, 0, v7
 ; GFX8-NEXT:    v_sub_u16_e32 v17, 0, v6
 ; GFX8-NEXT:    v_sub_u16_e32 v18, 0, v5
 ; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v4
-; GFX8-NEXT:    v_sub_u16_e32 v20, 0, v3
-; GFX8-NEXT:    v_sub_u16_e32 v21, 0, v2
-; GFX8-NEXT:    v_sub_u16_e32 v22, 0, v1
-; GFX8-NEXT:    v_sub_u16_e32 v23, 0, v0
+; GFX8-NEXT:    v_sub_u16_e32 v8, 0, v3
+; GFX8-NEXT:    v_or_b32_e32 v1, v1, v15
+; GFX8-NEXT:    v_sub_u16_e32 v15, 0, v2
 ; GFX8-NEXT:    v_max_i16_sdwa v9, v7, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_max_i16_sdwa v10, v6, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_max_i16_sdwa v11, v5, v11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_max_i16_sdwa v12, v4, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_max_i16_sdwa v13, v3, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_max_i16_sdwa v14, v2, v14 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_sdwa v15, v1, v15 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_sdwa v8, v0, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v0, v0, v23
-; GFX8-NEXT:    v_max_i16_e32 v1, v1, v22
-; GFX8-NEXT:    v_max_i16_e32 v2, v2, v21
-; GFX8-NEXT:    v_max_i16_e32 v3, v3, v20
+; GFX8-NEXT:    v_max_i16_e32 v2, v2, v15
+; GFX8-NEXT:    v_max_i16_e32 v3, v3, v8
 ; GFX8-NEXT:    v_max_i16_e32 v4, v4, v19
 ; GFX8-NEXT:    v_max_i16_e32 v5, v5, v18
 ; GFX8-NEXT:    v_max_i16_e32 v6, v6, v17
 ; GFX8-NEXT:    v_max_i16_e32 v7, v7, v16
-; GFX8-NEXT:    v_or_b32_e32 v0, v0, v8
-; GFX8-NEXT:    v_or_b32_e32 v1, v1, v15
 ; GFX8-NEXT:    v_or_b32_e32 v2, v2, v14
 ; GFX8-NEXT:    v_or_b32_e32 v3, v3, v13
 ; GFX8-NEXT:    v_or_b32_e32 v4, v4, v12
@@ -1255,85 +1255,85 @@ define <32 x i16> @v_abs_v32i16(<32 x i16> %arg) {
 ; GFX8:       ; %bb.0:
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v16, 0
-; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_sub_u16_e32 v20, 0, v0
-; GFX8-NEXT:    v_max_i16_sdwa v19, v0, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v0, v0, v20
-; GFX8-NEXT:    v_sub_u16_sdwa v20, v16, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v0, v0, v19
-; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v1
-; GFX8-NEXT:    v_max_i16_sdwa v20, v1, v20 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v1, v1, v19
-; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v1, v1, v20
-; GFX8-NEXT:    v_sub_u16_e32 v20, 0, v2
-; GFX8-NEXT:    v_max_i16_sdwa v19, v2, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v2, v2, v20
-; GFX8-NEXT:    v_sub_u16_sdwa v20, v16, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v2, v2, v19
-; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v3
-; GFX8-NEXT:    v_max_i16_sdwa v20, v3, v20 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v3, v3, v19
-; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v3, v3, v20
-; GFX8-NEXT:    v_sub_u16_e32 v20, 0, v4
-; GFX8-NEXT:    v_max_i16_sdwa v19, v4, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v4, v4, v20
-; GFX8-NEXT:    v_sub_u16_sdwa v20, v16, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v4, v4, v19
-; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v5
-; GFX8-NEXT:    v_max_i16_sdwa v20, v5, v20 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v5, v5, v19
-; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v5, v5, v20
-; GFX8-NEXT:    v_sub_u16_e32 v20, 0, v6
-; GFX8-NEXT:    v_max_i16_sdwa v19, v6, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v6, v6, v20
-; GFX8-NEXT:    v_sub_u16_sdwa v20, v16, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v6, v6, v19
-; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v7
-; GFX8-NEXT:    v_max_i16_sdwa v20, v7, v20 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v7, v7, v19
-; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v7, v7, v20
-; GFX8-NEXT:    v_sub_u16_e32 v20, 0, v8
-; GFX8-NEXT:    v_max_i16_sdwa v19, v8, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v8, v8, v20
-; GFX8-NEXT:    v_sub_u16_sdwa v20, v16, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v8, v8, v19
-; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v9
-; GFX8-NEXT:    v_max_i16_sdwa v20, v9, v20 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v9, v9, v19
-; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v9, v9, v20
-; GFX8-NEXT:    v_sub_u16_e32 v20, 0, v10
-; GFX8-NEXT:    v_max_i16_sdwa v19, v10, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v10, v10, v20
-; GFX8-NEXT:    v_sub_u16_sdwa v20, v16, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v10, v10, v19
-; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v11
-; GFX8-NEXT:    v_max_i16_sdwa v20, v11, v20 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v11, v11, v19
+; GFX8-NEXT:    v_sub_u16_sdwa v18, v16, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v0
+; GFX8-NEXT:    v_max_i16_sdwa v18, v0, v18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v0, v0, v19
+; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v0, v0, v18
+; GFX8-NEXT:    v_sub_u16_e32 v18, 0, v1
+; GFX8-NEXT:    v_max_i16_sdwa v19, v1, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v1, v1, v18
+; GFX8-NEXT:    v_sub_u16_sdwa v18, v16, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v1, v1, v19
+; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v2
+; GFX8-NEXT:    v_max_i16_sdwa v18, v2, v18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v2, v2, v19
+; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v2, v2, v18
+; GFX8-NEXT:    v_sub_u16_e32 v18, 0, v3
+; GFX8-NEXT:    v_max_i16_sdwa v19, v3, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v3, v3, v18
+; GFX8-NEXT:    v_sub_u16_sdwa v18, v16, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v3, v3, v19
+; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v4
+; GFX8-NEXT:    v_max_i16_sdwa v18, v4, v18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v4, v4, v19
+; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v4, v4, v18
+; GFX8-NEXT:    v_sub_u16_e32 v18, 0, v5
+; GFX8-NEXT:    v_max_i16_sdwa v19, v5, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v5, v5, v18
+; GFX8-NEXT:    v_sub_u16_sdwa v18, v16, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v5, v5, v19
+; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v6
+; GFX8-NEXT:    v_max_i16_sdwa v18, v6, v18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v6, v6, v19
+; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v6, v6, v18
+; GFX8-NEXT:    v_sub_u16_e32 v18, 0, v7
+; GFX8-NEXT:    v_max_i16_sdwa v19, v7, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v7, v7, v18
+; GFX8-NEXT:    v_sub_u16_sdwa v18, v16, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v7, v7, v19
+; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v8
+; GFX8-NEXT:    v_max_i16_sdwa v18, v8, v18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v8, v8, v19
+; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v8, v8, v18
+; GFX8-NEXT:    v_sub_u16_e32 v18, 0, v9
+; GFX8-NEXT:    v_max_i16_sdwa v19, v9, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v9, v9, v18
+; GFX8-NEXT:    v_sub_u16_sdwa v18, v16, v10 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v9, v9, v19
+; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v10
+; GFX8-NEXT:    v_max_i16_sdwa v18, v10, v18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v10, v10, v19
+; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v10, v10, v18
+; GFX8-NEXT:    v_sub_u16_e32 v18, 0, v11
+; GFX8-NEXT:    v_max_i16_sdwa v19, v11, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v11, v11, v18
+; GFX8-NEXT:    v_sub_u16_sdwa v18, v16, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v11, v11, v19
+; GFX8-NEXT:    v_sub_u16_e32 v19, 0, v12
+; GFX8-NEXT:    v_max_i16_sdwa v18, v12, v18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v12, v12, v19
 ; GFX8-NEXT:    v_sub_u16_sdwa v17, v16, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_sub_u16_sdwa v18, v16, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_sub_u16_sdwa v16, v16, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
-; GFX8-NEXT:    v_or_b32_e32 v11, v11, v20
-; GFX8-NEXT:    v_sub_u16_e32 v20, 0, v12
-; GFX8-NEXT:    v_max_i16_sdwa v16, v12, v16 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_e32 v12, v12, v20
-; GFX8-NEXT:    v_or_b32_e32 v12, v12, v16
-; GFX8-NEXT:    v_sub_u16_e32 v16, 0, v13
-; GFX8-NEXT:    v_max_i16_sdwa v19, v13, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_sub_u16_e32 v20, 0, v15
-; GFX8-NEXT:    v_max_i16_e32 v13, v13, v16
+; GFX8-NEXT:    v_sub_u16_sdwa v19, v16, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_sub_u16_sdwa v16, v16, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_or_b32_e32 v12, v12, v18
+; GFX8-NEXT:    v_sub_u16_e32 v18, 0, v13
+; GFX8-NEXT:    v_max_i16_sdwa v16, v13, v16 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_e32 v13, v13, v18
+; GFX8-NEXT:    v_sub_u16_e32 v18, 0, v15
+; GFX8-NEXT:    v_or_b32_e32 v13, v13, v16
 ; GFX8-NEXT:    v_sub_u16_e32 v16, 0, v14
 ; GFX8-NEXT:    v_max_i16_sdwa v17, v15, v17 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX8-NEXT:    v_max_i16_sdwa v18, v14, v18 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX8-NEXT:    v_max_i16_sdwa v19, v14, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
 ; GFX8-NEXT:    v_max_i16_e32 v14, v14, v16
-; GFX8-NEXT:    v_max_i16_e32 v15, v15, v20
-; GFX8-NEXT:    v_or_b32_e32 v13, v13, v19
-; GFX8-NEXT:    v_or_b32_e32 v14, v14, v18
+; GFX8-NEXT:    v_max_i16_e32 v15, v15, v18
+; GFX8-NEXT:    v_or_b32_e32 v14, v14, v19
 ; GFX8-NEXT:    v_or_b32_e32 v15, v15, v17
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/add.ll b/llvm/test/CodeGen/AMDGPU/add.ll
index 033af69243801..cd5b585a8c4e2 100644
--- a/llvm/test/CodeGen/AMDGPU/add.ll
+++ b/llvm/test/CodeGen/AMDGPU/add.ll
@@ -474,44 +474,44 @@ define amdgpu_kernel void @s_add_v16i32(ptr addrspace(1) %out, <16 x i32> %a, <1
 ; GFX6-NEXT:    s_mov_b32 s3, 0xf000
 ; GFX6-NEXT:    s_mov_b32 s2, -1
 ; GFX6-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX6-NEXT:    s_add_i32 s4, s11, s39
-; GFX6-NEXT:    s_add_i32 s5, s10, s38
-; GFX6-NEXT:    s_add_i32 s6, s9, s37
-; GFX6-NEXT:    s_add_i32 s7, s8, s36
-; GFX6-NEXT:    s_add_i32 s8, s15, s43
-; GFX6-NEXT:    s_add_i32 s9, s14, s42
-; GFX6-NEXT:    s_add_i32 s10, s13, s41
-; GFX6-NEXT:    s_add_i32 s11, s12, s40
-; GFX6-NEXT:    s_add_i32 s12, s19, s47
-; GFX6-NEXT:    s_add_i32 s13, s18, s46
-; GFX6-NEXT:    s_add_i32 s14, s17, s45
-; GFX6-NEXT:    s_add_i32 s15, s16, s44
-; GFX6-NEXT:    s_add_i32 s16, s23, s51
-; GFX6-NEXT:    s_add_i32 s17, s22, s50
-; GFX6-NEXT:    s_add_i32 s18, s21, s49
-; GFX6-NEXT:    s_add_i32 s19, s20, s48
-; GFX6-NEXT:    v_mov_b32_e32 v0, s19
-; GFX6-NEXT:    v_mov_b32_e32 v1, s18
-; GFX6-NEXT:    v_mov_b32_e32 v2, s17
-; GFX6-NEXT:    v_mov_b32_e32 v3, s16
+; GFX6-NEXT:    s_add_i32 s6, s11, s39
+; GFX6-NEXT:    s_add_i32 s7, s10, s38
+; GFX6-NEXT:    s_add_i32 s10, s15, s43
+; GFX6-NEXT:    s_add_i32 s11, s14, s42
+; GFX6-NEXT:    s_add_i32 s14, s19, s47
+; GFX6-NEXT:    s_add_i32 s15, s18, s46
+; GFX6-NEXT:    s_add_i32 s18, s23, s51
+; GFX6-NEXT:    s_add_i32 s19, s22, s50
+; GFX6-NEXT:    s_add_i32 s21, s21, s49
+; GFX6-NEXT:    s_add_i32 s20, s20, s48
+; GFX6-NEXT:    s_add_i32 s17, s17, s45
+; GFX6-NEXT:    s_add_i32 s16, s16, s44
+; GFX6-NEXT:    v_mov_b32_e32 v0, s20
+; GFX6-NEXT:    v_mov_b32_e32 v1, s21
+; GFX6-NEXT:    v_mov_b32_e32 v2, s19
+; GFX6-NEXT:    v_mov_b32_e32 v3, s18
+; GFX6-NEXT:    s_add_i32 s13, s13, s41
+; GFX6-NEXT:    s_add_i32 s12, s12, s40
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s15
-; GFX6-NEXT:    v_mov_b32_e32 v1, s14
-; GFX6-NEXT:    v_mov_b32_e32 v2, s13
-; GFX6-NEXT:    v_mov_b32_e32 v3, s12
+; GFX6-NEXT:    v_mov_b32_e32 v0, s16
+; GFX6-NEXT:    v_mov_b32_e32 v1, s17
+; GFX6-NEXT:    v_mov_b32_e32 v2, s15
+; GFX6-NEXT:    v_mov_b32_e32 v3, s14
+; GFX6-NEXT:    s_add_i32 s9, s9, s37
+; GFX6-NEXT:    s_add_i32 s8, s8, s36
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:32
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s11
-; GFX6-NEXT:    v_mov_b32_e32 v1, s10
-; GFX6-NEXT:    v_mov_b32_e32 v2, s9
-; GFX6-NEXT:    v_mov_b32_e32 v3, s8
+; GFX6-NEXT:    v_mov_b32_e32 v0, s12
+; GFX6-NEXT:    v_mov_b32_e32 v1, s13
+; GFX6-NEXT:    v_mov_b32_e32 v2, s11
+; GFX6-NEXT:    v_mov_b32_e32 v3, s10
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s7
-; GFX6-NEXT:    v_mov_b32_e32 v1, s6
-; GFX6-NEXT:    v_mov_b32_e32 v2, s5
-; GFX6-NEXT:    v_mov_b32_e32 v3, s4
+; GFX6-NEXT:    v_mov_b32_e32 v0, s8
+; GFX6-NEXT:    v_mov_b32_e32 v1, s9
+; GFX6-NEXT:    v_mov_b32_e32 v2, s7
+; GFX6-NEXT:    v_mov_b32_e32 v3, s6
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
 ; GFX6-NEXT:    s_endpgm
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/addrspacecast.ll b/llvm/test/CodeGen/AMDGPU/addrspacecast.ll
index 236956c1829e7..f176f34f84736 100644
--- a/llvm/test/CodeGen/AMDGPU/addrspacecast.ll
+++ b/llvm/test/CodeGen/AMDGPU/addrspacecast.ll
@@ -485,13 +485,10 @@ define <16 x ptr addrspace(5)> @addrspacecast_v16p0_to_v16p5(<16 x ptr> %ptr) {
 ; HSA-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; HSA-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[0:1]
-; HSA-NEXT:    v_cmp_ne_u64_e64 s[4:5], 0, v[24:25]
 ; HSA-NEXT:    v_cndmask_b32_e32 v0, -1, v0, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[2:3]
-; HSA-NEXT:    v_cmp_ne_u64_e64 s[6:7], 0, v[26:27]
 ; HSA-NEXT:    v_cndmask_b32_e32 v1, -1, v2, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[4:5]
-; HSA-NEXT:    v_cmp_ne_u64_e64 s[8:9], 0, v[28:29]
 ; HSA-NEXT:    v_cndmask_b32_e32 v2, -1, v4, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[6:7]
 ; HSA-NEXT:    v_cndmask_b32_e32 v3, -1, v6, vcc
@@ -500,13 +497,10 @@ define <16 x ptr addrspace(5)> @addrspacecast_v16p0_to_v16p5(<16 x ptr> %ptr) {
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[10:11]
 ; HSA-NEXT:    v_cndmask_b32_e32 v5, -1, v10, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[12:13]
-; HSA-NEXT:    v_cndmask_b32_e64 v13, -1, v26, s[6:7]
 ; HSA-NEXT:    v_cndmask_b32_e32 v6, -1, v12, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[14:15]
-; HSA-NEXT:    v_cndmask_b32_e64 v12, -1, v24, s[4:5]
 ; HSA-NEXT:    v_cndmask_b32_e32 v7, -1, v14, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[16:17]
-; HSA-NEXT:    v_cndmask_b32_e64 v14, -1, v28, s[8:9]
 ; HSA-NEXT:    v_cndmask_b32_e32 v8, -1, v16, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
 ; HSA-NEXT:    v_cndmask_b32_e32 v9, -1, v18, vcc
@@ -514,6 +508,12 @@ define <16 x ptr addrspace(5)> @addrspacecast_v16p0_to_v16p5(<16 x ptr> %ptr) {
 ; HSA-NEXT:    v_cndmask_b32_e32 v10, -1, v20, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[22:23]
 ; HSA-NEXT:    v_cndmask_b32_e32 v11, -1, v22, vcc
+; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[24:25]
+; HSA-NEXT:    v_cndmask_b32_e32 v12, -1, v24, vcc
+; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[26:27]
+; HSA-NEXT:    v_cndmask_b32_e32 v13, -1, v26, vcc
+; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[28:29]
+; HSA-NEXT:    v_cndmask_b32_e32 v14, -1, v28, vcc
 ; HSA-NEXT:    s_waitcnt vmcnt(0)
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[30:31]
 ; HSA-NEXT:    v_cndmask_b32_e32 v15, -1, v30, vcc
@@ -733,65 +733,64 @@ define <16 x ptr> @addrspacecast_v16p5_to_v16p0(<16 x ptr addrspace(5)> %ptr) {
 ; CI-NEXT:    s_load_dword s4, s[6:7], 0x11
 ; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v0
 ; CI-NEXT:    v_cndmask_b32_e32 v0, 0, v0, vcc
-; CI-NEXT:    v_cmp_ne_u32_e64 s[6:7], -1, v6
-; CI-NEXT:    v_cmp_ne_u32_e64 s[8:9], -1, v7
+; CI-NEXT:    v_cmp_ne_u32_e64 s[6:7], -1, v5
+; CI-NEXT:    v_cmp_ne_u32_e64 s[8:9], -1, v6
 ; CI-NEXT:    s_waitcnt lgkmcnt(0)
 ; CI-NEXT:    v_mov_b32_e32 v31, s4
-; CI-NEXT:    v_cndmask_b32_e32 v48, 0, v31, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v49, 0, v31, vcc
 ; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v1
-; CI-NEXT:    v_cndmask_b32_e32 v35, 0, v1, vcc
-; CI-NEXT:    v_cndmask_b32_e32 v33, 0, v31, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v34, 0, v1, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v39, 0, v31, vcc
 ; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v2
-; CI-NEXT:    v_cndmask_b32_e32 v36, 0, v2, vcc
-; CI-NEXT:    v_cndmask_b32_e32 v49, 0, v31, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v35, 0, v2, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v32, 0, v31, vcc
 ; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v3
-; CI-NEXT:    v_cndmask_b32_e32 v37, 0, v3, vcc
-; CI-NEXT:    v_cndmask_b32_e32 v34, 0, v31, vcc
-; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v4
-; CI-NEXT:    v_cmp_ne_u32_e64 s[4:5], -1, v5
-; CI-NEXT:    v_cndmask_b32_e32 v38, 0, v4, vcc
-; CI-NEXT:    v_cndmask_b32_e64 v50, 0, v5, s[4:5]
-; CI-NEXT:    v_cndmask_b32_e64 v39, 0, v6, s[6:7]
-; CI-NEXT:    v_cndmask_b32_e64 v32, 0, v7, s[8:9]
-; CI-NEXT:    v_cmp_ne_u32_e64 s[10:11], -1, v8
-; CI-NEXT:    v_cmp_ne_u32_e64 s[12:13], -1, v9
-; CI-NEXT:    v_cmp_ne_u32_e64 s[14:15], -1, v10
-; CI-NEXT:    v_cmp_ne_u32_e64 s[16:17], -1, v11
-; CI-NEXT:    v_cmp_ne_u32_e64 s[18:19], -1, v12
-; CI-NEXT:    v_cmp_ne_u32_e64 s[20:21], -1, v13
-; CI-NEXT:    v_cmp_ne_u32_e64 s[22:23], -1, v14
-; CI-NEXT:    v_cmp_ne_u32_e64 s[24:25], -1, v15
-; CI-NEXT:    v_cndmask_b32_e64 v16, 0, v8, s[10:11]
-; CI-NEXT:    v_cndmask_b32_e64 v18, 0, v9, s[12:13]
-; CI-NEXT:    v_cndmask_b32_e64 v20, 0, v10, s[14:15]
-; CI-NEXT:    v_cndmask_b32_e64 v22, 0, v11, s[16:17]
-; CI-NEXT:    v_cndmask_b32_e64 v24, 0, v12, s[18:19]
-; CI-NEXT:    v_cndmask_b32_e64 v26, 0, v13, s[20:21]
-; CI-NEXT:    v_cndmask_b32_e64 v28, 0, v14, s[22:23]
-; CI-NEXT:    v_cndmask_b32_e64 v30, 0, v15, s[24:25]
-; CI-NEXT:    v_cndmask_b32_e32 v9, 0, v31, vcc
-; CI-NEXT:    v_cndmask_b32_e64 v11, 0, v31, s[4:5]
-; CI-NEXT:    v_cndmask_b32_e64 v13, 0, v31, s[6:7]
-; CI-NEXT:    v_cndmask_b32_e64 v15, 0, v31, s[8:9]
-; CI-NEXT:    v_cndmask_b32_e64 v17, 0, v31, s[10:11]
-; CI-NEXT:    v_cndmask_b32_e64 v19, 0, v31, s[12:13]
-; CI-NEXT:    v_cndmask_b32_e64 v21, 0, v31, s[14:15]
-; CI-NEXT:    v_cndmask_b32_e64 v23, 0, v31, s[16:17]
-; CI-NEXT:    v_cndmask_b32_e64 v25, 0, v31, s[18:19]
-; CI-NEXT:    v_cndmask_b32_e64 v27, 0, v31, s[20:21]
-; CI-NEXT:    v_cndmask_b32_e64 v29, 0, v31, s[22:23]
-; CI-NEXT:    v_cndmask_b32_e64 v31, 0, v31, s[24:25]
-; CI-NEXT:    v_mov_b32_e32 v1, v48
-; CI-NEXT:    v_mov_b32_e32 v2, v35
-; CI-NEXT:    v_mov_b32_e32 v3, v33
-; CI-NEXT:    v_mov_b32_e32 v4, v36
-; CI-NEXT:    v_mov_b32_e32 v5, v49
-; CI-NEXT:    v_mov_b32_e32 v6, v37
-; CI-NEXT:    v_mov_b32_e32 v7, v34
-; CI-NEXT:    v_mov_b32_e32 v8, v38
-; CI-NEXT:    v_mov_b32_e32 v10, v50
-; CI-NEXT:    v_mov_b32_e32 v12, v39
-; CI-NEXT:    v_mov_b32_e32 v14, v32
+; CI-NEXT:    v_cmp_ne_u32_e64 s[4:5], -1, v4
+; CI-NEXT:    v_cmp_ne_u32_e64 s[10:11], -1, v7
+; CI-NEXT:    v_cndmask_b32_e32 v36, 0, v3, vcc
+; CI-NEXT:    v_cndmask_b32_e64 v48, 0, v4, s[4:5]
+; CI-NEXT:    v_cndmask_b32_e64 v37, 0, v5, s[6:7]
+; CI-NEXT:    v_cndmask_b32_e64 v33, 0, v6, s[8:9]
+; CI-NEXT:    v_cndmask_b32_e64 v38, 0, v7, s[10:11]
+; CI-NEXT:    v_cmp_ne_u32_e64 s[12:13], -1, v8
+; CI-NEXT:    v_cmp_ne_u32_e64 s[14:15], -1, v9
+; CI-NEXT:    v_cmp_ne_u32_e64 s[16:17], -1, v10
+; CI-NEXT:    v_cmp_ne_u32_e64 s[18:19], -1, v11
+; CI-NEXT:    v_cmp_ne_u32_e64 s[20:21], -1, v12
+; CI-NEXT:    v_cmp_ne_u32_e64 s[22:23], -1, v13
+; CI-NEXT:    v_cmp_ne_u32_e64 s[24:25], -1, v14
+; CI-NEXT:    v_cmp_ne_u32_e64 s[26:27], -1, v15
+; CI-NEXT:    v_cndmask_b32_e64 v16, 0, v8, s[12:13]
+; CI-NEXT:    v_cndmask_b32_e64 v18, 0, v9, s[14:15]
+; CI-NEXT:    v_cndmask_b32_e64 v20, 0, v10, s[16:17]
+; CI-NEXT:    v_cndmask_b32_e64 v22, 0, v11, s[18:19]
+; CI-NEXT:    v_cndmask_b32_e64 v24, 0, v12, s[20:21]
+; CI-NEXT:    v_cndmask_b32_e64 v26, 0, v13, s[22:23]
+; CI-NEXT:    v_cndmask_b32_e64 v28, 0, v14, s[24:25]
+; CI-NEXT:    v_cndmask_b32_e64 v30, 0, v15, s[26:27]
+; CI-NEXT:    v_cndmask_b32_e32 v7, 0, v31, vcc
+; CI-NEXT:    v_cndmask_b32_e64 v9, 0, v31, s[4:5]
+; CI-NEXT:    v_cndmask_b32_e64 v11, 0, v31, s[6:7]
+; CI-NEXT:    v_cndmask_b32_e64 v13, 0, v31, s[8:9]
+; CI-NEXT:    v_cndmask_b32_e64 v15, 0, v31, s[10:11]
+; CI-NEXT:    v_cndmask_b32_e64 v17, 0, v31, s[12:13]
+; CI-NEXT:    v_cndmask_b32_e64 v19, 0, v31, s[14:15]
+; CI-NEXT:    v_cndmask_b32_e64 v21, 0, v31, s[16:17]
+; CI-NEXT:    v_cndmask_b32_e64 v23, 0, v31, s[18:19]
+; CI-NEXT:    v_cndmask_b32_e64 v25, 0, v31, s[20:21]
+; CI-NEXT:    v_cndmask_b32_e64 v27, 0, v31, s[22:23]
+; CI-NEXT:    v_cndmask_b32_e64 v29, 0, v31, s[24:25]
+; CI-NEXT:    v_cndmask_b32_e64 v31, 0, v31, s[26:27]
+; CI-NEXT:    v_mov_b32_e32 v1, v49
+; CI-NEXT:    v_mov_b32_e32 v2, v34
+; CI-NEXT:    v_mov_b32_e32 v3, v39
+; CI-NEXT:    v_mov_b32_e32 v4, v35
+; CI-NEXT:    v_mov_b32_e32 v5, v32
+; CI-NEXT:    v_mov_b32_e32 v6, v36
+; CI-NEXT:    v_mov_b32_e32 v8, v48
+; CI-NEXT:    v_mov_b32_e32 v10, v37
+; CI-NEXT:    v_mov_b32_e32 v12, v33
+; CI-NEXT:    v_mov_b32_e32 v14, v38
 ; CI-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX9-LABEL: addrspacecast_v16p5_to_v16p0:
@@ -801,63 +800,62 @@ define <16 x ptr> @addrspacecast_v16p5_to_v16p0(<16 x ptr addrspace(5)> %ptr) {
 ; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v0
 ; GFX9-NEXT:    v_mov_b32_e32 v31, s5
 ; GFX9-NEXT:    v_cndmask_b32_e32 v0, 0, v0, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v48, 0, v31, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v49, 0, v31, vcc
 ; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v1
-; GFX9-NEXT:    v_cndmask_b32_e32 v35, 0, v1, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v33, 0, v31, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v34, 0, v1, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v39, 0, v31, vcc
 ; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v2
-; GFX9-NEXT:    v_cndmask_b32_e32 v36, 0, v2, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v49, 0, v31, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v35, 0, v2, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v32, 0, v31, vcc
 ; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v3
-; GFX9-NEXT:    v_cndmask_b32_e32 v37, 0, v3, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v34, 0, v31, vcc
-; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v4
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[4:5], -1, v5
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[6:7], -1, v6
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[8:9], -1, v7
-; GFX9-NEXT:    v_cndmask_b32_e32 v38, 0, v4, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v50, 0, v5, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e64 v39, 0, v6, s[6:7]
-; GFX9-NEXT:    v_cndmask_b32_e64 v32, 0, v7, s[8:9]
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[10:11], -1, v8
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[12:13], -1, v9
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[14:15], -1, v10
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[16:17], -1, v11
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[18:19], -1, v12
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[20:21], -1, v13
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[22:23], -1, v14
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[24:25], -1, v15
-; GFX9-NEXT:    v_cndmask_b32_e64 v16, 0, v8, s[10:11]
-; GFX9-NEXT:    v_cndmask_b32_e64 v18, 0, v9, s[12:13]
-; GFX9-NEXT:    v_cndmask_b32_e64 v20, 0, v10, s[14:15]
-; GFX9-NEXT:    v_cndmask_b32_e64 v22, 0, v11, s[16:17]
-; GFX9-NEXT:    v_cndmask_b32_e64 v24, 0, v12, s[18:19]
-; GFX9-NEXT:    v_cndmask_b32_e64 v26, 0, v13, s[20:21]
-; GFX9-NEXT:    v_cndmask_b32_e64 v28, 0, v14, s[22:23]
-; GFX9-NEXT:    v_cndmask_b32_e64 v30, 0, v15, s[24:25]
-; GFX9-NEXT:    v_cndmask_b32_e32 v9, 0, v31, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, v31, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e64 v13, 0, v31, s[6:7]
-; GFX9-NEXT:    v_cndmask_b32_e64 v15, 0, v31, s[8:9]
-; GFX9-NEXT:    v_cndmask_b32_e64 v17, 0, v31, s[10:11]
-; GFX9-NEXT:    v_cndmask_b32_e64 v19, 0, v31, s[12:13]
-; GFX9-NEXT:    v_cndmask_b32_e64 v21, 0, v31, s[14:15]
-; GFX9-NEXT:    v_cndmask_b32_e64 v23, 0, v31, s[16:17]
-; GFX9-NEXT:    v_cndmask_b32_e64 v25, 0, v31, s[18:19]
-; GFX9-NEXT:    v_cndmask_b32_e64 v27, 0, v31, s[20:21]
-; GFX9-NEXT:    v_cndmask_b32_e64 v29, 0, v31, s[22:23]
-; GFX9-NEXT:    v_cndmask_b32_e64 v31, 0, v31, s[24:25]
-; GFX9-NEXT:    v_mov_b32_e32 v1, v48
-; GFX9-NEXT:    v_mov_b32_e32 v2, v35
-; GFX9-NEXT:    v_mov_b32_e32 v3, v33
-; GFX9-NEXT:    v_mov_b32_e32 v4, v36
-; GFX9-NEXT:    v_mov_b32_e32 v5, v49
-; GFX9-NEXT:    v_mov_b32_e32 v6, v37
-; GFX9-NEXT:    v_mov_b32_e32 v7, v34
-; GFX9-NEXT:    v_mov_b32_e32 v8, v38
-; GFX9-NEXT:    v_mov_b32_e32 v10, v50
-; GFX9-NEXT:    v_mov_b32_e32 v12, v39
-; GFX9-NEXT:    v_mov_b32_e32 v14, v32
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[4:5], -1, v4
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[6:7], -1, v5
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[8:9], -1, v6
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[10:11], -1, v7
+; GFX9-NEXT:    v_cndmask_b32_e32 v36, 0, v3, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v48, 0, v4, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v37, 0, v5, s[6:7]
+; GFX9-NEXT:    v_cndmask_b32_e64 v33, 0, v6, s[8:9]
+; GFX9-NEXT:    v_cndmask_b32_e64 v38, 0, v7, s[10:11]
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[12:13], -1, v8
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[14:15], -1, v9
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[16:17], -1, v10
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[18:19], -1, v11
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[20:21], -1, v12
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[22:23], -1, v13
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[24:25], -1, v14
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[26:27], -1, v15
+; GFX9-NEXT:    v_cndmask_b32_e64 v16, 0, v8, s[12:13]
+; GFX9-NEXT:    v_cndmask_b32_e64 v18, 0, v9, s[14:15]
+; GFX9-NEXT:    v_cndmask_b32_e64 v20, 0, v10, s[16:17]
+; GFX9-NEXT:    v_cndmask_b32_e64 v22, 0, v11, s[18:19]
+; GFX9-NEXT:    v_cndmask_b32_e64 v24, 0, v12, s[20:21]
+; GFX9-NEXT:    v_cndmask_b32_e64 v26, 0, v13, s[22:23]
+; GFX9-NEXT:    v_cndmask_b32_e64 v28, 0, v14, s[24:25]
+; GFX9-NEXT:    v_cndmask_b32_e64 v30, 0, v15, s[26:27]
+; GFX9-NEXT:    v_cndmask_b32_e32 v7, 0, v31, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, v31, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, v31, s[6:7]
+; GFX9-NEXT:    v_cndmask_b32_e64 v13, 0, v31, s[8:9]
+; GFX9-NEXT:    v_cndmask_b32_e64 v15, 0, v31, s[10:11]
+; GFX9-NEXT:    v_cndmask_b32_e64 v17, 0, v31, s[12:13]
+; GFX9-NEXT:    v_cndmask_b32_e64 v19, 0, v31, s[14:15]
+; GFX9-NEXT:    v_cndmask_b32_e64 v21, 0, v31, s[16:17]
+; GFX9-NEXT:    v_cndmask_b32_e64 v23, 0, v31, s[18:19]
+; GFX9-NEXT:    v_cndmask_b32_e64 v25, 0, v31, s[20:21]
+; GFX9-NEXT:    v_cndmask_b32_e64 v27, 0, v31, s[22:23]
+; GFX9-NEXT:    v_cndmask_b32_e64 v29, 0, v31, s[24:25]
+; GFX9-NEXT:    v_cndmask_b32_e64 v31, 0, v31, s[26:27]
+; GFX9-NEXT:    v_mov_b32_e32 v1, v49
+; GFX9-NEXT:    v_mov_b32_e32 v2, v34
+; GFX9-NEXT:    v_mov_b32_e32 v3, v39
+; GFX9-NEXT:    v_mov_b32_e32 v4, v35
+; GFX9-NEXT:    v_mov_b32_e32 v5, v32
+; GFX9-NEXT:    v_mov_b32_e32 v6, v36
+; GFX9-NEXT:    v_mov_b32_e32 v8, v48
+; GFX9-NEXT:    v_mov_b32_e32 v10, v37
+; GFX9-NEXT:    v_mov_b32_e32 v12, v33
+; GFX9-NEXT:    v_mov_b32_e32 v14, v38
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
   %cast = addrspacecast <16 x ptr addrspace(5)> %ptr to <16 x ptr>
   ret <16 x ptr> %cast
@@ -939,13 +937,10 @@ define <16 x ptr addrspace(3)> @addrspacecast_v16p0_to_v16p3(<16 x ptr> %ptr) {
 ; HSA-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; HSA-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[0:1]
-; HSA-NEXT:    v_cmp_ne_u64_e64 s[4:5], 0, v[24:25]
 ; HSA-NEXT:    v_cndmask_b32_e32 v0, -1, v0, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[2:3]
-; HSA-NEXT:    v_cmp_ne_u64_e64 s[6:7], 0, v[26:27]
 ; HSA-NEXT:    v_cndmask_b32_e32 v1, -1, v2, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[4:5]
-; HSA-NEXT:    v_cmp_ne_u64_e64 s[8:9], 0, v[28:29]
 ; HSA-NEXT:    v_cndmask_b32_e32 v2, -1, v4, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[6:7]
 ; HSA-NEXT:    v_cndmask_b32_e32 v3, -1, v6, vcc
@@ -954,13 +949,10 @@ define <16 x ptr addrspace(3)> @addrspacecast_v16p0_to_v16p3(<16 x ptr> %ptr) {
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[10:11]
 ; HSA-NEXT:    v_cndmask_b32_e32 v5, -1, v10, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[12:13]
-; HSA-NEXT:    v_cndmask_b32_e64 v13, -1, v26, s[6:7]
 ; HSA-NEXT:    v_cndmask_b32_e32 v6, -1, v12, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[14:15]
-; HSA-NEXT:    v_cndmask_b32_e64 v12, -1, v24, s[4:5]
 ; HSA-NEXT:    v_cndmask_b32_e32 v7, -1, v14, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[16:17]
-; HSA-NEXT:    v_cndmask_b32_e64 v14, -1, v28, s[8:9]
 ; HSA-NEXT:    v_cndmask_b32_e32 v8, -1, v16, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
 ; HSA-NEXT:    v_cndmask_b32_e32 v9, -1, v18, vcc
@@ -968,6 +960,12 @@ define <16 x ptr addrspace(3)> @addrspacecast_v16p0_to_v16p3(<16 x ptr> %ptr) {
 ; HSA-NEXT:    v_cndmask_b32_e32 v10, -1, v20, vcc
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[22:23]
 ; HSA-NEXT:    v_cndmask_b32_e32 v11, -1, v22, vcc
+; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[24:25]
+; HSA-NEXT:    v_cndmask_b32_e32 v12, -1, v24, vcc
+; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[26:27]
+; HSA-NEXT:    v_cndmask_b32_e32 v13, -1, v26, vcc
+; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[28:29]
+; HSA-NEXT:    v_cndmask_b32_e32 v14, -1, v28, vcc
 ; HSA-NEXT:    s_waitcnt vmcnt(0)
 ; HSA-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[30:31]
 ; HSA-NEXT:    v_cndmask_b32_e32 v15, -1, v30, vcc
@@ -1187,65 +1185,64 @@ define <16 x ptr> @addrspacecast_v16p3_to_v16p0(<16 x ptr addrspace(3)> %ptr) {
 ; CI-NEXT:    s_load_dword s4, s[6:7], 0x10
 ; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v0
 ; CI-NEXT:    v_cndmask_b32_e32 v0, 0, v0, vcc
-; CI-NEXT:    v_cmp_ne_u32_e64 s[6:7], -1, v6
-; CI-NEXT:    v_cmp_ne_u32_e64 s[8:9], -1, v7
+; CI-NEXT:    v_cmp_ne_u32_e64 s[6:7], -1, v5
+; CI-NEXT:    v_cmp_ne_u32_e64 s[8:9], -1, v6
 ; CI-NEXT:    s_waitcnt lgkmcnt(0)
 ; CI-NEXT:    v_mov_b32_e32 v31, s4
-; CI-NEXT:    v_cndmask_b32_e32 v48, 0, v31, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v49, 0, v31, vcc
 ; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v1
-; CI-NEXT:    v_cndmask_b32_e32 v35, 0, v1, vcc
-; CI-NEXT:    v_cndmask_b32_e32 v33, 0, v31, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v34, 0, v1, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v39, 0, v31, vcc
 ; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v2
-; CI-NEXT:    v_cndmask_b32_e32 v36, 0, v2, vcc
-; CI-NEXT:    v_cndmask_b32_e32 v49, 0, v31, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v35, 0, v2, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v32, 0, v31, vcc
 ; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v3
-; CI-NEXT:    v_cndmask_b32_e32 v37, 0, v3, vcc
-; CI-NEXT:    v_cndmask_b32_e32 v34, 0, v31, vcc
-; CI-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v4
-; CI-NEXT:    v_cmp_ne_u32_e64 s[4:5], -1, v5
-; CI-NEXT:    v_cndmask_b32_e32 v38, 0, v4, vcc
-; CI-NEXT:    v_cndmask_b32_e64 v50, 0, v5, s[4:5]
-; CI-NEXT:    v_cndmask_b32_e64 v39, 0, v6, s[6:7]
-; CI-NEXT:    v_cndmask_b32_e64 v32, 0, v7, s[8:9]
-; CI-NEXT:    v_cmp_ne_u32_e64 s[10:11], -1, v8
-; CI-NEXT:    v_cmp_ne_u32_e64 s[12:13], -1, v9
-; CI-NEXT:    v_cmp_ne_u32_e64 s[14:15], -1, v10
-; CI-NEXT:    v_cmp_ne_u32_e64 s[16:17], -1, v11
-; CI-NEXT:    v_cmp_ne_u32_e64 s[18:19], -1, v12
-; CI-NEXT:    v_cmp_ne_u32_e64 s[20:21], -1, v13
-; CI-NEXT:    v_cmp_ne_u32_e64 s[22:23], -1, v14
-; CI-NEXT:    v_cmp_ne_u32_e64 s[24:25], -1, v15
-; CI-NEXT:    v_cndmask_b32_e64 v16, 0, v8, s[10:11]
-; CI-NEXT:    v_cndmask_b32_e64 v18, 0, v9, s[12:13]
-; CI-NEXT:    v_cndmask_b32_e64 v20, 0, v10, s[14:15]
-; CI-NEXT:    v_cndmask_b32_e64 v22, 0, v11, s[16:17]
-; CI-NEXT:    v_cndmask_b32_e64 v24, 0, v12, s[18:19]
-; CI-NEXT:    v_cndmask_b32_e64 v26, 0, v13, s[20:21]
-; CI-NEXT:    v_cndmask_b32_e64 v28, 0, v14, s[22:23]
-; CI-NEXT:    v_cndmask_b32_e64 v30, 0, v15, s[24:25]
-; CI-NEXT:    v_cndmask_b32_e32 v9, 0, v31, vcc
-; CI-NEXT:    v_cndmask_b32_e64 v11, 0, v31, s[4:5]
-; CI-NEXT:    v_cndmask_b32_e64 v13, 0, v31, s[6:7]
-; CI-NEXT:    v_cndmask_b32_e64 v15, 0, v31, s[8:9]
-; CI-NEXT:    v_cndmask_b32_e64 v17, 0, v31, s[10:11]
-; CI-NEXT:    v_cndmask_b32_e64 v19, 0, v31, s[12:13]
-; CI-NEXT:    v_cndmask_b32_e64 v21, 0, v31, s[14:15]
-; CI-NEXT:    v_cndmask_b32_e64 v23, 0, v31, s[16:17]
-; CI-NEXT:    v_cndmask_b32_e64 v25, 0, v31, s[18:19]
-; CI-NEXT:    v_cndmask_b32_e64 v27, 0, v31, s[20:21]
-; CI-NEXT:    v_cndmask_b32_e64 v29, 0, v31, s[22:23]
-; CI-NEXT:    v_cndmask_b32_e64 v31, 0, v31, s[24:25]
-; CI-NEXT:    v_mov_b32_e32 v1, v48
-; CI-NEXT:    v_mov_b32_e32 v2, v35
-; CI-NEXT:    v_mov_b32_e32 v3, v33
-; CI-NEXT:    v_mov_b32_e32 v4, v36
-; CI-NEXT:    v_mov_b32_e32 v5, v49
-; CI-NEXT:    v_mov_b32_e32 v6, v37
-; CI-NEXT:    v_mov_b32_e32 v7, v34
-; CI-NEXT:    v_mov_b32_e32 v8, v38
-; CI-NEXT:    v_mov_b32_e32 v10, v50
-; CI-NEXT:    v_mov_b32_e32 v12, v39
-; CI-NEXT:    v_mov_b32_e32 v14, v32
+; CI-NEXT:    v_cmp_ne_u32_e64 s[4:5], -1, v4
+; CI-NEXT:    v_cmp_ne_u32_e64 s[10:11], -1, v7
+; CI-NEXT:    v_cndmask_b32_e32 v36, 0, v3, vcc
+; CI-NEXT:    v_cndmask_b32_e64 v48, 0, v4, s[4:5]
+; CI-NEXT:    v_cndmask_b32_e64 v37, 0, v5, s[6:7]
+; CI-NEXT:    v_cndmask_b32_e64 v33, 0, v6, s[8:9]
+; CI-NEXT:    v_cndmask_b32_e64 v38, 0, v7, s[10:11]
+; CI-NEXT:    v_cmp_ne_u32_e64 s[12:13], -1, v8
+; CI-NEXT:    v_cmp_ne_u32_e64 s[14:15], -1, v9
+; CI-NEXT:    v_cmp_ne_u32_e64 s[16:17], -1, v10
+; CI-NEXT:    v_cmp_ne_u32_e64 s[18:19], -1, v11
+; CI-NEXT:    v_cmp_ne_u32_e64 s[20:21], -1, v12
+; CI-NEXT:    v_cmp_ne_u32_e64 s[22:23], -1, v13
+; CI-NEXT:    v_cmp_ne_u32_e64 s[24:25], -1, v14
+; CI-NEXT:    v_cmp_ne_u32_e64 s[26:27], -1, v15
+; CI-NEXT:    v_cndmask_b32_e64 v16, 0, v8, s[12:13]
+; CI-NEXT:    v_cndmask_b32_e64 v18, 0, v9, s[14:15]
+; CI-NEXT:    v_cndmask_b32_e64 v20, 0, v10, s[16:17]
+; CI-NEXT:    v_cndmask_b32_e64 v22, 0, v11, s[18:19]
+; CI-NEXT:    v_cndmask_b32_e64 v24, 0, v12, s[20:21]
+; CI-NEXT:    v_cndmask_b32_e64 v26, 0, v13, s[22:23]
+; CI-NEXT:    v_cndmask_b32_e64 v28, 0, v14, s[24:25]
+; CI-NEXT:    v_cndmask_b32_e64 v30, 0, v15, s[26:27]
+; CI-NEXT:    v_cndmask_b32_e32 v7, 0, v31, vcc
+; CI-NEXT:    v_cndmask_b32_e64 v9, 0, v31, s[4:5]
+; CI-NEXT:    v_cndmask_b32_e64 v11, 0, v31, s[6:7]
+; CI-NEXT:    v_cndmask_b32_e64 v13, 0, v31, s[8:9]
+; CI-NEXT:    v_cndmask_b32_e64 v15, 0, v31, s[10:11]
+; CI-NEXT:    v_cndmask_b32_e64 v17, 0, v31, s[12:13]
+; CI-NEXT:    v_cndmask_b32_e64 v19, 0, v31, s[14:15]
+; CI-NEXT:    v_cndmask_b32_e64 v21, 0, v31, s[16:17]
+; CI-NEXT:    v_cndmask_b32_e64 v23, 0, v31, s[18:19]
+; CI-NEXT:    v_cndmask_b32_e64 v25, 0, v31, s[20:21]
+; CI-NEXT:    v_cndmask_b32_e64 v27, 0, v31, s[22:23]
+; CI-NEXT:    v_cndmask_b32_e64 v29, 0, v31, s[24:25]
+; CI-NEXT:    v_cndmask_b32_e64 v31, 0, v31, s[26:27]
+; CI-NEXT:    v_mov_b32_e32 v1, v49
+; CI-NEXT:    v_mov_b32_e32 v2, v34
+; CI-NEXT:    v_mov_b32_e32 v3, v39
+; CI-NEXT:    v_mov_b32_e32 v4, v35
+; CI-NEXT:    v_mov_b32_e32 v5, v32
+; CI-NEXT:    v_mov_b32_e32 v6, v36
+; CI-NEXT:    v_mov_b32_e32 v8, v48
+; CI-NEXT:    v_mov_b32_e32 v10, v37
+; CI-NEXT:    v_mov_b32_e32 v12, v33
+; CI-NEXT:    v_mov_b32_e32 v14, v38
 ; CI-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX9-LABEL: addrspacecast_v16p3_to_v16p0:
@@ -1255,63 +1252,62 @@ define <16 x ptr> @addrspacecast_v16p3_to_v16p0(<16 x ptr addrspace(3)> %ptr) {
 ; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v0
 ; GFX9-NEXT:    v_mov_b32_e32 v31, s5
 ; GFX9-NEXT:    v_cndmask_b32_e32 v0, 0, v0, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v48, 0, v31, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v49, 0, v31, vcc
 ; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v1
-; GFX9-NEXT:    v_cndmask_b32_e32 v35, 0, v1, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v33, 0, v31, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v34, 0, v1, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v39, 0, v31, vcc
 ; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v2
-; GFX9-NEXT:    v_cndmask_b32_e32 v36, 0, v2, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v49, 0, v31, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v35, 0, v2, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v32, 0, v31, vcc
 ; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v3
-; GFX9-NEXT:    v_cndmask_b32_e32 v37, 0, v3, vcc
-; GFX9-NEXT:    v_cndmask_b32_e32 v34, 0, v31, vcc
-; GFX9-NEXT:    v_cmp_ne_u32_e32 vcc, -1, v4
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[4:5], -1, v5
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[6:7], -1, v6
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[8:9], -1, v7
-; GFX9-NEXT:    v_cndmask_b32_e32 v38, 0, v4, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v50, 0, v5, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e64 v39, 0, v6, s[6:7]
-; GFX9-NEXT:    v_cndmask_b32_e64 v32, 0, v7, s[8:9]
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[10:11], -1, v8
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[12:13], -1, v9
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[14:15], -1, v10
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[16:17], -1, v11
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[18:19], -1, v12
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[20:21], -1, v13
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[22:23], -1, v14
-; GFX9-NEXT:    v_cmp_ne_u32_e64 s[24:25], -1, v15
-; GFX9-NEXT:    v_cndmask_b32_e64 v16, 0, v8, s[10:11]
-; GFX9-NEXT:    v_cndmask_b32_e64 v18, 0, v9, s[12:13]
-; GFX9-NEXT:    v_cndmask_b32_e64 v20, 0, v10, s[14:15]
-; GFX9-NEXT:    v_cndmask_b32_e64 v22, 0, v11, s[16:17]
-; GFX9-NEXT:    v_cndmask_b32_e64 v24, 0, v12, s[18:19]
-; GFX9-NEXT:    v_cndmask_b32_e64 v26, 0, v13, s[20:21]
-; GFX9-NEXT:    v_cndmask_b32_e64 v28, 0, v14, s[22:23]
-; GFX9-NEXT:    v_cndmask_b32_e64 v30, 0, v15, s[24:25]
-; GFX9-NEXT:    v_cndmask_b32_e32 v9, 0, v31, vcc
-; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, v31, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e64 v13, 0, v31, s[6:7]
-; GFX9-NEXT:    v_cndmask_b32_e64 v15, 0, v31, s[8:9]
-; GFX9-NEXT:    v_cndmask_b32_e64 v17, 0, v31, s[10:11]
-; GFX9-NEXT:    v_cndmask_b32_e64 v19, 0, v31, s[12:13]
-; GFX9-NEXT:    v_cndmask_b32_e64 v21, 0, v31, s[14:15]
-; GFX9-NEXT:    v_cndmask_b32_e64 v23, 0, v31, s[16:17]
-; GFX9-NEXT:    v_cndmask_b32_e64 v25, 0, v31, s[18:19]
-; GFX9-NEXT:    v_cndmask_b32_e64 v27, 0, v31, s[20:21]
-; GFX9-NEXT:    v_cndmask_b32_e64 v29, 0, v31, s[22:23]
-; GFX9-NEXT:    v_cndmask_b32_e64 v31, 0, v31, s[24:25]
-; GFX9-NEXT:    v_mov_b32_e32 v1, v48
-; GFX9-NEXT:    v_mov_b32_e32 v2, v35
-; GFX9-NEXT:    v_mov_b32_e32 v3, v33
-; GFX9-NEXT:    v_mov_b32_e32 v4, v36
-; GFX9-NEXT:    v_mov_b32_e32 v5, v49
-; GFX9-NEXT:    v_mov_b32_e32 v6, v37
-; GFX9-NEXT:    v_mov_b32_e32 v7, v34
-; GFX9-NEXT:    v_mov_b32_e32 v8, v38
-; GFX9-NEXT:    v_mov_b32_e32 v10, v50
-; GFX9-NEXT:    v_mov_b32_e32 v12, v39
-; GFX9-NEXT:    v_mov_b32_e32 v14, v32
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[4:5], -1, v4
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[6:7], -1, v5
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[8:9], -1, v6
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[10:11], -1, v7
+; GFX9-NEXT:    v_cndmask_b32_e32 v36, 0, v3, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v48, 0, v4, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v37, 0, v5, s[6:7]
+; GFX9-NEXT:    v_cndmask_b32_e64 v33, 0, v6, s[8:9]
+; GFX9-NEXT:    v_cndmask_b32_e64 v38, 0, v7, s[10:11]
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[12:13], -1, v8
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[14:15], -1, v9
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[16:17], -1, v10
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[18:19], -1, v11
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[20:21], -1, v12
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[22:23], -1, v13
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[24:25], -1, v14
+; GFX9-NEXT:    v_cmp_ne_u32_e64 s[26:27], -1, v15
+; GFX9-NEXT:    v_cndmask_b32_e64 v16, 0, v8, s[12:13]
+; GFX9-NEXT:    v_cndmask_b32_e64 v18, 0, v9, s[14:15]
+; GFX9-NEXT:    v_cndmask_b32_e64 v20, 0, v10, s[16:17]
+; GFX9-NEXT:    v_cndmask_b32_e64 v22, 0, v11, s[18:19]
+; GFX9-NEXT:    v_cndmask_b32_e64 v24, 0, v12, s[20:21]
+; GFX9-NEXT:    v_cndmask_b32_e64 v26, 0, v13, s[22:23]
+; GFX9-NEXT:    v_cndmask_b32_e64 v28, 0, v14, s[24:25]
+; GFX9-NEXT:    v_cndmask_b32_e64 v30, 0, v15, s[26:27]
+; GFX9-NEXT:    v_cndmask_b32_e32 v7, 0, v31, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v9, 0, v31, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, v31, s[6:7]
+; GFX9-NEXT:    v_cndmask_b32_e64 v13, 0, v31, s[8:9]
+; GFX9-NEXT:    v_cndmask_b32_e64 v15, 0, v31, s[10:11]
+; GFX9-NEXT:    v_cndmask_b32_e64 v17, 0, v31, s[12:13]
+; GFX9-NEXT:    v_cndmask_b32_e64 v19, 0, v31, s[14:15]
+; GFX9-NEXT:    v_cndmask_b32_e64 v21, 0, v31, s[16:17]
+; GFX9-NEXT:    v_cndmask_b32_e64 v23, 0, v31, s[18:19]
+; GFX9-NEXT:    v_cndmask_b32_e64 v25, 0, v31, s[20:21]
+; GFX9-NEXT:    v_cndmask_b32_e64 v27, 0, v31, s[22:23]
+; GFX9-NEXT:    v_cndmask_b32_e64 v29, 0, v31, s[24:25]
+; GFX9-NEXT:    v_cndmask_b32_e64 v31, 0, v31, s[26:27]
+; GFX9-NEXT:    v_mov_b32_e32 v1, v49
+; GFX9-NEXT:    v_mov_b32_e32 v2, v34
+; GFX9-NEXT:    v_mov_b32_e32 v3, v39
+; GFX9-NEXT:    v_mov_b32_e32 v4, v35
+; GFX9-NEXT:    v_mov_b32_e32 v5, v32
+; GFX9-NEXT:    v_mov_b32_e32 v6, v36
+; GFX9-NEXT:    v_mov_b32_e32 v8, v48
+; GFX9-NEXT:    v_mov_b32_e32 v10, v37
+; GFX9-NEXT:    v_mov_b32_e32 v12, v33
+; GFX9-NEXT:    v_mov_b32_e32 v14, v38
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
   %cast = addrspacecast <16 x ptr addrspace(3)> %ptr to <16 x ptr>
   ret <16 x ptr> %cast
@@ -1550,13 +1546,9 @@ define <16 x ptr> @addrspacecast_v16p6_to_v16p0(<16 x ptr addrspace(6)> %ptr) {
 ; HSA-LABEL: addrspacecast_v16p6_to_v16p0:
 ; HSA:       ; %bb.0:
 ; HSA-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; HSA-NEXT:    v_mov_b32_e32 v30, v15
 ; HSA-NEXT:    v_mov_b32_e32 v28, v14
-; HSA-NEXT:    v_mov_b32_e32 v26, v13
 ; HSA-NEXT:    v_mov_b32_e32 v24, v12
-; HSA-NEXT:    v_mov_b32_e32 v22, v11
 ; HSA-NEXT:    v_mov_b32_e32 v20, v10
-; HSA-NEXT:    v_mov_b32_e32 v18, v9
 ; HSA-NEXT:    v_mov_b32_e32 v16, v8
 ; HSA-NEXT:    v_mov_b32_e32 v14, v7
 ; HSA-NEXT:    v_mov_b32_e32 v12, v6
@@ -1569,6 +1561,10 @@ define <16 x ptr> @addrspacecast_v16p6_to_v16p0(<16 x ptr addrspace(6)> %ptr) {
 ; HSA-NEXT:    v_mov_b32_e32 v3, 0
 ; HSA-NEXT:    v_mov_b32_e32 v5, 0
 ; HSA-NEXT:    v_mov_b32_e32 v7, 0
+; HSA-NEXT:    v_mov_b32_e32 v18, v9
+; HSA-NEXT:    v_mov_b32_e32 v22, v11
+; HSA-NEXT:    v_mov_b32_e32 v26, v13
+; HSA-NEXT:    v_mov_b32_e32 v30, v15
 ; HSA-NEXT:    v_mov_b32_e32 v9, 0
 ; HSA-NEXT:    v_mov_b32_e32 v11, 0
 ; HSA-NEXT:    v_mov_b32_e32 v13, 0
diff --git a/llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll b/llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll
index 823db84a053b8..4ce46bbaf45ac 100644
--- a/llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll
+++ b/llvm/test/CodeGen/AMDGPU/agpr-copy-no-free-registers.ll
@@ -104,13 +104,12 @@ define void @no_free_vgprs_at_agpr_to_agpr_copy(float %v0, float %v1) #0 {
 ; GFX908-NEXT:    ;;#ASMSTART
 ; GFX908-NEXT:    ; copy
 ; GFX908-NEXT:    ;;#ASMEND
-; GFX908-NEXT:    v_accvgpr_read_b32 v39, a1
-; GFX908-NEXT:    s_nop 1
-; GFX908-NEXT:    v_accvgpr_write_b32 a16, v39
 ; GFX908-NEXT:    buffer_load_dword v39, off, s[0:3], s32 ; 4-byte Folded Reload
+; GFX908-NEXT:    v_accvgpr_read_b32 v32, a1
 ; GFX908-NEXT:    s_waitcnt vmcnt(0)
 ; GFX908-NEXT:    v_accvgpr_write_b32 a0, v39 ; Reload Reuse
 ; GFX908-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
+; GFX908-NEXT:    v_accvgpr_write_b32 a16, v32
 ; GFX908-NEXT:    v_accvgpr_write_b32 a11, v38 ; Reload Reuse
 ; GFX908-NEXT:    v_accvgpr_write_b32 a12, v37 ; Reload Reuse
 ; GFX908-NEXT:    v_accvgpr_write_b32 a13, v36 ; Reload Reuse
@@ -369,7 +368,7 @@ define amdgpu_kernel void @no_agpr_no_reserve(ptr addrspace(1) %arg) #0 {
 ; FIXME: This case is broken. The asm value passed in v32 is live
 ; through the range where the reserved def for the copy is introduced,
 ; clobbering the user value.
-define void @v32_asm_def_use(float %v0, float %v1) #0 {
+define void @v32_asm_def_use(float %v0, float %v1) #4 {
 ; GFX908-LABEL: v32_asm_def_use:
 ; GFX908:       ; %bb.0:
 ; GFX908-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
@@ -1002,13 +1001,12 @@ define void @no_free_vgprs_at_sgpr_to_agpr_copy(float %v0, float %v1) #0 {
 ; GFX908-NEXT:    ;;#ASMSTART
 ; GFX908-NEXT:    ; copy
 ; GFX908-NEXT:    ;;#ASMEND
-; GFX908-NEXT:    v_accvgpr_read_b32 v39, a1
-; GFX908-NEXT:    s_nop 1
-; GFX908-NEXT:    v_accvgpr_write_b32 a32, v39
 ; GFX908-NEXT:    buffer_load_dword v39, off, s[0:3], s32 ; 4-byte Folded Reload
+; GFX908-NEXT:    v_accvgpr_read_b32 v33, a1
 ; GFX908-NEXT:    s_waitcnt vmcnt(0)
 ; GFX908-NEXT:    v_accvgpr_write_b32 a0, v39 ; Reload Reuse
 ; GFX908-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
+; GFX908-NEXT:    v_accvgpr_write_b32 a32, v33
 ; GFX908-NEXT:    v_accvgpr_write_b32 a11, v38 ; Reload Reuse
 ; GFX908-NEXT:    v_accvgpr_write_b32 a12, v37 ; Reload Reuse
 ; GFX908-NEXT:    v_accvgpr_write_b32 a13, v36 ; Reload Reuse
@@ -1147,3 +1145,4 @@ attributes #0 = { "amdgpu-waves-per-eu"="6,6" }
 attributes #1 = { convergent nounwind readnone willreturn }
 attributes #2 = { nounwind readnone willreturn }
 attributes #3 = { "amdgpu-waves-per-eu"="7,7" }
+attributes #4 = { "amdgpu-waves-per-eu"="6,6" "amdgpu-flat-work-group-size"="1024,1024" }
diff --git a/llvm/test/CodeGen/AMDGPU/amdgpu-sw-lower-lds-static-lds-test.ll b/llvm/test/CodeGen/AMDGPU/amdgpu-sw-lower-lds-static-lds-test.ll
index 806a4aa70edcf..066b9429425ac 100644
--- a/llvm/test/CodeGen/AMDGPU/amdgpu-sw-lower-lds-static-lds-test.ll
+++ b/llvm/test/CodeGen/AMDGPU/amdgpu-sw-lower-lds-static-lds-test.ll
@@ -1,5 +1,6 @@
 ; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --check-globals all --version 4
 ; RUN: opt < %s -passes=amdgpu-sw-lower-lds -S -amdgpu-asan-instrument-lds=false -mtriple=amdgcn-amd-amdhsa | FileCheck %s
+; RUN: llc < %s -enable-new-pm -stop-after=amdgpu-sw-lower-lds -amdgpu-asan-instrument-lds=false -mtriple=amdgcn-amd-amdhsa | FileCheck %s
 
 ; Test to check if static LDS accesses in kernel are lowered correctly.
 @lds_1 = internal addrspace(3) global [1 x i8] poison, align 4
diff --git a/llvm/test/CodeGen/AMDGPU/amdhsa-trap-num-sgprs.ll b/llvm/test/CodeGen/AMDGPU/amdhsa-trap-num-sgprs.ll
index a6d8c6f41eee5..3e19ee5567929 100644
--- a/llvm/test/CodeGen/AMDGPU/amdhsa-trap-num-sgprs.ll
+++ b/llvm/test/CodeGen/AMDGPU/amdhsa-trap-num-sgprs.ll
@@ -2,8 +2,8 @@
 ; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx803 -mattr=-trap-handler < %s | FileCheck %s --check-prefixes=GCN,TRAP-HANDLER-DISABLE
 
 ; GCN-LABEL: {{^}}amdhsa_trap_num_sgprs
-; TRAP-HANDLER-ENABLE:  NumSgprs: 77
-; TRAP-HANDLER-DISABLE: NumSgprs: 92
+; TRAP-HANDLER-ENABLE:  NumSgprs: 61
+; TRAP-HANDLER-DISABLE: NumSgprs: 77
 define amdgpu_kernel void @amdhsa_trap_num_sgprs(
     ptr addrspace(1) %out0, i32 %in0,
     ptr addrspace(1) %out1, i32 %in1,
diff --git a/llvm/test/CodeGen/AMDGPU/bf16.ll b/llvm/test/CodeGen/AMDGPU/bf16.ll
index 8e3c905b0eae5..ec469b3020cce 100644
--- a/llvm/test/CodeGen/AMDGPU/bf16.ll
+++ b/llvm/test/CodeGen/AMDGPU/bf16.ll
@@ -662,14 +662,12 @@ define <64 x bfloat> @v_load_global_v64bf16(ptr addrspace(1) %ptr) {
 ; GCN-NEXT:    v_add_i32_e32 v10, vcc, 0x70, v0
 ; GCN-NEXT:    v_add_i32_e32 v11, vcc, 0x6c, v0
 ; GCN-NEXT:    v_add_i32_e32 v12, vcc, 0x68, v0
-; GCN-NEXT:    v_add_i32_e32 v13, vcc, 0x64, v0
-; GCN-NEXT:    v_add_i32_e32 v14, vcc, 0x60, v0
 ; GCN-NEXT:    s_mov_b32 s4, s6
 ; GCN-NEXT:    s_mov_b32 s5, s6
 ; GCN-NEXT:    buffer_load_dwordx4 v[3:6], v[1:2], s[4:7], 0 addr64 offset:112
+; GCN-NEXT:    v_add_i32_e32 v13, vcc, 0x64, v0
+; GCN-NEXT:    v_add_i32_e32 v14, vcc, 0x60, v0
 ; GCN-NEXT:    v_add_i32_e32 v15, vcc, 0x5c, v0
-; GCN-NEXT:    v_add_i32_e32 v16, vcc, 0x58, v0
-; GCN-NEXT:    v_add_i32_e32 v17, vcc, 0x54, v0
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
 ; GCN-NEXT:    buffer_store_dword v6, v7, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v5, v8, s[0:3], 0 offen
@@ -677,9 +675,9 @@ define <64 x bfloat> @v_load_global_v64bf16(ptr addrspace(1) %ptr) {
 ; GCN-NEXT:    buffer_store_dword v3, v10, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    buffer_load_dwordx4 v[3:6], v[1:2], s[4:7], 0 addr64 offset:96
-; GCN-NEXT:    v_add_i32_e32 v7, vcc, 0x50, v0
-; GCN-NEXT:    v_add_i32_e32 v8, vcc, 0x4c, v0
-; GCN-NEXT:    v_add_i32_e32 v9, vcc, 0x48, v0
+; GCN-NEXT:    v_add_i32_e32 v7, vcc, 0x58, v0
+; GCN-NEXT:    v_add_i32_e32 v8, vcc, 0x54, v0
+; GCN-NEXT:    v_add_i32_e32 v9, vcc, 0x50, v0
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
 ; GCN-NEXT:    buffer_store_dword v6, v11, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v5, v12, s[0:3], 0 offen
@@ -687,60 +685,63 @@ define <64 x bfloat> @v_load_global_v64bf16(ptr addrspace(1) %ptr) {
 ; GCN-NEXT:    buffer_store_dword v3, v14, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    buffer_load_dwordx4 v[3:6], v[1:2], s[4:7], 0 addr64 offset:80
-; GCN-NEXT:    v_add_i32_e32 v10, vcc, 0x44, v0
-; GCN-NEXT:    v_add_i32_e32 v11, vcc, 64, v0
-; GCN-NEXT:    v_add_i32_e32 v19, vcc, 60, v0
+; GCN-NEXT:    v_add_i32_e32 v10, vcc, 0x4c, v0
+; GCN-NEXT:    v_add_i32_e32 v11, vcc, 0x48, v0
+; GCN-NEXT:    v_add_i32_e32 v12, vcc, 0x44, v0
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
 ; GCN-NEXT:    buffer_store_dword v6, v15, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v5, v16, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v4, v17, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v3, v7, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v5, v7, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v4, v8, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v3, v9, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    buffer_load_dwordx4 v[3:6], v[1:2], s[4:7], 0 addr64 offset:64
+; GCN-NEXT:    v_add_i32_e32 v7, vcc, 64, v0
+; GCN-NEXT:    v_add_i32_e32 v19, vcc, 60, v0
 ; GCN-NEXT:    v_add_i32_e32 v20, vcc, 56, v0
-; GCN-NEXT:    v_add_i32_e32 v21, vcc, 52, v0
-; GCN-NEXT:    v_add_i32_e32 v22, vcc, 48, v0
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_dword v6, v8, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v5, v9, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v4, v10, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v3, v11, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v6, v10, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v5, v11, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v4, v12, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v3, v7, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    buffer_load_dwordx4 v[3:6], v[1:2], s[4:7], 0 addr64 offset:48
-; GCN-NEXT:    buffer_load_dwordx4 v[7:10], v[1:2], s[4:7], 0 addr64 offset:32
+; GCN-NEXT:    buffer_load_dwordx4 v[3:6], v[1:2], s[4:7], 0 addr64 offset:32
+; GCN-NEXT:    buffer_load_dwordx4 v[7:10], v[1:2], s[4:7], 0 addr64 offset:48
+; GCN-NEXT:    v_add_i32_e32 v21, vcc, 52, v0
 ; GCN-NEXT:    buffer_load_dwordx4 v[11:14], v[1:2], s[4:7], 0 addr64
 ; GCN-NEXT:    buffer_load_dwordx4 v[15:18], v[1:2], s[4:7], 0 addr64 offset:16
-; GCN-NEXT:    s_waitcnt vmcnt(3)
-; GCN-NEXT:    buffer_store_dword v6, v19, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v1, vcc, 44, v0
-; GCN-NEXT:    buffer_store_dword v5, v20, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v2, vcc, 40, v0
-; GCN-NEXT:    buffer_store_dword v4, v21, s[0:3], 0 offen
+; GCN-NEXT:    s_waitcnt vmcnt(2)
+; GCN-NEXT:    buffer_store_dword v10, v19, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v1, vcc, 48, v0
+; GCN-NEXT:    buffer_store_dword v9, v20, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v2, vcc, 44, v0
+; GCN-NEXT:    buffer_store_dword v8, v21, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_add_i32_e32 v4, vcc, 36, v0
-; GCN-NEXT:    buffer_store_dword v3, v22, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v8, vcc, 40, v0
+; GCN-NEXT:    buffer_store_dword v7, v1, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v1, vcc, 36, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_add_i32_e32 v3, vcc, 32, v0
-; GCN-NEXT:    v_add_i32_e32 v5, vcc, 28, v0
-; GCN-NEXT:    v_add_i32_e32 v6, vcc, 24, v0
+; GCN-NEXT:    v_add_i32_e32 v7, vcc, 32, v0
+; GCN-NEXT:    v_add_i32_e32 v9, vcc, 28, v0
+; GCN-NEXT:    v_add_i32_e32 v10, vcc, 24, v0
 ; GCN-NEXT:    v_add_i32_e32 v19, vcc, 20, v0
-; GCN-NEXT:    v_add_i32_e32 v20, vcc, 16, v0
-; GCN-NEXT:    s_waitcnt vmcnt(6)
-; GCN-NEXT:    buffer_store_dword v10, v1, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v1, vcc, 12, v0
-; GCN-NEXT:    buffer_store_dword v9, v2, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v2, vcc, 8, v0
-; GCN-NEXT:    buffer_store_dword v8, v4, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v4, vcc, 4, v0
-; GCN-NEXT:    buffer_store_dword v7, v3, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v6, v2, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v2, vcc, 16, v0
+; GCN-NEXT:    buffer_store_dword v5, v8, s[0:3], 0 offen
+; GCN-NEXT:    s_waitcnt expcnt(0)
+; GCN-NEXT:    v_add_i32_e32 v5, vcc, 12, v0
+; GCN-NEXT:    buffer_store_dword v4, v1, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v1, vcc, 8, v0
+; GCN-NEXT:    buffer_store_dword v3, v7, s[0:3], 0 offen
+; GCN-NEXT:    s_waitcnt expcnt(0)
+; GCN-NEXT:    v_add_i32_e32 v3, vcc, 4, v0
 ; GCN-NEXT:    s_waitcnt vmcnt(8)
-; GCN-NEXT:    buffer_store_dword v18, v5, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v17, v6, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v18, v9, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v17, v10, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v16, v19, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v15, v20, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v14, v1, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v13, v2, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v12, v4, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v15, v2, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v14, v5, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v13, v1, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v12, v3, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
@@ -758,14 +759,6 @@ define <64 x bfloat> @v_load_global_v64bf16(ptr addrspace(1) %ptr) {
 ; GFX7-NEXT:    v_add_i32_e32 v9, vcc, 0x74, v0
 ; GFX7-NEXT:    v_add_i32_e32 v10, vcc, 0x70, v0
 ; GFX7-NEXT:    v_add_i32_e32 v19, vcc, 52, v0
-; GFX7-NEXT:    v_add_i32_e32 v20, vcc, 48, v0
-; GFX7-NEXT:    v_add_i32_e32 v21, vcc, 44, v0
-; GFX7-NEXT:    v_add_i32_e32 v22, vcc, 40, v0
-; GFX7-NEXT:    v_add_i32_e32 v23, vcc, 36, v0
-; GFX7-NEXT:    v_add_i32_e32 v24, vcc, 32, v0
-; GFX7-NEXT:    v_add_i32_e32 v25, vcc, 28, v0
-; GFX7-NEXT:    v_add_i32_e32 v26, vcc, 24, v0
-; GFX7-NEXT:    v_add_i32_e32 v27, vcc, 20, v0
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
 ; GFX7-NEXT:    buffer_store_dword v6, v7, s[0:3], 0 offen
 ; GFX7-NEXT:    buffer_store_dword v5, v8, s[0:3], 0 offen
@@ -809,26 +802,34 @@ define <64 x bfloat> @v_load_global_v64bf16(ptr addrspace(1) %ptr) {
 ; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 56, v0
 ; GFX7-NEXT:    s_waitcnt vmcnt(3)
 ; GFX7-NEXT:    buffer_store_dword v6, v1, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 16, v0
+; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 48, v0
 ; GFX7-NEXT:    buffer_store_dword v5, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 12, v0
+; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 44, v0
 ; GFX7-NEXT:    buffer_store_dword v4, v19, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v4, vcc, 8, v0
-; GFX7-NEXT:    buffer_store_dword v3, v20, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 4, v0
+; GFX7-NEXT:    v_add_i32_e32 v4, vcc, 40, v0
+; GFX7-NEXT:    buffer_store_dword v3, v1, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 36, v0
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 32, v0
+; GFX7-NEXT:    v_add_i32_e32 v5, vcc, 28, v0
+; GFX7-NEXT:    v_add_i32_e32 v6, vcc, 24, v0
+; GFX7-NEXT:    v_add_i32_e32 v19, vcc, 20, v0
 ; GFX7-NEXT:    s_waitcnt vmcnt(6)
-; GFX7-NEXT:    buffer_store_dword v10, v21, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v9, v22, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v8, v23, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v7, v24, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v10, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 16, v0
+; GFX7-NEXT:    buffer_store_dword v9, v4, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v4, vcc, 12, v0
+; GFX7-NEXT:    buffer_store_dword v8, v1, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 8, v0
+; GFX7-NEXT:    buffer_store_dword v7, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 4, v0
 ; GFX7-NEXT:    s_waitcnt vmcnt(9)
-; GFX7-NEXT:    buffer_store_dword v14, v25, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v13, v26, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v12, v27, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v11, v1, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v14, v5, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v13, v6, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v12, v19, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v11, v2, s[0:3], 0 offen
 ; GFX7-NEXT:    s_waitcnt vmcnt(12)
-; GFX7-NEXT:    buffer_store_dword v18, v2, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v17, v4, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v18, v4, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v17, v1, s[0:3], 0 offen
 ; GFX7-NEXT:    buffer_store_dword v16, v3, s[0:3], 0 offen
 ; GFX7-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
@@ -1335,83 +1336,83 @@ define void @v_store_global_v32bf16(<32 x bfloat> %val, ptr addrspace(1) %ptr) {
 ; GCN-LABEL: v_store_global_v32bf16:
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v23
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v21
+; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GCN-NEXT:    v_lshrrev_b32_e32 v23, 16, v23
+; GCN-NEXT:    v_lshrrev_b32_e32 v31, 16, v21
+; GCN-NEXT:    v_alignbit_b32 v21, v23, v22, 16
+; GCN-NEXT:    v_alignbit_b32 v20, v31, v20, 16
+; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GCN-NEXT:    v_lshrrev_b32_e32 v19, 16, v19
+; GCN-NEXT:    v_alignbit_b32 v19, v19, v18, 16
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
+; GCN-NEXT:    v_lshrrev_b32_e32 v17, 16, v17
+; GCN-NEXT:    v_alignbit_b32 v18, v17, v16, 16
 ; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
 ; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
 ; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GCN-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
-; GCN-NEXT:    v_lshrrev_b32_e32 v31, 16, v5
+; GCN-NEXT:    v_lshrrev_b32_e32 v16, 16, v5
 ; GCN-NEXT:    v_alignbit_b32 v5, v7, v6, 16
-; GCN-NEXT:    v_alignbit_b32 v4, v31, v4, 16
+; GCN-NEXT:    v_alignbit_b32 v4, v16, v4, 16
+; GCN-NEXT:    s_mov_b32 s6, 0
+; GCN-NEXT:    s_mov_b32 s7, 0xf000
 ; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
 ; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GCN-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
-; GCN-NEXT:    v_alignbit_b32 v3, v3, v2, 16
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GCN-NEXT:    v_lshrrev_b32_e32 v1, 16, v1
-; GCN-NEXT:    v_alignbit_b32 v2, v1, v0, 16
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v15
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v14
-; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v13
-; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v12
-; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GCN-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GCN-NEXT:    v_alignbit_b32 v13, v0, v1, 16
-; GCN-NEXT:    v_alignbit_b32 v12, v6, v7, 16
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v11
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v10
-; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GCN-NEXT:    v_alignbit_b32 v11, v0, v1, 16
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v9
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v8
-; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GCN-NEXT:    v_alignbit_b32 v10, v0, v1, 16
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v23
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v22
-; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v21
-; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v20
-; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GCN-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GCN-NEXT:    v_alignbit_b32 v9, v0, v1, 16
-; GCN-NEXT:    v_alignbit_b32 v8, v6, v7, 16
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v19
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v18
-; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GCN-NEXT:    v_alignbit_b32 v7, v0, v1, 16
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v17
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v16
-; GCN-NEXT:    s_mov_b32 s7, 0xf000
-; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v29
-; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v28
-; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v27
-; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v26
-; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GCN-NEXT:    v_lshrrev_b32_e32 v16, 16, v6
-; GCN-NEXT:    v_lshrrev_b32_e32 v15, 16, v15
-; GCN-NEXT:    v_alignbit_b32 v6, v0, v1, 16
-; GCN-NEXT:    v_alignbit_b32 v16, v16, v14, 16
-; GCN-NEXT:    v_alignbit_b32 v15, v15, v17, 16
+; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v1
+; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v0
+; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
+; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v14
+; GCN-NEXT:    v_mul_f32_e32 v13, 1.0, v13
+; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v12
+; GCN-NEXT:    v_mul_f32_e32 v11, 1.0, v11
+; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
+; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v8
+; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v29
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v28
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v27
+; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v26
+; GCN-NEXT:    v_mul_f32_e32 v25, 1.0, v25
+; GCN-NEXT:    v_mul_f32_e32 v24, 1.0, v24
+; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v3
+; GCN-NEXT:    v_alignbit_b32 v3, v0, v2, 16
 ; GCN-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:8
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v25
-; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v24
-; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GCN-NEXT:    v_alignbit_b32 v14, v0, v14, 16
-; GCN-NEXT:    buffer_load_dword v17, off, s[0:3], s32
 ; GCN-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:4
-; GCN-NEXT:    s_mov_b32 s6, 0
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v30
+; GCN-NEXT:    buffer_load_dword v26, off, s[0:3], s32
+; GCN-NEXT:    v_mul_f32_e32 v27, 1.0, v30
 ; GCN-NEXT:    s_mov_b32 s4, s6
 ; GCN-NEXT:    s_mov_b32 s5, s6
+; GCN-NEXT:    v_lshrrev_b32_e32 v2, 16, v6
+; GCN-NEXT:    v_lshrrev_b32_e32 v6, 16, v15
+; GCN-NEXT:    v_lshrrev_b32_e32 v13, 16, v13
+; GCN-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
+; GCN-NEXT:    v_lshrrev_b32_e32 v15, 16, v9
+; GCN-NEXT:    v_lshrrev_b32_e32 v28, 16, v8
+; GCN-NEXT:    v_lshrrev_b32_e32 v22, 16, v22
+; GCN-NEXT:    v_lshrrev_b32_e32 v25, 16, v25
+; GCN-NEXT:    v_alignbit_b32 v2, v2, v7, 16
+; GCN-NEXT:    v_alignbit_b32 v9, v6, v14, 16
+; GCN-NEXT:    v_alignbit_b32 v8, v13, v12, 16
+; GCN-NEXT:    v_alignbit_b32 v7, v11, v10, 16
+; GCN-NEXT:    v_alignbit_b32 v6, v15, v16, 16
+; GCN-NEXT:    v_alignbit_b32 v12, v28, v17, 16
+; GCN-NEXT:    v_alignbit_b32 v11, v22, v23, 16
+; GCN-NEXT:    v_alignbit_b32 v10, v25, v24, 16
 ; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_dwordx4 v[6:9], v[0:1], s[4:7], 0 addr64 offset:32
-; GCN-NEXT:    buffer_store_dwordx4 v[10:13], v[0:1], s[4:7], 0 addr64 offset:16
-; GCN-NEXT:    s_waitcnt expcnt(1)
-; GCN-NEXT:    v_lshrrev_b32_e32 v6, 16, v17
-; GCN-NEXT:    v_alignbit_b32 v17, v6, v18, 16
-; GCN-NEXT:    buffer_store_dwordx4 v[14:17], v[0:1], s[4:7], 0 addr64 offset:48
+; GCN-NEXT:    buffer_store_dwordx4 v[18:21], v[0:1], s[4:7], 0 addr64 offset:32
+; GCN-NEXT:    s_waitcnt vmcnt(1)
+; GCN-NEXT:    v_mul_f32_e32 v13, 1.0, v26
+; GCN-NEXT:    buffer_store_dwordx4 v[6:9], v[0:1], s[4:7], 0 addr64 offset:16
+; GCN-NEXT:    s_waitcnt expcnt(0)
+; GCN-NEXT:    v_lshrrev_b32_e32 v6, 16, v13
+; GCN-NEXT:    v_alignbit_b32 v13, v6, v27, 16
+; GCN-NEXT:    buffer_store_dwordx4 v[10:13], v[0:1], s[4:7], 0 addr64 offset:48
 ; GCN-NEXT:    buffer_store_dwordx4 v[2:5], v[0:1], s[4:7], 0 addr64
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
@@ -1421,78 +1422,78 @@ define void @v_store_global_v32bf16(<32 x bfloat> %val, ptr addrspace(1) %ptr) {
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
 ; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
 ; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GFX7-NEXT:    v_lshrrev_b32_e32 v1, 16, v1
+; GFX7-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
 ; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GFX7-NEXT:    v_lshrrev_b32_e32 v1, 16, v1
 ; GFX7-NEXT:    v_alignbit_b32 v3, v3, v2, 16
 ; GFX7-NEXT:    v_alignbit_b32 v2, v1, v0, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v14
 ; GFX7-NEXT:    buffer_load_dword v14, off, s[0:3], s32
+; GFX7-NEXT:    v_mul_f32_e32 v25, 1.0, v25
 ; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v7
 ; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v15
-; GFX7-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; GFX7-NEXT:    v_lshrrev_b32_e32 v25, 16, v25
+; GFX7-NEXT:    v_mul_f32_e32 v24, 1.0, v24
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
+; GFX7-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    v_lshrrev_b32_e32 v31, 16, v5
+; GFX7-NEXT:    v_alignbit_b32 v25, v25, v24, 16
+; GFX7-NEXT:    v_lshrrev_b32_e32 v24, 16, v5
 ; GFX7-NEXT:    v_alignbit_b32 v5, v7, v6, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v13
 ; GFX7-NEXT:    v_alignbit_b32 v13, v0, v1, 16
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v11
-; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v10
-; GFX7-NEXT:    v_alignbit_b32 v11, v0, v1, 16
 ; GFX7-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:8
 ; GFX7-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:4
-; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
 ; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v12
-; GFX7-NEXT:    v_alignbit_b32 v12, v6, v7, 16
-; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v9
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
+; GFX7-NEXT:    v_alignbit_b32 v12, v6, v7, 16
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v11
+; GFX7-NEXT:    v_mul_f32_e32 v10, 1.0, v10
+; GFX7-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; GFX7-NEXT:    v_mul_f32_e32 v29, 1.0, v29
+; GFX7-NEXT:    v_alignbit_b32 v11, v7, v10, 16
+; GFX7-NEXT:    v_lshrrev_b32_e32 v29, 16, v29
+; GFX7-NEXT:    v_mul_f32_e32 v28, 1.0, v28
+; GFX7-NEXT:    v_mul_f32_e32 v27, 1.0, v27
+; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v30
+; GFX7-NEXT:    v_mul_f32_e32 v9, 1.0, v9
+; GFX7-NEXT:    v_lshrrev_b32_e32 v31, 16, v27
+; GFX7-NEXT:    v_alignbit_b32 v27, v29, v28, 16
+; GFX7-NEXT:    v_mul_f32_e32 v26, 1.0, v26
+; GFX7-NEXT:    s_mov_b32 s6, 0
+; GFX7-NEXT:    v_alignbit_b32 v26, v31, v26, 16
+; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
+; GFX7-NEXT:    s_mov_b32 s7, 0xf000
+; GFX7-NEXT:    s_mov_b32 s4, s6
+; GFX7-NEXT:    s_mov_b32 s5, s6
+; GFX7-NEXT:    v_alignbit_b32 v4, v24, v4, 16
+; GFX7-NEXT:    s_waitcnt vmcnt(2)
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v14
+; GFX7-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; GFX7-NEXT:    v_alignbit_b32 v28, v7, v6, 16
+; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v9
 ; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v8
 ; GFX7-NEXT:    v_alignbit_b32 v10, v6, v7, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v23
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
 ; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v22
 ; GFX7-NEXT:    v_alignbit_b32 v9, v6, v7, 16
-; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v21
-; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v20
-; GFX7-NEXT:    v_alignbit_b32 v8, v6, v7, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v19
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v21
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
 ; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v18
+; GFX7-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
+; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v20
 ; GFX7-NEXT:    v_alignbit_b32 v7, v6, v7, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v17
+; GFX7-NEXT:    v_alignbit_b32 v8, v8, v14, 16
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v16
-; GFX7-NEXT:    v_alignbit_b32 v6, v6, v15, 16
-; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v30
-; GFX7-NEXT:    s_mov_b32 s6, 0
-; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v24
-; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
-; GFX7-NEXT:    s_mov_b32 s7, 0xf000
-; GFX7-NEXT:    s_mov_b32 s4, s6
-; GFX7-NEXT:    s_mov_b32 s5, s6
-; GFX7-NEXT:    v_alignbit_b32 v4, v31, v4, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(2)
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v14
-; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GFX7-NEXT:    v_alignbit_b32 v17, v14, v15, 16
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v29
-; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v28
-; GFX7-NEXT:    v_alignbit_b32 v16, v14, v15, 16
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v27
-; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v26
-; GFX7-NEXT:    v_alignbit_b32 v15, v14, v15, 16
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v25
-; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GFX7-NEXT:    v_alignbit_b32 v14, v14, v18, 16
+; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v16
+; GFX7-NEXT:    v_alignbit_b32 v6, v6, v14, 16
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    buffer_store_dwordx4 v[14:17], v[0:1], s[4:7], 0 addr64 offset:48
+; GFX7-NEXT:    buffer_store_dwordx4 v[25:28], v[0:1], s[4:7], 0 addr64 offset:48
 ; GFX7-NEXT:    buffer_store_dwordx4 v[6:9], v[0:1], s[4:7], 0 addr64 offset:32
 ; GFX7-NEXT:    buffer_store_dwordx4 v[10:13], v[0:1], s[4:7], 0 addr64 offset:16
 ; GFX7-NEXT:    buffer_store_dwordx4 v[2:5], v[0:1], s[4:7], 0 addr64
@@ -1564,207 +1565,203 @@ define void @v_store_global_v64bf16(<64 x bfloat> %val, ptr addrspace(1) %ptr) {
 ; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
 ; GCN-NEXT:    v_lshrrev_b32_e32 v19, 16, v19
 ; GCN-NEXT:    v_alignbit_b32 v19, v19, v18, 16
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v17
-; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v16
-; GCN-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:136
-; GCN-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:132
-; GCN-NEXT:    v_lshrrev_b32_e32 v18, 16, v18
-; GCN-NEXT:    v_alignbit_b32 v18, v18, v22, 16
-; GCN-NEXT:    s_mov_b32 s6, 0
-; GCN-NEXT:    s_mov_b32 s7, 0xf000
-; GCN-NEXT:    s_mov_b32 s4, s6
-; GCN-NEXT:    s_mov_b32 s5, s6
-; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_dwordx4 v[18:21], v[16:17], s[4:7], 0 addr64 offset:32
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
+; GCN-NEXT:    v_lshrrev_b32_e32 v17, 16, v17
+; GCN-NEXT:    v_alignbit_b32 v18, v17, v16, 16
 ; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
 ; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v14
 ; GCN-NEXT:    v_mul_f32_e32 v13, 1.0, v13
 ; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v12
 ; GCN-NEXT:    v_lshrrev_b32_e32 v15, 16, v15
-; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshrrev_b32_e32 v18, 16, v13
+; GCN-NEXT:    v_lshrrev_b32_e32 v16, 16, v13
 ; GCN-NEXT:    v_alignbit_b32 v13, v15, v14, 16
-; GCN-NEXT:    v_alignbit_b32 v12, v18, v12, 16
+; GCN-NEXT:    v_alignbit_b32 v12, v16, v12, 16
+; GCN-NEXT:    s_mov_b32 s6, 0
+; GCN-NEXT:    s_mov_b32 s7, 0xf000
 ; GCN-NEXT:    v_mul_f32_e32 v11, 1.0, v11
 ; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
-; GCN-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
-; GCN-NEXT:    v_alignbit_b32 v11, v11, v10, 16
 ; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
 ; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
+; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v6
+; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
+; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v4
+; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
+; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v2
+; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
+; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v29
+; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v28
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v27
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v26
+; GCN-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
 ; GCN-NEXT:    v_lshrrev_b32_e32 v9, 16, v9
+; GCN-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; GCN-NEXT:    v_lshrrev_b32_e32 v5, 16, v5
+; GCN-NEXT:    v_lshrrev_b32_e32 v22, 16, v3
+; GCN-NEXT:    v_lshrrev_b32_e32 v23, 16, v1
+; GCN-NEXT:    v_lshrrev_b32_e32 v26, 16, v2
+; GCN-NEXT:    v_lshrrev_b32_e32 v16, 16, v16
+; GCN-NEXT:    v_alignbit_b32 v11, v11, v10, 16
 ; GCN-NEXT:    v_alignbit_b32 v10, v9, v8, 16
-; GCN-NEXT:    buffer_store_dwordx4 v[10:13], v[16:17], s[4:7], 0 addr64 offset:16
-; GCN-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:128
-; GCN-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:124
+; GCN-NEXT:    v_alignbit_b32 v3, v7, v6, 16
+; GCN-NEXT:    v_alignbit_b32 v2, v5, v4, 16
+; GCN-NEXT:    v_alignbit_b32 v1, v22, v14, 16
+; GCN-NEXT:    v_alignbit_b32 v0, v23, v0, 16
+; GCN-NEXT:    v_alignbit_b32 v6, v26, v15, 16
+; GCN-NEXT:    v_alignbit_b32 v5, v16, v17, 16
+; GCN-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:136
+; GCN-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:132
+; GCN-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:128
+; GCN-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:124
+; GCN-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:120
+; GCN-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:116
+; GCN-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:112
+; GCN-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:108
+; GCN-NEXT:    s_mov_b32 s4, s6
+; GCN-NEXT:    s_mov_b32 s5, s6
+; GCN-NEXT:    s_waitcnt vmcnt(6)
+; GCN-NEXT:    buffer_store_dwordx4 v[18:21], v[8:9], s[4:7], 0 addr64 offset:32
+; GCN-NEXT:    buffer_store_dwordx4 v[10:13], v[8:9], s[4:7], 0 addr64 offset:16
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:120
-; GCN-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:116
+; GCN-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:104
+; GCN-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:100
+; GCN-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:96
+; GCN-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:92
+; GCN-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:88
+; GCN-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:84
+; GCN-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:80
+; GCN-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:76
+; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v25
+; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v24
+; GCN-NEXT:    v_mul_f32_e32 v24, 1.0, v30
+; GCN-NEXT:    v_lshrrev_b32_e32 v4, 16, v4
+; GCN-NEXT:    v_alignbit_b32 v4, v4, v23, 16
+; GCN-NEXT:    s_waitcnt vmcnt(14)
+; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
+; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v14
+; GCN-NEXT:    s_waitcnt vmcnt(13)
+; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
+; GCN-NEXT:    s_waitcnt vmcnt(12)
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
+; GCN-NEXT:    s_waitcnt vmcnt(11)
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GCN-NEXT:    s_waitcnt vmcnt(10)
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GCN-NEXT:    s_waitcnt vmcnt(7)
+; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
+; GCN-NEXT:    s_waitcnt vmcnt(6)
+; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v11
+; GCN-NEXT:    s_waitcnt vmcnt(5)
+; GCN-NEXT:    v_mul_f32_e32 v11, 1.0, v12
+; GCN-NEXT:    s_waitcnt vmcnt(4)
+; GCN-NEXT:    v_mul_f32_e32 v25, 1.0, v13
 ; GCN-NEXT:    s_waitcnt vmcnt(3)
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v18
 ; GCN-NEXT:    s_waitcnt vmcnt(2)
-; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v19
 ; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
+; GCN-NEXT:    v_mul_f32_e32 v13, 1.0, v20
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v11
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
+; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v21
+; GCN-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; GCN-NEXT:    v_lshrrev_b32_e32 v15, 16, v15
+; GCN-NEXT:    v_lshrrev_b32_e32 v17, 16, v17
 ; GCN-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
-; GCN-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:112
-; GCN-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:108
-; GCN-NEXT:    v_alignbit_b32 v11, v8, v9, 16
-; GCN-NEXT:    v_alignbit_b32 v10, v10, v12, 16
-; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v13
-; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v14
-; GCN-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:104
-; GCN-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:100
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GCN-NEXT:    v_alignbit_b32 v9, v8, v9, 16
-; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v12
-; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v13
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GCN-NEXT:    v_alignbit_b32 v8, v8, v12, 16
-; GCN-NEXT:    buffer_store_dwordx4 v[8:11], v[16:17], s[4:7], 0 addr64 offset:112
-; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:96
-; GCN-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:92
-; GCN-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:88
-; GCN-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:84
+; GCN-NEXT:    v_lshrrev_b32_e32 v20, 16, v11
+; GCN-NEXT:    v_lshrrev_b32_e32 v21, 16, v12
+; GCN-NEXT:    v_lshrrev_b32_e32 v26, 16, v13
+; GCN-NEXT:    v_alignbit_b32 v13, v7, v14, 16
+; GCN-NEXT:    v_alignbit_b32 v12, v15, v16, 16
+; GCN-NEXT:    v_alignbit_b32 v11, v17, v22, 16
+; GCN-NEXT:    v_alignbit_b32 v10, v10, v23, 16
+; GCN-NEXT:    v_alignbit_b32 v17, v20, v25, 16
+; GCN-NEXT:    v_alignbit_b32 v16, v21, v18, 16
+; GCN-NEXT:    v_alignbit_b32 v15, v26, v19, 16
+; GCN-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:72
+; GCN-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:68
+; GCN-NEXT:    buffer_load_dword v18, off, s[0:3], s32
+; GCN-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:32
+; GCN-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:28
+; GCN-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:24
+; GCN-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:20
+; GCN-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:16
+; GCN-NEXT:    s_waitcnt vmcnt(7)
+; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
+; GCN-NEXT:    s_waitcnt vmcnt(6)
+; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v14
+; GCN-NEXT:    s_waitcnt vmcnt(5)
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GCN-NEXT:    s_waitcnt vmcnt(4)
+; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
 ; GCN-NEXT:    s_waitcnt vmcnt(3)
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v20
 ; GCN-NEXT:    s_waitcnt vmcnt(2)
-; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
-; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
-; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v11
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GCN-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
-; GCN-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:80
-; GCN-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:76
-; GCN-NEXT:    v_alignbit_b32 v11, v8, v9, 16
-; GCN-NEXT:    v_alignbit_b32 v10, v10, v12, 16
-; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v13
-; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v14
-; GCN-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:72
-; GCN-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:68
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GCN-NEXT:    v_alignbit_b32 v9, v8, v9, 16
+; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v21
 ; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v12
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v13
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GCN-NEXT:    v_alignbit_b32 v8, v8, v12, 16
-; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
-; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v6
-; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
-; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v4
-; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v3
-; GCN-NEXT:    v_mul_f32_e32 v13, 1.0, v2
-; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v1
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v30
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v29
-; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v28
-; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v27
-; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v26
-; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v25
-; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v24
-; GCN-NEXT:    buffer_store_dwordx4 v[8:11], v[16:17], s[4:7], 0 addr64 offset:96
-; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    buffer_load_dword v8, off, s[0:3], s32
-; GCN-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:32
-; GCN-NEXT:    v_lshrrev_b32_e32 v1, 16, v7
-; GCN-NEXT:    v_lshrrev_b32_e32 v2, 16, v5
-; GCN-NEXT:    v_alignbit_b32 v3, v1, v6, 16
-; GCN-NEXT:    v_alignbit_b32 v2, v2, v4, 16
-; GCN-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:28
-; GCN-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:24
-; GCN-NEXT:    v_lshrrev_b32_e32 v1, 16, v12
-; GCN-NEXT:    v_alignbit_b32 v1, v1, v13, 16
-; GCN-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:20
-; GCN-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:16
-; GCN-NEXT:    v_lshrrev_b32_e32 v4, 16, v14
-; GCN-NEXT:    v_lshrrev_b32_e32 v5, 16, v18
-; GCN-NEXT:    v_lshrrev_b32_e32 v13, 16, v20
-; GCN-NEXT:    v_alignbit_b32 v0, v4, v0, 16
-; GCN-NEXT:    v_alignbit_b32 v6, v5, v19, 16
-; GCN-NEXT:    v_alignbit_b32 v5, v13, v21, 16
-; GCN-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:12
-; GCN-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:8
-; GCN-NEXT:    v_lshrrev_b32_e32 v4, 16, v22
-; GCN-NEXT:    v_alignbit_b32 v4, v4, v23, 16
-; GCN-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:4
-; GCN-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:64
-; GCN-NEXT:    s_waitcnt vmcnt(9)
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
-; GCN-NEXT:    s_waitcnt vmcnt(8)
-; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
+; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v23
+; GCN-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; GCN-NEXT:    v_lshrrev_b32_e32 v18, 16, v18
+; GCN-NEXT:    v_lshrrev_b32_e32 v19, 16, v19
+; GCN-NEXT:    v_lshrrev_b32_e32 v25, 16, v21
+; GCN-NEXT:    v_alignbit_b32 v14, v7, v14, 16
+; GCN-NEXT:    v_alignbit_b32 v7, v18, v24, 16
+; GCN-NEXT:    v_alignbit_b32 v21, v19, v20, 16
+; GCN-NEXT:    v_alignbit_b32 v20, v25, v22, 16
+; GCN-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
+; GCN-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:8
+; GCN-NEXT:    buffer_load_dword v24, off, s[0:3], s32 offset:4
+; GCN-NEXT:    buffer_load_dword v25, off, s[0:3], s32 offset:64
+; GCN-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:60
+; GCN-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:56
+; GCN-NEXT:    buffer_load_dword v28, off, s[0:3], s32 offset:52
+; GCN-NEXT:    buffer_load_dword v29, off, s[0:3], s32 offset:48
 ; GCN-NEXT:    s_waitcnt vmcnt(7)
-; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v7
-; GCN-NEXT:    s_waitcnt vmcnt(6)
-; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v10
-; GCN-NEXT:    s_waitcnt vmcnt(5)
-; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v11
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GCN-NEXT:    v_lshrrev_b32_e32 v9, 16, v9
-; GCN-NEXT:    v_lshrrev_b32_e32 v21, 16, v7
-; GCN-NEXT:    v_alignbit_b32 v7, v8, v15, 16
-; GCN-NEXT:    v_alignbit_b32 v11, v9, v20, 16
-; GCN-NEXT:    v_alignbit_b32 v10, v21, v10, 16
-; GCN-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:60
-; GCN-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:56
-; GCN-NEXT:    s_waitcnt vmcnt(6)
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v12
-; GCN-NEXT:    s_waitcnt vmcnt(5)
-; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v13
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GCN-NEXT:    v_alignbit_b32 v9, v8, v9, 16
-; GCN-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:52
-; GCN-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:48
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GCN-NEXT:    v_lshrrev_b32_e32 v19, 16, v23
+; GCN-NEXT:    v_alignbit_b32 v19, v19, v18, 16
 ; GCN-NEXT:    s_waitcnt vmcnt(6)
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v14
-; GCN-NEXT:    s_waitcnt vmcnt(5)
-; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v18
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GCN-NEXT:    v_alignbit_b32 v8, v8, v14, 16
-; GCN-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:44
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v22
 ; GCN-NEXT:    s_waitcnt vmcnt(5)
-; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v19
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v24
+; GCN-NEXT:    v_lshrrev_b32_e32 v18, 16, v18
+; GCN-NEXT:    v_alignbit_b32 v18, v18, v22, 16
 ; GCN-NEXT:    s_waitcnt vmcnt(4)
-; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v25
 ; GCN-NEXT:    s_waitcnt vmcnt(3)
-; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v26
 ; GCN-NEXT:    s_waitcnt vmcnt(2)
-; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v12
-; GCN-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GCN-NEXT:    v_lshrrev_b32_e32 v19, 16, v19
-; GCN-NEXT:    v_alignbit_b32 v15, v14, v15, 16
-; GCN-NEXT:    v_alignbit_b32 v14, v19, v12, 16
-; GCN-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:40
-; GCN-NEXT:    s_waitcnt vmcnt(2)
-; GCN-NEXT:    v_mul_f32_e32 v13, 1.0, v13
+; GCN-NEXT:    v_mul_f32_e32 v24, 1.0, v27
 ; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GCN-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:36
-; GCN-NEXT:    v_lshrrev_b32_e32 v13, 16, v13
-; GCN-NEXT:    v_alignbit_b32 v13, v13, v18, 16
+; GCN-NEXT:    v_mul_f32_e32 v26, 1.0, v28
+; GCN-NEXT:    v_lshrrev_b32_e32 v22, 16, v22
+; GCN-NEXT:    v_lshrrev_b32_e32 v24, 16, v24
+; GCN-NEXT:    v_alignbit_b32 v25, v22, v23, 16
+; GCN-NEXT:    v_alignbit_b32 v24, v24, v26, 16
+; GCN-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:44
 ; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v12
+; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v29
+; GCN-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:40
+; GCN-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:36
+; GCN-NEXT:    s_waitcnt vmcnt(2)
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GCN-NEXT:    v_lshrrev_b32_e32 v23, 16, v23
+; GCN-NEXT:    v_alignbit_b32 v23, v23, v22, 16
+; GCN-NEXT:    s_waitcnt vmcnt(1)
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v26
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v19
-; GCN-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
-; GCN-NEXT:    v_alignbit_b32 v12, v12, v18, 16
-; GCN-NEXT:    buffer_store_dwordx4 v[12:15], v[16:17], s[4:7], 0 addr64 offset:80
-; GCN-NEXT:    buffer_store_dwordx4 v[8:11], v[16:17], s[4:7], 0 addr64 offset:64
-; GCN-NEXT:    buffer_store_dwordx4 v[4:7], v[16:17], s[4:7], 0 addr64 offset:48
-; GCN-NEXT:    buffer_store_dwordx4 v[0:3], v[16:17], s[4:7], 0 addr64
+; GCN-NEXT:    v_mul_f32_e32 v26, 1.0, v27
+; GCN-NEXT:    v_lshrrev_b32_e32 v22, 16, v22
+; GCN-NEXT:    v_alignbit_b32 v22, v22, v26, 16
+; GCN-NEXT:    buffer_store_dwordx4 v[10:13], v[8:9], s[4:7], 0 addr64 offset:112
+; GCN-NEXT:    buffer_store_dwordx4 v[14:17], v[8:9], s[4:7], 0 addr64 offset:96
+; GCN-NEXT:    buffer_store_dwordx4 v[22:25], v[8:9], s[4:7], 0 addr64 offset:80
+; GCN-NEXT:    buffer_store_dwordx4 v[18:21], v[8:9], s[4:7], 0 addr64 offset:64
+; GCN-NEXT:    buffer_store_dwordx4 v[4:7], v[8:9], s[4:7], 0 addr64 offset:48
+; GCN-NEXT:    buffer_store_dwordx4 v[0:3], v[8:9], s[4:7], 0 addr64
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
 ; GCN-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1780,24 +1777,27 @@ define void @v_store_global_v64bf16(<64 x bfloat> %val, ptr addrspace(1) %ptr) {
 ; GFX7-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:104
 ; GFX7-NEXT:    buffer_load_dword v48, off, s[0:3], s32 offset:100
 ; GFX7-NEXT:    s_mov_b32 s6, 0
-; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v7
 ; GFX7-NEXT:    s_mov_b32 s7, 0xf000
 ; GFX7-NEXT:    s_mov_b32 s4, s6
 ; GFX7-NEXT:    s_mov_b32 s5, s6
-; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
-; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
-; GFX7-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
 ; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
 ; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v1, 16, v1
+; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v7
 ; GFX7-NEXT:    v_alignbit_b32 v3, v3, v2, 16
 ; GFX7-NEXT:    v_alignbit_b32 v2, v1, v0, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v15
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v14
+; GFX7-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
+; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
+; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v14
+; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v29
+; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
+; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v28
 ; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GFX7-NEXT:    s_waitcnt vmcnt(7)
 ; GFX7-NEXT:    v_mul_f32_e32 v31, 1.0, v31
@@ -1832,16 +1832,97 @@ define void @v_store_global_v64bf16(<64 x bfloat> %val, ptr addrspace(1) %ptr) {
 ; GFX7-NEXT:    buffer_load_dword v50, off, s[0:3], s32 offset:76
 ; GFX7-NEXT:    s_waitcnt vmcnt(6)
 ; GFX7-NEXT:    buffer_store_dwordx4 v[33:36], v[31:32], s[4:7], 0 addr64 offset:112
+; GFX7-NEXT:    s_waitcnt vmcnt(6)
+; GFX7-NEXT:    v_mul_f32_e32 v33, 1.0, v37
+; GFX7-NEXT:    s_waitcnt vmcnt(5)
+; GFX7-NEXT:    v_mul_f32_e32 v34, 1.0, v38
+; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX7-NEXT:    s_waitcnt vmcnt(4)
+; GFX7-NEXT:    v_mul_f32_e32 v35, 1.0, v39
+; GFX7-NEXT:    v_alignbit_b32 v36, v33, v34, 16
+; GFX7-NEXT:    s_waitcnt vmcnt(2)
+; GFX7-NEXT:    v_mul_f32_e32 v33, 1.0, v49
+; GFX7-NEXT:    v_mul_f32_e32 v37, 1.0, v48
+; GFX7-NEXT:    v_lshrrev_b32_e32 v35, 16, v35
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v34, 1.0, v50
+; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX7-NEXT:    v_alignbit_b32 v35, v35, v37, 16
+; GFX7-NEXT:    v_alignbit_b32 v34, v33, v34, 16
+; GFX7-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:72
+; GFX7-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:68
+; GFX7-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:64
+; GFX7-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:60
+; GFX7-NEXT:    buffer_load_dword v48, off, s[0:3], s32 offset:56
+; GFX7-NEXT:    buffer_load_dword v49, off, s[0:3], s32 offset:52
+; GFX7-NEXT:    buffer_load_dword v50, off, s[0:3], s32 offset:48
+; GFX7-NEXT:    buffer_load_dword v51, off, s[0:3], s32 offset:44
+; GFX7-NEXT:    s_waitcnt vmcnt(7)
+; GFX7-NEXT:    v_mul_f32_e32 v33, 1.0, v33
+; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX7-NEXT:    s_waitcnt vmcnt(6)
+; GFX7-NEXT:    v_mul_f32_e32 v37, 1.0, v37
+; GFX7-NEXT:    v_alignbit_b32 v33, v33, v37, 16
+; GFX7-NEXT:    buffer_store_dwordx4 v[33:36], v[31:32], s[4:7], 0 addr64 offset:96
+; GFX7-NEXT:    s_waitcnt vmcnt(3)
+; GFX7-NEXT:    v_mul_f32_e32 v37, 1.0, v49
+; GFX7-NEXT:    v_mul_f32_e32 v33, 1.0, v38
+; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX7-NEXT:    v_mul_f32_e32 v34, 1.0, v39
+; GFX7-NEXT:    v_mul_f32_e32 v35, 1.0, v48
+; GFX7-NEXT:    v_alignbit_b32 v36, v33, v34, 16
+; GFX7-NEXT:    s_waitcnt vmcnt(2)
+; GFX7-NEXT:    v_mul_f32_e32 v33, 1.0, v50
+; GFX7-NEXT:    v_lshrrev_b32_e32 v35, 16, v35
+; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v34, 1.0, v51
+; GFX7-NEXT:    v_alignbit_b32 v35, v35, v37, 16
+; GFX7-NEXT:    v_alignbit_b32 v34, v33, v34, 16
+; GFX7-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:40
+; GFX7-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:36
+; GFX7-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:32
+; GFX7-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:28
+; GFX7-NEXT:    buffer_load_dword v48, off, s[0:3], s32 offset:24
+; GFX7-NEXT:    buffer_load_dword v49, off, s[0:3], s32 offset:20
+; GFX7-NEXT:    buffer_load_dword v50, off, s[0:3], s32 offset:16
+; GFX7-NEXT:    buffer_load_dword v51, off, s[0:3], s32 offset:12
+; GFX7-NEXT:    s_waitcnt vmcnt(7)
+; GFX7-NEXT:    v_mul_f32_e32 v33, 1.0, v33
+; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX7-NEXT:    s_waitcnt vmcnt(6)
+; GFX7-NEXT:    v_mul_f32_e32 v37, 1.0, v37
+; GFX7-NEXT:    v_alignbit_b32 v33, v33, v37, 16
+; GFX7-NEXT:    buffer_store_dwordx4 v[33:36], v[31:32], s[4:7], 0 addr64 offset:80
+; GFX7-NEXT:    s_waitcnt vmcnt(3)
+; GFX7-NEXT:    v_mul_f32_e32 v37, 1.0, v49
+; GFX7-NEXT:    v_mul_f32_e32 v33, 1.0, v38
+; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX7-NEXT:    v_mul_f32_e32 v34, 1.0, v39
+; GFX7-NEXT:    v_mul_f32_e32 v35, 1.0, v48
+; GFX7-NEXT:    v_alignbit_b32 v36, v33, v34, 16
+; GFX7-NEXT:    s_waitcnt vmcnt(2)
+; GFX7-NEXT:    v_mul_f32_e32 v33, 1.0, v50
+; GFX7-NEXT:    v_lshrrev_b32_e32 v35, 16, v35
+; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v34, 1.0, v51
+; GFX7-NEXT:    v_alignbit_b32 v35, v35, v37, 16
+; GFX7-NEXT:    v_alignbit_b32 v34, v33, v34, 16
+; GFX7-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:8
+; GFX7-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:4
+; GFX7-NEXT:    buffer_load_dword v38, off, s[0:3], s32
+; GFX7-NEXT:    s_waitcnt vmcnt(2)
+; GFX7-NEXT:    v_mul_f32_e32 v33, 1.0, v33
+; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v37, 1.0, v37
+; GFX7-NEXT:    v_alignbit_b32 v33, v33, v37, 16
+; GFX7-NEXT:    buffer_store_dwordx4 v[33:36], v[31:32], s[4:7], 0 addr64 offset:64
 ; GFX7-NEXT:    s_nop 0
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v33, 16, v5
 ; GFX7-NEXT:    v_alignbit_b32 v5, v7, v6, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v13
-; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v12
-; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GFX7-NEXT:    v_alignbit_b32 v12, v6, v7, 16
-; GFX7-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:72
-; GFX7-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:68
-; GFX7-NEXT:    buffer_load_dword v15, off, s[0:3], s32
 ; GFX7-NEXT:    v_alignbit_b32 v13, v0, v1, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v11
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
@@ -1852,124 +1933,39 @@ define void @v_store_global_v64bf16(<64 x bfloat> %val, ptr addrspace(1) %ptr) {
 ; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v8
 ; GFX7-NEXT:    v_alignbit_b32 v10, v0, v1, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v23
+; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v12
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
 ; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v22
+; GFX7-NEXT:    v_alignbit_b32 v12, v6, v7, 16
+; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v21
 ; GFX7-NEXT:    v_alignbit_b32 v9, v0, v1, 16
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v21
-; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v20
-; GFX7-NEXT:    v_alignbit_b32 v8, v0, v1, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v19
+; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v20
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
 ; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v18
+; GFX7-NEXT:    v_alignbit_b32 v8, v6, v7, 16
 ; GFX7-NEXT:    v_alignbit_b32 v7, v0, v1, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(9)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v37
-; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v28
-; GFX7-NEXT:    buffer_load_dword v28, off, s[0:3], s32 offset:64
-; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(9)
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v38
-; GFX7-NEXT:    v_alignbit_b32 v4, v33, v4, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(8)
-; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v39
-; GFX7-NEXT:    v_alignbit_b32 v36, v0, v1, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(6)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v49
-; GFX7-NEXT:    v_lshrrev_b32_e32 v18, 16, v18
-; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v48
+; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v17
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(5)
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v50
-; GFX7-NEXT:    v_alignbit_b32 v35, v18, v19, 16
-; GFX7-NEXT:    v_alignbit_b32 v34, v0, v1, 16
-; GFX7-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:32
-; GFX7-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:28
-; GFX7-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:24
-; GFX7-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:20
-; GFX7-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:16
-; GFX7-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:12
-; GFX7-NEXT:    s_waitcnt vmcnt(8)
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v14
-; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
-; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GFX7-NEXT:    v_alignbit_b32 v33, v6, v14, 16
-; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v17
-; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v16
-; GFX7-NEXT:    v_alignbit_b32 v6, v6, v14, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(7)
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v15
-; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v30
-; GFX7-NEXT:    buffer_store_dwordx4 v[33:36], v[31:32], s[4:7], 0 addr64 offset:96
-; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v29
-; GFX7-NEXT:    v_alignbit_b32 v17, v14, v15, 16
-; GFX7-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:52
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v27
-; GFX7-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:48
-; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v26
-; GFX7-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:44
-; GFX7-NEXT:    buffer_load_dword v29, off, s[0:3], s32 offset:8
-; GFX7-NEXT:    buffer_load_dword v30, off, s[0:3], s32 offset:4
-; GFX7-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:60
-; GFX7-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:56
-; GFX7-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:40
-; GFX7-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:36
-; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GFX7-NEXT:    v_lshrrev_b32_e32 v16, 16, v16
-; GFX7-NEXT:    v_alignbit_b32 v15, v14, v15, 16
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v25
-; GFX7-NEXT:    v_alignbit_b32 v16, v16, v20, 16
-; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v24
-; GFX7-NEXT:    v_alignbit_b32 v14, v14, v20, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(14)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    v_alignbit_b32 v21, v0, v1, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(13)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v18
-; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(12)
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v19
-; GFX7-NEXT:    v_alignbit_b32 v20, v0, v1, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(11)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v22
-; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(10)
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v23
-; GFX7-NEXT:    v_alignbit_b32 v19, v0, v1, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(8)
-; GFX7-NEXT:    v_mul_f32_e32 v23, 1.0, v35
-; GFX7-NEXT:    s_waitcnt vmcnt(5)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v29
+; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v16
+; GFX7-NEXT:    v_alignbit_b32 v6, v0, v1, 16
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v38
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
 ; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v30
-; GFX7-NEXT:    v_alignbit_b32 v18, v0, v1, 16
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v28
-; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(3)
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v33
-; GFX7-NEXT:    s_waitcnt vmcnt(2)
-; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v34
-; GFX7-NEXT:    v_alignbit_b32 v25, v0, v1, 16
+; GFX7-NEXT:    v_alignbit_b32 v17, v0, v1, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v27
-; GFX7-NEXT:    v_lshrrev_b32_e32 v22, 16, v22
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
 ; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v26
-; GFX7-NEXT:    v_alignbit_b32 v24, v22, v23, 16
-; GFX7-NEXT:    v_alignbit_b32 v23, v0, v1, 16
-; GFX7-NEXT:    s_waitcnt vmcnt(1)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v36
+; GFX7-NEXT:    v_alignbit_b32 v16, v14, v15, 16
+; GFX7-NEXT:    v_alignbit_b32 v15, v0, v1, 16
+; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v25
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v37
-; GFX7-NEXT:    v_alignbit_b32 v22, v0, v1, 16
-; GFX7-NEXT:    buffer_store_dwordx4 v[22:25], v[31:32], s[4:7], 0 addr64 offset:80
-; GFX7-NEXT:    buffer_store_dwordx4 v[18:21], v[31:32], s[4:7], 0 addr64 offset:64
+; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v24
+; GFX7-NEXT:    v_alignbit_b32 v14, v0, v1, 16
+; GFX7-NEXT:    v_alignbit_b32 v4, v33, v4, 16
 ; GFX7-NEXT:    buffer_store_dwordx4 v[14:17], v[31:32], s[4:7], 0 addr64 offset:48
 ; GFX7-NEXT:    buffer_store_dwordx4 v[6:9], v[31:32], s[4:7], 0 addr64 offset:32
 ; GFX7-NEXT:    buffer_store_dwordx4 v[10:13], v[31:32], s[4:7], 0 addr64 offset:16
@@ -4880,12 +4876,12 @@ define void @test_call_v16bf16(<16 x bfloat> %in, ptr addrspace(5) %out) {
 ; GCN-NEXT:    s_mov_b32 s18, s33
 ; GCN-NEXT:    s_mov_b32 s33, s32
 ; GCN-NEXT:    s_xor_saveexec_b64 s[16:17], -1
-; GCN-NEXT:    buffer_store_dword v21, off, s[0:3], s33 ; 4-byte Folded Spill
+; GCN-NEXT:    buffer_store_dword v20, off, s[0:3], s33 ; 4-byte Folded Spill
 ; GCN-NEXT:    s_mov_b64 exec, s[16:17]
 ; GCN-NEXT:    s_addk_i32 s32, 0x400
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_writelane_b32 v21, s30, 0
-; GCN-NEXT:    v_writelane_b32 v21, s31, 1
+; GCN-NEXT:    v_writelane_b32 v20, s30, 0
+; GCN-NEXT:    v_writelane_b32 v20, s31, 1
 ; GCN-NEXT:    s_getpc_b64 s[16:17]
 ; GCN-NEXT:    s_add_u32 s16, s16, test_arg_store_v2bf16@gotpcrel32@lo+4
 ; GCN-NEXT:    s_addc_u32 s17, s17, test_arg_store_v2bf16@gotpcrel32@hi+12
@@ -4911,36 +4907,36 @@ define void @test_call_v16bf16(<16 x bfloat> %in, ptr addrspace(5) %out) {
 ; GCN-NEXT:    v_add_i32_e32 v17, vcc, 30, v16
 ; GCN-NEXT:    v_add_i32_e32 v18, vcc, 28, v16
 ; GCN-NEXT:    v_add_i32_e32 v19, vcc, 26, v16
-; GCN-NEXT:    v_add_i32_e32 v20, vcc, 24, v16
 ; GCN-NEXT:    v_lshrrev_b32_e32 v15, 16, v15
 ; GCN-NEXT:    buffer_store_short v15, v17, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
-; GCN-NEXT:    v_add_i32_e32 v15, vcc, 22, v16
-; GCN-NEXT:    v_add_i32_e32 v17, vcc, 20, v16
+; GCN-NEXT:    v_add_i32_e32 v15, vcc, 24, v16
+; GCN-NEXT:    v_add_i32_e32 v17, vcc, 22, v16
 ; GCN-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
 ; GCN-NEXT:    buffer_store_short v14, v18, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
-; GCN-NEXT:    v_add_i32_e32 v14, vcc, 18, v16
-; GCN-NEXT:    v_add_i32_e32 v18, vcc, 16, v16
+; GCN-NEXT:    v_add_i32_e32 v14, vcc, 20, v16
+; GCN-NEXT:    v_add_i32_e32 v18, vcc, 18, v16
 ; GCN-NEXT:    v_lshrrev_b32_e32 v13, 16, v13
 ; GCN-NEXT:    buffer_store_short v13, v19, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
-; GCN-NEXT:    v_add_i32_e32 v13, vcc, 14, v16
-; GCN-NEXT:    v_add_i32_e32 v19, vcc, 12, v16
+; GCN-NEXT:    v_add_i32_e32 v13, vcc, 16, v16
+; GCN-NEXT:    v_add_i32_e32 v19, vcc, 14, v16
 ; GCN-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
-; GCN-NEXT:    buffer_store_short v12, v20, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v12, v15, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
-; GCN-NEXT:    v_add_i32_e32 v12, vcc, 10, v16
-; GCN-NEXT:    v_add_i32_e32 v20, vcc, 8, v16
+; GCN-NEXT:    v_add_i32_e32 v12, vcc, 12, v16
+; GCN-NEXT:    v_add_i32_e32 v15, vcc, 10, v16
 ; GCN-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
-; GCN-NEXT:    buffer_store_short v11, v15, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v11, v17, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
-; GCN-NEXT:    v_add_i32_e32 v11, vcc, 6, v16
-; GCN-NEXT:    v_add_i32_e32 v15, vcc, 4, v16
+; GCN-NEXT:    v_add_i32_e32 v11, vcc, 8, v16
+; GCN-NEXT:    v_add_i32_e32 v17, vcc, 6, v16
 ; GCN-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
-; GCN-NEXT:    buffer_store_short v10, v17, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v10, v14, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
-; GCN-NEXT:    v_add_i32_e32 v10, vcc, 2, v16
+; GCN-NEXT:    v_add_i32_e32 v10, vcc, 4, v16
+; GCN-NEXT:    v_add_i32_e32 v14, vcc, 2, v16
 ; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
 ; GCN-NEXT:    v_lshrrev_b32_e32 v1, 16, v1
 ; GCN-NEXT:    v_lshrrev_b32_e32 v2, 16, v2
@@ -4951,30 +4947,30 @@ define void @test_call_v16bf16(<16 x bfloat> %in, ptr addrspace(5) %out) {
 ; GCN-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
 ; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
 ; GCN-NEXT:    v_lshrrev_b32_e32 v9, 16, v9
-; GCN-NEXT:    buffer_store_short v9, v14, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v9, v18, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_short v8, v18, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v8, v13, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_short v7, v13, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v7, v19, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_short v6, v19, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v6, v12, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_short v5, v12, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v5, v15, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_short v4, v20, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v4, v11, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_short v3, v11, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v3, v17, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_short v2, v15, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v2, v10, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    buffer_store_short v1, v10, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_short v1, v14, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
 ; GCN-NEXT:    buffer_store_short v0, v16, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_readlane_b32 s31, v21, 1
-; GCN-NEXT:    v_readlane_b32 s30, v21, 0
+; GCN-NEXT:    v_readlane_b32 s31, v20, 1
+; GCN-NEXT:    v_readlane_b32 s30, v20, 0
 ; GCN-NEXT:    s_xor_saveexec_b64 s[4:5], -1
-; GCN-NEXT:    buffer_load_dword v21, off, s[0:3], s33 ; 4-byte Folded Reload
+; GCN-NEXT:    buffer_load_dword v20, off, s[0:3], s33 ; 4-byte Folded Reload
 ; GCN-NEXT:    s_mov_b64 exec, s[4:5]
 ; GCN-NEXT:    s_addk_i32 s32, 0xfc00
 ; GCN-NEXT:    s_mov_b32 s33, s18
@@ -5365,10 +5361,10 @@ define { <32 x i32>, bfloat } @test_overflow_stack(bfloat %a, <32 x i32> %b) {
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0x50, v0
 ; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0x4c, v0
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
 ; GCN-NEXT:    buffer_store_dword v26, v29, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_add_i32_e32 v26, vcc, 0x48, v0
+; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
 ; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0x44, v0
 ; GCN-NEXT:    buffer_store_dword v25, v31, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
@@ -5587,20 +5583,20 @@ define { <32 x i32>, bfloat } @test_overflow_stack(bfloat %a, <32 x i32> %b) {
 ; GFX9-NEXT:    buffer_store_dword v28, v0, s[0:3], 0 offen offset:104
 ; GFX9-NEXT:    buffer_store_dword v27, v0, s[0:3], 0 offen offset:100
 ; GFX9-NEXT:    buffer_store_dword v26, v0, s[0:3], 0 offen offset:96
+; GFX9-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:4
+; GFX9-NEXT:    s_nop 0
+; GFX9-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:8
+; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dword v25, v0, s[0:3], 0 offen offset:92
+; GFX9-NEXT:    buffer_load_dword v25, off, s[0:3], s32
+; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dword v24, v0, s[0:3], 0 offen offset:88
 ; GFX9-NEXT:    buffer_store_dword v23, v0, s[0:3], 0 offen offset:84
 ; GFX9-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:80
 ; GFX9-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:76
 ; GFX9-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:72
-; GFX9-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:4
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:68
-; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:64
-; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:60
 ; GFX9-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:56
 ; GFX9-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:52
@@ -5617,11 +5613,11 @@ define { <32 x i32>, bfloat } @test_overflow_stack(bfloat %a, <32 x i32> %b) {
 ; GFX9-NEXT:    buffer_store_dword v4, v0, s[0:3], 0 offen offset:8
 ; GFX9-NEXT:    buffer_store_dword v3, v0, s[0:3], 0 offen offset:4
 ; GFX9-NEXT:    buffer_store_dword v2, v0, s[0:3], 0 offen
-; GFX9-NEXT:    s_waitcnt vmcnt(18)
-; GFX9-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:124
-; GFX9-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:120
-; GFX9-NEXT:    s_waitcnt vmcnt(18)
-; GFX9-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:116
+; GFX9-NEXT:    s_waitcnt vmcnt(25)
+; GFX9-NEXT:    buffer_store_dword v27, v0, s[0:3], 0 offen offset:124
+; GFX9-NEXT:    buffer_store_dword v26, v0, s[0:3], 0 offen offset:120
+; GFX9-NEXT:    s_waitcnt vmcnt(25)
+; GFX9-NEXT:    buffer_store_dword v25, v0, s[0:3], 0 offen offset:116
 ; GFX9-NEXT:    buffer_store_short v1, v0, s[0:3], 0 offen offset:128
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
@@ -7618,197 +7614,197 @@ define <32 x double> @global_extload_v32bf16_to_v32f64(ptr addrspace(1) %ptr) {
 ; GCN-NEXT:    buffer_load_ushort v16, v[1:2], s[4:7], 0 addr64 offset:26
 ; GCN-NEXT:    buffer_load_ushort v17, v[1:2], s[4:7], 0 addr64 offset:28
 ; GCN-NEXT:    buffer_load_ushort v18, v[1:2], s[4:7], 0 addr64 offset:30
-; GCN-NEXT:    buffer_load_ushort v25, v[1:2], s[4:7], 0 addr64 offset:48
-; GCN-NEXT:    buffer_load_ushort v26, v[1:2], s[4:7], 0 addr64 offset:50
-; GCN-NEXT:    buffer_load_ushort v27, v[1:2], s[4:7], 0 addr64 offset:52
-; GCN-NEXT:    buffer_load_ushort v28, v[1:2], s[4:7], 0 addr64 offset:54
-; GCN-NEXT:    buffer_load_ushort v29, v[1:2], s[4:7], 0 addr64 offset:56
-; GCN-NEXT:    buffer_load_ushort v30, v[1:2], s[4:7], 0 addr64 offset:58
-; GCN-NEXT:    buffer_load_ushort v31, v[1:2], s[4:7], 0 addr64 offset:60
-; GCN-NEXT:    buffer_load_ushort v32, v[1:2], s[4:7], 0 addr64 offset:62
+; GCN-NEXT:    buffer_load_ushort v23, v[1:2], s[4:7], 0 addr64 offset:48
+; GCN-NEXT:    buffer_load_ushort v24, v[1:2], s[4:7], 0 addr64 offset:50
+; GCN-NEXT:    buffer_load_ushort v25, v[1:2], s[4:7], 0 addr64 offset:52
+; GCN-NEXT:    buffer_load_ushort v26, v[1:2], s[4:7], 0 addr64 offset:54
+; GCN-NEXT:    buffer_load_ushort v27, v[1:2], s[4:7], 0 addr64 offset:56
+; GCN-NEXT:    buffer_load_ushort v28, v[1:2], s[4:7], 0 addr64 offset:58
+; GCN-NEXT:    buffer_load_ushort v29, v[1:2], s[4:7], 0 addr64 offset:60
+; GCN-NEXT:    buffer_load_ushort v30, v[1:2], s[4:7], 0 addr64 offset:62
 ; GCN-NEXT:    buffer_load_ushort v19, v[1:2], s[4:7], 0 addr64 offset:32
 ; GCN-NEXT:    buffer_load_ushort v20, v[1:2], s[4:7], 0 addr64 offset:34
 ; GCN-NEXT:    buffer_load_ushort v21, v[1:2], s[4:7], 0 addr64 offset:36
 ; GCN-NEXT:    buffer_load_ushort v22, v[1:2], s[4:7], 0 addr64 offset:38
-; GCN-NEXT:    buffer_load_ushort v23, v[1:2], s[4:7], 0 addr64 offset:40
-; GCN-NEXT:    buffer_load_ushort v24, v[1:2], s[4:7], 0 addr64 offset:42
+; GCN-NEXT:    buffer_load_ushort v31, v[1:2], s[4:7], 0 addr64 offset:40
+; GCN-NEXT:    buffer_load_ushort v32, v[1:2], s[4:7], 0 addr64 offset:42
 ; GCN-NEXT:    buffer_load_ushort v33, v[1:2], s[4:7], 0 addr64 offset:44
 ; GCN-NEXT:    buffer_load_ushort v34, v[1:2], s[4:7], 0 addr64 offset:46
 ; GCN-NEXT:    s_waitcnt vmcnt(8)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v32
-; GCN-NEXT:    v_add_i32_e32 v32, vcc, 0xfc, v0
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v30
+; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0xfc, v0
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v32, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v30, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_add_i32_e32 v2, vcc, 0xf8, v0
 ; GCN-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v31
-; GCN-NEXT:    v_add_i32_e32 v31, vcc, 0xf4, v0
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v29
+; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0xf4, v0
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v31, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v29, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_add_i32_e32 v2, vcc, 0xf0, v0
 ; GCN-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v31, vcc, 0xec, v0
+; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0xec, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v30
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v28
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v31, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v29, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_add_i32_e32 v2, vcc, 0xe8, v0
 ; GCN-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0xe4, v0
+; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0xe4, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v29
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v27
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v30, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v28, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_add_i32_e32 v2, vcc, 0xe0, v0
 ; GCN-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0xdc, v0
-; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0xd8, v0
+; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0xdc, v0
+; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0xd8, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v28
-; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v29, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0xd4, v0
-; GCN-NEXT:    buffer_store_dword v1, v30, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0xd0, v0
-; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0xcc, v0
-; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v27
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v26
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v28, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0xc8, v0
-; GCN-NEXT:    buffer_store_dword v1, v29, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0xc4, v0
-; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0xc0, v0
+; GCN-NEXT:    buffer_store_dword v2, v27, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v26, vcc, 0xd4, v0
+; GCN-NEXT:    buffer_store_dword v1, v28, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0xd0, v0
+; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0xcc, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v26
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v25
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v30, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v26, vcc, 0xbc, v0
+; GCN-NEXT:    buffer_store_dword v2, v26, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v25, vcc, 0xc8, v0
 ; GCN-NEXT:    buffer_store_dword v1, v27, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0xb8, v0
-; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0xb4, v0
+; GCN-NEXT:    v_add_i32_e32 v26, vcc, 0xc4, v0
+; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0xc0, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v25
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v24
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
 ; GCN-NEXT:    buffer_store_dword v2, v28, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v25, vcc, 0xb0, v0
-; GCN-NEXT:    buffer_store_dword v1, v29, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0xac, v0
-; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0xa8, v0
-; GCN-NEXT:    s_waitcnt vmcnt(14) expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v34
+; GCN-NEXT:    v_add_i32_e32 v24, vcc, 0xbc, v0
+; GCN-NEXT:    buffer_store_dword v1, v25, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v25, vcc, 0xb8, v0
+; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0xb4, v0
+; GCN-NEXT:    s_waitcnt expcnt(0)
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v23
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
 ; GCN-NEXT:    buffer_store_dword v2, v26, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v26, vcc, 0xa4, v0
+; GCN-NEXT:    v_add_i32_e32 v23, vcc, 0xb0, v0
 ; GCN-NEXT:    buffer_store_dword v1, v27, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0xa0, v0
-; GCN-NEXT:    v_add_i32_e32 v31, vcc, 0x9c, v0
-; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v33
+; GCN-NEXT:    v_add_i32_e32 v26, vcc, 0xac, v0
+; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0xa8, v0
+; GCN-NEXT:    s_waitcnt vmcnt(14) expcnt(0)
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v34
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v30, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0x98, v0
+; GCN-NEXT:    buffer_store_dword v2, v24, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v24, vcc, 0xa4, v0
 ; GCN-NEXT:    buffer_store_dword v1, v25, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v25, vcc, 0x94, v0
-; GCN-NEXT:    v_add_i32_e32 v32, vcc, 0x90, v0
+; GCN-NEXT:    v_add_i32_e32 v25, vcc, 0xa0, v0
+; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0x9c, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v24
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v33
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
 ; GCN-NEXT:    buffer_store_dword v2, v28, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v24, vcc, 0x8c, v0
-; GCN-NEXT:    buffer_store_dword v1, v29, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0x88, v0
-; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0x84, v0
+; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0x98, v0
+; GCN-NEXT:    buffer_store_dword v1, v23, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v23, vcc, 0x94, v0
+; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0x90, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
-; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v23
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v32
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
 ; GCN-NEXT:    buffer_store_dword v2, v26, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v23, vcc, 0x80, v0
+; GCN-NEXT:    v_add_i32_e32 v26, vcc, 0x8c, v0
 ; GCN-NEXT:    buffer_store_dword v1, v27, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v26, vcc, 0x7c, v0
-; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0x78, v0
+; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0x88, v0
+; GCN-NEXT:    v_add_i32_e32 v32, vcc, 0x84, v0
+; GCN-NEXT:    s_waitcnt expcnt(0)
+; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v31
+; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GCN-NEXT:    buffer_store_dword v2, v24, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v24, vcc, 0x80, v0
+; GCN-NEXT:    buffer_store_dword v1, v25, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v25, vcc, 0x7c, v0
+; GCN-NEXT:    v_add_i32_e32 v31, vcc, 0x78, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v22
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v31, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v29, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v22, vcc, 0x74, v0
-; GCN-NEXT:    buffer_store_dword v1, v30, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0x70, v0
-; GCN-NEXT:    v_add_i32_e32 v31, vcc, 0x6c, v0
+; GCN-NEXT:    buffer_store_dword v1, v28, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0x70, v0
+; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0x6c, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v21
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v25, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v23, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v21, vcc, 0x68, v0
-; GCN-NEXT:    buffer_store_dword v1, v32, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v25, vcc, 0x64, v0
-; GCN-NEXT:    v_add_i32_e32 v32, vcc, 0x60, v0
+; GCN-NEXT:    buffer_store_dword v1, v30, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v23, vcc, 0x64, v0
+; GCN-NEXT:    v_add_i32_e32 v30, vcc, 0x60, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v20
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v24, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v26, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v20, vcc, 0x5c, v0
-; GCN-NEXT:    buffer_store_dword v1, v28, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v24, vcc, 0x58, v0
-; GCN-NEXT:    v_add_i32_e32 v28, vcc, 0x54, v0
+; GCN-NEXT:    buffer_store_dword v1, v27, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v26, vcc, 0x58, v0
+; GCN-NEXT:    v_add_i32_e32 v27, vcc, 0x54, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v19
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v29, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v32, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v19, vcc, 0x50, v0
-; GCN-NEXT:    buffer_store_dword v1, v23, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v23, vcc, 0x4c, v0
-; GCN-NEXT:    v_add_i32_e32 v29, vcc, 0x48, v0
+; GCN-NEXT:    buffer_store_dword v1, v24, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v24, vcc, 0x4c, v0
+; GCN-NEXT:    v_add_i32_e32 v32, vcc, 0x48, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v18
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v26, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v25, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v18, vcc, 0x44, v0
-; GCN-NEXT:    buffer_store_dword v1, v27, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v26, vcc, 64, v0
-; GCN-NEXT:    v_add_i32_e32 v27, vcc, 60, v0
+; GCN-NEXT:    buffer_store_dword v1, v31, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v25, vcc, 64, v0
+; GCN-NEXT:    v_add_i32_e32 v31, vcc, 60, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v17
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
 ; GCN-NEXT:    buffer_store_dword v2, v22, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v17, vcc, 56, v0
-; GCN-NEXT:    buffer_store_dword v1, v30, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v1, v28, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v22, vcc, 52, v0
-; GCN-NEXT:    v_add_i32_e32 v30, vcc, 48, v0
+; GCN-NEXT:    v_add_i32_e32 v28, vcc, 48, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v16
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v31, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v31, vcc, 44, v0
+; GCN-NEXT:    buffer_store_dword v2, v29, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v29, vcc, 44, v0
 ; GCN-NEXT:    buffer_store_dword v1, v21, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v21, vcc, 40, v0
 ; GCN-NEXT:    v_add_i32_e32 v33, vcc, 36, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v15
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v25, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v25, vcc, 32, v0
-; GCN-NEXT:    buffer_store_dword v1, v32, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v32, vcc, 28, v0
+; GCN-NEXT:    buffer_store_dword v2, v23, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v23, vcc, 32, v0
+; GCN-NEXT:    buffer_store_dword v1, v30, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v30, vcc, 28, v0
 ; GCN-NEXT:    v_add_i32_e32 v34, vcc, 24, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v14
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
 ; GCN-NEXT:    buffer_store_dword v2, v20, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v20, vcc, 20, v0
-; GCN-NEXT:    buffer_store_dword v1, v24, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v24, vcc, 16, v0
+; GCN-NEXT:    buffer_store_dword v1, v26, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v26, vcc, 16, v0
 ; GCN-NEXT:    v_add_i32_e32 v35, vcc, 12, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_lshlrev_b32_e32 v1, 16, v13
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GCN-NEXT:    buffer_store_dword v2, v28, s[0:3], 0 offen
-; GCN-NEXT:    v_add_i32_e32 v28, vcc, 8, v0
+; GCN-NEXT:    buffer_store_dword v2, v27, s[0:3], 0 offen
+; GCN-NEXT:    v_add_i32_e32 v27, vcc, 8, v0
 ; GCN-NEXT:    buffer_store_dword v1, v19, s[0:3], 0 offen
 ; GCN-NEXT:    v_add_i32_e32 v19, vcc, 4, v0
 ; GCN-NEXT:    s_waitcnt expcnt(0)
@@ -7824,34 +7820,34 @@ define <32 x double> @global_extload_v32bf16_to_v32f64(ptr addrspace(1) %ptr) {
 ; GCN-NEXT:    v_lshlrev_b32_e32 v36, 16, v8
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[3:4], v11
-; GCN-NEXT:    buffer_store_dword v2, v23, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v2, v24, s[0:3], 0 offen
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[5:6], v10
-; GCN-NEXT:    buffer_store_dword v1, v29, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v1, v32, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[1:2], v9
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[7:8], v12
-; GCN-NEXT:    v_cvt_f64_f32_e32 v[9:10], v13
+; GCN-NEXT:    v_cvt_f64_f32_e32 v[9:10], v36
 ; GCN-NEXT:    buffer_store_dword v4, v18, s[0:3], 0 offen
-; GCN-NEXT:    v_cvt_f64_f32_e32 v[11:12], v36
-; GCN-NEXT:    buffer_store_dword v3, v26, s[0:3], 0 offen
+; GCN-NEXT:    v_cvt_f64_f32_e32 v[11:12], v13
+; GCN-NEXT:    buffer_store_dword v3, v25, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[3:4], v14
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[13:14], v15
 ; GCN-NEXT:    v_cvt_f64_f32_e32 v[15:16], v16
-; GCN-NEXT:    buffer_store_dword v6, v27, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v6, v31, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v5, v17, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v2, v22, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v1, v30, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v12, v31, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v11, v21, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v1, v28, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v10, v29, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v9, v21, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v16, v33, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v15, v25, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v14, v32, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v15, v23, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v14, v30, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v13, v34, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v4, v20, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v3, v24, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v10, v35, s[0:3], 0 offen
-; GCN-NEXT:    buffer_store_dword v9, v28, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v3, v26, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v12, v35, s[0:3], 0 offen
+; GCN-NEXT:    buffer_store_dword v11, v27, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v8, v19, s[0:3], 0 offen
 ; GCN-NEXT:    buffer_store_dword v7, v0, s[0:3], 0 offen
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0)
@@ -7864,258 +7860,258 @@ define <32 x double> @global_extload_v32bf16_to_v32f64(ptr addrspace(1) %ptr) {
 ; GFX7-NEXT:    s_mov_b32 s7, 0xf000
 ; GFX7-NEXT:    s_mov_b32 s4, s6
 ; GFX7-NEXT:    s_mov_b32 s5, s6
-; GFX7-NEXT:    buffer_load_ushort v20, v[1:2], s[4:7], 0 addr64 offset:62
-; GFX7-NEXT:    buffer_load_ushort v22, v[1:2], s[4:7], 0 addr64 offset:60
-; GFX7-NEXT:    buffer_load_ushort v23, v[1:2], s[4:7], 0 addr64 offset:58
-; GFX7-NEXT:    buffer_load_ushort v24, v[1:2], s[4:7], 0 addr64 offset:56
-; GFX7-NEXT:    buffer_load_ushort v25, v[1:2], s[4:7], 0 addr64 offset:54
-; GFX7-NEXT:    buffer_load_ushort v26, v[1:2], s[4:7], 0 addr64 offset:52
-; GFX7-NEXT:    buffer_load_ushort v27, v[1:2], s[4:7], 0 addr64 offset:50
-; GFX7-NEXT:    buffer_load_ushort v28, v[1:2], s[4:7], 0 addr64 offset:48
-; GFX7-NEXT:    buffer_load_ushort v15, v[1:2], s[4:7], 0 addr64 offset:32
-; GFX7-NEXT:    buffer_load_ushort v18, v[1:2], s[4:7], 0 addr64 offset:34
-; GFX7-NEXT:    buffer_load_ushort v29, v[1:2], s[4:7], 0 addr64 offset:36
-; GFX7-NEXT:    buffer_load_ushort v30, v[1:2], s[4:7], 0 addr64 offset:38
-; GFX7-NEXT:    buffer_load_ushort v31, v[1:2], s[4:7], 0 addr64 offset:40
-; GFX7-NEXT:    buffer_load_ushort v32, v[1:2], s[4:7], 0 addr64 offset:42
-; GFX7-NEXT:    buffer_load_ushort v33, v[1:2], s[4:7], 0 addr64 offset:44
-; GFX7-NEXT:    buffer_load_ushort v34, v[1:2], s[4:7], 0 addr64 offset:46
-; GFX7-NEXT:    buffer_load_ushort v19, v[1:2], s[4:7], 0 addr64
-; GFX7-NEXT:    buffer_load_ushort v17, v[1:2], s[4:7], 0 addr64 offset:2
-; GFX7-NEXT:    buffer_load_ushort v14, v[1:2], s[4:7], 0 addr64 offset:4
-; GFX7-NEXT:    buffer_load_ushort v12, v[1:2], s[4:7], 0 addr64 offset:6
-; GFX7-NEXT:    buffer_load_ushort v10, v[1:2], s[4:7], 0 addr64 offset:8
-; GFX7-NEXT:    buffer_load_ushort v9, v[1:2], s[4:7], 0 addr64 offset:10
-; GFX7-NEXT:    buffer_load_ushort v7, v[1:2], s[4:7], 0 addr64 offset:12
+; GFX7-NEXT:    buffer_load_ushort v17, v[1:2], s[4:7], 0 addr64 offset:62
+; GFX7-NEXT:    buffer_load_ushort v18, v[1:2], s[4:7], 0 addr64 offset:60
+; GFX7-NEXT:    buffer_load_ushort v19, v[1:2], s[4:7], 0 addr64 offset:58
+; GFX7-NEXT:    buffer_load_ushort v20, v[1:2], s[4:7], 0 addr64 offset:56
+; GFX7-NEXT:    buffer_load_ushort v21, v[1:2], s[4:7], 0 addr64 offset:54
+; GFX7-NEXT:    buffer_load_ushort v22, v[1:2], s[4:7], 0 addr64 offset:52
+; GFX7-NEXT:    buffer_load_ushort v23, v[1:2], s[4:7], 0 addr64 offset:50
+; GFX7-NEXT:    buffer_load_ushort v24, v[1:2], s[4:7], 0 addr64 offset:48
+; GFX7-NEXT:    buffer_load_ushort v16, v[1:2], s[4:7], 0 addr64 offset:32
+; GFX7-NEXT:    buffer_load_ushort v25, v[1:2], s[4:7], 0 addr64 offset:34
+; GFX7-NEXT:    buffer_load_ushort v26, v[1:2], s[4:7], 0 addr64 offset:36
+; GFX7-NEXT:    buffer_load_ushort v27, v[1:2], s[4:7], 0 addr64 offset:38
+; GFX7-NEXT:    buffer_load_ushort v28, v[1:2], s[4:7], 0 addr64 offset:40
+; GFX7-NEXT:    buffer_load_ushort v29, v[1:2], s[4:7], 0 addr64 offset:42
+; GFX7-NEXT:    buffer_load_ushort v30, v[1:2], s[4:7], 0 addr64 offset:44
+; GFX7-NEXT:    buffer_load_ushort v31, v[1:2], s[4:7], 0 addr64 offset:46
+; GFX7-NEXT:    buffer_load_ushort v32, v[1:2], s[4:7], 0 addr64
+; GFX7-NEXT:    buffer_load_ushort v15, v[1:2], s[4:7], 0 addr64 offset:2
+; GFX7-NEXT:    buffer_load_ushort v13, v[1:2], s[4:7], 0 addr64 offset:4
+; GFX7-NEXT:    buffer_load_ushort v11, v[1:2], s[4:7], 0 addr64 offset:6
+; GFX7-NEXT:    buffer_load_ushort v9, v[1:2], s[4:7], 0 addr64 offset:8
+; GFX7-NEXT:    buffer_load_ushort v8, v[1:2], s[4:7], 0 addr64 offset:10
+; GFX7-NEXT:    buffer_load_ushort v6, v[1:2], s[4:7], 0 addr64 offset:12
 ; GFX7-NEXT:    buffer_load_ushort v4, v[1:2], s[4:7], 0 addr64 offset:14
-; GFX7-NEXT:    buffer_load_ushort v5, v[1:2], s[4:7], 0 addr64 offset:16
-; GFX7-NEXT:    buffer_load_ushort v3, v[1:2], s[4:7], 0 addr64 offset:18
-; GFX7-NEXT:    buffer_load_ushort v6, v[1:2], s[4:7], 0 addr64 offset:20
-; GFX7-NEXT:    buffer_load_ushort v8, v[1:2], s[4:7], 0 addr64 offset:22
-; GFX7-NEXT:    buffer_load_ushort v11, v[1:2], s[4:7], 0 addr64 offset:24
-; GFX7-NEXT:    buffer_load_ushort v13, v[1:2], s[4:7], 0 addr64 offset:26
-; GFX7-NEXT:    buffer_load_ushort v16, v[1:2], s[4:7], 0 addr64 offset:28
-; GFX7-NEXT:    buffer_load_ushort v1, v[1:2], s[4:7], 0 addr64 offset:30
+; GFX7-NEXT:    buffer_load_ushort v3, v[1:2], s[4:7], 0 addr64 offset:16
+; GFX7-NEXT:    buffer_load_ushort v5, v[1:2], s[4:7], 0 addr64 offset:18
+; GFX7-NEXT:    buffer_load_ushort v7, v[1:2], s[4:7], 0 addr64 offset:20
+; GFX7-NEXT:    buffer_load_ushort v10, v[1:2], s[4:7], 0 addr64 offset:22
+; GFX7-NEXT:    buffer_load_ushort v12, v[1:2], s[4:7], 0 addr64 offset:24
+; GFX7-NEXT:    buffer_load_ushort v14, v[1:2], s[4:7], 0 addr64 offset:26
+; GFX7-NEXT:    buffer_load_ushort v33, v[1:2], s[4:7], 0 addr64 offset:28
+; GFX7-NEXT:    buffer_load_ushort v34, v[1:2], s[4:7], 0 addr64 offset:30
 ; GFX7-NEXT:    s_waitcnt vmcnt(14)
-; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 16, v20
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v2
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xfc, v0
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v17
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0xfc, v0
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
 ; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xf8, v0
-; GFX7-NEXT:    buffer_store_dword v20, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 16, v22
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v2
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xf4, v0
-; GFX7-NEXT:    v_add_i32_e32 v22, vcc, 0xd8, v0
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v18
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0xf4, v0
+; GFX7-NEXT:    v_add_i32_e32 v18, vcc, 0xd8, v0
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
 ; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xf0, v0
-; GFX7-NEXT:    buffer_store_dword v20, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 16, v23
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v2
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xec, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(14)
-; GFX7-NEXT:    v_lshlrev_b32_e32 v14, 16, v14
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v19
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0xec, v0
+; GFX7-NEXT:    v_add_i32_e32 v19, vcc, 0xd4, v0
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
 ; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xe8, v0
-; GFX7-NEXT:    buffer_store_dword v20, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 16, v24
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v2
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xe4, v0
-; GFX7-NEXT:    v_add_i32_e32 v24, vcc, 0xd0, v0
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v20
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0xe4, v0
+; GFX7-NEXT:    v_add_i32_e32 v20, vcc, 0xd0, v0
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
 ; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xe0, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v21, 16, v25
-; GFX7-NEXT:    buffer_store_dword v20, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v21
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xdc, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(8)
-; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_lshlrev_b32_e32 v21, 16, v26
-; GFX7-NEXT:    buffer_store_dword v20, v22, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v21
-; GFX7-NEXT:    v_lshlrev_b32_e32 v22, 16, v27
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xd4, v0
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[22:23], v22
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v20, v24, s[0:3], 0 offen
-; GFX7-NEXT:    v_lshlrev_b32_e32 v20, 16, v28
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v20
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xcc, v0
-; GFX7-NEXT:    buffer_store_dword v23, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xc8, v0
-; GFX7-NEXT:    buffer_store_dword v22, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xc4, v0
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_lshlrev_b32_e32 v21, 16, v34
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[21:22], v21
+; GFX7-NEXT:    v_lshlrev_b32_e32 v17, 16, v21
+; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v17
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0xdc, v0
+; GFX7-NEXT:    s_waitcnt vmcnt(14)
+; GFX7-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 16, v22
+; GFX7-NEXT:    buffer_store_dword v1, v18, s[0:3], 0 offen
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v2
+; GFX7-NEXT:    v_lshlrev_b32_e32 v17, 16, v23
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[17:18], v17
+; GFX7-NEXT:    buffer_store_dword v2, v19, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v1, v20, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 0xcc, v0
+; GFX7-NEXT:    buffer_store_dword v18, v1, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v24
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GFX7-NEXT:    v_add_i32_e32 v18, vcc, 0xc8, v0
+; GFX7-NEXT:    buffer_store_dword v17, v18, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0xc4, v0
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v17, 16, v31
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[17:18], v17
 ; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xc0, v0
-; GFX7-NEXT:    buffer_store_dword v20, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xbc, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v20, 16, v33
-; GFX7-NEXT:    buffer_store_dword v22, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[22:23], v20
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xb8, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v20, 16, v32
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v20
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xb4, v0
-; GFX7-NEXT:    buffer_store_dword v23, v2, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 0xbc, v0
+; GFX7-NEXT:    buffer_store_dword v18, v1, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v30
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GFX7-NEXT:    v_add_i32_e32 v18, vcc, 0xb8, v0
+; GFX7-NEXT:    buffer_store_dword v17, v18, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0xb4, v0
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v17, 16, v29
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[17:18], v17
 ; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xb0, v0
-; GFX7-NEXT:    buffer_store_dword v22, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xac, v0
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_lshlrev_b32_e32 v21, 16, v31
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[21:22], v21
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xa8, v0
-; GFX7-NEXT:    buffer_store_dword v20, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xa4, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v20, 16, v30
-; GFX7-NEXT:    buffer_store_dword v22, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[22:23], v20
+; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 0xac, v0
+; GFX7-NEXT:    buffer_store_dword v18, v1, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v28
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GFX7-NEXT:    v_add_i32_e32 v18, vcc, 0xa8, v0
+; GFX7-NEXT:    buffer_store_dword v17, v18, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0xa4, v0
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v17, 16, v27
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[17:18], v17
 ; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0xa0, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v20, 16, v29
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v20
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0x9c, v0
-; GFX7-NEXT:    buffer_store_dword v23, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0x98, v0
-; GFX7-NEXT:    buffer_store_dword v22, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0x94, v0
-; GFX7-NEXT:    buffer_store_dword v21, v2, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 0x9c, v0
+; GFX7-NEXT:    buffer_store_dword v18, v1, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v26
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GFX7-NEXT:    v_add_i32_e32 v18, vcc, 0x98, v0
+; GFX7-NEXT:    buffer_store_dword v17, v18, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0x94, v0
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v17, 16, v25
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[17:18], v17
 ; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0x90, v0
-; GFX7-NEXT:    buffer_store_dword v20, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 16, v18
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v2
-; GFX7-NEXT:    v_add_i32_e32 v18, vcc, 0x8c, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 16, v19
-; GFX7-NEXT:    buffer_store_dword v21, v18, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v18, vcc, 0x88, v0
-; GFX7-NEXT:    buffer_store_dword v20, v18, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[18:19], v2
-; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 16, v15
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v2
-; GFX7-NEXT:    v_add_i32_e32 v15, vcc, 0x84, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v2, 16, v17
-; GFX7-NEXT:    buffer_store_dword v21, v15, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v15, vcc, 0x80, v0
-; GFX7-NEXT:    buffer_store_dword v20, v15, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[20:21], v2
+; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 0x8c, v0
+; GFX7-NEXT:    buffer_store_dword v18, v1, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 0x88, v0
+; GFX7-NEXT:    buffer_store_dword v17, v1, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v1, 16, v16
 ; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GFX7-NEXT:    v_add_i32_e32 v15, vcc, 0x7c, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
-; GFX7-NEXT:    buffer_store_dword v2, v15, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0x78, v0
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0x84, v0
+; GFX7-NEXT:    v_lshlrev_b32_e32 v16, 16, v32
+; GFX7-NEXT:    buffer_store_dword v2, v17, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 0x80, v0
 ; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v14
-; GFX7-NEXT:    v_lshlrev_b32_e32 v14, 16, v16
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[14:15], v14
-; GFX7-NEXT:    v_add_i32_e32 v16, vcc, 0x74, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v10, 16, v10
-; GFX7-NEXT:    buffer_store_dword v15, v16, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v15, vcc, 0x70, v0
-; GFX7-NEXT:    buffer_store_dword v14, v15, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[14:15], v12
-; GFX7-NEXT:    v_lshlrev_b32_e32 v12, 16, v13
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[12:13], v12
-; GFX7-NEXT:    v_add_i32_e32 v16, vcc, 0x6c, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v8, 16, v8
-; GFX7-NEXT:    buffer_store_dword v13, v16, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v13, vcc, 0x68, v0
-; GFX7-NEXT:    buffer_store_dword v12, v13, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[12:13], v10
-; GFX7-NEXT:    v_lshlrev_b32_e32 v10, 16, v11
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[10:11], v10
-; GFX7-NEXT:    v_add_i32_e32 v16, vcc, 0x64, v0
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[1:2], v16
+; GFX7-NEXT:    s_waitcnt vmcnt(14)
+; GFX7-NEXT:    v_lshlrev_b32_e32 v16, 16, v34
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[16:17], v16
+; GFX7-NEXT:    v_add_i32_e32 v18, vcc, 0x7c, v0
+; GFX7-NEXT:    v_add_i32_e32 v19, vcc, 0x74, v0
+; GFX7-NEXT:    buffer_store_dword v17, v18, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v17, vcc, 0x78, v0
+; GFX7-NEXT:    buffer_store_dword v16, v17, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v17, 16, v33
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[17:18], v17
+; GFX7-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
+; GFX7-NEXT:    v_lshlrev_b32_e32 v9, 16, v9
+; GFX7-NEXT:    v_lshlrev_b32_e32 v7, 16, v7
+; GFX7-NEXT:    buffer_store_dword v18, v19, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v18, vcc, 0x70, v0
+; GFX7-NEXT:    buffer_store_dword v17, v18, s[0:3], 0 offen
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[17:18], v13
+; GFX7-NEXT:    v_lshlrev_b32_e32 v13, 16, v14
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[13:14], v13
+; GFX7-NEXT:    v_add_i32_e32 v19, vcc, 0x6c, v0
 ; GFX7-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
-; GFX7-NEXT:    buffer_store_dword v11, v16, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[16:17], v8
-; GFX7-NEXT:    v_add_i32_e32 v11, vcc, 0x60, v0
-; GFX7-NEXT:    v_add_i32_e32 v8, vcc, 0x5c, v0
-; GFX7-NEXT:    buffer_store_dword v10, v11, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v17, v8, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v8, vcc, 0x58, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v11, 16, v4
-; GFX7-NEXT:    v_lshlrev_b32_e32 v4, 16, v6
-; GFX7-NEXT:    buffer_store_dword v16, v8, s[0:3], 0 offen
-; GFX7-NEXT:    v_lshlrev_b32_e32 v16, 16, v5
+; GFX7-NEXT:    buffer_store_dword v14, v19, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v14, vcc, 0x68, v0
+; GFX7-NEXT:    buffer_store_dword v13, v14, s[0:3], 0 offen
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[13:14], v11
+; GFX7-NEXT:    v_lshlrev_b32_e32 v11, 16, v12
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[11:12], v11
+; GFX7-NEXT:    v_add_i32_e32 v19, vcc, 0x64, v0
+; GFX7-NEXT:    v_lshlrev_b32_e32 v6, 16, v6
+; GFX7-NEXT:    buffer_store_dword v12, v19, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v12, vcc, 0x60, v0
+; GFX7-NEXT:    buffer_store_dword v11, v12, s[0:3], 0 offen
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[11:12], v9
+; GFX7-NEXT:    v_lshlrev_b32_e32 v9, 16, v10
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[9:10], v9
+; GFX7-NEXT:    v_add_i32_e32 v19, vcc, 0x5c, v0
+; GFX7-NEXT:    v_lshlrev_b32_e32 v8, 16, v8
+; GFX7-NEXT:    buffer_store_dword v10, v19, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v10, vcc, 0x58, v0
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[19:20], v7
+; GFX7-NEXT:    buffer_store_dword v9, v10, s[0:3], 0 offen
+; GFX7-NEXT:    v_lshlrev_b32_e32 v10, 16, v4
+; GFX7-NEXT:    v_lshlrev_b32_e32 v4, 16, v5
 ; GFX7-NEXT:    v_cvt_f64_f32_e32 v[4:5], v4
-; GFX7-NEXT:    v_add_i32_e32 v6, vcc, 0x54, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v7, 16, v7
-; GFX7-NEXT:    buffer_store_dword v5, v6, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v5, vcc, 0x50, v0
+; GFX7-NEXT:    v_add_i32_e32 v7, vcc, 0x54, v0
+; GFX7-NEXT:    buffer_store_dword v20, v7, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v7, vcc, 0x50, v0
+; GFX7-NEXT:    buffer_store_dword v19, v7, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v19, vcc, 0x4c, v0
+; GFX7-NEXT:    buffer_store_dword v5, v19, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v5, vcc, 0x48, v0
 ; GFX7-NEXT:    buffer_store_dword v4, v5, s[0:3], 0 offen
 ; GFX7-NEXT:    v_cvt_f64_f32_e32 v[3:4], v3
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[5:6], v16
-; GFX7-NEXT:    v_add_i32_e32 v16, vcc, 0x4c, v0
-; GFX7-NEXT:    buffer_store_dword v4, v16, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v4, vcc, 0x48, v0
-; GFX7-NEXT:    buffer_store_dword v3, v4, s[0:3], 0 offen
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[3:4], v11
-; GFX7-NEXT:    v_add_i32_e32 v11, vcc, 0x44, v0
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[7:8], v7
-; GFX7-NEXT:    buffer_store_dword v6, v11, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v6, vcc, 64, v0
-; GFX7-NEXT:    v_lshlrev_b32_e32 v9, 16, v9
-; GFX7-NEXT:    buffer_store_dword v5, v6, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v5, vcc, 60, v0
-; GFX7-NEXT:    v_cvt_f64_f32_e32 v[9:10], v9
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[19:20], v10
+; GFX7-NEXT:    v_add_i32_e32 v5, vcc, 0x44, v0
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[6:7], v6
 ; GFX7-NEXT:    buffer_store_dword v4, v5, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v4, vcc, 56, v0
+; GFX7-NEXT:    v_add_i32_e32 v4, vcc, 64, v0
 ; GFX7-NEXT:    buffer_store_dword v3, v4, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 60, v0
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[8:9], v8
+; GFX7-NEXT:    buffer_store_dword v20, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 56, v0
+; GFX7-NEXT:    buffer_store_dword v19, v3, s[0:3], 0 offen
 ; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 52, v0
-; GFX7-NEXT:    buffer_store_dword v8, v3, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 48, v0
 ; GFX7-NEXT:    buffer_store_dword v7, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 48, v0
+; GFX7-NEXT:    buffer_store_dword v6, v3, s[0:3], 0 offen
 ; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 44, v0
-; GFX7-NEXT:    buffer_store_dword v10, v3, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 40, v0
 ; GFX7-NEXT:    buffer_store_dword v9, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 40, v0
+; GFX7-NEXT:    buffer_store_dword v8, v3, s[0:3], 0 offen
 ; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 36, v0
-; GFX7-NEXT:    buffer_store_dword v13, v3, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 32, v0
 ; GFX7-NEXT:    buffer_store_dword v12, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 32, v0
+; GFX7-NEXT:    v_lshlrev_b32_e32 v15, 16, v15
+; GFX7-NEXT:    buffer_store_dword v11, v3, s[0:3], 0 offen
 ; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 28, v0
-; GFX7-NEXT:    buffer_store_dword v15, v3, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 24, v0
+; GFX7-NEXT:    v_cvt_f64_f32_e32 v[15:16], v15
 ; GFX7-NEXT:    buffer_store_dword v14, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 24, v0
+; GFX7-NEXT:    buffer_store_dword v13, v3, s[0:3], 0 offen
 ; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 20, v0
+; GFX7-NEXT:    buffer_store_dword v18, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 16, v0
+; GFX7-NEXT:    buffer_store_dword v17, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 12, v0
+; GFX7-NEXT:    buffer_store_dword v16, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 8, v0
+; GFX7-NEXT:    buffer_store_dword v15, v3, s[0:3], 0 offen
+; GFX7-NEXT:    v_add_i32_e32 v3, vcc, 4, v0
 ; GFX7-NEXT:    buffer_store_dword v2, v3, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v2, vcc, 16, v0
-; GFX7-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 12, v0
-; GFX7-NEXT:    buffer_store_dword v21, v1, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 8, v0
-; GFX7-NEXT:    buffer_store_dword v20, v1, s[0:3], 0 offen
-; GFX7-NEXT:    v_add_i32_e32 v1, vcc, 4, v0
-; GFX7-NEXT:    buffer_store_dword v19, v1, s[0:3], 0 offen
-; GFX7-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen
+; GFX7-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
 ; GFX7-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX8-LABEL: global_extload_v32bf16_to_v32f64:
 ; GFX8:       ; %bb.0:
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_add_u32_e32 v9, vcc, 2, v1
-; GFX8-NEXT:    v_addc_u32_e32 v10, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v3, vcc, 4, v1
+; GFX8-NEXT:    v_add_u32_e32 v3, vcc, 2, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v4, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 6, v1
+; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 4, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v6, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v7, vcc, 8, v1
+; GFX8-NEXT:    v_add_u32_e32 v7, vcc, 6, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v8, vcc, 0, v2, vcc
+; GFX8-NEXT:    v_add_u32_e32 v9, vcc, 8, v1
+; GFX8-NEXT:    v_addc_u32_e32 v10, vcc, 0, v2, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v11, vcc, 10, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v12, vcc, 0, v2, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v13, vcc, 12, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v14, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 14, v1
-; GFX8-NEXT:    v_addc_u32_e32 v18, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v21, vcc, 16, v1
-; GFX8-NEXT:    v_addc_u32_e32 v22, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v15, vcc, 18, v1
+; GFX8-NEXT:    v_add_u32_e32 v15, vcc, 14, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v16, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, 20, v1
+; GFX8-NEXT:    v_add_u32_e32 v19, vcc, 16, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v20, vcc, 0, v2, vcc
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 18, v1
+; GFX8-NEXT:    v_addc_u32_e32 v18, vcc, 0, v2, vcc
+; GFX8-NEXT:    v_add_u32_e32 v21, vcc, 20, v1
+; GFX8-NEXT:    v_addc_u32_e32 v22, vcc, 0, v2, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v23, vcc, 22, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v24, vcc, 0, v2, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v25, vcc, 24, v1
@@ -8126,469 +8122,473 @@ define <32 x double> @global_extload_v32bf16_to_v32f64(ptr addrspace(1) %ptr) {
 ; GFX8-NEXT:    v_addc_u32_e32 v30, vcc, 0, v2, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v31, vcc, 30, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v32, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v33, vcc, 32, v1
+; GFX8-NEXT:    v_add_u32_e32 v33, vcc, 34, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v34, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v35, vcc, 34, v1
+; GFX8-NEXT:    v_add_u32_e32 v35, vcc, 36, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v36, vcc, 0, v2, vcc
-; GFX8-NEXT:    buffer_store_dword v40, off, s[0:3], s32 offset:36 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v41, off, s[0:3], s32 offset:32 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v42, off, s[0:3], s32 offset:28 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v43, off, s[0:3], s32 offset:24 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v44, off, s[0:3], s32 offset:20 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v45, off, s[0:3], s32 offset:16 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v46, off, s[0:3], s32 offset:12 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v47, off, s[0:3], s32 offset:8 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v56, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v57, off, s[0:3], s32 ; 4-byte Folded Spill
-; GFX8-NEXT:    v_add_u32_e32 v37, vcc, 36, v1
-; GFX8-NEXT:    flat_load_ushort v43, v[1:2]
+; GFX8-NEXT:    buffer_store_dword v40, off, s[0:3], s32 offset:40 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v41, off, s[0:3], s32 offset:36 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v42, off, s[0:3], s32 offset:32 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v43, off, s[0:3], s32 offset:28 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v44, off, s[0:3], s32 offset:24 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v45, off, s[0:3], s32 offset:20 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v46, off, s[0:3], s32 offset:16 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v47, off, s[0:3], s32 offset:12 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v56, off, s[0:3], s32 offset:8 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v57, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
+; GFX8-NEXT:    buffer_store_dword v58, off, s[0:3], s32 ; 4-byte Folded Spill
+; GFX8-NEXT:    v_add_u32_e32 v37, vcc, 38, v1
+; GFX8-NEXT:    flat_load_ushort v44, v[1:2]
 ; GFX8-NEXT:    v_addc_u32_e32 v38, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v48, vcc, 38, v1
+; GFX8-NEXT:    v_add_u32_e32 v48, vcc, 40, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v49, vcc, 0, v2, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v50, vcc, 62, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v51, vcc, 0, v2, vcc
-; GFX8-NEXT:    flat_load_ushort v44, v[50:51]
+; GFX8-NEXT:    flat_load_ushort v45, v[50:51]
 ; GFX8-NEXT:    v_add_u32_e32 v50, vcc, 60, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v51, vcc, 0, v2, vcc
-; GFX8-NEXT:    flat_load_ushort v45, v[50:51]
-; GFX8-NEXT:    v_add_u32_e32 v50, vcc, 40, v1
+; GFX8-NEXT:    flat_load_ushort v46, v[50:51]
+; GFX8-NEXT:    v_add_u32_e32 v50, vcc, 42, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v51, vcc, 0, v2, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v52, vcc, 58, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v53, vcc, 0, v2, vcc
-; GFX8-NEXT:    flat_load_ushort v46, v[52:53]
-; GFX8-NEXT:    v_add_u32_e32 v52, vcc, 42, v1
+; GFX8-NEXT:    flat_load_ushort v47, v[52:53]
+; GFX8-NEXT:    v_add_u32_e32 v52, vcc, 44, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v53, vcc, 0, v2, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v54, vcc, 56, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v55, vcc, 0, v2, vcc
-; GFX8-NEXT:    flat_load_ushort v47, v[54:55]
-; GFX8-NEXT:    v_add_u32_e32 v54, vcc, 44, v1
+; GFX8-NEXT:    flat_load_ushort v56, v[54:55]
+; GFX8-NEXT:    v_add_u32_e32 v54, vcc, 46, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v55, vcc, 0, v2, vcc
 ; GFX8-NEXT:    v_add_u32_e32 v39, vcc, 54, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v40, vcc, 0, v2, vcc
-; GFX8-NEXT:    flat_load_ushort v56, v[39:40]
-; GFX8-NEXT:    v_add_u32_e32 v39, vcc, 52, v1
-; GFX8-NEXT:    v_addc_u32_e32 v40, vcc, 0, v2, vcc
 ; GFX8-NEXT:    flat_load_ushort v57, v[39:40]
-; GFX8-NEXT:    v_add_u32_e32 v39, vcc, 46, v1
+; GFX8-NEXT:    v_add_u32_e32 v39, vcc, 52, v1
 ; GFX8-NEXT:    v_addc_u32_e32 v40, vcc, 0, v2, vcc
-; GFX8-NEXT:    v_add_u32_e32 v41, vcc, 50, v1
-; GFX8-NEXT:    v_addc_u32_e32 v42, vcc, 0, v2, vcc
-; GFX8-NEXT:    flat_load_ushort v41, v[41:42]
-; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 48, v1
-; GFX8-NEXT:    v_addc_u32_e32 v2, vcc, 0, v2, vcc
-; GFX8-NEXT:    flat_load_ushort v42, v[9:10]
-; GFX8-NEXT:    flat_load_ushort v9, v[35:36]
-; GFX8-NEXT:    flat_load_ushort v10, v[37:38]
-; GFX8-NEXT:    flat_load_ushort v35, v[48:49]
-; GFX8-NEXT:    flat_load_ushort v36, v[50:51]
-; GFX8-NEXT:    flat_load_ushort v37, v[52:53]
-; GFX8-NEXT:    flat_load_ushort v48, v[54:55]
-; GFX8-NEXT:    flat_load_ushort v39, v[39:40]
-; GFX8-NEXT:    flat_load_ushort v49, v[1:2]
-; GFX8-NEXT:    flat_load_ushort v50, v[3:4]
-; GFX8-NEXT:    flat_load_ushort v51, v[5:6]
-; GFX8-NEXT:    flat_load_ushort v52, v[7:8]
-; GFX8-NEXT:    flat_load_ushort v53, v[11:12]
-; GFX8-NEXT:    flat_load_ushort v38, v[13:14]
-; GFX8-NEXT:    flat_load_ushort v14, v[17:18]
-; GFX8-NEXT:    flat_load_ushort v11, v[21:22]
-; GFX8-NEXT:    v_add_u32_e32 v3, vcc, 4, v0
-; GFX8-NEXT:    flat_load_ushort v15, v[15:16]
-; GFX8-NEXT:    flat_load_ushort v13, v[19:20]
-; GFX8-NEXT:    flat_load_ushort v8, v[23:24]
-; GFX8-NEXT:    flat_load_ushort v6, v[25:26]
-; GFX8-NEXT:    flat_load_ushort v5, v[27:28]
-; GFX8-NEXT:    flat_load_ushort v7, v[29:30]
-; GFX8-NEXT:    flat_load_ushort v12, v[31:32]
-; GFX8-NEXT:    flat_load_ushort v16, v[33:34]
-; GFX8-NEXT:    v_add_u32_e32 v18, vcc, 0xc4, v0
-; GFX8-NEXT:    v_add_u32_e32 v20, vcc, 0xbc, v0
-; GFX8-NEXT:    v_add_u32_e32 v22, vcc, 0xb4, v0
-; GFX8-NEXT:    v_add_u32_e32 v24, vcc, 0xac, v0
-; GFX8-NEXT:    v_add_u32_e32 v26, vcc, 0xa4, v0
-; GFX8-NEXT:    v_add_u32_e32 v27, vcc, 0x9c, v0
+; GFX8-NEXT:    flat_load_ushort v58, v[39:40]
+; GFX8-NEXT:    v_add_u32_e32 v40, vcc, 48, v1
+; GFX8-NEXT:    v_addc_u32_e32 v41, vcc, 0, v2, vcc
+; GFX8-NEXT:    v_add_u32_e32 v42, vcc, 50, v1
+; GFX8-NEXT:    v_addc_u32_e32 v43, vcc, 0, v2, vcc
+; GFX8-NEXT:    flat_load_ushort v42, v[42:43]
+; GFX8-NEXT:    flat_load_ushort v34, v[33:34]
+; GFX8-NEXT:    flat_load_ushort v36, v[35:36]
+; GFX8-NEXT:    flat_load_ushort v38, v[37:38]
+; GFX8-NEXT:    flat_load_ushort v39, v[48:49]
+; GFX8-NEXT:    flat_load_ushort v48, v[50:51]
+; GFX8-NEXT:    flat_load_ushort v51, v[52:53]
+; GFX8-NEXT:    flat_load_ushort v52, v[54:55]
+; GFX8-NEXT:    flat_load_ushort v53, v[40:41]
+; GFX8-NEXT:    v_add_u32_e32 v49, vcc, 32, v1
+; GFX8-NEXT:    v_addc_u32_e32 v50, vcc, 0, v2, vcc
+; GFX8-NEXT:    flat_load_ushort v37, v[3:4]
+; GFX8-NEXT:    flat_load_ushort v35, v[5:6]
+; GFX8-NEXT:    flat_load_ushort v33, v[7:8]
+; GFX8-NEXT:    flat_load_ushort v8, v[9:10]
+; GFX8-NEXT:    flat_load_ushort v6, v[11:12]
+; GFX8-NEXT:    flat_load_ushort v4, v[13:14]
+; GFX8-NEXT:    flat_load_ushort v2, v[15:16]
+; GFX8-NEXT:    flat_load_ushort v1, v[19:20]
+; GFX8-NEXT:    v_add_u32_e32 v16, vcc, 4, v0
+; GFX8-NEXT:    v_add_u32_e32 v19, vcc, 0x7c, v0
 ; GFX8-NEXT:    s_waitcnt vmcnt(14)
-; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v43
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GFX8-NEXT:    buffer_store_dword v2, v3, s[0:3], 0 offen
-; GFX8-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 0xfc, v0
-; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 16, v44
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[2:3], v2
-; GFX8-NEXT:    buffer_store_dword v3, v1, s[0:3], 0 offen
-; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v45
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[3:4], v3
-; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 0xf8, v0
-; GFX8-NEXT:    buffer_store_dword v2, v1, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 0xf4, v0
-; GFX8-NEXT:    buffer_store_dword v4, v1, s[0:3], 0 offen
-; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v46
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0xf0, v0
-; GFX8-NEXT:    buffer_store_dword v3, v4, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v3, vcc, 0xec, v0
-; GFX8-NEXT:    buffer_store_dword v2, v3, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0xe8, v0
-; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 16, v47
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[2:3], v2
-; GFX8-NEXT:    buffer_store_dword v1, v4, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 0xe4, v0
-; GFX8-NEXT:    buffer_store_dword v3, v1, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 0xe0, v0
-; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v56
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[3:4], v3
-; GFX8-NEXT:    buffer_store_dword v2, v1, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 0xdc, v0
-; GFX8-NEXT:    buffer_store_dword v4, v1, s[0:3], 0 offen
-; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v57
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0xd8, v0
-; GFX8-NEXT:    buffer_store_dword v3, v4, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v3, vcc, 0xd4, v0
-; GFX8-NEXT:    buffer_store_dword v2, v3, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, 0xd0, v0
-; GFX8-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
-; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v41
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0xcc, v0
-; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v42
-; GFX8-NEXT:    buffer_store_dword v2, v4, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, 0xc8, v0
-; GFX8-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[1:2], v3
-; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v49
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[3:4], v3
-; GFX8-NEXT:    v_lshlrev_b32_e32 v17, 16, v50
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v44
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[14:15], v3
+; GFX8-NEXT:    flat_load_ushort v3, v[17:18]
+; GFX8-NEXT:    flat_load_ushort v5, v[21:22]
+; GFX8-NEXT:    flat_load_ushort v7, v[23:24]
+; GFX8-NEXT:    flat_load_ushort v9, v[25:26]
+; GFX8-NEXT:    flat_load_ushort v10, v[27:28]
+; GFX8-NEXT:    flat_load_ushort v11, v[29:30]
+; GFX8-NEXT:    flat_load_ushort v12, v[31:32]
+; GFX8-NEXT:    flat_load_ushort v13, v[49:50]
+; GFX8-NEXT:    v_add_u32_e32 v18, vcc, 0x84, v0
+; GFX8-NEXT:    buffer_store_dword v15, v16, s[0:3], 0 offen
+; GFX8-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xfc, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v15, 16, v45
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[15:16], v15
+; GFX8-NEXT:    buffer_store_dword v16, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v16, 16, v46
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[16:17], v16
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xf8, v0
+; GFX8-NEXT:    buffer_store_dword v15, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xf4, v0
+; GFX8-NEXT:    buffer_store_dword v17, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v14, 16, v47
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[14:15], v14
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0xf0, v0
+; GFX8-NEXT:    buffer_store_dword v16, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v16, vcc, 0xec, v0
+; GFX8-NEXT:    buffer_store_dword v15, v16, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0xe8, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v15, 16, v56
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[15:16], v15
+; GFX8-NEXT:    buffer_store_dword v14, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xe4, v0
+; GFX8-NEXT:    buffer_store_dword v16, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xe0, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v16, 16, v57
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[16:17], v16
+; GFX8-NEXT:    buffer_store_dword v15, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xdc, v0
+; GFX8-NEXT:    buffer_store_dword v17, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v14, 16, v58
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[14:15], v14
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0xd8, v0
+; GFX8-NEXT:    buffer_store_dword v16, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v16, vcc, 0xd4, v0
+; GFX8-NEXT:    buffer_store_dword v15, v16, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v15, 16, v42
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[15:16], v15
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0xd0, v0
+; GFX8-NEXT:    buffer_store_dword v14, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xcc, v0
+; GFX8-NEXT:    buffer_store_dword v16, v14, s[0:3], 0 offen
 ; GFX8-NEXT:    s_waitcnt vmcnt(14)
-; GFX8-NEXT:    v_lshlrev_b32_e32 v19, 16, v51
-; GFX8-NEXT:    v_lshlrev_b32_e32 v21, 16, v52
-; GFX8-NEXT:    buffer_store_dword v4, v18, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0xc0, v0
-; GFX8-NEXT:    buffer_store_dword v3, v4, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[3:4], v17
-; GFX8-NEXT:    v_lshlrev_b32_e32 v17, 16, v39
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[17:18], v17
-; GFX8-NEXT:    v_lshlrev_b32_e32 v23, 16, v53
-; GFX8-NEXT:    v_lshlrev_b32_e32 v25, 16, v38
-; GFX8-NEXT:    v_lshlrev_b32_e32 v10, 16, v10
-; GFX8-NEXT:    buffer_store_dword v18, v20, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v18, vcc, 0xb8, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v16, 16, v53
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[16:17], v16
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xc8, v0
+; GFX8-NEXT:    buffer_store_dword v15, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xc4, v0
+; GFX8-NEXT:    buffer_store_dword v17, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v14, 16, v52
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[14:15], v14
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0xc0, v0
+; GFX8-NEXT:    buffer_store_dword v16, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v16, vcc, 0xbc, v0
+; GFX8-NEXT:    buffer_store_dword v15, v16, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v15, 16, v51
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[15:16], v15
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0xb8, v0
+; GFX8-NEXT:    buffer_store_dword v14, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xb4, v0
+; GFX8-NEXT:    buffer_store_dword v16, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v16, 16, v48
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[16:17], v16
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xb0, v0
+; GFX8-NEXT:    buffer_store_dword v15, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0xac, v0
+; GFX8-NEXT:    buffer_store_dword v17, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v14, 16, v39
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[14:15], v14
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0xa8, v0
+; GFX8-NEXT:    buffer_store_dword v16, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v16, vcc, 0xa4, v0
+; GFX8-NEXT:    buffer_store_dword v15, v16, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v15, 16, v38
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[15:16], v15
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0xa0, v0
+; GFX8-NEXT:    buffer_store_dword v14, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0x9c, v0
+; GFX8-NEXT:    buffer_store_dword v16, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v16, 16, v36
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[16:17], v16
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0x98, v0
+; GFX8-NEXT:    buffer_store_dword v15, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0x94, v0
+; GFX8-NEXT:    buffer_store_dword v17, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0x90, v0
+; GFX8-NEXT:    buffer_store_dword v16, v14, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v14, 16, v34
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[14:15], v14
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0x8c, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v16, 16, v37
+; GFX8-NEXT:    buffer_store_dword v15, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v15, vcc, 0x88, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; GFX8-NEXT:    buffer_store_dword v14, v15, s[0:3], 0 offen
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[14:15], v16
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[16:17], v13
+; GFX8-NEXT:    v_lshlrev_b32_e32 v13, 16, v35
+; GFX8-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
+; GFX8-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
 ; GFX8-NEXT:    buffer_store_dword v17, v18, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[17:18], v19
-; GFX8-NEXT:    v_lshlrev_b32_e32 v19, 16, v48
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[19:20], v19
-; GFX8-NEXT:    v_lshlrev_b32_e32 v9, 16, v9
-; GFX8-NEXT:    v_lshlrev_b32_e32 v14, 16, v14
-; GFX8-NEXT:    v_lshlrev_b32_e32 v5, 16, v5
-; GFX8-NEXT:    buffer_store_dword v20, v22, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v20, vcc, 0xb0, v0
-; GFX8-NEXT:    buffer_store_dword v19, v20, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[19:20], v21
-; GFX8-NEXT:    v_lshlrev_b32_e32 v21, 16, v37
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[21:22], v21
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v8
-; GFX8-NEXT:    buffer_store_dword v22, v24, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v22, vcc, 0xa8, v0
-; GFX8-NEXT:    buffer_store_dword v21, v22, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[21:22], v23
-; GFX8-NEXT:    v_lshlrev_b32_e32 v23, 16, v36
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[23:24], v23
-; GFX8-NEXT:    buffer_store_dword v24, v26, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v24, vcc, 0xa0, v0
-; GFX8-NEXT:    buffer_store_dword v23, v24, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[23:24], v25
-; GFX8-NEXT:    v_lshlrev_b32_e32 v25, 16, v35
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[25:26], v25
-; GFX8-NEXT:    buffer_store_dword v26, v27, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[27:28], v10
-; GFX8-NEXT:    v_add_u32_e32 v26, vcc, 0x98, v0
-; GFX8-NEXT:    v_lshlrev_b32_e32 v10, 16, v11
-; GFX8-NEXT:    v_add_u32_e32 v11, vcc, 0x94, v0
-; GFX8-NEXT:    buffer_store_dword v25, v26, s[0:3], 0 offen
-; GFX8-NEXT:    buffer_store_dword v28, v11, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v11, vcc, 0x90, v0
-; GFX8-NEXT:    buffer_store_dword v27, v11, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[27:28], v9
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[25:26], v14
-; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0x8c, v0
-; GFX8-NEXT:    v_lshlrev_b32_e32 v9, 16, v15
-; GFX8-NEXT:    buffer_store_dword v28, v14, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v14, vcc, 0x88, v0
-; GFX8-NEXT:    buffer_store_dword v27, v14, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[14:15], v9
-; GFX8-NEXT:    v_lshlrev_b32_e32 v9, 16, v16
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[27:28], v9
-; GFX8-NEXT:    v_lshlrev_b32_e32 v9, 16, v13
-; GFX8-NEXT:    v_add_u32_e32 v13, vcc, 0x84, v0
-; GFX8-NEXT:    buffer_store_dword v28, v13, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v13, vcc, 0x80, v0
-; GFX8-NEXT:    buffer_store_dword v27, v13, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[27:28], v9
-; GFX8-NEXT:    v_lshlrev_b32_e32 v9, 16, v12
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[12:13], v9
-; GFX8-NEXT:    v_add_u32_e32 v9, vcc, 0x7c, v0
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[10:11], v10
-; GFX8-NEXT:    buffer_store_dword v13, v9, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v9, vcc, 0x78, v0
-; GFX8-NEXT:    buffer_store_dword v12, v9, s[0:3], 0 offen
-; GFX8-NEXT:    v_lshlrev_b32_e32 v12, 16, v6
-; GFX8-NEXT:    v_lshlrev_b32_e32 v6, 16, v7
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[6:7], v6
-; GFX8-NEXT:    v_add_u32_e32 v13, vcc, 0x74, v0
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[8:9], v8
-; GFX8-NEXT:    buffer_store_dword v7, v13, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v7, vcc, 0x70, v0
-; GFX8-NEXT:    buffer_store_dword v6, v7, s[0:3], 0 offen
-; GFX8-NEXT:    v_cvt_f64_f32_e32 v[5:6], v5
+; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0x80, v0
+; GFX8-NEXT:    buffer_store_dword v16, v17, s[0:3], 0 offen
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[16:17], v13
 ; GFX8-NEXT:    v_cvt_f64_f32_e32 v[12:13], v12
-; GFX8-NEXT:    v_add_u32_e32 v7, vcc, 0x6c, v0
-; GFX8-NEXT:    buffer_store_dword v6, v7, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 0x68, v0
-; GFX8-NEXT:    buffer_store_dword v5, v6, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 0x64, v0
-; GFX8-NEXT:    buffer_store_dword v13, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 0x60, v0
-; GFX8-NEXT:    buffer_store_dword v12, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 0x5c, v0
-; GFX8-NEXT:    buffer_store_dword v9, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 0x58, v0
-; GFX8-NEXT:    buffer_store_dword v8, v5, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v18, 16, v33
+; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v8
+; GFX8-NEXT:    v_lshlrev_b32_e32 v6, 16, v6
+; GFX8-NEXT:    buffer_store_dword v13, v19, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v13, vcc, 0x78, v0
+; GFX8-NEXT:    buffer_store_dword v12, v13, s[0:3], 0 offen
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[12:13], v18
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[18:19], v11
+; GFX8-NEXT:    v_add_u32_e32 v11, vcc, 0x74, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
+; GFX8-NEXT:    buffer_store_dword v19, v11, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v11, vcc, 0x70, v0
+; GFX8-NEXT:    buffer_store_dword v18, v11, s[0:3], 0 offen
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[18:19], v8
+; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v10
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[10:11], v8
+; GFX8-NEXT:    v_add_u32_e32 v8, vcc, 0x6c, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
+; GFX8-NEXT:    buffer_store_dword v11, v8, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v8, vcc, 0x68, v0
+; GFX8-NEXT:    buffer_store_dword v10, v8, s[0:3], 0 offen
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[10:11], v6
+; GFX8-NEXT:    v_lshlrev_b32_e32 v6, 16, v9
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[8:9], v6
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 0x64, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; GFX8-NEXT:    buffer_store_dword v9, v6, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 0x60, v0
+; GFX8-NEXT:    buffer_store_dword v8, v6, s[0:3], 0 offen
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[8:9], v4
+; GFX8-NEXT:    v_lshlrev_b32_e32 v4, 16, v7
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[6:7], v4
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0x5c, v0
+; GFX8-NEXT:    buffer_store_dword v7, v4, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0x58, v0
+; GFX8-NEXT:    buffer_store_dword v6, v4, s[0:3], 0 offen
+; GFX8-NEXT:    v_lshlrev_b32_e32 v4, 16, v1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v5
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[6:7], v2
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
 ; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 0x54, v0
-; GFX8-NEXT:    buffer_store_dword v28, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 0x50, v0
-; GFX8-NEXT:    buffer_store_dword v27, v5, s[0:3], 0 offen
+; GFX8-NEXT:    buffer_store_dword v2, v5, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v2, vcc, 0x50, v0
+; GFX8-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[1:2], v3
+; GFX8-NEXT:    v_cvt_f64_f32_e32 v[3:4], v4
 ; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 0x4c, v0
-; GFX8-NEXT:    buffer_store_dword v15, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 0x48, v0
-; GFX8-NEXT:    buffer_store_dword v14, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 0x44, v0
-; GFX8-NEXT:    buffer_store_dword v11, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 64, v0
-; GFX8-NEXT:    buffer_store_dword v10, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 60, v0
-; GFX8-NEXT:    buffer_store_dword v26, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 56, v0
-; GFX8-NEXT:    buffer_store_dword v25, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 52, v0
-; GFX8-NEXT:    buffer_store_dword v24, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 48, v0
-; GFX8-NEXT:    buffer_store_dword v23, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 44, v0
-; GFX8-NEXT:    buffer_store_dword v22, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 40, v0
-; GFX8-NEXT:    buffer_store_dword v21, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 36, v0
-; GFX8-NEXT:    buffer_store_dword v20, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 32, v0
-; GFX8-NEXT:    buffer_store_dword v19, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 28, v0
-; GFX8-NEXT:    buffer_store_dword v18, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 24, v0
-; GFX8-NEXT:    buffer_store_dword v17, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v5, vcc, 20, v0
-; GFX8-NEXT:    buffer_store_dword v4, v5, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 16, v0
-; GFX8-NEXT:    buffer_store_dword v3, v4, s[0:3], 0 offen
-; GFX8-NEXT:    v_add_u32_e32 v3, vcc, 12, v0
+; GFX8-NEXT:    buffer_store_dword v2, v5, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v2, vcc, 0x48, v0
+; GFX8-NEXT:    buffer_store_dword v1, v2, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 0x44, v0
+; GFX8-NEXT:    buffer_store_dword v4, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 64, v0
+; GFX8-NEXT:    buffer_store_dword v3, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 60, v0
+; GFX8-NEXT:    buffer_store_dword v7, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 56, v0
+; GFX8-NEXT:    buffer_store_dword v6, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 52, v0
+; GFX8-NEXT:    buffer_store_dword v9, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 48, v0
+; GFX8-NEXT:    buffer_store_dword v8, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 44, v0
+; GFX8-NEXT:    buffer_store_dword v11, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 40, v0
+; GFX8-NEXT:    buffer_store_dword v10, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 36, v0
+; GFX8-NEXT:    buffer_store_dword v19, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 32, v0
+; GFX8-NEXT:    buffer_store_dword v18, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 28, v0
+; GFX8-NEXT:    buffer_store_dword v13, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 24, v0
+; GFX8-NEXT:    buffer_store_dword v12, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 20, v0
+; GFX8-NEXT:    buffer_store_dword v17, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 16, v0
+; GFX8-NEXT:    buffer_store_dword v16, v1, s[0:3], 0 offen
+; GFX8-NEXT:    v_add_u32_e32 v1, vcc, 12, v0
 ; GFX8-NEXT:    v_add_u32_e32 v0, vcc, 8, v0
-; GFX8-NEXT:    buffer_store_dword v2, v3, s[0:3], 0 offen
-; GFX8-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen
-; GFX8-NEXT:    buffer_load_dword v57, off, s[0:3], s32 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v56, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v47, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v46, off, s[0:3], s32 offset:12 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v45, off, s[0:3], s32 offset:16 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v44, off, s[0:3], s32 offset:20 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v43, off, s[0:3], s32 offset:24 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v42, off, s[0:3], s32 offset:28 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v41, off, s[0:3], s32 offset:32 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v40, off, s[0:3], s32 offset:36 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_store_dword v15, v1, s[0:3], 0 offen
+; GFX8-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen
+; GFX8-NEXT:    buffer_load_dword v58, off, s[0:3], s32 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v57, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v56, off, s[0:3], s32 offset:8 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v47, off, s[0:3], s32 offset:12 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v46, off, s[0:3], s32 offset:16 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v45, off, s[0:3], s32 offset:20 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v44, off, s[0:3], s32 offset:24 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v43, off, s[0:3], s32 offset:28 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v42, off, s[0:3], s32 offset:32 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v41, off, s[0:3], s32 offset:36 ; 4-byte Folded Reload
+; GFX8-NEXT:    buffer_load_dword v40, off, s[0:3], s32 offset:40 ; 4-byte Folded Reload
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX9-LABEL: global_extload_v32bf16_to_v32f64:
 ; GFX9:       ; %bb.0:
 ; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    global_load_ushort v21, v[1:2], off offset:62
-; GFX9-NEXT:    global_load_ushort v23, v[1:2], off offset:60
-; GFX9-NEXT:    global_load_ushort v24, v[1:2], off offset:58
-; GFX9-NEXT:    global_load_ushort v25, v[1:2], off offset:56
-; GFX9-NEXT:    global_load_ushort v26, v[1:2], off offset:54
-; GFX9-NEXT:    global_load_ushort v27, v[1:2], off offset:52
-; GFX9-NEXT:    global_load_ushort v28, v[1:2], off offset:50
-; GFX9-NEXT:    global_load_ushort v29, v[1:2], off offset:48
-; GFX9-NEXT:    global_load_ushort v30, v[1:2], off offset:46
-; GFX9-NEXT:    global_load_ushort v31, v[1:2], off offset:44
-; GFX9-NEXT:    global_load_ushort v32, v[1:2], off offset:42
-; GFX9-NEXT:    global_load_ushort v33, v[1:2], off offset:40
-; GFX9-NEXT:    global_load_ushort v34, v[1:2], off offset:38
-; GFX9-NEXT:    global_load_ushort v19, v[1:2], off
-; GFX9-NEXT:    global_load_ushort v20, v[1:2], off offset:36
-; GFX9-NEXT:    global_load_ushort v17, v[1:2], off offset:2
-; GFX9-NEXT:    global_load_ushort v18, v[1:2], off offset:4
-; GFX9-NEXT:    global_load_ushort v16, v[1:2], off offset:34
-; GFX9-NEXT:    global_load_ushort v11, v[1:2], off offset:32
-; GFX9-NEXT:    global_load_ushort v13, v[1:2], off offset:6
-; GFX9-NEXT:    global_load_ushort v14, v[1:2], off offset:8
-; GFX9-NEXT:    global_load_ushort v15, v[1:2], off offset:30
+; GFX9-NEXT:    global_load_ushort v8, v[1:2], off offset:62
+; GFX9-NEXT:    global_load_ushort v10, v[1:2], off offset:60
+; GFX9-NEXT:    global_load_ushort v11, v[1:2], off offset:58
+; GFX9-NEXT:    global_load_ushort v12, v[1:2], off offset:56
+; GFX9-NEXT:    global_load_ushort v13, v[1:2], off offset:54
+; GFX9-NEXT:    global_load_ushort v14, v[1:2], off offset:52
+; GFX9-NEXT:    global_load_ushort v15, v[1:2], off offset:50
+; GFX9-NEXT:    global_load_ushort v16, v[1:2], off offset:48
+; GFX9-NEXT:    global_load_ushort v17, v[1:2], off offset:46
+; GFX9-NEXT:    global_load_ushort v18, v[1:2], off offset:44
+; GFX9-NEXT:    global_load_ushort v19, v[1:2], off offset:42
+; GFX9-NEXT:    global_load_ushort v20, v[1:2], off offset:40
+; GFX9-NEXT:    global_load_ushort v21, v[1:2], off offset:38
+; GFX9-NEXT:    global_load_ushort v22, v[1:2], off offset:36
+; GFX9-NEXT:    global_load_ushort v23, v[1:2], off offset:34
+; GFX9-NEXT:    global_load_ushort v24, v[1:2], off offset:32
+; GFX9-NEXT:    global_load_ushort v25, v[1:2], off
+; GFX9-NEXT:    global_load_ushort v26, v[1:2], off offset:2
+; GFX9-NEXT:    global_load_ushort v27, v[1:2], off offset:30
 ; GFX9-NEXT:    global_load_ushort v3, v[1:2], off offset:16
 ; GFX9-NEXT:    global_load_ushort v4, v[1:2], off offset:18
 ; GFX9-NEXT:    global_load_ushort v5, v[1:2], off offset:20
 ; GFX9-NEXT:    global_load_ushort v6, v[1:2], off offset:22
-; GFX9-NEXT:    global_load_ushort v8, v[1:2], off offset:24
-; GFX9-NEXT:    global_load_ushort v10, v[1:2], off offset:26
-; GFX9-NEXT:    global_load_ushort v12, v[1:2], off offset:28
-; GFX9-NEXT:    global_load_ushort v9, v[1:2], off offset:10
+; GFX9-NEXT:    global_load_ushort v28, v[1:2], off offset:24
+; GFX9-NEXT:    global_load_ushort v29, v[1:2], off offset:26
+; GFX9-NEXT:    global_load_ushort v30, v[1:2], off offset:28
+; GFX9-NEXT:    global_load_ushort v31, v[1:2], off offset:4
+; GFX9-NEXT:    global_load_ushort v32, v[1:2], off offset:6
+; GFX9-NEXT:    global_load_ushort v33, v[1:2], off offset:8
+; GFX9-NEXT:    global_load_ushort v34, v[1:2], off offset:10
 ; GFX9-NEXT:    global_load_ushort v7, v[1:2], off offset:12
 ; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    global_load_ushort v1, v[1:2], off offset:14
 ; GFX9-NEXT:    s_waitcnt vmcnt(31)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v21
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[21:22], v2
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v8
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v2
 ; GFX9-NEXT:    s_waitcnt vmcnt(30)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v23
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v10
 ; GFX9-NEXT:    s_waitcnt vmcnt(28)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v23, 16, v25
-; GFX9-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:252
-; GFX9-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:248
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[21:22], v2
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v24
+; GFX9-NEXT:    v_lshlrev_b32_e32 v10, 16, v12
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:252
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:248
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v2
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v11
 ; GFX9-NEXT:    s_waitcnt vmcnt(29)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v24, 16, v26
-; GFX9-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:244
-; GFX9-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:240
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[21:22], v2
+; GFX9-NEXT:    v_lshlrev_b32_e32 v11, 16, v13
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:244
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:240
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v2
 ; GFX9-NEXT:    s_waitcnt vmcnt(30)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v25, 16, v27
-; GFX9-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:236
-; GFX9-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:232
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[21:22], v23
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[23:24], v24
+; GFX9-NEXT:    v_lshlrev_b32_e32 v12, 16, v14
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:236
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:232
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v10
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[10:11], v11
 ; GFX9-NEXT:    s_waitcnt vmcnt(31)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v26, 16, v28
+; GFX9-NEXT:    v_lshlrev_b32_e32 v13, 16, v15
 ; GFX9-NEXT:    s_waitcnt vmcnt(30)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v27, 16, v29
-; GFX9-NEXT:    s_waitcnt vmcnt(29)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v30
-; GFX9-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:228
-; GFX9-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:224
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[21:22], v25
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[25:26], v26
-; GFX9-NEXT:    buffer_store_dword v24, v0, s[0:3], 0 offen offset:220
-; GFX9-NEXT:    buffer_store_dword v23, v0, s[0:3], 0 offen offset:216
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[23:24], v27
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[27:28], v2
+; GFX9-NEXT:    v_lshlrev_b32_e32 v14, 16, v16
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:228
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:224
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v12
+; GFX9-NEXT:    s_waitcnt vmcnt(31)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v15, 16, v17
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[12:13], v13
+; GFX9-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:220
+; GFX9-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:216
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[10:11], v14
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[14:15], v15
+; GFX9-NEXT:    s_waitcnt vmcnt(32)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v18
+; GFX9-NEXT:    s_waitcnt vmcnt(30)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v18, 16, v20
 ; GFX9-NEXT:    s_waitcnt vmcnt(28)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v19
-; GFX9-NEXT:    s_waitcnt vmcnt(27)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v19, 16, v20
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[19:20], v19
-; GFX9-NEXT:    v_lshlrev_b32_e32 v29, 16, v31
-; GFX9-NEXT:    v_lshlrev_b32_e32 v30, 16, v32
-; GFX9-NEXT:    v_lshlrev_b32_e32 v31, 16, v33
-; GFX9-NEXT:    v_lshlrev_b32_e32 v32, 16, v34
-; GFX9-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:212
-; GFX9-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:208
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[21:22], v29
-; GFX9-NEXT:    s_waitcnt vmcnt(26)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v16, 16, v16
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[29:30], v30
-; GFX9-NEXT:    buffer_store_dword v26, v0, s[0:3], 0 offen offset:204
-; GFX9-NEXT:    buffer_store_dword v25, v0, s[0:3], 0 offen offset:200
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[25:26], v31
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[31:32], v32
-; GFX9-NEXT:    buffer_store_dword v24, v0, s[0:3], 0 offen offset:196
-; GFX9-NEXT:    buffer_store_dword v23, v0, s[0:3], 0 offen offset:192
-; GFX9-NEXT:    buffer_store_dword v28, v0, s[0:3], 0 offen offset:188
-; GFX9-NEXT:    buffer_store_dword v27, v0, s[0:3], 0 offen offset:184
-; GFX9-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:180
-; GFX9-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:176
-; GFX9-NEXT:    buffer_store_dword v30, v0, s[0:3], 0 offen offset:172
-; GFX9-NEXT:    buffer_store_dword v29, v0, s[0:3], 0 offen offset:168
-; GFX9-NEXT:    buffer_store_dword v26, v0, s[0:3], 0 offen offset:164
-; GFX9-NEXT:    buffer_store_dword v25, v0, s[0:3], 0 offen offset:160
-; GFX9-NEXT:    buffer_store_dword v32, v0, s[0:3], 0 offen offset:156
-; GFX9-NEXT:    buffer_store_dword v31, v0, s[0:3], 0 offen offset:152
-; GFX9-NEXT:    v_lshlrev_b32_e32 v21, 16, v17
+; GFX9-NEXT:    v_lshlrev_b32_e32 v20, 16, v22
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:212
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:208
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v2
+; GFX9-NEXT:    v_lshlrev_b32_e32 v16, 16, v19
+; GFX9-NEXT:    v_lshlrev_b32_e32 v19, 16, v21
+; GFX9-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:204
+; GFX9-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:200
+; GFX9-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:196
+; GFX9-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:192
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[10:11], v20
+; GFX9-NEXT:    s_waitcnt vmcnt(33)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v23
 ; GFX9-NEXT:    v_cvt_f64_f32_e32 v[16:17], v16
-; GFX9-NEXT:    s_waitcnt vmcnt(39)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
-; GFX9-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:148
-; GFX9-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:144
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[12:13], v18
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[18:19], v19
+; GFX9-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:188
+; GFX9-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:184
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:180
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:176
+; GFX9-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:172
+; GFX9-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:168
+; GFX9-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:164
+; GFX9-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:160
+; GFX9-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:156
+; GFX9-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:152
+; GFX9-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:148
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v2
+; GFX9-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:144
+; GFX9-NEXT:    s_waitcnt vmcnt(44)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v10, 16, v24
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:140
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:136
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v10
+; GFX9-NEXT:    s_waitcnt vmcnt(43)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v12, 16, v27
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:132
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:128
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v12
+; GFX9-NEXT:    s_waitcnt vmcnt(38)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v14, 16, v30
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:124
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:120
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v14
+; GFX9-NEXT:    v_lshlrev_b32_e32 v16, 16, v29
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:116
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:112
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v16
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v25
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[10:11], v2
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v26
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[12:13], v2
+; GFX9-NEXT:    s_waitcnt vmcnt(41)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v31
+; GFX9-NEXT:    v_lshlrev_b32_e32 v18, 16, v28
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[14:15], v2
 ; GFX9-NEXT:    s_waitcnt vmcnt(40)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v20, 16, v13
-; GFX9-NEXT:    s_waitcnt vmcnt(39)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v23, 16, v14
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[13:14], v11
-; GFX9-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:140
-; GFX9-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:136
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v32
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:108
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:104
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v18
 ; GFX9-NEXT:    v_cvt_f64_f32_e32 v[16:17], v2
+; GFX9-NEXT:    s_waitcnt vmcnt(41)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v33
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[18:19], v2
 ; GFX9-NEXT:    s_waitcnt vmcnt(40)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v15
-; GFX9-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:132
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[14:15], v2
-; GFX9-NEXT:    s_waitcnt vmcnt(34)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v12
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[11:12], v2
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v10
-; GFX9-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:128
-; GFX9-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:124
-; GFX9-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:120
-; GFX9-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:116
-; GFX9-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:112
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[10:11], v2
-; GFX9-NEXT:    v_lshlrev_b32_e32 v8, 16, v8
-; GFX9-NEXT:    s_waitcnt vmcnt(38)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v9
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v8
-; GFX9-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:108
-; GFX9-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:104
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[10:11], v2
-; GFX9-NEXT:    s_waitcnt vmcnt(39)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v7
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v34
 ; GFX9-NEXT:    v_lshlrev_b32_e32 v6, 16, v6
-; GFX9-NEXT:    s_waitcnt vmcnt(38)
-; GFX9-NEXT:    v_lshlrev_b32_e32 v12, 16, v1
-; GFX9-NEXT:    v_lshlrev_b32_e32 v1, 16, v5
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[20:21], v2
+; GFX9-NEXT:    v_lshlrev_b32_e32 v2, 16, v5
 ; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:100
 ; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:96
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[6:7], v6
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v2
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[8:9], v6
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[5:6], v2
+; GFX9-NEXT:    s_waitcnt vmcnt(41)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v22, 16, v7
+; GFX9-NEXT:    s_waitcnt vmcnt(40)
+; GFX9-NEXT:    v_lshlrev_b32_e32 v7, 16, v1
+; GFX9-NEXT:    v_lshlrev_b32_e32 v1, 16, v4
+; GFX9-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:92
+; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:88
 ; GFX9-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
-; GFX9-NEXT:    v_lshlrev_b32_e32 v5, 16, v3
-; GFX9-NEXT:    v_lshlrev_b32_e32 v3, 16, v4
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[3:4], v3
-; GFX9-NEXT:    buffer_store_dword v7, v0, s[0:3], 0 offen offset:92
-; GFX9-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:88
-; GFX9-NEXT:    buffer_store_dword v2, v0, s[0:3], 0 offen offset:84
-; GFX9-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen offset:80
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[1:2], v5
-; GFX9-NEXT:    v_lshlrev_b32_e32 v22, 16, v18
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[18:19], v21
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[13:14], v22
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[20:21], v20
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[22:23], v23
-; GFX9-NEXT:    v_cvt_f64_f32_e32 v[5:6], v12
-; GFX9-NEXT:    buffer_store_dword v4, v0, s[0:3], 0 offen offset:76
-; GFX9-NEXT:    buffer_store_dword v3, v0, s[0:3], 0 offen offset:72
-; GFX9-NEXT:    buffer_store_dword v2, v0, s[0:3], 0 offen offset:68
-; GFX9-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen offset:64
-; GFX9-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:60
-; GFX9-NEXT:    buffer_store_dword v5, v0, s[0:3], 0 offen offset:56
-; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:52
-; GFX9-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:48
-; GFX9-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:44
-; GFX9-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:40
-; GFX9-NEXT:    buffer_store_dword v23, v0, s[0:3], 0 offen offset:36
-; GFX9-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:32
-; GFX9-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:28
-; GFX9-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:24
-; GFX9-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:20
-; GFX9-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:16
-; GFX9-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:12
-; GFX9-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:8
-; GFX9-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:4
-; GFX9-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen
+; GFX9-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:84
+; GFX9-NEXT:    buffer_store_dword v5, v0, s[0:3], 0 offen offset:80
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[4:5], v7
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[6:7], v3
+; GFX9-NEXT:    buffer_store_dword v2, v0, s[0:3], 0 offen offset:76
+; GFX9-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen offset:72
+; GFX9-NEXT:    v_cvt_f64_f32_e32 v[1:2], v22
+; GFX9-NEXT:    buffer_store_dword v7, v0, s[0:3], 0 offen offset:68
+; GFX9-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:64
+; GFX9-NEXT:    buffer_store_dword v5, v0, s[0:3], 0 offen offset:60
+; GFX9-NEXT:    buffer_store_dword v4, v0, s[0:3], 0 offen offset:56
+; GFX9-NEXT:    buffer_store_dword v2, v0, s[0:3], 0 offen offset:52
+; GFX9-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen offset:48
+; GFX9-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:44
+; GFX9-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:40
+; GFX9-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:36
+; GFX9-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:32
+; GFX9-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:28
+; GFX9-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:24
+; GFX9-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:20
+; GFX9-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:16
+; GFX9-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:12
+; GFX9-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:8
+; GFX9-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:4
+; GFX9-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -8612,179 +8612,177 @@ define <32 x double> @global_extload_v32bf16_to_v32f64(ptr addrspace(1) %ptr) {
 ; GFX10-NEXT:    global_load_ushort v16, v[1:2], off offset:26
 ; GFX10-NEXT:    global_load_ushort v17, v[1:2], off offset:28
 ; GFX10-NEXT:    global_load_ushort v18, v[1:2], off offset:30
-; GFX10-NEXT:    global_load_ushort v19, v[1:2], off offset:32
-; GFX10-NEXT:    global_load_ushort v20, v[1:2], off offset:34
-; GFX10-NEXT:    global_load_ushort v21, v[1:2], off offset:36
-; GFX10-NEXT:    global_load_ushort v22, v[1:2], off offset:38
-; GFX10-NEXT:    global_load_ushort v23, v[1:2], off offset:40
-; GFX10-NEXT:    global_load_ushort v24, v[1:2], off offset:42
-; GFX10-NEXT:    global_load_ushort v25, v[1:2], off offset:44
-; GFX10-NEXT:    global_load_ushort v26, v[1:2], off offset:46
-; GFX10-NEXT:    global_load_ushort v27, v[1:2], off offset:48
-; GFX10-NEXT:    global_load_ushort v28, v[1:2], off offset:62
-; GFX10-NEXT:    global_load_ushort v29, v[1:2], off offset:50
-; GFX10-NEXT:    global_load_ushort v30, v[1:2], off offset:52
-; GFX10-NEXT:    global_load_ushort v31, v[1:2], off offset:54
-; GFX10-NEXT:    global_load_ushort v32, v[1:2], off offset:60
-; GFX10-NEXT:    global_load_ushort v33, v[1:2], off offset:56
-; GFX10-NEXT:    global_load_ushort v34, v[1:2], off offset:58
+; GFX10-NEXT:    global_load_ushort v19, v[1:2], off offset:62
+; GFX10-NEXT:    global_load_ushort v20, v[1:2], off offset:32
+; GFX10-NEXT:    global_load_ushort v21, v[1:2], off offset:34
+; GFX10-NEXT:    global_load_ushort v22, v[1:2], off offset:36
+; GFX10-NEXT:    global_load_ushort v23, v[1:2], off offset:60
+; GFX10-NEXT:    global_load_ushort v24, v[1:2], off offset:38
+; GFX10-NEXT:    global_load_ushort v25, v[1:2], off offset:40
+; GFX10-NEXT:    global_load_ushort v26, v[1:2], off offset:58
+; GFX10-NEXT:    global_load_ushort v27, v[1:2], off offset:42
+; GFX10-NEXT:    global_load_ushort v28, v[1:2], off offset:44
+; GFX10-NEXT:    global_load_ushort v29, v[1:2], off offset:56
+; GFX10-NEXT:    global_load_ushort v30, v[1:2], off offset:46
+; GFX10-NEXT:    global_load_ushort v31, v[1:2], off offset:48
+; GFX10-NEXT:    global_load_ushort v32, v[1:2], off offset:54
+; GFX10-NEXT:    global_load_ushort v33, v[1:2], off offset:50
+; GFX10-NEXT:    global_load_ushort v34, v[1:2], off offset:52
 ; GFX10-NEXT:    s_waitcnt vmcnt(31)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; GFX10-NEXT:    v_lshlrev_b32_e32 v35, 16, v3
 ; GFX10-NEXT:    s_waitcnt vmcnt(30)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v35, 16, v4
+; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v4
 ; GFX10-NEXT:    s_waitcnt vmcnt(29)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v5
+; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v5
 ; GFX10-NEXT:    s_waitcnt vmcnt(28)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v6
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v6
 ; GFX10-NEXT:    s_waitcnt vmcnt(27)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v7
+; GFX10-NEXT:    v_lshlrev_b32_e32 v39, 16, v7
 ; GFX10-NEXT:    s_waitcnt vmcnt(26)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v39, 16, v8
+; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v8
 ; GFX10-NEXT:    s_waitcnt vmcnt(25)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v9
+; GFX10-NEXT:    v_lshlrev_b32_e32 v49, 16, v9
 ; GFX10-NEXT:    s_waitcnt vmcnt(24)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v49, 16, v10
+; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v10
 ; GFX10-NEXT:    s_waitcnt vmcnt(23)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v11
+; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v11
 ; GFX10-NEXT:    s_waitcnt vmcnt(22)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v12
+; GFX10-NEXT:    v_lshlrev_b32_e32 v52, 16, v12
 ; GFX10-NEXT:    s_waitcnt vmcnt(21)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v52, 16, v13
+; GFX10-NEXT:    v_lshlrev_b32_e32 v53, 16, v13
 ; GFX10-NEXT:    s_waitcnt vmcnt(20)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v53, 16, v14
-; GFX10-NEXT:    s_waitcnt vmcnt(19)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v54, 16, v15
-; GFX10-NEXT:    s_waitcnt vmcnt(18)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v55, 16, v16
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[11:12], v37
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[15:16], v38
+; GFX10-NEXT:    v_lshlrev_b32_e32 v54, 16, v14
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[9:10], v35
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[13:14], v36
+; GFX10-NEXT:    s_waitcnt vmcnt(17)
+; GFX10-NEXT:    v_lshlrev_b32_e32 v65, 16, v17
+; GFX10-NEXT:    s_waitcnt vmcnt(16)
+; GFX10-NEXT:    v_lshlrev_b32_e32 v66, 16, v18
 ; GFX10-NEXT:    s_waitcnt vmcnt(15)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v66, 16, v19
+; GFX10-NEXT:    v_lshlrev_b32_e32 v1, 16, v19
 ; GFX10-NEXT:    s_waitcnt vmcnt(14)
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v67, 16, v20
 ; GFX10-NEXT:    s_waitcnt vmcnt(13)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v64, 16, v21
+; GFX10-NEXT:    v_lshlrev_b32_e32 v68, 16, v21
 ; GFX10-NEXT:    s_waitcnt vmcnt(12)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v65, 16, v22
+; GFX10-NEXT:    v_lshlrev_b32_e32 v69, 16, v22
 ; GFX10-NEXT:    s_waitcnt vmcnt(11)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v70, 16, v23
-; GFX10-NEXT:    s_waitcnt vmcnt(10)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v71, 16, v24
+; GFX10-NEXT:    v_lshlrev_b32_e32 v3, 16, v23
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
 ; GFX10-NEXT:    s_waitcnt vmcnt(9)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v80, 16, v25
+; GFX10-NEXT:    v_lshlrev_b32_e32 v71, 16, v25
 ; GFX10-NEXT:    s_waitcnt vmcnt(8)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v81, 16, v26
+; GFX10-NEXT:    v_lshlrev_b32_e32 v5, 16, v26
 ; GFX10-NEXT:    s_waitcnt vmcnt(7)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v82, 16, v27
-; GFX10-NEXT:    s_waitcnt vmcnt(6)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v1, 16, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v80, 16, v27
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[3:4], v3
 ; GFX10-NEXT:    s_waitcnt vmcnt(5)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v83, 16, v29
+; GFX10-NEXT:    v_lshlrev_b32_e32 v7, 16, v29
 ; GFX10-NEXT:    s_waitcnt vmcnt(4)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v84, 16, v30
-; GFX10-NEXT:    s_waitcnt vmcnt(3)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v29, 16, v31
+; GFX10-NEXT:    v_lshlrev_b32_e32 v27, 16, v30
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[5:6], v5
 ; GFX10-NEXT:    s_waitcnt vmcnt(2)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v5, 16, v32
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[1:2], v1
+; GFX10-NEXT:    v_lshlrev_b32_e32 v11, 16, v32
+; GFX10-NEXT:    s_waitcnt vmcnt(1)
+; GFX10-NEXT:    v_lshlrev_b32_e32 v23, 16, v33
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[7:8], v7
 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
-; GFX10-NEXT:    v_lshlrev_b32_e32 v13, 16, v34
-; GFX10-NEXT:    v_lshlrev_b32_e32 v21, 16, v33
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[29:30], v29
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[5:6], v5
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[37:38], v84
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[13:14], v13
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[21:22], v21
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[25:26], v50
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[27:28], v51
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[50:51], v82
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[31:32], v52
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[33:34], v53
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[52:53], v80
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[7:8], v35
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[9:10], v36
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[19:20], v48
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[23:24], v49
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[35:36], v54
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[48:49], v55
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[54:55], v70
-; GFX10-NEXT:    v_lshlrev_b32_e32 v69, 16, v18
+; GFX10-NEXT:    v_lshlrev_b32_e32 v19, 16, v34
+; GFX10-NEXT:    v_lshlrev_b32_e32 v25, 16, v31
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[11:12], v11
+; GFX10-NEXT:    v_lshlrev_b32_e32 v81, 16, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v70, 16, v24
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[19:20], v19
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[31:32], v71
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[35:36], v68
+; GFX10-NEXT:    v_lshlrev_b32_e32 v64, 16, v16
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[33:34], v70
+; GFX10-NEXT:    v_lshlrev_b32_e32 v55, 16, v15
 ; GFX10-NEXT:    buffer_store_dword v2, v0, s[0:3], 0 offen offset:252
 ; GFX10-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen offset:248
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[1:2], v83
-; GFX10-NEXT:    v_lshlrev_b32_e32 v68, 16, v17
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[3:4], v3
-; GFX10-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:244
-; GFX10-NEXT:    buffer_store_dword v5, v0, s[0:3], 0 offen offset:240
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[5:6], v81
-; GFX10-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:236
-; GFX10-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:232
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[13:14], v71
-; GFX10-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:228
-; GFX10-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:224
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[21:22], v65
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[64:65], v64
-; GFX10-NEXT:    buffer_store_dword v30, v0, s[0:3], 0 offen offset:220
-; GFX10-NEXT:    buffer_store_dword v29, v0, s[0:3], 0 offen offset:216
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[29:30], v67
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[66:67], v66
-; GFX10-NEXT:    buffer_store_dword v38, v0, s[0:3], 0 offen offset:212
-; GFX10-NEXT:    buffer_store_dword v37, v0, s[0:3], 0 offen offset:208
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[37:38], v69
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[17:18], v39
-; GFX10-NEXT:    v_cvt_f64_f32_e32 v[68:69], v68
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[1:2], v23
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[15:16], v37
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[17:18], v38
+; GFX10-NEXT:    buffer_store_dword v4, v0, s[0:3], 0 offen offset:244
+; GFX10-NEXT:    buffer_store_dword v3, v0, s[0:3], 0 offen offset:240
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[3:4], v25
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[37:38], v66
+; GFX10-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:236
+; GFX10-NEXT:    buffer_store_dword v5, v0, s[0:3], 0 offen offset:232
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[5:6], v27
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[23:24], v48
+; GFX10-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:228
+; GFX10-NEXT:    buffer_store_dword v7, v0, s[0:3], 0 offen offset:224
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[7:8], v81
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[25:26], v49
+; GFX10-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:220
+; GFX10-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:216
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[11:12], v80
+; GFX10-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:212
+; GFX10-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:208
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[19:20], v69
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[48:49], v64
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[27:28], v50
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[29:30], v51
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[50:51], v54
 ; GFX10-NEXT:    buffer_store_dword v2, v0, s[0:3], 0 offen offset:204
 ; GFX10-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen offset:200
-; GFX10-NEXT:    buffer_store_dword v51, v0, s[0:3], 0 offen offset:196
-; GFX10-NEXT:    buffer_store_dword v50, v0, s[0:3], 0 offen offset:192
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[1:2], v67
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[21:22], v39
+; GFX10-NEXT:    buffer_store_dword v4, v0, s[0:3], 0 offen offset:196
+; GFX10-NEXT:    buffer_store_dword v3, v0, s[0:3], 0 offen offset:192
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[3:4], v65
 ; GFX10-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:188
 ; GFX10-NEXT:    buffer_store_dword v5, v0, s[0:3], 0 offen offset:184
-; GFX10-NEXT:    buffer_store_dword v53, v0, s[0:3], 0 offen offset:180
-; GFX10-NEXT:    buffer_store_dword v52, v0, s[0:3], 0 offen offset:176
-; GFX10-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:172
-; GFX10-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:168
-; GFX10-NEXT:    buffer_store_dword v55, v0, s[0:3], 0 offen offset:164
-; GFX10-NEXT:    buffer_store_dword v54, v0, s[0:3], 0 offen offset:160
-; GFX10-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:156
-; GFX10-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:152
-; GFX10-NEXT:    buffer_store_dword v65, v0, s[0:3], 0 offen offset:148
-; GFX10-NEXT:    buffer_store_dword v64, v0, s[0:3], 0 offen offset:144
-; GFX10-NEXT:    buffer_store_dword v30, v0, s[0:3], 0 offen offset:140
-; GFX10-NEXT:    buffer_store_dword v29, v0, s[0:3], 0 offen offset:136
-; GFX10-NEXT:    buffer_store_dword v67, v0, s[0:3], 0 offen offset:132
-; GFX10-NEXT:    buffer_store_dword v66, v0, s[0:3], 0 offen offset:128
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[5:6], v55
+; GFX10-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:180
+; GFX10-NEXT:    buffer_store_dword v7, v0, s[0:3], 0 offen offset:176
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[7:8], v53
+; GFX10-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:172
+; GFX10-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:168
+; GFX10-NEXT:    v_cvt_f64_f32_e32 v[11:12], v52
+; GFX10-NEXT:    buffer_store_dword v32, v0, s[0:3], 0 offen offset:164
+; GFX10-NEXT:    buffer_store_dword v31, v0, s[0:3], 0 offen offset:160
+; GFX10-NEXT:    buffer_store_dword v34, v0, s[0:3], 0 offen offset:156
+; GFX10-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen offset:152
+; GFX10-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:148
+; GFX10-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:144
+; GFX10-NEXT:    buffer_store_dword v36, v0, s[0:3], 0 offen offset:140
+; GFX10-NEXT:    buffer_store_dword v35, v0, s[0:3], 0 offen offset:136
+; GFX10-NEXT:    buffer_store_dword v2, v0, s[0:3], 0 offen offset:132
+; GFX10-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen offset:128
 ; GFX10-NEXT:    buffer_store_dword v38, v0, s[0:3], 0 offen offset:124
 ; GFX10-NEXT:    buffer_store_dword v37, v0, s[0:3], 0 offen offset:120
-; GFX10-NEXT:    buffer_store_dword v69, v0, s[0:3], 0 offen offset:116
-; GFX10-NEXT:    buffer_store_dword v68, v0, s[0:3], 0 offen offset:112
+; GFX10-NEXT:    buffer_store_dword v4, v0, s[0:3], 0 offen offset:116
+; GFX10-NEXT:    buffer_store_dword v3, v0, s[0:3], 0 offen offset:112
 ; GFX10-NEXT:    buffer_store_dword v49, v0, s[0:3], 0 offen offset:108
 ; GFX10-NEXT:    buffer_store_dword v48, v0, s[0:3], 0 offen offset:104
-; GFX10-NEXT:    buffer_store_dword v36, v0, s[0:3], 0 offen offset:100
-; GFX10-NEXT:    buffer_store_dword v35, v0, s[0:3], 0 offen offset:96
-; GFX10-NEXT:    buffer_store_dword v34, v0, s[0:3], 0 offen offset:92
-; GFX10-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen offset:88
-; GFX10-NEXT:    buffer_store_dword v32, v0, s[0:3], 0 offen offset:84
-; GFX10-NEXT:    buffer_store_dword v31, v0, s[0:3], 0 offen offset:80
-; GFX10-NEXT:    buffer_store_dword v28, v0, s[0:3], 0 offen offset:76
-; GFX10-NEXT:    buffer_store_dword v27, v0, s[0:3], 0 offen offset:72
-; GFX10-NEXT:    buffer_store_dword v26, v0, s[0:3], 0 offen offset:68
-; GFX10-NEXT:    buffer_store_dword v25, v0, s[0:3], 0 offen offset:64
-; GFX10-NEXT:    buffer_store_dword v24, v0, s[0:3], 0 offen offset:60
-; GFX10-NEXT:    buffer_store_dword v23, v0, s[0:3], 0 offen offset:56
-; GFX10-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:52
-; GFX10-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:48
-; GFX10-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:44
-; GFX10-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:40
-; GFX10-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:36
-; GFX10-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:32
-; GFX10-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:28
-; GFX10-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:24
-; GFX10-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:20
-; GFX10-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:16
-; GFX10-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:12
-; GFX10-NEXT:    buffer_store_dword v7, v0, s[0:3], 0 offen offset:8
-; GFX10-NEXT:    buffer_store_dword v4, v0, s[0:3], 0 offen offset:4
-; GFX10-NEXT:    buffer_store_dword v3, v0, s[0:3], 0 offen
+; GFX10-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:100
+; GFX10-NEXT:    buffer_store_dword v5, v0, s[0:3], 0 offen offset:96
+; GFX10-NEXT:    buffer_store_dword v51, v0, s[0:3], 0 offen offset:92
+; GFX10-NEXT:    buffer_store_dword v50, v0, s[0:3], 0 offen offset:88
+; GFX10-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:84
+; GFX10-NEXT:    buffer_store_dword v7, v0, s[0:3], 0 offen offset:80
+; GFX10-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:76
+; GFX10-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:72
+; GFX10-NEXT:    buffer_store_dword v30, v0, s[0:3], 0 offen offset:68
+; GFX10-NEXT:    buffer_store_dword v29, v0, s[0:3], 0 offen offset:64
+; GFX10-NEXT:    buffer_store_dword v28, v0, s[0:3], 0 offen offset:60
+; GFX10-NEXT:    buffer_store_dword v27, v0, s[0:3], 0 offen offset:56
+; GFX10-NEXT:    buffer_store_dword v26, v0, s[0:3], 0 offen offset:52
+; GFX10-NEXT:    buffer_store_dword v25, v0, s[0:3], 0 offen offset:48
+; GFX10-NEXT:    buffer_store_dword v24, v0, s[0:3], 0 offen offset:44
+; GFX10-NEXT:    buffer_store_dword v23, v0, s[0:3], 0 offen offset:40
+; GFX10-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:36
+; GFX10-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:32
+; GFX10-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:28
+; GFX10-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:24
+; GFX10-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:20
+; GFX10-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:16
+; GFX10-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:12
+; GFX10-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:8
+; GFX10-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:4
+; GFX10-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen
 ; GFX10-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: global_extload_v32bf16_to_v32f64:
@@ -10059,55 +10057,47 @@ define <16 x bfloat> @v_fadd_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_add_f32_e32 v12, v12, v28
 ; GCN-NEXT:    v_mul_f32_e32 v11, 1.0, v11
 ; GCN-NEXT:    v_mul_f32_e32 v27, 1.0, v27
-; GCN-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
-; GCN-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
-; GCN-NEXT:    v_add_f32_e32 v11, v11, v27
 ; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GCN-NEXT:    v_mul_f32_e32 v26, 1.0, v26
-; GCN-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
-; GCN-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
-; GCN-NEXT:    v_add_f32_e32 v10, v10, v26
 ; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
 ; GCN-NEXT:    v_mul_f32_e32 v25, 1.0, v25
-; GCN-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
-; GCN-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
-; GCN-NEXT:    v_add_f32_e32 v9, v9, v25
 ; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
 ; GCN-NEXT:    v_mul_f32_e32 v24, 1.0, v24
-; GCN-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
-; GCN-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
-; GCN-NEXT:    v_add_f32_e32 v8, v8, v24
 ; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
 ; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v23
-; GCN-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
-; GCN-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GCN-NEXT:    v_add_f32_e32 v7, v7, v23
 ; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
-; GCN-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
-; GCN-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GCN-NEXT:    v_add_f32_e32 v6, v6, v22
 ; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
 ; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GCN-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
-; GCN-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GCN-NEXT:    v_add_f32_e32 v5, v5, v21
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
 ; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
+; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
+; GCN-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
+; GCN-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
+; GCN-NEXT:    v_add_f32_e32 v11, v11, v27
+; GCN-NEXT:    buffer_load_dword v27, off, s[0:3], s32
+; GCN-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
+; GCN-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
+; GCN-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
+; GCN-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
+; GCN-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
+; GCN-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
+; GCN-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
+; GCN-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
+; GCN-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
+; GCN-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
+; GCN-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
+; GCN-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
 ; GCN-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
 ; GCN-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
-; GCN-NEXT:    v_add_f32_e32 v4, v4, v20
-; GCN-NEXT:    buffer_load_dword v20, off, s[0:3], s32
-; GCN-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
 ; GCN-NEXT:    v_and_b32_e32 v19, 0xffff0000, v19
 ; GCN-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GCN-NEXT:    v_and_b32_e32 v18, 0xffff0000, v18
@@ -10116,6 +10106,14 @@ define <16 x bfloat> @v_fadd_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
 ; GCN-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
 ; GCN-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GCN-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
+; GCN-NEXT:    v_add_f32_e32 v10, v10, v26
+; GCN-NEXT:    v_add_f32_e32 v9, v9, v25
+; GCN-NEXT:    v_add_f32_e32 v8, v8, v24
+; GCN-NEXT:    v_add_f32_e32 v7, v7, v23
+; GCN-NEXT:    v_add_f32_e32 v6, v6, v22
+; GCN-NEXT:    v_add_f32_e32 v5, v5, v21
+; GCN-NEXT:    v_add_f32_e32 v4, v4, v20
 ; GCN-NEXT:    v_add_f32_e32 v3, v3, v19
 ; GCN-NEXT:    v_add_f32_e32 v2, v2, v18
 ; GCN-NEXT:    v_add_f32_e32 v1, v1, v17
@@ -10135,7 +10133,7 @@ define <16 x bfloat> @v_fadd_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
 ; GCN-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v27
 ; GCN-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
 ; GCN-NEXT:    v_add_f32_e32 v15, v15, v16
 ; GCN-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
@@ -10145,20 +10143,22 @@ define <16 x bfloat> @v_fadd_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-LABEL: v_fadd_v16bf16:
 ; GFX7:       ; %bb.0:
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
+; GFX7-NEXT:    v_mul_f32_e32 v27, 1.0, v27
+; GFX7-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
+; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
+; GFX7-NEXT:    v_add_f32_e32 v11, v11, v27
+; GFX7-NEXT:    buffer_load_dword v27, off, s[0:3], s32
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
 ; GFX7-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
 ; GFX7-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GFX7-NEXT:    v_add_f32_e32 v6, v6, v22
-; GFX7-NEXT:    buffer_load_dword v22, off, s[0:3], s32
 ; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v14
 ; GFX7-NEXT:    v_mul_f32_e32 v30, 1.0, v30
 ; GFX7-NEXT:    v_mul_f32_e32 v13, 1.0, v13
 ; GFX7-NEXT:    v_mul_f32_e32 v29, 1.0, v29
 ; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v12
 ; GFX7-NEXT:    v_mul_f32_e32 v28, 1.0, v28
-; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
-; GFX7-NEXT:    v_mul_f32_e32 v27, 1.0, v27
 ; GFX7-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GFX7-NEXT:    v_mul_f32_e32 v26, 1.0, v26
 ; GFX7-NEXT:    v_mul_f32_e32 v9, 1.0, v9
@@ -10169,25 +10169,24 @@ define <16 x bfloat> @v_fadd_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_mul_f32_e32 v23, 1.0, v23
 ; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v15
 ; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
+; GFX7-NEXT:    v_add_f32_e32 v6, v6, v22
 ; GFX7-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
 ; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
+; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
+; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
+; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GFX7-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
 ; GFX7-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
 ; GFX7-NEXT:    v_and_b32_e32 v29, 0xffff0000, v29
 ; GFX7-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
 ; GFX7-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
 ; GFX7-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
-; GFX7-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
-; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
 ; GFX7-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
 ; GFX7-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
 ; GFX7-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
@@ -10212,7 +10211,6 @@ define <16 x bfloat> @v_fadd_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_add_f32_e32 v14, v14, v30
 ; GFX7-NEXT:    v_add_f32_e32 v13, v13, v29
 ; GFX7-NEXT:    v_add_f32_e32 v12, v12, v28
-; GFX7-NEXT:    v_add_f32_e32 v11, v11, v27
 ; GFX7-NEXT:    v_add_f32_e32 v10, v10, v26
 ; GFX7-NEXT:    v_add_f32_e32 v9, v9, v25
 ; GFX7-NEXT:    v_add_f32_e32 v8, v8, v24
@@ -10231,7 +10229,7 @@ define <16 x bfloat> @v_fadd_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
 ; GFX7-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v27
 ; GFX7-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
 ; GFX7-NEXT:    v_add_f32_e32 v15, v15, v22
 ; GFX7-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
@@ -11689,10 +11687,10 @@ define <32 x bfloat> @v_fadd_v32bf16(<32 x bfloat> %a, <32 x bfloat> %b) {
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v9, 16, v9
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
+; GFX8-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v16, 16, v30
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v13, 16, v13
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
-; GFX8-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
 ; GFX8-NEXT:    v_alignbit_b32 v0, v0, v17, 16
 ; GFX8-NEXT:    v_alignbit_b32 v1, v1, v18, 16
 ; GFX8-NEXT:    v_alignbit_b32 v2, v2, v19, 16
@@ -11995,278 +11993,278 @@ define <32 x bfloat> @v_fadd_v32bf16(<32 x bfloat> %a, <32 x bfloat> %b) {
 ; GFX10:       ; %bb.0:
 ; GFX10-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX10-NEXT:    buffer_load_dword v32, off, s[0:3], s32
+; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v12
+; GFX10-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
+; GFX10-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v39, 16, v27
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v11
 ; GFX10-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
 ; GFX10-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v49, 16, v26
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v10
-; GFX10-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
-; GFX10-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
-; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v28
-; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v12
-; GFX10-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
-; GFX10-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
-; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v25
-; GFX10-NEXT:    v_lshlrev_b32_e32 v52, 16, v9
-; GFX10-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
-; GFX10-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
-; GFX10-NEXT:    v_lshlrev_b32_e32 v53, 16, v24
-; GFX10-NEXT:    v_lshlrev_b32_e32 v54, 16, v8
-; GFX10-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
-; GFX10-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
-; GFX10-NEXT:    v_lshlrev_b32_e32 v55, 16, v23
-; GFX10-NEXT:    v_lshlrev_b32_e32 v64, 16, v7
-; GFX10-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
-; GFX10-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GFX10-NEXT:    v_lshlrev_b32_e32 v65, 16, v22
-; GFX10-NEXT:    v_lshlrev_b32_e32 v66, 16, v6
-; GFX10-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
-; GFX10-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GFX10-NEXT:    v_lshlrev_b32_e32 v67, 16, v21
-; GFX10-NEXT:    v_lshlrev_b32_e32 v68, 16, v5
-; GFX10-NEXT:    v_add_f32_e32 v39, v48, v39
-; GFX10-NEXT:    v_add_f32_e32 v11, v11, v27
-; GFX10-NEXT:    v_add_f32_e32 v49, v50, v49
-; GFX10-NEXT:    v_add_f32_e32 v10, v10, v26
+; GFX10-NEXT:    v_lshlrev_b32_e32 v33, 16, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v14
+; GFX10-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
+; GFX10-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v35, 16, v29
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v13
 ; GFX10-NEXT:    v_and_b32_e32 v29, 0xffff0000, v29
 ; GFX10-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
-; GFX10-NEXT:    v_add_f32_e32 v37, v38, v37
-; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v18
 ; GFX10-NEXT:    v_add_f32_e32 v12, v12, v28
-; GFX10-NEXT:    v_lshlrev_b32_e32 v28, 16, v2
+; GFX10-NEXT:    v_lshlrev_b32_e32 v28, 16, v22
+; GFX10-NEXT:    v_add_f32_e32 v39, v48, v39
+; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v6
+; GFX10-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
+; GFX10-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
+; GFX10-NEXT:    v_add_f32_e32 v11, v11, v27
+; GFX10-NEXT:    v_lshlrev_b32_e32 v27, 16, v21
+; GFX10-NEXT:    v_add_f32_e32 v49, v50, v49
+; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v5
+; GFX10-NEXT:    v_add_f32_e32 v33, v34, v33
+; GFX10-NEXT:    v_add_f32_e32 v14, v14, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v30, 16, v24
+; GFX10-NEXT:    v_add_f32_e32 v35, v36, v35
+; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v8
+; GFX10-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
+; GFX10-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
+; GFX10-NEXT:    v_add_f32_e32 v13, v13, v29
+; GFX10-NEXT:    v_lshlrev_b32_e32 v29, 16, v23
+; GFX10-NEXT:    v_add_f32_e32 v37, v38, v37
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v7
+; GFX10-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
+; GFX10-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
+; GFX10-NEXT:    v_add_f32_e32 v6, v6, v22
+; GFX10-NEXT:    v_lshlrev_b32_e32 v22, 16, v16
+; GFX10-NEXT:    v_add_f32_e32 v27, v50, v27
+; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v0
+; GFX10-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
+; GFX10-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GFX10-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
+; GFX10-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
+; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v25
+; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v9
+; GFX10-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
+; GFX10-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
+; GFX10-NEXT:    v_add_f32_e32 v8, v8, v24
+; GFX10-NEXT:    v_lshlrev_b32_e32 v24, 16, v18
+; GFX10-NEXT:    v_add_f32_e32 v29, v38, v29
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v2
 ; GFX10-NEXT:    v_and_b32_e32 v18, 0xffff0000, v18
 ; GFX10-NEXT:    v_and_b32_e32 v2, 0xffff0000, v2
-; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v17
-; GFX10-NEXT:    v_lshlrev_b32_e32 v27, 16, v1
+; GFX10-NEXT:    v_add_f32_e32 v7, v7, v23
+; GFX10-NEXT:    v_lshlrev_b32_e32 v23, 16, v17
+; GFX10-NEXT:    v_add_f32_e32 v28, v48, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v1
 ; GFX10-NEXT:    v_and_b32_e32 v17, 0xffff0000, v17
 ; GFX10-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
-; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v16
-; GFX10-NEXT:    v_lshlrev_b32_e32 v26, 16, v0
-; GFX10-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
-; GFX10-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GFX10-NEXT:    v_add_f32_e32 v0, v0, v16
+; GFX10-NEXT:    v_bfe_u32 v16, v33, 16, 1
+; GFX10-NEXT:    v_add_f32_e32 v10, v10, v26
+; GFX10-NEXT:    v_lshlrev_b32_e32 v26, 16, v20
+; GFX10-NEXT:    v_add_f32_e32 v34, v34, v51
+; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v4
+; GFX10-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
+; GFX10-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
 ; GFX10-NEXT:    v_add_f32_e32 v9, v9, v25
-; GFX10-NEXT:    v_add_f32_e32 v25, v54, v53
-; GFX10-NEXT:    v_add_f32_e32 v8, v8, v24
-; GFX10-NEXT:    v_add_f32_e32 v24, v64, v55
-; GFX10-NEXT:    v_add_f32_e32 v7, v7, v23
-; GFX10-NEXT:    v_add_f32_e32 v23, v66, v65
-; GFX10-NEXT:    v_add_f32_e32 v6, v6, v22
-; GFX10-NEXT:    v_add_f32_e32 v22, v68, v67
-; GFX10-NEXT:    v_bfe_u32 v53, v39, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v55, v11, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v65, v49, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v67, v10, 16, 1
-; GFX10-NEXT:    v_lshlrev_b32_e32 v33, 16, v30
-; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v14
-; GFX10-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
-; GFX10-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
-; GFX10-NEXT:    v_add_f32_e32 v35, v36, v35
-; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v19
-; GFX10-NEXT:    v_add_f32_e32 v13, v13, v29
-; GFX10-NEXT:    v_lshlrev_b32_e32 v29, 16, v3
+; GFX10-NEXT:    v_lshlrev_b32_e32 v25, 16, v19
+; GFX10-NEXT:    v_add_f32_e32 v30, v36, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v3
 ; GFX10-NEXT:    v_and_b32_e32 v19, 0xffff0000, v19
 ; GFX10-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GFX10-NEXT:    v_add_f32_e32 v2, v2, v18
-; GFX10-NEXT:    v_add_f32_e32 v18, v27, v48
+; GFX10-NEXT:    v_add_f32_e32 v18, v48, v23
 ; GFX10-NEXT:    v_add_f32_e32 v1, v1, v17
-; GFX10-NEXT:    v_add_f32_e32 v17, v26, v50
-; GFX10-NEXT:    v_add_f32_e32 v0, v0, v16
-; GFX10-NEXT:    v_or_b32_e32 v54, 0x400000, v39
-; GFX10-NEXT:    v_or_b32_e32 v64, 0x400000, v11
-; GFX10-NEXT:    v_or_b32_e32 v66, 0x400000, v49
-; GFX10-NEXT:    v_or_b32_e32 v68, 0x400000, v10
-; GFX10-NEXT:    v_cmp_u_f32_e64 s9, v39, v39
-; GFX10-NEXT:    v_add3_u32 v39, v53, v39, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s10, v11, v11
-; GFX10-NEXT:    v_add3_u32 v11, v55, v11, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s11, v49, v49
-; GFX10-NEXT:    v_add3_u32 v49, v65, v49, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s12, v10, v10
-; GFX10-NEXT:    v_add3_u32 v10, v67, v10, 0x7fff
+; GFX10-NEXT:    v_add_f32_e32 v17, v50, v22
+; GFX10-NEXT:    v_or_b32_e32 v22, 0x400000, v33
+; GFX10-NEXT:    v_bfe_u32 v23, v14, 16, 1
+; GFX10-NEXT:    v_add3_u32 v16, v16, v33, 0x7fff
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v33, v33
 ; GFX10-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
 ; GFX10-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GFX10-NEXT:    v_add_f32_e32 v33, v34, v33
-; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v20
-; GFX10-NEXT:    v_add_f32_e32 v14, v14, v30
-; GFX10-NEXT:    v_lshlrev_b32_e32 v30, 16, v4
-; GFX10-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
-; GFX10-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
+; GFX10-NEXT:    v_add_f32_e32 v4, v4, v20
+; GFX10-NEXT:    v_add_f32_e32 v20, v36, v25
 ; GFX10-NEXT:    v_add_f32_e32 v3, v3, v19
-; GFX10-NEXT:    v_add_f32_e32 v19, v28, v38
-; GFX10-NEXT:    v_bfe_u32 v38, v37, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v50, v12, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v39, v39, v54, s9
-; GFX10-NEXT:    v_bfe_u32 v54, v18, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v11, v11, v64, s10
-; GFX10-NEXT:    v_bfe_u32 v64, v1, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v49, v49, v66, s11
-; GFX10-NEXT:    v_bfe_u32 v66, v17, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v10, v10, v68, s12
-; GFX10-NEXT:    v_bfe_u32 v68, v0, 16, 1
-; GFX10-NEXT:    v_add_f32_e32 v51, v52, v51
+; GFX10-NEXT:    v_add_f32_e32 v19, v38, v24
+; GFX10-NEXT:    v_or_b32_e32 v24, 0x400000, v14
+; GFX10-NEXT:    v_bfe_u32 v25, v35, 16, 1
+; GFX10-NEXT:    v_add3_u32 v23, v23, v14, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v16, v16, v22, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v14, v14
 ; GFX10-NEXT:    v_add_f32_e32 v5, v5, v21
-; GFX10-NEXT:    v_add_f32_e32 v21, v30, v34
-; GFX10-NEXT:    v_add_f32_e32 v4, v4, v20
-; GFX10-NEXT:    v_add_f32_e32 v20, v29, v36
-; GFX10-NEXT:    v_bfe_u32 v16, v33, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v27, v14, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v29, v35, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v34, v13, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v48, 0x400000, v37
-; GFX10-NEXT:    v_or_b32_e32 v52, 0x400000, v12
-; GFX10-NEXT:    v_cmp_u_f32_e64 s7, v37, v37
-; GFX10-NEXT:    v_add3_u32 v37, v38, v37, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s8, v12, v12
-; GFX10-NEXT:    v_add3_u32 v12, v50, v12, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s10, v18, v18
-; GFX10-NEXT:    v_add3_u32 v54, v54, v18, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v18, 0x400000, v18
-; GFX10-NEXT:    v_cmp_u_f32_e64 s11, v1, v1
-; GFX10-NEXT:    v_add3_u32 v64, v64, v1, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v1, 0x400000, v1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s12, v17, v17
-; GFX10-NEXT:    v_add3_u32 v66, v66, v17, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v17, 0x400000, v17
-; GFX10-NEXT:    v_cmp_u_f32_e64 s22, v0, v0
-; GFX10-NEXT:    v_add3_u32 v68, v68, v0, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v0, 0x400000, v0
-; GFX10-NEXT:    v_or_b32_e32 v26, 0x400000, v33
-; GFX10-NEXT:    v_or_b32_e32 v28, 0x400000, v14
-; GFX10-NEXT:    v_or_b32_e32 v30, 0x400000, v35
-; GFX10-NEXT:    v_or_b32_e32 v36, 0x400000, v13
-; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v33, v33
-; GFX10-NEXT:    v_add3_u32 v16, v16, v33, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v33, v51, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v14, v14
-; GFX10-NEXT:    v_add3_u32 v14, v27, v14, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s5, v35, v35
-; GFX10-NEXT:    v_add3_u32 v29, v29, v35, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s6, v13, v13
-; GFX10-NEXT:    v_add3_u32 v13, v34, v13, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v24, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v37, v37, v48, s7
-; GFX10-NEXT:    v_bfe_u32 v48, v19, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v12, v12, v52, s8
-; GFX10-NEXT:    v_bfe_u32 v52, v2, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v18, v54, v18, s10
-; GFX10-NEXT:    v_cndmask_b32_e64 v17, v66, v17, s12
-; GFX10-NEXT:    v_cndmask_b32_e64 v0, v68, v0, s22
-; GFX10-NEXT:    v_cndmask_b32_e64 v1, v64, v1, s11
+; GFX10-NEXT:    v_add_f32_e32 v21, v51, v26
+; GFX10-NEXT:    v_or_b32_e32 v26, 0x400000, v35
+; GFX10-NEXT:    v_bfe_u32 v36, v13, 16, 1
+; GFX10-NEXT:    v_add3_u32 v25, v25, v35, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v23, v23, v24, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v35, v35
+; GFX10-NEXT:    v_or_b32_e32 v38, 0x400000, v13
+; GFX10-NEXT:    v_bfe_u32 v48, v37, 16, 1
+; GFX10-NEXT:    v_add3_u32 v36, v36, v13, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v50, 0x400000, v37
+; GFX10-NEXT:    v_cndmask_b32_e32 v25, v25, v26, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v13, v13
+; GFX10-NEXT:    v_bfe_u32 v51, v12, 16, 1
+; GFX10-NEXT:    v_add3_u32 v48, v48, v37, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v33, 0x400000, v12
+; GFX10-NEXT:    v_bfe_u32 v22, v39, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v36, v36, v38, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v37, v37
+; GFX10-NEXT:    v_add3_u32 v51, v51, v12, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v14, 0x400000, v39
+; GFX10-NEXT:    v_bfe_u32 v24, v11, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v39, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v48, v48, v50, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v12, v12
+; GFX10-NEXT:    v_or_b32_e32 v35, 0x400000, v11
+; GFX10-NEXT:    v_bfe_u32 v26, v49, 16, 1
+; GFX10-NEXT:    v_add3_u32 v24, v24, v11, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v13, 0x400000, v49
+; GFX10-NEXT:    v_cndmask_b32_e32 v33, v51, v33, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v39, v39
+; GFX10-NEXT:    v_bfe_u32 v38, v10, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v49, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v37, 0x400000, v10
+; GFX10-NEXT:    v_bfe_u32 v50, v34, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v14, v22, v14, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v11, v11
+; GFX10-NEXT:    v_add3_u32 v38, v38, v10, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v12, 0x400000, v34
+; GFX10-NEXT:    v_bfe_u32 v51, v9, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v34, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v24, v24, v35, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v49, v49
+; GFX10-NEXT:    v_or_b32_e32 v39, 0x400000, v9
+; GFX10-NEXT:    v_bfe_u32 v22, v30, 16, 1
+; GFX10-NEXT:    v_add3_u32 v51, v51, v9, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v11, 0x400000, v30
+; GFX10-NEXT:    v_cndmask_b32_e32 v13, v26, v13, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v10, v10
+; GFX10-NEXT:    v_bfe_u32 v35, v8, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v30, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v49, 0x400000, v8
+; GFX10-NEXT:    v_bfe_u32 v26, v29, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v37, v38, v37, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v34, v34
+; GFX10-NEXT:    v_add3_u32 v35, v35, v8, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v10, 0x400000, v29
+; GFX10-NEXT:    v_bfe_u32 v38, v7, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v29, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v12, v50, v12, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v9, v9
+; GFX10-NEXT:    v_or_b32_e32 v34, 0x400000, v7
+; GFX10-NEXT:    v_bfe_u32 v50, v28, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v7, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v9, 0x400000, v28
+; GFX10-NEXT:    v_cndmask_b32_e32 v39, v51, v39, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v30, v30
+; GFX10-NEXT:    v_bfe_u32 v51, v6, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v28, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v30, 0x400000, v6
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v31, 16, v15
+; GFX10-NEXT:    v_cndmask_b32_e32 v11, v22, v11, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v8, v8
+; GFX10-NEXT:    v_bfe_u32 v22, v27, 16, 1
+; GFX10-NEXT:    v_add3_u32 v51, v51, v6, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v8, 0x400000, v27
 ; GFX10-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
-; GFX10-NEXT:    v_or_b32_e32 v27, 0x400000, v51
-; GFX10-NEXT:    v_bfe_u32 v35, v9, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v38, v25, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v67, 0x400000, v24
-; GFX10-NEXT:    v_cmp_u_f32_e64 s13, v51, v51
-; GFX10-NEXT:    v_add3_u32 v33, v33, v51, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v51, v7, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s17, v24, v24
-; GFX10-NEXT:    v_add3_u32 v24, v65, v24, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v6, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e32 v16, v16, v26, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v35, v35, v49, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v29, v29
+; GFX10-NEXT:    v_bfe_u32 v49, v5, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v27, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v29, 0x400000, v5
+; GFX10-NEXT:    v_cndmask_b32_e32 v10, v26, v10, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v7, v7
 ; GFX10-NEXT:    v_bfe_u32 v26, v21, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v14, v14, v28, s4
-; GFX10-NEXT:    v_bfe_u32 v28, v4, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v29, v29, v30, s5
-; GFX10-NEXT:    v_bfe_u32 v30, v20, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v13, v13, v36, s6
-; GFX10-NEXT:    v_bfe_u32 v36, v3, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s8, v19, v19
-; GFX10-NEXT:    v_add3_u32 v48, v48, v19, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v19
-; GFX10-NEXT:    v_cmp_u_f32_e64 s9, v2, v2
-; GFX10-NEXT:    v_add3_u32 v52, v52, v2, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v2, 0x400000, v2
-; GFX10-NEXT:    v_perm_b32 v0, v0, v17, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v1, v1, v18, 0x7060302
-; GFX10-NEXT:    v_or_b32_e32 v34, 0x400000, v9
-; GFX10-NEXT:    v_or_b32_e32 v50, 0x400000, v25
-; GFX10-NEXT:    v_bfe_u32 v53, v8, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s14, v9, v9
-; GFX10-NEXT:    v_add3_u32 v9, v35, v9, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v35, 0x400000, v7
-; GFX10-NEXT:    v_cmp_u_f32_e64 s15, v25, v25
-; GFX10-NEXT:    v_add3_u32 v25, v38, v25, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v38, v23, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s18, v7, v7
-; GFX10-NEXT:    v_add3_u32 v7, v51, v7, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v51, 0x400000, v6
-; GFX10-NEXT:    v_cmp_u_f32_e64 s20, v6, v6
-; GFX10-NEXT:    v_add3_u32 v6, v65, v6, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v5, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v21, v21
+; GFX10-NEXT:    v_add3_u32 v49, v49, v5, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v7, 0x400000, v21
+; GFX10-NEXT:    v_cndmask_b32_e32 v34, v38, v34, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v28, v28
+; GFX10-NEXT:    v_bfe_u32 v38, v4, 16, 1
 ; GFX10-NEXT:    v_add3_u32 v26, v26, v21, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v21
-; GFX10-NEXT:    v_cmp_u_f32_e64 s5, v4, v4
-; GFX10-NEXT:    v_add3_u32 v28, v28, v4, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v4, 0x400000, v4
-; GFX10-NEXT:    v_cmp_u_f32_e64 s6, v20, v20
-; GFX10-NEXT:    v_add3_u32 v30, v30, v20, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v20
-; GFX10-NEXT:    v_cmp_u_f32_e64 s7, v3, v3
-; GFX10-NEXT:    v_add3_u32 v36, v36, v3, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v3, 0x400000, v3
-; GFX10-NEXT:    v_cndmask_b32_e64 v19, v48, v19, s8
-; GFX10-NEXT:    v_cndmask_b32_e64 v2, v52, v2, s9
-; GFX10-NEXT:    v_or_b32_e32 v55, 0x400000, v8
-; GFX10-NEXT:    v_cmp_u_f32_e64 s16, v8, v8
-; GFX10-NEXT:    v_add3_u32 v8, v53, v8, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v53, 0x400000, v23
-; GFX10-NEXT:    v_cmp_u_f32_e64 s19, v23, v23
-; GFX10-NEXT:    v_add3_u32 v23, v38, v23, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v38, v22, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v28, 0x400000, v4
+; GFX10-NEXT:    v_cndmask_b32_e32 v9, v50, v9, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v6, v6
+; GFX10-NEXT:    v_bfe_u32 v50, v20, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v4, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v6, 0x400000, v20
+; GFX10-NEXT:    v_cndmask_b32_e32 v30, v51, v30, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v27, v27
+; GFX10-NEXT:    v_add3_u32 v50, v50, v20, 0x7fff
+; GFX10-NEXT:    v_bfe_u32 v51, v3, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v27, 0x400000, v3
+; GFX10-NEXT:    v_cndmask_b32_e32 v8, v22, v8, vcc_lo
 ; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v5, v5
-; GFX10-NEXT:    v_add3_u32 v65, v65, v5, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v5, 0x400000, v5
-; GFX10-NEXT:    v_cndmask_b32_e64 v21, v26, v21, s4
-; GFX10-NEXT:    v_cndmask_b32_e64 v4, v28, v4, s5
-; GFX10-NEXT:    v_cndmask_b32_e64 v20, v30, v20, s6
-; GFX10-NEXT:    v_cndmask_b32_e64 v3, v36, v3, s7
-; GFX10-NEXT:    v_perm_b32 v2, v2, v19, 0x7060302
-; GFX10-NEXT:    v_cmp_u_f32_e64 s21, v22, v22
-; GFX10-NEXT:    v_add3_u32 v38, v38, v22, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v22, 0x400000, v22
-; GFX10-NEXT:    v_cndmask_b32_e32 v5, v65, v5, vcc_lo
-; GFX10-NEXT:    v_perm_b32 v3, v3, v20, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v4, v4, v21, 0x7060302
-; GFX10-NEXT:    v_cndmask_b32_e64 v27, v33, v27, s13
-; GFX10-NEXT:    v_cndmask_b32_e64 v9, v9, v34, s14
-; GFX10-NEXT:    v_cndmask_b32_e64 v25, v25, v50, s15
-; GFX10-NEXT:    v_cndmask_b32_e64 v8, v8, v55, s16
-; GFX10-NEXT:    v_cndmask_b32_e64 v24, v24, v67, s17
-; GFX10-NEXT:    v_cndmask_b32_e64 v7, v7, v35, s18
-; GFX10-NEXT:    v_cndmask_b32_e64 v23, v23, v53, s19
-; GFX10-NEXT:    v_cndmask_b32_e64 v6, v6, v51, s20
-; GFX10-NEXT:    v_cndmask_b32_e64 v22, v38, v22, s21
-; GFX10-NEXT:    v_perm_b32 v8, v8, v25, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v7, v7, v24, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v9, v9, v27, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v6, v6, v23, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v5, v5, v22, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v10, v10, v49, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v11, v11, v39, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v12, v12, v37, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v13, v13, v29, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v14, v14, v16, 0x7060302
+; GFX10-NEXT:    v_bfe_u32 v22, v19, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v5, 0x400000, v19
+; GFX10-NEXT:    v_add3_u32 v51, v51, v3, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v29, v49, v29, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v21, v21
+; GFX10-NEXT:    v_add3_u32 v22, v22, v19, 0x7fff
+; GFX10-NEXT:    v_bfe_u32 v49, v2, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v2
+; GFX10-NEXT:    v_cndmask_b32_e32 v7, v26, v7, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v4, v4
+; GFX10-NEXT:    v_bfe_u32 v26, v18, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v4, 0x400000, v18
+; GFX10-NEXT:    v_add3_u32 v49, v49, v2, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v28, v38, v28, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v20, v20
+; GFX10-NEXT:    v_bfe_u32 v38, v1, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v18, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v1
+; GFX10-NEXT:    v_cndmask_b32_e32 v6, v50, v6, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v19, v19
+; GFX10-NEXT:    v_bfe_u32 v50, v17, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v1, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v17
+; GFX10-NEXT:    v_cndmask_b32_e32 v5, v22, v5, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v18, v18
+; GFX10-NEXT:    v_bfe_u32 v22, v0, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v17, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v18, 0x400000, v0
+; GFX10-NEXT:    v_cndmask_b32_e32 v4, v26, v4, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v1, v1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v0, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v1, v38, v20, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v17, v17
+; GFX10-NEXT:    v_perm_b32 v1, v1, v4, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v17, v50, v19, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v0, v0
+; GFX10-NEXT:    v_perm_b32 v4, v28, v7, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v7, v34, v10, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v0, v22, v18, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v2, v2
+; GFX10-NEXT:    v_perm_b32 v0, v0, v17, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v2, v49, v21, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v3, v3
+; GFX10-NEXT:    v_perm_b32 v2, v2, v5, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v3, v51, v27, vcc_lo
+; GFX10-NEXT:    v_perm_b32 v5, v29, v8, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v8, v35, v11, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v3, v3, v6, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v6, v30, v9, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v9, v39, v12, 0x7060302
 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v17, 16, v32
 ; GFX10-NEXT:    v_and_b32_e32 v18, 0xffff0000, v32
 ; GFX10-NEXT:    v_add_f32_e32 v17, v31, v17
 ; GFX10-NEXT:    v_add_f32_e32 v15, v15, v18
-; GFX10-NEXT:    v_bfe_u32 v18, v17, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v19, v15, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v17
-; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v15
+; GFX10-NEXT:    v_bfe_u32 v10, v17, 16, 1
+; GFX10-NEXT:    v_bfe_u32 v11, v15, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v12, 0x400000, v17
 ; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v17, v17
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v15, v15
-; GFX10-NEXT:    v_add3_u32 v17, v18, v17, 0x7fff
-; GFX10-NEXT:    v_add3_u32 v15, v19, v15, 0x7fff
-; GFX10-NEXT:    v_cndmask_b32_e32 v17, v17, v20, vcc_lo
-; GFX10-NEXT:    v_cndmask_b32_e64 v15, v15, v21, s4
+; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v15
+; GFX10-NEXT:    v_add3_u32 v18, v10, v17, 0x7fff
+; GFX10-NEXT:    v_add3_u32 v11, v11, v15, 0x7fff
+; GFX10-NEXT:    v_perm_b32 v10, v37, v13, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v13, v36, v25, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v17, v18, v12, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v15, v15
+; GFX10-NEXT:    v_perm_b32 v12, v33, v48, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v15, v11, v19, vcc_lo
+; GFX10-NEXT:    v_perm_b32 v11, v24, v14, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v14, v23, v16, 0x7060302
 ; GFX10-NEXT:    v_perm_b32 v15, v15, v17, 0x7060302
 ; GFX10-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -14496,55 +14494,47 @@ define <16 x bfloat> @v_fmul_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_mul_f32_e32 v12, v12, v28
 ; GCN-NEXT:    v_mul_f32_e32 v11, 1.0, v11
 ; GCN-NEXT:    v_mul_f32_e32 v27, 1.0, v27
-; GCN-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
-; GCN-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
-; GCN-NEXT:    v_mul_f32_e32 v11, v11, v27
 ; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GCN-NEXT:    v_mul_f32_e32 v26, 1.0, v26
-; GCN-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
-; GCN-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
-; GCN-NEXT:    v_mul_f32_e32 v10, v10, v26
 ; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
 ; GCN-NEXT:    v_mul_f32_e32 v25, 1.0, v25
-; GCN-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
-; GCN-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
-; GCN-NEXT:    v_mul_f32_e32 v9, v9, v25
 ; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
 ; GCN-NEXT:    v_mul_f32_e32 v24, 1.0, v24
-; GCN-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
-; GCN-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
-; GCN-NEXT:    v_mul_f32_e32 v8, v8, v24
 ; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
 ; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v23
-; GCN-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
-; GCN-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GCN-NEXT:    v_mul_f32_e32 v7, v7, v23
 ; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
-; GCN-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
-; GCN-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GCN-NEXT:    v_mul_f32_e32 v6, v6, v22
 ; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
 ; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GCN-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
-; GCN-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GCN-NEXT:    v_mul_f32_e32 v5, v5, v21
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
 ; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
+; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
+; GCN-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
+; GCN-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
+; GCN-NEXT:    v_mul_f32_e32 v11, v11, v27
+; GCN-NEXT:    buffer_load_dword v27, off, s[0:3], s32
+; GCN-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
+; GCN-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
+; GCN-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
+; GCN-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
+; GCN-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
+; GCN-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
+; GCN-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
+; GCN-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
+; GCN-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
+; GCN-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
+; GCN-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
+; GCN-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
 ; GCN-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
 ; GCN-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
-; GCN-NEXT:    v_mul_f32_e32 v4, v4, v20
-; GCN-NEXT:    buffer_load_dword v20, off, s[0:3], s32
-; GCN-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
 ; GCN-NEXT:    v_and_b32_e32 v19, 0xffff0000, v19
 ; GCN-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GCN-NEXT:    v_and_b32_e32 v18, 0xffff0000, v18
@@ -14553,6 +14543,14 @@ define <16 x bfloat> @v_fmul_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
 ; GCN-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
 ; GCN-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GCN-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
+; GCN-NEXT:    v_mul_f32_e32 v10, v10, v26
+; GCN-NEXT:    v_mul_f32_e32 v9, v9, v25
+; GCN-NEXT:    v_mul_f32_e32 v8, v8, v24
+; GCN-NEXT:    v_mul_f32_e32 v7, v7, v23
+; GCN-NEXT:    v_mul_f32_e32 v6, v6, v22
+; GCN-NEXT:    v_mul_f32_e32 v5, v5, v21
+; GCN-NEXT:    v_mul_f32_e32 v4, v4, v20
 ; GCN-NEXT:    v_mul_f32_e32 v3, v3, v19
 ; GCN-NEXT:    v_mul_f32_e32 v2, v2, v18
 ; GCN-NEXT:    v_mul_f32_e32 v1, v1, v17
@@ -14572,7 +14570,7 @@ define <16 x bfloat> @v_fmul_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
 ; GCN-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v27
 ; GCN-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
 ; GCN-NEXT:    v_mul_f32_e32 v15, v15, v16
 ; GCN-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
@@ -14582,20 +14580,22 @@ define <16 x bfloat> @v_fmul_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-LABEL: v_fmul_v16bf16:
 ; GFX7:       ; %bb.0:
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
+; GFX7-NEXT:    v_mul_f32_e32 v27, 1.0, v27
+; GFX7-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
+; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
+; GFX7-NEXT:    v_mul_f32_e32 v11, v11, v27
+; GFX7-NEXT:    buffer_load_dword v27, off, s[0:3], s32
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
 ; GFX7-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
 ; GFX7-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GFX7-NEXT:    v_mul_f32_e32 v6, v6, v22
-; GFX7-NEXT:    buffer_load_dword v22, off, s[0:3], s32
 ; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v14
 ; GFX7-NEXT:    v_mul_f32_e32 v30, 1.0, v30
 ; GFX7-NEXT:    v_mul_f32_e32 v13, 1.0, v13
 ; GFX7-NEXT:    v_mul_f32_e32 v29, 1.0, v29
 ; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v12
 ; GFX7-NEXT:    v_mul_f32_e32 v28, 1.0, v28
-; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
-; GFX7-NEXT:    v_mul_f32_e32 v27, 1.0, v27
 ; GFX7-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GFX7-NEXT:    v_mul_f32_e32 v26, 1.0, v26
 ; GFX7-NEXT:    v_mul_f32_e32 v9, 1.0, v9
@@ -14606,25 +14606,24 @@ define <16 x bfloat> @v_fmul_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_mul_f32_e32 v23, 1.0, v23
 ; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v15
 ; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
+; GFX7-NEXT:    v_mul_f32_e32 v6, v6, v22
 ; GFX7-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
 ; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
+; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
+; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
+; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GFX7-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
 ; GFX7-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
 ; GFX7-NEXT:    v_and_b32_e32 v29, 0xffff0000, v29
 ; GFX7-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
 ; GFX7-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
 ; GFX7-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
-; GFX7-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
-; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
 ; GFX7-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
 ; GFX7-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
 ; GFX7-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
@@ -14649,7 +14648,6 @@ define <16 x bfloat> @v_fmul_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_mul_f32_e32 v14, v14, v30
 ; GFX7-NEXT:    v_mul_f32_e32 v13, v13, v29
 ; GFX7-NEXT:    v_mul_f32_e32 v12, v12, v28
-; GFX7-NEXT:    v_mul_f32_e32 v11, v11, v27
 ; GFX7-NEXT:    v_mul_f32_e32 v10, v10, v26
 ; GFX7-NEXT:    v_mul_f32_e32 v9, v9, v25
 ; GFX7-NEXT:    v_mul_f32_e32 v8, v8, v24
@@ -14668,7 +14666,7 @@ define <16 x bfloat> @v_fmul_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
 ; GFX7-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v27
 ; GFX7-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
 ; GFX7-NEXT:    v_mul_f32_e32 v15, v15, v22
 ; GFX7-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
@@ -16126,10 +16124,10 @@ define <32 x bfloat> @v_fmul_v32bf16(<32 x bfloat> %a, <32 x bfloat> %b) {
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v9, 16, v9
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
+; GFX8-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v16, 16, v30
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v13, 16, v13
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
-; GFX8-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
 ; GFX8-NEXT:    v_alignbit_b32 v0, v0, v17, 16
 ; GFX8-NEXT:    v_alignbit_b32 v1, v1, v18, 16
 ; GFX8-NEXT:    v_alignbit_b32 v2, v2, v19, 16
@@ -16432,278 +16430,278 @@ define <32 x bfloat> @v_fmul_v32bf16(<32 x bfloat> %a, <32 x bfloat> %b) {
 ; GFX10:       ; %bb.0:
 ; GFX10-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX10-NEXT:    buffer_load_dword v32, off, s[0:3], s32
+; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v12
+; GFX10-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
+; GFX10-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v39, 16, v27
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v11
 ; GFX10-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
 ; GFX10-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v49, 16, v26
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v10
-; GFX10-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
-; GFX10-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
-; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v28
-; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v12
-; GFX10-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
-; GFX10-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
-; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v25
-; GFX10-NEXT:    v_lshlrev_b32_e32 v52, 16, v9
-; GFX10-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
-; GFX10-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
-; GFX10-NEXT:    v_lshlrev_b32_e32 v53, 16, v24
-; GFX10-NEXT:    v_lshlrev_b32_e32 v54, 16, v8
-; GFX10-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
-; GFX10-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
-; GFX10-NEXT:    v_lshlrev_b32_e32 v55, 16, v23
-; GFX10-NEXT:    v_lshlrev_b32_e32 v64, 16, v7
-; GFX10-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
-; GFX10-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GFX10-NEXT:    v_lshlrev_b32_e32 v65, 16, v22
-; GFX10-NEXT:    v_lshlrev_b32_e32 v66, 16, v6
-; GFX10-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
-; GFX10-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GFX10-NEXT:    v_lshlrev_b32_e32 v67, 16, v21
-; GFX10-NEXT:    v_lshlrev_b32_e32 v68, 16, v5
-; GFX10-NEXT:    v_mul_f32_e32 v39, v48, v39
-; GFX10-NEXT:    v_mul_f32_e32 v11, v11, v27
-; GFX10-NEXT:    v_mul_f32_e32 v49, v50, v49
-; GFX10-NEXT:    v_mul_f32_e32 v10, v10, v26
+; GFX10-NEXT:    v_lshlrev_b32_e32 v33, 16, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v14
+; GFX10-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
+; GFX10-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v35, 16, v29
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v13
 ; GFX10-NEXT:    v_and_b32_e32 v29, 0xffff0000, v29
 ; GFX10-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
-; GFX10-NEXT:    v_mul_f32_e32 v37, v38, v37
-; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v18
 ; GFX10-NEXT:    v_mul_f32_e32 v12, v12, v28
-; GFX10-NEXT:    v_lshlrev_b32_e32 v28, 16, v2
+; GFX10-NEXT:    v_lshlrev_b32_e32 v28, 16, v22
+; GFX10-NEXT:    v_mul_f32_e32 v39, v48, v39
+; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v6
+; GFX10-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
+; GFX10-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
+; GFX10-NEXT:    v_mul_f32_e32 v11, v11, v27
+; GFX10-NEXT:    v_lshlrev_b32_e32 v27, 16, v21
+; GFX10-NEXT:    v_mul_f32_e32 v49, v50, v49
+; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v5
+; GFX10-NEXT:    v_mul_f32_e32 v33, v34, v33
+; GFX10-NEXT:    v_mul_f32_e32 v14, v14, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v30, 16, v24
+; GFX10-NEXT:    v_mul_f32_e32 v35, v36, v35
+; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v8
+; GFX10-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
+; GFX10-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
+; GFX10-NEXT:    v_mul_f32_e32 v13, v13, v29
+; GFX10-NEXT:    v_lshlrev_b32_e32 v29, 16, v23
+; GFX10-NEXT:    v_mul_f32_e32 v37, v38, v37
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v7
+; GFX10-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
+; GFX10-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
+; GFX10-NEXT:    v_mul_f32_e32 v6, v6, v22
+; GFX10-NEXT:    v_lshlrev_b32_e32 v22, 16, v16
+; GFX10-NEXT:    v_mul_f32_e32 v27, v50, v27
+; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v0
+; GFX10-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
+; GFX10-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GFX10-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
+; GFX10-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
+; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v25
+; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v9
+; GFX10-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
+; GFX10-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
+; GFX10-NEXT:    v_mul_f32_e32 v8, v8, v24
+; GFX10-NEXT:    v_lshlrev_b32_e32 v24, 16, v18
+; GFX10-NEXT:    v_mul_f32_e32 v29, v38, v29
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v2
 ; GFX10-NEXT:    v_and_b32_e32 v18, 0xffff0000, v18
 ; GFX10-NEXT:    v_and_b32_e32 v2, 0xffff0000, v2
-; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v17
-; GFX10-NEXT:    v_lshlrev_b32_e32 v27, 16, v1
+; GFX10-NEXT:    v_mul_f32_e32 v7, v7, v23
+; GFX10-NEXT:    v_lshlrev_b32_e32 v23, 16, v17
+; GFX10-NEXT:    v_mul_f32_e32 v28, v48, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v1
 ; GFX10-NEXT:    v_and_b32_e32 v17, 0xffff0000, v17
 ; GFX10-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
-; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v16
-; GFX10-NEXT:    v_lshlrev_b32_e32 v26, 16, v0
-; GFX10-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
-; GFX10-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GFX10-NEXT:    v_mul_f32_e32 v0, v0, v16
+; GFX10-NEXT:    v_bfe_u32 v16, v33, 16, 1
+; GFX10-NEXT:    v_mul_f32_e32 v10, v10, v26
+; GFX10-NEXT:    v_lshlrev_b32_e32 v26, 16, v20
+; GFX10-NEXT:    v_mul_f32_e32 v34, v34, v51
+; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v4
+; GFX10-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
+; GFX10-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
 ; GFX10-NEXT:    v_mul_f32_e32 v9, v9, v25
-; GFX10-NEXT:    v_mul_f32_e32 v25, v54, v53
-; GFX10-NEXT:    v_mul_f32_e32 v8, v8, v24
-; GFX10-NEXT:    v_mul_f32_e32 v24, v64, v55
-; GFX10-NEXT:    v_mul_f32_e32 v7, v7, v23
-; GFX10-NEXT:    v_mul_f32_e32 v23, v66, v65
-; GFX10-NEXT:    v_mul_f32_e32 v6, v6, v22
-; GFX10-NEXT:    v_mul_f32_e32 v22, v68, v67
-; GFX10-NEXT:    v_bfe_u32 v53, v39, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v55, v11, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v65, v49, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v67, v10, 16, 1
-; GFX10-NEXT:    v_lshlrev_b32_e32 v33, 16, v30
-; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v14
-; GFX10-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
-; GFX10-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
-; GFX10-NEXT:    v_mul_f32_e32 v35, v36, v35
-; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v19
-; GFX10-NEXT:    v_mul_f32_e32 v13, v13, v29
-; GFX10-NEXT:    v_lshlrev_b32_e32 v29, 16, v3
+; GFX10-NEXT:    v_lshlrev_b32_e32 v25, 16, v19
+; GFX10-NEXT:    v_mul_f32_e32 v30, v36, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v3
 ; GFX10-NEXT:    v_and_b32_e32 v19, 0xffff0000, v19
 ; GFX10-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GFX10-NEXT:    v_mul_f32_e32 v2, v2, v18
-; GFX10-NEXT:    v_mul_f32_e32 v18, v27, v48
+; GFX10-NEXT:    v_mul_f32_e32 v18, v48, v23
 ; GFX10-NEXT:    v_mul_f32_e32 v1, v1, v17
-; GFX10-NEXT:    v_mul_f32_e32 v17, v26, v50
-; GFX10-NEXT:    v_mul_f32_e32 v0, v0, v16
-; GFX10-NEXT:    v_or_b32_e32 v54, 0x400000, v39
-; GFX10-NEXT:    v_or_b32_e32 v64, 0x400000, v11
-; GFX10-NEXT:    v_or_b32_e32 v66, 0x400000, v49
-; GFX10-NEXT:    v_or_b32_e32 v68, 0x400000, v10
-; GFX10-NEXT:    v_cmp_u_f32_e64 s9, v39, v39
-; GFX10-NEXT:    v_add3_u32 v39, v53, v39, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s10, v11, v11
-; GFX10-NEXT:    v_add3_u32 v11, v55, v11, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s11, v49, v49
-; GFX10-NEXT:    v_add3_u32 v49, v65, v49, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s12, v10, v10
-; GFX10-NEXT:    v_add3_u32 v10, v67, v10, 0x7fff
+; GFX10-NEXT:    v_mul_f32_e32 v17, v50, v22
+; GFX10-NEXT:    v_or_b32_e32 v22, 0x400000, v33
+; GFX10-NEXT:    v_bfe_u32 v23, v14, 16, 1
+; GFX10-NEXT:    v_add3_u32 v16, v16, v33, 0x7fff
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v33, v33
 ; GFX10-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
 ; GFX10-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GFX10-NEXT:    v_mul_f32_e32 v33, v34, v33
-; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v20
-; GFX10-NEXT:    v_mul_f32_e32 v14, v14, v30
-; GFX10-NEXT:    v_lshlrev_b32_e32 v30, 16, v4
-; GFX10-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
-; GFX10-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
+; GFX10-NEXT:    v_mul_f32_e32 v4, v4, v20
+; GFX10-NEXT:    v_mul_f32_e32 v20, v36, v25
 ; GFX10-NEXT:    v_mul_f32_e32 v3, v3, v19
-; GFX10-NEXT:    v_mul_f32_e32 v19, v28, v38
-; GFX10-NEXT:    v_bfe_u32 v38, v37, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v50, v12, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v39, v39, v54, s9
-; GFX10-NEXT:    v_bfe_u32 v54, v18, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v11, v11, v64, s10
-; GFX10-NEXT:    v_bfe_u32 v64, v1, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v49, v49, v66, s11
-; GFX10-NEXT:    v_bfe_u32 v66, v17, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v10, v10, v68, s12
-; GFX10-NEXT:    v_bfe_u32 v68, v0, 16, 1
-; GFX10-NEXT:    v_mul_f32_e32 v51, v52, v51
+; GFX10-NEXT:    v_mul_f32_e32 v19, v38, v24
+; GFX10-NEXT:    v_or_b32_e32 v24, 0x400000, v14
+; GFX10-NEXT:    v_bfe_u32 v25, v35, 16, 1
+; GFX10-NEXT:    v_add3_u32 v23, v23, v14, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v16, v16, v22, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v14, v14
 ; GFX10-NEXT:    v_mul_f32_e32 v5, v5, v21
-; GFX10-NEXT:    v_mul_f32_e32 v21, v30, v34
-; GFX10-NEXT:    v_mul_f32_e32 v4, v4, v20
-; GFX10-NEXT:    v_mul_f32_e32 v20, v29, v36
-; GFX10-NEXT:    v_bfe_u32 v16, v33, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v27, v14, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v29, v35, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v34, v13, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v48, 0x400000, v37
-; GFX10-NEXT:    v_or_b32_e32 v52, 0x400000, v12
-; GFX10-NEXT:    v_cmp_u_f32_e64 s7, v37, v37
-; GFX10-NEXT:    v_add3_u32 v37, v38, v37, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s8, v12, v12
-; GFX10-NEXT:    v_add3_u32 v12, v50, v12, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s10, v18, v18
-; GFX10-NEXT:    v_add3_u32 v54, v54, v18, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v18, 0x400000, v18
-; GFX10-NEXT:    v_cmp_u_f32_e64 s11, v1, v1
-; GFX10-NEXT:    v_add3_u32 v64, v64, v1, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v1, 0x400000, v1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s12, v17, v17
-; GFX10-NEXT:    v_add3_u32 v66, v66, v17, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v17, 0x400000, v17
-; GFX10-NEXT:    v_cmp_u_f32_e64 s22, v0, v0
-; GFX10-NEXT:    v_add3_u32 v68, v68, v0, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v0, 0x400000, v0
-; GFX10-NEXT:    v_or_b32_e32 v26, 0x400000, v33
-; GFX10-NEXT:    v_or_b32_e32 v28, 0x400000, v14
-; GFX10-NEXT:    v_or_b32_e32 v30, 0x400000, v35
-; GFX10-NEXT:    v_or_b32_e32 v36, 0x400000, v13
-; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v33, v33
-; GFX10-NEXT:    v_add3_u32 v16, v16, v33, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v33, v51, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v14, v14
-; GFX10-NEXT:    v_add3_u32 v14, v27, v14, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s5, v35, v35
-; GFX10-NEXT:    v_add3_u32 v29, v29, v35, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s6, v13, v13
-; GFX10-NEXT:    v_add3_u32 v13, v34, v13, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v24, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v37, v37, v48, s7
-; GFX10-NEXT:    v_bfe_u32 v48, v19, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v12, v12, v52, s8
-; GFX10-NEXT:    v_bfe_u32 v52, v2, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v18, v54, v18, s10
-; GFX10-NEXT:    v_cndmask_b32_e64 v17, v66, v17, s12
-; GFX10-NEXT:    v_cndmask_b32_e64 v0, v68, v0, s22
-; GFX10-NEXT:    v_cndmask_b32_e64 v1, v64, v1, s11
+; GFX10-NEXT:    v_mul_f32_e32 v21, v51, v26
+; GFX10-NEXT:    v_or_b32_e32 v26, 0x400000, v35
+; GFX10-NEXT:    v_bfe_u32 v36, v13, 16, 1
+; GFX10-NEXT:    v_add3_u32 v25, v25, v35, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v23, v23, v24, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v35, v35
+; GFX10-NEXT:    v_or_b32_e32 v38, 0x400000, v13
+; GFX10-NEXT:    v_bfe_u32 v48, v37, 16, 1
+; GFX10-NEXT:    v_add3_u32 v36, v36, v13, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v50, 0x400000, v37
+; GFX10-NEXT:    v_cndmask_b32_e32 v25, v25, v26, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v13, v13
+; GFX10-NEXT:    v_bfe_u32 v51, v12, 16, 1
+; GFX10-NEXT:    v_add3_u32 v48, v48, v37, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v33, 0x400000, v12
+; GFX10-NEXT:    v_bfe_u32 v22, v39, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v36, v36, v38, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v37, v37
+; GFX10-NEXT:    v_add3_u32 v51, v51, v12, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v14, 0x400000, v39
+; GFX10-NEXT:    v_bfe_u32 v24, v11, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v39, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v48, v48, v50, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v12, v12
+; GFX10-NEXT:    v_or_b32_e32 v35, 0x400000, v11
+; GFX10-NEXT:    v_bfe_u32 v26, v49, 16, 1
+; GFX10-NEXT:    v_add3_u32 v24, v24, v11, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v13, 0x400000, v49
+; GFX10-NEXT:    v_cndmask_b32_e32 v33, v51, v33, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v39, v39
+; GFX10-NEXT:    v_bfe_u32 v38, v10, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v49, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v37, 0x400000, v10
+; GFX10-NEXT:    v_bfe_u32 v50, v34, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v14, v22, v14, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v11, v11
+; GFX10-NEXT:    v_add3_u32 v38, v38, v10, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v12, 0x400000, v34
+; GFX10-NEXT:    v_bfe_u32 v51, v9, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v34, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v24, v24, v35, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v49, v49
+; GFX10-NEXT:    v_or_b32_e32 v39, 0x400000, v9
+; GFX10-NEXT:    v_bfe_u32 v22, v30, 16, 1
+; GFX10-NEXT:    v_add3_u32 v51, v51, v9, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v11, 0x400000, v30
+; GFX10-NEXT:    v_cndmask_b32_e32 v13, v26, v13, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v10, v10
+; GFX10-NEXT:    v_bfe_u32 v35, v8, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v30, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v49, 0x400000, v8
+; GFX10-NEXT:    v_bfe_u32 v26, v29, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v37, v38, v37, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v34, v34
+; GFX10-NEXT:    v_add3_u32 v35, v35, v8, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v10, 0x400000, v29
+; GFX10-NEXT:    v_bfe_u32 v38, v7, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v29, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v12, v50, v12, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v9, v9
+; GFX10-NEXT:    v_or_b32_e32 v34, 0x400000, v7
+; GFX10-NEXT:    v_bfe_u32 v50, v28, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v7, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v9, 0x400000, v28
+; GFX10-NEXT:    v_cndmask_b32_e32 v39, v51, v39, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v30, v30
+; GFX10-NEXT:    v_bfe_u32 v51, v6, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v28, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v30, 0x400000, v6
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v31, 16, v15
+; GFX10-NEXT:    v_cndmask_b32_e32 v11, v22, v11, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v8, v8
+; GFX10-NEXT:    v_bfe_u32 v22, v27, 16, 1
+; GFX10-NEXT:    v_add3_u32 v51, v51, v6, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v8, 0x400000, v27
 ; GFX10-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
-; GFX10-NEXT:    v_or_b32_e32 v27, 0x400000, v51
-; GFX10-NEXT:    v_bfe_u32 v35, v9, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v38, v25, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v67, 0x400000, v24
-; GFX10-NEXT:    v_cmp_u_f32_e64 s13, v51, v51
-; GFX10-NEXT:    v_add3_u32 v33, v33, v51, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v51, v7, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s17, v24, v24
-; GFX10-NEXT:    v_add3_u32 v24, v65, v24, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v6, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e32 v16, v16, v26, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v35, v35, v49, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v29, v29
+; GFX10-NEXT:    v_bfe_u32 v49, v5, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v27, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v29, 0x400000, v5
+; GFX10-NEXT:    v_cndmask_b32_e32 v10, v26, v10, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v7, v7
 ; GFX10-NEXT:    v_bfe_u32 v26, v21, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v14, v14, v28, s4
-; GFX10-NEXT:    v_bfe_u32 v28, v4, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v29, v29, v30, s5
-; GFX10-NEXT:    v_bfe_u32 v30, v20, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v13, v13, v36, s6
-; GFX10-NEXT:    v_bfe_u32 v36, v3, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s8, v19, v19
-; GFX10-NEXT:    v_add3_u32 v48, v48, v19, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v19
-; GFX10-NEXT:    v_cmp_u_f32_e64 s9, v2, v2
-; GFX10-NEXT:    v_add3_u32 v52, v52, v2, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v2, 0x400000, v2
-; GFX10-NEXT:    v_perm_b32 v0, v0, v17, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v1, v1, v18, 0x7060302
-; GFX10-NEXT:    v_or_b32_e32 v34, 0x400000, v9
-; GFX10-NEXT:    v_or_b32_e32 v50, 0x400000, v25
-; GFX10-NEXT:    v_bfe_u32 v53, v8, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s14, v9, v9
-; GFX10-NEXT:    v_add3_u32 v9, v35, v9, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v35, 0x400000, v7
-; GFX10-NEXT:    v_cmp_u_f32_e64 s15, v25, v25
-; GFX10-NEXT:    v_add3_u32 v25, v38, v25, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v38, v23, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s18, v7, v7
-; GFX10-NEXT:    v_add3_u32 v7, v51, v7, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v51, 0x400000, v6
-; GFX10-NEXT:    v_cmp_u_f32_e64 s20, v6, v6
-; GFX10-NEXT:    v_add3_u32 v6, v65, v6, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v5, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v21, v21
+; GFX10-NEXT:    v_add3_u32 v49, v49, v5, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v7, 0x400000, v21
+; GFX10-NEXT:    v_cndmask_b32_e32 v34, v38, v34, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v28, v28
+; GFX10-NEXT:    v_bfe_u32 v38, v4, 16, 1
 ; GFX10-NEXT:    v_add3_u32 v26, v26, v21, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v21
-; GFX10-NEXT:    v_cmp_u_f32_e64 s5, v4, v4
-; GFX10-NEXT:    v_add3_u32 v28, v28, v4, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v4, 0x400000, v4
-; GFX10-NEXT:    v_cmp_u_f32_e64 s6, v20, v20
-; GFX10-NEXT:    v_add3_u32 v30, v30, v20, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v20
-; GFX10-NEXT:    v_cmp_u_f32_e64 s7, v3, v3
-; GFX10-NEXT:    v_add3_u32 v36, v36, v3, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v3, 0x400000, v3
-; GFX10-NEXT:    v_cndmask_b32_e64 v19, v48, v19, s8
-; GFX10-NEXT:    v_cndmask_b32_e64 v2, v52, v2, s9
-; GFX10-NEXT:    v_or_b32_e32 v55, 0x400000, v8
-; GFX10-NEXT:    v_cmp_u_f32_e64 s16, v8, v8
-; GFX10-NEXT:    v_add3_u32 v8, v53, v8, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v53, 0x400000, v23
-; GFX10-NEXT:    v_cmp_u_f32_e64 s19, v23, v23
-; GFX10-NEXT:    v_add3_u32 v23, v38, v23, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v38, v22, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v28, 0x400000, v4
+; GFX10-NEXT:    v_cndmask_b32_e32 v9, v50, v9, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v6, v6
+; GFX10-NEXT:    v_bfe_u32 v50, v20, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v4, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v6, 0x400000, v20
+; GFX10-NEXT:    v_cndmask_b32_e32 v30, v51, v30, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v27, v27
+; GFX10-NEXT:    v_add3_u32 v50, v50, v20, 0x7fff
+; GFX10-NEXT:    v_bfe_u32 v51, v3, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v27, 0x400000, v3
+; GFX10-NEXT:    v_cndmask_b32_e32 v8, v22, v8, vcc_lo
 ; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v5, v5
-; GFX10-NEXT:    v_add3_u32 v65, v65, v5, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v5, 0x400000, v5
-; GFX10-NEXT:    v_cndmask_b32_e64 v21, v26, v21, s4
-; GFX10-NEXT:    v_cndmask_b32_e64 v4, v28, v4, s5
-; GFX10-NEXT:    v_cndmask_b32_e64 v20, v30, v20, s6
-; GFX10-NEXT:    v_cndmask_b32_e64 v3, v36, v3, s7
-; GFX10-NEXT:    v_perm_b32 v2, v2, v19, 0x7060302
-; GFX10-NEXT:    v_cmp_u_f32_e64 s21, v22, v22
-; GFX10-NEXT:    v_add3_u32 v38, v38, v22, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v22, 0x400000, v22
-; GFX10-NEXT:    v_cndmask_b32_e32 v5, v65, v5, vcc_lo
-; GFX10-NEXT:    v_perm_b32 v3, v3, v20, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v4, v4, v21, 0x7060302
-; GFX10-NEXT:    v_cndmask_b32_e64 v27, v33, v27, s13
-; GFX10-NEXT:    v_cndmask_b32_e64 v9, v9, v34, s14
-; GFX10-NEXT:    v_cndmask_b32_e64 v25, v25, v50, s15
-; GFX10-NEXT:    v_cndmask_b32_e64 v8, v8, v55, s16
-; GFX10-NEXT:    v_cndmask_b32_e64 v24, v24, v67, s17
-; GFX10-NEXT:    v_cndmask_b32_e64 v7, v7, v35, s18
-; GFX10-NEXT:    v_cndmask_b32_e64 v23, v23, v53, s19
-; GFX10-NEXT:    v_cndmask_b32_e64 v6, v6, v51, s20
-; GFX10-NEXT:    v_cndmask_b32_e64 v22, v38, v22, s21
-; GFX10-NEXT:    v_perm_b32 v8, v8, v25, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v7, v7, v24, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v9, v9, v27, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v6, v6, v23, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v5, v5, v22, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v10, v10, v49, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v11, v11, v39, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v12, v12, v37, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v13, v13, v29, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v14, v14, v16, 0x7060302
+; GFX10-NEXT:    v_bfe_u32 v22, v19, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v5, 0x400000, v19
+; GFX10-NEXT:    v_add3_u32 v51, v51, v3, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v29, v49, v29, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v21, v21
+; GFX10-NEXT:    v_add3_u32 v22, v22, v19, 0x7fff
+; GFX10-NEXT:    v_bfe_u32 v49, v2, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v2
+; GFX10-NEXT:    v_cndmask_b32_e32 v7, v26, v7, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v4, v4
+; GFX10-NEXT:    v_bfe_u32 v26, v18, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v4, 0x400000, v18
+; GFX10-NEXT:    v_add3_u32 v49, v49, v2, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v28, v38, v28, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v20, v20
+; GFX10-NEXT:    v_bfe_u32 v38, v1, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v18, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v1
+; GFX10-NEXT:    v_cndmask_b32_e32 v6, v50, v6, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v19, v19
+; GFX10-NEXT:    v_bfe_u32 v50, v17, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v1, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v17
+; GFX10-NEXT:    v_cndmask_b32_e32 v5, v22, v5, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v18, v18
+; GFX10-NEXT:    v_bfe_u32 v22, v0, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v17, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v18, 0x400000, v0
+; GFX10-NEXT:    v_cndmask_b32_e32 v4, v26, v4, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v1, v1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v0, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v1, v38, v20, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v17, v17
+; GFX10-NEXT:    v_perm_b32 v1, v1, v4, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v17, v50, v19, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v0, v0
+; GFX10-NEXT:    v_perm_b32 v4, v28, v7, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v7, v34, v10, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v0, v22, v18, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v2, v2
+; GFX10-NEXT:    v_perm_b32 v0, v0, v17, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v2, v49, v21, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v3, v3
+; GFX10-NEXT:    v_perm_b32 v2, v2, v5, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v3, v51, v27, vcc_lo
+; GFX10-NEXT:    v_perm_b32 v5, v29, v8, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v8, v35, v11, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v3, v3, v6, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v6, v30, v9, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v9, v39, v12, 0x7060302
 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v17, 16, v32
 ; GFX10-NEXT:    v_and_b32_e32 v18, 0xffff0000, v32
 ; GFX10-NEXT:    v_mul_f32_e32 v17, v31, v17
 ; GFX10-NEXT:    v_mul_f32_e32 v15, v15, v18
-; GFX10-NEXT:    v_bfe_u32 v18, v17, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v19, v15, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v17
-; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v15
+; GFX10-NEXT:    v_bfe_u32 v10, v17, 16, 1
+; GFX10-NEXT:    v_bfe_u32 v11, v15, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v12, 0x400000, v17
 ; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v17, v17
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v15, v15
-; GFX10-NEXT:    v_add3_u32 v17, v18, v17, 0x7fff
-; GFX10-NEXT:    v_add3_u32 v15, v19, v15, 0x7fff
-; GFX10-NEXT:    v_cndmask_b32_e32 v17, v17, v20, vcc_lo
-; GFX10-NEXT:    v_cndmask_b32_e64 v15, v15, v21, s4
+; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v15
+; GFX10-NEXT:    v_add3_u32 v18, v10, v17, 0x7fff
+; GFX10-NEXT:    v_add3_u32 v11, v11, v15, 0x7fff
+; GFX10-NEXT:    v_perm_b32 v10, v37, v13, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v13, v36, v25, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v17, v18, v12, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v15, v15
+; GFX10-NEXT:    v_perm_b32 v12, v33, v48, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v15, v11, v19, vcc_lo
+; GFX10-NEXT:    v_perm_b32 v11, v24, v14, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v14, v23, v16, 0x7060302
 ; GFX10-NEXT:    v_perm_b32 v15, v15, v17, 0x7060302
 ; GFX10-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -18574,55 +18572,47 @@ define <16 x bfloat> @v_minnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_min_f32_e32 v12, v12, v28
 ; GCN-NEXT:    v_mul_f32_e32 v11, 1.0, v11
 ; GCN-NEXT:    v_mul_f32_e32 v27, 1.0, v27
-; GCN-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
-; GCN-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
-; GCN-NEXT:    v_min_f32_e32 v11, v11, v27
 ; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GCN-NEXT:    v_mul_f32_e32 v26, 1.0, v26
-; GCN-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
-; GCN-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
-; GCN-NEXT:    v_min_f32_e32 v10, v10, v26
 ; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
 ; GCN-NEXT:    v_mul_f32_e32 v25, 1.0, v25
-; GCN-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
-; GCN-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
-; GCN-NEXT:    v_min_f32_e32 v9, v9, v25
 ; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
 ; GCN-NEXT:    v_mul_f32_e32 v24, 1.0, v24
-; GCN-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
-; GCN-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
-; GCN-NEXT:    v_min_f32_e32 v8, v8, v24
 ; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
 ; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v23
-; GCN-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
-; GCN-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GCN-NEXT:    v_min_f32_e32 v7, v7, v23
 ; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
-; GCN-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
-; GCN-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GCN-NEXT:    v_min_f32_e32 v6, v6, v22
 ; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
 ; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GCN-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
-; GCN-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GCN-NEXT:    v_min_f32_e32 v5, v5, v21
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
 ; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
+; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
+; GCN-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
+; GCN-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
+; GCN-NEXT:    v_min_f32_e32 v11, v11, v27
+; GCN-NEXT:    buffer_load_dword v27, off, s[0:3], s32
+; GCN-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
+; GCN-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
+; GCN-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
+; GCN-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
+; GCN-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
+; GCN-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
+; GCN-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
+; GCN-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
+; GCN-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
+; GCN-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
+; GCN-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
+; GCN-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
 ; GCN-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
 ; GCN-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
-; GCN-NEXT:    v_min_f32_e32 v4, v4, v20
-; GCN-NEXT:    buffer_load_dword v20, off, s[0:3], s32
-; GCN-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
 ; GCN-NEXT:    v_and_b32_e32 v19, 0xffff0000, v19
 ; GCN-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GCN-NEXT:    v_and_b32_e32 v18, 0xffff0000, v18
@@ -18631,6 +18621,14 @@ define <16 x bfloat> @v_minnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
 ; GCN-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
 ; GCN-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GCN-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
+; GCN-NEXT:    v_min_f32_e32 v10, v10, v26
+; GCN-NEXT:    v_min_f32_e32 v9, v9, v25
+; GCN-NEXT:    v_min_f32_e32 v8, v8, v24
+; GCN-NEXT:    v_min_f32_e32 v7, v7, v23
+; GCN-NEXT:    v_min_f32_e32 v6, v6, v22
+; GCN-NEXT:    v_min_f32_e32 v5, v5, v21
+; GCN-NEXT:    v_min_f32_e32 v4, v4, v20
 ; GCN-NEXT:    v_min_f32_e32 v3, v3, v19
 ; GCN-NEXT:    v_min_f32_e32 v2, v2, v18
 ; GCN-NEXT:    v_min_f32_e32 v1, v1, v17
@@ -18650,7 +18648,7 @@ define <16 x bfloat> @v_minnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
 ; GCN-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v27
 ; GCN-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
 ; GCN-NEXT:    v_min_f32_e32 v15, v15, v16
 ; GCN-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
@@ -18660,20 +18658,22 @@ define <16 x bfloat> @v_minnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-LABEL: v_minnum_v16bf16:
 ; GFX7:       ; %bb.0:
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
+; GFX7-NEXT:    v_mul_f32_e32 v27, 1.0, v27
+; GFX7-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
+; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
+; GFX7-NEXT:    v_min_f32_e32 v11, v11, v27
+; GFX7-NEXT:    buffer_load_dword v27, off, s[0:3], s32
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
 ; GFX7-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
 ; GFX7-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GFX7-NEXT:    v_min_f32_e32 v6, v6, v22
-; GFX7-NEXT:    buffer_load_dword v22, off, s[0:3], s32
 ; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v14
 ; GFX7-NEXT:    v_mul_f32_e32 v30, 1.0, v30
 ; GFX7-NEXT:    v_mul_f32_e32 v13, 1.0, v13
 ; GFX7-NEXT:    v_mul_f32_e32 v29, 1.0, v29
 ; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v12
 ; GFX7-NEXT:    v_mul_f32_e32 v28, 1.0, v28
-; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
-; GFX7-NEXT:    v_mul_f32_e32 v27, 1.0, v27
 ; GFX7-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GFX7-NEXT:    v_mul_f32_e32 v26, 1.0, v26
 ; GFX7-NEXT:    v_mul_f32_e32 v9, 1.0, v9
@@ -18684,25 +18684,24 @@ define <16 x bfloat> @v_minnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_mul_f32_e32 v23, 1.0, v23
 ; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v15
 ; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
+; GFX7-NEXT:    v_min_f32_e32 v6, v6, v22
 ; GFX7-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
 ; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
+; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
+; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
+; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GFX7-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
 ; GFX7-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
 ; GFX7-NEXT:    v_and_b32_e32 v29, 0xffff0000, v29
 ; GFX7-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
 ; GFX7-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
 ; GFX7-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
-; GFX7-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
-; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
 ; GFX7-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
 ; GFX7-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
 ; GFX7-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
@@ -18727,7 +18726,6 @@ define <16 x bfloat> @v_minnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_min_f32_e32 v14, v14, v30
 ; GFX7-NEXT:    v_min_f32_e32 v13, v13, v29
 ; GFX7-NEXT:    v_min_f32_e32 v12, v12, v28
-; GFX7-NEXT:    v_min_f32_e32 v11, v11, v27
 ; GFX7-NEXT:    v_min_f32_e32 v10, v10, v26
 ; GFX7-NEXT:    v_min_f32_e32 v9, v9, v25
 ; GFX7-NEXT:    v_min_f32_e32 v8, v8, v24
@@ -18746,7 +18744,7 @@ define <16 x bfloat> @v_minnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
 ; GFX7-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v27
 ; GFX7-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
 ; GFX7-NEXT:    v_min_f32_e32 v15, v15, v22
 ; GFX7-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
@@ -20204,10 +20202,10 @@ define <32 x bfloat> @v_minnum_v32bf16(<32 x bfloat> %a, <32 x bfloat> %b) {
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v9, 16, v9
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
+; GFX8-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v16, 16, v30
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v13, 16, v13
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
-; GFX8-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
 ; GFX8-NEXT:    v_alignbit_b32 v0, v0, v17, 16
 ; GFX8-NEXT:    v_alignbit_b32 v1, v1, v18, 16
 ; GFX8-NEXT:    v_alignbit_b32 v2, v2, v19, 16
@@ -20510,278 +20508,278 @@ define <32 x bfloat> @v_minnum_v32bf16(<32 x bfloat> %a, <32 x bfloat> %b) {
 ; GFX10:       ; %bb.0:
 ; GFX10-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX10-NEXT:    buffer_load_dword v32, off, s[0:3], s32
+; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v12
+; GFX10-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
+; GFX10-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v39, 16, v27
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v11
 ; GFX10-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
 ; GFX10-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v49, 16, v26
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v10
-; GFX10-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
-; GFX10-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
-; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v28
-; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v12
-; GFX10-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
-; GFX10-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
-; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v25
-; GFX10-NEXT:    v_lshlrev_b32_e32 v52, 16, v9
-; GFX10-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
-; GFX10-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
-; GFX10-NEXT:    v_lshlrev_b32_e32 v53, 16, v24
-; GFX10-NEXT:    v_lshlrev_b32_e32 v54, 16, v8
-; GFX10-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
-; GFX10-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
-; GFX10-NEXT:    v_lshlrev_b32_e32 v55, 16, v23
-; GFX10-NEXT:    v_lshlrev_b32_e32 v64, 16, v7
-; GFX10-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
-; GFX10-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GFX10-NEXT:    v_lshlrev_b32_e32 v65, 16, v22
-; GFX10-NEXT:    v_lshlrev_b32_e32 v66, 16, v6
-; GFX10-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
-; GFX10-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GFX10-NEXT:    v_lshlrev_b32_e32 v67, 16, v21
-; GFX10-NEXT:    v_lshlrev_b32_e32 v68, 16, v5
-; GFX10-NEXT:    v_min_f32_e32 v39, v48, v39
-; GFX10-NEXT:    v_min_f32_e32 v11, v11, v27
-; GFX10-NEXT:    v_min_f32_e32 v49, v50, v49
-; GFX10-NEXT:    v_min_f32_e32 v10, v10, v26
+; GFX10-NEXT:    v_lshlrev_b32_e32 v33, 16, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v14
+; GFX10-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
+; GFX10-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v35, 16, v29
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v13
 ; GFX10-NEXT:    v_and_b32_e32 v29, 0xffff0000, v29
 ; GFX10-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
-; GFX10-NEXT:    v_min_f32_e32 v37, v38, v37
-; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v18
 ; GFX10-NEXT:    v_min_f32_e32 v12, v12, v28
-; GFX10-NEXT:    v_lshlrev_b32_e32 v28, 16, v2
+; GFX10-NEXT:    v_lshlrev_b32_e32 v28, 16, v22
+; GFX10-NEXT:    v_min_f32_e32 v39, v48, v39
+; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v6
+; GFX10-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
+; GFX10-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
+; GFX10-NEXT:    v_min_f32_e32 v11, v11, v27
+; GFX10-NEXT:    v_lshlrev_b32_e32 v27, 16, v21
+; GFX10-NEXT:    v_min_f32_e32 v49, v50, v49
+; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v5
+; GFX10-NEXT:    v_min_f32_e32 v33, v34, v33
+; GFX10-NEXT:    v_min_f32_e32 v14, v14, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v30, 16, v24
+; GFX10-NEXT:    v_min_f32_e32 v35, v36, v35
+; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v8
+; GFX10-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
+; GFX10-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
+; GFX10-NEXT:    v_min_f32_e32 v13, v13, v29
+; GFX10-NEXT:    v_lshlrev_b32_e32 v29, 16, v23
+; GFX10-NEXT:    v_min_f32_e32 v37, v38, v37
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v7
+; GFX10-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
+; GFX10-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
+; GFX10-NEXT:    v_min_f32_e32 v6, v6, v22
+; GFX10-NEXT:    v_lshlrev_b32_e32 v22, 16, v16
+; GFX10-NEXT:    v_min_f32_e32 v27, v50, v27
+; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v0
+; GFX10-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
+; GFX10-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GFX10-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
+; GFX10-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
+; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v25
+; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v9
+; GFX10-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
+; GFX10-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
+; GFX10-NEXT:    v_min_f32_e32 v8, v8, v24
+; GFX10-NEXT:    v_lshlrev_b32_e32 v24, 16, v18
+; GFX10-NEXT:    v_min_f32_e32 v29, v38, v29
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v2
 ; GFX10-NEXT:    v_and_b32_e32 v18, 0xffff0000, v18
 ; GFX10-NEXT:    v_and_b32_e32 v2, 0xffff0000, v2
-; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v17
-; GFX10-NEXT:    v_lshlrev_b32_e32 v27, 16, v1
+; GFX10-NEXT:    v_min_f32_e32 v7, v7, v23
+; GFX10-NEXT:    v_lshlrev_b32_e32 v23, 16, v17
+; GFX10-NEXT:    v_min_f32_e32 v28, v48, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v1
 ; GFX10-NEXT:    v_and_b32_e32 v17, 0xffff0000, v17
 ; GFX10-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
-; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v16
-; GFX10-NEXT:    v_lshlrev_b32_e32 v26, 16, v0
-; GFX10-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
-; GFX10-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GFX10-NEXT:    v_min_f32_e32 v0, v0, v16
+; GFX10-NEXT:    v_bfe_u32 v16, v33, 16, 1
+; GFX10-NEXT:    v_min_f32_e32 v10, v10, v26
+; GFX10-NEXT:    v_lshlrev_b32_e32 v26, 16, v20
+; GFX10-NEXT:    v_min_f32_e32 v34, v34, v51
+; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v4
+; GFX10-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
+; GFX10-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
 ; GFX10-NEXT:    v_min_f32_e32 v9, v9, v25
-; GFX10-NEXT:    v_min_f32_e32 v25, v54, v53
-; GFX10-NEXT:    v_min_f32_e32 v8, v8, v24
-; GFX10-NEXT:    v_min_f32_e32 v24, v64, v55
-; GFX10-NEXT:    v_min_f32_e32 v7, v7, v23
-; GFX10-NEXT:    v_min_f32_e32 v23, v66, v65
-; GFX10-NEXT:    v_min_f32_e32 v6, v6, v22
-; GFX10-NEXT:    v_min_f32_e32 v22, v68, v67
-; GFX10-NEXT:    v_bfe_u32 v53, v39, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v55, v11, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v65, v49, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v67, v10, 16, 1
-; GFX10-NEXT:    v_lshlrev_b32_e32 v33, 16, v30
-; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v14
-; GFX10-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
-; GFX10-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
-; GFX10-NEXT:    v_min_f32_e32 v35, v36, v35
-; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v19
-; GFX10-NEXT:    v_min_f32_e32 v13, v13, v29
-; GFX10-NEXT:    v_lshlrev_b32_e32 v29, 16, v3
+; GFX10-NEXT:    v_lshlrev_b32_e32 v25, 16, v19
+; GFX10-NEXT:    v_min_f32_e32 v30, v36, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v3
 ; GFX10-NEXT:    v_and_b32_e32 v19, 0xffff0000, v19
 ; GFX10-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GFX10-NEXT:    v_min_f32_e32 v2, v2, v18
-; GFX10-NEXT:    v_min_f32_e32 v18, v27, v48
+; GFX10-NEXT:    v_min_f32_e32 v18, v48, v23
 ; GFX10-NEXT:    v_min_f32_e32 v1, v1, v17
-; GFX10-NEXT:    v_min_f32_e32 v17, v26, v50
-; GFX10-NEXT:    v_min_f32_e32 v0, v0, v16
-; GFX10-NEXT:    v_or_b32_e32 v54, 0x400000, v39
-; GFX10-NEXT:    v_or_b32_e32 v64, 0x400000, v11
-; GFX10-NEXT:    v_or_b32_e32 v66, 0x400000, v49
-; GFX10-NEXT:    v_or_b32_e32 v68, 0x400000, v10
-; GFX10-NEXT:    v_cmp_u_f32_e64 s9, v39, v39
-; GFX10-NEXT:    v_add3_u32 v39, v53, v39, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s10, v11, v11
-; GFX10-NEXT:    v_add3_u32 v11, v55, v11, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s11, v49, v49
-; GFX10-NEXT:    v_add3_u32 v49, v65, v49, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s12, v10, v10
-; GFX10-NEXT:    v_add3_u32 v10, v67, v10, 0x7fff
+; GFX10-NEXT:    v_min_f32_e32 v17, v50, v22
+; GFX10-NEXT:    v_or_b32_e32 v22, 0x400000, v33
+; GFX10-NEXT:    v_bfe_u32 v23, v14, 16, 1
+; GFX10-NEXT:    v_add3_u32 v16, v16, v33, 0x7fff
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v33, v33
 ; GFX10-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
 ; GFX10-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GFX10-NEXT:    v_min_f32_e32 v33, v34, v33
-; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v20
-; GFX10-NEXT:    v_min_f32_e32 v14, v14, v30
-; GFX10-NEXT:    v_lshlrev_b32_e32 v30, 16, v4
-; GFX10-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
-; GFX10-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
+; GFX10-NEXT:    v_min_f32_e32 v4, v4, v20
+; GFX10-NEXT:    v_min_f32_e32 v20, v36, v25
 ; GFX10-NEXT:    v_min_f32_e32 v3, v3, v19
-; GFX10-NEXT:    v_min_f32_e32 v19, v28, v38
-; GFX10-NEXT:    v_bfe_u32 v38, v37, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v50, v12, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v39, v39, v54, s9
-; GFX10-NEXT:    v_bfe_u32 v54, v18, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v11, v11, v64, s10
-; GFX10-NEXT:    v_bfe_u32 v64, v1, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v49, v49, v66, s11
-; GFX10-NEXT:    v_bfe_u32 v66, v17, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v10, v10, v68, s12
-; GFX10-NEXT:    v_bfe_u32 v68, v0, 16, 1
-; GFX10-NEXT:    v_min_f32_e32 v51, v52, v51
+; GFX10-NEXT:    v_min_f32_e32 v19, v38, v24
+; GFX10-NEXT:    v_or_b32_e32 v24, 0x400000, v14
+; GFX10-NEXT:    v_bfe_u32 v25, v35, 16, 1
+; GFX10-NEXT:    v_add3_u32 v23, v23, v14, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v16, v16, v22, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v14, v14
 ; GFX10-NEXT:    v_min_f32_e32 v5, v5, v21
-; GFX10-NEXT:    v_min_f32_e32 v21, v30, v34
-; GFX10-NEXT:    v_min_f32_e32 v4, v4, v20
-; GFX10-NEXT:    v_min_f32_e32 v20, v29, v36
-; GFX10-NEXT:    v_bfe_u32 v16, v33, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v27, v14, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v29, v35, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v34, v13, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v48, 0x400000, v37
-; GFX10-NEXT:    v_or_b32_e32 v52, 0x400000, v12
-; GFX10-NEXT:    v_cmp_u_f32_e64 s7, v37, v37
-; GFX10-NEXT:    v_add3_u32 v37, v38, v37, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s8, v12, v12
-; GFX10-NEXT:    v_add3_u32 v12, v50, v12, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s10, v18, v18
-; GFX10-NEXT:    v_add3_u32 v54, v54, v18, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v18, 0x400000, v18
-; GFX10-NEXT:    v_cmp_u_f32_e64 s11, v1, v1
-; GFX10-NEXT:    v_add3_u32 v64, v64, v1, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v1, 0x400000, v1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s12, v17, v17
-; GFX10-NEXT:    v_add3_u32 v66, v66, v17, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v17, 0x400000, v17
-; GFX10-NEXT:    v_cmp_u_f32_e64 s22, v0, v0
-; GFX10-NEXT:    v_add3_u32 v68, v68, v0, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v0, 0x400000, v0
-; GFX10-NEXT:    v_or_b32_e32 v26, 0x400000, v33
-; GFX10-NEXT:    v_or_b32_e32 v28, 0x400000, v14
-; GFX10-NEXT:    v_or_b32_e32 v30, 0x400000, v35
-; GFX10-NEXT:    v_or_b32_e32 v36, 0x400000, v13
-; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v33, v33
-; GFX10-NEXT:    v_add3_u32 v16, v16, v33, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v33, v51, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v14, v14
-; GFX10-NEXT:    v_add3_u32 v14, v27, v14, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s5, v35, v35
-; GFX10-NEXT:    v_add3_u32 v29, v29, v35, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s6, v13, v13
-; GFX10-NEXT:    v_add3_u32 v13, v34, v13, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v24, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v37, v37, v48, s7
-; GFX10-NEXT:    v_bfe_u32 v48, v19, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v12, v12, v52, s8
-; GFX10-NEXT:    v_bfe_u32 v52, v2, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v18, v54, v18, s10
-; GFX10-NEXT:    v_cndmask_b32_e64 v17, v66, v17, s12
-; GFX10-NEXT:    v_cndmask_b32_e64 v0, v68, v0, s22
-; GFX10-NEXT:    v_cndmask_b32_e64 v1, v64, v1, s11
+; GFX10-NEXT:    v_min_f32_e32 v21, v51, v26
+; GFX10-NEXT:    v_or_b32_e32 v26, 0x400000, v35
+; GFX10-NEXT:    v_bfe_u32 v36, v13, 16, 1
+; GFX10-NEXT:    v_add3_u32 v25, v25, v35, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v23, v23, v24, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v35, v35
+; GFX10-NEXT:    v_or_b32_e32 v38, 0x400000, v13
+; GFX10-NEXT:    v_bfe_u32 v48, v37, 16, 1
+; GFX10-NEXT:    v_add3_u32 v36, v36, v13, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v50, 0x400000, v37
+; GFX10-NEXT:    v_cndmask_b32_e32 v25, v25, v26, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v13, v13
+; GFX10-NEXT:    v_bfe_u32 v51, v12, 16, 1
+; GFX10-NEXT:    v_add3_u32 v48, v48, v37, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v33, 0x400000, v12
+; GFX10-NEXT:    v_bfe_u32 v22, v39, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v36, v36, v38, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v37, v37
+; GFX10-NEXT:    v_add3_u32 v51, v51, v12, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v14, 0x400000, v39
+; GFX10-NEXT:    v_bfe_u32 v24, v11, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v39, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v48, v48, v50, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v12, v12
+; GFX10-NEXT:    v_or_b32_e32 v35, 0x400000, v11
+; GFX10-NEXT:    v_bfe_u32 v26, v49, 16, 1
+; GFX10-NEXT:    v_add3_u32 v24, v24, v11, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v13, 0x400000, v49
+; GFX10-NEXT:    v_cndmask_b32_e32 v33, v51, v33, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v39, v39
+; GFX10-NEXT:    v_bfe_u32 v38, v10, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v49, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v37, 0x400000, v10
+; GFX10-NEXT:    v_bfe_u32 v50, v34, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v14, v22, v14, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v11, v11
+; GFX10-NEXT:    v_add3_u32 v38, v38, v10, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v12, 0x400000, v34
+; GFX10-NEXT:    v_bfe_u32 v51, v9, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v34, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v24, v24, v35, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v49, v49
+; GFX10-NEXT:    v_or_b32_e32 v39, 0x400000, v9
+; GFX10-NEXT:    v_bfe_u32 v22, v30, 16, 1
+; GFX10-NEXT:    v_add3_u32 v51, v51, v9, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v11, 0x400000, v30
+; GFX10-NEXT:    v_cndmask_b32_e32 v13, v26, v13, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v10, v10
+; GFX10-NEXT:    v_bfe_u32 v35, v8, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v30, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v49, 0x400000, v8
+; GFX10-NEXT:    v_bfe_u32 v26, v29, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v37, v38, v37, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v34, v34
+; GFX10-NEXT:    v_add3_u32 v35, v35, v8, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v10, 0x400000, v29
+; GFX10-NEXT:    v_bfe_u32 v38, v7, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v29, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v12, v50, v12, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v9, v9
+; GFX10-NEXT:    v_or_b32_e32 v34, 0x400000, v7
+; GFX10-NEXT:    v_bfe_u32 v50, v28, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v7, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v9, 0x400000, v28
+; GFX10-NEXT:    v_cndmask_b32_e32 v39, v51, v39, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v30, v30
+; GFX10-NEXT:    v_bfe_u32 v51, v6, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v28, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v30, 0x400000, v6
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v31, 16, v15
+; GFX10-NEXT:    v_cndmask_b32_e32 v11, v22, v11, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v8, v8
+; GFX10-NEXT:    v_bfe_u32 v22, v27, 16, 1
+; GFX10-NEXT:    v_add3_u32 v51, v51, v6, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v8, 0x400000, v27
 ; GFX10-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
-; GFX10-NEXT:    v_or_b32_e32 v27, 0x400000, v51
-; GFX10-NEXT:    v_bfe_u32 v35, v9, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v38, v25, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v67, 0x400000, v24
-; GFX10-NEXT:    v_cmp_u_f32_e64 s13, v51, v51
-; GFX10-NEXT:    v_add3_u32 v33, v33, v51, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v51, v7, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s17, v24, v24
-; GFX10-NEXT:    v_add3_u32 v24, v65, v24, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v6, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e32 v16, v16, v26, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v35, v35, v49, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v29, v29
+; GFX10-NEXT:    v_bfe_u32 v49, v5, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v27, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v29, 0x400000, v5
+; GFX10-NEXT:    v_cndmask_b32_e32 v10, v26, v10, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v7, v7
 ; GFX10-NEXT:    v_bfe_u32 v26, v21, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v14, v14, v28, s4
-; GFX10-NEXT:    v_bfe_u32 v28, v4, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v29, v29, v30, s5
-; GFX10-NEXT:    v_bfe_u32 v30, v20, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v13, v13, v36, s6
-; GFX10-NEXT:    v_bfe_u32 v36, v3, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s8, v19, v19
-; GFX10-NEXT:    v_add3_u32 v48, v48, v19, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v19
-; GFX10-NEXT:    v_cmp_u_f32_e64 s9, v2, v2
-; GFX10-NEXT:    v_add3_u32 v52, v52, v2, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v2, 0x400000, v2
-; GFX10-NEXT:    v_perm_b32 v0, v0, v17, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v1, v1, v18, 0x7060302
-; GFX10-NEXT:    v_or_b32_e32 v34, 0x400000, v9
-; GFX10-NEXT:    v_or_b32_e32 v50, 0x400000, v25
-; GFX10-NEXT:    v_bfe_u32 v53, v8, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s14, v9, v9
-; GFX10-NEXT:    v_add3_u32 v9, v35, v9, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v35, 0x400000, v7
-; GFX10-NEXT:    v_cmp_u_f32_e64 s15, v25, v25
-; GFX10-NEXT:    v_add3_u32 v25, v38, v25, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v38, v23, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s18, v7, v7
-; GFX10-NEXT:    v_add3_u32 v7, v51, v7, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v51, 0x400000, v6
-; GFX10-NEXT:    v_cmp_u_f32_e64 s20, v6, v6
-; GFX10-NEXT:    v_add3_u32 v6, v65, v6, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v5, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v21, v21
+; GFX10-NEXT:    v_add3_u32 v49, v49, v5, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v7, 0x400000, v21
+; GFX10-NEXT:    v_cndmask_b32_e32 v34, v38, v34, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v28, v28
+; GFX10-NEXT:    v_bfe_u32 v38, v4, 16, 1
 ; GFX10-NEXT:    v_add3_u32 v26, v26, v21, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v21
-; GFX10-NEXT:    v_cmp_u_f32_e64 s5, v4, v4
-; GFX10-NEXT:    v_add3_u32 v28, v28, v4, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v4, 0x400000, v4
-; GFX10-NEXT:    v_cmp_u_f32_e64 s6, v20, v20
-; GFX10-NEXT:    v_add3_u32 v30, v30, v20, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v20
-; GFX10-NEXT:    v_cmp_u_f32_e64 s7, v3, v3
-; GFX10-NEXT:    v_add3_u32 v36, v36, v3, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v3, 0x400000, v3
-; GFX10-NEXT:    v_cndmask_b32_e64 v19, v48, v19, s8
-; GFX10-NEXT:    v_cndmask_b32_e64 v2, v52, v2, s9
-; GFX10-NEXT:    v_or_b32_e32 v55, 0x400000, v8
-; GFX10-NEXT:    v_cmp_u_f32_e64 s16, v8, v8
-; GFX10-NEXT:    v_add3_u32 v8, v53, v8, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v53, 0x400000, v23
-; GFX10-NEXT:    v_cmp_u_f32_e64 s19, v23, v23
-; GFX10-NEXT:    v_add3_u32 v23, v38, v23, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v38, v22, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v28, 0x400000, v4
+; GFX10-NEXT:    v_cndmask_b32_e32 v9, v50, v9, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v6, v6
+; GFX10-NEXT:    v_bfe_u32 v50, v20, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v4, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v6, 0x400000, v20
+; GFX10-NEXT:    v_cndmask_b32_e32 v30, v51, v30, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v27, v27
+; GFX10-NEXT:    v_add3_u32 v50, v50, v20, 0x7fff
+; GFX10-NEXT:    v_bfe_u32 v51, v3, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v27, 0x400000, v3
+; GFX10-NEXT:    v_cndmask_b32_e32 v8, v22, v8, vcc_lo
 ; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v5, v5
-; GFX10-NEXT:    v_add3_u32 v65, v65, v5, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v5, 0x400000, v5
-; GFX10-NEXT:    v_cndmask_b32_e64 v21, v26, v21, s4
-; GFX10-NEXT:    v_cndmask_b32_e64 v4, v28, v4, s5
-; GFX10-NEXT:    v_cndmask_b32_e64 v20, v30, v20, s6
-; GFX10-NEXT:    v_cndmask_b32_e64 v3, v36, v3, s7
-; GFX10-NEXT:    v_perm_b32 v2, v2, v19, 0x7060302
-; GFX10-NEXT:    v_cmp_u_f32_e64 s21, v22, v22
-; GFX10-NEXT:    v_add3_u32 v38, v38, v22, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v22, 0x400000, v22
-; GFX10-NEXT:    v_cndmask_b32_e32 v5, v65, v5, vcc_lo
-; GFX10-NEXT:    v_perm_b32 v3, v3, v20, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v4, v4, v21, 0x7060302
-; GFX10-NEXT:    v_cndmask_b32_e64 v27, v33, v27, s13
-; GFX10-NEXT:    v_cndmask_b32_e64 v9, v9, v34, s14
-; GFX10-NEXT:    v_cndmask_b32_e64 v25, v25, v50, s15
-; GFX10-NEXT:    v_cndmask_b32_e64 v8, v8, v55, s16
-; GFX10-NEXT:    v_cndmask_b32_e64 v24, v24, v67, s17
-; GFX10-NEXT:    v_cndmask_b32_e64 v7, v7, v35, s18
-; GFX10-NEXT:    v_cndmask_b32_e64 v23, v23, v53, s19
-; GFX10-NEXT:    v_cndmask_b32_e64 v6, v6, v51, s20
-; GFX10-NEXT:    v_cndmask_b32_e64 v22, v38, v22, s21
-; GFX10-NEXT:    v_perm_b32 v8, v8, v25, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v7, v7, v24, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v9, v9, v27, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v6, v6, v23, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v5, v5, v22, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v10, v10, v49, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v11, v11, v39, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v12, v12, v37, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v13, v13, v29, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v14, v14, v16, 0x7060302
+; GFX10-NEXT:    v_bfe_u32 v22, v19, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v5, 0x400000, v19
+; GFX10-NEXT:    v_add3_u32 v51, v51, v3, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v29, v49, v29, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v21, v21
+; GFX10-NEXT:    v_add3_u32 v22, v22, v19, 0x7fff
+; GFX10-NEXT:    v_bfe_u32 v49, v2, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v2
+; GFX10-NEXT:    v_cndmask_b32_e32 v7, v26, v7, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v4, v4
+; GFX10-NEXT:    v_bfe_u32 v26, v18, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v4, 0x400000, v18
+; GFX10-NEXT:    v_add3_u32 v49, v49, v2, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v28, v38, v28, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v20, v20
+; GFX10-NEXT:    v_bfe_u32 v38, v1, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v18, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v1
+; GFX10-NEXT:    v_cndmask_b32_e32 v6, v50, v6, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v19, v19
+; GFX10-NEXT:    v_bfe_u32 v50, v17, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v1, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v17
+; GFX10-NEXT:    v_cndmask_b32_e32 v5, v22, v5, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v18, v18
+; GFX10-NEXT:    v_bfe_u32 v22, v0, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v17, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v18, 0x400000, v0
+; GFX10-NEXT:    v_cndmask_b32_e32 v4, v26, v4, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v1, v1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v0, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v1, v38, v20, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v17, v17
+; GFX10-NEXT:    v_perm_b32 v1, v1, v4, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v17, v50, v19, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v0, v0
+; GFX10-NEXT:    v_perm_b32 v4, v28, v7, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v7, v34, v10, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v0, v22, v18, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v2, v2
+; GFX10-NEXT:    v_perm_b32 v0, v0, v17, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v2, v49, v21, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v3, v3
+; GFX10-NEXT:    v_perm_b32 v2, v2, v5, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v3, v51, v27, vcc_lo
+; GFX10-NEXT:    v_perm_b32 v5, v29, v8, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v8, v35, v11, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v3, v3, v6, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v6, v30, v9, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v9, v39, v12, 0x7060302
 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v17, 16, v32
 ; GFX10-NEXT:    v_and_b32_e32 v18, 0xffff0000, v32
 ; GFX10-NEXT:    v_min_f32_e32 v17, v31, v17
 ; GFX10-NEXT:    v_min_f32_e32 v15, v15, v18
-; GFX10-NEXT:    v_bfe_u32 v18, v17, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v19, v15, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v17
-; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v15
+; GFX10-NEXT:    v_bfe_u32 v10, v17, 16, 1
+; GFX10-NEXT:    v_bfe_u32 v11, v15, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v12, 0x400000, v17
 ; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v17, v17
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v15, v15
-; GFX10-NEXT:    v_add3_u32 v17, v18, v17, 0x7fff
-; GFX10-NEXT:    v_add3_u32 v15, v19, v15, 0x7fff
-; GFX10-NEXT:    v_cndmask_b32_e32 v17, v17, v20, vcc_lo
-; GFX10-NEXT:    v_cndmask_b32_e64 v15, v15, v21, s4
+; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v15
+; GFX10-NEXT:    v_add3_u32 v18, v10, v17, 0x7fff
+; GFX10-NEXT:    v_add3_u32 v11, v11, v15, 0x7fff
+; GFX10-NEXT:    v_perm_b32 v10, v37, v13, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v13, v36, v25, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v17, v18, v12, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v15, v15
+; GFX10-NEXT:    v_perm_b32 v12, v33, v48, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v15, v11, v19, vcc_lo
+; GFX10-NEXT:    v_perm_b32 v11, v24, v14, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v14, v23, v16, 0x7060302
 ; GFX10-NEXT:    v_perm_b32 v15, v15, v17, 0x7060302
 ; GFX10-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -22193,55 +22191,47 @@ define <16 x bfloat> @v_maxnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_max_f32_e32 v12, v12, v28
 ; GCN-NEXT:    v_mul_f32_e32 v11, 1.0, v11
 ; GCN-NEXT:    v_mul_f32_e32 v27, 1.0, v27
-; GCN-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
-; GCN-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
-; GCN-NEXT:    v_max_f32_e32 v11, v11, v27
 ; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GCN-NEXT:    v_mul_f32_e32 v26, 1.0, v26
-; GCN-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
-; GCN-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
-; GCN-NEXT:    v_max_f32_e32 v10, v10, v26
 ; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
 ; GCN-NEXT:    v_mul_f32_e32 v25, 1.0, v25
-; GCN-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
-; GCN-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
-; GCN-NEXT:    v_max_f32_e32 v9, v9, v25
 ; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
 ; GCN-NEXT:    v_mul_f32_e32 v24, 1.0, v24
-; GCN-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
-; GCN-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
-; GCN-NEXT:    v_max_f32_e32 v8, v8, v24
 ; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
 ; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v23
-; GCN-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
-; GCN-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GCN-NEXT:    v_max_f32_e32 v7, v7, v23
 ; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
-; GCN-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
-; GCN-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GCN-NEXT:    v_max_f32_e32 v6, v6, v22
 ; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
 ; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GCN-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
-; GCN-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GCN-NEXT:    v_max_f32_e32 v5, v5, v21
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
 ; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
+; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
+; GCN-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
+; GCN-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
+; GCN-NEXT:    v_max_f32_e32 v11, v11, v27
+; GCN-NEXT:    buffer_load_dword v27, off, s[0:3], s32
+; GCN-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
+; GCN-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
+; GCN-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
+; GCN-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
+; GCN-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
+; GCN-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
+; GCN-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
+; GCN-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
+; GCN-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
+; GCN-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
+; GCN-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
+; GCN-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
 ; GCN-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
 ; GCN-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
-; GCN-NEXT:    v_max_f32_e32 v4, v4, v20
-; GCN-NEXT:    buffer_load_dword v20, off, s[0:3], s32
-; GCN-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
 ; GCN-NEXT:    v_and_b32_e32 v19, 0xffff0000, v19
 ; GCN-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GCN-NEXT:    v_and_b32_e32 v18, 0xffff0000, v18
@@ -22250,6 +22240,14 @@ define <16 x bfloat> @v_maxnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
 ; GCN-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
 ; GCN-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GCN-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
+; GCN-NEXT:    v_max_f32_e32 v10, v10, v26
+; GCN-NEXT:    v_max_f32_e32 v9, v9, v25
+; GCN-NEXT:    v_max_f32_e32 v8, v8, v24
+; GCN-NEXT:    v_max_f32_e32 v7, v7, v23
+; GCN-NEXT:    v_max_f32_e32 v6, v6, v22
+; GCN-NEXT:    v_max_f32_e32 v5, v5, v21
+; GCN-NEXT:    v_max_f32_e32 v4, v4, v20
 ; GCN-NEXT:    v_max_f32_e32 v3, v3, v19
 ; GCN-NEXT:    v_max_f32_e32 v2, v2, v18
 ; GCN-NEXT:    v_max_f32_e32 v1, v1, v17
@@ -22269,7 +22267,7 @@ define <16 x bfloat> @v_maxnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GCN-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
 ; GCN-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v27
 ; GCN-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
 ; GCN-NEXT:    v_max_f32_e32 v15, v15, v16
 ; GCN-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
@@ -22279,20 +22277,22 @@ define <16 x bfloat> @v_maxnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-LABEL: v_maxnum_v16bf16:
 ; GFX7:       ; %bb.0:
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
+; GFX7-NEXT:    v_mul_f32_e32 v27, 1.0, v27
+; GFX7-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
+; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
+; GFX7-NEXT:    v_max_f32_e32 v11, v11, v27
+; GFX7-NEXT:    buffer_load_dword v27, off, s[0:3], s32
 ; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
 ; GFX7-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
 ; GFX7-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GFX7-NEXT:    v_max_f32_e32 v6, v6, v22
-; GFX7-NEXT:    buffer_load_dword v22, off, s[0:3], s32
 ; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v14
 ; GFX7-NEXT:    v_mul_f32_e32 v30, 1.0, v30
 ; GFX7-NEXT:    v_mul_f32_e32 v13, 1.0, v13
 ; GFX7-NEXT:    v_mul_f32_e32 v29, 1.0, v29
 ; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v12
 ; GFX7-NEXT:    v_mul_f32_e32 v28, 1.0, v28
-; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
-; GFX7-NEXT:    v_mul_f32_e32 v27, 1.0, v27
 ; GFX7-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GFX7-NEXT:    v_mul_f32_e32 v26, 1.0, v26
 ; GFX7-NEXT:    v_mul_f32_e32 v9, 1.0, v9
@@ -22303,25 +22303,24 @@ define <16 x bfloat> @v_maxnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_mul_f32_e32 v23, 1.0, v23
 ; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v15
 ; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
+; GFX7-NEXT:    v_max_f32_e32 v6, v6, v22
 ; GFX7-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
 ; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
 ; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
+; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
+; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
+; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
+; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GFX7-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
 ; GFX7-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
 ; GFX7-NEXT:    v_and_b32_e32 v29, 0xffff0000, v29
 ; GFX7-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
 ; GFX7-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
 ; GFX7-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
-; GFX7-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
-; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
 ; GFX7-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
 ; GFX7-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
 ; GFX7-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
@@ -22346,7 +22345,6 @@ define <16 x bfloat> @v_maxnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_max_f32_e32 v14, v14, v30
 ; GFX7-NEXT:    v_max_f32_e32 v13, v13, v29
 ; GFX7-NEXT:    v_max_f32_e32 v12, v12, v28
-; GFX7-NEXT:    v_max_f32_e32 v11, v11, v27
 ; GFX7-NEXT:    v_max_f32_e32 v10, v10, v26
 ; GFX7-NEXT:    v_max_f32_e32 v9, v9, v25
 ; GFX7-NEXT:    v_max_f32_e32 v8, v8, v24
@@ -22365,7 +22363,7 @@ define <16 x bfloat> @v_maxnum_v16bf16(<16 x bfloat> %a, <16 x bfloat> %b) {
 ; GFX7-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
 ; GFX7-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v27
 ; GFX7-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
 ; GFX7-NEXT:    v_max_f32_e32 v15, v15, v22
 ; GFX7-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
@@ -23823,10 +23821,10 @@ define <32 x bfloat> @v_maxnum_v32bf16(<32 x bfloat> %a, <32 x bfloat> %b) {
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v9, 16, v9
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
+; GFX8-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v16, 16, v30
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v13, 16, v13
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
-; GFX8-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
 ; GFX8-NEXT:    v_alignbit_b32 v0, v0, v17, 16
 ; GFX8-NEXT:    v_alignbit_b32 v1, v1, v18, 16
 ; GFX8-NEXT:    v_alignbit_b32 v2, v2, v19, 16
@@ -24129,278 +24127,278 @@ define <32 x bfloat> @v_maxnum_v32bf16(<32 x bfloat> %a, <32 x bfloat> %b) {
 ; GFX10:       ; %bb.0:
 ; GFX10-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX10-NEXT:    buffer_load_dword v32, off, s[0:3], s32
+; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v12
+; GFX10-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
+; GFX10-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v39, 16, v27
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v11
 ; GFX10-NEXT:    v_and_b32_e32 v27, 0xffff0000, v27
 ; GFX10-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v49, 16, v26
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v10
-; GFX10-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
-; GFX10-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
-; GFX10-NEXT:    v_lshlrev_b32_e32 v37, 16, v28
-; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v12
-; GFX10-NEXT:    v_and_b32_e32 v28, 0xffff0000, v28
-; GFX10-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
-; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v25
-; GFX10-NEXT:    v_lshlrev_b32_e32 v52, 16, v9
-; GFX10-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
-; GFX10-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
-; GFX10-NEXT:    v_lshlrev_b32_e32 v53, 16, v24
-; GFX10-NEXT:    v_lshlrev_b32_e32 v54, 16, v8
-; GFX10-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
-; GFX10-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
-; GFX10-NEXT:    v_lshlrev_b32_e32 v55, 16, v23
-; GFX10-NEXT:    v_lshlrev_b32_e32 v64, 16, v7
-; GFX10-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
-; GFX10-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GFX10-NEXT:    v_lshlrev_b32_e32 v65, 16, v22
-; GFX10-NEXT:    v_lshlrev_b32_e32 v66, 16, v6
-; GFX10-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
-; GFX10-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GFX10-NEXT:    v_lshlrev_b32_e32 v67, 16, v21
-; GFX10-NEXT:    v_lshlrev_b32_e32 v68, 16, v5
-; GFX10-NEXT:    v_max_f32_e32 v39, v48, v39
-; GFX10-NEXT:    v_max_f32_e32 v11, v11, v27
-; GFX10-NEXT:    v_max_f32_e32 v49, v50, v49
-; GFX10-NEXT:    v_max_f32_e32 v10, v10, v26
+; GFX10-NEXT:    v_lshlrev_b32_e32 v33, 16, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v14
+; GFX10-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
+; GFX10-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v35, 16, v29
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v13
 ; GFX10-NEXT:    v_and_b32_e32 v29, 0xffff0000, v29
 ; GFX10-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
-; GFX10-NEXT:    v_max_f32_e32 v37, v38, v37
-; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v18
 ; GFX10-NEXT:    v_max_f32_e32 v12, v12, v28
-; GFX10-NEXT:    v_lshlrev_b32_e32 v28, 16, v2
+; GFX10-NEXT:    v_lshlrev_b32_e32 v28, 16, v22
+; GFX10-NEXT:    v_max_f32_e32 v39, v48, v39
+; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v6
+; GFX10-NEXT:    v_and_b32_e32 v22, 0xffff0000, v22
+; GFX10-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
+; GFX10-NEXT:    v_max_f32_e32 v11, v11, v27
+; GFX10-NEXT:    v_lshlrev_b32_e32 v27, 16, v21
+; GFX10-NEXT:    v_max_f32_e32 v49, v50, v49
+; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v5
+; GFX10-NEXT:    v_max_f32_e32 v33, v34, v33
+; GFX10-NEXT:    v_max_f32_e32 v14, v14, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v30, 16, v24
+; GFX10-NEXT:    v_max_f32_e32 v35, v36, v35
+; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v8
+; GFX10-NEXT:    v_and_b32_e32 v24, 0xffff0000, v24
+; GFX10-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
+; GFX10-NEXT:    v_max_f32_e32 v13, v13, v29
+; GFX10-NEXT:    v_lshlrev_b32_e32 v29, 16, v23
+; GFX10-NEXT:    v_max_f32_e32 v37, v38, v37
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v7
+; GFX10-NEXT:    v_and_b32_e32 v23, 0xffff0000, v23
+; GFX10-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
+; GFX10-NEXT:    v_max_f32_e32 v6, v6, v22
+; GFX10-NEXT:    v_lshlrev_b32_e32 v22, 16, v16
+; GFX10-NEXT:    v_max_f32_e32 v27, v50, v27
+; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v0
+; GFX10-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
+; GFX10-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GFX10-NEXT:    v_and_b32_e32 v26, 0xffff0000, v26
+; GFX10-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
+; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v25
+; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v9
+; GFX10-NEXT:    v_and_b32_e32 v25, 0xffff0000, v25
+; GFX10-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
+; GFX10-NEXT:    v_max_f32_e32 v8, v8, v24
+; GFX10-NEXT:    v_lshlrev_b32_e32 v24, 16, v18
+; GFX10-NEXT:    v_max_f32_e32 v29, v38, v29
+; GFX10-NEXT:    v_lshlrev_b32_e32 v38, 16, v2
 ; GFX10-NEXT:    v_and_b32_e32 v18, 0xffff0000, v18
 ; GFX10-NEXT:    v_and_b32_e32 v2, 0xffff0000, v2
-; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v17
-; GFX10-NEXT:    v_lshlrev_b32_e32 v27, 16, v1
+; GFX10-NEXT:    v_max_f32_e32 v7, v7, v23
+; GFX10-NEXT:    v_lshlrev_b32_e32 v23, 16, v17
+; GFX10-NEXT:    v_max_f32_e32 v28, v48, v28
+; GFX10-NEXT:    v_lshlrev_b32_e32 v48, 16, v1
 ; GFX10-NEXT:    v_and_b32_e32 v17, 0xffff0000, v17
 ; GFX10-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
-; GFX10-NEXT:    v_lshlrev_b32_e32 v50, 16, v16
-; GFX10-NEXT:    v_lshlrev_b32_e32 v26, 16, v0
-; GFX10-NEXT:    v_and_b32_e32 v16, 0xffff0000, v16
-; GFX10-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GFX10-NEXT:    v_max_f32_e32 v0, v0, v16
+; GFX10-NEXT:    v_bfe_u32 v16, v33, 16, 1
+; GFX10-NEXT:    v_max_f32_e32 v10, v10, v26
+; GFX10-NEXT:    v_lshlrev_b32_e32 v26, 16, v20
+; GFX10-NEXT:    v_max_f32_e32 v34, v34, v51
+; GFX10-NEXT:    v_lshlrev_b32_e32 v51, 16, v4
+; GFX10-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
+; GFX10-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
 ; GFX10-NEXT:    v_max_f32_e32 v9, v9, v25
-; GFX10-NEXT:    v_max_f32_e32 v25, v54, v53
-; GFX10-NEXT:    v_max_f32_e32 v8, v8, v24
-; GFX10-NEXT:    v_max_f32_e32 v24, v64, v55
-; GFX10-NEXT:    v_max_f32_e32 v7, v7, v23
-; GFX10-NEXT:    v_max_f32_e32 v23, v66, v65
-; GFX10-NEXT:    v_max_f32_e32 v6, v6, v22
-; GFX10-NEXT:    v_max_f32_e32 v22, v68, v67
-; GFX10-NEXT:    v_bfe_u32 v53, v39, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v55, v11, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v65, v49, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v67, v10, 16, 1
-; GFX10-NEXT:    v_lshlrev_b32_e32 v33, 16, v30
-; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v14
-; GFX10-NEXT:    v_and_b32_e32 v30, 0xffff0000, v30
-; GFX10-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
-; GFX10-NEXT:    v_max_f32_e32 v35, v36, v35
-; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v19
-; GFX10-NEXT:    v_max_f32_e32 v13, v13, v29
-; GFX10-NEXT:    v_lshlrev_b32_e32 v29, 16, v3
+; GFX10-NEXT:    v_lshlrev_b32_e32 v25, 16, v19
+; GFX10-NEXT:    v_max_f32_e32 v30, v36, v30
+; GFX10-NEXT:    v_lshlrev_b32_e32 v36, 16, v3
 ; GFX10-NEXT:    v_and_b32_e32 v19, 0xffff0000, v19
 ; GFX10-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GFX10-NEXT:    v_max_f32_e32 v2, v2, v18
-; GFX10-NEXT:    v_max_f32_e32 v18, v27, v48
+; GFX10-NEXT:    v_max_f32_e32 v18, v48, v23
 ; GFX10-NEXT:    v_max_f32_e32 v1, v1, v17
-; GFX10-NEXT:    v_max_f32_e32 v17, v26, v50
-; GFX10-NEXT:    v_max_f32_e32 v0, v0, v16
-; GFX10-NEXT:    v_or_b32_e32 v54, 0x400000, v39
-; GFX10-NEXT:    v_or_b32_e32 v64, 0x400000, v11
-; GFX10-NEXT:    v_or_b32_e32 v66, 0x400000, v49
-; GFX10-NEXT:    v_or_b32_e32 v68, 0x400000, v10
-; GFX10-NEXT:    v_cmp_u_f32_e64 s9, v39, v39
-; GFX10-NEXT:    v_add3_u32 v39, v53, v39, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s10, v11, v11
-; GFX10-NEXT:    v_add3_u32 v11, v55, v11, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s11, v49, v49
-; GFX10-NEXT:    v_add3_u32 v49, v65, v49, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s12, v10, v10
-; GFX10-NEXT:    v_add3_u32 v10, v67, v10, 0x7fff
+; GFX10-NEXT:    v_max_f32_e32 v17, v50, v22
+; GFX10-NEXT:    v_or_b32_e32 v22, 0x400000, v33
+; GFX10-NEXT:    v_bfe_u32 v23, v14, 16, 1
+; GFX10-NEXT:    v_add3_u32 v16, v16, v33, 0x7fff
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v33, v33
 ; GFX10-NEXT:    v_and_b32_e32 v21, 0xffff0000, v21
 ; GFX10-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GFX10-NEXT:    v_max_f32_e32 v33, v34, v33
-; GFX10-NEXT:    v_lshlrev_b32_e32 v34, 16, v20
-; GFX10-NEXT:    v_max_f32_e32 v14, v14, v30
-; GFX10-NEXT:    v_lshlrev_b32_e32 v30, 16, v4
-; GFX10-NEXT:    v_and_b32_e32 v20, 0xffff0000, v20
-; GFX10-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
+; GFX10-NEXT:    v_max_f32_e32 v4, v4, v20
+; GFX10-NEXT:    v_max_f32_e32 v20, v36, v25
 ; GFX10-NEXT:    v_max_f32_e32 v3, v3, v19
-; GFX10-NEXT:    v_max_f32_e32 v19, v28, v38
-; GFX10-NEXT:    v_bfe_u32 v38, v37, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v50, v12, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v39, v39, v54, s9
-; GFX10-NEXT:    v_bfe_u32 v54, v18, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v11, v11, v64, s10
-; GFX10-NEXT:    v_bfe_u32 v64, v1, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v49, v49, v66, s11
-; GFX10-NEXT:    v_bfe_u32 v66, v17, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v10, v10, v68, s12
-; GFX10-NEXT:    v_bfe_u32 v68, v0, 16, 1
-; GFX10-NEXT:    v_max_f32_e32 v51, v52, v51
+; GFX10-NEXT:    v_max_f32_e32 v19, v38, v24
+; GFX10-NEXT:    v_or_b32_e32 v24, 0x400000, v14
+; GFX10-NEXT:    v_bfe_u32 v25, v35, 16, 1
+; GFX10-NEXT:    v_add3_u32 v23, v23, v14, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v16, v16, v22, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v14, v14
 ; GFX10-NEXT:    v_max_f32_e32 v5, v5, v21
-; GFX10-NEXT:    v_max_f32_e32 v21, v30, v34
-; GFX10-NEXT:    v_max_f32_e32 v4, v4, v20
-; GFX10-NEXT:    v_max_f32_e32 v20, v29, v36
-; GFX10-NEXT:    v_bfe_u32 v16, v33, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v27, v14, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v29, v35, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v34, v13, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v48, 0x400000, v37
-; GFX10-NEXT:    v_or_b32_e32 v52, 0x400000, v12
-; GFX10-NEXT:    v_cmp_u_f32_e64 s7, v37, v37
-; GFX10-NEXT:    v_add3_u32 v37, v38, v37, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s8, v12, v12
-; GFX10-NEXT:    v_add3_u32 v12, v50, v12, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s10, v18, v18
-; GFX10-NEXT:    v_add3_u32 v54, v54, v18, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v18, 0x400000, v18
-; GFX10-NEXT:    v_cmp_u_f32_e64 s11, v1, v1
-; GFX10-NEXT:    v_add3_u32 v64, v64, v1, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v1, 0x400000, v1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s12, v17, v17
-; GFX10-NEXT:    v_add3_u32 v66, v66, v17, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v17, 0x400000, v17
-; GFX10-NEXT:    v_cmp_u_f32_e64 s22, v0, v0
-; GFX10-NEXT:    v_add3_u32 v68, v68, v0, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v0, 0x400000, v0
-; GFX10-NEXT:    v_or_b32_e32 v26, 0x400000, v33
-; GFX10-NEXT:    v_or_b32_e32 v28, 0x400000, v14
-; GFX10-NEXT:    v_or_b32_e32 v30, 0x400000, v35
-; GFX10-NEXT:    v_or_b32_e32 v36, 0x400000, v13
-; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v33, v33
-; GFX10-NEXT:    v_add3_u32 v16, v16, v33, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v33, v51, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v14, v14
-; GFX10-NEXT:    v_add3_u32 v14, v27, v14, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s5, v35, v35
-; GFX10-NEXT:    v_add3_u32 v29, v29, v35, 0x7fff
-; GFX10-NEXT:    v_cmp_u_f32_e64 s6, v13, v13
-; GFX10-NEXT:    v_add3_u32 v13, v34, v13, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v24, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v37, v37, v48, s7
-; GFX10-NEXT:    v_bfe_u32 v48, v19, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v12, v12, v52, s8
-; GFX10-NEXT:    v_bfe_u32 v52, v2, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v18, v54, v18, s10
-; GFX10-NEXT:    v_cndmask_b32_e64 v17, v66, v17, s12
-; GFX10-NEXT:    v_cndmask_b32_e64 v0, v68, v0, s22
-; GFX10-NEXT:    v_cndmask_b32_e64 v1, v64, v1, s11
+; GFX10-NEXT:    v_max_f32_e32 v21, v51, v26
+; GFX10-NEXT:    v_or_b32_e32 v26, 0x400000, v35
+; GFX10-NEXT:    v_bfe_u32 v36, v13, 16, 1
+; GFX10-NEXT:    v_add3_u32 v25, v25, v35, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v23, v23, v24, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v35, v35
+; GFX10-NEXT:    v_or_b32_e32 v38, 0x400000, v13
+; GFX10-NEXT:    v_bfe_u32 v48, v37, 16, 1
+; GFX10-NEXT:    v_add3_u32 v36, v36, v13, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v50, 0x400000, v37
+; GFX10-NEXT:    v_cndmask_b32_e32 v25, v25, v26, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v13, v13
+; GFX10-NEXT:    v_bfe_u32 v51, v12, 16, 1
+; GFX10-NEXT:    v_add3_u32 v48, v48, v37, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v33, 0x400000, v12
+; GFX10-NEXT:    v_bfe_u32 v22, v39, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v36, v36, v38, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v37, v37
+; GFX10-NEXT:    v_add3_u32 v51, v51, v12, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v14, 0x400000, v39
+; GFX10-NEXT:    v_bfe_u32 v24, v11, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v39, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v48, v48, v50, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v12, v12
+; GFX10-NEXT:    v_or_b32_e32 v35, 0x400000, v11
+; GFX10-NEXT:    v_bfe_u32 v26, v49, 16, 1
+; GFX10-NEXT:    v_add3_u32 v24, v24, v11, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v13, 0x400000, v49
+; GFX10-NEXT:    v_cndmask_b32_e32 v33, v51, v33, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v39, v39
+; GFX10-NEXT:    v_bfe_u32 v38, v10, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v49, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v37, 0x400000, v10
+; GFX10-NEXT:    v_bfe_u32 v50, v34, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v14, v22, v14, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v11, v11
+; GFX10-NEXT:    v_add3_u32 v38, v38, v10, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v12, 0x400000, v34
+; GFX10-NEXT:    v_bfe_u32 v51, v9, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v34, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v24, v24, v35, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v49, v49
+; GFX10-NEXT:    v_or_b32_e32 v39, 0x400000, v9
+; GFX10-NEXT:    v_bfe_u32 v22, v30, 16, 1
+; GFX10-NEXT:    v_add3_u32 v51, v51, v9, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v11, 0x400000, v30
+; GFX10-NEXT:    v_cndmask_b32_e32 v13, v26, v13, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v10, v10
+; GFX10-NEXT:    v_bfe_u32 v35, v8, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v30, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v49, 0x400000, v8
+; GFX10-NEXT:    v_bfe_u32 v26, v29, 16, 1
+; GFX10-NEXT:    v_cndmask_b32_e32 v37, v38, v37, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v34, v34
+; GFX10-NEXT:    v_add3_u32 v35, v35, v8, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v10, 0x400000, v29
+; GFX10-NEXT:    v_bfe_u32 v38, v7, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v29, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v12, v50, v12, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v9, v9
+; GFX10-NEXT:    v_or_b32_e32 v34, 0x400000, v7
+; GFX10-NEXT:    v_bfe_u32 v50, v28, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v7, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v9, 0x400000, v28
+; GFX10-NEXT:    v_cndmask_b32_e32 v39, v51, v39, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v30, v30
+; GFX10-NEXT:    v_bfe_u32 v51, v6, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v28, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v30, 0x400000, v6
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v31, 16, v15
+; GFX10-NEXT:    v_cndmask_b32_e32 v11, v22, v11, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v8, v8
+; GFX10-NEXT:    v_bfe_u32 v22, v27, 16, 1
+; GFX10-NEXT:    v_add3_u32 v51, v51, v6, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v8, 0x400000, v27
 ; GFX10-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
-; GFX10-NEXT:    v_or_b32_e32 v27, 0x400000, v51
-; GFX10-NEXT:    v_bfe_u32 v35, v9, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v38, v25, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v67, 0x400000, v24
-; GFX10-NEXT:    v_cmp_u_f32_e64 s13, v51, v51
-; GFX10-NEXT:    v_add3_u32 v33, v33, v51, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v51, v7, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s17, v24, v24
-; GFX10-NEXT:    v_add3_u32 v24, v65, v24, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v6, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e32 v16, v16, v26, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v35, v35, v49, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v29, v29
+; GFX10-NEXT:    v_bfe_u32 v49, v5, 16, 1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v27, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v29, 0x400000, v5
+; GFX10-NEXT:    v_cndmask_b32_e32 v10, v26, v10, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v7, v7
 ; GFX10-NEXT:    v_bfe_u32 v26, v21, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v14, v14, v28, s4
-; GFX10-NEXT:    v_bfe_u32 v28, v4, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v29, v29, v30, s5
-; GFX10-NEXT:    v_bfe_u32 v30, v20, 16, 1
-; GFX10-NEXT:    v_cndmask_b32_e64 v13, v13, v36, s6
-; GFX10-NEXT:    v_bfe_u32 v36, v3, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s8, v19, v19
-; GFX10-NEXT:    v_add3_u32 v48, v48, v19, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v19
-; GFX10-NEXT:    v_cmp_u_f32_e64 s9, v2, v2
-; GFX10-NEXT:    v_add3_u32 v52, v52, v2, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v2, 0x400000, v2
-; GFX10-NEXT:    v_perm_b32 v0, v0, v17, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v1, v1, v18, 0x7060302
-; GFX10-NEXT:    v_or_b32_e32 v34, 0x400000, v9
-; GFX10-NEXT:    v_or_b32_e32 v50, 0x400000, v25
-; GFX10-NEXT:    v_bfe_u32 v53, v8, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s14, v9, v9
-; GFX10-NEXT:    v_add3_u32 v9, v35, v9, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v35, 0x400000, v7
-; GFX10-NEXT:    v_cmp_u_f32_e64 s15, v25, v25
-; GFX10-NEXT:    v_add3_u32 v25, v38, v25, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v38, v23, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s18, v7, v7
-; GFX10-NEXT:    v_add3_u32 v7, v51, v7, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v51, 0x400000, v6
-; GFX10-NEXT:    v_cmp_u_f32_e64 s20, v6, v6
-; GFX10-NEXT:    v_add3_u32 v6, v65, v6, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v65, v5, 16, 1
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v21, v21
+; GFX10-NEXT:    v_add3_u32 v49, v49, v5, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v7, 0x400000, v21
+; GFX10-NEXT:    v_cndmask_b32_e32 v34, v38, v34, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v28, v28
+; GFX10-NEXT:    v_bfe_u32 v38, v4, 16, 1
 ; GFX10-NEXT:    v_add3_u32 v26, v26, v21, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v21
-; GFX10-NEXT:    v_cmp_u_f32_e64 s5, v4, v4
-; GFX10-NEXT:    v_add3_u32 v28, v28, v4, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v4, 0x400000, v4
-; GFX10-NEXT:    v_cmp_u_f32_e64 s6, v20, v20
-; GFX10-NEXT:    v_add3_u32 v30, v30, v20, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v20
-; GFX10-NEXT:    v_cmp_u_f32_e64 s7, v3, v3
-; GFX10-NEXT:    v_add3_u32 v36, v36, v3, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v3, 0x400000, v3
-; GFX10-NEXT:    v_cndmask_b32_e64 v19, v48, v19, s8
-; GFX10-NEXT:    v_cndmask_b32_e64 v2, v52, v2, s9
-; GFX10-NEXT:    v_or_b32_e32 v55, 0x400000, v8
-; GFX10-NEXT:    v_cmp_u_f32_e64 s16, v8, v8
-; GFX10-NEXT:    v_add3_u32 v8, v53, v8, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v53, 0x400000, v23
-; GFX10-NEXT:    v_cmp_u_f32_e64 s19, v23, v23
-; GFX10-NEXT:    v_add3_u32 v23, v38, v23, 0x7fff
-; GFX10-NEXT:    v_bfe_u32 v38, v22, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v28, 0x400000, v4
+; GFX10-NEXT:    v_cndmask_b32_e32 v9, v50, v9, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v6, v6
+; GFX10-NEXT:    v_bfe_u32 v50, v20, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v4, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v6, 0x400000, v20
+; GFX10-NEXT:    v_cndmask_b32_e32 v30, v51, v30, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v27, v27
+; GFX10-NEXT:    v_add3_u32 v50, v50, v20, 0x7fff
+; GFX10-NEXT:    v_bfe_u32 v51, v3, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v27, 0x400000, v3
+; GFX10-NEXT:    v_cndmask_b32_e32 v8, v22, v8, vcc_lo
 ; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v5, v5
-; GFX10-NEXT:    v_add3_u32 v65, v65, v5, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v5, 0x400000, v5
-; GFX10-NEXT:    v_cndmask_b32_e64 v21, v26, v21, s4
-; GFX10-NEXT:    v_cndmask_b32_e64 v4, v28, v4, s5
-; GFX10-NEXT:    v_cndmask_b32_e64 v20, v30, v20, s6
-; GFX10-NEXT:    v_cndmask_b32_e64 v3, v36, v3, s7
-; GFX10-NEXT:    v_perm_b32 v2, v2, v19, 0x7060302
-; GFX10-NEXT:    v_cmp_u_f32_e64 s21, v22, v22
-; GFX10-NEXT:    v_add3_u32 v38, v38, v22, 0x7fff
-; GFX10-NEXT:    v_or_b32_e32 v22, 0x400000, v22
-; GFX10-NEXT:    v_cndmask_b32_e32 v5, v65, v5, vcc_lo
-; GFX10-NEXT:    v_perm_b32 v3, v3, v20, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v4, v4, v21, 0x7060302
-; GFX10-NEXT:    v_cndmask_b32_e64 v27, v33, v27, s13
-; GFX10-NEXT:    v_cndmask_b32_e64 v9, v9, v34, s14
-; GFX10-NEXT:    v_cndmask_b32_e64 v25, v25, v50, s15
-; GFX10-NEXT:    v_cndmask_b32_e64 v8, v8, v55, s16
-; GFX10-NEXT:    v_cndmask_b32_e64 v24, v24, v67, s17
-; GFX10-NEXT:    v_cndmask_b32_e64 v7, v7, v35, s18
-; GFX10-NEXT:    v_cndmask_b32_e64 v23, v23, v53, s19
-; GFX10-NEXT:    v_cndmask_b32_e64 v6, v6, v51, s20
-; GFX10-NEXT:    v_cndmask_b32_e64 v22, v38, v22, s21
-; GFX10-NEXT:    v_perm_b32 v8, v8, v25, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v7, v7, v24, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v9, v9, v27, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v6, v6, v23, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v5, v5, v22, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v10, v10, v49, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v11, v11, v39, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v12, v12, v37, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v13, v13, v29, 0x7060302
-; GFX10-NEXT:    v_perm_b32 v14, v14, v16, 0x7060302
+; GFX10-NEXT:    v_bfe_u32 v22, v19, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v5, 0x400000, v19
+; GFX10-NEXT:    v_add3_u32 v51, v51, v3, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v29, v49, v29, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v21, v21
+; GFX10-NEXT:    v_add3_u32 v22, v22, v19, 0x7fff
+; GFX10-NEXT:    v_bfe_u32 v49, v2, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v2
+; GFX10-NEXT:    v_cndmask_b32_e32 v7, v26, v7, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v4, v4
+; GFX10-NEXT:    v_bfe_u32 v26, v18, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v4, 0x400000, v18
+; GFX10-NEXT:    v_add3_u32 v49, v49, v2, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v28, v38, v28, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v20, v20
+; GFX10-NEXT:    v_bfe_u32 v38, v1, 16, 1
+; GFX10-NEXT:    v_add3_u32 v26, v26, v18, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v1
+; GFX10-NEXT:    v_cndmask_b32_e32 v6, v50, v6, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v19, v19
+; GFX10-NEXT:    v_bfe_u32 v50, v17, 16, 1
+; GFX10-NEXT:    v_add3_u32 v38, v38, v1, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v17
+; GFX10-NEXT:    v_cndmask_b32_e32 v5, v22, v5, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v18, v18
+; GFX10-NEXT:    v_bfe_u32 v22, v0, 16, 1
+; GFX10-NEXT:    v_add3_u32 v50, v50, v17, 0x7fff
+; GFX10-NEXT:    v_or_b32_e32 v18, 0x400000, v0
+; GFX10-NEXT:    v_cndmask_b32_e32 v4, v26, v4, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v1, v1
+; GFX10-NEXT:    v_add3_u32 v22, v22, v0, 0x7fff
+; GFX10-NEXT:    v_cndmask_b32_e32 v1, v38, v20, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v17, v17
+; GFX10-NEXT:    v_perm_b32 v1, v1, v4, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v17, v50, v19, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v0, v0
+; GFX10-NEXT:    v_perm_b32 v4, v28, v7, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v7, v34, v10, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v0, v22, v18, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v2, v2
+; GFX10-NEXT:    v_perm_b32 v0, v0, v17, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v2, v49, v21, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v3, v3
+; GFX10-NEXT:    v_perm_b32 v2, v2, v5, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v3, v51, v27, vcc_lo
+; GFX10-NEXT:    v_perm_b32 v5, v29, v8, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v8, v35, v11, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v3, v3, v6, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v6, v30, v9, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v9, v39, v12, 0x7060302
 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 ; GFX10-NEXT:    v_lshlrev_b32_e32 v17, 16, v32
 ; GFX10-NEXT:    v_and_b32_e32 v18, 0xffff0000, v32
 ; GFX10-NEXT:    v_max_f32_e32 v17, v31, v17
 ; GFX10-NEXT:    v_max_f32_e32 v15, v15, v18
-; GFX10-NEXT:    v_bfe_u32 v18, v17, 16, 1
-; GFX10-NEXT:    v_bfe_u32 v19, v15, 16, 1
-; GFX10-NEXT:    v_or_b32_e32 v20, 0x400000, v17
-; GFX10-NEXT:    v_or_b32_e32 v21, 0x400000, v15
+; GFX10-NEXT:    v_bfe_u32 v10, v17, 16, 1
+; GFX10-NEXT:    v_bfe_u32 v11, v15, 16, 1
+; GFX10-NEXT:    v_or_b32_e32 v12, 0x400000, v17
 ; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v17, v17
-; GFX10-NEXT:    v_cmp_u_f32_e64 s4, v15, v15
-; GFX10-NEXT:    v_add3_u32 v17, v18, v17, 0x7fff
-; GFX10-NEXT:    v_add3_u32 v15, v19, v15, 0x7fff
-; GFX10-NEXT:    v_cndmask_b32_e32 v17, v17, v20, vcc_lo
-; GFX10-NEXT:    v_cndmask_b32_e64 v15, v15, v21, s4
+; GFX10-NEXT:    v_or_b32_e32 v19, 0x400000, v15
+; GFX10-NEXT:    v_add3_u32 v18, v10, v17, 0x7fff
+; GFX10-NEXT:    v_add3_u32 v11, v11, v15, 0x7fff
+; GFX10-NEXT:    v_perm_b32 v10, v37, v13, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v13, v36, v25, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v17, v18, v12, vcc_lo
+; GFX10-NEXT:    v_cmp_u_f32_e32 vcc_lo, v15, v15
+; GFX10-NEXT:    v_perm_b32 v12, v33, v48, 0x7060302
+; GFX10-NEXT:    v_cndmask_b32_e32 v15, v11, v19, vcc_lo
+; GFX10-NEXT:    v_perm_b32 v11, v24, v14, 0x7060302
+; GFX10-NEXT:    v_perm_b32 v14, v23, v16, 0x7060302
 ; GFX10-NEXT:    v_perm_b32 v15, v15, v17, 0x7060302
 ; GFX10-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -35701,81 +35699,81 @@ define <16 x bfloat> @v_select_v16bf16(i1 %cond, <16 x bfloat> %a, <16 x bfloat>
 ; GCN-LABEL: v_select_v16bf16:
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GCN-NEXT:    v_and_b32_e32 v0, 1, v0
-; GCN-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v0
-; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v2
+; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
 ; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GCN-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
-; GCN-NEXT:    v_alignbit_b32 v0, v0, v1, 16
-; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v18
-; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v17
-; GCN-NEXT:    v_lshrrev_b32_e32 v1, 16, v1
-; GCN-NEXT:    v_alignbit_b32 v1, v1, v2, 16
-; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v4
-; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
 ; GCN-NEXT:    v_lshrrev_b32_e32 v2, 16, v2
-; GCN-NEXT:    v_alignbit_b32 v2, v2, v3, 16
-; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v20
-; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v19
-; GCN-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
-; GCN-NEXT:    v_alignbit_b32 v3, v3, v4, 16
-; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v6
-; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
+; GCN-NEXT:    v_alignbit_b32 v1, v2, v1, 16
+; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v18
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
+; GCN-NEXT:    v_lshrrev_b32_e32 v2, 16, v2
+; GCN-NEXT:    v_alignbit_b32 v2, v2, v17, 16
+; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v4
+; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v3
 ; GCN-NEXT:    v_lshrrev_b32_e32 v4, 16, v4
-; GCN-NEXT:    v_alignbit_b32 v4, v4, v5, 16
-; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v22
-; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v21
-; GCN-NEXT:    v_lshrrev_b32_e32 v5, 16, v5
-; GCN-NEXT:    v_alignbit_b32 v5, v5, v6, 16
-; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v8
+; GCN-NEXT:    v_alignbit_b32 v3, v4, v3, 16
+; GCN-NEXT:    v_and_b32_e32 v0, 1, v0
+; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v20
+; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v19
+; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v6
+; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
+; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v22
+; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v21
+; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
 ; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v7
-; GCN-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GCN-NEXT:    v_alignbit_b32 v6, v6, v7, 16
-; GCN-NEXT:    v_mul_f32_e32 v7, 1.0, v24
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v23
-; GCN-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
-; GCN-NEXT:    v_alignbit_b32 v7, v7, v8, 16
-; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v10
+; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v24
+; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v23
+; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
-; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GCN-NEXT:    v_alignbit_b32 v8, v8, v9, 16
-; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v26
-; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v25
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v26
+; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v25
 ; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v12
 ; GCN-NEXT:    v_mul_f32_e32 v11, 1.0, v11
-; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v28
-; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v27
+; GCN-NEXT:    v_mul_f32_e32 v24, 1.0, v28
+; GCN-NEXT:    v_mul_f32_e32 v25, 1.0, v27
 ; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v14
 ; GCN-NEXT:    v_mul_f32_e32 v13, 1.0, v13
-; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v30
-; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v29
+; GCN-NEXT:    v_mul_f32_e32 v26, 1.0, v30
+; GCN-NEXT:    v_mul_f32_e32 v27, 1.0, v29
 ; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
-; GCN-NEXT:    v_lshrrev_b32_e32 v9, 16, v9
-; GCN-NEXT:    v_alignbit_b32 v9, v9, v10, 16
-; GCN-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:4
+; GCN-NEXT:    v_lshrrev_b32_e32 v4, 16, v4
+; GCN-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
+; GCN-NEXT:    v_alignbit_b32 v4, v4, v17, 16
+; GCN-NEXT:    v_alignbit_b32 v5, v6, v5, 16
+; GCN-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:4
+; GCN-NEXT:    buffer_load_dword v17, off, s[0:3], s32
+; GCN-NEXT:    v_lshrrev_b32_e32 v18, 16, v18
+; GCN-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
+; GCN-NEXT:    v_lshrrev_b32_e32 v20, 16, v20
+; GCN-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
+; GCN-NEXT:    v_lshrrev_b32_e32 v22, 16, v22
 ; GCN-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
-; GCN-NEXT:    v_alignbit_b32 v11, v12, v11, 16
-; GCN-NEXT:    buffer_load_dword v12, off, s[0:3], s32
-; GCN-NEXT:    v_lshrrev_b32_e32 v17, 16, v17
+; GCN-NEXT:    v_lshrrev_b32_e32 v24, 16, v24
 ; GCN-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GCN-NEXT:    v_lshrrev_b32_e32 v19, 16, v19
+; GCN-NEXT:    v_lshrrev_b32_e32 v26, 16, v26
 ; GCN-NEXT:    v_lshrrev_b32_e32 v16, 16, v16
-; GCN-NEXT:    v_alignbit_b32 v17, v17, v18, 16
+; GCN-NEXT:    v_alignbit_b32 v18, v18, v19, 16
+; GCN-NEXT:    v_alignbit_b32 v7, v8, v7, 16
+; GCN-NEXT:    v_alignbit_b32 v8, v20, v21, 16
+; GCN-NEXT:    v_alignbit_b32 v9, v10, v9, 16
+; GCN-NEXT:    v_alignbit_b32 v10, v22, v23, 16
+; GCN-NEXT:    v_alignbit_b32 v11, v12, v11, 16
+; GCN-NEXT:    v_alignbit_b32 v12, v24, v25, 16
 ; GCN-NEXT:    v_alignbit_b32 v13, v14, v13, 16
-; GCN-NEXT:    v_alignbit_b32 v14, v19, v20, 16
+; GCN-NEXT:    v_alignbit_b32 v14, v26, v27, 16
 ; GCN-NEXT:    v_alignbit_b32 v15, v16, v15, 16
+; GCN-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v0
 ; GCN-NEXT:    v_cndmask_b32_e32 v13, v14, v13, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v11, v17, v11, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v9, v9, v8, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v7, v7, v6, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v5, v5, v4, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v3, v3, v2, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v1, v1, v0, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v11, v12, v11, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v9, v10, v9, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v7, v8, v7, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v5, v18, v5, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v3, v4, v3, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v1, v2, v1, vcc
 ; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v10
+; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v6
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v12
+; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v17
 ; GCN-NEXT:    v_lshlrev_b32_e32 v0, 16, v1
 ; GCN-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
 ; GCN-NEXT:    v_lshlrev_b32_e32 v2, 16, v3
@@ -35808,67 +35806,67 @@ define <16 x bfloat> @v_select_v16bf16(i1 %cond, <16 x bfloat> %a, <16 x bfloat>
 ; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v18
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v4, 16, v4
 ; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v2, 16, v2
 ; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
 ; GFX7-NEXT:    v_alignbit_b32 v3, v4, v3, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v20
-; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
-; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
 ; GFX7-NEXT:    v_alignbit_b32 v2, v2, v17, 16
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v4, 16, v4
 ; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v19
+; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
+; GFX7-NEXT:    v_alignbit_b32 v4, v4, v17, 16
+; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
+; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
+; GFX7-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:4
 ; GFX7-NEXT:    v_alignbit_b32 v5, v6, v5, 16
-; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v22
+; GFX7-NEXT:    buffer_load_dword v6, off, s[0:3], s32
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v22
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
 ; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v7
 ; GFX7-NEXT:    v_mul_f32_e32 v10, 1.0, v10
-; GFX7-NEXT:    v_alignbit_b32 v4, v4, v17, 16
-; GFX7-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
-; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v21
+; GFX7-NEXT:    v_lshrrev_b32_e32 v18, 16, v18
+; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v21
 ; GFX7-NEXT:    v_alignbit_b32 v7, v8, v7, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v24
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
 ; GFX7-NEXT:    v_mul_f32_e32 v9, 1.0, v9
-; GFX7-NEXT:    v_alignbit_b32 v6, v6, v17, 16
+; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v12
+; GFX7-NEXT:    v_alignbit_b32 v18, v18, v19, 16
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v23
+; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v23
 ; GFX7-NEXT:    v_alignbit_b32 v9, v10, v9, 16
 ; GFX7-NEXT:    v_mul_f32_e32 v10, 1.0, v26
-; GFX7-NEXT:    v_alignbit_b32 v8, v8, v17, 16
-; GFX7-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
-; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v25
-; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v12
-; GFX7-NEXT:    v_alignbit_b32 v10, v10, v17, 16
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
 ; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
-; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v28
-; GFX7-NEXT:    v_alignbit_b32 v11, v12, v11, 16
-; GFX7-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:4
-; GFX7-NEXT:    v_lshrrev_b32_e32 v17, 16, v17
-; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v27
-; GFX7-NEXT:    v_alignbit_b32 v17, v17, v18, 16
-; GFX7-NEXT:    buffer_load_dword v18, off, s[0:3], s32
 ; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v14
+; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
+; GFX7-NEXT:    v_alignbit_b32 v8, v8, v19, 16
+; GFX7-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
+; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v25
+; GFX7-NEXT:    v_alignbit_b32 v11, v12, v11, 16
+; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v28
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
 ; GFX7-NEXT:    v_mul_f32_e32 v13, 1.0, v13
-; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GFX7-NEXT:    v_alignbit_b32 v13, v14, v13, 16
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v30
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v16, 16, v16
 ; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v15
+; GFX7-NEXT:    v_alignbit_b32 v10, v10, v19, 16
+; GFX7-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
+; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v27
+; GFX7-NEXT:    v_alignbit_b32 v13, v14, v13, 16
+; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v30
+; GFX7-NEXT:    v_alignbit_b32 v15, v16, v15, 16
+; GFX7-NEXT:    v_alignbit_b32 v12, v12, v19, 16
 ; GFX7-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
 ; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v29
-; GFX7-NEXT:    v_alignbit_b32 v15, v16, v15, 16
 ; GFX7-NEXT:    v_and_b32_e32 v0, 1, v0
 ; GFX7-NEXT:    v_alignbit_b32 v14, v14, v19, 16
 ; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v0
 ; GFX7-NEXT:    v_cndmask_b32_e32 v13, v14, v13, vcc
-; GFX7-NEXT:    v_cndmask_b32_e32 v11, v17, v11, vcc
+; GFX7-NEXT:    v_cndmask_b32_e32 v11, v12, v11, vcc
 ; GFX7-NEXT:    v_cndmask_b32_e32 v9, v10, v9, vcc
 ; GFX7-NEXT:    v_cndmask_b32_e32 v7, v8, v7, vcc
-; GFX7-NEXT:    v_cndmask_b32_e32 v5, v6, v5, vcc
+; GFX7-NEXT:    v_cndmask_b32_e32 v5, v18, v5, vcc
 ; GFX7-NEXT:    v_cndmask_b32_e32 v3, v4, v3, vcc
 ; GFX7-NEXT:    v_cndmask_b32_e32 v1, v2, v1, vcc
 ; GFX7-NEXT:    v_lshlrev_b32_e32 v0, 16, v1
@@ -35877,21 +35875,21 @@ define <16 x bfloat> @v_select_v16bf16(i1 %cond, <16 x bfloat> %a, <16 x bfloat>
 ; GFX7-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GFX7-NEXT:    v_lshlrev_b32_e32 v4, 16, v5
 ; GFX7-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GFX7-NEXT:    v_lshlrev_b32_e32 v6, 16, v7
-; GFX7-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
 ; GFX7-NEXT:    v_lshlrev_b32_e32 v8, 16, v9
 ; GFX7-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
 ; GFX7-NEXT:    v_lshlrev_b32_e32 v10, 16, v11
 ; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
-; GFX7-NEXT:    s_waitcnt vmcnt(1)
-; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v12
-; GFX7-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
-; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v18
-; GFX7-NEXT:    v_alignbit_b32 v12, v12, v16, 16
-; GFX7-NEXT:    v_cndmask_b32_e32 v15, v12, v15, vcc
 ; GFX7-NEXT:    v_lshlrev_b32_e32 v12, 16, v13
 ; GFX7-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v17
+; GFX7-NEXT:    v_lshrrev_b32_e32 v16, 16, v16
+; GFX7-NEXT:    s_waitcnt vmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v6
+; GFX7-NEXT:    v_alignbit_b32 v6, v16, v6, 16
+; GFX7-NEXT:    v_cndmask_b32_e32 v15, v6, v15, vcc
+; GFX7-NEXT:    v_lshlrev_b32_e32 v6, 16, v7
+; GFX7-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
 ; GFX7-NEXT:    v_lshlrev_b32_e32 v14, 16, v15
 ; GFX7-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
 ; GFX7-NEXT:    s_setpc_b64 s[30:31]
@@ -37187,30 +37185,30 @@ define <8 x bfloat> @v_vselect_v8bf16(<8 x i1> %cond, <8 x bfloat> %a, <8 x bflo
 ; GCN-LABEL: v_vselect_v8bf16:
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GCN-NEXT:    v_and_b32_e32 v7, 1, v7
+; GCN-NEXT:    v_and_b32_e32 v6, 1, v6
+; GCN-NEXT:    v_and_b32_e32 v5, 1, v5
+; GCN-NEXT:    v_and_b32_e32 v4, 1, v4
+; GCN-NEXT:    v_and_b32_e32 v3, 1, v3
+; GCN-NEXT:    v_and_b32_e32 v2, 1, v2
+; GCN-NEXT:    v_and_b32_e32 v1, 1, v1
+; GCN-NEXT:    v_and_b32_e32 v0, 1, v0
+; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
+; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v23
+; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v14
+; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GCN-NEXT:    v_mul_f32_e32 v13, 1.0, v13
+; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v21
 ; GCN-NEXT:    v_mul_f32_e32 v8, 1.0, v8
 ; GCN-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GCN-NEXT:    v_and_b32_e32 v0, 1, v0
 ; GCN-NEXT:    v_mul_f32_e32 v9, 1.0, v9
 ; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GCN-NEXT:    v_and_b32_e32 v1, 1, v1
 ; GCN-NEXT:    v_mul_f32_e32 v10, 1.0, v10
 ; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GCN-NEXT:    v_and_b32_e32 v2, 1, v2
 ; GCN-NEXT:    v_mul_f32_e32 v11, 1.0, v11
 ; GCN-NEXT:    v_mul_f32_e32 v19, 1.0, v19
-; GCN-NEXT:    v_and_b32_e32 v3, 1, v3
 ; GCN-NEXT:    v_mul_f32_e32 v12, 1.0, v12
 ; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v20
-; GCN-NEXT:    v_and_b32_e32 v4, 1, v4
-; GCN-NEXT:    v_mul_f32_e32 v13, 1.0, v13
-; GCN-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GCN-NEXT:    v_and_b32_e32 v5, 1, v5
-; GCN-NEXT:    v_mul_f32_e32 v14, 1.0, v14
-; GCN-NEXT:    v_mul_f32_e32 v22, 1.0, v22
-; GCN-NEXT:    v_and_b32_e32 v6, 1, v6
-; GCN-NEXT:    v_mul_f32_e32 v15, 1.0, v15
-; GCN-NEXT:    v_mul_f32_e32 v23, 1.0, v23
-; GCN-NEXT:    v_and_b32_e32 v7, 1, v7
 ; GCN-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v7
 ; GCN-NEXT:    v_cndmask_b32_e32 v7, v23, v15, vcc
 ; GCN-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v6
@@ -37241,45 +37239,45 @@ define <8 x bfloat> @v_vselect_v8bf16(<8 x i1> %cond, <8 x bfloat> %a, <8 x bflo
 ; GFX7:       ; %bb.0:
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX7-NEXT:    v_and_b32_e32 v7, 1, v7
-; GFX7-NEXT:    v_and_b32_e32 v6, 1, v6
 ; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v15
 ; GFX7-NEXT:    v_mul_f32_e32 v23, 1.0, v23
 ; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v7
-; GFX7-NEXT:    v_and_b32_e32 v5, 1, v5
-; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v14
-; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GFX7-NEXT:    v_and_b32_e32 v6, 1, v6
 ; GFX7-NEXT:    v_cndmask_b32_e32 v7, v23, v15, vcc
+; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v14
+; GFX7-NEXT:    v_mul_f32_e32 v15, 1.0, v22
 ; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v6
-; GFX7-NEXT:    v_and_b32_e32 v4, 1, v4
+; GFX7-NEXT:    v_and_b32_e32 v5, 1, v5
+; GFX7-NEXT:    v_cndmask_b32_e32 v6, v15, v14, vcc
 ; GFX7-NEXT:    v_mul_f32_e32 v13, 1.0, v13
-; GFX7-NEXT:    v_mul_f32_e32 v21, 1.0, v21
-; GFX7-NEXT:    v_cndmask_b32_e32 v6, v22, v14, vcc
+; GFX7-NEXT:    v_mul_f32_e32 v14, 1.0, v21
 ; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v5
-; GFX7-NEXT:    v_and_b32_e32 v3, 1, v3
+; GFX7-NEXT:    v_and_b32_e32 v4, 1, v4
+; GFX7-NEXT:    v_cndmask_b32_e32 v5, v14, v13, vcc
 ; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v12
-; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v20
-; GFX7-NEXT:    v_cndmask_b32_e32 v5, v21, v13, vcc
+; GFX7-NEXT:    v_mul_f32_e32 v13, 1.0, v20
 ; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v4
-; GFX7-NEXT:    v_and_b32_e32 v2, 1, v2
+; GFX7-NEXT:    v_and_b32_e32 v3, 1, v3
+; GFX7-NEXT:    v_cndmask_b32_e32 v4, v13, v12, vcc
 ; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v11
-; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
-; GFX7-NEXT:    v_cndmask_b32_e32 v4, v20, v12, vcc
+; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v19
 ; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v3
+; GFX7-NEXT:    v_and_b32_e32 v2, 1, v2
+; GFX7-NEXT:    v_cndmask_b32_e32 v3, v12, v11, vcc
 ; GFX7-NEXT:    v_and_b32_e32 v1, 1, v1
 ; GFX7-NEXT:    v_mul_f32_e32 v10, 1.0, v10
-; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GFX7-NEXT:    v_cndmask_b32_e32 v3, v19, v11, vcc
+; GFX7-NEXT:    v_mul_f32_e32 v13, 1.0, v18
 ; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v2
 ; GFX7-NEXT:    v_and_b32_e32 v0, 1, v0
 ; GFX7-NEXT:    v_mul_f32_e32 v9, 1.0, v9
-; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GFX7-NEXT:    v_cndmask_b32_e32 v2, v18, v10, vcc
+; GFX7-NEXT:    v_mul_f32_e32 v12, 1.0, v17
+; GFX7-NEXT:    v_cndmask_b32_e32 v2, v13, v10, vcc
 ; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v1
 ; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
-; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
-; GFX7-NEXT:    v_cndmask_b32_e32 v1, v17, v9, vcc
+; GFX7-NEXT:    v_mul_f32_e32 v11, 1.0, v16
+; GFX7-NEXT:    v_cndmask_b32_e32 v1, v12, v9, vcc
 ; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v0
-; GFX7-NEXT:    v_cndmask_b32_e32 v0, v16, v8, vcc
+; GFX7-NEXT:    v_cndmask_b32_e32 v0, v11, v8, vcc
 ; GFX7-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
 ; GFX7-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
 ; GFX7-NEXT:    v_and_b32_e32 v2, 0xffff0000, v2
@@ -37548,16 +37546,16 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GCN-NEXT:    v_mul_f32_e32 v0, 1.0, v16
 ; GCN-NEXT:    v_and_b32_e32 v1, 1, v10
 ; GCN-NEXT:    v_cmp_eq_u32_e64 s[22:23], 1, v1
-; GCN-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:4
+; GCN-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:4
 ; GCN-NEXT:    v_mul_f32_e32 v1, 1.0, v17
-; GCN-NEXT:    v_and_b32_e32 v3, 1, v11
-; GCN-NEXT:    v_cmp_eq_u32_e64 s[24:25], 1, v3
-; GCN-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:8
-; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v18
-; GCN-NEXT:    v_and_b32_e32 v5, 1, v12
-; GCN-NEXT:    v_cmp_eq_u32_e64 s[26:27], 1, v5
+; GCN-NEXT:    v_and_b32_e32 v2, 1, v11
+; GCN-NEXT:    v_cmp_eq_u32_e64 s[24:25], 1, v2
+; GCN-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:8
+; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v18
+; GCN-NEXT:    v_and_b32_e32 v3, 1, v12
+; GCN-NEXT:    v_cmp_eq_u32_e64 s[26:27], 1, v3
 ; GCN-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:12
-; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v19
+; GCN-NEXT:    v_mul_f32_e32 v3, 1.0, v19
 ; GCN-NEXT:    v_and_b32_e32 v7, 1, v13
 ; GCN-NEXT:    v_and_b32_e32 v8, 1, v14
 ; GCN-NEXT:    v_cmp_eq_u32_e64 s[28:29], 1, v7
@@ -37624,22 +37622,22 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GCN-NEXT:    v_mul_f32_e32 v17, 1.0, v17
 ; GCN-NEXT:    v_cndmask_b32_e64 v17, v17, v20, s[12:13]
 ; GCN-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:20
-; GCN-NEXT:    v_mul_f32_e32 v2, 1.0, v2
 ; GCN-NEXT:    v_mul_f32_e32 v4, 1.0, v4
+; GCN-NEXT:    v_mul_f32_e32 v5, 1.0, v5
 ; GCN-NEXT:    v_mul_f32_e32 v6, 1.0, v6
 ; GCN-NEXT:    s_waitcnt vmcnt(1)
 ; GCN-NEXT:    v_mul_f32_e32 v18, 1.0, v18
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
 ; GCN-NEXT:    v_mul_f32_e32 v20, 1.0, v20
 ; GCN-NEXT:    v_cndmask_b32_e64 v19, v20, v19, s[10:11]
-; GCN-NEXT:    v_cndmask_b32_e64 v5, v18, v5, s[8:9]
-; GCN-NEXT:    v_cndmask_b32_e64 v3, v6, v3, s[6:7]
-; GCN-NEXT:    v_cndmask_b32_e64 v1, v4, v1, s[4:5]
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v2, v0, vcc
+; GCN-NEXT:    v_cndmask_b32_e64 v3, v18, v3, s[8:9]
+; GCN-NEXT:    v_cndmask_b32_e64 v2, v6, v2, s[6:7]
+; GCN-NEXT:    v_cndmask_b32_e64 v1, v5, v1, s[4:5]
+; GCN-NEXT:    v_cndmask_b32_e32 v0, v4, v0, vcc
 ; GCN-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
 ; GCN-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
-; GCN-NEXT:    v_and_b32_e32 v2, 0xffff0000, v3
-; GCN-NEXT:    v_and_b32_e32 v3, 0xffff0000, v5
+; GCN-NEXT:    v_and_b32_e32 v2, 0xffff0000, v2
+; GCN-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GCN-NEXT:    v_and_b32_e32 v4, 0xffff0000, v19
 ; GCN-NEXT:    v_and_b32_e32 v5, 0xffff0000, v17
 ; GCN-NEXT:    v_and_b32_e32 v6, 0xffff0000, v16
@@ -37665,151 +37663,136 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GFX7-LABEL: v_vselect_v16bf16:
 ; GFX7:       ; %bb.0:
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX7-NEXT:    s_xor_saveexec_b64 s[4:5], -1
-; GFX7-NEXT:    buffer_store_dword v31, off, s[0:3], s32 offset:68 ; 4-byte Folded Spill
-; GFX7-NEXT:    s_mov_b64 exec, s[4:5]
+; GFX7-NEXT:    v_and_b32_e32 v8, 1, v8
+; GFX7-NEXT:    v_and_b32_e32 v7, 1, v7
+; GFX7-NEXT:    v_cmp_eq_u32_e64 s[16:17], 1, v8
+; GFX7-NEXT:    v_cmp_eq_u32_e64 s[14:15], 1, v7
+; GFX7-NEXT:    buffer_load_dword v7, off, s[0:3], s32
+; GFX7-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:64
+; GFX7-NEXT:    v_and_b32_e32 v15, 1, v15
+; GFX7-NEXT:    v_cmp_eq_u32_e64 s[12:13], 1, v15
+; GFX7-NEXT:    v_and_b32_e32 v14, 1, v14
+; GFX7-NEXT:    v_cmp_eq_u32_e64 s[10:11], 1, v14
+; GFX7-NEXT:    v_and_b32_e32 v13, 1, v13
+; GFX7-NEXT:    v_cmp_eq_u32_e64 s[8:9], 1, v13
+; GFX7-NEXT:    v_and_b32_e32 v12, 1, v12
+; GFX7-NEXT:    v_cmp_eq_u32_e64 s[6:7], 1, v12
+; GFX7-NEXT:    v_and_b32_e32 v11, 1, v11
+; GFX7-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v11
+; GFX7-NEXT:    v_and_b32_e32 v10, 1, v10
+; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v10
+; GFX7-NEXT:    v_and_b32_e32 v6, 1, v6
+; GFX7-NEXT:    v_and_b32_e32 v5, 1, v5
+; GFX7-NEXT:    v_and_b32_e32 v9, 1, v9
+; GFX7-NEXT:    v_cmp_eq_u32_e64 s[18:19], 1, v9
+; GFX7-NEXT:    v_and_b32_e32 v4, 1, v4
+; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GFX7-NEXT:    v_and_b32_e32 v3, 1, v3
+; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
+; GFX7-NEXT:    v_and_b32_e32 v2, 1, v2
+; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
+; GFX7-NEXT:    v_and_b32_e32 v1, 1, v1
 ; GFX7-NEXT:    v_and_b32_e32 v0, 1, v0
-; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v1
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v2
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[6:7], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v3
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[8:9], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v4
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[10:11], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v5
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[12:13], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v6
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[14:15], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v7
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[16:17], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v8
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[18:19], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v9
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[20:21], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v10
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[22:23], 1, v0
-; GFX7-NEXT:    v_and_b32_e32 v0, 1, v11
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[24:25], 1, v0
-; GFX7-NEXT:    buffer_load_dword v0, off, s[0:3], s32
-; GFX7-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:64
-; GFX7-NEXT:    v_and_b32_e32 v2, 1, v12
-; GFX7-NEXT:    v_writelane_b32 v31, s30, 0
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[26:27], 1, v2
-; GFX7-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:60
-; GFX7-NEXT:    v_and_b32_e32 v3, 1, v13
-; GFX7-NEXT:    v_writelane_b32 v31, s31, 1
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[28:29], 1, v3
-; GFX7-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:56
-; GFX7-NEXT:    v_and_b32_e32 v4, 1, v14
-; GFX7-NEXT:    v_writelane_b32 v31, s34, 2
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[30:31], 1, v4
-; GFX7-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:52
-; GFX7-NEXT:    v_and_b32_e32 v5, 1, v15
-; GFX7-NEXT:    v_writelane_b32 v31, s35, 3
-; GFX7-NEXT:    v_cmp_eq_u32_e64 s[34:35], 1, v5
-; GFX7-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:48
-; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
 ; GFX7-NEXT:    v_mul_f32_e32 v17, 1.0, v17
-; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v18
-; GFX7-NEXT:    v_mul_f32_e32 v19, 1.0, v19
-; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v20
-; GFX7-NEXT:    s_waitcnt vmcnt(5)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    v_cndmask_b32_e64 v15, v1, v0, s[34:35]
-; GFX7-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:44
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v30
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GFX7-NEXT:    v_cndmask_b32_e64 v14, v2, v1, s[30:31]
-; GFX7-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:40
-; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v29
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GFX7-NEXT:    v_cndmask_b32_e64 v13, v3, v2, s[28:29]
-; GFX7-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:36
-; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v28
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
-; GFX7-NEXT:    v_cndmask_b32_e64 v12, v4, v3, s[26:27]
-; GFX7-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:32
-; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v27
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v5
-; GFX7-NEXT:    v_cndmask_b32_e64 v11, v5, v4, s[24:25]
-; GFX7-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:28
-; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v26
-; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
-; GFX7-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
-; GFX7-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
-; GFX7-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
+; GFX7-NEXT:    v_mul_f32_e32 v16, 1.0, v16
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v7
+; GFX7-NEXT:    s_waitcnt vmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GFX7-NEXT:    v_cndmask_b32_e64 v15, v8, v7, s[12:13]
+; GFX7-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:60
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v30
 ; GFX7-NEXT:    v_and_b32_e32 v15, 0xffff0000, v15
-; GFX7-NEXT:    v_readlane_b32 s35, v31, 3
-; GFX7-NEXT:    v_readlane_b32 s34, v31, 2
-; GFX7-NEXT:    v_readlane_b32 s31, v31, 1
-; GFX7-NEXT:    v_readlane_b32 s30, v31, 0
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GFX7-NEXT:    v_cndmask_b32_e64 v10, v0, v5, s[22:23]
-; GFX7-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:24
-; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v25
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    v_cndmask_b32_e64 v9, v1, v5, s[20:21]
-; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v24
-; GFX7-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:4
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GFX7-NEXT:    v_cndmask_b32_e64 v8, v2, v5, s[18:19]
-; GFX7-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:8
-; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v23
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GFX7-NEXT:    v_cndmask_b32_e64 v7, v3, v5, s[16:17]
-; GFX7-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:12
-; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v22
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
-; GFX7-NEXT:    v_cndmask_b32_e64 v6, v4, v5, s[14:15]
-; GFX7-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:16
+; GFX7-NEXT:    s_waitcnt vmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GFX7-NEXT:    v_cndmask_b32_e64 v14, v8, v7, s[10:11]
+; GFX7-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:56
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v29
+; GFX7-NEXT:    v_and_b32_e32 v14, 0xffff0000, v14
+; GFX7-NEXT:    s_waitcnt vmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GFX7-NEXT:    v_cndmask_b32_e64 v13, v8, v7, s[8:9]
+; GFX7-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:52
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v28
+; GFX7-NEXT:    v_and_b32_e32 v13, 0xffff0000, v13
+; GFX7-NEXT:    s_waitcnt vmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GFX7-NEXT:    v_cndmask_b32_e64 v12, v8, v7, s[6:7]
+; GFX7-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:48
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v27
+; GFX7-NEXT:    v_and_b32_e32 v12, 0xffff0000, v12
+; GFX7-NEXT:    s_waitcnt vmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GFX7-NEXT:    v_cndmask_b32_e64 v11, v8, v7, s[4:5]
+; GFX7-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:44
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v26
+; GFX7-NEXT:    v_and_b32_e32 v11, 0xffff0000, v11
+; GFX7-NEXT:    s_waitcnt vmcnt(0)
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GFX7-NEXT:    v_cndmask_b32_e32 v10, v8, v7, vcc
+; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v6
+; GFX7-NEXT:    v_mul_f32_e32 v6, 1.0, v22
+; GFX7-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:28
+; GFX7-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:40
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v25
+; GFX7-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v22, 1.0, v22
+; GFX7-NEXT:    v_cndmask_b32_e32 v6, v22, v6, vcc
+; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v5
 ; GFX7-NEXT:    v_mul_f32_e32 v5, 1.0, v21
+; GFX7-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:24
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GFX7-NEXT:    v_cndmask_b32_e64 v9, v8, v7, s[18:19]
+; GFX7-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:36
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v24
 ; GFX7-NEXT:    v_and_b32_e32 v6, 0xffff0000, v6
-; GFX7-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GFX7-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
 ; GFX7-NEXT:    v_and_b32_e32 v9, 0xffff0000, v9
-; GFX7-NEXT:    v_and_b32_e32 v10, 0xffff0000, v10
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GFX7-NEXT:    v_cndmask_b32_e64 v5, v0, v5, s[12:13]
-; GFX7-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:20
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v21, 1.0, v21
+; GFX7-NEXT:    v_cndmask_b32_e32 v5, v21, v5, vcc
+; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v4
+; GFX7-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:20
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v8, 1.0, v8
+; GFX7-NEXT:    v_cndmask_b32_e64 v8, v8, v7, s[16:17]
+; GFX7-NEXT:    v_mul_f32_e32 v7, 1.0, v23
+; GFX7-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:32
 ; GFX7-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GFX7-NEXT:    s_waitcnt vmcnt(4)
-; GFX7-NEXT:    v_mul_f32_e32 v1, 1.0, v1
-; GFX7-NEXT:    s_waitcnt vmcnt(3)
-; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
-; GFX7-NEXT:    v_cndmask_b32_e64 v2, v2, v17, s[4:5]
+; GFX7-NEXT:    v_and_b32_e32 v8, 0xffff0000, v8
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
+; GFX7-NEXT:    v_cndmask_b32_e32 v4, v4, v20, vcc
+; GFX7-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:16
+; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v3
+; GFX7-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:12
+; GFX7-NEXT:    s_waitcnt vmcnt(2)
+; GFX7-NEXT:    v_mul_f32_e32 v23, 1.0, v23
+; GFX7-NEXT:    v_cndmask_b32_e64 v7, v23, v7, s[14:15]
+; GFX7-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
+; GFX7-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
+; GFX7-NEXT:    s_waitcnt vmcnt(1)
+; GFX7-NEXT:    v_mul_f32_e32 v20, 1.0, v20
+; GFX7-NEXT:    v_cndmask_b32_e32 v19, v20, v19, vcc
+; GFX7-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:4
+; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v2
+; GFX7-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:8
 ; GFX7-NEXT:    s_waitcnt vmcnt(2)
 ; GFX7-NEXT:    v_mul_f32_e32 v3, 1.0, v3
-; GFX7-NEXT:    v_cndmask_b32_e64 v3, v3, v18, s[6:7]
+; GFX7-NEXT:    v_cndmask_b32_e32 v3, v3, v18, vcc
+; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v1
 ; GFX7-NEXT:    s_waitcnt vmcnt(1)
-; GFX7-NEXT:    v_mul_f32_e32 v4, 1.0, v4
-; GFX7-NEXT:    v_cndmask_b32_e64 v4, v4, v19, s[8:9]
+; GFX7-NEXT:    v_mul_f32_e32 v18, 1.0, v20
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_mul_f32_e32 v0, 1.0, v0
-; GFX7-NEXT:    v_cndmask_b32_e64 v20, v0, v20, s[10:11]
-; GFX7-NEXT:    v_cndmask_b32_e32 v0, v1, v16, vcc
+; GFX7-NEXT:    v_mul_f32_e32 v2, 1.0, v2
+; GFX7-NEXT:    v_cndmask_b32_e32 v1, v2, v17, vcc
+; GFX7-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v0
+; GFX7-NEXT:    v_cndmask_b32_e32 v0, v18, v16, vcc
 ; GFX7-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
-; GFX7-NEXT:    v_and_b32_e32 v1, 0xffff0000, v2
+; GFX7-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
 ; GFX7-NEXT:    v_and_b32_e32 v2, 0xffff0000, v3
-; GFX7-NEXT:    v_and_b32_e32 v3, 0xffff0000, v4
-; GFX7-NEXT:    v_and_b32_e32 v4, 0xffff0000, v20
-; GFX7-NEXT:    s_xor_saveexec_b64 s[4:5], -1
-; GFX7-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:68 ; 4-byte Folded Reload
-; GFX7-NEXT:    s_mov_b64 exec, s[4:5]
-; GFX7-NEXT:    s_waitcnt vmcnt(0)
+; GFX7-NEXT:    v_and_b32_e32 v3, 0xffff0000, v19
 ; GFX7-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX8-LABEL: v_vselect_v16bf16:
@@ -37840,53 +37823,51 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GFX8-NEXT:    v_cmp_eq_u32_e64 s[20:21], 1, v0
 ; GFX8-NEXT:    v_and_b32_e32 v0, 1, v10
 ; GFX8-NEXT:    v_cmp_eq_u32_e64 s[22:23], 1, v0
-; GFX8-NEXT:    buffer_load_dword v0, off, s[0:3], s32
+; GFX8-NEXT:    v_and_b32_e32 v0, 1, v11
+; GFX8-NEXT:    v_cmp_eq_u32_e64 s[24:25], 1, v0
+; GFX8-NEXT:    v_and_b32_e32 v0, 1, v12
 ; GFX8-NEXT:    v_writelane_b32 v31, s30, 0
-; GFX8-NEXT:    v_and_b32_e32 v2, 1, v12
-; GFX8-NEXT:    v_and_b32_e32 v3, 1, v13
+; GFX8-NEXT:    v_cmp_eq_u32_e64 s[26:27], 1, v0
+; GFX8-NEXT:    v_and_b32_e32 v0, 1, v13
 ; GFX8-NEXT:    v_writelane_b32 v31, s31, 1
-; GFX8-NEXT:    v_cmp_eq_u32_e64 s[26:27], 1, v2
-; GFX8-NEXT:    v_lshrrev_b32_e32 v2, 16, v22
-; GFX8-NEXT:    v_cmp_eq_u32_e64 s[28:29], 1, v3
-; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v30
+; GFX8-NEXT:    v_cmp_eq_u32_e64 s[28:29], 1, v0
+; GFX8-NEXT:    v_and_b32_e32 v0, 1, v14
 ; GFX8-NEXT:    v_writelane_b32 v31, s34, 2
-; GFX8-NEXT:    v_and_b32_e32 v1, 1, v11
-; GFX8-NEXT:    v_and_b32_e32 v4, 1, v14
-; GFX8-NEXT:    v_and_b32_e32 v5, 1, v15
-; GFX8-NEXT:    v_cndmask_b32_e64 v6, v3, v2, s[28:29]
-; GFX8-NEXT:    v_lshrrev_b32_e32 v2, 16, v20
-; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v28
+; GFX8-NEXT:    v_cmp_eq_u32_e64 s[30:31], 1, v0
+; GFX8-NEXT:    v_and_b32_e32 v0, 1, v15
 ; GFX8-NEXT:    v_writelane_b32 v31, s35, 3
-; GFX8-NEXT:    v_cmp_eq_u32_e64 s[24:25], 1, v1
+; GFX8-NEXT:    v_cmp_eq_u32_e64 s[34:35], 1, v0
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v22
+; GFX8-NEXT:    v_lshrrev_b32_e32 v1, 16, v30
+; GFX8-NEXT:    v_cndmask_b32_e64 v6, v1, v0, s[28:29]
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v21
+; GFX8-NEXT:    v_lshrrev_b32_e32 v1, 16, v29
+; GFX8-NEXT:    v_cndmask_b32_e64 v5, v1, v0, s[24:25]
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v20
+; GFX8-NEXT:    v_lshrrev_b32_e32 v1, 16, v28
+; GFX8-NEXT:    v_cndmask_b32_e64 v4, v1, v0, s[20:21]
+; GFX8-NEXT:    buffer_load_dword v0, off, s[0:3], s32
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v1, 16, v23
-; GFX8-NEXT:    v_cmp_eq_u32_e64 s[30:31], 1, v4
-; GFX8-NEXT:    v_cmp_eq_u32_e64 s[34:35], 1, v5
-; GFX8-NEXT:    v_cndmask_b32_e64 v10, v3, v2, s[20:21]
-; GFX8-NEXT:    v_lshrrev_b32_e32 v4, 16, v21
-; GFX8-NEXT:    v_lshrrev_b32_e32 v5, 16, v29
-; GFX8-NEXT:    v_cndmask_b32_e64 v5, v5, v4, s[24:25]
-; GFX8-NEXT:    v_lshrrev_b32_e32 v4, 16, v19
-; GFX8-NEXT:    v_lshrrev_b32_e32 v9, 16, v27
-; GFX8-NEXT:    v_cndmask_b32_e64 v3, v9, v4, s[16:17]
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v15, 16, v24
 ; GFX8-NEXT:    v_cndmask_b32_e64 v7, v30, v22, s[26:27]
-; GFX8-NEXT:    v_cndmask_b32_e64 v4, v27, v19, s[14:15]
-; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v6, 16, v6
 ; GFX8-NEXT:    v_cndmask_b32_e64 v8, v29, v21, s[22:23]
-; GFX8-NEXT:    v_cndmask_b32_e64 v11, v28, v20, s[18:19]
-; GFX8-NEXT:    v_cndmask_b32_e64 v9, v26, v18, s[10:11]
+; GFX8-NEXT:    v_cndmask_b32_e64 v9, v28, v20, s[18:19]
+; GFX8-NEXT:    v_cndmask_b32_e64 v12, v27, v19, s[14:15]
+; GFX8-NEXT:    v_cndmask_b32_e64 v13, v26, v18, s[10:11]
 ; GFX8-NEXT:    v_cndmask_b32_e64 v14, v25, v17, s[6:7]
-; GFX8-NEXT:    v_or_b32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v4, 16, v10
+; GFX8-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v5, 16, v5
 ; GFX8-NEXT:    v_or_b32_sdwa v6, v7, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_or_b32_sdwa v4, v11, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_or_b32_sdwa v4, v9, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX8-NEXT:    v_or_b32_sdwa v5, v8, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_lshrrev_b32_e32 v2, 16, v0
-; GFX8-NEXT:    v_cndmask_b32_e64 v12, v0, v23, s[30:31]
-; GFX8-NEXT:    v_cndmask_b32_e64 v13, v2, v1, s[34:35]
+; GFX8-NEXT:    v_cndmask_b32_e64 v10, v0, v23, s[30:31]
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
+; GFX8-NEXT:    v_cndmask_b32_e64 v11, v0, v1, s[34:35]
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v19
+; GFX8-NEXT:    v_lshrrev_b32_e32 v1, 16, v27
+; GFX8-NEXT:    v_cndmask_b32_e64 v3, v1, v0, s[16:17]
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v18
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v1, 16, v26
 ; GFX8-NEXT:    v_cndmask_b32_e64 v2, v1, v0, s[12:13]
@@ -37899,11 +37880,13 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
-; GFX8-NEXT:    v_lshlrev_b32_e32 v7, 16, v13
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; GFX8-NEXT:    v_lshlrev_b32_e32 v7, 16, v11
 ; GFX8-NEXT:    v_or_b32_sdwa v0, v15, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX8-NEXT:    v_or_b32_sdwa v1, v14, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_or_b32_sdwa v2, v9, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_or_b32_sdwa v7, v12, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_or_b32_sdwa v2, v13, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_or_b32_sdwa v3, v12, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_or_b32_sdwa v7, v10, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX8-NEXT:    v_readlane_b32 s35, v31, 3
 ; GFX8-NEXT:    v_readlane_b32 s34, v31, 2
 ; GFX8-NEXT:    v_readlane_b32 s31, v31, 1
@@ -37917,81 +37900,81 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GFX9-LABEL: v_vselect_v16bf16:
 ; GFX9:       ; %bb.0:
 ; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    v_and_b32_e32 v4, 1, v4
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[18:19], 1, v4
-; GFX9-NEXT:    v_and_b32_e32 v4, 1, v14
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[20:21], 1, v4
-; GFX9-NEXT:    v_and_b32_e32 v4, 1, v15
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[22:23], 1, v4
-; GFX9-NEXT:    buffer_load_dword v4, off, s[0:3], s32
 ; GFX9-NEXT:    v_and_b32_e32 v12, 1, v12
 ; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v12
-; GFX9-NEXT:    v_and_b32_e32 v12, 1, v13
+; GFX9-NEXT:    v_and_b32_e32 v13, 1, v13
+; GFX9-NEXT:    v_cndmask_b32_e32 v12, v30, v22, vcc
+; GFX9-NEXT:    v_lshrrev_b32_e32 v22, 16, v22
+; GFX9-NEXT:    v_lshrrev_b32_e32 v30, 16, v30
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v13
 ; GFX9-NEXT:    v_and_b32_e32 v10, 1, v10
-; GFX9-NEXT:    v_and_b32_e32 v6, 1, v6
-; GFX9-NEXT:    v_and_b32_e32 v5, 1, v5
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v12
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[6:7], 1, v10
+; GFX9-NEXT:    v_cndmask_b32_e32 v13, v30, v22, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v10
 ; GFX9-NEXT:    v_and_b32_e32 v10, 1, v11
+; GFX9-NEXT:    v_cndmask_b32_e32 v11, v29, v21, vcc
+; GFX9-NEXT:    v_lshrrev_b32_e32 v21, 16, v21
+; GFX9-NEXT:    v_lshrrev_b32_e32 v22, 16, v29
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v10
+; GFX9-NEXT:    v_cndmask_b32_e32 v10, v22, v21, vcc
+; GFX9-NEXT:    buffer_load_dword v21, off, s[0:3], s32
 ; GFX9-NEXT:    v_and_b32_e32 v8, 1, v8
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[14:15], 1, v6
-; GFX9-NEXT:    v_and_b32_e32 v6, 1, v7
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[24:25], 1, v5
-; GFX9-NEXT:    v_lshrrev_b32_e32 v5, 16, v22
-; GFX9-NEXT:    v_lshrrev_b32_e32 v7, 16, v30
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[8:9], 1, v10
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[10:11], 1, v8
-; GFX9-NEXT:    v_and_b32_e32 v8, 1, v9
-; GFX9-NEXT:    v_cndmask_b32_e64 v7, v7, v5, s[4:5]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v5, 16, v21
-; GFX9-NEXT:    v_lshrrev_b32_e32 v9, 16, v29
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[12:13], 1, v8
-; GFX9-NEXT:    v_cndmask_b32_e64 v5, v9, v5, s[8:9]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v9, 16, v20
-; GFX9-NEXT:    v_lshrrev_b32_e32 v11, 16, v28
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[16:17], 1, v6
-; GFX9-NEXT:    v_cndmask_b32_e64 v9, v11, v9, s[12:13]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v11, 16, v19
-; GFX9-NEXT:    v_lshrrev_b32_e32 v13, 16, v27
+; GFX9-NEXT:    v_and_b32_e32 v9, 1, v9
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v8
+; GFX9-NEXT:    v_lshrrev_b32_e32 v8, 16, v20
+; GFX9-NEXT:    v_cndmask_b32_e32 v20, v28, v20, vcc
+; GFX9-NEXT:    v_lshrrev_b32_e32 v22, 16, v28
+; GFX9-NEXT:    v_and_b32_e32 v6, 1, v6
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v9
+; GFX9-NEXT:    v_and_b32_e32 v7, 1, v7
+; GFX9-NEXT:    v_cndmask_b32_e32 v8, v22, v8, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v6
+; GFX9-NEXT:    v_lshrrev_b32_e32 v9, 16, v19
+; GFX9-NEXT:    v_lshrrev_b32_e32 v22, 16, v27
+; GFX9-NEXT:    v_and_b32_e32 v4, 1, v4
+; GFX9-NEXT:    v_cndmask_b32_e32 v19, v27, v19, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v7
+; GFX9-NEXT:    v_and_b32_e32 v5, 1, v5
+; GFX9-NEXT:    v_cndmask_b32_e32 v9, v22, v9, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v4
+; GFX9-NEXT:    v_lshrrev_b32_e32 v6, 16, v18
+; GFX9-NEXT:    v_lshrrev_b32_e32 v27, 16, v26
+; GFX9-NEXT:    v_and_b32_e32 v14, 1, v14
+; GFX9-NEXT:    v_cndmask_b32_e32 v4, v26, v18, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v5
+; GFX9-NEXT:    v_and_b32_e32 v15, 1, v15
+; GFX9-NEXT:    v_cndmask_b32_e32 v5, v27, v6, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v14
 ; GFX9-NEXT:    v_and_b32_e32 v2, 1, v2
-; GFX9-NEXT:    v_cndmask_b32_e64 v11, v13, v11, s[16:17]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v13, 16, v23
-; GFX9-NEXT:    v_cndmask_b32_e32 v6, v30, v22, vcc
+; GFX9-NEXT:    v_lshrrev_b32_e32 v7, 16, v23
 ; GFX9-NEXT:    v_and_b32_e32 v3, 1, v3
-; GFX9-NEXT:    v_cndmask_b32_e64 v15, v26, v18, s[18:19]
-; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v2
 ; GFX9-NEXT:    v_and_b32_e32 v0, 1, v0
-; GFX9-NEXT:    v_cndmask_b32_e32 v2, v25, v17, vcc
-; GFX9-NEXT:    v_lshrrev_b32_e32 v17, 16, v17
-; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v3
 ; GFX9-NEXT:    v_and_b32_e32 v1, 1, v1
-; GFX9-NEXT:    v_cndmask_b32_e64 v8, v29, v21, s[6:7]
-; GFX9-NEXT:    v_cndmask_b32_e64 v10, v28, v20, s[10:11]
-; GFX9-NEXT:    v_cndmask_b32_e64 v12, v27, v19, s[14:15]
 ; GFX9-NEXT:    s_mov_b32 s4, 0x5040100
-; GFX9-NEXT:    v_perm_b32 v5, v5, v8, s4
-; GFX9-NEXT:    v_perm_b32 v6, v7, v6, s4
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    v_cndmask_b32_e64 v14, v4, v23, s[20:21]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v4, 16, v4
-; GFX9-NEXT:    v_cndmask_b32_e64 v13, v4, v13, s[22:23]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v4, 16, v18
-; GFX9-NEXT:    v_lshrrev_b32_e32 v18, 16, v26
-; GFX9-NEXT:    v_cndmask_b32_e64 v4, v18, v4, s[24:25]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v18, 16, v25
-; GFX9-NEXT:    v_cndmask_b32_e32 v3, v18, v17, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v14, v21, v23, vcc
+; GFX9-NEXT:    v_lshrrev_b32_e32 v6, 16, v21
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v15
+; GFX9-NEXT:    v_cndmask_b32_e32 v7, v6, v7, vcc
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v2
+; GFX9-NEXT:    v_cndmask_b32_e32 v2, v25, v17, vcc
+; GFX9-NEXT:    v_lshrrev_b32_e32 v6, 16, v17
+; GFX9-NEXT:    v_lshrrev_b32_e32 v15, 16, v25
+; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v3
+; GFX9-NEXT:    v_cndmask_b32_e32 v3, v15, v6, vcc
 ; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v0
 ; GFX9-NEXT:    v_cndmask_b32_e32 v0, v24, v16, vcc
-; GFX9-NEXT:    v_lshrrev_b32_e32 v16, 16, v16
-; GFX9-NEXT:    v_lshrrev_b32_e32 v17, 16, v24
+; GFX9-NEXT:    v_lshrrev_b32_e32 v6, 16, v16
+; GFX9-NEXT:    v_lshrrev_b32_e32 v15, 16, v24
 ; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v1
-; GFX9-NEXT:    v_cndmask_b32_e32 v1, v17, v16, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v1, v15, v6, vcc
 ; GFX9-NEXT:    v_perm_b32 v0, v1, v0, s4
 ; GFX9-NEXT:    v_perm_b32 v1, v3, v2, s4
-; GFX9-NEXT:    v_perm_b32 v2, v4, v15, s4
-; GFX9-NEXT:    v_perm_b32 v3, v11, v12, s4
-; GFX9-NEXT:    v_perm_b32 v4, v9, v10, s4
-; GFX9-NEXT:    v_perm_b32 v7, v13, v14, s4
+; GFX9-NEXT:    v_perm_b32 v2, v5, v4, s4
+; GFX9-NEXT:    v_perm_b32 v3, v9, v19, s4
+; GFX9-NEXT:    v_perm_b32 v4, v8, v20, s4
+; GFX9-NEXT:    v_perm_b32 v5, v10, v11, s4
+; GFX9-NEXT:    v_perm_b32 v6, v13, v12, s4
+; GFX9-NEXT:    v_perm_b32 v7, v7, v14, s4
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX10-LABEL: v_vselect_v16bf16:
@@ -38008,13 +37991,13 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GFX10-NEXT:    v_and_b32_e32 v8, 1, v8
 ; GFX10-NEXT:    v_lshrrev_b32_e32 v35, 16, v21
 ; GFX10-NEXT:    v_lshrrev_b32_e32 v36, 16, v29
-; GFX10-NEXT:    v_cndmask_b32_e32 v12, v30, v22, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v22, v30, v22, vcc_lo
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v13
 ; GFX10-NEXT:    v_and_b32_e32 v9, 1, v9
 ; GFX10-NEXT:    v_and_b32_e32 v6, 1, v6
 ; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v20
 ; GFX10-NEXT:    v_lshrrev_b32_e32 v38, 16, v28
-; GFX10-NEXT:    v_cndmask_b32_e32 v13, v34, v33, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v33, v34, v33, vcc_lo
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v10
 ; GFX10-NEXT:    v_and_b32_e32 v4, 1, v4
 ; GFX10-NEXT:    v_and_b32_e32 v2, 1, v2
@@ -38023,13 +38006,13 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GFX10-NEXT:    v_cndmask_b32_e32 v10, v29, v21, vcc_lo
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v11
 ; GFX10-NEXT:    v_lshrrev_b32_e32 v51, 16, v17
-; GFX10-NEXT:    v_lshrrev_b32_e32 v52, 16, v25
+; GFX10-NEXT:    v_lshrrev_b32_e32 v12, 16, v25
 ; GFX10-NEXT:    v_and_b32_e32 v1, 1, v1
 ; GFX10-NEXT:    v_and_b32_e32 v5, 1, v5
 ; GFX10-NEXT:    v_cndmask_b32_e32 v11, v36, v35, vcc_lo
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v8
-; GFX10-NEXT:    v_lshrrev_b32_e32 v53, 16, v16
-; GFX10-NEXT:    v_lshrrev_b32_e32 v54, 16, v24
+; GFX10-NEXT:    v_lshrrev_b32_e32 v30, 16, v16
+; GFX10-NEXT:    v_lshrrev_b32_e32 v13, 16, v24
 ; GFX10-NEXT:    v_and_b32_e32 v7, 1, v7
 ; GFX10-NEXT:    v_lshrrev_b32_e32 v49, 16, v18
 ; GFX10-NEXT:    v_cndmask_b32_e32 v8, v28, v20, vcc_lo
@@ -38048,11 +38031,11 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v2
 ; GFX10-NEXT:    v_cndmask_b32_e32 v2, v25, v17, vcc_lo
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v3
-; GFX10-NEXT:    v_cndmask_b32_e32 v3, v52, v51, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v3, v12, v51, vcc_lo
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v0
 ; GFX10-NEXT:    v_cndmask_b32_e32 v0, v24, v16, vcc_lo
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v1
-; GFX10-NEXT:    v_cndmask_b32_e32 v1, v54, v53, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v1, v13, v30, vcc_lo
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v5
 ; GFX10-NEXT:    v_perm_b32 v0, v1, v0, 0x5040100
 ; GFX10-NEXT:    v_cndmask_b32_e32 v5, v50, v49, vcc_lo
@@ -38065,12 +38048,12 @@ define <16 x bfloat> @v_vselect_v16bf16(<16 x i1> %cond, <16 x bfloat> %a, <16 x
 ; GFX10-NEXT:    v_perm_b32 v5, v11, v10, 0x5040100
 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
 ; GFX10-NEXT:    v_lshrrev_b32_e32 v3, 16, v31
-; GFX10-NEXT:    v_cndmask_b32_e32 v14, v31, v23, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v12, v31, v23, vcc_lo
 ; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v15
-; GFX10-NEXT:    v_cndmask_b32_e32 v15, v3, v32, vcc_lo
+; GFX10-NEXT:    v_cndmask_b32_e32 v13, v3, v32, vcc_lo
 ; GFX10-NEXT:    v_perm_b32 v3, v7, v6, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v6, v13, v12, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v7, v15, v14, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v6, v33, v22, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v7, v13, v12, 0x5040100
 ; GFX10-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11TRUE16-LABEL: v_vselect_v16bf16:
@@ -39456,219 +39439,206 @@ define <32 x bfloat> @v_vselect_v32bf16(<32 x i1> %cond, <32 x bfloat> %a, <32 x
 ; GFX10-LABEL: v_vselect_v32bf16:
 ; GFX10:       ; %bb.0:
 ; GFX10-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX10-NEXT:    s_or_saveexec_b32 s4, -1
-; GFX10-NEXT:    buffer_store_dword v40, off, s[0:3], s32 offset:132 ; 4-byte Folded Spill
-; GFX10-NEXT:    s_waitcnt_depctr 0xffe3
-; GFX10-NEXT:    s_mov_b32 exec_lo, s4
-; GFX10-NEXT:    v_and_b32_e32 v29, 1, v29
+; GFX10-NEXT:    s_clause 0xa
+; GFX10-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:28
+; GFX10-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:92
+; GFX10-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:40
+; GFX10-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:104
+; GFX10-NEXT:    buffer_load_ushort v35, off, s[0:3], s32
+; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:128
+; GFX10-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:64
+; GFX10-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:96
+; GFX10-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:108
+; GFX10-NEXT:    buffer_load_dword v48, off, s[0:3], s32 offset:44
+; GFX10-NEXT:    buffer_load_dword v49, off, s[0:3], s32 offset:112
 ; GFX10-NEXT:    v_and_b32_e32 v30, 1, v30
+; GFX10-NEXT:    v_and_b32_e32 v18, 1, v18
+; GFX10-NEXT:    v_and_b32_e32 v12, 1, v12
+; GFX10-NEXT:    v_and_b32_e32 v13, 1, v13
+; GFX10-NEXT:    v_and_b32_e32 v19, 1, v19
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v30
+; GFX10-NEXT:    v_cmp_eq_u32_e64 s6, 1, v18
 ; GFX10-NEXT:    v_and_b32_e32 v28, 1, v28
+; GFX10-NEXT:    v_cmp_eq_u32_e64 s4, 1, v13
+; GFX10-NEXT:    v_cmp_eq_u32_e64 s5, 1, v19
 ; GFX10-NEXT:    v_and_b32_e32 v26, 1, v26
 ; GFX10-NEXT:    v_and_b32_e32 v24, 1, v24
 ; GFX10-NEXT:    v_and_b32_e32 v22, 1, v22
 ; GFX10-NEXT:    v_and_b32_e32 v20, 1, v20
-; GFX10-NEXT:    v_and_b32_e32 v18, 1, v18
+; GFX10-NEXT:    v_and_b32_e32 v21, 1, v21
 ; GFX10-NEXT:    v_and_b32_e32 v16, 1, v16
 ; GFX10-NEXT:    v_and_b32_e32 v14, 1, v14
-; GFX10-NEXT:    v_and_b32_e32 v12, 1, v12
-; GFX10-NEXT:    s_clause 0x14
-; GFX10-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:60
-; GFX10-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:124
-; GFX10-NEXT:    buffer_load_ushort v33, off, s[0:3], s32
-; GFX10-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:128
-; GFX10-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:64
-; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:48
-; GFX10-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:116
-; GFX10-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:52
-; GFX10-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:120
-; GFX10-NEXT:    buffer_load_dword v48, off, s[0:3], s32 offset:56
-; GFX10-NEXT:    buffer_load_dword v49, off, s[0:3], s32 offset:32
-; GFX10-NEXT:    buffer_load_dword v50, off, s[0:3], s32 offset:100
-; GFX10-NEXT:    buffer_load_dword v51, off, s[0:3], s32 offset:36
-; GFX10-NEXT:    buffer_load_dword v52, off, s[0:3], s32 offset:104
-; GFX10-NEXT:    buffer_load_dword v53, off, s[0:3], s32 offset:40
-; GFX10-NEXT:    buffer_load_dword v54, off, s[0:3], s32 offset:108
-; GFX10-NEXT:    buffer_load_dword v55, off, s[0:3], s32 offset:44
-; GFX10-NEXT:    buffer_load_dword v64, off, s[0:3], s32 offset:112
-; GFX10-NEXT:    buffer_load_dword v65, off, s[0:3], s32 offset:72
-; GFX10-NEXT:    buffer_load_dword v66, off, s[0:3], s32 offset:76
-; GFX10-NEXT:    buffer_load_dword v67, off, s[0:3], s32 offset:80
-; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v29
-; GFX10-NEXT:    s_clause 0x1
-; GFX10-NEXT:    buffer_load_dword v29, off, s[0:3], s32 offset:92
-; GFX10-NEXT:    buffer_load_dword v68, off, s[0:3], s32 offset:28
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s4, 1, v30
-; GFX10-NEXT:    buffer_load_dword v30, off, s[0:3], s32 offset:96
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s5, 1, v28
-; GFX10-NEXT:    buffer_load_dword v28, off, s[0:3], s32 offset:88
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s6, 1, v26
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s7, 1, v24
-; GFX10-NEXT:    buffer_load_dword v24, off, s[0:3], s32 offset:84
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s8, 1, v22
-; GFX10-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:20
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s9, 1, v20
-; GFX10-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:16
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s10, 1, v18
-; GFX10-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s11, 1, v16
-; GFX10-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:8
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s12, 1, v14
-; GFX10-NEXT:    s_clause 0x1
-; GFX10-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:68
-; GFX10-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:24
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s13, 1, v12
-; GFX10-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:4
-; GFX10-NEXT:    v_writelane_b32 v40, s30, 0
-; GFX10-NEXT:    v_and_b32_e32 v0, 1, v0
-; GFX10-NEXT:    v_and_b32_e32 v2, 1, v2
-; GFX10-NEXT:    v_and_b32_e32 v4, 1, v4
-; GFX10-NEXT:    v_and_b32_e32 v6, 1, v6
-; GFX10-NEXT:    v_and_b32_e32 v8, 1, v8
+; GFX10-NEXT:    v_and_b32_e32 v17, 1, v17
+; GFX10-NEXT:    v_and_b32_e32 v15, 1, v15
 ; GFX10-NEXT:    v_and_b32_e32 v10, 1, v10
-; GFX10-NEXT:    v_writelane_b32 v40, s31, 1
-; GFX10-NEXT:    v_and_b32_e32 v1, 1, v1
+; GFX10-NEXT:    v_and_b32_e32 v8, 1, v8
+; GFX10-NEXT:    v_and_b32_e32 v6, 1, v6
+; GFX10-NEXT:    v_and_b32_e32 v4, 1, v4
+; GFX10-NEXT:    v_and_b32_e32 v2, 1, v2
+; GFX10-NEXT:    v_and_b32_e32 v0, 1, v0
+; GFX10-NEXT:    v_and_b32_e32 v11, 1, v11
+; GFX10-NEXT:    v_and_b32_e32 v7, 1, v7
 ; GFX10-NEXT:    v_and_b32_e32 v3, 1, v3
+; GFX10-NEXT:    v_and_b32_e32 v1, 1, v1
 ; GFX10-NEXT:    v_and_b32_e32 v5, 1, v5
-; GFX10-NEXT:    v_and_b32_e32 v7, 1, v7
 ; GFX10-NEXT:    v_and_b32_e32 v9, 1, v9
-; GFX10-NEXT:    v_and_b32_e32 v11, 1, v11
-; GFX10-NEXT:    v_and_b32_e32 v13, 1, v13
-; GFX10-NEXT:    v_and_b32_e32 v15, 1, v15
-; GFX10-NEXT:    v_and_b32_e32 v17, 1, v17
-; GFX10-NEXT:    v_and_b32_e32 v19, 1, v19
-; GFX10-NEXT:    v_and_b32_e32 v21, 1, v21
-; GFX10-NEXT:    v_and_b32_e32 v23, 1, v23
-; GFX10-NEXT:    v_and_b32_e32 v25, 1, v25
-; GFX10-NEXT:    v_and_b32_e32 v27, 1, v27
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s14, 1, v10
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s15, 1, v8
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s16, 1, v6
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s17, 1, v4
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s18, 1, v2
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s19, 1, v0
-; GFX10-NEXT:    v_writelane_b32 v40, s34, 2
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s20, 1, v27
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s21, 1, v25
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s22, 1, v23
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s23, 1, v21
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s24, 1, v19
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s25, 1, v17
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s26, 1, v15
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s27, 1, v13
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s28, 1, v11
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s29, 1, v7
-; GFX10-NEXT:    v_cmp_eq_u32_e64 vcc_hi, 1, v3
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s30, 1, v1
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s31, 1, v5
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s34, 1, v9
-; GFX10-NEXT:    s_waitcnt vmcnt(32)
-; GFX10-NEXT:    v_lshrrev_b32_e32 v0, 16, v31
-; GFX10-NEXT:    s_waitcnt vmcnt(31)
-; GFX10-NEXT:    v_lshrrev_b32_e32 v1, 16, v32
-; GFX10-NEXT:    s_waitcnt vmcnt(30)
-; GFX10-NEXT:    v_and_b32_e32 v2, 1, v33
-; GFX10-NEXT:    s_waitcnt vmcnt(29)
-; GFX10-NEXT:    v_lshrrev_b32_e32 v4, 16, v34
-; GFX10-NEXT:    s_waitcnt vmcnt(28)
-; GFX10-NEXT:    v_cndmask_b32_e64 v15, v34, v35, s4
-; GFX10-NEXT:    v_lshrrev_b32_e32 v3, 16, v35
-; GFX10-NEXT:    v_cndmask_b32_e64 v17, v32, v31, s5
-; GFX10-NEXT:    s_waitcnt vmcnt(25)
-; GFX10-NEXT:    v_cndmask_b32_e64 v19, v37, v38, s7
-; GFX10-NEXT:    s_waitcnt vmcnt(24)
-; GFX10-NEXT:    v_lshrrev_b32_e32 v6, 16, v39
-; GFX10-NEXT:    s_waitcnt vmcnt(23)
-; GFX10-NEXT:    v_cndmask_b32_e64 v13, v39, v48, s6
-; GFX10-NEXT:    v_lshrrev_b32_e32 v5, 16, v48
-; GFX10-NEXT:    v_lshrrev_b32_e32 v7, 16, v38
-; GFX10-NEXT:    v_lshrrev_b32_e32 v8, 16, v37
-; GFX10-NEXT:    v_lshrrev_b32_e32 v9, 16, v36
-; GFX10-NEXT:    s_waitcnt vmcnt(18)
-; GFX10-NEXT:    v_cndmask_b32_e64 v27, v52, v53, s10
-; GFX10-NEXT:    s_waitcnt vmcnt(17)
-; GFX10-NEXT:    v_lshrrev_b32_e32 v25, 16, v54
-; GFX10-NEXT:    s_waitcnt vmcnt(16)
-; GFX10-NEXT:    v_cndmask_b32_e64 v21, v54, v55, s9
-; GFX10-NEXT:    s_waitcnt vmcnt(15)
-; GFX10-NEXT:    v_cndmask_b32_e64 v11, v64, v36, s8
-; GFX10-NEXT:    v_lshrrev_b32_e32 v10, 16, v64
-; GFX10-NEXT:    v_lshrrev_b32_e32 v23, 16, v55
-; GFX10-NEXT:    v_lshrrev_b32_e32 v31, 16, v53
-; GFX10-NEXT:    v_lshrrev_b32_e32 v32, 16, v52
-; GFX10-NEXT:    v_cndmask_b32_e64 v33, v50, v51, s11
-; GFX10-NEXT:    v_lshrrev_b32_e32 v34, 16, v51
-; GFX10-NEXT:    v_lshrrev_b32_e32 v35, 16, v50
+; GFX10-NEXT:    s_waitcnt vmcnt(10)
+; GFX10-NEXT:    v_lshrrev_b32_e32 v30, 16, v31
 ; GFX10-NEXT:    s_waitcnt vmcnt(9)
-; GFX10-NEXT:    v_cndmask_b32_e64 v36, v30, v49, s12
-; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v49
-; GFX10-NEXT:    v_lshrrev_b32_e32 v30, 16, v30
-; GFX10-NEXT:    v_cndmask_b32_e64 v38, v29, v68, s13
-; GFX10-NEXT:    v_lshrrev_b32_e32 v39, 16, v68
-; GFX10-NEXT:    v_lshrrev_b32_e32 v29, 16, v29
+; GFX10-NEXT:    v_lshrrev_b32_e32 v50, 16, v32
+; GFX10-NEXT:    s_waitcnt vmcnt(8)
+; GFX10-NEXT:    v_lshrrev_b32_e32 v13, 16, v33
+; GFX10-NEXT:    s_waitcnt vmcnt(7)
+; GFX10-NEXT:    v_cndmask_b32_e64 v18, v34, v33, s6
 ; GFX10-NEXT:    s_waitcnt vmcnt(6)
-; GFX10-NEXT:    v_cndmask_b32_e64 v49, v24, v22, s15
-; GFX10-NEXT:    v_lshrrev_b32_e32 v22, 16, v22
-; GFX10-NEXT:    v_lshrrev_b32_e32 v24, 16, v24
-; GFX10-NEXT:    s_waitcnt vmcnt(5)
-; GFX10-NEXT:    v_cndmask_b32_e64 v50, v67, v20, s16
-; GFX10-NEXT:    v_lshrrev_b32_e32 v20, 16, v20
-; GFX10-NEXT:    v_lshrrev_b32_e32 v51, 16, v67
+; GFX10-NEXT:    v_and_b32_e32 v35, 1, v35
+; GFX10-NEXT:    v_cmp_eq_u32_e64 s6, 1, v12
 ; GFX10-NEXT:    s_waitcnt vmcnt(4)
-; GFX10-NEXT:    v_cndmask_b32_e64 v52, v66, v18, s17
-; GFX10-NEXT:    v_lshrrev_b32_e32 v18, 16, v18
-; GFX10-NEXT:    s_waitcnt vmcnt(1)
-; GFX10-NEXT:    v_cndmask_b32_e64 v48, v28, v26, s14
-; GFX10-NEXT:    v_lshrrev_b32_e32 v26, 16, v26
-; GFX10-NEXT:    v_lshrrev_b32_e32 v28, 16, v28
-; GFX10-NEXT:    v_lshrrev_b32_e32 v53, 16, v66
-; GFX10-NEXT:    v_cndmask_b32_e64 v54, v65, v16, s18
-; GFX10-NEXT:    v_lshrrev_b32_e32 v16, 16, v16
-; GFX10-NEXT:    v_lshrrev_b32_e32 v55, 16, v65
+; GFX10-NEXT:    v_cndmask_b32_e32 v54, v36, v37, vcc_lo
+; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v37
+; GFX10-NEXT:    v_lshrrev_b32_e32 v36, 16, v36
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v35
+; GFX10-NEXT:    v_lshrrev_b32_e32 v51, 16, v34
+; GFX10-NEXT:    v_cndmask_b32_e64 v12, v32, v31, s6
+; GFX10-NEXT:    s_clause 0x6
+; GFX10-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:68
+; GFX10-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4
+; GFX10-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:72
+; GFX10-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:8
+; GFX10-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:76
+; GFX10-NEXT:    buffer_load_dword v52, off, s[0:3], s32 offset:12
+; GFX10-NEXT:    buffer_load_dword v53, off, s[0:3], s32 offset:80
+; GFX10-NEXT:    v_cndmask_b32_e64 v30, v50, v30, s4
+; GFX10-NEXT:    v_cndmask_b32_e32 v35, v36, v37, vcc_lo
+; GFX10-NEXT:    s_clause 0x1
+; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:124
+; GFX10-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:60
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v28
+; GFX10-NEXT:    v_and_b32_e32 v28, 1, v29
+; GFX10-NEXT:    v_cndmask_b32_e64 v13, v51, v13, s5
+; GFX10-NEXT:    s_waitcnt vmcnt(3)
+; GFX10-NEXT:    v_lshrrev_b32_e32 v50, 16, v52
 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
-; GFX10-NEXT:    v_cndmask_b32_e64 v64, v14, v12, s19
-; GFX10-NEXT:    v_lshrrev_b32_e32 v12, 16, v12
-; GFX10-NEXT:    v_lshrrev_b32_e32 v14, 16, v14
-; GFX10-NEXT:    v_cmp_eq_u32_e64 s4, 1, v2
-; GFX10-NEXT:    v_cndmask_b32_e32 v65, v1, v0, vcc_lo
-; GFX10-NEXT:    v_cndmask_b32_e64 v66, v6, v5, s20
-; GFX10-NEXT:    v_cndmask_b32_e64 v67, v8, v7, s21
-; GFX10-NEXT:    v_cndmask_b32_e64 v68, v10, v9, s22
-; GFX10-NEXT:    v_cndmask_b32_e64 v10, v25, v23, s23
-; GFX10-NEXT:    v_cndmask_b32_e64 v9, v32, v31, s24
-; GFX10-NEXT:    v_cndmask_b32_e64 v8, v35, v34, s25
-; GFX10-NEXT:    v_cndmask_b32_e64 v7, v30, v37, s26
-; GFX10-NEXT:    v_cndmask_b32_e64 v6, v29, v39, s27
-; GFX10-NEXT:    v_cndmask_b32_e64 v5, v28, v26, s28
-; GFX10-NEXT:    v_cndmask_b32_e64 v20, v51, v20, s29
-; GFX10-NEXT:    v_cndmask_b32_e64 v0, v14, v12, s30
-; GFX10-NEXT:    v_cndmask_b32_e64 v1, v55, v16, vcc_hi
-; GFX10-NEXT:    v_cndmask_b32_e64 v2, v53, v18, s31
-; GFX10-NEXT:    v_cndmask_b32_e64 v12, v24, v22, s34
-; GFX10-NEXT:    v_cndmask_b32_e64 v16, v4, v3, s4
-; GFX10-NEXT:    v_perm_b32 v0, v0, v64, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v1, v1, v54, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v2, v2, v52, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v3, v20, v50, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v4, v12, v49, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v5, v5, v48, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v6, v6, v38, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v7, v7, v36, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v8, v8, v33, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v9, v9, v27, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v10, v10, v21, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v11, v68, v11, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v12, v67, v19, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v13, v66, v13, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v14, v65, v17, 0x5040100
-; GFX10-NEXT:    v_perm_b32 v15, v16, v15, 0x5040100
-; GFX10-NEXT:    v_readlane_b32 s34, v40, 2
-; GFX10-NEXT:    v_readlane_b32 s31, v40, 1
-; GFX10-NEXT:    v_readlane_b32 s30, v40, 0
-; GFX10-NEXT:    s_or_saveexec_b32 s4, -1
-; GFX10-NEXT:    buffer_load_dword v40, off, s[0:3], s32 offset:132 ; 4-byte Folded Reload
-; GFX10-NEXT:    s_waitcnt_depctr 0xffe3
-; GFX10-NEXT:    s_mov_b32 exec_lo, s4
+; GFX10-NEXT:    v_cndmask_b32_e32 v29, v36, v37, vcc_lo
+; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v37
+; GFX10-NEXT:    v_lshrrev_b32_e32 v36, 16, v36
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v28
+; GFX10-NEXT:    v_cndmask_b32_e32 v28, v36, v37, vcc_lo
+; GFX10-NEXT:    s_clause 0x1
+; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:120
+; GFX10-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:56
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v26
+; GFX10-NEXT:    v_and_b32_e32 v26, 1, v27
 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
+; GFX10-NEXT:    v_cndmask_b32_e32 v27, v36, v37, vcc_lo
+; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v37
+; GFX10-NEXT:    v_lshrrev_b32_e32 v36, 16, v36
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v26
+; GFX10-NEXT:    v_cndmask_b32_e32 v26, v36, v37, vcc_lo
+; GFX10-NEXT:    s_clause 0x1
+; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:116
+; GFX10-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:52
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v24
+; GFX10-NEXT:    v_and_b32_e32 v24, 1, v25
+; GFX10-NEXT:    s_waitcnt vmcnt(0)
+; GFX10-NEXT:    v_cndmask_b32_e32 v25, v36, v37, vcc_lo
+; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v37
+; GFX10-NEXT:    v_lshrrev_b32_e32 v36, 16, v36
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v24
+; GFX10-NEXT:    v_cndmask_b32_e32 v24, v36, v37, vcc_lo
+; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:48
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v22
+; GFX10-NEXT:    v_and_b32_e32 v22, 1, v23
+; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v49
+; GFX10-NEXT:    s_waitcnt vmcnt(0)
+; GFX10-NEXT:    v_cndmask_b32_e32 v23, v49, v36, vcc_lo
+; GFX10-NEXT:    v_lshrrev_b32_e32 v36, 16, v36
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v22
+; GFX10-NEXT:    v_lshrrev_b32_e32 v49, 16, v53
+; GFX10-NEXT:    v_cndmask_b32_e32 v22, v37, v36, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v20
+; GFX10-NEXT:    v_lshrrev_b32_e32 v36, 16, v48
+; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v39
+; GFX10-NEXT:    v_cndmask_b32_e32 v20, v39, v48, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v21
+; GFX10-NEXT:    s_clause 0x1
+; GFX10-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:32
+; GFX10-NEXT:    buffer_load_dword v48, off, s[0:3], s32 offset:16
+; GFX10-NEXT:    v_cndmask_b32_e32 v21, v37, v36, vcc_lo
+; GFX10-NEXT:    s_clause 0x1
+; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:100
+; GFX10-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:36
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v16
+; GFX10-NEXT:    s_waitcnt vmcnt(0)
+; GFX10-NEXT:    v_cndmask_b32_e32 v16, v36, v37, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v14
+; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v37
+; GFX10-NEXT:    v_lshrrev_b32_e32 v36, 16, v36
+; GFX10-NEXT:    v_cndmask_b32_e32 v14, v38, v39, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v17
+; GFX10-NEXT:    v_lshrrev_b32_e32 v39, 16, v39
+; GFX10-NEXT:    v_lshrrev_b32_e32 v38, 16, v38
+; GFX10-NEXT:    v_cndmask_b32_e32 v17, v36, v37, vcc_lo
+; GFX10-NEXT:    s_clause 0x1
+; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:88
+; GFX10-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:24
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v15
+; GFX10-NEXT:    v_cndmask_b32_e32 v15, v38, v39, vcc_lo
+; GFX10-NEXT:    s_clause 0x1
+; GFX10-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:84
+; GFX10-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:20
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v10
+; GFX10-NEXT:    s_waitcnt vmcnt(2)
+; GFX10-NEXT:    v_cndmask_b32_e32 v10, v36, v37, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v8
+; GFX10-NEXT:    v_lshrrev_b32_e32 v37, 16, v37
+; GFX10-NEXT:    v_lshrrev_b32_e32 v36, 16, v36
+; GFX10-NEXT:    s_waitcnt vmcnt(0)
+; GFX10-NEXT:    v_cndmask_b32_e32 v8, v38, v39, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v6
+; GFX10-NEXT:    v_lshrrev_b32_e32 v39, 16, v39
+; GFX10-NEXT:    v_lshrrev_b32_e32 v38, 16, v38
+; GFX10-NEXT:    v_cndmask_b32_e32 v6, v53, v48, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v4
+; GFX10-NEXT:    v_lshrrev_b32_e32 v48, 16, v48
+; GFX10-NEXT:    v_cndmask_b32_e32 v4, v34, v52, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v2
+; GFX10-NEXT:    v_lshrrev_b32_e32 v34, 16, v34
+; GFX10-NEXT:    v_cndmask_b32_e32 v2, v32, v33, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v0
+; GFX10-NEXT:    v_lshrrev_b32_e32 v33, 16, v33
+; GFX10-NEXT:    v_lshrrev_b32_e32 v32, 16, v32
+; GFX10-NEXT:    v_cndmask_b32_e32 v0, v19, v31, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v11
+; GFX10-NEXT:    v_lshrrev_b32_e32 v31, 16, v31
+; GFX10-NEXT:    v_lshrrev_b32_e32 v19, 16, v19
+; GFX10-NEXT:    v_cndmask_b32_e32 v11, v36, v37, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v7
+; GFX10-NEXT:    v_cndmask_b32_e32 v7, v49, v48, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v3
+; GFX10-NEXT:    v_cndmask_b32_e32 v3, v32, v33, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v1
+; GFX10-NEXT:    v_cndmask_b32_e32 v1, v19, v31, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v5
+; GFX10-NEXT:    v_perm_b32 v0, v1, v0, 0x5040100
+; GFX10-NEXT:    v_cndmask_b32_e32 v5, v34, v50, vcc_lo
+; GFX10-NEXT:    v_cmp_eq_u32_e32 vcc_lo, 1, v9
+; GFX10-NEXT:    v_perm_b32 v1, v3, v2, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v3, v7, v6, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v6, v30, v12, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v2, v5, v4, 0x5040100
+; GFX10-NEXT:    v_cndmask_b32_e32 v9, v38, v39, vcc_lo
+; GFX10-NEXT:    v_perm_b32 v5, v11, v10, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v7, v15, v14, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v10, v21, v20, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v11, v22, v23, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v4, v9, v8, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v8, v17, v16, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v9, v13, v18, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v12, v24, v25, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v13, v26, v27, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v14, v28, v29, 0x5040100
+; GFX10-NEXT:    v_perm_b32 v15, v35, v54, 0x5040100
 ; GFX10-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11TRUE16-LABEL: v_vselect_v32bf16:
diff --git a/llvm/test/CodeGen/AMDGPU/branch-relax-spill.ll b/llvm/test/CodeGen/AMDGPU/branch-relax-spill.ll
index dd9c9a3699b4f..05c2e0077f4ae 100644
--- a/llvm/test/CodeGen/AMDGPU/branch-relax-spill.ll
+++ b/llvm/test/CodeGen/AMDGPU/branch-relax-spill.ll
@@ -4,13 +4,13 @@
 define amdgpu_kernel void @spill(ptr addrspace(1) %arg, i32 %cnd) #0 {
 ; CHECK-LABEL: spill:
 ; CHECK:       ; %bb.0: ; %entry
-; CHECK-NEXT:    s_load_dword s44, s[8:9], 0x2
+; CHECK-NEXT:    s_load_dword s27, s[8:9], 0x2
 ; CHECK-NEXT:    s_mov_b64 s[98:99], s[2:3]
 ; CHECK-NEXT:    s_mov_b64 s[96:97], s[0:1]
 ; CHECK-NEXT:    s_add_u32 s96, s96, s15
 ; CHECK-NEXT:    s_addc_u32 s97, s97, 0
 ; CHECK-NEXT:    s_waitcnt lgkmcnt(0)
-; CHECK-NEXT:    s_cmp_eq_u32 s44, 0
+; CHECK-NEXT:    s_cmp_eq_u32 s27, 0
 ; CHECK-NEXT:    ;;#ASMSTART
 ; CHECK-NEXT:    s_mov_b32 s0, 0
 ; CHECK-NEXT:    ;;#ASMEND
@@ -971,10 +971,10 @@ define void @spill_func(ptr addrspace(1) %arg) #0 {
 ; CHECK-NEXT:    v_writelane_b32 v1, s98, 3
 ; CHECK-NEXT:    v_writelane_b32 v0, s92, 61
 ; CHECK-NEXT:    v_writelane_b32 v1, s99, 4
-; CHECK-NEXT:    s_mov_b32 s49, s12
+; CHECK-NEXT:    s_mov_b32 s31, s12
 ; CHECK-NEXT:    v_writelane_b32 v0, s93, 62
 ; CHECK-NEXT:    v_writelane_b32 v1, s100, 5
-; CHECK-NEXT:    s_cmp_eq_u32 s49, 0
+; CHECK-NEXT:    s_cmp_eq_u32 s31, 0
 ; CHECK-NEXT:    v_writelane_b32 v0, s94, 63
 ; CHECK-NEXT:    v_writelane_b32 v1, s101, 6
 ; CHECK-NEXT:    ;;#ASMSTART
diff --git a/llvm/test/CodeGen/AMDGPU/buffer-fat-pointer-atomicrmw-fadd.ll b/llvm/test/CodeGen/AMDGPU/buffer-fat-pointer-atomicrmw-fadd.ll
index e8f1619c5d418..a969e3d4f4f79 100644
--- a/llvm/test/CodeGen/AMDGPU/buffer-fat-pointer-atomicrmw-fadd.ll
+++ b/llvm/test/CodeGen/AMDGPU/buffer-fat-pointer-atomicrmw-fadd.ll
@@ -6398,8 +6398,10 @@ define <2 x half> @buffer_fat_ptr_agent_atomic_fadd_ret_v2f16__offset__amdgpu_no
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v5, v0
-; GFX8-NEXT:    v_add_f16_sdwa v0, v5, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v5
+; GFX8-NEXT:    v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v1, v5, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v4, v1, v0
 ; GFX8-NEXT:    v_mov_b32_e32 v0, v4
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v5
@@ -6625,8 +6627,10 @@ define void @buffer_fat_ptr_agent_atomic_fadd_noret_v2f16__offset__amdgpu_no_fin
 ; GFX8-NEXT:  .LBB20_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v1, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v1, 16, v2
+; GFX8-NEXT:    v_add_f16_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v4, v2, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_or_b32_e32 v1, v4, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v5, v2
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v1
@@ -7044,7 +7048,9 @@ define <2 x half> @buffer_fat_ptr_agent_atomic_fadd_ret_v2f16__offset__waterfall
 ; GFX8-NEXT:    ; =>This Loop Header: Depth=1
 ; GFX8-NEXT:    ; Child Loop BB21_4 Depth 2
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v4, v8, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v4, 16, v8
+; GFX8-NEXT:    v_add_f16_sdwa v4, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
 ; GFX8-NEXT:    v_add_f16_e32 v6, v8, v5
 ; GFX8-NEXT:    v_or_b32_e32 v7, v6, v4
 ; GFX8-NEXT:    v_mov_b32_e32 v6, v7
@@ -7390,8 +7396,10 @@ define <2 x half> @buffer_fat_ptr_agent_atomic_fadd_ret_v2f16__offset(ptr addrsp
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v5, v0
-; GFX8-NEXT:    v_add_f16_sdwa v0, v5, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v5
+; GFX8-NEXT:    v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v1, v5, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v4, v1, v0
 ; GFX8-NEXT:    v_mov_b32_e32 v0, v4
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v5
@@ -7650,8 +7658,10 @@ define void @buffer_fat_ptr_agent_atomic_fadd_noret_v2f16__offset(ptr addrspace(
 ; GFX8-NEXT:  .LBB23_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v1, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v1, 16, v2
+; GFX8-NEXT:    v_add_f16_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v4, v2, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_or_b32_e32 v1, v4, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v5, v2
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v1
@@ -7915,8 +7925,10 @@ define <2 x half> @buffer_fat_ptr_agent_atomic_fadd_ret_v2f16__offset__amdgpu_no
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v5, v0
-; GFX8-NEXT:    v_add_f16_sdwa v0, v5, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v5
+; GFX8-NEXT:    v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v1, v5, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v4, v1, v0
 ; GFX8-NEXT:    v_mov_b32_e32 v0, v4
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v5
@@ -8175,8 +8187,10 @@ define void @buffer_fat_ptr_agent_atomic_fadd_noret_v2f16__offset__amdgpu_no_rem
 ; GFX8-NEXT:  .LBB25_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v1, v2, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v1, 16, v2
+; GFX8-NEXT:    v_add_f16_sdwa v1, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v4, v2, v0
+; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; GFX8-NEXT:    v_or_b32_e32 v1, v4, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v5, v2
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v1
diff --git a/llvm/test/CodeGen/AMDGPU/buffer-fat-pointers-contents-legalization.ll b/llvm/test/CodeGen/AMDGPU/buffer-fat-pointers-contents-legalization.ll
index 4c7a4ba3a44a5..cdfaed0a203e9 100644
--- a/llvm/test/CodeGen/AMDGPU/buffer-fat-pointers-contents-legalization.ll
+++ b/llvm/test/CodeGen/AMDGPU/buffer-fat-pointers-contents-legalization.ll
@@ -2626,42 +2626,42 @@ define <32 x i8> @load_v32i8(ptr addrspace(8) inreg %buf) {
 ; SDAG-LABEL: load_v32i8:
 ; SDAG:       ; %bb.0:
 ; SDAG-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; SDAG-NEXT:    buffer_load_dwordx4 v[33:36], off, s[16:19], 0
-; SDAG-NEXT:    buffer_load_dwordx4 v[48:51], off, s[16:19], 0 offset:16
+; SDAG-NEXT:    buffer_load_dwordx4 v[36:39], off, s[16:19], 0
+; SDAG-NEXT:    buffer_load_dwordx4 v[32:35], off, s[16:19], 0 offset:16
 ; SDAG-NEXT:    s_waitcnt vmcnt(1)
-; SDAG-NEXT:    v_lshrrev_b64 v[3:4], 24, v[33:34]
-; SDAG-NEXT:    v_lshrrev_b64 v[11:12], 24, v[35:36]
-; SDAG-NEXT:    s_waitcnt vmcnt(0)
-; SDAG-NEXT:    v_lshrrev_b64 v[19:20], 24, v[48:49]
-; SDAG-NEXT:    v_lshrrev_b64 v[27:28], 24, v[50:51]
-; SDAG-NEXT:    v_lshrrev_b32_e32 v1, 8, v33
-; SDAG-NEXT:    v_lshrrev_b32_e32 v2, 16, v33
-; SDAG-NEXT:    v_lshrrev_b32_e32 v5, 8, v34
-; SDAG-NEXT:    v_lshrrev_b32_e32 v6, 16, v34
-; SDAG-NEXT:    v_lshrrev_b32_e32 v7, 24, v34
-; SDAG-NEXT:    v_lshrrev_b32_e32 v9, 8, v35
-; SDAG-NEXT:    v_lshrrev_b32_e32 v10, 16, v35
-; SDAG-NEXT:    v_lshrrev_b32_e32 v13, 8, v36
-; SDAG-NEXT:    v_lshrrev_b32_e32 v14, 16, v36
-; SDAG-NEXT:    v_lshrrev_b32_e32 v15, 24, v36
-; SDAG-NEXT:    v_lshrrev_b32_e32 v17, 8, v48
-; SDAG-NEXT:    v_lshrrev_b32_e32 v18, 16, v48
-; SDAG-NEXT:    v_lshrrev_b32_e32 v21, 8, v49
-; SDAG-NEXT:    v_lshrrev_b32_e32 v22, 16, v49
-; SDAG-NEXT:    v_lshrrev_b32_e32 v23, 24, v49
-; SDAG-NEXT:    v_lshrrev_b32_e32 v25, 8, v50
-; SDAG-NEXT:    v_lshrrev_b32_e32 v26, 16, v50
-; SDAG-NEXT:    v_lshrrev_b32_e32 v29, 8, v51
-; SDAG-NEXT:    v_lshrrev_b32_e32 v30, 16, v51
-; SDAG-NEXT:    v_lshrrev_b32_e32 v31, 24, v51
-; SDAG-NEXT:    v_mov_b32_e32 v0, v33
-; SDAG-NEXT:    v_mov_b32_e32 v4, v34
-; SDAG-NEXT:    v_mov_b32_e32 v8, v35
-; SDAG-NEXT:    v_mov_b32_e32 v12, v36
-; SDAG-NEXT:    v_mov_b32_e32 v16, v48
-; SDAG-NEXT:    v_mov_b32_e32 v20, v49
-; SDAG-NEXT:    v_mov_b32_e32 v24, v50
-; SDAG-NEXT:    v_mov_b32_e32 v28, v51
+; SDAG-NEXT:    v_lshrrev_b64 v[3:4], 24, v[36:37]
+; SDAG-NEXT:    v_lshrrev_b64 v[11:12], 24, v[38:39]
+; SDAG-NEXT:    s_waitcnt vmcnt(0)
+; SDAG-NEXT:    v_lshrrev_b64 v[19:20], 24, v[32:33]
+; SDAG-NEXT:    v_lshrrev_b64 v[27:28], 24, v[34:35]
+; SDAG-NEXT:    v_lshrrev_b32_e32 v1, 8, v36
+; SDAG-NEXT:    v_lshrrev_b32_e32 v2, 16, v36
+; SDAG-NEXT:    v_lshrrev_b32_e32 v5, 8, v37
+; SDAG-NEXT:    v_lshrrev_b32_e32 v6, 16, v37
+; SDAG-NEXT:    v_lshrrev_b32_e32 v7, 24, v37
+; SDAG-NEXT:    v_lshrrev_b32_e32 v9, 8, v38
+; SDAG-NEXT:    v_lshrrev_b32_e32 v10, 16, v38
+; SDAG-NEXT:    v_lshrrev_b32_e32 v13, 8, v39
+; SDAG-NEXT:    v_lshrrev_b32_e32 v14, 16, v39
+; SDAG-NEXT:    v_lshrrev_b32_e32 v15, 24, v39
+; SDAG-NEXT:    v_lshrrev_b32_e32 v17, 8, v32
+; SDAG-NEXT:    v_lshrrev_b32_e32 v18, 16, v32
+; SDAG-NEXT:    v_lshrrev_b32_e32 v21, 8, v33
+; SDAG-NEXT:    v_lshrrev_b32_e32 v22, 16, v33
+; SDAG-NEXT:    v_lshrrev_b32_e32 v23, 24, v33
+; SDAG-NEXT:    v_lshrrev_b32_e32 v25, 8, v34
+; SDAG-NEXT:    v_lshrrev_b32_e32 v26, 16, v34
+; SDAG-NEXT:    v_lshrrev_b32_e32 v29, 8, v35
+; SDAG-NEXT:    v_lshrrev_b32_e32 v30, 16, v35
+; SDAG-NEXT:    v_lshrrev_b32_e32 v31, 24, v35
+; SDAG-NEXT:    v_mov_b32_e32 v0, v36
+; SDAG-NEXT:    v_mov_b32_e32 v4, v37
+; SDAG-NEXT:    v_mov_b32_e32 v8, v38
+; SDAG-NEXT:    v_mov_b32_e32 v12, v39
+; SDAG-NEXT:    v_mov_b32_e32 v16, v32
+; SDAG-NEXT:    v_mov_b32_e32 v20, v33
+; SDAG-NEXT:    v_mov_b32_e32 v24, v34
+; SDAG-NEXT:    v_mov_b32_e32 v28, v35
 ; SDAG-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GISEL-LABEL: load_v32i8:
@@ -2717,47 +2717,47 @@ define void @store_v32i8(<32 x i8> %data, ptr addrspace(8) inreg %buf) {
 ; SDAG-LABEL: store_v32i8:
 ; SDAG:       ; %bb.0:
 ; SDAG-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; SDAG-NEXT:    v_lshlrev_b16_e32 v9, 8, v9
+; SDAG-NEXT:    v_or_b32_sdwa v8, v8, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    v_lshlrev_b16_e32 v9, 8, v11
+; SDAG-NEXT:    v_or_b32_sdwa v9, v10, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    buffer_load_ubyte v10, off, s[0:3], s32
 ; SDAG-NEXT:    v_lshlrev_b16_e32 v13, 8, v13
 ; SDAG-NEXT:    v_or_b32_sdwa v12, v12, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; SDAG-NEXT:    v_lshlrev_b16_e32 v13, 8, v15
-; SDAG-NEXT:    v_or_b32_sdwa v13, v14, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    buffer_load_ubyte v14, off, s[0:3], s32
 ; SDAG-NEXT:    v_lshlrev_b16_e32 v5, 8, v5
+; SDAG-NEXT:    v_lshlrev_b16_e32 v7, 8, v7
 ; SDAG-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
+; SDAG-NEXT:    v_lshlrev_b16_e32 v3, 8, v3
+; SDAG-NEXT:    v_or_b32_sdwa v13, v14, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; SDAG-NEXT:    v_or_b32_sdwa v4, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_lshlrev_b16_e32 v5, 8, v7
+; SDAG-NEXT:    v_or_b32_sdwa v5, v6, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; SDAG-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_lshlrev_b16_e32 v1, 8, v3
-; SDAG-NEXT:    v_lshlrev_b16_e32 v9, 8, v9
-; SDAG-NEXT:    v_or_b32_sdwa v5, v6, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_or_b32_sdwa v6, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_lshlrev_b16_e32 v1, 8, v29
-; SDAG-NEXT:    v_or_b32_sdwa v8, v8, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_lshlrev_b16_e32 v9, 8, v11
-; SDAG-NEXT:    v_or_b32_sdwa v7, v28, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_lshlrev_b16_e32 v1, 8, v25
-; SDAG-NEXT:    v_or_b32_sdwa v9, v10, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_or_b32_sdwa v10, v24, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_lshlrev_b16_e32 v1, 8, v27
-; SDAG-NEXT:    v_or_b32_sdwa v11, v26, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_lshlrev_b16_e32 v1, 8, v21
-; SDAG-NEXT:    v_lshlrev_b16_e32 v2, 8, v23
-; SDAG-NEXT:    v_lshlrev_b16_e32 v3, 8, v17
-; SDAG-NEXT:    v_lshlrev_b16_e32 v15, 8, v19
-; SDAG-NEXT:    v_or_b32_sdwa v17, v20, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_or_b32_sdwa v19, v22, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_or_b32_sdwa v16, v16, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v6, v2, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; SDAG-NEXT:    v_or_b32_sdwa v3, v12, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; SDAG-NEXT:    v_or_b32_sdwa v2, v8, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; SDAG-NEXT:    v_or_b32_sdwa v1, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; SDAG-NEXT:    v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; SDAG-NEXT:    v_lshlrev_b16_e32 v11, 8, v29
+; SDAG-NEXT:    v_lshlrev_b16_e32 v14, 8, v25
+; SDAG-NEXT:    v_lshlrev_b16_e32 v15, 8, v27
+; SDAG-NEXT:    v_lshlrev_b16_e32 v21, 8, v21
+; SDAG-NEXT:    v_lshlrev_b16_e32 v23, 8, v23
+; SDAG-NEXT:    v_lshlrev_b16_e32 v17, 8, v17
+; SDAG-NEXT:    v_lshlrev_b16_e32 v19, 8, v19
 ; SDAG-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0
-; SDAG-NEXT:    v_or_b32_sdwa v15, v18, v15 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; SDAG-NEXT:    v_or_b32_sdwa v5, v10, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; SDAG-NEXT:    v_or_b32_sdwa v4, v17, v19 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; SDAG-NEXT:    v_or_b32_sdwa v3, v16, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v7, v28, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v11, v24, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v14, v26, v15 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v15, v20, v21 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v20, v22, v23 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v16, v16, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v17, v18, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v5, v11, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v4, v15, v20 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; SDAG-NEXT:    v_or_b32_sdwa v3, v16, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; SDAG-NEXT:    s_waitcnt vmcnt(1)
-; SDAG-NEXT:    v_lshlrev_b16_e32 v0, 8, v14
+; SDAG-NEXT:    v_lshlrev_b16_e32 v0, 8, v10
 ; SDAG-NEXT:    v_or_b32_sdwa v0, v30, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; SDAG-NEXT:    v_or_b32_sdwa v6, v7, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; SDAG-NEXT:    buffer_store_dwordx4 v[3:6], off, s[16:19], 0 offset:16
diff --git a/llvm/test/CodeGen/AMDGPU/calling-conventions.ll b/llvm/test/CodeGen/AMDGPU/calling-conventions.ll
index 0009a84765639..56ecfa298a348 100644
--- a/llvm/test/CodeGen/AMDGPU/calling-conventions.ll
+++ b/llvm/test/CodeGen/AMDGPU/calling-conventions.ll
@@ -2487,10 +2487,10 @@ define amdgpu_cs void @amdgpu_cs_v32i1(<32 x i1> %arg0) {
 ; SI-NEXT:    v_or_b32_e32 v1, v31, v1
 ; SI-NEXT:    v_or_b32_e32 v5, v27, v5
 ; SI-NEXT:    v_or_b32_e32 v9, v23, v9
+; SI-NEXT:    v_or_b32_e32 v13, v19, v13
 ; SI-NEXT:    v_and_b32_e32 v17, 3, v28
 ; SI-NEXT:    v_and_b32_e32 v18, 3, v24
-; SI-NEXT:    v_and_b32_e32 v20, 3, v20
-; SI-NEXT:    v_or_b32_e32 v13, v19, v13
+; SI-NEXT:    v_and_b32_e32 v19, 3, v20
 ; SI-NEXT:    v_and_b32_e32 v16, 3, v16
 ; SI-NEXT:    v_or_b32_e32 v14, v15, v14
 ; SI-NEXT:    v_and_b32_e32 v12, 3, v12
@@ -2502,7 +2502,7 @@ define amdgpu_cs void @amdgpu_cs_v32i1(<32 x i1> %arg0) {
 ; SI-NEXT:    v_and_b32_e32 v0, 3, v0
 ; SI-NEXT:    v_or_b32_e32 v1, v17, v1
 ; SI-NEXT:    v_or_b32_e32 v3, v18, v5
-; SI-NEXT:    v_or_b32_e32 v5, v20, v9
+; SI-NEXT:    v_or_b32_e32 v5, v19, v9
 ; SI-NEXT:    v_or_b32_e32 v7, v16, v13
 ; SI-NEXT:    v_or_b32_e32 v9, v12, v14
 ; SI-NEXT:    v_or_b32_e32 v8, v8, v10
diff --git a/llvm/test/CodeGen/AMDGPU/dbg-value-ends-sched-region.mir b/llvm/test/CodeGen/AMDGPU/dbg-value-ends-sched-region.mir
index 00eb2b7e1aa8d..4945c7020ca18 100644
--- a/llvm/test/CodeGen/AMDGPU/dbg-value-ends-sched-region.mir
+++ b/llvm/test/CodeGen/AMDGPU/dbg-value-ends-sched-region.mir
@@ -49,39 +49,39 @@ body:             |
   ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vreg_64 = COPY $vgpr0_vgpr1
   ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vreg_64 = COPY $vgpr2_vgpr3
   ; CHECK-NEXT:   [[DEF:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF1:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF1:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[DEF2:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF3:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF3:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[DEF4:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[DEF5:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF6:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF7:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF8:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF6:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF7:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
   ; CHECK-NEXT:   undef [[V_MOV_B32_e32_:%[0-9]+]].sub0:vreg_64 = V_MOV_B32_e32 0, implicit $exec
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   undef [[V_ADD_CO_U32_e64_:%[0-9]+]].sub0:vreg_64, [[V_ADD_CO_U32_e64_1:%[0-9]+]]:sreg_64_xexec = V_ADD_CO_U32_e64 [[DEF4]].sub0, [[DEF6]].sub0, 0, implicit $exec
-  ; CHECK-NEXT:   dead undef [[V_ADD_CO_U32_e64_:%[0-9]+]].sub1:vreg_64, dead [[V_ADDC_U32_e64_:%[0-9]+]]:sreg_64_xexec = V_ADDC_U32_e64 [[DEF4]].sub1, [[DEF6]].sub1, [[V_ADD_CO_U32_e64_1]], 0, implicit $exec
-  ; CHECK-NEXT:   [[DEF4:%[0-9]+]]:vreg_64 = GLOBAL_LOAD_DWORDX2 [[DEF1]], 0, 0, implicit $exec :: (load (s64), addrspace 1)
-  ; CHECK-NEXT:   dead [[COPY2:%[0-9]+]]:vreg_64 = COPY [[DEF]]
-  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[DEF3]]
-  ; CHECK-NEXT:   dead [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[DEF2]]
-  ; CHECK-NEXT:   [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[DEF5]].sub1
+  ; CHECK-NEXT:   undef [[V_ADD_CO_U32_e64_:%[0-9]+]].sub0:vreg_64, [[V_ADD_CO_U32_e64_1:%[0-9]+]]:sreg_64_xexec = V_ADD_CO_U32_e64 [[DEF3]].sub0, [[DEF5]].sub0, 0, implicit $exec
+  ; CHECK-NEXT:   dead undef [[V_ADD_CO_U32_e64_:%[0-9]+]].sub1:vreg_64, dead [[V_ADDC_U32_e64_:%[0-9]+]]:sreg_64_xexec = V_ADDC_U32_e64 [[DEF3]].sub1, [[DEF5]].sub1, [[V_ADD_CO_U32_e64_1]], 0, implicit $exec
+  ; CHECK-NEXT:   [[DEF3:%[0-9]+]]:vreg_64 = GLOBAL_LOAD_DWORDX2 [[DEF]], 0, 0, implicit $exec :: (load (s64), addrspace 1)
+  ; CHECK-NEXT:   [[DEF8:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
+  ; CHECK-NEXT:   dead [[COPY2:%[0-9]+]]:vreg_64 = COPY [[DEF8]]
+  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[DEF2]]
+  ; CHECK-NEXT:   dead [[COPY4:%[0-9]+]]:vgpr_32 = COPY [[DEF1]]
+  ; CHECK-NEXT:   [[COPY5:%[0-9]+]]:vgpr_32 = COPY [[DEF4]].sub1
   ; CHECK-NEXT:   dead [[COPY6:%[0-9]+]]:vgpr_32 = COPY [[V_MOV_B32_e32_]].sub0
-  ; CHECK-NEXT:   dead [[V_CMP_GT_I32_e64_:%[0-9]+]]:sreg_64 = V_CMP_GT_I32_e64 4, [[DEF7]], implicit $exec
-  ; CHECK-NEXT:   GLOBAL_STORE_DWORDX2 [[COPY]], [[DEF8]], 288, 0, implicit $exec :: (store (s64), addrspace 1)
+  ; CHECK-NEXT:   dead [[V_CMP_GT_I32_e64_:%[0-9]+]]:sreg_64 = V_CMP_GT_I32_e64 4, [[DEF6]], implicit $exec
+  ; CHECK-NEXT:   GLOBAL_STORE_DWORDX2 [[COPY]], [[DEF7]], 288, 0, implicit $exec :: (store (s64), addrspace 1)
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.2:
   ; CHECK-NEXT:   successors: %bb.3(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[DEF3:%[0-9]+]]:vgpr_32 = COPY [[COPY3]]
+  ; CHECK-NEXT:   [[DEF2:%[0-9]+]]:vgpr_32 = COPY [[COPY3]]
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.3:
   ; CHECK-NEXT:   successors: %bb.2(0x40000000), %bb.4(0x40000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   undef [[DEF5:%[0-9]+]].sub1:vreg_64 = COPY [[COPY5]]
+  ; CHECK-NEXT:   undef [[DEF4:%[0-9]+]].sub1:vreg_64 = COPY [[COPY5]]
   ; CHECK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.4:
diff --git a/llvm/test/CodeGen/AMDGPU/debug-value-scheduler-crash.mir b/llvm/test/CodeGen/AMDGPU/debug-value-scheduler-crash.mir
index cdd4c72f3717f..8a1c68b3f6615 100644
--- a/llvm/test/CodeGen/AMDGPU/debug-value-scheduler-crash.mir
+++ b/llvm/test/CodeGen/AMDGPU/debug-value-scheduler-crash.mir
@@ -24,7 +24,7 @@ body:             |
   ; CHECK: bb.0:
   ; CHECK-NEXT:   successors: %bb.1(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[DEF1:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[DEF2:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[DEF3:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
@@ -32,10 +32,9 @@ body:             |
   ; CHECK-NEXT:   [[DEF5:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[DEF6:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[DEF7:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[V_MUL_F32_e32_:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 1082130432, [[DEF]], implicit $mode, implicit $exec
   ; CHECK-NEXT:   [[DEF8:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[V_MUL_F32_e32_:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 1082130432, [[DEF1]], implicit $mode, implicit $exec
   ; CHECK-NEXT:   [[DEF9:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF10:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.2(0x80000000)
@@ -51,33 +50,34 @@ body:             |
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.3:
   ; CHECK-NEXT:   [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
+  ; CHECK-NEXT:   [[DEF10:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[DEF11:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF12:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr_32 = COPY [[V_MOV_B32_e32_]]
-  ; CHECK-NEXT:   [[V_MUL_F32_e32_1:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 [[DEF7]], [[DEF7]], implicit $mode, implicit $exec
-  ; CHECK-NEXT:   [[V_MUL_F32_e32_2:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 [[DEF7]], [[DEF7]], implicit $mode, implicit $exec
+  ; CHECK-NEXT:   [[V_MUL_F32_e32_1:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 [[DEF6]], [[DEF6]], implicit $mode, implicit $exec
+  ; CHECK-NEXT:   [[V_MUL_F32_e32_2:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 [[DEF6]], [[DEF6]], implicit $mode, implicit $exec
   ; CHECK-NEXT:   [[V_MUL_F32_e32_3:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 [[V_MOV_B32_e32_]], [[V_MOV_B32_e32_]], implicit $mode, implicit $exec
   ; CHECK-NEXT:   [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 1092616192, implicit $exec
-  ; CHECK-NEXT:   [[DEF13:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF12:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
   ; CHECK-NEXT:   [[V_ADD_F32_e32_:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e32 [[V_MOV_B32_e32_]], [[V_MOV_B32_e32_]], implicit $mode, implicit $exec
-  ; CHECK-NEXT:   [[V_MUL_F32_e32_4:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 [[DEF7]], [[DEF7]], implicit $mode, implicit $exec
-  ; CHECK-NEXT:   dead [[V_MUL_F32_e32_5:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 [[V_MUL_F32_e32_4]], [[DEF13]], implicit $mode, implicit $exec
+  ; CHECK-NEXT:   [[V_MUL_F32_e32_4:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 [[DEF6]], [[DEF6]], implicit $mode, implicit $exec
+  ; CHECK-NEXT:   dead [[V_MUL_F32_e32_5:%[0-9]+]]:vgpr_32 = nofpexcept V_MUL_F32_e32 [[V_MUL_F32_e32_4]], [[DEF12]], implicit $mode, implicit $exec
   ; CHECK-NEXT:   dead [[V_MOV_B32_e32_1:%[0-9]+]]:vgpr_32 = nofpexcept V_MAC_F32_e32 [[V_ADD_F32_e32_]], [[COPY]], [[V_MOV_B32_e32_1]], implicit $mode, implicit $exec
-  ; CHECK-NEXT:   [[DEF14:%[0-9]+]]:sreg_64 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF13:%[0-9]+]]:sreg_64 = IMPLICIT_DEF
   ; CHECK-NEXT:   $sgpr4 = IMPLICIT_DEF
-  ; CHECK-NEXT:   $vgpr0 = COPY [[DEF11]]
+  ; CHECK-NEXT:   $vgpr0 = COPY [[DEF10]]
   ; CHECK-NEXT:   $vgpr0 = COPY [[V_MOV_B32_e32_]]
-  ; CHECK-NEXT:   $vgpr1 = COPY [[DEF7]]
+  ; CHECK-NEXT:   $vgpr1 = COPY [[DEF6]]
   ; CHECK-NEXT:   $vgpr0 = COPY [[V_MUL_F32_e32_1]]
   ; CHECK-NEXT:   $vgpr1 = COPY [[V_MUL_F32_e32_2]]
   ; CHECK-NEXT:   $vgpr2 = COPY [[V_MUL_F32_e32_3]]
-  ; CHECK-NEXT:   dead $sgpr30_sgpr31 = SI_CALL [[DEF14]], @foo, csr_amdgpu, implicit undef $sgpr0_sgpr1_sgpr2_sgpr3, implicit killed $sgpr4, implicit $vgpr0, implicit $vgpr1, implicit $vgpr2, implicit-def $vgpr0
-  ; CHECK-NEXT:   [[V_ADD_F32_e32_1:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e32 [[V_MUL_F32_e32_]], [[DEF8]], implicit $mode, implicit $exec
-  ; CHECK-NEXT:   [[V_ADD_F32_e32_1:%[0-9]+]]:vgpr_32 = nofpexcept V_MAC_F32_e32 [[DEF12]], [[DEF9]], [[V_ADD_F32_e32_1]], implicit $mode, implicit $exec
-  ; CHECK-NEXT:   dead [[V_MAD_F32_e64_:%[0-9]+]]:vgpr_32 = nofpexcept V_MAD_F32_e64 0, [[V_ADD_F32_e32_1]], 0, [[DEF4]], 0, [[DEF1]], 0, 0, implicit $mode, implicit $exec
-  ; CHECK-NEXT:   dead [[V_MAD_F32_e64_1:%[0-9]+]]:vgpr_32 = nofpexcept V_MAD_F32_e64 0, [[V_ADD_F32_e32_1]], 0, [[DEF5]], 0, [[DEF2]], 0, 0, implicit $mode, implicit $exec
-  ; CHECK-NEXT:   dead [[V_MAD_F32_e64_2:%[0-9]+]]:vgpr_32 = nofpexcept V_MAD_F32_e64 0, [[V_ADD_F32_e32_1]], 0, [[DEF6]], 0, [[DEF3]], 0, 0, implicit $mode, implicit $exec
-  ; CHECK-NEXT:   GLOBAL_STORE_DWORD [[DEF]], [[DEF10]], 0, 0, implicit $exec
+  ; CHECK-NEXT:   dead $sgpr30_sgpr31 = SI_CALL [[DEF13]], @foo, csr_amdgpu, implicit undef $sgpr0_sgpr1_sgpr2_sgpr3, implicit killed $sgpr4, implicit $vgpr0, implicit $vgpr1, implicit $vgpr2, implicit-def $vgpr0
+  ; CHECK-NEXT:   [[V_ADD_F32_e32_1:%[0-9]+]]:vgpr_32 = nofpexcept V_ADD_F32_e32 [[V_MUL_F32_e32_]], [[DEF7]], implicit $mode, implicit $exec
+  ; CHECK-NEXT:   [[V_ADD_F32_e32_1:%[0-9]+]]:vgpr_32 = nofpexcept V_MAC_F32_e32 [[DEF11]], [[DEF8]], [[V_ADD_F32_e32_1]], implicit $mode, implicit $exec
+  ; CHECK-NEXT:   dead [[V_MAD_F32_e64_:%[0-9]+]]:vgpr_32 = nofpexcept V_MAD_F32_e64 0, [[V_ADD_F32_e32_1]], 0, [[DEF3]], 0, [[DEF]], 0, 0, implicit $mode, implicit $exec
+  ; CHECK-NEXT:   dead [[V_MAD_F32_e64_1:%[0-9]+]]:vgpr_32 = nofpexcept V_MAD_F32_e64 0, [[V_ADD_F32_e32_1]], 0, [[DEF4]], 0, [[DEF1]], 0, 0, implicit $mode, implicit $exec
+  ; CHECK-NEXT:   dead [[V_MAD_F32_e64_2:%[0-9]+]]:vgpr_32 = nofpexcept V_MAD_F32_e64 0, [[V_ADD_F32_e32_1]], 0, [[DEF5]], 0, [[DEF2]], 0, 0, implicit $mode, implicit $exec
+  ; CHECK-NEXT:   [[DEF14:%[0-9]+]]:vreg_64 = IMPLICIT_DEF
+  ; CHECK-NEXT:   GLOBAL_STORE_DWORD [[DEF14]], [[DEF9]], 0, 0, implicit $exec
   ; CHECK-NEXT:   S_ENDPGM 0
   bb.0:
     successors: %bb.1
diff --git a/llvm/test/CodeGen/AMDGPU/div_i128.ll b/llvm/test/CodeGen/AMDGPU/div_i128.ll
index d9182d7ace8bf..59bc7f332bf1e 100644
--- a/llvm/test/CodeGen/AMDGPU/div_i128.ll
+++ b/llvm/test/CodeGen/AMDGPU/div_i128.ll
@@ -152,38 +152,38 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    v_mov_b32_e32 v7, 0
 ; GFX9-NEXT:  .LBB0_3: ; %udiv-do-while
 ; GFX9-NEXT:    ; =>This Inner Loop Header: Depth=1
+; GFX9-NEXT:    v_lshlrev_b64 v[30:31], 1, v[4:5]
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v6, 31, v5
-; GFX9-NEXT:    v_lshlrev_b64 v[4:5], 1, v[4:5]
-; GFX9-NEXT:    v_lshlrev_b64 v[10:11], 1, v[10:11]
-; GFX9-NEXT:    v_or_b32_e32 v4, v14, v4
+; GFX9-NEXT:    v_or_b32_e32 v4, v14, v30
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v14, 31, v9
 ; GFX9-NEXT:    v_lshlrev_b64 v[8:9], 1, v[8:9]
+; GFX9-NEXT:    v_or_b32_e32 v5, v15, v31
+; GFX9-NEXT:    v_lshlrev_b64 v[10:11], 1, v[10:11]
+; GFX9-NEXT:    v_lshrrev_b32_e32 v15, 31, v3
+; GFX9-NEXT:    v_or_b32_e32 v8, v8, v15
 ; GFX9-NEXT:    v_or_b32_e32 v10, v10, v14
-; GFX9-NEXT:    v_lshrrev_b32_e32 v14, 31, v3
-; GFX9-NEXT:    v_or_b32_e32 v8, v8, v14
 ; GFX9-NEXT:    v_sub_co_u32_e32 v14, vcc, v26, v8
 ; GFX9-NEXT:    v_subb_co_u32_e32 v14, vcc, v27, v9, vcc
 ; GFX9-NEXT:    v_subb_co_u32_e32 v14, vcc, v28, v10, vcc
 ; GFX9-NEXT:    v_subb_co_u32_e32 v14, vcc, v29, v11, vcc
 ; GFX9-NEXT:    v_ashrrev_i32_e32 v30, 31, v14
 ; GFX9-NEXT:    v_and_b32_e32 v14, v30, v21
+; GFX9-NEXT:    v_lshlrev_b64 v[2:3], 1, v[2:3]
 ; GFX9-NEXT:    v_sub_co_u32_e32 v8, vcc, v8, v14
 ; GFX9-NEXT:    v_and_b32_e32 v14, v30, v20
 ; GFX9-NEXT:    v_subb_co_u32_e32 v9, vcc, v9, v14, vcc
-; GFX9-NEXT:    v_and_b32_e32 v14, v30, v0
-; GFX9-NEXT:    v_subb_co_u32_e32 v10, vcc, v10, v14, vcc
+; GFX9-NEXT:    v_or3_b32 v2, v2, v6, v12
+; GFX9-NEXT:    v_and_b32_e32 v6, v30, v0
 ; GFX9-NEXT:    v_and_b32_e32 v14, v30, v1
+; GFX9-NEXT:    v_subb_co_u32_e32 v10, vcc, v10, v6, vcc
 ; GFX9-NEXT:    v_subb_co_u32_e32 v11, vcc, v11, v14, vcc
 ; GFX9-NEXT:    v_add_co_u32_e32 v22, vcc, -1, v22
 ; GFX9-NEXT:    v_addc_co_u32_e32 v23, vcc, -1, v23, vcc
 ; GFX9-NEXT:    v_addc_co_u32_e32 v24, vcc, -1, v24, vcc
 ; GFX9-NEXT:    v_addc_co_u32_e32 v25, vcc, -1, v25, vcc
-; GFX9-NEXT:    v_or_b32_e32 v5, v15, v5
-; GFX9-NEXT:    v_lshlrev_b64 v[2:3], 1, v[2:3]
 ; GFX9-NEXT:    v_or_b32_e32 v14, v22, v24
 ; GFX9-NEXT:    v_or_b32_e32 v15, v23, v25
 ; GFX9-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[14:15]
-; GFX9-NEXT:    v_or3_b32 v2, v2, v6, v12
 ; GFX9-NEXT:    v_and_b32_e32 v6, 1, v30
 ; GFX9-NEXT:    v_mov_b32_e32 v15, v7
 ; GFX9-NEXT:    v_or3_b32 v3, v3, 0, v13
@@ -1227,13 +1227,13 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:    v_ashrrev_i32_e32 v16, 31, v3
 ; GFX9-G-NEXT:    v_xor_b32_e32 v0, v16, v0
 ; GFX9-G-NEXT:    v_xor_b32_e32 v1, v16, v1
-; GFX9-G-NEXT:    v_sub_co_u32_e32 v10, vcc, v0, v16
+; GFX9-G-NEXT:    v_sub_co_u32_e32 v8, vcc, v0, v16
 ; GFX9-G-NEXT:    v_xor_b32_e32 v2, v16, v2
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v11, vcc, v1, v16, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v9, vcc, v1, v16, vcc
 ; GFX9-G-NEXT:    v_ashrrev_i32_e32 v17, 31, v7
 ; GFX9-G-NEXT:    v_xor_b32_e32 v3, v16, v3
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v12, vcc, v2, v16, vcc
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v13, vcc, v3, v16, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v10, vcc, v2, v16, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v11, vcc, v3, v16, vcc
 ; GFX9-G-NEXT:    v_xor_b32_e32 v0, v17, v4
 ; GFX9-G-NEXT:    v_xor_b32_e32 v1, v17, v5
 ; GFX9-G-NEXT:    v_sub_co_u32_e32 v18, vcc, v0, v17
@@ -1245,8 +1245,8 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:    v_or_b32_e32 v0, v18, v4
 ; GFX9-G-NEXT:    v_or_b32_e32 v1, v19, v5
 ; GFX9-G-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GFX9-G-NEXT:    v_or_b32_e32 v0, v10, v12
-; GFX9-G-NEXT:    v_or_b32_e32 v1, v11, v13
+; GFX9-G-NEXT:    v_or_b32_e32 v0, v8, v10
+; GFX9-G-NEXT:    v_or_b32_e32 v1, v9, v11
 ; GFX9-G-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[0:1]
 ; GFX9-G-NEXT:    v_ffbh_u32_e32 v1, v18
 ; GFX9-G-NEXT:    v_ffbh_u32_e32 v0, v19
@@ -1258,15 +1258,15 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:    v_cmp_eq_u64_e64 s[6:7], 0, v[4:5]
 ; GFX9-G-NEXT:    v_add_u32_e32 v0, 64, v0
 ; GFX9-G-NEXT:    v_min_u32_e32 v1, v1, v2
-; GFX9-G-NEXT:    v_ffbh_u32_e32 v2, v10
+; GFX9-G-NEXT:    v_ffbh_u32_e32 v2, v8
 ; GFX9-G-NEXT:    v_cndmask_b32_e64 v0, v1, v0, s[6:7]
-; GFX9-G-NEXT:    v_ffbh_u32_e32 v1, v11
+; GFX9-G-NEXT:    v_ffbh_u32_e32 v1, v9
 ; GFX9-G-NEXT:    v_add_u32_e32 v2, 32, v2
-; GFX9-G-NEXT:    v_ffbh_u32_e32 v3, v12
+; GFX9-G-NEXT:    v_ffbh_u32_e32 v3, v10
 ; GFX9-G-NEXT:    v_min_u32_e32 v1, v1, v2
-; GFX9-G-NEXT:    v_ffbh_u32_e32 v2, v13
+; GFX9-G-NEXT:    v_ffbh_u32_e32 v2, v11
 ; GFX9-G-NEXT:    v_add_u32_e32 v3, 32, v3
-; GFX9-G-NEXT:    v_cmp_eq_u64_e64 s[6:7], 0, v[12:13]
+; GFX9-G-NEXT:    v_cmp_eq_u64_e64 s[6:7], 0, v[10:11]
 ; GFX9-G-NEXT:    v_add_u32_e32 v1, 64, v1
 ; GFX9-G-NEXT:    v_min_u32_e32 v2, v2, v3
 ; GFX9-G-NEXT:    v_cndmask_b32_e64 v1, v2, v1, s[6:7]
@@ -1291,10 +1291,10 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:    v_or_b32_e32 v14, v6, v2
 ; GFX9-G-NEXT:    v_and_b32_e32 v6, 1, v20
 ; GFX9-G-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v6
-; GFX9-G-NEXT:    v_cndmask_b32_e64 v6, v10, 0, vcc
-; GFX9-G-NEXT:    v_cndmask_b32_e64 v7, v11, 0, vcc
-; GFX9-G-NEXT:    v_cndmask_b32_e64 v8, v12, 0, vcc
-; GFX9-G-NEXT:    v_cndmask_b32_e64 v9, v13, 0, vcc
+; GFX9-G-NEXT:    v_cndmask_b32_e64 v6, v8, 0, vcc
+; GFX9-G-NEXT:    v_cndmask_b32_e64 v7, v9, 0, vcc
+; GFX9-G-NEXT:    v_cndmask_b32_e64 v12, v10, 0, vcc
+; GFX9-G-NEXT:    v_cndmask_b32_e64 v13, v11, 0, vcc
 ; GFX9-G-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[14:15]
 ; GFX9-G-NEXT:    v_cndmask_b32_e64 v14, 0, 1, vcc
 ; GFX9-G-NEXT:    v_or_b32_e32 v14, v20, v14
@@ -1309,23 +1309,23 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:    v_addc_co_u32_e32 v22, vcc, 0, v2, vcc
 ; GFX9-G-NEXT:    v_addc_co_u32_e32 v23, vcc, 0, v3, vcc
 ; GFX9-G-NEXT:    s_xor_b64 s[4:5], vcc, -1
-; GFX9-G-NEXT:    v_sub_co_u32_e32 v8, vcc, 0x7f, v0
-; GFX9-G-NEXT:    v_sub_u32_e32 v0, 64, v8
-; GFX9-G-NEXT:    v_lshrrev_b64 v[0:1], v0, v[10:11]
-; GFX9-G-NEXT:    v_lshlrev_b64 v[2:3], v8, v[12:13]
-; GFX9-G-NEXT:    v_add_u32_e32 v9, 0xffffffc0, v8
-; GFX9-G-NEXT:    v_lshlrev_b64 v[6:7], v8, v[10:11]
+; GFX9-G-NEXT:    v_sub_co_u32_e32 v12, vcc, 0x7f, v0
+; GFX9-G-NEXT:    v_sub_u32_e32 v0, 64, v12
+; GFX9-G-NEXT:    v_lshrrev_b64 v[0:1], v0, v[8:9]
+; GFX9-G-NEXT:    v_lshlrev_b64 v[2:3], v12, v[10:11]
+; GFX9-G-NEXT:    v_add_u32_e32 v13, 0xffffffc0, v12
+; GFX9-G-NEXT:    v_lshlrev_b64 v[6:7], v12, v[8:9]
 ; GFX9-G-NEXT:    v_or_b32_e32 v2, v0, v2
 ; GFX9-G-NEXT:    v_or_b32_e32 v3, v1, v3
-; GFX9-G-NEXT:    v_lshlrev_b64 v[0:1], v9, v[10:11]
-; GFX9-G-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v8
+; GFX9-G-NEXT:    v_lshlrev_b64 v[0:1], v13, v[8:9]
+; GFX9-G-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v12
 ; GFX9-G-NEXT:    v_cndmask_b32_e32 v6, 0, v6, vcc
 ; GFX9-G-NEXT:    v_cndmask_b32_e32 v7, 0, v7, vcc
 ; GFX9-G-NEXT:    v_cndmask_b32_e32 v0, v0, v2, vcc
 ; GFX9-G-NEXT:    v_cndmask_b32_e32 v1, v1, v3, vcc
-; GFX9-G-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v8
-; GFX9-G-NEXT:    v_cndmask_b32_e32 v8, v0, v12, vcc
-; GFX9-G-NEXT:    v_cndmask_b32_e32 v9, v1, v13, vcc
+; GFX9-G-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v12
+; GFX9-G-NEXT:    v_cndmask_b32_e32 v12, v0, v10, vcc
+; GFX9-G-NEXT:    v_cndmask_b32_e32 v13, v1, v11, vcc
 ; GFX9-G-NEXT:    s_mov_b64 s[10:11], s[8:9]
 ; GFX9-G-NEXT:    v_mov_b32_e32 v0, s8
 ; GFX9-G-NEXT:    v_mov_b32_e32 v1, s9
@@ -1336,13 +1336,13 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:    s_cbranch_execz .LBB0_5
 ; GFX9-G-NEXT:  ; %bb.2: ; %udiv-preheader
 ; GFX9-G-NEXT:    v_sub_u32_e32 v2, 64, v20
-; GFX9-G-NEXT:    v_lshrrev_b64 v[0:1], v20, v[10:11]
-; GFX9-G-NEXT:    v_lshlrev_b64 v[2:3], v2, v[12:13]
+; GFX9-G-NEXT:    v_lshrrev_b64 v[0:1], v20, v[8:9]
+; GFX9-G-NEXT:    v_lshlrev_b64 v[2:3], v2, v[10:11]
 ; GFX9-G-NEXT:    v_add_u32_e32 v24, 0xffffffc0, v20
-; GFX9-G-NEXT:    v_lshrrev_b64 v[14:15], v20, v[12:13]
+; GFX9-G-NEXT:    v_lshrrev_b64 v[14:15], v20, v[10:11]
 ; GFX9-G-NEXT:    v_or_b32_e32 v2, v0, v2
 ; GFX9-G-NEXT:    v_or_b32_e32 v3, v1, v3
-; GFX9-G-NEXT:    v_lshrrev_b64 v[0:1], v24, v[12:13]
+; GFX9-G-NEXT:    v_lshrrev_b64 v[0:1], v24, v[10:11]
 ; GFX9-G-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v20
 ; GFX9-G-NEXT:    v_cndmask_b32_e32 v0, v0, v2, vcc
 ; GFX9-G-NEXT:    v_cndmask_b32_e32 v1, v1, v3, vcc
@@ -1352,54 +1352,54 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:    s_mov_b64 s[8:9], 0
 ; GFX9-G-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v20
 ; GFX9-G-NEXT:    v_addc_co_u32_e32 v25, vcc, -1, v19, vcc
-; GFX9-G-NEXT:    v_cndmask_b32_e64 v12, v0, v10, s[4:5]
-; GFX9-G-NEXT:    v_cndmask_b32_e64 v13, v1, v11, s[4:5]
+; GFX9-G-NEXT:    v_cndmask_b32_e64 v10, v0, v8, s[4:5]
+; GFX9-G-NEXT:    v_cndmask_b32_e64 v11, v1, v9, s[4:5]
 ; GFX9-G-NEXT:    v_addc_co_u32_e32 v26, vcc, -1, v4, vcc
 ; GFX9-G-NEXT:    s_mov_b64 s[10:11], s[8:9]
 ; GFX9-G-NEXT:    v_mov_b32_e32 v0, s8
 ; GFX9-G-NEXT:    v_addc_co_u32_e32 v27, vcc, -1, v5, vcc
-; GFX9-G-NEXT:    v_mov_b32_e32 v11, 0
+; GFX9-G-NEXT:    v_mov_b32_e32 v9, 0
 ; GFX9-G-NEXT:    v_mov_b32_e32 v1, s9
 ; GFX9-G-NEXT:    v_mov_b32_e32 v2, s10
 ; GFX9-G-NEXT:    v_mov_b32_e32 v3, s11
 ; GFX9-G-NEXT:  .LBB0_3: ; %udiv-do-while
 ; GFX9-G-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX9-G-NEXT:    v_lshlrev_b64 v[2:3], 1, v[6:7]
-; GFX9-G-NEXT:    v_lshrrev_b32_e32 v10, 31, v7
+; GFX9-G-NEXT:    v_lshrrev_b32_e32 v8, 31, v7
 ; GFX9-G-NEXT:    v_or_b32_e32 v6, v0, v2
 ; GFX9-G-NEXT:    v_or_b32_e32 v7, v1, v3
-; GFX9-G-NEXT:    v_lshlrev_b64 v[2:3], 1, v[12:13]
-; GFX9-G-NEXT:    v_lshrrev_b32_e32 v12, 31, v9
+; GFX9-G-NEXT:    v_lshlrev_b64 v[2:3], 1, v[10:11]
+; GFX9-G-NEXT:    v_lshrrev_b32_e32 v10, 31, v13
 ; GFX9-G-NEXT:    v_lshlrev_b64 v[0:1], 1, v[14:15]
-; GFX9-G-NEXT:    v_or_b32_e32 v2, v2, v12
-; GFX9-G-NEXT:    v_lshrrev_b32_e32 v14, 31, v13
-; GFX9-G-NEXT:    v_sub_co_u32_e32 v12, vcc, v24, v2
+; GFX9-G-NEXT:    v_or_b32_e32 v2, v2, v10
+; GFX9-G-NEXT:    v_lshrrev_b32_e32 v14, 31, v11
+; GFX9-G-NEXT:    v_sub_co_u32_e32 v10, vcc, v24, v2
 ; GFX9-G-NEXT:    v_or_b32_e32 v0, v0, v14
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v12, vcc, v25, v3, vcc
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v12, vcc, v26, v0, vcc
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v12, vcc, v27, v1, vcc
-; GFX9-G-NEXT:    v_ashrrev_i32_e32 v28, 31, v12
-; GFX9-G-NEXT:    v_and_b32_e32 v12, v28, v18
-; GFX9-G-NEXT:    v_sub_co_u32_e32 v12, vcc, v2, v12
-; GFX9-G-NEXT:    v_and_b32_e32 v2, v28, v19
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v13, vcc, v3, v2, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v10, vcc, v25, v3, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v10, vcc, v26, v0, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v10, vcc, v27, v1, vcc
+; GFX9-G-NEXT:    v_ashrrev_i32_e32 v28, 31, v10
+; GFX9-G-NEXT:    v_and_b32_e32 v10, v28, v18
+; GFX9-G-NEXT:    v_and_b32_e32 v11, v28, v19
+; GFX9-G-NEXT:    v_sub_co_u32_e32 v10, vcc, v2, v10
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v11, vcc, v3, v11, vcc
 ; GFX9-G-NEXT:    v_and_b32_e32 v2, v28, v4
+; GFX9-G-NEXT:    v_and_b32_e32 v3, v28, v5
 ; GFX9-G-NEXT:    v_subb_co_u32_e32 v14, vcc, v0, v2, vcc
-; GFX9-G-NEXT:    v_and_b32_e32 v0, v28, v5
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v15, vcc, v1, v0, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v15, vcc, v1, v3, vcc
 ; GFX9-G-NEXT:    v_add_co_u32_e32 v20, vcc, -1, v20
 ; GFX9-G-NEXT:    v_addc_co_u32_e32 v21, vcc, -1, v21, vcc
 ; GFX9-G-NEXT:    v_addc_co_u32_e32 v22, vcc, -1, v22, vcc
 ; GFX9-G-NEXT:    v_addc_co_u32_e32 v23, vcc, -1, v23, vcc
-; GFX9-G-NEXT:    v_lshlrev_b64 v[8:9], 1, v[8:9]
+; GFX9-G-NEXT:    v_lshlrev_b64 v[12:13], 1, v[12:13]
 ; GFX9-G-NEXT:    v_or_b32_e32 v0, v20, v22
 ; GFX9-G-NEXT:    v_or_b32_e32 v1, v21, v23
 ; GFX9-G-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GFX9-G-NEXT:    v_or_b32_e32 v8, v8, v10
-; GFX9-G-NEXT:    v_and_b32_e32 v10, 1, v28
-; GFX9-G-NEXT:    v_mov_b32_e32 v0, v10
+; GFX9-G-NEXT:    v_or_b32_e32 v12, v12, v8
+; GFX9-G-NEXT:    v_and_b32_e32 v8, 1, v28
+; GFX9-G-NEXT:    v_mov_b32_e32 v0, v8
 ; GFX9-G-NEXT:    s_or_b64 s[8:9], vcc, s[8:9]
-; GFX9-G-NEXT:    v_mov_b32_e32 v1, v11
+; GFX9-G-NEXT:    v_mov_b32_e32 v1, v9
 ; GFX9-G-NEXT:    s_andn2_b64 exec, exec, s[8:9]
 ; GFX9-G-NEXT:    s_cbranch_execnz .LBB0_3
 ; GFX9-G-NEXT:  ; %bb.4: ; %Flow
@@ -1407,9 +1407,9 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:  .LBB0_5: ; %Flow2
 ; GFX9-G-NEXT:    s_or_b64 exec, exec, s[12:13]
 ; GFX9-G-NEXT:    v_lshlrev_b64 v[2:3], 1, v[6:7]
-; GFX9-G-NEXT:    v_lshlrev_b64 v[8:9], 1, v[8:9]
+; GFX9-G-NEXT:    v_lshlrev_b64 v[12:13], 1, v[12:13]
 ; GFX9-G-NEXT:    v_lshrrev_b32_e32 v4, 31, v7
-; GFX9-G-NEXT:    v_or_b32_e32 v8, v8, v4
+; GFX9-G-NEXT:    v_or_b32_e32 v12, v12, v4
 ; GFX9-G-NEXT:    v_or_b32_e32 v6, v0, v2
 ; GFX9-G-NEXT:    v_or_b32_e32 v7, v1, v3
 ; GFX9-G-NEXT:  .LBB0_6: ; %Flow3
@@ -1418,9 +1418,9 @@ define i128 @v_sdiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:    v_xor_b32_e32 v0, v6, v3
 ; GFX9-G-NEXT:    v_xor_b32_e32 v1, v7, v3
 ; GFX9-G-NEXT:    v_sub_co_u32_e32 v0, vcc, v0, v3
-; GFX9-G-NEXT:    v_xor_b32_e32 v2, v8, v3
+; GFX9-G-NEXT:    v_xor_b32_e32 v2, v12, v3
 ; GFX9-G-NEXT:    v_subb_co_u32_e32 v1, vcc, v1, v3, vcc
-; GFX9-G-NEXT:    v_xor_b32_e32 v4, v9, v3
+; GFX9-G-NEXT:    v_xor_b32_e32 v4, v13, v3
 ; GFX9-G-NEXT:    v_subb_co_u32_e32 v2, vcc, v2, v3, vcc
 ; GFX9-G-NEXT:    v_subb_co_u32_e32 v3, vcc, v4, v3, vcc
 ; GFX9-G-NEXT:    s_setpc_b64 s[30:31]
@@ -2439,16 +2439,15 @@ define i128 @v_udiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    v_mov_b32_e32 v13, 0
 ; GFX9-NEXT:  .LBB1_3: ; %udiv-do-while
 ; GFX9-NEXT:    ; =>This Inner Loop Header: Depth=1
-; GFX9-NEXT:    v_lshlrev_b64 v[26:27], 1, v[10:11]
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v12, 31, v11
-; GFX9-NEXT:    v_or_b32_e32 v10, v16, v26
+; GFX9-NEXT:    v_lshlrev_b64 v[10:11], 1, v[10:11]
+; GFX9-NEXT:    v_lshlrev_b64 v[2:3], 1, v[2:3]
+; GFX9-NEXT:    v_or_b32_e32 v10, v16, v10
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v16, 31, v1
 ; GFX9-NEXT:    v_lshlrev_b64 v[0:1], 1, v[0:1]
-; GFX9-NEXT:    v_or_b32_e32 v11, v17, v27
-; GFX9-NEXT:    v_lshlrev_b64 v[2:3], 1, v[2:3]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v17, 31, v9
-; GFX9-NEXT:    v_or_b32_e32 v0, v0, v17
 ; GFX9-NEXT:    v_or_b32_e32 v2, v2, v16
+; GFX9-NEXT:    v_lshrrev_b32_e32 v16, 31, v9
+; GFX9-NEXT:    v_or_b32_e32 v0, v0, v16
 ; GFX9-NEXT:    v_sub_co_u32_e32 v16, vcc, v22, v0
 ; GFX9-NEXT:    v_subb_co_u32_e32 v16, vcc, v23, v1, vcc
 ; GFX9-NEXT:    v_subb_co_u32_e32 v16, vcc, v24, v2, vcc
@@ -2457,20 +2456,21 @@ define i128 @v_udiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    v_and_b32_e32 v16, v26, v4
 ; GFX9-NEXT:    v_sub_co_u32_e32 v0, vcc, v0, v16
 ; GFX9-NEXT:    v_and_b32_e32 v16, v26, v5
-; GFX9-NEXT:    v_lshlrev_b64 v[8:9], 1, v[8:9]
 ; GFX9-NEXT:    v_subb_co_u32_e32 v1, vcc, v1, v16, vcc
 ; GFX9-NEXT:    v_and_b32_e32 v16, v26, v6
-; GFX9-NEXT:    v_or3_b32 v8, v8, v12, v14
-; GFX9-NEXT:    v_and_b32_e32 v12, v26, v7
 ; GFX9-NEXT:    v_subb_co_u32_e32 v2, vcc, v2, v16, vcc
-; GFX9-NEXT:    v_subb_co_u32_e32 v3, vcc, v3, v12, vcc
+; GFX9-NEXT:    v_and_b32_e32 v16, v26, v7
+; GFX9-NEXT:    v_subb_co_u32_e32 v3, vcc, v3, v16, vcc
 ; GFX9-NEXT:    v_add_co_u32_e32 v18, vcc, -1, v18
 ; GFX9-NEXT:    v_addc_co_u32_e32 v19, vcc, -1, v19, vcc
 ; GFX9-NEXT:    v_addc_co_u32_e32 v20, vcc, -1, v20, vcc
 ; GFX9-NEXT:    v_addc_co_u32_e32 v21, vcc, -1, v21, vcc
+; GFX9-NEXT:    v_or_b32_e32 v11, v17, v11
+; GFX9-NEXT:    v_lshlrev_b64 v[8:9], 1, v[8:9]
 ; GFX9-NEXT:    v_or_b32_e32 v16, v18, v20
 ; GFX9-NEXT:    v_or_b32_e32 v17, v19, v21
 ; GFX9-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[16:17]
+; GFX9-NEXT:    v_or3_b32 v8, v8, v12, v14
 ; GFX9-NEXT:    v_and_b32_e32 v12, 1, v26
 ; GFX9-NEXT:    v_mov_b32_e32 v17, v13
 ; GFX9-NEXT:    v_or3_b32 v9, v9, 0, v15
@@ -3506,37 +3506,37 @@ define i128 @v_udiv_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-G-NEXT:    v_lshrrev_b32_e32 v0, 31, v15
 ; GFX9-G-NEXT:    v_or_b32_e32 v14, v10, v12
 ; GFX9-G-NEXT:    v_or_b32_e32 v15, v11, v13
-; GFX9-G-NEXT:    v_lshlrev_b64 v[12:13], 1, v[16:17]
-; GFX9-G-NEXT:    v_lshlrev_b64 v[10:11], 1, v[2:3]
-; GFX9-G-NEXT:    v_lshrrev_b32_e32 v2, 31, v3
-; GFX9-G-NEXT:    v_or_b32_e32 v12, v12, v2
-; GFX9-G-NEXT:    v_lshrrev_b32_e32 v2, 31, v9
-; GFX9-G-NEXT:    v_lshlrev_b64 v[8:9], 1, v[8:9]
-; GFX9-G-NEXT:    v_or_b32_e32 v2, v10, v2
-; GFX9-G-NEXT:    v_or_b32_e32 v8, v8, v0
-; GFX9-G-NEXT:    v_sub_co_u32_e32 v0, vcc, v22, v2
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v0, vcc, v23, v11, vcc
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v0, vcc, v24, v12, vcc
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v0, vcc, v25, v13, vcc
-; GFX9-G-NEXT:    v_add_co_u32_e64 v18, s[4:5], -1, v18
-; GFX9-G-NEXT:    v_ashrrev_i32_e32 v3, 31, v0
-; GFX9-G-NEXT:    v_addc_co_u32_e64 v19, s[4:5], -1, v19, s[4:5]
-; GFX9-G-NEXT:    v_and_b32_e32 v10, v3, v4
-; GFX9-G-NEXT:    v_addc_co_u32_e64 v20, s[4:5], -1, v20, s[4:5]
-; GFX9-G-NEXT:    v_and_b32_e32 v16, v3, v5
-; GFX9-G-NEXT:    v_sub_co_u32_e32 v2, vcc, v2, v10
-; GFX9-G-NEXT:    v_addc_co_u32_e64 v21, s[4:5], -1, v21, s[4:5]
-; GFX9-G-NEXT:    v_and_b32_e32 v0, 1, v3
-; GFX9-G-NEXT:    v_and_b32_e32 v17, v3, v6
-; GFX9-G-NEXT:    v_and_b32_e32 v26, v3, v7
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v3, vcc, v11, v16, vcc
+; GFX9-G-NEXT:    v_lshlrev_b64 v[10:11], 1, v[16:17]
+; GFX9-G-NEXT:    v_lshrrev_b32_e32 v12, 31, v3
+; GFX9-G-NEXT:    v_lshlrev_b64 v[2:3], 1, v[2:3]
+; GFX9-G-NEXT:    v_or_b32_e32 v10, v10, v12
+; GFX9-G-NEXT:    v_lshrrev_b32_e32 v12, 31, v9
+; GFX9-G-NEXT:    v_or_b32_e32 v2, v2, v12
+; GFX9-G-NEXT:    v_sub_co_u32_e32 v12, vcc, v22, v2
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v12, vcc, v23, v3, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v12, vcc, v24, v10, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v12, vcc, v25, v11, vcc
+; GFX9-G-NEXT:    v_ashrrev_i32_e32 v12, 31, v12
+; GFX9-G-NEXT:    v_and_b32_e32 v13, v12, v4
+; GFX9-G-NEXT:    v_and_b32_e32 v16, v12, v5
+; GFX9-G-NEXT:    v_sub_co_u32_e32 v2, vcc, v2, v13
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v3, vcc, v3, v16, vcc
+; GFX9-G-NEXT:    v_and_b32_e32 v13, v12, v6
+; GFX9-G-NEXT:    v_and_b32_e32 v17, v12, v7
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v16, vcc, v10, v13, vcc
+; GFX9-G-NEXT:    v_subb_co_u32_e32 v17, vcc, v11, v17, vcc
+; GFX9-G-NEXT:    v_add_co_u32_e32 v18, vcc, -1, v18
+; GFX9-G-NEXT:    v_addc_co_u32_e32 v19, vcc, -1, v19, vcc
+; GFX9-G-NEXT:    v_addc_co_u32_e32 v20, vcc, -1, v20, vcc
+; GFX9-G-NEXT:    v_addc_co_u32_e32 v21, vcc, -1, v21, vcc
 ; GFX9-G-NEXT:    v_or_b32_e32 v10, v18, v20
 ; GFX9-G-NEXT:    v_or_b32_e32 v11, v19, v21
-; GFX9-G-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[10:11]
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v16, vcc, v12, v17, vcc
+; GFX9-G-NEXT:    v_lshlrev_b64 v[8:9], 1, v[8:9]
+; GFX9-G-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[10:11]
+; GFX9-G-NEXT:    v_or_b32_e32 v8, v8, v0
+; GFX9-G-NEXT:    v_and_b32_e32 v0, 1, v12
 ; GFX9-G-NEXT:    v_mov_b32_e32 v11, v1
-; GFX9-G-NEXT:    v_subb_co_u32_e32 v17, vcc, v13, v26, vcc
-; GFX9-G-NEXT:    s_or_b64 s[8:9], s[4:5], s[8:9]
+; GFX9-G-NEXT:    s_or_b64 s[8:9], vcc, s[8:9]
 ; GFX9-G-NEXT:    v_mov_b32_e32 v10, v0
 ; GFX9-G-NEXT:    s_andn2_b64 exec, exec, s[8:9]
 ; GFX9-G-NEXT:    s_cbranch_execnz .LBB1_3
diff --git a/llvm/test/CodeGen/AMDGPU/div_v2i128.ll b/llvm/test/CodeGen/AMDGPU/div_v2i128.ll
index 691f3d36bc736..8d65fa053eaa4 100644
--- a/llvm/test/CodeGen/AMDGPU/div_v2i128.ll
+++ b/llvm/test/CodeGen/AMDGPU/div_v2i128.ll
@@ -6,430 +6,430 @@ define <2 x i128> @v_sdiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-LABEL: v_sdiv_v2i128_vv:
 ; SDAG:       ; %bb.0: ; %_udiv-special-cases_udiv-special-cases
 ; SDAG-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; SDAG-NEXT:    v_ashrrev_i32_e32 v26, 31, v3
-; SDAG-NEXT:    v_ashrrev_i32_e32 v27, 31, v11
 ; SDAG-NEXT:    v_sub_i32_e32 v16, vcc, 0, v0
-; SDAG-NEXT:    v_mov_b32_e32 v19, 0
+; SDAG-NEXT:    v_mov_b32_e32 v18, 0
+; SDAG-NEXT:    v_ashrrev_i32_e32 v24, 31, v3
+; SDAG-NEXT:    v_ashrrev_i32_e32 v25, 31, v11
 ; SDAG-NEXT:    s_mov_b64 s[10:11], 0x7f
-; SDAG-NEXT:    v_mov_b32_e32 v28, v26
-; SDAG-NEXT:    v_mov_b32_e32 v29, v27
 ; SDAG-NEXT:    v_subb_u32_e32 v17, vcc, 0, v1, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v18, vcc, 0, v2, vcc
+; SDAG-NEXT:    v_mov_b32_e32 v26, v24
+; SDAG-NEXT:    v_mov_b32_e32 v27, v25
+; SDAG-NEXT:    v_subb_u32_e32 v19, vcc, 0, v2, vcc
 ; SDAG-NEXT:    v_cmp_gt_i64_e64 s[4:5], 0, v[2:3]
-; SDAG-NEXT:    v_cndmask_b32_e64 v17, v1, v17, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v16, v0, v16, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v21, v1, v17, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v20, v0, v16, s[4:5]
 ; SDAG-NEXT:    v_subb_u32_e32 v0, vcc, 0, v3, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v2, v2, v18, s[4:5]
-; SDAG-NEXT:    v_ffbh_u32_e32 v1, v16
-; SDAG-NEXT:    v_ffbh_u32_e32 v18, v17
-; SDAG-NEXT:    v_cndmask_b32_e64 v3, v3, v0, s[4:5]
-; SDAG-NEXT:    v_sub_i32_e32 v20, vcc, 0, v8
-; SDAG-NEXT:    v_or_b32_e32 v0, v16, v2
-; SDAG-NEXT:    v_ffbh_u32_e32 v21, v2
-; SDAG-NEXT:    v_add_i32_e64 v22, s[4:5], 32, v1
+; SDAG-NEXT:    v_cndmask_b32_e64 v16, v2, v19, s[4:5]
+; SDAG-NEXT:    v_ffbh_u32_e32 v1, v20
+; SDAG-NEXT:    v_ffbh_u32_e32 v2, v21
+; SDAG-NEXT:    v_cndmask_b32_e64 v17, v3, v0, s[4:5]
+; SDAG-NEXT:    v_or_b32_e32 v0, v20, v16
+; SDAG-NEXT:    v_sub_i32_e32 v3, vcc, 0, v8
+; SDAG-NEXT:    v_add_i32_e64 v19, s[4:5], 32, v1
+; SDAG-NEXT:    v_ffbh_u32_e32 v22, v16
+; SDAG-NEXT:    v_or_b32_e32 v1, v21, v17
 ; SDAG-NEXT:    v_subb_u32_e32 v23, vcc, 0, v9, vcc
-; SDAG-NEXT:    v_or_b32_e32 v1, v17, v3
-; SDAG-NEXT:    v_add_i32_e64 v21, s[4:5], 32, v21
-; SDAG-NEXT:    v_min_u32_e32 v18, v22, v18
-; SDAG-NEXT:    v_ffbh_u32_e32 v22, v3
-; SDAG-NEXT:    v_cmp_gt_i64_e64 s[4:5], 0, v[10:11]
-; SDAG-NEXT:    v_cndmask_b32_e64 v30, v9, v23, s[4:5]
-; SDAG-NEXT:    v_subb_u32_e32 v9, vcc, 0, v10, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v31, v8, v20, s[4:5]
-; SDAG-NEXT:    v_cmp_eq_u64_e64 s[6:7], 0, v[0:1]
-; SDAG-NEXT:    v_min_u32_e32 v1, v21, v22
-; SDAG-NEXT:    v_add_i32_e64 v8, s[8:9], 64, v18
-; SDAG-NEXT:    v_addc_u32_e64 v18, s[8:9], 0, 0, s[8:9]
-; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, 0, v11, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v0, v10, v9, s[4:5]
-; SDAG-NEXT:    v_ffbh_u32_e32 v9, v31
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[2:3]
-; SDAG-NEXT:    v_cndmask_b32_e64 v10, v18, 0, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v18, v8, v1, vcc
-; SDAG-NEXT:    v_ffbh_u32_e32 v21, v30
-; SDAG-NEXT:    v_cndmask_b32_e64 v1, v11, v20, s[4:5]
-; SDAG-NEXT:    v_or_b32_e32 v8, v31, v0
+; SDAG-NEXT:    v_min_u32_e32 v2, v19, v2
+; SDAG-NEXT:    v_add_i32_e64 v19, s[4:5], 32, v22
+; SDAG-NEXT:    v_ffbh_u32_e32 v22, v17
+; SDAG-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[0:1]
+; SDAG-NEXT:    v_cmp_gt_i64_e64 s[6:7], 0, v[10:11]
+; SDAG-NEXT:    v_cndmask_b32_e64 v28, v9, v23, s[6:7]
+; SDAG-NEXT:    v_subb_u32_e32 v0, vcc, 0, v10, vcc
+; SDAG-NEXT:    v_cndmask_b32_e64 v29, v8, v3, s[6:7]
+; SDAG-NEXT:    v_min_u32_e32 v1, v19, v22
+; SDAG-NEXT:    v_add_i32_e64 v2, s[8:9], 64, v2
+; SDAG-NEXT:    v_addc_u32_e64 v3, s[8:9], 0, 0, s[8:9]
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, 0, v11, vcc
+; SDAG-NEXT:    v_cndmask_b32_e64 v0, v10, v0, s[6:7]
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[16:17]
+; SDAG-NEXT:    v_cndmask_b32_e64 v9, v3, 0, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v10, v2, v1, vcc
+; SDAG-NEXT:    v_ffbh_u32_e32 v3, v29
+; SDAG-NEXT:    v_ffbh_u32_e32 v19, v28
+; SDAG-NEXT:    v_cndmask_b32_e64 v1, v11, v8, s[6:7]
+; SDAG-NEXT:    v_or_b32_e32 v2, v29, v0
+; SDAG-NEXT:    v_add_i32_e32 v8, vcc, 32, v3
 ; SDAG-NEXT:    v_ffbh_u32_e32 v11, v0
-; SDAG-NEXT:    v_add_i32_e32 v20, vcc, 32, v9
-; SDAG-NEXT:    v_or_b32_e32 v9, v30, v1
+; SDAG-NEXT:    v_or_b32_e32 v3, v28, v1
+; SDAG-NEXT:    v_min_u32_e32 v8, v8, v19
 ; SDAG-NEXT:    v_add_i32_e32 v11, vcc, 32, v11
-; SDAG-NEXT:    v_min_u32_e32 v20, v20, v21
-; SDAG-NEXT:    v_ffbh_u32_e32 v21, v1
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[8:9]
-; SDAG-NEXT:    v_min_u32_e32 v8, v11, v21
-; SDAG-NEXT:    v_add_i32_e64 v9, s[4:5], 64, v20
-; SDAG-NEXT:    v_addc_u32_e64 v11, s[4:5], 0, 0, s[4:5]
-; SDAG-NEXT:    s_or_b64 s[6:7], vcc, s[6:7]
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[0:1]
-; SDAG-NEXT:    v_cndmask_b32_e64 v11, v11, 0, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v8, v9, v8, vcc
-; SDAG-NEXT:    v_sub_i32_e32 v8, vcc, v8, v18
-; SDAG-NEXT:    v_subb_u32_e32 v9, vcc, v11, v10, vcc
-; SDAG-NEXT:    v_xor_b32_e32 v10, 0x7f, v8
-; SDAG-NEXT:    v_subbrev_u32_e32 v18, vcc, 0, v19, vcc
-; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[10:11], v[8:9]
-; SDAG-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[4:5]
-; SDAG-NEXT:    v_subbrev_u32_e32 v19, vcc, 0, v19, vcc
-; SDAG-NEXT:    v_or_b32_e32 v10, v10, v18
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
-; SDAG-NEXT:    v_cndmask_b32_e64 v21, 0, 1, vcc
-; SDAG-NEXT:    v_or_b32_e32 v11, v9, v19
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[18:19]
-; SDAG-NEXT:    v_cndmask_b32_e32 v20, v21, v20, vcc
+; SDAG-NEXT:    v_ffbh_u32_e32 v19, v1
+; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[2:3]
+; SDAG-NEXT:    v_min_u32_e32 v2, v11, v19
+; SDAG-NEXT:    v_add_i32_e64 v3, s[6:7], 64, v8
+; SDAG-NEXT:    v_addc_u32_e64 v8, s[6:7], 0, 0, s[6:7]
+; SDAG-NEXT:    v_cmp_ne_u64_e64 s[6:7], 0, v[0:1]
+; SDAG-NEXT:    v_cndmask_b32_e64 v8, v8, 0, s[6:7]
+; SDAG-NEXT:    v_cndmask_b32_e64 v2, v3, v2, s[6:7]
+; SDAG-NEXT:    s_or_b64 s[6:7], vcc, s[4:5]
+; SDAG-NEXT:    v_sub_i32_e32 v2, vcc, v2, v10
+; SDAG-NEXT:    v_subb_u32_e32 v3, vcc, v8, v9, vcc
+; SDAG-NEXT:    v_xor_b32_e32 v8, 0x7f, v2
+; SDAG-NEXT:    v_subbrev_u32_e32 v10, vcc, 0, v18, vcc
+; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[10:11], v[2:3]
+; SDAG-NEXT:    v_cndmask_b32_e64 v19, 0, 1, s[4:5]
+; SDAG-NEXT:    v_subbrev_u32_e32 v11, vcc, 0, v18, vcc
+; SDAG-NEXT:    v_or_b32_e32 v8, v8, v10
+; SDAG-NEXT:    v_or_b32_e32 v9, v3, v11
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[10:11]
-; SDAG-NEXT:    v_and_b32_e32 v10, 1, v20
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v10
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[8:9]
+; SDAG-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[10:11]
+; SDAG-NEXT:    v_cndmask_b32_e64 v8, v18, v19, s[4:5]
+; SDAG-NEXT:    v_and_b32_e32 v8, 1, v8
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v8
 ; SDAG-NEXT:    s_or_b64 s[4:5], s[6:7], s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v20, v3, 0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, v17, 0, s[4:5]
 ; SDAG-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
-; SDAG-NEXT:    v_cndmask_b32_e64 v21, v2, 0, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v22, v17, 0, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v23, v16, 0, s[4:5]
-; SDAG-NEXT:    s_and_b64 s[4:5], s[6:7], vcc
-; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v22, v16, 0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v19, v21, 0, s[4:5]
+; SDAG-NEXT:    s_and_b64 s[8:9], s[6:7], vcc
+; SDAG-NEXT:    v_cndmask_b32_e64 v23, v20, 0, s[4:5]
+; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[8:9]
 ; SDAG-NEXT:    s_cbranch_execz .LBB0_6
 ; SDAG-NEXT:  ; %bb.1: ; %udiv-bb15
-; SDAG-NEXT:    v_add_i32_e32 v32, vcc, 1, v8
-; SDAG-NEXT:    v_sub_i32_e64 v20, s[4:5], 63, v8
+; SDAG-NEXT:    v_add_i32_e32 v30, vcc, 1, v2
+; SDAG-NEXT:    v_sub_i32_e64 v18, s[4:5], 63, v2
+; SDAG-NEXT:    v_mov_b32_e32 v8, 0
+; SDAG-NEXT:    v_mov_b32_e32 v9, 0
+; SDAG-NEXT:    v_addc_u32_e32 v31, vcc, 0, v3, vcc
+; SDAG-NEXT:    v_lshl_b64 v[18:19], v[20:21], v18
+; SDAG-NEXT:    v_addc_u32_e32 v32, vcc, 0, v10, vcc
+; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, 0, v11, vcc
+; SDAG-NEXT:    v_or_b32_e32 v10, v30, v32
+; SDAG-NEXT:    v_sub_i32_e32 v34, vcc, 0x7f, v2
+; SDAG-NEXT:    v_or_b32_e32 v11, v31, v33
+; SDAG-NEXT:    v_lshl_b64 v[2:3], v[16:17], v34
+; SDAG-NEXT:    v_sub_i32_e32 v35, vcc, 64, v34
+; SDAG-NEXT:    v_lshl_b64 v[22:23], v[20:21], v34
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[10:11]
+; SDAG-NEXT:    v_lshr_b64 v[10:11], v[20:21], v35
+; SDAG-NEXT:    v_or_b32_e32 v3, v3, v11
+; SDAG-NEXT:    v_or_b32_e32 v2, v2, v10
+; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v34
+; SDAG-NEXT:    v_cndmask_b32_e64 v3, v19, v3, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v2, v18, v2, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v19, 0, v23, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, 0, v22, s[4:5]
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v34
+; SDAG-NEXT:    v_cndmask_b32_e64 v3, v3, v17, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v2, v2, v16, s[4:5]
 ; SDAG-NEXT:    v_mov_b32_e32 v10, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v11, 0
-; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, 0, v9, vcc
-; SDAG-NEXT:    v_lshl_b64 v[20:21], v[16:17], v20
-; SDAG-NEXT:    v_addc_u32_e32 v34, vcc, 0, v18, vcc
-; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, 0, v19, vcc
-; SDAG-NEXT:    v_or_b32_e32 v18, v32, v34
-; SDAG-NEXT:    v_sub_i32_e32 v24, vcc, 0x7f, v8
-; SDAG-NEXT:    v_or_b32_e32 v19, v33, v35
-; SDAG-NEXT:    v_lshl_b64 v[8:9], v[2:3], v24
-; SDAG-NEXT:    v_sub_i32_e32 v25, vcc, 64, v24
-; SDAG-NEXT:    v_lshl_b64 v[22:23], v[16:17], v24
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
-; SDAG-NEXT:    v_lshr_b64 v[18:19], v[16:17], v25
-; SDAG-NEXT:    v_or_b32_e32 v9, v9, v19
-; SDAG-NEXT:    v_or_b32_e32 v8, v8, v18
-; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v24
-; SDAG-NEXT:    v_cndmask_b32_e64 v9, v21, v9, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v8, v20, v8, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v21, 0, v23, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v20, 0, v22, s[4:5]
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v24
-; SDAG-NEXT:    v_cndmask_b32_e64 v9, v9, v3, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v8, v8, v2, s[4:5]
-; SDAG-NEXT:    v_mov_b32_e32 v18, 0
-; SDAG-NEXT:    v_mov_b32_e32 v19, 0
 ; SDAG-NEXT:    s_and_saveexec_b64 s[4:5], vcc
 ; SDAG-NEXT:    s_xor_b64 s[8:9], exec, s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB0_5
 ; SDAG-NEXT:  ; %bb.2: ; %udiv-preheader4
-; SDAG-NEXT:    v_lshr_b64 v[10:11], v[16:17], v32
-; SDAG-NEXT:    v_sub_i32_e32 v37, vcc, 64, v32
-; SDAG-NEXT:    v_subrev_i32_e32 v48, vcc, 64, v32
-; SDAG-NEXT:    v_lshr_b64 v[24:25], v[2:3], v32
-; SDAG-NEXT:    v_add_i32_e32 v36, vcc, -1, v31
-; SDAG-NEXT:    s_mov_b64 s[10:11], 0
-; SDAG-NEXT:    v_mov_b32_e32 v22, 0
-; SDAG-NEXT:    v_mov_b32_e32 v23, 0
-; SDAG-NEXT:    v_mov_b32_e32 v18, 0
-; SDAG-NEXT:    v_mov_b32_e32 v19, 0
-; SDAG-NEXT:    v_lshl_b64 v[38:39], v[2:3], v37
-; SDAG-NEXT:    v_lshr_b64 v[2:3], v[2:3], v48
-; SDAG-NEXT:    v_addc_u32_e32 v37, vcc, -1, v30, vcc
-; SDAG-NEXT:    v_or_b32_e32 v11, v11, v39
-; SDAG-NEXT:    v_or_b32_e32 v10, v10, v38
-; SDAG-NEXT:    v_addc_u32_e32 v38, vcc, -1, v0, vcc
-; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v32
-; SDAG-NEXT:    v_cndmask_b32_e64 v3, v3, v11, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v2, v2, v10, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v25, 0, v25, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v24, 0, v24, s[4:5]
-; SDAG-NEXT:    v_addc_u32_e32 v39, vcc, -1, v1, vcc
-; SDAG-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v32
-; SDAG-NEXT:    v_cndmask_b32_e32 v3, v3, v17, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v2, v2, v16, vcc
+; SDAG-NEXT:    v_lshr_b64 v[8:9], v[20:21], v30
+; SDAG-NEXT:    v_sub_i32_e32 v10, vcc, 64, v30
+; SDAG-NEXT:    v_lshl_b64 v[10:11], v[16:17], v10
+; SDAG-NEXT:    v_or_b32_e32 v11, v9, v11
+; SDAG-NEXT:    v_or_b32_e32 v10, v8, v10
+; SDAG-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v30
+; SDAG-NEXT:    v_subrev_i32_e64 v8, s[4:5], 64, v30
+; SDAG-NEXT:    v_lshr_b64 v[8:9], v[16:17], v8
+; SDAG-NEXT:    v_cndmask_b32_e32 v9, v9, v11, vcc
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v30
+; SDAG-NEXT:    v_cndmask_b32_e64 v21, v9, v21, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e32 v8, v8, v10, vcc
+; SDAG-NEXT:    v_cndmask_b32_e64 v20, v8, v20, s[4:5]
+; SDAG-NEXT:    v_lshr_b64 v[8:9], v[16:17], v30
+; SDAG-NEXT:    v_cndmask_b32_e32 v23, 0, v9, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v22, 0, v8, vcc
+; SDAG-NEXT:    v_add_i32_e32 v34, vcc, -1, v29
+; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, -1, v28, vcc
+; SDAG-NEXT:    v_addc_u32_e32 v36, vcc, -1, v0, vcc
+; SDAG-NEXT:    v_addc_u32_e32 v37, vcc, -1, v1, vcc
+; SDAG-NEXT:    s_mov_b64 s[4:5], 0
+; SDAG-NEXT:    v_mov_b32_e32 v16, 0
+; SDAG-NEXT:    v_mov_b32_e32 v17, 0
+; SDAG-NEXT:    v_mov_b32_e32 v10, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v11, 0
+; SDAG-NEXT:    v_mov_b32_e32 v9, 0
 ; SDAG-NEXT:  .LBB0_3: ; %udiv-do-while3
 ; SDAG-NEXT:    ; =>This Inner Loop Header: Depth=1
-; SDAG-NEXT:    v_lshl_b64 v[16:17], v[24:25], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v10, 31, v3
-; SDAG-NEXT:    v_lshl_b64 v[2:3], v[2:3], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v24, 31, v9
-; SDAG-NEXT:    v_lshl_b64 v[8:9], v[8:9], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v25, 31, v21
+; SDAG-NEXT:    v_lshrrev_b32_e32 v8, 31, v19
+; SDAG-NEXT:    v_lshl_b64 v[18:19], v[18:19], 1
+; SDAG-NEXT:    v_lshl_b64 v[22:23], v[22:23], 1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v38, 31, v21
 ; SDAG-NEXT:    v_lshl_b64 v[20:21], v[20:21], 1
-; SDAG-NEXT:    v_or_b32_e32 v16, v16, v10
-; SDAG-NEXT:    v_or_b32_e32 v2, v2, v24
-; SDAG-NEXT:    v_or_b32_e32 v8, v8, v25
-; SDAG-NEXT:    v_or_b32_e32 v9, v19, v9
-; SDAG-NEXT:    v_sub_i32_e32 v10, vcc, v36, v2
-; SDAG-NEXT:    v_or_b32_e32 v8, v18, v8
-; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, v37, v3, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, v38, v16, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, v39, v17, vcc
-; SDAG-NEXT:    v_ashrrev_i32_e32 v24, 31, v10
-; SDAG-NEXT:    v_and_b32_e32 v25, v24, v31
-; SDAG-NEXT:    v_and_b32_e32 v48, v24, v30
-; SDAG-NEXT:    v_and_b32_e32 v49, v24, v0
-; SDAG-NEXT:    v_and_b32_e32 v10, 1, v24
-; SDAG-NEXT:    v_and_b32_e32 v50, v24, v1
-; SDAG-NEXT:    v_sub_i32_e32 v2, vcc, v2, v25
-; SDAG-NEXT:    v_subb_u32_e32 v3, vcc, v3, v48, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v24, vcc, v16, v49, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v25, vcc, v17, v50, vcc
-; SDAG-NEXT:    v_add_i32_e32 v32, vcc, -1, v32
+; SDAG-NEXT:    v_lshrrev_b32_e32 v39, 31, v3
+; SDAG-NEXT:    v_lshl_b64 v[2:3], v[2:3], 1
+; SDAG-NEXT:    v_or_b32_e32 v19, v17, v19
+; SDAG-NEXT:    v_or_b32_e32 v18, v16, v18
+; SDAG-NEXT:    v_or_b32_e32 v16, v22, v38
+; SDAG-NEXT:    v_or_b32_e32 v17, v20, v39
+; SDAG-NEXT:    v_or_b32_e32 v2, v2, v8
+; SDAG-NEXT:    v_sub_i32_e32 v8, vcc, v34, v17
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, v35, v21, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, v36, v16, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, v37, v23, vcc
+; SDAG-NEXT:    v_ashrrev_i32_e32 v8, 31, v8
+; SDAG-NEXT:    v_and_b32_e32 v20, v8, v29
+; SDAG-NEXT:    v_and_b32_e32 v22, v8, v28
+; SDAG-NEXT:    v_and_b32_e32 v38, v8, v0
+; SDAG-NEXT:    v_and_b32_e32 v39, v8, v1
+; SDAG-NEXT:    v_and_b32_e32 v8, 1, v8
+; SDAG-NEXT:    v_sub_i32_e32 v20, vcc, v17, v20
+; SDAG-NEXT:    v_subb_u32_e32 v21, vcc, v21, v22, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v22, vcc, v16, v38, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v23, vcc, v23, v39, vcc
+; SDAG-NEXT:    v_add_i32_e32 v30, vcc, -1, v30
+; SDAG-NEXT:    v_addc_u32_e32 v31, vcc, -1, v31, vcc
+; SDAG-NEXT:    v_addc_u32_e32 v32, vcc, -1, v32, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, -1, v33, vcc
-; SDAG-NEXT:    v_addc_u32_e32 v34, vcc, -1, v34, vcc
-; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, -1, v35, vcc
-; SDAG-NEXT:    v_or_b32_e32 v16, v32, v34
-; SDAG-NEXT:    v_or_b32_e32 v17, v33, v35
+; SDAG-NEXT:    v_or_b32_e32 v16, v30, v32
+; SDAG-NEXT:    v_or_b32_e32 v17, v31, v33
 ; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[16:17]
-; SDAG-NEXT:    v_or_b32_e32 v21, v23, v21
-; SDAG-NEXT:    s_or_b64 s[10:11], vcc, s[10:11]
-; SDAG-NEXT:    v_or_b32_e32 v20, v22, v20
-; SDAG-NEXT:    v_mov_b32_e32 v23, v11
-; SDAG-NEXT:    v_mov_b32_e32 v22, v10
-; SDAG-NEXT:    s_andn2_b64 exec, exec, s[10:11]
+; SDAG-NEXT:    v_or_b32_e32 v3, v11, v3
+; SDAG-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
+; SDAG-NEXT:    v_or_b32_e32 v2, v10, v2
+; SDAG-NEXT:    v_mov_b32_e32 v17, v9
+; SDAG-NEXT:    v_mov_b32_e32 v16, v8
+; SDAG-NEXT:    s_andn2_b64 exec, exec, s[4:5]
 ; SDAG-NEXT:    s_cbranch_execnz .LBB0_3
 ; SDAG-NEXT:  ; %bb.4: ; %Flow13
-; SDAG-NEXT:    s_or_b64 exec, exec, s[10:11]
+; SDAG-NEXT:    s_or_b64 exec, exec, s[4:5]
 ; SDAG-NEXT:  .LBB0_5: ; %Flow14
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[8:9]
-; SDAG-NEXT:    v_lshl_b64 v[0:1], v[8:9], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v8, 31, v21
-; SDAG-NEXT:    v_lshl_b64 v[2:3], v[20:21], 1
-; SDAG-NEXT:    v_or_b32_e32 v0, v0, v8
-; SDAG-NEXT:    v_or_b32_e32 v20, v19, v1
-; SDAG-NEXT:    v_or_b32_e32 v22, v11, v3
-; SDAG-NEXT:    v_or_b32_e32 v21, v18, v0
-; SDAG-NEXT:    v_or_b32_e32 v23, v10, v2
+; SDAG-NEXT:    v_lshl_b64 v[0:1], v[2:3], 1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v16, 31, v19
+; SDAG-NEXT:    v_lshl_b64 v[2:3], v[18:19], 1
+; SDAG-NEXT:    v_or_b32_e32 v0, v0, v16
+; SDAG-NEXT:    v_or_b32_e32 v18, v11, v1
+; SDAG-NEXT:    v_or_b32_e32 v19, v9, v3
+; SDAG-NEXT:    v_or_b32_e32 v22, v10, v0
+; SDAG-NEXT:    v_or_b32_e32 v23, v8, v2
 ; SDAG-NEXT:  .LBB0_6: ; %Flow16
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[6:7]
 ; SDAG-NEXT:    v_ashrrev_i32_e32 v16, 31, v7
 ; SDAG-NEXT:    v_ashrrev_i32_e32 v17, 31, v15
 ; SDAG-NEXT:    v_sub_i32_e32 v0, vcc, 0, v4
-; SDAG-NEXT:    v_mov_b32_e32 v9, 0
+; SDAG-NEXT:    v_mov_b32_e32 v8, 0
 ; SDAG-NEXT:    s_mov_b64 s[10:11], 0x7f
-; SDAG-NEXT:    v_mov_b32_e32 v18, v16
-; SDAG-NEXT:    v_mov_b32_e32 v19, v17
+; SDAG-NEXT:    v_mov_b32_e32 v20, v16
+; SDAG-NEXT:    v_mov_b32_e32 v21, v17
 ; SDAG-NEXT:    v_subb_u32_e32 v1, vcc, 0, v5, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, 0, v6, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v9, vcc, 0, v6, vcc
 ; SDAG-NEXT:    v_cmp_gt_i64_e64 s[4:5], 0, v[6:7]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v3, v5, v1, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v2, v4, v0, s[4:5]
 ; SDAG-NEXT:    v_subb_u32_e32 v0, vcc, 0, v7, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v4, v6, v8, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v6, v6, v9, s[4:5]
 ; SDAG-NEXT:    v_ffbh_u32_e32 v1, v2
-; SDAG-NEXT:    v_ffbh_u32_e32 v6, v3
-; SDAG-NEXT:    v_cndmask_b32_e64 v5, v7, v0, s[4:5]
-; SDAG-NEXT:    v_sub_i32_e32 v7, vcc, 0, v12
-; SDAG-NEXT:    v_or_b32_e32 v0, v2, v4
-; SDAG-NEXT:    v_ffbh_u32_e32 v8, v4
+; SDAG-NEXT:    v_ffbh_u32_e32 v4, v3
+; SDAG-NEXT:    v_cndmask_b32_e64 v7, v7, v0, s[4:5]
+; SDAG-NEXT:    v_sub_i32_e32 v5, vcc, 0, v12
+; SDAG-NEXT:    v_or_b32_e32 v0, v2, v6
+; SDAG-NEXT:    v_ffbh_u32_e32 v9, v6
 ; SDAG-NEXT:    v_add_i32_e64 v10, s[4:5], 32, v1
 ; SDAG-NEXT:    v_subb_u32_e32 v11, vcc, 0, v13, vcc
-; SDAG-NEXT:    v_or_b32_e32 v1, v3, v5
-; SDAG-NEXT:    v_add_i32_e64 v8, s[4:5], 32, v8
-; SDAG-NEXT:    v_ffbh_u32_e32 v30, v5
-; SDAG-NEXT:    v_min_u32_e32 v6, v10, v6
+; SDAG-NEXT:    v_or_b32_e32 v1, v3, v7
+; SDAG-NEXT:    v_add_i32_e64 v9, s[4:5], 32, v9
+; SDAG-NEXT:    v_ffbh_u32_e32 v30, v7
+; SDAG-NEXT:    v_min_u32_e32 v4, v10, v4
 ; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, 0, v14, vcc
 ; SDAG-NEXT:    v_cmp_gt_i64_e64 s[4:5], 0, v[14:15]
-; SDAG-NEXT:    v_cndmask_b32_e64 v24, v13, v11, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v25, v12, v7, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v28, v13, v11, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v29, v12, v5, s[4:5]
 ; SDAG-NEXT:    v_cmp_eq_u64_e64 s[6:7], 0, v[0:1]
-; SDAG-NEXT:    v_min_u32_e32 v1, v8, v30
-; SDAG-NEXT:    v_add_i32_e64 v6, s[8:9], 64, v6
-; SDAG-NEXT:    v_addc_u32_e64 v7, s[8:9], 0, 0, s[8:9]
-; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, 0, v15, vcc
+; SDAG-NEXT:    v_min_u32_e32 v1, v9, v30
+; SDAG-NEXT:    v_add_i32_e64 v4, s[8:9], 64, v4
+; SDAG-NEXT:    v_addc_u32_e64 v5, s[8:9], 0, 0, s[8:9]
+; SDAG-NEXT:    v_subb_u32_e32 v9, vcc, 0, v15, vcc
 ; SDAG-NEXT:    v_cndmask_b32_e64 v0, v14, v10, s[4:5]
-; SDAG-NEXT:    v_ffbh_u32_e32 v10, v25
-; SDAG-NEXT:    v_ffbh_u32_e32 v11, v24
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v12, v7, 0, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v13, v6, v1, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v1, v15, v8, s[4:5]
-; SDAG-NEXT:    v_or_b32_e32 v6, v25, v0
-; SDAG-NEXT:    v_ffbh_u32_e32 v8, v0
+; SDAG-NEXT:    v_ffbh_u32_e32 v10, v29
+; SDAG-NEXT:    v_ffbh_u32_e32 v11, v28
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[6:7]
+; SDAG-NEXT:    v_cndmask_b32_e64 v12, v5, 0, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v13, v4, v1, vcc
+; SDAG-NEXT:    v_cndmask_b32_e64 v1, v15, v9, s[4:5]
+; SDAG-NEXT:    v_or_b32_e32 v4, v29, v0
+; SDAG-NEXT:    v_ffbh_u32_e32 v9, v0
 ; SDAG-NEXT:    v_add_i32_e32 v10, vcc, 32, v10
-; SDAG-NEXT:    v_or_b32_e32 v7, v24, v1
-; SDAG-NEXT:    v_add_i32_e32 v8, vcc, 32, v8
+; SDAG-NEXT:    v_or_b32_e32 v5, v28, v1
+; SDAG-NEXT:    v_add_i32_e32 v9, vcc, 32, v9
 ; SDAG-NEXT:    v_ffbh_u32_e32 v14, v1
 ; SDAG-NEXT:    v_min_u32_e32 v10, v10, v11
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[6:7]
-; SDAG-NEXT:    v_min_u32_e32 v6, v8, v14
-; SDAG-NEXT:    v_add_i32_e64 v7, s[4:5], 64, v10
-; SDAG-NEXT:    v_addc_u32_e64 v8, s[4:5], 0, 0, s[4:5]
+; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[4:5]
+; SDAG-NEXT:    v_min_u32_e32 v4, v9, v14
+; SDAG-NEXT:    v_add_i32_e64 v5, s[4:5], 64, v10
+; SDAG-NEXT:    v_addc_u32_e64 v9, s[4:5], 0, 0, s[4:5]
 ; SDAG-NEXT:    s_or_b64 s[6:7], vcc, s[6:7]
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[0:1]
-; SDAG-NEXT:    v_cndmask_b32_e64 v8, v8, 0, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v6, v7, v6, vcc
-; SDAG-NEXT:    v_sub_i32_e32 v6, vcc, v6, v13
-; SDAG-NEXT:    v_subb_u32_e32 v7, vcc, v8, v12, vcc
-; SDAG-NEXT:    v_xor_b32_e32 v10, 0x7f, v6
-; SDAG-NEXT:    v_subbrev_u32_e32 v8, vcc, 0, v9, vcc
-; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[10:11], v[6:7]
+; SDAG-NEXT:    v_cndmask_b32_e64 v9, v9, 0, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v4, v5, v4, vcc
+; SDAG-NEXT:    v_sub_i32_e32 v4, vcc, v4, v13
+; SDAG-NEXT:    v_subb_u32_e32 v5, vcc, v9, v12, vcc
+; SDAG-NEXT:    v_xor_b32_e32 v9, 0x7f, v4
+; SDAG-NEXT:    v_subbrev_u32_e32 v10, vcc, 0, v8, vcc
+; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[10:11], v[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v12, 0, 1, s[4:5]
-; SDAG-NEXT:    v_subbrev_u32_e32 v9, vcc, 0, v9, vcc
-; SDAG-NEXT:    v_or_b32_e32 v10, v10, v8
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[8:9]
+; SDAG-NEXT:    v_subbrev_u32_e32 v11, vcc, 0, v8, vcc
+; SDAG-NEXT:    v_or_b32_e32 v8, v9, v10
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[10:11]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v13, 0, 1, vcc
-; SDAG-NEXT:    v_or_b32_e32 v11, v7, v9
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[8:9]
+; SDAG-NEXT:    v_or_b32_e32 v9, v5, v11
+; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[10:11]
 ; SDAG-NEXT:    v_cndmask_b32_e32 v12, v13, v12, vcc
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[10:11]
-; SDAG-NEXT:    v_and_b32_e32 v10, 1, v12
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v10
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[8:9]
+; SDAG-NEXT:    v_and_b32_e32 v8, 1, v12
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v8
 ; SDAG-NEXT:    s_or_b64 s[4:5], s[6:7], s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v13, v5, 0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v13, v7, 0, s[4:5]
 ; SDAG-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
-; SDAG-NEXT:    v_cndmask_b32_e64 v11, v4, 0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v9, v6, 0, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v14, v3, 0, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v10, v2, 0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v8, v2, 0, s[4:5]
 ; SDAG-NEXT:    s_and_b64 s[4:5], s[6:7], vcc
 ; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB0_12
 ; SDAG-NEXT:  ; %bb.7: ; %udiv-bb1
-; SDAG-NEXT:    v_add_i32_e32 v30, vcc, 1, v6
-; SDAG-NEXT:    v_sub_i32_e64 v12, s[4:5], 63, v6
-; SDAG-NEXT:    v_mov_b32_e32 v10, 0
-; SDAG-NEXT:    v_mov_b32_e32 v11, 0
-; SDAG-NEXT:    v_addc_u32_e32 v31, vcc, 0, v7, vcc
+; SDAG-NEXT:    v_add_i32_e32 v30, vcc, 1, v4
+; SDAG-NEXT:    v_sub_i32_e64 v12, s[4:5], 63, v4
+; SDAG-NEXT:    v_mov_b32_e32 v8, 0
+; SDAG-NEXT:    v_mov_b32_e32 v9, 0
+; SDAG-NEXT:    v_addc_u32_e32 v31, vcc, 0, v5, vcc
 ; SDAG-NEXT:    v_lshl_b64 v[12:13], v[2:3], v12
-; SDAG-NEXT:    v_addc_u32_e32 v32, vcc, 0, v8, vcc
-; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, 0, v9, vcc
-; SDAG-NEXT:    v_or_b32_e32 v7, v30, v32
-; SDAG-NEXT:    v_sub_i32_e32 v9, vcc, 0x7f, v6
-; SDAG-NEXT:    v_or_b32_e32 v8, v31, v33
-; SDAG-NEXT:    v_lshl_b64 v[14:15], v[4:5], v9
-; SDAG-NEXT:    v_sub_i32_e32 v6, vcc, 64, v9
-; SDAG-NEXT:    v_lshl_b64 v[34:35], v[2:3], v9
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[7:8]
-; SDAG-NEXT:    v_lshr_b64 v[6:7], v[2:3], v6
-; SDAG-NEXT:    v_or_b32_e32 v7, v15, v7
-; SDAG-NEXT:    v_or_b32_e32 v6, v14, v6
-; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v9
-; SDAG-NEXT:    v_cndmask_b32_e64 v8, v13, v7, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v12, v12, v6, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v7, 0, v35, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v6, 0, v34, s[4:5]
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v9
-; SDAG-NEXT:    v_cndmask_b32_e64 v9, v8, v5, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v8, v12, v4, s[4:5]
+; SDAG-NEXT:    v_addc_u32_e32 v32, vcc, 0, v10, vcc
+; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, 0, v11, vcc
+; SDAG-NEXT:    v_or_b32_e32 v10, v30, v32
+; SDAG-NEXT:    v_sub_i32_e32 v34, vcc, 0x7f, v4
+; SDAG-NEXT:    v_or_b32_e32 v11, v31, v33
+; SDAG-NEXT:    v_lshl_b64 v[4:5], v[6:7], v34
+; SDAG-NEXT:    v_sub_i32_e32 v35, vcc, 64, v34
+; SDAG-NEXT:    v_lshl_b64 v[14:15], v[2:3], v34
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[10:11]
+; SDAG-NEXT:    v_lshr_b64 v[10:11], v[2:3], v35
+; SDAG-NEXT:    v_or_b32_e32 v5, v5, v11
+; SDAG-NEXT:    v_or_b32_e32 v4, v4, v10
+; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v34
+; SDAG-NEXT:    v_cndmask_b32_e64 v5, v13, v5, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v4, v12, v4, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v11, 0, v15, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v10, 0, v14, s[4:5]
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v34
+; SDAG-NEXT:    v_cndmask_b32_e64 v5, v5, v7, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v4, v4, v6, s[4:5]
 ; SDAG-NEXT:    v_mov_b32_e32 v12, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v13, 0
 ; SDAG-NEXT:    s_and_saveexec_b64 s[4:5], vcc
 ; SDAG-NEXT:    s_xor_b64 s[8:9], exec, s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB0_11
 ; SDAG-NEXT:  ; %bb.8: ; %udiv-preheader
-; SDAG-NEXT:    v_lshr_b64 v[10:11], v[2:3], v30
+; SDAG-NEXT:    v_lshr_b64 v[8:9], v[2:3], v30
 ; SDAG-NEXT:    v_sub_i32_e32 v35, vcc, 64, v30
 ; SDAG-NEXT:    v_subrev_i32_e32 v36, vcc, 64, v30
-; SDAG-NEXT:    v_lshr_b64 v[37:38], v[4:5], v30
-; SDAG-NEXT:    v_add_i32_e32 v34, vcc, -1, v25
+; SDAG-NEXT:    v_lshr_b64 v[37:38], v[6:7], v30
+; SDAG-NEXT:    v_add_i32_e32 v34, vcc, -1, v29
 ; SDAG-NEXT:    s_mov_b64 s[10:11], 0
 ; SDAG-NEXT:    v_mov_b32_e32 v14, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v15, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v12, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v13, 0
-; SDAG-NEXT:    v_lshl_b64 v[48:49], v[4:5], v35
-; SDAG-NEXT:    v_lshr_b64 v[4:5], v[4:5], v36
-; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, -1, v24, vcc
-; SDAG-NEXT:    v_or_b32_e32 v11, v11, v49
-; SDAG-NEXT:    v_or_b32_e32 v10, v10, v48
+; SDAG-NEXT:    v_lshl_b64 v[48:49], v[6:7], v35
+; SDAG-NEXT:    v_lshr_b64 v[6:7], v[6:7], v36
+; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, -1, v28, vcc
+; SDAG-NEXT:    v_or_b32_e32 v9, v9, v49
+; SDAG-NEXT:    v_or_b32_e32 v8, v8, v48
 ; SDAG-NEXT:    v_addc_u32_e32 v36, vcc, -1, v0, vcc
 ; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v30
-; SDAG-NEXT:    v_cndmask_b32_e64 v11, v5, v11, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v10, v4, v10, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v5, 0, v38, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v4, 0, v37, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v9, v7, v9, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v8, v6, v8, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v7, 0, v38, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v6, 0, v37, s[4:5]
 ; SDAG-NEXT:    v_addc_u32_e32 v37, vcc, -1, v1, vcc
 ; SDAG-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v30
-; SDAG-NEXT:    v_cndmask_b32_e32 v3, v11, v3, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v2, v10, v2, vcc
-; SDAG-NEXT:    v_mov_b32_e32 v11, 0
+; SDAG-NEXT:    v_cndmask_b32_e32 v3, v9, v3, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v2, v8, v2, vcc
+; SDAG-NEXT:    v_mov_b32_e32 v9, 0
 ; SDAG-NEXT:  .LBB0_9: ; %udiv-do-while
 ; SDAG-NEXT:    ; =>This Inner Loop Header: Depth=1
-; SDAG-NEXT:    v_lshl_b64 v[4:5], v[4:5], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v10, 31, v3
-; SDAG-NEXT:    v_lshl_b64 v[2:3], v[2:3], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v38, 31, v9
-; SDAG-NEXT:    v_lshl_b64 v[8:9], v[8:9], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v39, 31, v7
 ; SDAG-NEXT:    v_lshl_b64 v[6:7], v[6:7], 1
-; SDAG-NEXT:    v_or_b32_e32 v4, v4, v10
+; SDAG-NEXT:    v_lshrrev_b32_e32 v8, 31, v3
+; SDAG-NEXT:    v_lshl_b64 v[2:3], v[2:3], 1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v38, 31, v5
+; SDAG-NEXT:    v_lshl_b64 v[4:5], v[4:5], 1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v39, 31, v11
+; SDAG-NEXT:    v_lshl_b64 v[10:11], v[10:11], 1
+; SDAG-NEXT:    v_or_b32_e32 v6, v6, v8
 ; SDAG-NEXT:    v_or_b32_e32 v2, v2, v38
-; SDAG-NEXT:    v_or_b32_e32 v8, v8, v39
-; SDAG-NEXT:    v_or_b32_e32 v9, v13, v9
-; SDAG-NEXT:    v_or_b32_e32 v7, v15, v7
-; SDAG-NEXT:    v_or_b32_e32 v8, v12, v8
-; SDAG-NEXT:    v_sub_i32_e32 v10, vcc, v34, v2
-; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, v35, v3, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, v36, v4, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, v37, v5, vcc
-; SDAG-NEXT:    v_ashrrev_i32_e32 v15, 31, v10
-; SDAG-NEXT:    v_and_b32_e32 v10, 1, v15
-; SDAG-NEXT:    v_and_b32_e32 v38, v15, v1
-; SDAG-NEXT:    v_and_b32_e32 v39, v15, v0
-; SDAG-NEXT:    v_and_b32_e32 v48, v15, v24
-; SDAG-NEXT:    v_and_b32_e32 v15, v15, v25
+; SDAG-NEXT:    v_or_b32_e32 v4, v4, v39
+; SDAG-NEXT:    v_or_b32_e32 v5, v13, v5
+; SDAG-NEXT:    v_or_b32_e32 v11, v15, v11
+; SDAG-NEXT:    v_sub_i32_e32 v8, vcc, v34, v2
+; SDAG-NEXT:    v_or_b32_e32 v4, v12, v4
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, v35, v3, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, v36, v6, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, v37, v7, vcc
+; SDAG-NEXT:    v_ashrrev_i32_e32 v8, 31, v8
+; SDAG-NEXT:    v_and_b32_e32 v15, v8, v29
+; SDAG-NEXT:    v_and_b32_e32 v38, v8, v28
+; SDAG-NEXT:    v_and_b32_e32 v39, v8, v0
+; SDAG-NEXT:    v_and_b32_e32 v48, v8, v1
 ; SDAG-NEXT:    v_sub_i32_e32 v2, vcc, v2, v15
-; SDAG-NEXT:    v_subb_u32_e32 v3, vcc, v3, v48, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v4, vcc, v4, v39, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v5, vcc, v5, v38, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v3, vcc, v3, v38, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v6, vcc, v6, v39, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v7, vcc, v7, v48, vcc
 ; SDAG-NEXT:    v_add_i32_e32 v30, vcc, -1, v30
 ; SDAG-NEXT:    v_addc_u32_e32 v31, vcc, -1, v31, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v32, vcc, -1, v32, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, -1, v33, vcc
-; SDAG-NEXT:    v_or_b32_e32 v39, v31, v33
 ; SDAG-NEXT:    v_or_b32_e32 v38, v30, v32
+; SDAG-NEXT:    v_or_b32_e32 v39, v31, v33
 ; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[38:39]
+; SDAG-NEXT:    v_and_b32_e32 v8, 1, v8
 ; SDAG-NEXT:    s_or_b64 s[10:11], vcc, s[10:11]
-; SDAG-NEXT:    v_or_b32_e32 v6, v14, v6
-; SDAG-NEXT:    v_mov_b32_e32 v15, v11
-; SDAG-NEXT:    v_mov_b32_e32 v14, v10
+; SDAG-NEXT:    v_or_b32_e32 v10, v14, v10
+; SDAG-NEXT:    v_mov_b32_e32 v15, v9
+; SDAG-NEXT:    v_mov_b32_e32 v14, v8
 ; SDAG-NEXT:    s_andn2_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:    s_cbranch_execnz .LBB0_9
 ; SDAG-NEXT:  ; %bb.10: ; %Flow
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:  .LBB0_11: ; %Flow11
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[8:9]
-; SDAG-NEXT:    v_lshl_b64 v[0:1], v[8:9], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v4, 31, v7
-; SDAG-NEXT:    v_lshl_b64 v[2:3], v[6:7], 1
+; SDAG-NEXT:    v_lshl_b64 v[0:1], v[4:5], 1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v4, 31, v11
+; SDAG-NEXT:    v_lshl_b64 v[2:3], v[10:11], 1
 ; SDAG-NEXT:    v_or_b32_e32 v0, v0, v4
 ; SDAG-NEXT:    v_or_b32_e32 v13, v13, v1
-; SDAG-NEXT:    v_or_b32_e32 v14, v11, v3
-; SDAG-NEXT:    v_or_b32_e32 v11, v12, v0
-; SDAG-NEXT:    v_or_b32_e32 v10, v10, v2
+; SDAG-NEXT:    v_or_b32_e32 v14, v9, v3
+; SDAG-NEXT:    v_or_b32_e32 v9, v12, v0
+; SDAG-NEXT:    v_or_b32_e32 v8, v8, v2
 ; SDAG-NEXT:  .LBB0_12: ; %Flow12
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[6:7]
-; SDAG-NEXT:    v_xor_b32_e32 v3, v29, v28
-; SDAG-NEXT:    v_xor_b32_e32 v2, v27, v26
-; SDAG-NEXT:    v_xor_b32_e32 v7, v19, v18
+; SDAG-NEXT:    v_xor_b32_e32 v3, v27, v26
+; SDAG-NEXT:    v_xor_b32_e32 v2, v25, v24
+; SDAG-NEXT:    v_xor_b32_e32 v7, v21, v20
 ; SDAG-NEXT:    v_xor_b32_e32 v6, v17, v16
-; SDAG-NEXT:    v_xor_b32_e32 v4, v20, v3
-; SDAG-NEXT:    v_xor_b32_e32 v5, v21, v2
-; SDAG-NEXT:    v_xor_b32_e32 v1, v22, v3
+; SDAG-NEXT:    v_xor_b32_e32 v4, v18, v3
+; SDAG-NEXT:    v_xor_b32_e32 v5, v22, v2
+; SDAG-NEXT:    v_xor_b32_e32 v1, v19, v3
 ; SDAG-NEXT:    v_xor_b32_e32 v0, v23, v2
-; SDAG-NEXT:    v_xor_b32_e32 v8, v13, v7
-; SDAG-NEXT:    v_xor_b32_e32 v9, v11, v6
+; SDAG-NEXT:    v_xor_b32_e32 v10, v13, v7
+; SDAG-NEXT:    v_xor_b32_e32 v9, v9, v6
 ; SDAG-NEXT:    v_xor_b32_e32 v11, v14, v7
 ; SDAG-NEXT:    v_sub_i32_e32 v0, vcc, v0, v2
 ; SDAG-NEXT:    v_subb_u32_e32 v1, vcc, v1, v3, vcc
 ; SDAG-NEXT:    v_subb_u32_e32 v2, vcc, v5, v2, vcc
 ; SDAG-NEXT:    v_subb_u32_e32 v3, vcc, v4, v3, vcc
-; SDAG-NEXT:    v_xor_b32_e32 v4, v10, v6
+; SDAG-NEXT:    v_xor_b32_e32 v4, v8, v6
 ; SDAG-NEXT:    v_sub_i32_e32 v4, vcc, v4, v6
 ; SDAG-NEXT:    v_subb_u32_e32 v5, vcc, v11, v7, vcc
 ; SDAG-NEXT:    v_subb_u32_e32 v6, vcc, v9, v6, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v7, vcc, v8, v7, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v7, vcc, v10, v7, vcc
 ; SDAG-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GISEL-LABEL: v_sdiv_v2i128_vv:
 ; GISEL:       ; %bb.0: ; %_udiv-special-cases_udiv-special-cases
 ; GISEL-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GISEL-NEXT:    s_mov_b64 s[8:9], 0
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v24, 31, v3
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v25, 31, v11
-; GISEL-NEXT:    v_mov_b32_e32 v20, 0x7f
-; GISEL-NEXT:    v_mov_b32_e32 v21, 0
+; GISEL-NEXT:    v_mov_b32_e32 v16, 0x7f
+; GISEL-NEXT:    v_mov_b32_e32 v17, 0
+; GISEL-NEXT:    s_mov_b64 s[8:9], 0
 ; GISEL-NEXT:    v_xor_b32_e32 v0, v24, v0
 ; GISEL-NEXT:    v_xor_b32_e32 v1, v24, v1
 ; GISEL-NEXT:    v_xor_b32_e32 v2, v24, v2
@@ -438,71 +438,71 @@ define <2 x i128> @v_sdiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_xor_b32_e32 v9, v25, v9
 ; GISEL-NEXT:    v_xor_b32_e32 v10, v25, v10
 ; GISEL-NEXT:    v_xor_b32_e32 v11, v25, v11
-; GISEL-NEXT:    v_sub_i32_e32 v16, vcc, v0, v24
-; GISEL-NEXT:    v_subb_u32_e32 v17, vcc, v1, v24, vcc
+; GISEL-NEXT:    v_sub_i32_e32 v18, vcc, v0, v24
+; GISEL-NEXT:    v_subb_u32_e32 v19, vcc, v1, v24, vcc
 ; GISEL-NEXT:    v_sub_i32_e64 v26, s[4:5], v8, v25
 ; GISEL-NEXT:    v_subb_u32_e64 v27, s[4:5], v9, v25, s[4:5]
-; GISEL-NEXT:    v_subb_u32_e32 v18, vcc, v2, v24, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v19, vcc, v3, v24, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v20, vcc, v2, v24, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v21, vcc, v3, v24, vcc
 ; GISEL-NEXT:    v_subb_u32_e64 v10, vcc, v10, v25, s[4:5]
 ; GISEL-NEXT:    v_subb_u32_e32 v11, vcc, v11, v25, vcc
 ; GISEL-NEXT:    v_ffbh_u32_e32 v8, v27
 ; GISEL-NEXT:    v_ffbh_u32_e32 v9, v26
-; GISEL-NEXT:    v_ffbh_u32_e32 v22, v17
-; GISEL-NEXT:    v_ffbh_u32_e32 v23, v16
+; GISEL-NEXT:    v_ffbh_u32_e32 v22, v18
+; GISEL-NEXT:    v_ffbh_u32_e32 v23, v19
 ; GISEL-NEXT:    v_or_b32_e32 v0, v26, v10
 ; GISEL-NEXT:    v_or_b32_e32 v1, v27, v11
-; GISEL-NEXT:    v_or_b32_e32 v2, v16, v18
-; GISEL-NEXT:    v_or_b32_e32 v3, v17, v19
+; GISEL-NEXT:    v_or_b32_e32 v2, v18, v20
+; GISEL-NEXT:    v_or_b32_e32 v3, v19, v21
 ; GISEL-NEXT:    v_add_i32_e32 v9, vcc, 32, v9
-; GISEL-NEXT:    v_ffbh_u32_e32 v28, v11
-; GISEL-NEXT:    v_ffbh_u32_e32 v29, v10
-; GISEL-NEXT:    v_add_i32_e32 v23, vcc, 32, v23
-; GISEL-NEXT:    v_ffbh_u32_e32 v30, v19
-; GISEL-NEXT:    v_ffbh_u32_e32 v31, v18
+; GISEL-NEXT:    v_add_i32_e32 v22, vcc, 32, v22
+; GISEL-NEXT:    v_ffbh_u32_e32 v28, v10
+; GISEL-NEXT:    v_ffbh_u32_e32 v29, v11
+; GISEL-NEXT:    v_ffbh_u32_e32 v30, v20
+; GISEL-NEXT:    v_ffbh_u32_e32 v31, v21
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
 ; GISEL-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[2:3]
 ; GISEL-NEXT:    v_min_u32_e32 v0, v8, v9
-; GISEL-NEXT:    v_add_i32_e64 v1, s[6:7], 32, v29
-; GISEL-NEXT:    v_min_u32_e32 v2, v22, v23
-; GISEL-NEXT:    v_add_i32_e64 v3, s[6:7], 32, v31
+; GISEL-NEXT:    v_min_u32_e32 v1, v23, v22
+; GISEL-NEXT:    v_add_i32_e64 v2, s[6:7], 32, v28
+; GISEL-NEXT:    v_add_i32_e64 v3, s[6:7], 32, v30
+; GISEL-NEXT:    v_min_u32_e32 v2, v29, v2
+; GISEL-NEXT:    v_min_u32_e32 v3, v31, v3
 ; GISEL-NEXT:    v_add_i32_e64 v0, s[6:7], 64, v0
-; GISEL-NEXT:    v_min_u32_e32 v1, v28, v1
-; GISEL-NEXT:    v_add_i32_e64 v2, s[6:7], 64, v2
-; GISEL-NEXT:    v_min_u32_e32 v3, v30, v3
+; GISEL-NEXT:    v_add_i32_e64 v1, s[6:7], 64, v1
 ; GISEL-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, s[4:5]
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e32 v0, v1, v0, vcc
-; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[18:19]
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v3, v2, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v2, v0, vcc
+; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[20:21]
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v3, v1, vcc
 ; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v0, v1
 ; GISEL-NEXT:    v_subb_u32_e64 v3, s[4:5], 0, 0, vcc
 ; GISEL-NEXT:    v_subb_u32_e64 v0, s[4:5], 0, 0, s[4:5]
 ; GISEL-NEXT:    v_subb_u32_e64 v1, s[4:5], 0, 0, s[4:5]
-; GISEL-NEXT:    v_cmp_gt_u64_e32 vcc, v[2:3], v[20:21]
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
 ; GISEL-NEXT:    v_xor_b32_e32 v8, 0x7f, v2
-; GISEL-NEXT:    v_cmp_lt_u64_e32 vcc, 0, v[0:1]
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, vcc
+; GISEL-NEXT:    v_cmp_gt_u64_e32 vcc, v[2:3], v[16:17]
+; GISEL-NEXT:    v_cndmask_b32_e64 v16, 0, 1, vcc
 ; GISEL-NEXT:    v_or_b32_e32 v8, v8, v0
 ; GISEL-NEXT:    v_or_b32_e32 v9, v3, v1
+; GISEL-NEXT:    v_cmp_lt_u64_e32 vcc, 0, v[0:1]
+; GISEL-NEXT:    v_cndmask_b32_e64 v17, 0, 1, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GISEL-NEXT:    v_cndmask_b32_e32 v20, v21, v20, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v16, v17, v16, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[8:9]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_or_b32_e32 v9, v22, v20
-; GISEL-NEXT:    v_and_b32_e32 v20, 1, v9
+; GISEL-NEXT:    v_or_b32_e32 v9, v22, v16
 ; GISEL-NEXT:    v_or_b32_e32 v8, v9, v8
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, v16, 0, vcc
-; GISEL-NEXT:    v_and_b32_e32 v22, 1, v8
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, v17, 0, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, v18, 0, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v9, v19, 0, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v22
-; GISEL-NEXT:    s_xor_b64 s[4:5], vcc, -1
-; GISEL-NEXT:    s_and_saveexec_b64 s[12:13], s[4:5]
+; GISEL-NEXT:    v_and_b32_e32 v9, 1, v9
+; GISEL-NEXT:    v_and_b32_e32 v8, 1, v8
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v9
+; GISEL-NEXT:    v_cndmask_b32_e64 v22, v18, 0, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v8
+; GISEL-NEXT:    v_cndmask_b32_e64 v8, v20, 0, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v9, v21, 0, vcc
+; GISEL-NEXT:    s_xor_b64 s[4:5], s[4:5], -1
+; GISEL-NEXT:    v_cndmask_b32_e64 v23, v19, 0, vcc
+; GISEL-NEXT:    s_and_saveexec_b64 s[6:7], s[4:5]
 ; GISEL-NEXT:    s_cbranch_execz .LBB0_6
 ; GISEL-NEXT:  ; %bb.1: ; %udiv-bb15
 ; GISEL-NEXT:    v_add_i32_e32 v28, vcc, 1, v2
@@ -511,110 +511,111 @@ define <2 x i128> @v_sdiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_not_b32_e32 v2, 63
 ; GISEL-NEXT:    v_addc_u32_e64 v30, vcc, 0, v0, s[4:5]
 ; GISEL-NEXT:    v_addc_u32_e32 v31, vcc, 0, v1, vcc
-; GISEL-NEXT:    v_add_i32_e64 v20, s[4:5], v32, v2
+; GISEL-NEXT:    v_add_i32_e64 v16, s[4:5], v32, v2
 ; GISEL-NEXT:    v_sub_i32_e64 v8, s[4:5], 64, v32
-; GISEL-NEXT:    v_lshl_b64 v[0:1], v[16:17], v32
-; GISEL-NEXT:    v_lshl_b64 v[2:3], v[18:19], v32
+; GISEL-NEXT:    v_lshl_b64 v[0:1], v[18:19], v32
+; GISEL-NEXT:    v_lshl_b64 v[2:3], v[20:21], v32
 ; GISEL-NEXT:    s_xor_b64 s[4:5], vcc, -1
-; GISEL-NEXT:    v_lshr_b64 v[8:9], v[16:17], v8
-; GISEL-NEXT:    v_lshl_b64 v[22:23], v[16:17], v20
+; GISEL-NEXT:    v_lshr_b64 v[8:9], v[18:19], v8
+; GISEL-NEXT:    v_lshl_b64 v[22:23], v[18:19], v16
 ; GISEL-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v32
-; GISEL-NEXT:    v_cndmask_b32_e32 v20, 0, v0, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v21, 0, v1, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v16, 0, v0, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v17, 0, v1, vcc
 ; GISEL-NEXT:    v_or_b32_e32 v0, v8, v2
 ; GISEL-NEXT:    v_or_b32_e32 v1, v9, v3
 ; GISEL-NEXT:    v_cndmask_b32_e32 v0, v22, v0, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v1, v23, v1, vcc
 ; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v32
-; GISEL-NEXT:    v_cndmask_b32_e32 v8, v0, v18, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v9, v1, v19, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v8, v0, v20, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v9, v1, v21, vcc
 ; GISEL-NEXT:    s_mov_b64 s[10:11], s[8:9]
 ; GISEL-NEXT:    v_mov_b32_e32 v0, s8
 ; GISEL-NEXT:    v_mov_b32_e32 v1, s9
 ; GISEL-NEXT:    v_mov_b32_e32 v2, s10
 ; GISEL-NEXT:    v_mov_b32_e32 v3, s11
-; GISEL-NEXT:    s_and_saveexec_b64 s[6:7], s[4:5]
-; GISEL-NEXT:    s_xor_b64 s[14:15], exec, s[6:7]
+; GISEL-NEXT:    s_and_saveexec_b64 s[8:9], s[4:5]
+; GISEL-NEXT:    s_xor_b64 s[12:13], exec, s[8:9]
 ; GISEL-NEXT:    s_cbranch_execz .LBB0_5
 ; GISEL-NEXT:  ; %bb.2: ; %udiv-preheader4
-; GISEL-NEXT:    v_add_i32_e32 v34, vcc, 0xffffffc0, v28
+; GISEL-NEXT:    v_add_i32_e32 v32, vcc, 0xffffffc0, v28
 ; GISEL-NEXT:    v_sub_i32_e32 v22, vcc, 64, v28
-; GISEL-NEXT:    v_lshr_b64 v[0:1], v[18:19], v28
-; GISEL-NEXT:    v_lshr_b64 v[2:3], v[16:17], v28
+; GISEL-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v28
+; GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v28
+; GISEL-NEXT:    v_lshr_b64 v[0:1], v[20:21], v28
+; GISEL-NEXT:    v_lshr_b64 v[2:3], v[18:19], v28
+; GISEL-NEXT:    v_lshl_b64 v[22:23], v[20:21], v22
+; GISEL-NEXT:    v_or_b32_e32 v22, v2, v22
+; GISEL-NEXT:    v_or_b32_e32 v23, v3, v23
+; GISEL-NEXT:    s_mov_b64 s[8:9], 0
+; GISEL-NEXT:    v_lshr_b64 v[2:3], v[20:21], v32
+; GISEL-NEXT:    v_cndmask_b32_e32 v2, v2, v22, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v3, v3, v23, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v18, v2, v18, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v19, v3, v19, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e32 v20, 0, v0, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v21, 0, v1, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v32, vcc, -1, v26
-; GISEL-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v28
-; GISEL-NEXT:    v_cmp_eq_u32_e64 s[6:7], 0, v28
 ; GISEL-NEXT:    v_addc_u32_e32 v33, vcc, -1, v27, vcc
-; GISEL-NEXT:    v_lshl_b64 v[22:23], v[18:19], v22
-; GISEL-NEXT:    v_lshr_b64 v[36:37], v[18:19], v34
-; GISEL-NEXT:    s_mov_b64 s[10:11], s[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, v0, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, v1, s[4:5]
 ; GISEL-NEXT:    v_addc_u32_e32 v34, vcc, -1, v10, vcc
-; GISEL-NEXT:    v_or_b32_e32 v0, v2, v22
-; GISEL-NEXT:    v_or_b32_e32 v1, v3, v23
 ; GISEL-NEXT:    v_addc_u32_e32 v35, vcc, -1, v11, vcc
-; GISEL-NEXT:    v_cndmask_b32_e64 v0, v36, v0, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v1, v37, v1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, v0, v16, s[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, v1, v17, s[6:7]
-; GISEL-NEXT:    v_mov_b32_e32 v17, 0
+; GISEL-NEXT:    s_mov_b64 s[10:11], s[8:9]
+; GISEL-NEXT:    v_mov_b32_e32 v23, 0
 ; GISEL-NEXT:    v_mov_b32_e32 v0, s8
 ; GISEL-NEXT:    v_mov_b32_e32 v1, s9
 ; GISEL-NEXT:    v_mov_b32_e32 v2, s10
 ; GISEL-NEXT:    v_mov_b32_e32 v3, s11
 ; GISEL-NEXT:  .LBB0_3: ; %udiv-do-while3
 ; GISEL-NEXT:    ; =>This Inner Loop Header: Depth=1
-; GISEL-NEXT:    v_lshrrev_b32_e32 v16, 31, v21
+; GISEL-NEXT:    v_lshrrev_b32_e32 v36, 31, v17
+; GISEL-NEXT:    v_lshl_b64 v[2:3], v[16:17], 1
+; GISEL-NEXT:    v_or_b32_e32 v16, v0, v2
+; GISEL-NEXT:    v_or_b32_e32 v17, v1, v3
+; GISEL-NEXT:    v_lshrrev_b32_e32 v22, 31, v19
+; GISEL-NEXT:    v_lshl_b64 v[0:1], v[18:19], 1
 ; GISEL-NEXT:    v_lshl_b64 v[2:3], v[20:21], 1
-; GISEL-NEXT:    v_lshl_b64 v[36:37], v[22:23], 1
-; GISEL-NEXT:    v_lshl_b64 v[18:19], v[18:19], 1
-; GISEL-NEXT:    v_lshrrev_b32_e32 v22, 31, v23
-; GISEL-NEXT:    v_lshrrev_b32_e32 v23, 31, v9
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v22
+; GISEL-NEXT:    v_lshrrev_b32_e32 v18, 31, v9
+; GISEL-NEXT:    v_or_b32_e32 v0, v0, v18
+; GISEL-NEXT:    v_sub_i32_e32 v18, vcc, v32, v0
+; GISEL-NEXT:    v_subb_u32_e32 v18, vcc, v33, v1, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v18, vcc, v34, v2, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v18, vcc, v35, v3, vcc
+; GISEL-NEXT:    v_ashrrev_i32_e32 v22, 31, v18
+; GISEL-NEXT:    v_and_b32_e32 v18, v22, v26
+; GISEL-NEXT:    v_sub_i32_e32 v18, vcc, v0, v18
+; GISEL-NEXT:    v_and_b32_e32 v0, v22, v27
+; GISEL-NEXT:    v_subb_u32_e32 v19, vcc, v1, v0, vcc
+; GISEL-NEXT:    v_and_b32_e32 v0, v22, v10
+; GISEL-NEXT:    v_subb_u32_e32 v20, vcc, v2, v0, vcc
+; GISEL-NEXT:    v_and_b32_e32 v0, v22, v11
+; GISEL-NEXT:    v_subb_u32_e32 v21, vcc, v3, v0, vcc
 ; GISEL-NEXT:    v_add_i32_e32 v28, vcc, -1, v28
 ; GISEL-NEXT:    v_addc_u32_e32 v29, vcc, -1, v29, vcc
-; GISEL-NEXT:    v_lshl_b64 v[8:9], v[8:9], 1
-; GISEL-NEXT:    v_or_b32_e32 v20, v0, v2
-; GISEL-NEXT:    v_or_b32_e32 v21, v1, v3
-; GISEL-NEXT:    v_or_b32_e32 v2, v18, v22
-; GISEL-NEXT:    v_or_b32_e32 v3, v36, v23
 ; GISEL-NEXT:    v_addc_u32_e32 v30, vcc, -1, v30, vcc
 ; GISEL-NEXT:    v_addc_u32_e32 v31, vcc, -1, v31, vcc
-; GISEL-NEXT:    v_or_b32_e32 v8, v8, v16
-; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v32, v3
-; GISEL-NEXT:    v_subb_u32_e32 v0, vcc, v33, v37, vcc
 ; GISEL-NEXT:    v_or_b32_e32 v0, v28, v30
 ; GISEL-NEXT:    v_or_b32_e32 v1, v29, v31
-; GISEL-NEXT:    v_subb_u32_e32 v16, vcc, v34, v2, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v16, vcc, v35, v19, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GISEL-NEXT:    v_ashrrev_i32_e32 v0, 31, v16
+; GISEL-NEXT:    v_and_b32_e32 v22, 1, v22
+; GISEL-NEXT:    v_lshl_b64 v[8:9], v[8:9], 1
 ; GISEL-NEXT:    s_or_b64 s[8:9], vcc, s[8:9]
-; GISEL-NEXT:    v_and_b32_e32 v1, v0, v26
-; GISEL-NEXT:    v_and_b32_e32 v18, v0, v27
-; GISEL-NEXT:    v_and_b32_e32 v16, 1, v0
-; GISEL-NEXT:    v_and_b32_e32 v36, v0, v10
-; GISEL-NEXT:    v_and_b32_e32 v0, v0, v11
-; GISEL-NEXT:    v_sub_i32_e32 v22, vcc, v3, v1
-; GISEL-NEXT:    v_subb_u32_e32 v23, vcc, v37, v18, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v18, vcc, v2, v36, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v19, vcc, v19, v0, vcc
-; GISEL-NEXT:    v_mov_b32_e32 v0, v16
-; GISEL-NEXT:    v_mov_b32_e32 v1, v17
+; GISEL-NEXT:    v_or_b32_e32 v8, v8, v36
+; GISEL-NEXT:    v_mov_b32_e32 v0, v22
+; GISEL-NEXT:    v_mov_b32_e32 v1, v23
 ; GISEL-NEXT:    s_andn2_b64 exec, exec, s[8:9]
 ; GISEL-NEXT:    s_cbranch_execnz .LBB0_3
 ; GISEL-NEXT:  ; %bb.4: ; %Flow13
 ; GISEL-NEXT:    s_or_b64 exec, exec, s[8:9]
 ; GISEL-NEXT:  .LBB0_5: ; %Flow14
-; GISEL-NEXT:    s_or_b64 exec, exec, s[14:15]
-; GISEL-NEXT:    v_lshl_b64 v[2:3], v[20:21], 1
+; GISEL-NEXT:    s_or_b64 exec, exec, s[12:13]
+; GISEL-NEXT:    v_lshl_b64 v[2:3], v[16:17], 1
 ; GISEL-NEXT:    v_lshl_b64 v[8:9], v[8:9], 1
-; GISEL-NEXT:    v_lshrrev_b32_e32 v10, 31, v21
+; GISEL-NEXT:    v_lshrrev_b32_e32 v10, 31, v17
 ; GISEL-NEXT:    v_or_b32_e32 v8, v8, v10
-; GISEL-NEXT:    v_or_b32_e32 v20, v0, v2
-; GISEL-NEXT:    v_or_b32_e32 v21, v1, v3
+; GISEL-NEXT:    v_or_b32_e32 v22, v0, v2
+; GISEL-NEXT:    v_or_b32_e32 v23, v1, v3
 ; GISEL-NEXT:  .LBB0_6: ; %Flow16
-; GISEL-NEXT:    s_or_b64 exec, exec, s[12:13]
+; GISEL-NEXT:    s_or_b64 exec, exec, s[6:7]
 ; GISEL-NEXT:    s_mov_b64 s[8:9], 0
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v18, 31, v7
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v19, 31, v15
@@ -630,18 +631,18 @@ define <2 x i128> @v_sdiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_xor_b32_e32 v15, v19, v15
 ; GISEL-NEXT:    v_sub_i32_e32 v6, vcc, v0, v18
 ; GISEL-NEXT:    v_subb_u32_e32 v7, vcc, v1, v18, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v22, s[4:5], v4, v19
-; GISEL-NEXT:    v_subb_u32_e64 v23, s[4:5], v5, v19, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v20, s[4:5], v4, v19
+; GISEL-NEXT:    v_subb_u32_e64 v21, s[4:5], v5, v19, s[4:5]
 ; GISEL-NEXT:    v_subb_u32_e32 v12, vcc, v2, v18, vcc
 ; GISEL-NEXT:    v_subb_u32_e32 v13, vcc, v3, v18, vcc
 ; GISEL-NEXT:    v_subb_u32_e64 v4, vcc, v14, v19, s[4:5]
 ; GISEL-NEXT:    v_subb_u32_e32 v5, vcc, v15, v19, vcc
-; GISEL-NEXT:    v_ffbh_u32_e32 v14, v23
-; GISEL-NEXT:    v_ffbh_u32_e32 v15, v22
+; GISEL-NEXT:    v_ffbh_u32_e32 v14, v21
+; GISEL-NEXT:    v_ffbh_u32_e32 v15, v20
 ; GISEL-NEXT:    v_ffbh_u32_e32 v16, v7
 ; GISEL-NEXT:    v_ffbh_u32_e32 v17, v6
-; GISEL-NEXT:    v_or_b32_e32 v0, v22, v4
-; GISEL-NEXT:    v_or_b32_e32 v1, v23, v5
+; GISEL-NEXT:    v_or_b32_e32 v0, v20, v4
+; GISEL-NEXT:    v_or_b32_e32 v1, v21, v5
 ; GISEL-NEXT:    v_or_b32_e32 v2, v6, v12
 ; GISEL-NEXT:    v_or_b32_e32 v3, v7, v13
 ; GISEL-NEXT:    v_add_i32_e32 v15, vcc, 32, v15
@@ -732,8 +733,8 @@ define <2 x i128> @v_sdiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_lshr_b64 v[0:1], v[12:13], v26
 ; GISEL-NEXT:    v_lshr_b64 v[2:3], v[6:7], v26
 ; GISEL-NEXT:    s_mov_b64 s[4:5], 0
-; GISEL-NEXT:    v_add_i32_e32 v30, vcc, -1, v22
-; GISEL-NEXT:    v_addc_u32_e32 v31, vcc, -1, v23, vcc
+; GISEL-NEXT:    v_add_i32_e32 v30, vcc, -1, v20
+; GISEL-NEXT:    v_addc_u32_e32 v31, vcc, -1, v21, vcc
 ; GISEL-NEXT:    v_lshl_b64 v[16:17], v[12:13], v16
 ; GISEL-NEXT:    v_lshr_b64 v[12:13], v[12:13], v32
 ; GISEL-NEXT:    v_addc_u32_e32 v32, vcc, -1, v4, vcc
@@ -782,8 +783,8 @@ define <2 x i128> @v_sdiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v0, 31, v6
 ; GISEL-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
 ; GISEL-NEXT:    v_and_b32_e32 v6, 1, v0
-; GISEL-NEXT:    v_and_b32_e32 v12, v0, v22
-; GISEL-NEXT:    v_and_b32_e32 v13, v0, v23
+; GISEL-NEXT:    v_and_b32_e32 v12, v0, v20
+; GISEL-NEXT:    v_and_b32_e32 v13, v0, v21
 ; GISEL-NEXT:    v_and_b32_e32 v34, v0, v4
 ; GISEL-NEXT:    v_and_b32_e32 v35, v0, v5
 ; GISEL-NEXT:    v_mov_b32_e32 v0, v6
@@ -808,8 +809,8 @@ define <2 x i128> @v_sdiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    s_or_b64 exec, exec, s[12:13]
 ; GISEL-NEXT:    v_xor_b32_e32 v3, v25, v24
 ; GISEL-NEXT:    v_xor_b32_e32 v7, v19, v18
-; GISEL-NEXT:    v_xor_b32_e32 v0, v20, v3
-; GISEL-NEXT:    v_xor_b32_e32 v1, v21, v3
+; GISEL-NEXT:    v_xor_b32_e32 v0, v22, v3
+; GISEL-NEXT:    v_xor_b32_e32 v1, v23, v3
 ; GISEL-NEXT:    v_xor_b32_e32 v2, v8, v3
 ; GISEL-NEXT:    v_xor_b32_e32 v6, v9, v3
 ; GISEL-NEXT:    v_xor_b32_e32 v4, v14, v7
@@ -853,11 +854,11 @@ define <2 x i128> @v_udiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_add_i32_e64 v17, s[6:7], 32, v22
 ; SDAG-NEXT:    v_add_i32_e64 v18, s[6:7], 32, v24
 ; SDAG-NEXT:    v_add_i32_e64 v19, s[6:7], 32, v26
-; SDAG-NEXT:    s_or_b64 s[6:7], vcc, s[4:5]
 ; SDAG-NEXT:    v_min_u32_e32 v16, v16, v21
 ; SDAG-NEXT:    v_min_u32_e32 v17, v17, v23
 ; SDAG-NEXT:    v_min_u32_e32 v18, v18, v25
 ; SDAG-NEXT:    v_min_u32_e32 v19, v19, v27
+; SDAG-NEXT:    s_or_b64 s[6:7], vcc, s[4:5]
 ; SDAG-NEXT:    v_add_i32_e32 v17, vcc, 64, v17
 ; SDAG-NEXT:    v_addc_u32_e64 v20, s[4:5], 0, 0, vcc
 ; SDAG-NEXT:    v_add_i32_e32 v19, vcc, 64, v19
@@ -868,146 +869,146 @@ define <2 x i128> @v_udiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[2:3]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v17, v21, 0, vcc
 ; SDAG-NEXT:    v_cndmask_b32_e32 v18, v19, v18, vcc
-; SDAG-NEXT:    v_sub_i32_e32 v23, vcc, v16, v18
-; SDAG-NEXT:    v_subb_u32_e32 v24, vcc, v20, v17, vcc
-; SDAG-NEXT:    v_xor_b32_e32 v16, 0x7f, v23
-; SDAG-NEXT:    v_subbrev_u32_e32 v25, vcc, 0, v28, vcc
-; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[8:9], v[23:24]
+; SDAG-NEXT:    v_sub_i32_e32 v22, vcc, v16, v18
+; SDAG-NEXT:    v_subb_u32_e32 v23, vcc, v20, v17, vcc
+; SDAG-NEXT:    v_xor_b32_e32 v16, 0x7f, v22
+; SDAG-NEXT:    v_subbrev_u32_e32 v24, vcc, 0, v28, vcc
+; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[8:9], v[22:23]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v18, 0, 1, s[4:5]
-; SDAG-NEXT:    v_subbrev_u32_e32 v26, vcc, 0, v28, vcc
-; SDAG-NEXT:    v_or_b32_e32 v16, v16, v25
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[25:26]
+; SDAG-NEXT:    v_subbrev_u32_e32 v25, vcc, 0, v28, vcc
+; SDAG-NEXT:    v_or_b32_e32 v16, v16, v24
+; SDAG-NEXT:    v_or_b32_e32 v17, v23, v25
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[24:25]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
-; SDAG-NEXT:    v_or_b32_e32 v17, v24, v26
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[25:26]
-; SDAG-NEXT:    v_cndmask_b32_e32 v18, v19, v18, vcc
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[16:17]
-; SDAG-NEXT:    v_and_b32_e32 v16, 1, v18
+; SDAG-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[24:25]
+; SDAG-NEXT:    v_cndmask_b32_e64 v16, v19, v18, s[4:5]
+; SDAG-NEXT:    v_and_b32_e32 v16, 1, v16
 ; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v16
 ; SDAG-NEXT:    s_or_b64 s[4:5], s[6:7], s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v16, v3, 0, s[4:5]
 ; SDAG-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
 ; SDAG-NEXT:    v_cndmask_b32_e64 v17, v2, 0, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v18, v1, 0, s[4:5]
+; SDAG-NEXT:    s_and_b64 s[8:9], s[6:7], vcc
 ; SDAG-NEXT:    v_cndmask_b32_e64 v19, v0, 0, s[4:5]
-; SDAG-NEXT:    s_and_b64 s[4:5], s[6:7], vcc
-; SDAG-NEXT:    s_and_saveexec_b64 s[8:9], s[4:5]
+; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[8:9]
 ; SDAG-NEXT:    s_cbranch_execz .LBB1_6
 ; SDAG-NEXT:  ; %bb.1: ; %udiv-bb15
-; SDAG-NEXT:    v_add_i32_e32 v18, vcc, 1, v23
-; SDAG-NEXT:    v_sub_i32_e64 v16, s[4:5], 63, v23
+; SDAG-NEXT:    v_add_i32_e32 v26, vcc, 1, v22
+; SDAG-NEXT:    v_sub_i32_e64 v16, s[4:5], 63, v22
+; SDAG-NEXT:    v_mov_b32_e32 v20, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v21, 0
-; SDAG-NEXT:    v_mov_b32_e32 v22, 0
-; SDAG-NEXT:    v_addc_u32_e32 v27, vcc, 0, v24, vcc
+; SDAG-NEXT:    v_addc_u32_e32 v27, vcc, 0, v23, vcc
 ; SDAG-NEXT:    v_lshl_b64 v[16:17], v[0:1], v16
-; SDAG-NEXT:    v_addc_u32_e32 v28, vcc, 0, v25, vcc
-; SDAG-NEXT:    v_addc_u32_e32 v29, vcc, 0, v26, vcc
-; SDAG-NEXT:    v_or_b32_e32 v19, v18, v28
-; SDAG-NEXT:    v_sub_i32_e32 v30, vcc, 0x7f, v23
-; SDAG-NEXT:    v_or_b32_e32 v20, v27, v29
-; SDAG-NEXT:    v_lshl_b64 v[23:24], v[2:3], v30
+; SDAG-NEXT:    v_addc_u32_e32 v28, vcc, 0, v24, vcc
+; SDAG-NEXT:    v_addc_u32_e32 v29, vcc, 0, v25, vcc
+; SDAG-NEXT:    v_or_b32_e32 v18, v26, v28
+; SDAG-NEXT:    v_sub_i32_e32 v30, vcc, 0x7f, v22
+; SDAG-NEXT:    v_or_b32_e32 v19, v27, v29
+; SDAG-NEXT:    v_lshl_b64 v[22:23], v[2:3], v30
 ; SDAG-NEXT:    v_sub_i32_e32 v31, vcc, 64, v30
-; SDAG-NEXT:    v_lshl_b64 v[25:26], v[0:1], v30
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[19:20]
-; SDAG-NEXT:    v_lshr_b64 v[19:20], v[0:1], v31
-; SDAG-NEXT:    v_or_b32_e32 v20, v24, v20
+; SDAG-NEXT:    v_lshl_b64 v[24:25], v[0:1], v30
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
+; SDAG-NEXT:    v_lshr_b64 v[18:19], v[0:1], v31
 ; SDAG-NEXT:    v_or_b32_e32 v19, v23, v19
+; SDAG-NEXT:    v_or_b32_e32 v18, v22, v18
 ; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v30
-; SDAG-NEXT:    v_cndmask_b32_e64 v17, v17, v20, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v16, v16, v19, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v24, 0, v26, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v23, 0, v25, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v19, v17, v19, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, v16, v18, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v17, 0, v25, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v16, 0, v24, s[4:5]
 ; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v30
-; SDAG-NEXT:    v_cndmask_b32_e64 v17, v17, v3, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v16, v16, v2, s[4:5]
-; SDAG-NEXT:    v_mov_b32_e32 v19, 0
-; SDAG-NEXT:    v_mov_b32_e32 v20, 0
+; SDAG-NEXT:    v_cndmask_b32_e64 v19, v19, v3, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, v18, v2, s[4:5]
+; SDAG-NEXT:    v_mov_b32_e32 v22, 0
+; SDAG-NEXT:    v_mov_b32_e32 v23, 0
 ; SDAG-NEXT:    s_and_saveexec_b64 s[4:5], vcc
-; SDAG-NEXT:    s_xor_b64 s[10:11], exec, s[4:5]
+; SDAG-NEXT:    s_xor_b64 s[8:9], exec, s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB1_5
 ; SDAG-NEXT:  ; %bb.2: ; %udiv-preheader4
-; SDAG-NEXT:    v_lshr_b64 v[21:22], v[0:1], v18
-; SDAG-NEXT:    v_sub_i32_e32 v31, vcc, 64, v18
-; SDAG-NEXT:    v_subrev_i32_e32 v36, vcc, 64, v18
-; SDAG-NEXT:    v_lshr_b64 v[32:33], v[2:3], v18
+; SDAG-NEXT:    v_lshr_b64 v[20:21], v[0:1], v26
+; SDAG-NEXT:    v_sub_i32_e32 v22, vcc, 64, v26
+; SDAG-NEXT:    v_lshl_b64 v[22:23], v[2:3], v22
+; SDAG-NEXT:    v_or_b32_e32 v23, v21, v23
+; SDAG-NEXT:    v_or_b32_e32 v22, v20, v22
+; SDAG-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v26
+; SDAG-NEXT:    v_subrev_i32_e64 v20, s[4:5], 64, v26
+; SDAG-NEXT:    v_lshr_b64 v[20:21], v[2:3], v20
+; SDAG-NEXT:    v_cndmask_b32_e32 v21, v21, v23, vcc
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v26
+; SDAG-NEXT:    v_cndmask_b32_e64 v1, v21, v1, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e32 v20, v20, v22, vcc
+; SDAG-NEXT:    v_cndmask_b32_e64 v0, v20, v0, s[4:5]
+; SDAG-NEXT:    v_lshr_b64 v[2:3], v[2:3], v26
+; SDAG-NEXT:    v_cndmask_b32_e32 v3, 0, v3, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v2, 0, v2, vcc
 ; SDAG-NEXT:    v_add_i32_e32 v30, vcc, -1, v8
-; SDAG-NEXT:    s_mov_b64 s[12:13], 0
-; SDAG-NEXT:    v_mov_b32_e32 v25, 0
-; SDAG-NEXT:    v_mov_b32_e32 v26, 0
-; SDAG-NEXT:    v_mov_b32_e32 v19, 0
-; SDAG-NEXT:    v_mov_b32_e32 v20, 0
-; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v18
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[6:7], 0, v18
-; SDAG-NEXT:    v_lshl_b64 v[34:35], v[2:3], v31
-; SDAG-NEXT:    v_lshr_b64 v[36:37], v[2:3], v36
 ; SDAG-NEXT:    v_addc_u32_e32 v31, vcc, -1, v9, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v3, 0, v33, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v2, 0, v32, s[4:5]
-; SDAG-NEXT:    v_or_b32_e32 v22, v22, v35
-; SDAG-NEXT:    v_or_b32_e32 v21, v21, v34
 ; SDAG-NEXT:    v_addc_u32_e32 v32, vcc, -1, v10, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v22, v37, v22, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v21, v36, v21, s[4:5]
 ; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, -1, v11, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v1, v22, v1, s[6:7]
-; SDAG-NEXT:    v_cndmask_b32_e64 v0, v21, v0, s[6:7]
+; SDAG-NEXT:    s_mov_b64 s[4:5], 0
+; SDAG-NEXT:    v_mov_b32_e32 v24, 0
+; SDAG-NEXT:    v_mov_b32_e32 v25, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v22, 0
+; SDAG-NEXT:    v_mov_b32_e32 v23, 0
+; SDAG-NEXT:    v_mov_b32_e32 v21, 0
 ; SDAG-NEXT:  .LBB1_3: ; %udiv-do-while3
 ; SDAG-NEXT:    ; =>This Inner Loop Header: Depth=1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v21, 31, v24
-; SDAG-NEXT:    v_lshl_b64 v[23:24], v[23:24], 1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v34, 31, v17
+; SDAG-NEXT:    v_lshl_b64 v[16:17], v[16:17], 1
+; SDAG-NEXT:    v_or_b32_e32 v17, v25, v17
+; SDAG-NEXT:    v_or_b32_e32 v16, v24, v16
 ; SDAG-NEXT:    v_lshl_b64 v[2:3], v[2:3], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v34, 31, v1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v20, 31, v1
 ; SDAG-NEXT:    v_lshl_b64 v[0:1], v[0:1], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v35, 31, v17
-; SDAG-NEXT:    v_lshl_b64 v[16:17], v[16:17], 1
-; SDAG-NEXT:    v_or_b32_e32 v24, v26, v24
-; SDAG-NEXT:    v_or_b32_e32 v23, v25, v23
-; SDAG-NEXT:    v_or_b32_e32 v2, v2, v34
-; SDAG-NEXT:    v_or_b32_e32 v0, v0, v35
-; SDAG-NEXT:    v_or_b32_e32 v16, v16, v21
-; SDAG-NEXT:    v_sub_i32_e32 v21, vcc, v30, v0
-; SDAG-NEXT:    v_subb_u32_e32 v21, vcc, v31, v1, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v21, vcc, v32, v2, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v21, vcc, v33, v3, vcc
-; SDAG-NEXT:    v_ashrrev_i32_e32 v21, 31, v21
-; SDAG-NEXT:    v_and_b32_e32 v25, v21, v8
-; SDAG-NEXT:    v_and_b32_e32 v26, v21, v9
-; SDAG-NEXT:    v_and_b32_e32 v34, v21, v10
-; SDAG-NEXT:    v_and_b32_e32 v35, v21, v11
-; SDAG-NEXT:    v_and_b32_e32 v21, 1, v21
-; SDAG-NEXT:    v_sub_i32_e32 v0, vcc, v0, v25
-; SDAG-NEXT:    v_subb_u32_e32 v1, vcc, v1, v26, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v2, vcc, v2, v34, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v3, vcc, v3, v35, vcc
-; SDAG-NEXT:    v_add_i32_e32 v18, vcc, -1, v18
+; SDAG-NEXT:    v_or_b32_e32 v2, v2, v20
+; SDAG-NEXT:    v_lshrrev_b32_e32 v20, 31, v19
+; SDAG-NEXT:    v_or_b32_e32 v0, v0, v20
+; SDAG-NEXT:    v_sub_i32_e32 v20, vcc, v30, v0
+; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, v31, v1, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, v32, v2, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, v33, v3, vcc
+; SDAG-NEXT:    v_ashrrev_i32_e32 v20, 31, v20
+; SDAG-NEXT:    v_and_b32_e32 v24, v20, v8
+; SDAG-NEXT:    v_sub_i32_e32 v0, vcc, v0, v24
+; SDAG-NEXT:    v_and_b32_e32 v24, v20, v9
+; SDAG-NEXT:    v_subb_u32_e32 v1, vcc, v1, v24, vcc
+; SDAG-NEXT:    v_and_b32_e32 v24, v20, v10
+; SDAG-NEXT:    v_subb_u32_e32 v2, vcc, v2, v24, vcc
+; SDAG-NEXT:    v_and_b32_e32 v24, v20, v11
+; SDAG-NEXT:    v_subb_u32_e32 v3, vcc, v3, v24, vcc
+; SDAG-NEXT:    v_add_i32_e32 v26, vcc, -1, v26
 ; SDAG-NEXT:    v_addc_u32_e32 v27, vcc, -1, v27, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v28, vcc, -1, v28, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v29, vcc, -1, v29, vcc
-; SDAG-NEXT:    v_or_b32_e32 v25, v18, v28
-; SDAG-NEXT:    v_or_b32_e32 v26, v27, v29
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[25:26]
-; SDAG-NEXT:    v_or_b32_e32 v17, v20, v17
-; SDAG-NEXT:    s_or_b64 s[12:13], vcc, s[12:13]
-; SDAG-NEXT:    v_or_b32_e32 v16, v19, v16
-; SDAG-NEXT:    v_mov_b32_e32 v26, v22
+; SDAG-NEXT:    v_or_b32_e32 v24, v26, v28
+; SDAG-NEXT:    v_or_b32_e32 v25, v27, v29
+; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[24:25]
+; SDAG-NEXT:    v_and_b32_e32 v20, 1, v20
+; SDAG-NEXT:    v_lshl_b64 v[18:19], v[18:19], 1
+; SDAG-NEXT:    v_or_b32_e32 v18, v18, v34
+; SDAG-NEXT:    v_or_b32_e32 v19, v23, v19
+; SDAG-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
+; SDAG-NEXT:    v_or_b32_e32 v18, v22, v18
 ; SDAG-NEXT:    v_mov_b32_e32 v25, v21
-; SDAG-NEXT:    s_andn2_b64 exec, exec, s[12:13]
+; SDAG-NEXT:    v_mov_b32_e32 v24, v20
+; SDAG-NEXT:    s_andn2_b64 exec, exec, s[4:5]
 ; SDAG-NEXT:    s_cbranch_execnz .LBB1_3
 ; SDAG-NEXT:  ; %bb.4: ; %Flow13
-; SDAG-NEXT:    s_or_b64 exec, exec, s[12:13]
+; SDAG-NEXT:    s_or_b64 exec, exec, s[4:5]
 ; SDAG-NEXT:  .LBB1_5: ; %Flow14
-; SDAG-NEXT:    s_or_b64 exec, exec, s[10:11]
-; SDAG-NEXT:    v_lshl_b64 v[0:1], v[16:17], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v8, 31, v24
-; SDAG-NEXT:    v_lshl_b64 v[2:3], v[23:24], 1
+; SDAG-NEXT:    s_or_b64 exec, exec, s[8:9]
+; SDAG-NEXT:    v_lshl_b64 v[0:1], v[18:19], 1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v8, 31, v17
+; SDAG-NEXT:    v_lshl_b64 v[2:3], v[16:17], 1
 ; SDAG-NEXT:    v_or_b32_e32 v0, v0, v8
-; SDAG-NEXT:    v_or_b32_e32 v16, v20, v1
-; SDAG-NEXT:    v_or_b32_e32 v18, v22, v3
-; SDAG-NEXT:    v_or_b32_e32 v17, v19, v0
-; SDAG-NEXT:    v_or_b32_e32 v19, v21, v2
+; SDAG-NEXT:    v_or_b32_e32 v16, v23, v1
+; SDAG-NEXT:    v_or_b32_e32 v18, v21, v3
+; SDAG-NEXT:    v_or_b32_e32 v17, v22, v0
+; SDAG-NEXT:    v_or_b32_e32 v19, v20, v2
 ; SDAG-NEXT:  .LBB1_6: ; %Flow16
-; SDAG-NEXT:    s_or_b64 exec, exec, s[8:9]
+; SDAG-NEXT:    s_or_b64 exec, exec, s[6:7]
 ; SDAG-NEXT:    v_or_b32_e32 v1, v13, v15
 ; SDAG-NEXT:    v_or_b32_e32 v0, v12, v14
 ; SDAG-NEXT:    v_or_b32_e32 v3, v5, v7
@@ -1045,20 +1046,20 @@ define <2 x i128> @v_udiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_cndmask_b32_e32 v2, v3, v2, vcc
 ; SDAG-NEXT:    v_sub_i32_e32 v0, vcc, v0, v2
 ; SDAG-NEXT:    v_subb_u32_e32 v1, vcc, v8, v1, vcc
-; SDAG-NEXT:    v_xor_b32_e32 v8, 0x7f, v0
-; SDAG-NEXT:    v_subbrev_u32_e32 v2, vcc, 0, v24, vcc
+; SDAG-NEXT:    v_xor_b32_e32 v2, 0x7f, v0
+; SDAG-NEXT:    v_subbrev_u32_e32 v20, vcc, 0, v24, vcc
 ; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[8:9], v[0:1]
-; SDAG-NEXT:    v_cndmask_b32_e64 v10, 0, 1, s[4:5]
-; SDAG-NEXT:    v_subbrev_u32_e32 v3, vcc, 0, v24, vcc
-; SDAG-NEXT:    v_or_b32_e32 v8, v8, v2
+; SDAG-NEXT:    v_cndmask_b32_e64 v8, 0, 1, s[4:5]
+; SDAG-NEXT:    v_subbrev_u32_e32 v21, vcc, 0, v24, vcc
+; SDAG-NEXT:    v_or_b32_e32 v2, v2, v20
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[20:21]
+; SDAG-NEXT:    v_cndmask_b32_e64 v9, 0, 1, vcc
+; SDAG-NEXT:    v_or_b32_e32 v3, v1, v21
+; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[20:21]
+; SDAG-NEXT:    v_cndmask_b32_e32 v8, v9, v8, vcc
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[2:3]
-; SDAG-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
-; SDAG-NEXT:    v_or_b32_e32 v9, v1, v3
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[2:3]
-; SDAG-NEXT:    v_cndmask_b32_e32 v10, v11, v10, vcc
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[8:9]
-; SDAG-NEXT:    v_and_b32_e32 v8, 1, v10
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v8
+; SDAG-NEXT:    v_and_b32_e32 v2, 1, v8
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v2
 ; SDAG-NEXT:    s_or_b64 s[4:5], s[6:7], s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v8, v7, 0, s[4:5]
 ; SDAG-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
@@ -1069,118 +1070,118 @@ define <2 x i128> @v_udiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB1_12
 ; SDAG-NEXT:  ; %bb.7: ; %udiv-bb1
-; SDAG-NEXT:    v_add_i32_e32 v8, vcc, 1, v0
-; SDAG-NEXT:    v_sub_i32_e64 v9, s[4:5], 63, v0
+; SDAG-NEXT:    v_add_i32_e32 v22, vcc, 1, v0
+; SDAG-NEXT:    v_sub_i32_e64 v8, s[4:5], 63, v0
+; SDAG-NEXT:    v_mov_b32_e32 v2, 0
+; SDAG-NEXT:    v_mov_b32_e32 v3, 0
+; SDAG-NEXT:    v_addc_u32_e32 v23, vcc, 0, v1, vcc
+; SDAG-NEXT:    v_lshl_b64 v[8:9], v[4:5], v8
+; SDAG-NEXT:    v_addc_u32_e32 v24, vcc, 0, v20, vcc
+; SDAG-NEXT:    v_addc_u32_e32 v25, vcc, 0, v21, vcc
+; SDAG-NEXT:    v_or_b32_e32 v10, v22, v24
+; SDAG-NEXT:    v_sub_i32_e32 v26, vcc, 0x7f, v0
+; SDAG-NEXT:    v_or_b32_e32 v11, v23, v25
+; SDAG-NEXT:    v_lshl_b64 v[0:1], v[6:7], v26
+; SDAG-NEXT:    v_sub_i32_e32 v27, vcc, 64, v26
+; SDAG-NEXT:    v_lshl_b64 v[20:21], v[4:5], v26
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[10:11]
+; SDAG-NEXT:    v_lshr_b64 v[10:11], v[4:5], v27
+; SDAG-NEXT:    v_or_b32_e32 v1, v1, v11
+; SDAG-NEXT:    v_or_b32_e32 v0, v0, v10
+; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v26
+; SDAG-NEXT:    v_cndmask_b32_e64 v1, v9, v1, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v0, v8, v0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v9, 0, v21, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v8, 0, v20, s[4:5]
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v26
+; SDAG-NEXT:    v_cndmask_b32_e64 v1, v1, v7, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v0, v0, v6, s[4:5]
 ; SDAG-NEXT:    v_mov_b32_e32 v20, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v21, 0
-; SDAG-NEXT:    v_addc_u32_e32 v11, vcc, 0, v1, vcc
-; SDAG-NEXT:    v_lshl_b64 v[9:10], v[4:5], v9
-; SDAG-NEXT:    v_addc_u32_e32 v24, vcc, 0, v2, vcc
-; SDAG-NEXT:    v_addc_u32_e32 v25, vcc, 0, v3, vcc
-; SDAG-NEXT:    v_or_b32_e32 v1, v8, v24
-; SDAG-NEXT:    v_sub_i32_e32 v3, vcc, 0x7f, v0
-; SDAG-NEXT:    v_or_b32_e32 v2, v11, v25
-; SDAG-NEXT:    v_lshl_b64 v[22:23], v[6:7], v3
-; SDAG-NEXT:    v_sub_i32_e32 v0, vcc, 64, v3
-; SDAG-NEXT:    v_lshl_b64 v[26:27], v[4:5], v3
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[1:2]
-; SDAG-NEXT:    v_lshr_b64 v[0:1], v[4:5], v0
-; SDAG-NEXT:    v_or_b32_e32 v1, v23, v1
-; SDAG-NEXT:    v_or_b32_e32 v0, v22, v0
-; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v3
-; SDAG-NEXT:    v_cndmask_b32_e64 v2, v10, v1, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v9, v9, v0, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v1, 0, v27, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v0, 0, v26, s[4:5]
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v3
-; SDAG-NEXT:    v_cndmask_b32_e64 v3, v2, v7, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v2, v9, v6, s[4:5]
-; SDAG-NEXT:    v_mov_b32_e32 v9, 0
-; SDAG-NEXT:    v_mov_b32_e32 v10, 0
 ; SDAG-NEXT:    s_and_saveexec_b64 s[4:5], vcc
 ; SDAG-NEXT:    s_xor_b64 s[8:9], exec, s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB1_11
 ; SDAG-NEXT:  ; %bb.8: ; %udiv-preheader
-; SDAG-NEXT:    v_lshr_b64 v[20:21], v[4:5], v8
-; SDAG-NEXT:    v_sub_i32_e32 v27, vcc, 64, v8
-; SDAG-NEXT:    v_subrev_i32_e32 v28, vcc, 64, v8
-; SDAG-NEXT:    v_lshr_b64 v[29:30], v[6:7], v8
+; SDAG-NEXT:    v_lshr_b64 v[2:3], v[4:5], v22
+; SDAG-NEXT:    v_sub_i32_e32 v27, vcc, 64, v22
+; SDAG-NEXT:    v_subrev_i32_e32 v28, vcc, 64, v22
+; SDAG-NEXT:    v_lshr_b64 v[29:30], v[6:7], v22
 ; SDAG-NEXT:    v_add_i32_e32 v26, vcc, -1, v12
 ; SDAG-NEXT:    s_mov_b64 s[10:11], 0
-; SDAG-NEXT:    v_mov_b32_e32 v22, 0
-; SDAG-NEXT:    v_mov_b32_e32 v23, 0
-; SDAG-NEXT:    v_mov_b32_e32 v9, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v10, 0
+; SDAG-NEXT:    v_mov_b32_e32 v11, 0
+; SDAG-NEXT:    v_mov_b32_e32 v20, 0
+; SDAG-NEXT:    v_mov_b32_e32 v21, 0
 ; SDAG-NEXT:    v_lshl_b64 v[31:32], v[6:7], v27
 ; SDAG-NEXT:    v_lshr_b64 v[6:7], v[6:7], v28
 ; SDAG-NEXT:    v_addc_u32_e32 v27, vcc, -1, v13, vcc
-; SDAG-NEXT:    v_or_b32_e32 v21, v21, v32
-; SDAG-NEXT:    v_or_b32_e32 v20, v20, v31
+; SDAG-NEXT:    v_or_b32_e32 v3, v3, v32
+; SDAG-NEXT:    v_or_b32_e32 v2, v2, v31
 ; SDAG-NEXT:    v_addc_u32_e32 v28, vcc, -1, v14, vcc
-; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v8
-; SDAG-NEXT:    v_cndmask_b32_e64 v21, v7, v21, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v20, v6, v20, s[4:5]
+; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v22
+; SDAG-NEXT:    v_cndmask_b32_e64 v3, v7, v3, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v2, v6, v2, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v7, 0, v30, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v6, 0, v29, s[4:5]
 ; SDAG-NEXT:    v_addc_u32_e32 v29, vcc, -1, v15, vcc
-; SDAG-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v8
-; SDAG-NEXT:    v_cndmask_b32_e32 v5, v21, v5, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v4, v20, v4, vcc
-; SDAG-NEXT:    v_mov_b32_e32 v21, 0
+; SDAG-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v22
+; SDAG-NEXT:    v_cndmask_b32_e32 v5, v3, v5, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v4, v2, v4, vcc
+; SDAG-NEXT:    v_mov_b32_e32 v3, 0
 ; SDAG-NEXT:  .LBB1_9: ; %udiv-do-while
 ; SDAG-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; SDAG-NEXT:    v_lshl_b64 v[6:7], v[6:7], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v20, 31, v5
+; SDAG-NEXT:    v_lshrrev_b32_e32 v2, 31, v5
 ; SDAG-NEXT:    v_lshl_b64 v[4:5], v[4:5], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v30, 31, v3
-; SDAG-NEXT:    v_lshl_b64 v[2:3], v[2:3], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v31, 31, v1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v30, 31, v1
 ; SDAG-NEXT:    v_lshl_b64 v[0:1], v[0:1], 1
-; SDAG-NEXT:    v_or_b32_e32 v6, v6, v20
-; SDAG-NEXT:    v_or_b32_e32 v4, v4, v30
-; SDAG-NEXT:    v_or_b32_e32 v2, v2, v31
-; SDAG-NEXT:    v_or_b32_e32 v3, v10, v3
-; SDAG-NEXT:    v_or_b32_e32 v1, v23, v1
-; SDAG-NEXT:    v_or_b32_e32 v2, v9, v2
-; SDAG-NEXT:    v_sub_i32_e32 v20, vcc, v26, v4
-; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, v27, v5, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, v28, v6, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, v29, v7, vcc
-; SDAG-NEXT:    v_ashrrev_i32_e32 v23, 31, v20
-; SDAG-NEXT:    v_and_b32_e32 v20, 1, v23
-; SDAG-NEXT:    v_and_b32_e32 v30, v23, v15
-; SDAG-NEXT:    v_and_b32_e32 v31, v23, v14
-; SDAG-NEXT:    v_and_b32_e32 v32, v23, v13
-; SDAG-NEXT:    v_and_b32_e32 v23, v23, v12
-; SDAG-NEXT:    v_sub_i32_e32 v4, vcc, v4, v23
-; SDAG-NEXT:    v_subb_u32_e32 v5, vcc, v5, v32, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v6, vcc, v6, v31, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v7, vcc, v7, v30, vcc
-; SDAG-NEXT:    v_add_i32_e32 v8, vcc, -1, v8
-; SDAG-NEXT:    v_addc_u32_e32 v11, vcc, -1, v11, vcc
+; SDAG-NEXT:    v_lshrrev_b32_e32 v31, 31, v9
+; SDAG-NEXT:    v_lshl_b64 v[8:9], v[8:9], 1
+; SDAG-NEXT:    v_or_b32_e32 v6, v6, v2
+; SDAG-NEXT:    v_or_b32_e32 v2, v4, v30
+; SDAG-NEXT:    v_or_b32_e32 v0, v0, v31
+; SDAG-NEXT:    v_or_b32_e32 v1, v21, v1
+; SDAG-NEXT:    v_sub_i32_e32 v4, vcc, v26, v2
+; SDAG-NEXT:    v_subb_u32_e32 v4, vcc, v27, v5, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v4, vcc, v28, v6, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v4, vcc, v29, v7, vcc
+; SDAG-NEXT:    v_ashrrev_i32_e32 v30, 31, v4
+; SDAG-NEXT:    v_and_b32_e32 v31, v30, v13
+; SDAG-NEXT:    v_and_b32_e32 v4, v30, v12
+; SDAG-NEXT:    v_sub_i32_e32 v4, vcc, v2, v4
+; SDAG-NEXT:    v_subb_u32_e32 v5, vcc, v5, v31, vcc
+; SDAG-NEXT:    v_or_b32_e32 v9, v11, v9
+; SDAG-NEXT:    v_or_b32_e32 v0, v20, v0
+; SDAG-NEXT:    v_and_b32_e32 v2, 1, v30
+; SDAG-NEXT:    v_and_b32_e32 v11, v30, v15
+; SDAG-NEXT:    v_and_b32_e32 v30, v30, v14
+; SDAG-NEXT:    v_subb_u32_e32 v6, vcc, v6, v30, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v7, vcc, v7, v11, vcc
+; SDAG-NEXT:    v_add_i32_e32 v22, vcc, -1, v22
+; SDAG-NEXT:    v_addc_u32_e32 v23, vcc, -1, v23, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v24, vcc, -1, v24, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v25, vcc, -1, v25, vcc
-; SDAG-NEXT:    v_or_b32_e32 v31, v11, v25
-; SDAG-NEXT:    v_or_b32_e32 v30, v8, v24
+; SDAG-NEXT:    v_or_b32_e32 v31, v23, v25
+; SDAG-NEXT:    v_or_b32_e32 v30, v22, v24
 ; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[30:31]
 ; SDAG-NEXT:    s_or_b64 s[10:11], vcc, s[10:11]
-; SDAG-NEXT:    v_or_b32_e32 v0, v22, v0
-; SDAG-NEXT:    v_mov_b32_e32 v23, v21
-; SDAG-NEXT:    v_mov_b32_e32 v22, v20
+; SDAG-NEXT:    v_or_b32_e32 v8, v10, v8
+; SDAG-NEXT:    v_mov_b32_e32 v11, v3
+; SDAG-NEXT:    v_mov_b32_e32 v10, v2
 ; SDAG-NEXT:    s_andn2_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:    s_cbranch_execnz .LBB1_9
 ; SDAG-NEXT:  ; %bb.10: ; %Flow
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:  .LBB1_11: ; %Flow11
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[8:9]
-; SDAG-NEXT:    v_lshl_b64 v[2:3], v[2:3], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v4, 31, v1
 ; SDAG-NEXT:    v_lshl_b64 v[0:1], v[0:1], 1
-; SDAG-NEXT:    v_or_b32_e32 v2, v2, v4
-; SDAG-NEXT:    v_or_b32_e32 v8, v10, v3
-; SDAG-NEXT:    v_or_b32_e32 v10, v21, v1
-; SDAG-NEXT:    v_or_b32_e32 v9, v9, v2
-; SDAG-NEXT:    v_or_b32_e32 v11, v20, v0
+; SDAG-NEXT:    v_lshrrev_b32_e32 v6, 31, v9
+; SDAG-NEXT:    v_lshl_b64 v[4:5], v[8:9], 1
+; SDAG-NEXT:    v_or_b32_e32 v0, v0, v6
+; SDAG-NEXT:    v_or_b32_e32 v8, v21, v1
+; SDAG-NEXT:    v_or_b32_e32 v10, v3, v5
+; SDAG-NEXT:    v_or_b32_e32 v9, v20, v0
+; SDAG-NEXT:    v_or_b32_e32 v11, v2, v4
 ; SDAG-NEXT:  .LBB1_12: ; %Flow12
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[6:7]
 ; SDAG-NEXT:    v_mov_b32_e32 v0, v19
@@ -1198,7 +1199,6 @@ define <2 x i128> @v_udiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GISEL-NEXT:    v_mov_b32_e32 v16, v2
 ; GISEL-NEXT:    v_mov_b32_e32 v17, v3
-; GISEL-NEXT:    s_mov_b64 s[8:9], 0
 ; GISEL-NEXT:    v_or_b32_e32 v2, v8, v10
 ; GISEL-NEXT:    v_or_b32_e32 v3, v9, v11
 ; GISEL-NEXT:    v_or_b32_e32 v18, v0, v16
@@ -1209,20 +1209,21 @@ define <2 x i128> @v_udiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_ffbh_u32_e32 v23, v10
 ; GISEL-NEXT:    v_ffbh_u32_e32 v26, v1
 ; GISEL-NEXT:    v_ffbh_u32_e32 v27, v0
-; GISEL-NEXT:    v_ffbh_u32_e32 v28, v17
-; GISEL-NEXT:    v_ffbh_u32_e32 v29, v16
+; GISEL-NEXT:    v_ffbh_u32_e32 v28, v16
+; GISEL-NEXT:    v_ffbh_u32_e32 v29, v17
 ; GISEL-NEXT:    v_mov_b32_e32 v24, 0x7f
 ; GISEL-NEXT:    v_mov_b32_e32 v25, 0
+; GISEL-NEXT:    s_mov_b64 s[8:9], 0
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[2:3]
 ; GISEL-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[18:19]
 ; GISEL-NEXT:    v_add_i32_e64 v2, s[6:7], 32, v21
 ; GISEL-NEXT:    v_add_i32_e64 v3, s[6:7], 32, v23
 ; GISEL-NEXT:    v_add_i32_e64 v18, s[6:7], 32, v27
-; GISEL-NEXT:    v_add_i32_e64 v19, s[6:7], 32, v29
+; GISEL-NEXT:    v_add_i32_e64 v19, s[6:7], 32, v28
 ; GISEL-NEXT:    v_min_u32_e32 v2, v20, v2
 ; GISEL-NEXT:    v_min_u32_e32 v3, v22, v3
 ; GISEL-NEXT:    v_min_u32_e32 v18, v26, v18
-; GISEL-NEXT:    v_min_u32_e32 v19, v28, v19
+; GISEL-NEXT:    v_min_u32_e32 v19, v29, v19
 ; GISEL-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v26, 0, 1, s[4:5]
 ; GISEL-NEXT:    v_add_i32_e32 v2, vcc, 64, v2
@@ -1235,28 +1236,28 @@ define <2 x i128> @v_udiv_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_subb_u32_e64 v23, s[4:5], 0, 0, vcc
 ; GISEL-NEXT:    v_subb_u32_e64 v20, s[4:5], 0, 0, s[4:5]
 ; GISEL-NEXT:    v_subb_u32_e64 v21, s[4:5], 0, 0, s[4:5]
+; GISEL-NEXT:    v_xor_b32_e32 v2, 0x7f, v22
 ; GISEL-NEXT:    v_cmp_gt_u64_e32 vcc, v[22:23], v[24:25]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v2, 0x7f, v22
-; GISEL-NEXT:    v_cmp_lt_u64_e32 vcc, 0, v[20:21]
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
 ; GISEL-NEXT:    v_or_b32_e32 v2, v2, v20
 ; GISEL-NEXT:    v_or_b32_e32 v3, v23, v21
+; GISEL-NEXT:    v_cmp_lt_u64_e32 vcc, 0, v[20:21]
+; GISEL-NEXT:    v_cndmask_b32_e64 v19, 0, 1, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[20:21]
 ; GISEL-NEXT:    v_cndmask_b32_e32 v18, v19, v18, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[2:3]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, 0, 1, vcc
 ; GISEL-NEXT:    v_or_b32_e32 v3, v26, v18
-; GISEL-NEXT:    v_and_b32_e32 v18, 1, v3
 ; GISEL-NEXT:    v_or_b32_e32 v2, v3, v2
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v18
+; GISEL-NEXT:    v_and_b32_e32 v3, 1, v3
+; GISEL-NEXT:    v_and_b32_e32 v2, 1, v2
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v3
 ; GISEL-NEXT:    v_cndmask_b32_e64 v18, v0, 0, vcc
-; GISEL-NEXT:    v_and_b32_e32 v24, 1, v2
-; GISEL-NEXT:    v_cndmask_b32_e64 v19, v1, 0, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v2
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, v16, 0, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e64 v3, v17, 0, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v24
-; GISEL-NEXT:    s_xor_b64 s[4:5], vcc, -1
+; GISEL-NEXT:    s_xor_b64 s[4:5], s[4:5], -1
+; GISEL-NEXT:    v_cndmask_b32_e64 v19, v1, 0, vcc
 ; GISEL-NEXT:    s_and_saveexec_b64 s[12:13], s[4:5]
 ; GISEL-NEXT:    s_cbranch_execz .LBB1_6
 ; GISEL-NEXT:  ; %bb.1: ; %udiv-bb15
@@ -1560,12 +1561,12 @@ define <2 x i128> @v_srem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG:       ; %bb.0: ; %_udiv-special-cases_udiv-special-cases
 ; SDAG-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; SDAG-NEXT:    buffer_store_dword v40, off, s[0:3], s32 ; 4-byte Folded Spill
-; SDAG-NEXT:    v_ashrrev_i32_e32 v28, 31, v3
 ; SDAG-NEXT:    v_sub_i32_e32 v16, vcc, 0, v0
 ; SDAG-NEXT:    v_mov_b32_e32 v19, 0
+; SDAG-NEXT:    v_ashrrev_i32_e32 v28, 31, v3
 ; SDAG-NEXT:    s_mov_b64 s[10:11], 0x7f
-; SDAG-NEXT:    v_mov_b32_e32 v29, v28
 ; SDAG-NEXT:    v_subb_u32_e32 v17, vcc, 0, v1, vcc
+; SDAG-NEXT:    v_mov_b32_e32 v29, v28
 ; SDAG-NEXT:    v_subb_u32_e32 v18, vcc, 0, v2, vcc
 ; SDAG-NEXT:    v_cmp_gt_i64_e64 s[4:5], 0, v[2:3]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v17, v1, v17, s[4:5]
@@ -1574,106 +1575,106 @@ define <2 x i128> @v_srem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_cndmask_b32_e64 v0, v2, v18, s[4:5]
 ; SDAG-NEXT:    v_ffbh_u32_e32 v18, v16
 ; SDAG-NEXT:    v_ffbh_u32_e32 v20, v17
-; SDAG-NEXT:    v_cndmask_b32_e64 v1, v3, v1, s[4:5]
 ; SDAG-NEXT:    v_sub_i32_e32 v21, vcc, 0, v8
+; SDAG-NEXT:    v_cndmask_b32_e64 v1, v3, v1, s[4:5]
 ; SDAG-NEXT:    v_or_b32_e32 v2, v16, v0
-; SDAG-NEXT:    v_ffbh_u32_e32 v22, v0
 ; SDAG-NEXT:    v_add_i32_e64 v18, s[4:5], 32, v18
+; SDAG-NEXT:    v_ffbh_u32_e32 v22, v0
 ; SDAG-NEXT:    v_subb_u32_e32 v23, vcc, 0, v9, vcc
 ; SDAG-NEXT:    v_or_b32_e32 v3, v17, v1
-; SDAG-NEXT:    v_add_i32_e64 v22, s[4:5], 32, v22
-; SDAG-NEXT:    v_ffbh_u32_e32 v24, v1
 ; SDAG-NEXT:    v_min_u32_e32 v18, v18, v20
-; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, 0, v10, vcc
+; SDAG-NEXT:    v_add_i32_e64 v20, s[4:5], 32, v22
+; SDAG-NEXT:    v_ffbh_u32_e32 v22, v1
 ; SDAG-NEXT:    v_cmp_gt_i64_e64 s[4:5], 0, v[10:11]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v30, v9, v23, s[4:5]
+; SDAG-NEXT:    v_subb_u32_e32 v9, vcc, 0, v10, vcc
 ; SDAG-NEXT:    v_cndmask_b32_e64 v31, v8, v21, s[4:5]
 ; SDAG-NEXT:    v_cmp_eq_u64_e64 s[6:7], 0, v[2:3]
-; SDAG-NEXT:    v_min_u32_e32 v3, v22, v24
+; SDAG-NEXT:    v_min_u32_e32 v3, v20, v22
 ; SDAG-NEXT:    v_add_i32_e64 v8, s[8:9], 64, v18
-; SDAG-NEXT:    v_addc_u32_e64 v9, s[8:9], 0, 0, s[8:9]
-; SDAG-NEXT:    v_subb_u32_e32 v18, vcc, 0, v11, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v2, v10, v20, s[4:5]
-; SDAG-NEXT:    v_ffbh_u32_e32 v10, v31
-; SDAG-NEXT:    v_ffbh_u32_e32 v20, v30
+; SDAG-NEXT:    v_addc_u32_e64 v18, s[8:9], 0, 0, s[8:9]
+; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, 0, v11, vcc
+; SDAG-NEXT:    v_cndmask_b32_e64 v2, v10, v9, s[4:5]
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[0:1]
-; SDAG-NEXT:    v_cndmask_b32_e64 v21, v9, 0, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v22, v8, v3, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v3, v11, v18, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, v18, 0, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v10, v8, v3, vcc
+; SDAG-NEXT:    v_ffbh_u32_e32 v9, v31
+; SDAG-NEXT:    v_ffbh_u32_e32 v21, v30
+; SDAG-NEXT:    v_cndmask_b32_e64 v3, v11, v20, s[4:5]
 ; SDAG-NEXT:    v_or_b32_e32 v8, v31, v2
-; SDAG-NEXT:    v_ffbh_u32_e32 v11, v2
-; SDAG-NEXT:    v_add_i32_e32 v10, vcc, 32, v10
+; SDAG-NEXT:    v_add_i32_e32 v11, vcc, 32, v9
+; SDAG-NEXT:    v_ffbh_u32_e32 v20, v2
 ; SDAG-NEXT:    v_or_b32_e32 v9, v30, v3
-; SDAG-NEXT:    v_add_i32_e32 v11, vcc, 32, v11
-; SDAG-NEXT:    v_ffbh_u32_e32 v18, v3
-; SDAG-NEXT:    v_min_u32_e32 v10, v10, v20
+; SDAG-NEXT:    v_min_u32_e32 v11, v11, v21
+; SDAG-NEXT:    v_add_i32_e32 v20, vcc, 32, v20
+; SDAG-NEXT:    v_ffbh_u32_e32 v21, v3
 ; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[8:9]
-; SDAG-NEXT:    v_min_u32_e32 v8, v11, v18
-; SDAG-NEXT:    v_add_i32_e64 v9, s[4:5], 64, v10
-; SDAG-NEXT:    v_addc_u32_e64 v10, s[4:5], 0, 0, s[4:5]
+; SDAG-NEXT:    v_min_u32_e32 v8, v20, v21
+; SDAG-NEXT:    v_add_i32_e64 v9, s[4:5], 64, v11
+; SDAG-NEXT:    v_addc_u32_e64 v11, s[4:5], 0, 0, s[4:5]
+; SDAG-NEXT:    v_cmp_ne_u64_e64 s[4:5], 0, v[2:3]
+; SDAG-NEXT:    v_cndmask_b32_e64 v11, v11, 0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v8, v9, v8, s[4:5]
 ; SDAG-NEXT:    s_or_b64 s[6:7], vcc, s[6:7]
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[2:3]
-; SDAG-NEXT:    v_cndmask_b32_e64 v10, v10, 0, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v8, v9, v8, vcc
-; SDAG-NEXT:    v_sub_i32_e32 v8, vcc, v8, v22
-; SDAG-NEXT:    v_subb_u32_e32 v9, vcc, v10, v21, vcc
-; SDAG-NEXT:    v_xor_b32_e32 v10, 0x7f, v8
+; SDAG-NEXT:    v_sub_i32_e32 v10, vcc, v8, v10
+; SDAG-NEXT:    v_subb_u32_e32 v11, vcc, v11, v18, vcc
+; SDAG-NEXT:    v_xor_b32_e32 v8, 0x7f, v10
 ; SDAG-NEXT:    v_subbrev_u32_e32 v18, vcc, 0, v19, vcc
-; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[10:11], v[8:9]
+; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[10:11], v[10:11]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[4:5]
 ; SDAG-NEXT:    v_subbrev_u32_e32 v19, vcc, 0, v19, vcc
-; SDAG-NEXT:    v_or_b32_e32 v10, v10, v18
+; SDAG-NEXT:    v_or_b32_e32 v8, v8, v18
+; SDAG-NEXT:    v_or_b32_e32 v9, v11, v19
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v21, 0, 1, vcc
-; SDAG-NEXT:    v_or_b32_e32 v11, v9, v19
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[18:19]
-; SDAG-NEXT:    v_cndmask_b32_e32 v20, v21, v20, vcc
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[10:11]
-; SDAG-NEXT:    v_and_b32_e32 v10, 1, v20
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v10
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[8:9]
+; SDAG-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[18:19]
+; SDAG-NEXT:    v_cndmask_b32_e64 v8, v21, v20, s[4:5]
+; SDAG-NEXT:    v_and_b32_e32 v8, 1, v8
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v8
 ; SDAG-NEXT:    s_or_b64 s[4:5], s[6:7], s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v35, v1, 0, s[4:5]
 ; SDAG-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
 ; SDAG-NEXT:    v_cndmask_b32_e64 v32, v0, 0, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v27, v17, 0, s[4:5]
+; SDAG-NEXT:    s_and_b64 s[8:9], s[6:7], vcc
 ; SDAG-NEXT:    v_cndmask_b32_e64 v33, v16, 0, s[4:5]
-; SDAG-NEXT:    s_and_b64 s[4:5], s[6:7], vcc
-; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[4:5]
+; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[8:9]
 ; SDAG-NEXT:    s_cbranch_execz .LBB2_6
 ; SDAG-NEXT:  ; %bb.1: ; %udiv-bb15
-; SDAG-NEXT:    v_add_i32_e32 v32, vcc, 1, v8
-; SDAG-NEXT:    v_sub_i32_e64 v20, s[4:5], 63, v8
-; SDAG-NEXT:    v_mov_b32_e32 v10, 0
-; SDAG-NEXT:    v_mov_b32_e32 v11, 0
-; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, 0, v9, vcc
+; SDAG-NEXT:    v_add_i32_e32 v32, vcc, 1, v10
+; SDAG-NEXT:    v_sub_i32_e64 v20, s[4:5], 63, v10
+; SDAG-NEXT:    v_mov_b32_e32 v8, 0
+; SDAG-NEXT:    v_mov_b32_e32 v9, 0
+; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, 0, v11, vcc
 ; SDAG-NEXT:    v_lshl_b64 v[20:21], v[16:17], v20
 ; SDAG-NEXT:    v_addc_u32_e32 v34, vcc, 0, v18, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, 0, v19, vcc
 ; SDAG-NEXT:    v_or_b32_e32 v18, v32, v34
-; SDAG-NEXT:    v_sub_i32_e32 v24, vcc, 0x7f, v8
+; SDAG-NEXT:    v_sub_i32_e32 v24, vcc, 0x7f, v10
 ; SDAG-NEXT:    v_or_b32_e32 v19, v33, v35
-; SDAG-NEXT:    v_lshl_b64 v[8:9], v[0:1], v24
+; SDAG-NEXT:    v_lshl_b64 v[10:11], v[0:1], v24
 ; SDAG-NEXT:    v_sub_i32_e32 v25, vcc, 64, v24
 ; SDAG-NEXT:    v_lshl_b64 v[22:23], v[16:17], v24
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
 ; SDAG-NEXT:    v_lshr_b64 v[18:19], v[16:17], v25
-; SDAG-NEXT:    v_or_b32_e32 v9, v9, v19
-; SDAG-NEXT:    v_or_b32_e32 v8, v8, v18
+; SDAG-NEXT:    v_or_b32_e32 v11, v11, v19
+; SDAG-NEXT:    v_or_b32_e32 v10, v10, v18
 ; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v24
-; SDAG-NEXT:    v_cndmask_b32_e64 v9, v21, v9, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v8, v20, v8, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v11, v21, v11, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v10, v20, v10, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v21, 0, v23, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v20, 0, v22, s[4:5]
 ; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v24
-; SDAG-NEXT:    v_cndmask_b32_e64 v9, v9, v1, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v8, v8, v0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v11, v11, v1, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v10, v10, v0, s[4:5]
 ; SDAG-NEXT:    v_mov_b32_e32 v18, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v19, 0
 ; SDAG-NEXT:    s_and_saveexec_b64 s[4:5], vcc
 ; SDAG-NEXT:    s_xor_b64 s[8:9], exec, s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB2_5
 ; SDAG-NEXT:  ; %bb.2: ; %udiv-preheader4
-; SDAG-NEXT:    v_lshr_b64 v[10:11], v[16:17], v32
+; SDAG-NEXT:    v_lshr_b64 v[8:9], v[16:17], v32
 ; SDAG-NEXT:    v_sub_i32_e32 v26, vcc, 64, v32
 ; SDAG-NEXT:    v_subrev_i32_e32 v37, vcc, 64, v32
 ; SDAG-NEXT:    v_lshr_b64 v[24:25], v[0:1], v32
@@ -1686,73 +1687,73 @@ define <2 x i128> @v_srem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_lshl_b64 v[26:27], v[0:1], v26
 ; SDAG-NEXT:    v_lshr_b64 v[48:49], v[0:1], v37
 ; SDAG-NEXT:    v_addc_u32_e32 v37, vcc, -1, v30, vcc
-; SDAG-NEXT:    v_or_b32_e32 v11, v11, v27
-; SDAG-NEXT:    v_or_b32_e32 v10, v10, v26
+; SDAG-NEXT:    v_or_b32_e32 v9, v9, v27
+; SDAG-NEXT:    v_or_b32_e32 v8, v8, v26
 ; SDAG-NEXT:    v_addc_u32_e32 v38, vcc, -1, v2, vcc
 ; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v32
-; SDAG-NEXT:    v_cndmask_b32_e64 v11, v49, v11, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v10, v48, v10, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v9, v49, v9, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v8, v48, v8, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v27, 0, v25, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v26, 0, v24, s[4:5]
 ; SDAG-NEXT:    v_addc_u32_e32 v39, vcc, -1, v3, vcc
 ; SDAG-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v32
-; SDAG-NEXT:    v_cndmask_b32_e32 v25, v11, v17, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v24, v10, v16, vcc
-; SDAG-NEXT:    v_mov_b32_e32 v11, 0
+; SDAG-NEXT:    v_cndmask_b32_e32 v25, v9, v17, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v24, v8, v16, vcc
+; SDAG-NEXT:    v_mov_b32_e32 v9, 0
 ; SDAG-NEXT:  .LBB2_3: ; %udiv-do-while3
 ; SDAG-NEXT:    ; =>This Inner Loop Header: Depth=1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v8, 31, v21
+; SDAG-NEXT:    v_lshl_b64 v[20:21], v[20:21], 1
 ; SDAG-NEXT:    v_lshl_b64 v[26:27], v[26:27], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v10, 31, v25
+; SDAG-NEXT:    v_lshrrev_b32_e32 v48, 31, v25
 ; SDAG-NEXT:    v_lshl_b64 v[24:25], v[24:25], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v48, 31, v9
-; SDAG-NEXT:    v_lshl_b64 v[8:9], v[8:9], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v49, 31, v21
-; SDAG-NEXT:    v_lshl_b64 v[20:21], v[20:21], 1
-; SDAG-NEXT:    v_or_b32_e32 v26, v26, v10
-; SDAG-NEXT:    v_or_b32_e32 v24, v24, v48
-; SDAG-NEXT:    v_or_b32_e32 v8, v8, v49
-; SDAG-NEXT:    v_or_b32_e32 v9, v19, v9
-; SDAG-NEXT:    v_sub_i32_e32 v10, vcc, v36, v24
-; SDAG-NEXT:    v_or_b32_e32 v8, v18, v8
-; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, v37, v25, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, v38, v26, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v10, vcc, v39, v27, vcc
-; SDAG-NEXT:    v_ashrrev_i32_e32 v10, 31, v10
-; SDAG-NEXT:    v_and_b32_e32 v48, v10, v31
-; SDAG-NEXT:    v_and_b32_e32 v49, v10, v30
-; SDAG-NEXT:    v_and_b32_e32 v50, v10, v2
-; SDAG-NEXT:    v_and_b32_e32 v51, v10, v3
-; SDAG-NEXT:    v_and_b32_e32 v10, 1, v10
-; SDAG-NEXT:    v_sub_i32_e32 v24, vcc, v24, v48
-; SDAG-NEXT:    v_subb_u32_e32 v25, vcc, v25, v49, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v26, vcc, v26, v50, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v27, vcc, v27, v51, vcc
+; SDAG-NEXT:    v_lshrrev_b32_e32 v49, 31, v11
+; SDAG-NEXT:    v_lshl_b64 v[10:11], v[10:11], 1
+; SDAG-NEXT:    v_or_b32_e32 v21, v23, v21
+; SDAG-NEXT:    v_or_b32_e32 v20, v22, v20
+; SDAG-NEXT:    v_or_b32_e32 v22, v26, v48
+; SDAG-NEXT:    v_or_b32_e32 v23, v24, v49
+; SDAG-NEXT:    v_or_b32_e32 v10, v10, v8
+; SDAG-NEXT:    v_sub_i32_e32 v8, vcc, v36, v23
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, v37, v25, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, v38, v22, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v8, vcc, v39, v27, vcc
+; SDAG-NEXT:    v_ashrrev_i32_e32 v8, 31, v8
+; SDAG-NEXT:    v_and_b32_e32 v24, v8, v31
+; SDAG-NEXT:    v_and_b32_e32 v26, v8, v30
+; SDAG-NEXT:    v_and_b32_e32 v48, v8, v2
+; SDAG-NEXT:    v_and_b32_e32 v49, v8, v3
+; SDAG-NEXT:    v_and_b32_e32 v8, 1, v8
+; SDAG-NEXT:    v_sub_i32_e32 v24, vcc, v23, v24
+; SDAG-NEXT:    v_subb_u32_e32 v25, vcc, v25, v26, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v26, vcc, v22, v48, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v27, vcc, v27, v49, vcc
 ; SDAG-NEXT:    v_add_i32_e32 v32, vcc, -1, v32
 ; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, -1, v33, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v34, vcc, -1, v34, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, -1, v35, vcc
-; SDAG-NEXT:    v_or_b32_e32 v48, v32, v34
-; SDAG-NEXT:    v_or_b32_e32 v49, v33, v35
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[48:49]
-; SDAG-NEXT:    v_or_b32_e32 v21, v23, v21
+; SDAG-NEXT:    v_or_b32_e32 v22, v32, v34
+; SDAG-NEXT:    v_or_b32_e32 v23, v33, v35
+; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[22:23]
+; SDAG-NEXT:    v_or_b32_e32 v11, v19, v11
 ; SDAG-NEXT:    s_or_b64 s[10:11], vcc, s[10:11]
-; SDAG-NEXT:    v_or_b32_e32 v20, v22, v20
-; SDAG-NEXT:    v_mov_b32_e32 v23, v11
-; SDAG-NEXT:    v_mov_b32_e32 v22, v10
+; SDAG-NEXT:    v_or_b32_e32 v10, v18, v10
+; SDAG-NEXT:    v_mov_b32_e32 v23, v9
+; SDAG-NEXT:    v_mov_b32_e32 v22, v8
 ; SDAG-NEXT:    s_andn2_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:    s_cbranch_execnz .LBB2_3
 ; SDAG-NEXT:  ; %bb.4: ; %Flow13
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:  .LBB2_5: ; %Flow14
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[8:9]
-; SDAG-NEXT:    v_lshl_b64 v[8:9], v[8:9], 1
+; SDAG-NEXT:    v_lshl_b64 v[10:11], v[10:11], 1
 ; SDAG-NEXT:    v_lshrrev_b32_e32 v22, 31, v21
+; SDAG-NEXT:    v_or_b32_e32 v10, v10, v22
 ; SDAG-NEXT:    v_lshl_b64 v[20:21], v[20:21], 1
-; SDAG-NEXT:    v_or_b32_e32 v8, v8, v22
-; SDAG-NEXT:    v_or_b32_e32 v35, v19, v9
-; SDAG-NEXT:    v_or_b32_e32 v27, v11, v21
-; SDAG-NEXT:    v_or_b32_e32 v32, v18, v8
-; SDAG-NEXT:    v_or_b32_e32 v33, v10, v20
+; SDAG-NEXT:    v_or_b32_e32 v35, v19, v11
+; SDAG-NEXT:    v_or_b32_e32 v32, v18, v10
+; SDAG-NEXT:    v_or_b32_e32 v27, v9, v21
+; SDAG-NEXT:    v_or_b32_e32 v33, v8, v20
 ; SDAG-NEXT:  .LBB2_6: ; %Flow16
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[6:7]
 ; SDAG-NEXT:    v_ashrrev_i32_e32 v26, 31, v7
@@ -2025,28 +2026,28 @@ define <2 x i128> @v_srem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-LABEL: v_srem_v2i128_vv:
 ; GISEL:       ; %bb.0: ; %_udiv-special-cases_udiv-special-cases
 ; GISEL-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GISEL-NEXT:    s_mov_b64 s[8:9], 0
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v28, 31, v3
-; GISEL-NEXT:    v_ashrrev_i32_e32 v20, 31, v11
-; GISEL-NEXT:    v_mov_b32_e32 v18, 0x7f
-; GISEL-NEXT:    v_mov_b32_e32 v19, 0
+; GISEL-NEXT:    v_ashrrev_i32_e32 v18, 31, v11
+; GISEL-NEXT:    v_mov_b32_e32 v19, 0x7f
+; GISEL-NEXT:    v_mov_b32_e32 v20, 0
+; GISEL-NEXT:    s_mov_b64 s[8:9], 0
 ; GISEL-NEXT:    v_xor_b32_e32 v0, v0, v28
 ; GISEL-NEXT:    v_xor_b32_e32 v1, v1, v28
 ; GISEL-NEXT:    v_xor_b32_e32 v2, v2, v28
 ; GISEL-NEXT:    v_xor_b32_e32 v3, v3, v28
-; GISEL-NEXT:    v_xor_b32_e32 v8, v8, v20
-; GISEL-NEXT:    v_xor_b32_e32 v9, v9, v20
-; GISEL-NEXT:    v_xor_b32_e32 v10, v10, v20
-; GISEL-NEXT:    v_xor_b32_e32 v11, v11, v20
+; GISEL-NEXT:    v_xor_b32_e32 v8, v8, v18
+; GISEL-NEXT:    v_xor_b32_e32 v9, v9, v18
+; GISEL-NEXT:    v_xor_b32_e32 v10, v10, v18
+; GISEL-NEXT:    v_xor_b32_e32 v11, v11, v18
 ; GISEL-NEXT:    v_sub_i32_e32 v16, vcc, v0, v28
 ; GISEL-NEXT:    v_subb_u32_e32 v17, vcc, v1, v28, vcc
-; GISEL-NEXT:    v_sub_i32_e64 v30, s[4:5], v8, v20
-; GISEL-NEXT:    v_subb_u32_e64 v29, s[4:5], v9, v20, s[4:5]
+; GISEL-NEXT:    v_sub_i32_e64 v30, s[4:5], v8, v18
+; GISEL-NEXT:    v_subb_u32_e64 v29, s[4:5], v9, v18, s[4:5]
 ; GISEL-NEXT:    v_subb_u32_e32 v8, vcc, v2, v28, vcc
 ; GISEL-NEXT:    v_subb_u32_e32 v9, vcc, v3, v28, vcc
-; GISEL-NEXT:    v_subb_u32_e64 v10, vcc, v10, v20, s[4:5]
-; GISEL-NEXT:    v_subb_u32_e32 v11, vcc, v11, v20, vcc
-; GISEL-NEXT:    v_ffbh_u32_e32 v20, v29
+; GISEL-NEXT:    v_subb_u32_e64 v10, vcc, v10, v18, s[4:5]
+; GISEL-NEXT:    v_subb_u32_e32 v11, vcc, v11, v18, vcc
+; GISEL-NEXT:    v_ffbh_u32_e32 v18, v29
 ; GISEL-NEXT:    v_ffbh_u32_e32 v21, v30
 ; GISEL-NEXT:    v_ffbh_u32_e32 v22, v17
 ; GISEL-NEXT:    v_ffbh_u32_e32 v23, v16
@@ -2055,53 +2056,53 @@ define <2 x i128> @v_srem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_or_b32_e32 v2, v16, v8
 ; GISEL-NEXT:    v_or_b32_e32 v3, v17, v9
 ; GISEL-NEXT:    v_add_i32_e32 v21, vcc, 32, v21
-; GISEL-NEXT:    v_ffbh_u32_e32 v24, v11
-; GISEL-NEXT:    v_ffbh_u32_e32 v25, v10
 ; GISEL-NEXT:    v_add_i32_e32 v23, vcc, 32, v23
-; GISEL-NEXT:    v_ffbh_u32_e32 v26, v9
-; GISEL-NEXT:    v_ffbh_u32_e32 v27, v8
+; GISEL-NEXT:    v_ffbh_u32_e32 v24, v10
+; GISEL-NEXT:    v_ffbh_u32_e32 v25, v11
+; GISEL-NEXT:    v_ffbh_u32_e32 v26, v8
+; GISEL-NEXT:    v_ffbh_u32_e32 v27, v9
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
 ; GISEL-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[2:3]
-; GISEL-NEXT:    v_min_u32_e32 v0, v20, v21
-; GISEL-NEXT:    v_add_i32_e64 v1, s[6:7], 32, v25
-; GISEL-NEXT:    v_min_u32_e32 v2, v22, v23
-; GISEL-NEXT:    v_add_i32_e64 v3, s[6:7], 32, v27
+; GISEL-NEXT:    v_min_u32_e32 v0, v18, v21
+; GISEL-NEXT:    v_min_u32_e32 v1, v22, v23
+; GISEL-NEXT:    v_add_i32_e64 v2, s[6:7], 32, v24
+; GISEL-NEXT:    v_add_i32_e64 v3, s[6:7], 32, v26
+; GISEL-NEXT:    v_min_u32_e32 v2, v25, v2
+; GISEL-NEXT:    v_min_u32_e32 v3, v27, v3
 ; GISEL-NEXT:    v_add_i32_e64 v0, s[6:7], 64, v0
-; GISEL-NEXT:    v_min_u32_e32 v1, v24, v1
-; GISEL-NEXT:    v_add_i32_e64 v2, s[6:7], 64, v2
-; GISEL-NEXT:    v_min_u32_e32 v3, v26, v3
+; GISEL-NEXT:    v_add_i32_e64 v1, s[6:7], 64, v1
 ; GISEL-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, s[4:5]
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e32 v0, v1, v0, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v0, v2, v0, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e32 v1, v3, v2, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v1, v3, v1, vcc
 ; GISEL-NEXT:    v_sub_i32_e32 v2, vcc, v0, v1
 ; GISEL-NEXT:    v_subb_u32_e64 v3, s[4:5], 0, 0, vcc
 ; GISEL-NEXT:    v_subb_u32_e64 v0, s[4:5], 0, 0, s[4:5]
 ; GISEL-NEXT:    v_subb_u32_e64 v1, s[4:5], 0, 0, s[4:5]
-; GISEL-NEXT:    v_cmp_gt_u64_e32 vcc, v[2:3], v[18:19]
-; GISEL-NEXT:    v_cndmask_b32_e64 v21, 0, 1, vcc
 ; GISEL-NEXT:    v_xor_b32_e32 v18, 0x7f, v2
-; GISEL-NEXT:    v_cmp_lt_u64_e32 vcc, 0, v[0:1]
-; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, vcc
+; GISEL-NEXT:    v_cmp_gt_u64_e32 vcc, v[2:3], v[19:20]
+; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
 ; GISEL-NEXT:    v_or_b32_e32 v18, v18, v0
 ; GISEL-NEXT:    v_or_b32_e32 v19, v3, v1
+; GISEL-NEXT:    v_cmp_lt_u64_e32 vcc, 0, v[0:1]
+; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
-; GISEL-NEXT:    v_cndmask_b32_e32 v21, v22, v21, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v20, v22, v20, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[18:19]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v18, 0, 1, vcc
-; GISEL-NEXT:    v_or_b32_e32 v19, v20, v21
-; GISEL-NEXT:    v_and_b32_e32 v20, 1, v19
+; GISEL-NEXT:    v_or_b32_e32 v19, v21, v20
 ; GISEL-NEXT:    v_or_b32_e32 v18, v19, v18
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v20
+; GISEL-NEXT:    v_and_b32_e32 v19, 1, v19
+; GISEL-NEXT:    v_and_b32_e32 v18, 1, v18
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v19
 ; GISEL-NEXT:    v_cndmask_b32_e64 v31, v16, 0, vcc
-; GISEL-NEXT:    v_and_b32_e32 v20, 1, v18
-; GISEL-NEXT:    v_cndmask_b32_e64 v32, v17, 0, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v18
 ; GISEL-NEXT:    v_cndmask_b32_e64 v18, v8, 0, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e64 v19, v9, 0, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v20
-; GISEL-NEXT:    s_xor_b64 s[4:5], vcc, -1
+; GISEL-NEXT:    s_xor_b64 s[4:5], s[4:5], -1
+; GISEL-NEXT:    v_cndmask_b32_e64 v32, v17, 0, vcc
 ; GISEL-NEXT:    s_and_saveexec_b64 s[12:13], s[4:5]
 ; GISEL-NEXT:    s_cbranch_execz .LBB2_6
 ; GISEL-NEXT:  ; %bb.1: ; %udiv-bb15
@@ -2154,11 +2155,11 @@ define <2 x i128> @v_srem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v31
 ; GISEL-NEXT:    v_cndmask_b32_e32 v2, v24, v2, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v3, v25, v3, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v26, 0, v0, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v27, 0, v1, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v24, 0, v0, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v25, 0, v1, vcc
 ; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v31
-; GISEL-NEXT:    v_cndmask_b32_e32 v24, v2, v16, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v25, v3, v17, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v26, v2, v16, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v27, v3, v17, vcc
 ; GISEL-NEXT:    v_mov_b32_e32 v23, 0
 ; GISEL-NEXT:    v_mov_b32_e32 v0, s4
 ; GISEL-NEXT:    v_mov_b32_e32 v1, s5
@@ -2166,40 +2167,40 @@ define <2 x i128> @v_srem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_mov_b32_e32 v3, s7
 ; GISEL-NEXT:  .LBB2_3: ; %udiv-do-while3
 ; GISEL-NEXT:    ; =>This Inner Loop Header: Depth=1
+; GISEL-NEXT:    v_lshrrev_b32_e32 v39, 31, v21
 ; GISEL-NEXT:    v_lshl_b64 v[2:3], v[20:21], 1
-; GISEL-NEXT:    v_lshrrev_b32_e32 v22, 31, v21
-; GISEL-NEXT:    v_lshl_b64 v[48:49], v[24:25], 1
+; GISEL-NEXT:    v_lshrrev_b32_e32 v22, 31, v27
 ; GISEL-NEXT:    v_lshl_b64 v[26:27], v[26:27], 1
-; GISEL-NEXT:    v_lshrrev_b32_e32 v24, 31, v25
-; GISEL-NEXT:    v_lshrrev_b32_e32 v25, 31, v19
-; GISEL-NEXT:    v_lshl_b64 v[18:19], v[18:19], 1
+; GISEL-NEXT:    v_lshl_b64 v[24:25], v[24:25], 1
+; GISEL-NEXT:    v_lshrrev_b32_e32 v48, 31, v19
 ; GISEL-NEXT:    v_add_i32_e32 v31, vcc, -1, v31
 ; GISEL-NEXT:    v_addc_u32_e32 v32, vcc, -1, v32, vcc
+; GISEL-NEXT:    v_lshl_b64 v[18:19], v[18:19], 1
 ; GISEL-NEXT:    v_or_b32_e32 v20, v0, v2
 ; GISEL-NEXT:    v_or_b32_e32 v21, v1, v3
-; GISEL-NEXT:    v_or_b32_e32 v2, v26, v24
-; GISEL-NEXT:    v_or_b32_e32 v3, v48, v25
-; GISEL-NEXT:    v_or_b32_e32 v18, v18, v22
+; GISEL-NEXT:    v_or_b32_e32 v2, v24, v22
+; GISEL-NEXT:    v_or_b32_e32 v3, v26, v48
 ; GISEL-NEXT:    v_addc_u32_e32 v33, vcc, -1, v33, vcc
 ; GISEL-NEXT:    v_addc_u32_e32 v34, vcc, -1, v34, vcc
 ; GISEL-NEXT:    v_sub_i32_e32 v0, vcc, v35, v3
-; GISEL-NEXT:    v_subb_u32_e32 v0, vcc, v36, v49, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v0, vcc, v36, v27, vcc
 ; GISEL-NEXT:    v_or_b32_e32 v0, v31, v33
 ; GISEL-NEXT:    v_or_b32_e32 v1, v32, v34
 ; GISEL-NEXT:    v_subb_u32_e32 v22, vcc, v37, v2, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v22, vcc, v38, v27, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v22, vcc, v38, v25, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[0:1]
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v0, 31, v22
 ; GISEL-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
-; GISEL-NEXT:    v_and_b32_e32 v22, 1, v0
 ; GISEL-NEXT:    v_and_b32_e32 v1, v0, v30
-; GISEL-NEXT:    v_and_b32_e32 v25, v0, v29
-; GISEL-NEXT:    v_and_b32_e32 v26, v0, v10
-; GISEL-NEXT:    v_and_b32_e32 v0, v0, v11
-; GISEL-NEXT:    v_sub_i32_e32 v24, vcc, v3, v1
-; GISEL-NEXT:    v_subb_u32_e32 v25, vcc, v49, v25, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v26, vcc, v2, v26, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v27, vcc, v27, v0, vcc
+; GISEL-NEXT:    v_and_b32_e32 v24, v0, v29
+; GISEL-NEXT:    v_and_b32_e32 v48, v0, v10
+; GISEL-NEXT:    v_and_b32_e32 v49, v0, v11
+; GISEL-NEXT:    v_and_b32_e32 v22, 1, v0
+; GISEL-NEXT:    v_sub_i32_e32 v26, vcc, v3, v1
+; GISEL-NEXT:    v_subb_u32_e32 v27, vcc, v27, v24, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v24, vcc, v2, v48, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v25, vcc, v25, v49, vcc
+; GISEL-NEXT:    v_or_b32_e32 v18, v18, v39
 ; GISEL-NEXT:    v_mov_b32_e32 v0, v22
 ; GISEL-NEXT:    v_mov_b32_e32 v1, v23
 ; GISEL-NEXT:    s_andn2_b64 exec, exec, s[4:5]
@@ -2486,11 +2487,11 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_add_i32_e64 v17, s[6:7], 32, v22
 ; SDAG-NEXT:    v_add_i32_e64 v18, s[6:7], 32, v24
 ; SDAG-NEXT:    v_add_i32_e64 v19, s[6:7], 32, v26
-; SDAG-NEXT:    s_or_b64 s[6:7], vcc, s[4:5]
 ; SDAG-NEXT:    v_min_u32_e32 v16, v16, v21
 ; SDAG-NEXT:    v_min_u32_e32 v17, v17, v23
 ; SDAG-NEXT:    v_min_u32_e32 v18, v18, v25
 ; SDAG-NEXT:    v_min_u32_e32 v19, v19, v27
+; SDAG-NEXT:    s_or_b64 s[6:7], vcc, s[4:5]
 ; SDAG-NEXT:    v_add_i32_e32 v17, vcc, 64, v17
 ; SDAG-NEXT:    v_addc_u32_e64 v20, s[4:5], 0, 0, vcc
 ; SDAG-NEXT:    v_add_i32_e32 v19, vcc, 64, v19
@@ -2501,65 +2502,65 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[2:3]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v17, v21, 0, vcc
 ; SDAG-NEXT:    v_cndmask_b32_e32 v18, v19, v18, vcc
-; SDAG-NEXT:    v_sub_i32_e32 v16, vcc, v16, v18
-; SDAG-NEXT:    v_subb_u32_e32 v17, vcc, v20, v17, vcc
-; SDAG-NEXT:    v_xor_b32_e32 v18, 0x7f, v16
+; SDAG-NEXT:    v_sub_i32_e32 v18, vcc, v16, v18
+; SDAG-NEXT:    v_subb_u32_e32 v19, vcc, v20, v17, vcc
+; SDAG-NEXT:    v_xor_b32_e32 v16, 0x7f, v18
 ; SDAG-NEXT:    v_subbrev_u32_e32 v20, vcc, 0, v28, vcc
-; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[8:9], v[16:17]
+; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[8:9], v[18:19]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v22, 0, 1, s[4:5]
 ; SDAG-NEXT:    v_subbrev_u32_e32 v21, vcc, 0, v28, vcc
-; SDAG-NEXT:    v_or_b32_e32 v18, v18, v20
+; SDAG-NEXT:    v_or_b32_e32 v16, v16, v20
+; SDAG-NEXT:    v_or_b32_e32 v17, v19, v21
 ; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[20:21]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v23, 0, 1, vcc
-; SDAG-NEXT:    v_or_b32_e32 v19, v17, v21
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[20:21]
-; SDAG-NEXT:    v_cndmask_b32_e32 v22, v23, v22, vcc
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
-; SDAG-NEXT:    v_and_b32_e32 v18, 1, v22
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v18
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[16:17]
+; SDAG-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[20:21]
+; SDAG-NEXT:    v_cndmask_b32_e64 v16, v23, v22, s[4:5]
+; SDAG-NEXT:    v_and_b32_e32 v16, 1, v16
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v16
 ; SDAG-NEXT:    s_or_b64 s[4:5], s[6:7], s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v33, v3, 0, s[4:5]
 ; SDAG-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
 ; SDAG-NEXT:    v_cndmask_b32_e64 v31, v2, 0, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v30, v1, 0, s[4:5]
+; SDAG-NEXT:    s_and_b64 s[8:9], s[6:7], vcc
 ; SDAG-NEXT:    v_cndmask_b32_e64 v32, v0, 0, s[4:5]
-; SDAG-NEXT:    s_and_b64 s[4:5], s[6:7], vcc
-; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[4:5]
+; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[8:9]
 ; SDAG-NEXT:    s_cbranch_execz .LBB3_6
 ; SDAG-NEXT:  ; %bb.1: ; %udiv-bb15
-; SDAG-NEXT:    v_add_i32_e32 v30, vcc, 1, v16
-; SDAG-NEXT:    v_sub_i32_e64 v22, s[4:5], 63, v16
-; SDAG-NEXT:    v_mov_b32_e32 v18, 0
-; SDAG-NEXT:    v_mov_b32_e32 v19, 0
-; SDAG-NEXT:    v_addc_u32_e32 v31, vcc, 0, v17, vcc
+; SDAG-NEXT:    v_add_i32_e32 v30, vcc, 1, v18
+; SDAG-NEXT:    v_sub_i32_e64 v22, s[4:5], 63, v18
+; SDAG-NEXT:    v_mov_b32_e32 v16, 0
+; SDAG-NEXT:    v_mov_b32_e32 v17, 0
+; SDAG-NEXT:    v_addc_u32_e32 v31, vcc, 0, v19, vcc
 ; SDAG-NEXT:    v_lshl_b64 v[22:23], v[0:1], v22
 ; SDAG-NEXT:    v_addc_u32_e32 v32, vcc, 0, v20, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, 0, v21, vcc
-; SDAG-NEXT:    v_or_b32_e32 v20, v30, v32
-; SDAG-NEXT:    v_sub_i32_e32 v26, vcc, 0x7f, v16
-; SDAG-NEXT:    v_or_b32_e32 v21, v31, v33
-; SDAG-NEXT:    v_lshl_b64 v[16:17], v[2:3], v26
-; SDAG-NEXT:    v_sub_i32_e32 v27, vcc, 64, v26
-; SDAG-NEXT:    v_lshl_b64 v[24:25], v[0:1], v26
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[20:21]
-; SDAG-NEXT:    v_lshr_b64 v[20:21], v[0:1], v27
-; SDAG-NEXT:    v_or_b32_e32 v17, v17, v21
-; SDAG-NEXT:    v_or_b32_e32 v16, v16, v20
-; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v26
-; SDAG-NEXT:    v_cndmask_b32_e64 v17, v23, v17, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v16, v22, v16, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v23, 0, v25, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v22, 0, v24, s[4:5]
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v26
-; SDAG-NEXT:    v_cndmask_b32_e64 v17, v17, v3, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v16, v16, v2, s[4:5]
+; SDAG-NEXT:    v_or_b32_e32 v19, v30, v32
+; SDAG-NEXT:    v_sub_i32_e32 v21, vcc, 0x7f, v18
+; SDAG-NEXT:    v_or_b32_e32 v20, v31, v33
+; SDAG-NEXT:    v_lshl_b64 v[24:25], v[2:3], v21
+; SDAG-NEXT:    v_sub_i32_e32 v18, vcc, 64, v21
+; SDAG-NEXT:    v_lshl_b64 v[26:27], v[0:1], v21
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[19:20]
+; SDAG-NEXT:    v_lshr_b64 v[18:19], v[0:1], v18
+; SDAG-NEXT:    v_or_b32_e32 v19, v25, v19
+; SDAG-NEXT:    v_or_b32_e32 v18, v24, v18
+; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v21
+; SDAG-NEXT:    v_cndmask_b32_e64 v19, v23, v19, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, v22, v18, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v23, 0, v27, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v22, 0, v26, s[4:5]
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v21
+; SDAG-NEXT:    v_cndmask_b32_e64 v19, v19, v3, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, v18, v2, s[4:5]
 ; SDAG-NEXT:    v_mov_b32_e32 v20, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v21, 0
 ; SDAG-NEXT:    s_and_saveexec_b64 s[4:5], vcc
 ; SDAG-NEXT:    s_xor_b64 s[8:9], exec, s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB3_5
 ; SDAG-NEXT:  ; %bb.2: ; %udiv-preheader4
-; SDAG-NEXT:    v_lshr_b64 v[18:19], v[0:1], v30
+; SDAG-NEXT:    v_lshr_b64 v[16:17], v[0:1], v30
 ; SDAG-NEXT:    v_sub_i32_e32 v28, vcc, 64, v30
 ; SDAG-NEXT:    v_subrev_i32_e32 v35, vcc, 64, v30
 ; SDAG-NEXT:    v_lshr_b64 v[26:27], v[2:3], v30
@@ -2572,73 +2573,73 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_lshl_b64 v[28:29], v[2:3], v28
 ; SDAG-NEXT:    v_lshr_b64 v[37:38], v[2:3], v35
 ; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, -1, v9, vcc
-; SDAG-NEXT:    v_or_b32_e32 v19, v19, v29
-; SDAG-NEXT:    v_or_b32_e32 v18, v18, v28
+; SDAG-NEXT:    v_or_b32_e32 v17, v17, v29
+; SDAG-NEXT:    v_or_b32_e32 v16, v16, v28
 ; SDAG-NEXT:    v_addc_u32_e32 v36, vcc, -1, v10, vcc
 ; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v30
-; SDAG-NEXT:    v_cndmask_b32_e64 v19, v38, v19, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v18, v37, v18, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v17, v38, v17, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v16, v37, v16, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v29, 0, v27, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v28, 0, v26, s[4:5]
 ; SDAG-NEXT:    v_addc_u32_e32 v37, vcc, -1, v11, vcc
 ; SDAG-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v30
-; SDAG-NEXT:    v_cndmask_b32_e32 v27, v19, v1, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v26, v18, v0, vcc
-; SDAG-NEXT:    v_mov_b32_e32 v19, 0
+; SDAG-NEXT:    v_cndmask_b32_e32 v27, v17, v1, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v26, v16, v0, vcc
+; SDAG-NEXT:    v_mov_b32_e32 v17, 0
 ; SDAG-NEXT:  .LBB3_3: ; %udiv-do-while3
 ; SDAG-NEXT:    ; =>This Inner Loop Header: Depth=1
+; SDAG-NEXT:    v_lshrrev_b32_e32 v16, 31, v23
+; SDAG-NEXT:    v_lshl_b64 v[22:23], v[22:23], 1
 ; SDAG-NEXT:    v_lshl_b64 v[28:29], v[28:29], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v18, 31, v27
+; SDAG-NEXT:    v_lshrrev_b32_e32 v38, 31, v27
 ; SDAG-NEXT:    v_lshl_b64 v[26:27], v[26:27], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v38, 31, v17
-; SDAG-NEXT:    v_lshl_b64 v[16:17], v[16:17], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v39, 31, v23
-; SDAG-NEXT:    v_lshl_b64 v[22:23], v[22:23], 1
-; SDAG-NEXT:    v_or_b32_e32 v28, v28, v18
-; SDAG-NEXT:    v_or_b32_e32 v26, v26, v38
-; SDAG-NEXT:    v_or_b32_e32 v16, v16, v39
-; SDAG-NEXT:    v_or_b32_e32 v17, v21, v17
-; SDAG-NEXT:    v_sub_i32_e32 v18, vcc, v34, v26
-; SDAG-NEXT:    v_or_b32_e32 v16, v20, v16
-; SDAG-NEXT:    v_subb_u32_e32 v18, vcc, v35, v27, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v18, vcc, v36, v28, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v18, vcc, v37, v29, vcc
-; SDAG-NEXT:    v_ashrrev_i32_e32 v38, 31, v18
-; SDAG-NEXT:    v_and_b32_e32 v39, v38, v8
-; SDAG-NEXT:    v_and_b32_e32 v48, v38, v9
-; SDAG-NEXT:    v_and_b32_e32 v49, v38, v10
-; SDAG-NEXT:    v_and_b32_e32 v18, 1, v38
-; SDAG-NEXT:    v_and_b32_e32 v38, v38, v11
-; SDAG-NEXT:    v_sub_i32_e32 v26, vcc, v26, v39
-; SDAG-NEXT:    v_subb_u32_e32 v27, vcc, v27, v48, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v28, vcc, v28, v49, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v29, vcc, v29, v38, vcc
+; SDAG-NEXT:    v_lshrrev_b32_e32 v39, 31, v19
+; SDAG-NEXT:    v_lshl_b64 v[18:19], v[18:19], 1
+; SDAG-NEXT:    v_or_b32_e32 v23, v25, v23
+; SDAG-NEXT:    v_or_b32_e32 v22, v24, v22
+; SDAG-NEXT:    v_or_b32_e32 v24, v28, v38
+; SDAG-NEXT:    v_or_b32_e32 v25, v26, v39
+; SDAG-NEXT:    v_or_b32_e32 v18, v18, v16
+; SDAG-NEXT:    v_sub_i32_e32 v16, vcc, v34, v25
+; SDAG-NEXT:    v_subb_u32_e32 v16, vcc, v35, v27, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v16, vcc, v36, v24, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v16, vcc, v37, v29, vcc
+; SDAG-NEXT:    v_ashrrev_i32_e32 v16, 31, v16
+; SDAG-NEXT:    v_and_b32_e32 v26, v16, v8
+; SDAG-NEXT:    v_and_b32_e32 v28, v16, v9
+; SDAG-NEXT:    v_and_b32_e32 v38, v16, v10
+; SDAG-NEXT:    v_and_b32_e32 v39, v16, v11
+; SDAG-NEXT:    v_and_b32_e32 v16, 1, v16
+; SDAG-NEXT:    v_sub_i32_e32 v26, vcc, v25, v26
+; SDAG-NEXT:    v_subb_u32_e32 v27, vcc, v27, v28, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v28, vcc, v24, v38, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v29, vcc, v29, v39, vcc
 ; SDAG-NEXT:    v_add_i32_e32 v30, vcc, -1, v30
 ; SDAG-NEXT:    v_addc_u32_e32 v31, vcc, -1, v31, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v32, vcc, -1, v32, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v33, vcc, -1, v33, vcc
-; SDAG-NEXT:    v_or_b32_e32 v38, v30, v32
-; SDAG-NEXT:    v_or_b32_e32 v39, v31, v33
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[38:39]
-; SDAG-NEXT:    v_or_b32_e32 v23, v25, v23
+; SDAG-NEXT:    v_or_b32_e32 v24, v30, v32
+; SDAG-NEXT:    v_or_b32_e32 v25, v31, v33
+; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[24:25]
+; SDAG-NEXT:    v_or_b32_e32 v19, v21, v19
 ; SDAG-NEXT:    s_or_b64 s[10:11], vcc, s[10:11]
-; SDAG-NEXT:    v_or_b32_e32 v22, v24, v22
-; SDAG-NEXT:    v_mov_b32_e32 v25, v19
-; SDAG-NEXT:    v_mov_b32_e32 v24, v18
+; SDAG-NEXT:    v_or_b32_e32 v18, v20, v18
+; SDAG-NEXT:    v_mov_b32_e32 v25, v17
+; SDAG-NEXT:    v_mov_b32_e32 v24, v16
 ; SDAG-NEXT:    s_andn2_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:    s_cbranch_execnz .LBB3_3
 ; SDAG-NEXT:  ; %bb.4: ; %Flow13
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:  .LBB3_5: ; %Flow14
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[8:9]
-; SDAG-NEXT:    v_lshl_b64 v[16:17], v[16:17], 1
+; SDAG-NEXT:    v_lshl_b64 v[18:19], v[18:19], 1
 ; SDAG-NEXT:    v_lshrrev_b32_e32 v24, 31, v23
 ; SDAG-NEXT:    v_lshl_b64 v[22:23], v[22:23], 1
-; SDAG-NEXT:    v_or_b32_e32 v16, v16, v24
-; SDAG-NEXT:    v_or_b32_e32 v33, v21, v17
-; SDAG-NEXT:    v_or_b32_e32 v30, v19, v23
-; SDAG-NEXT:    v_or_b32_e32 v31, v20, v16
-; SDAG-NEXT:    v_or_b32_e32 v32, v18, v22
+; SDAG-NEXT:    v_or_b32_e32 v18, v18, v24
+; SDAG-NEXT:    v_or_b32_e32 v33, v21, v19
+; SDAG-NEXT:    v_or_b32_e32 v30, v17, v23
+; SDAG-NEXT:    v_or_b32_e32 v31, v20, v18
+; SDAG-NEXT:    v_or_b32_e32 v32, v16, v22
 ; SDAG-NEXT:  .LBB3_6: ; %Flow16
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[6:7]
 ; SDAG-NEXT:    v_or_b32_e32 v17, v13, v15
@@ -2678,63 +2679,63 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_cndmask_b32_e32 v18, v19, v18, vcc
 ; SDAG-NEXT:    v_sub_i32_e32 v16, vcc, v16, v18
 ; SDAG-NEXT:    v_subb_u32_e32 v17, vcc, v20, v17, vcc
-; SDAG-NEXT:    v_xor_b32_e32 v20, 0x7f, v16
-; SDAG-NEXT:    v_subbrev_u32_e32 v18, vcc, 0, v28, vcc
+; SDAG-NEXT:    v_xor_b32_e32 v18, 0x7f, v16
+; SDAG-NEXT:    v_subbrev_u32_e32 v20, vcc, 0, v28, vcc
 ; SDAG-NEXT:    v_cmp_lt_u64_e64 s[4:5], s[8:9], v[16:17]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v22, 0, 1, s[4:5]
-; SDAG-NEXT:    v_subbrev_u32_e32 v19, vcc, 0, v28, vcc
-; SDAG-NEXT:    v_or_b32_e32 v20, v20, v18
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
+; SDAG-NEXT:    v_subbrev_u32_e32 v21, vcc, 0, v28, vcc
+; SDAG-NEXT:    v_or_b32_e32 v18, v18, v20
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[20:21]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v23, 0, 1, vcc
-; SDAG-NEXT:    v_or_b32_e32 v21, v17, v19
-; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[18:19]
+; SDAG-NEXT:    v_or_b32_e32 v19, v17, v21
+; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[20:21]
 ; SDAG-NEXT:    v_cndmask_b32_e32 v22, v23, v22, vcc
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[20:21]
-; SDAG-NEXT:    v_and_b32_e32 v20, 1, v22
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v20
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[18:19]
+; SDAG-NEXT:    v_and_b32_e32 v18, 1, v22
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 1, v18
 ; SDAG-NEXT:    s_or_b64 s[4:5], s[6:7], s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v23, v7, 0, s[4:5]
 ; SDAG-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
 ; SDAG-NEXT:    v_cndmask_b32_e64 v22, v6, 0, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v21, v5, 0, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v20, v4, 0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v19, v5, 0, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, v4, 0, s[4:5]
 ; SDAG-NEXT:    s_and_b64 s[4:5], s[6:7], vcc
 ; SDAG-NEXT:    s_and_saveexec_b64 s[6:7], s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB3_12
 ; SDAG-NEXT:  ; %bb.7: ; %udiv-bb1
 ; SDAG-NEXT:    v_add_i32_e32 v34, vcc, 1, v16
 ; SDAG-NEXT:    v_sub_i32_e64 v22, s[4:5], 63, v16
-; SDAG-NEXT:    v_mov_b32_e32 v20, 0
-; SDAG-NEXT:    v_mov_b32_e32 v21, 0
+; SDAG-NEXT:    v_mov_b32_e32 v18, 0
+; SDAG-NEXT:    v_mov_b32_e32 v19, 0
 ; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, 0, v17, vcc
 ; SDAG-NEXT:    v_lshl_b64 v[22:23], v[4:5], v22
-; SDAG-NEXT:    v_addc_u32_e32 v36, vcc, 0, v18, vcc
-; SDAG-NEXT:    v_addc_u32_e32 v37, vcc, 0, v19, vcc
-; SDAG-NEXT:    v_or_b32_e32 v17, v34, v36
-; SDAG-NEXT:    v_sub_i32_e32 v19, vcc, 0x7f, v16
-; SDAG-NEXT:    v_or_b32_e32 v18, v35, v37
-; SDAG-NEXT:    v_lshl_b64 v[24:25], v[6:7], v19
-; SDAG-NEXT:    v_sub_i32_e32 v16, vcc, 64, v19
-; SDAG-NEXT:    v_lshl_b64 v[26:27], v[4:5], v19
-; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[17:18]
-; SDAG-NEXT:    v_lshr_b64 v[16:17], v[4:5], v16
-; SDAG-NEXT:    v_or_b32_e32 v17, v25, v17
-; SDAG-NEXT:    v_or_b32_e32 v16, v24, v16
-; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v19
-; SDAG-NEXT:    v_cndmask_b32_e64 v18, v23, v17, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v22, v22, v16, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v17, 0, v27, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v16, 0, v26, s[4:5]
-; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v19
-; SDAG-NEXT:    v_cndmask_b32_e64 v19, v18, v7, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v18, v22, v6, s[4:5]
+; SDAG-NEXT:    v_addc_u32_e32 v36, vcc, 0, v20, vcc
+; SDAG-NEXT:    v_addc_u32_e32 v37, vcc, 0, v21, vcc
+; SDAG-NEXT:    v_or_b32_e32 v20, v34, v36
+; SDAG-NEXT:    v_sub_i32_e32 v26, vcc, 0x7f, v16
+; SDAG-NEXT:    v_or_b32_e32 v21, v35, v37
+; SDAG-NEXT:    v_lshl_b64 v[16:17], v[6:7], v26
+; SDAG-NEXT:    v_sub_i32_e32 v27, vcc, 64, v26
+; SDAG-NEXT:    v_lshl_b64 v[24:25], v[4:5], v26
+; SDAG-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[20:21]
+; SDAG-NEXT:    v_lshr_b64 v[20:21], v[4:5], v27
+; SDAG-NEXT:    v_or_b32_e32 v17, v17, v21
+; SDAG-NEXT:    v_or_b32_e32 v16, v16, v20
+; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v26
+; SDAG-NEXT:    v_cndmask_b32_e64 v17, v23, v17, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v16, v22, v16, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v21, 0, v25, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v20, 0, v24, s[4:5]
+; SDAG-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v26
+; SDAG-NEXT:    v_cndmask_b32_e64 v17, v17, v7, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v16, v16, v6, s[4:5]
 ; SDAG-NEXT:    v_mov_b32_e32 v22, 0
 ; SDAG-NEXT:    v_mov_b32_e32 v23, 0
 ; SDAG-NEXT:    s_and_saveexec_b64 s[4:5], vcc
 ; SDAG-NEXT:    s_xor_b64 s[8:9], exec, s[4:5]
 ; SDAG-NEXT:    s_cbranch_execz .LBB3_11
 ; SDAG-NEXT:  ; %bb.8: ; %udiv-preheader
-; SDAG-NEXT:    v_lshr_b64 v[20:21], v[4:5], v34
+; SDAG-NEXT:    v_lshr_b64 v[18:19], v[4:5], v34
 ; SDAG-NEXT:    v_sub_i32_e32 v28, vcc, 64, v34
 ; SDAG-NEXT:    v_subrev_i32_e32 v39, vcc, 64, v34
 ; SDAG-NEXT:    v_lshr_b64 v[26:27], v[6:7], v34
@@ -2747,100 +2748,100 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_lshl_b64 v[28:29], v[6:7], v28
 ; SDAG-NEXT:    v_lshr_b64 v[49:50], v[6:7], v39
 ; SDAG-NEXT:    v_addc_u32_e32 v39, vcc, -1, v13, vcc
-; SDAG-NEXT:    v_or_b32_e32 v21, v21, v29
-; SDAG-NEXT:    v_or_b32_e32 v20, v20, v28
+; SDAG-NEXT:    v_or_b32_e32 v19, v19, v29
+; SDAG-NEXT:    v_or_b32_e32 v18, v18, v28
 ; SDAG-NEXT:    v_addc_u32_e32 v48, vcc, -1, v14, vcc
 ; SDAG-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v34
-; SDAG-NEXT:    v_cndmask_b32_e64 v21, v50, v21, s[4:5]
-; SDAG-NEXT:    v_cndmask_b32_e64 v20, v49, v20, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v19, v50, v19, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v18, v49, v18, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v29, 0, v27, s[4:5]
 ; SDAG-NEXT:    v_cndmask_b32_e64 v28, 0, v26, s[4:5]
 ; SDAG-NEXT:    v_addc_u32_e32 v49, vcc, -1, v15, vcc
 ; SDAG-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v34
-; SDAG-NEXT:    v_cndmask_b32_e32 v27, v21, v5, vcc
-; SDAG-NEXT:    v_cndmask_b32_e32 v26, v20, v4, vcc
-; SDAG-NEXT:    v_mov_b32_e32 v21, 0
+; SDAG-NEXT:    v_cndmask_b32_e32 v27, v19, v5, vcc
+; SDAG-NEXT:    v_cndmask_b32_e32 v26, v18, v4, vcc
+; SDAG-NEXT:    v_mov_b32_e32 v19, 0
 ; SDAG-NEXT:  .LBB3_9: ; %udiv-do-while
 ; SDAG-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; SDAG-NEXT:    v_lshl_b64 v[28:29], v[28:29], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v20, 31, v27
+; SDAG-NEXT:    v_lshrrev_b32_e32 v18, 31, v27
 ; SDAG-NEXT:    v_lshl_b64 v[26:27], v[26:27], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v50, 31, v19
-; SDAG-NEXT:    v_lshl_b64 v[18:19], v[18:19], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v51, 31, v17
+; SDAG-NEXT:    v_lshrrev_b32_e32 v50, 31, v17
 ; SDAG-NEXT:    v_lshl_b64 v[16:17], v[16:17], 1
-; SDAG-NEXT:    v_or_b32_e32 v28, v28, v20
+; SDAG-NEXT:    v_lshrrev_b32_e32 v51, 31, v21
+; SDAG-NEXT:    v_lshl_b64 v[20:21], v[20:21], 1
+; SDAG-NEXT:    v_or_b32_e32 v18, v28, v18
 ; SDAG-NEXT:    v_or_b32_e32 v26, v26, v50
-; SDAG-NEXT:    v_or_b32_e32 v18, v18, v51
-; SDAG-NEXT:    v_or_b32_e32 v19, v23, v19
-; SDAG-NEXT:    v_or_b32_e32 v17, v25, v17
-; SDAG-NEXT:    v_or_b32_e32 v18, v22, v18
-; SDAG-NEXT:    v_sub_i32_e32 v20, vcc, v38, v26
-; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, v39, v27, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, v48, v28, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v20, vcc, v49, v29, vcc
-; SDAG-NEXT:    v_ashrrev_i32_e32 v25, 31, v20
-; SDAG-NEXT:    v_and_b32_e32 v20, 1, v25
-; SDAG-NEXT:    v_and_b32_e32 v50, v25, v15
+; SDAG-NEXT:    v_or_b32_e32 v16, v16, v51
+; SDAG-NEXT:    v_or_b32_e32 v17, v23, v17
+; SDAG-NEXT:    v_or_b32_e32 v21, v25, v21
+; SDAG-NEXT:    v_sub_i32_e32 v25, vcc, v38, v26
+; SDAG-NEXT:    v_or_b32_e32 v16, v22, v16
+; SDAG-NEXT:    v_subb_u32_e32 v25, vcc, v39, v27, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v25, vcc, v48, v18, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v25, vcc, v49, v29, vcc
+; SDAG-NEXT:    v_ashrrev_i32_e32 v25, 31, v25
+; SDAG-NEXT:    v_and_b32_e32 v28, v25, v12
+; SDAG-NEXT:    v_and_b32_e32 v50, v25, v13
 ; SDAG-NEXT:    v_and_b32_e32 v51, v25, v14
-; SDAG-NEXT:    v_and_b32_e32 v52, v25, v13
-; SDAG-NEXT:    v_and_b32_e32 v25, v25, v12
-; SDAG-NEXT:    v_sub_i32_e32 v26, vcc, v26, v25
-; SDAG-NEXT:    v_subb_u32_e32 v27, vcc, v27, v52, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v28, vcc, v28, v51, vcc
-; SDAG-NEXT:    v_subb_u32_e32 v29, vcc, v29, v50, vcc
+; SDAG-NEXT:    v_and_b32_e32 v52, v25, v15
+; SDAG-NEXT:    v_sub_i32_e32 v26, vcc, v26, v28
+; SDAG-NEXT:    v_subb_u32_e32 v27, vcc, v27, v50, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v28, vcc, v18, v51, vcc
+; SDAG-NEXT:    v_subb_u32_e32 v29, vcc, v29, v52, vcc
 ; SDAG-NEXT:    v_add_i32_e32 v34, vcc, -1, v34
 ; SDAG-NEXT:    v_addc_u32_e32 v35, vcc, -1, v35, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v36, vcc, -1, v36, vcc
 ; SDAG-NEXT:    v_addc_u32_e32 v37, vcc, -1, v37, vcc
-; SDAG-NEXT:    v_or_b32_e32 v51, v35, v37
 ; SDAG-NEXT:    v_or_b32_e32 v50, v34, v36
+; SDAG-NEXT:    v_or_b32_e32 v51, v35, v37
 ; SDAG-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[50:51]
+; SDAG-NEXT:    v_and_b32_e32 v18, 1, v25
 ; SDAG-NEXT:    s_or_b64 s[10:11], vcc, s[10:11]
-; SDAG-NEXT:    v_or_b32_e32 v16, v24, v16
-; SDAG-NEXT:    v_mov_b32_e32 v25, v21
-; SDAG-NEXT:    v_mov_b32_e32 v24, v20
+; SDAG-NEXT:    v_or_b32_e32 v20, v24, v20
+; SDAG-NEXT:    v_mov_b32_e32 v25, v19
+; SDAG-NEXT:    v_mov_b32_e32 v24, v18
 ; SDAG-NEXT:    s_andn2_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:    s_cbranch_execnz .LBB3_9
 ; SDAG-NEXT:  ; %bb.10: ; %Flow
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[10:11]
 ; SDAG-NEXT:  .LBB3_11: ; %Flow11
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[8:9]
-; SDAG-NEXT:    v_lshl_b64 v[18:19], v[18:19], 1
-; SDAG-NEXT:    v_lshrrev_b32_e32 v24, 31, v17
 ; SDAG-NEXT:    v_lshl_b64 v[16:17], v[16:17], 1
-; SDAG-NEXT:    v_or_b32_e32 v18, v18, v24
-; SDAG-NEXT:    v_or_b32_e32 v23, v23, v19
-; SDAG-NEXT:    v_or_b32_e32 v21, v21, v17
-; SDAG-NEXT:    v_or_b32_e32 v22, v22, v18
-; SDAG-NEXT:    v_or_b32_e32 v20, v20, v16
+; SDAG-NEXT:    v_lshrrev_b32_e32 v24, 31, v21
+; SDAG-NEXT:    v_lshl_b64 v[20:21], v[20:21], 1
+; SDAG-NEXT:    v_or_b32_e32 v16, v16, v24
+; SDAG-NEXT:    v_or_b32_e32 v23, v23, v17
+; SDAG-NEXT:    v_or_b32_e32 v19, v19, v21
+; SDAG-NEXT:    v_or_b32_e32 v22, v22, v16
+; SDAG-NEXT:    v_or_b32_e32 v18, v18, v20
 ; SDAG-NEXT:  .LBB3_12: ; %Flow12
 ; SDAG-NEXT:    s_or_b64 exec, exec, s[6:7]
-; SDAG-NEXT:    v_mul_lo_u32 v18, v32, v11
+; SDAG-NEXT:    v_mul_lo_u32 v20, v32, v11
 ; SDAG-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v32, v10, 0
 ; SDAG-NEXT:    v_mul_lo_u32 v28, v30, v10
 ; SDAG-NEXT:    v_mul_lo_u32 v29, v33, v8
 ; SDAG-NEXT:    v_mul_lo_u32 v33, v31, v9
 ; SDAG-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v8, v32, 0
-; SDAG-NEXT:    v_mov_b32_e32 v19, 0
-; SDAG-NEXT:    v_mul_lo_u32 v34, v20, v15
-; SDAG-NEXT:    v_mad_u64_u32 v[24:25], s[4:5], v20, v14, 0
-; SDAG-NEXT:    v_mul_lo_u32 v35, v21, v14
+; SDAG-NEXT:    v_mov_b32_e32 v21, 0
+; SDAG-NEXT:    v_mul_lo_u32 v34, v18, v15
+; SDAG-NEXT:    v_mad_u64_u32 v[24:25], s[4:5], v18, v14, 0
+; SDAG-NEXT:    v_mul_lo_u32 v35, v19, v14
 ; SDAG-NEXT:    v_mul_lo_u32 v23, v23, v12
 ; SDAG-NEXT:    v_mul_lo_u32 v36, v22, v13
-; SDAG-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v12, v20, 0
-; SDAG-NEXT:    v_add_i32_e32 v17, vcc, v17, v18
-; SDAG-NEXT:    v_mov_b32_e32 v18, v11
-; SDAG-NEXT:    v_mad_u64_u32 v[26:27], s[4:5], v9, v32, v[18:19]
+; SDAG-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v12, v18, 0
+; SDAG-NEXT:    v_add_i32_e32 v17, vcc, v17, v20
+; SDAG-NEXT:    v_mov_b32_e32 v20, v11
+; SDAG-NEXT:    v_mad_u64_u32 v[26:27], s[4:5], v9, v32, v[20:21]
 ; SDAG-NEXT:    v_sub_i32_e32 v0, vcc, v0, v10
-; SDAG-NEXT:    v_add_i32_e64 v18, s[4:5], v25, v34
+; SDAG-NEXT:    v_add_i32_e64 v20, s[4:5], v25, v34
 ; SDAG-NEXT:    v_add_i32_e64 v17, s[4:5], v17, v28
 ; SDAG-NEXT:    v_mov_b32_e32 v28, v27
-; SDAG-NEXT:    v_mov_b32_e32 v27, v19
+; SDAG-NEXT:    v_mov_b32_e32 v27, v21
 ; SDAG-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v8, v30, v[26:27]
-; SDAG-NEXT:    v_add_i32_e64 v25, s[4:5], v18, v35
-; SDAG-NEXT:    v_mov_b32_e32 v18, v15
-; SDAG-NEXT:    v_mad_u64_u32 v[26:27], s[4:5], v13, v20, v[18:19]
+; SDAG-NEXT:    v_add_i32_e64 v25, s[4:5], v20, v35
+; SDAG-NEXT:    v_mov_b32_e32 v20, v15
+; SDAG-NEXT:    v_mad_u64_u32 v[26:27], s[4:5], v13, v18, v[20:21]
 ; SDAG-NEXT:    v_mad_u64_u32 v[15:16], s[4:5], v31, v8, v[16:17]
 ; SDAG-NEXT:    v_mov_b32_e32 v8, v11
 ; SDAG-NEXT:    v_add_i32_e64 v17, s[4:5], v28, v8
@@ -2849,24 +2850,24 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; SDAG-NEXT:    v_subb_u32_e32 v1, vcc, v1, v8, vcc
 ; SDAG-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v22, v12, v[24:25]
 ; SDAG-NEXT:    v_mov_b32_e32 v22, v27
-; SDAG-NEXT:    v_mov_b32_e32 v27, v19
-; SDAG-NEXT:    v_mad_u64_u32 v[19:20], s[4:5], v12, v21, v[26:27]
+; SDAG-NEXT:    v_mov_b32_e32 v27, v21
+; SDAG-NEXT:    v_mad_u64_u32 v[20:21], s[4:5], v12, v19, v[26:27]
 ; SDAG-NEXT:    v_add_i32_e64 v16, s[4:5], v29, v16
 ; SDAG-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v9, v30, v[17:18]
 ; SDAG-NEXT:    v_add_i32_e64 v17, s[4:5], v23, v11
-; SDAG-NEXT:    v_mov_b32_e32 v11, v20
+; SDAG-NEXT:    v_mov_b32_e32 v11, v21
 ; SDAG-NEXT:    v_add_i32_e64 v11, s[4:5], v22, v11
 ; SDAG-NEXT:    v_addc_u32_e64 v12, s[4:5], 0, 0, s[4:5]
 ; SDAG-NEXT:    v_add_i32_e64 v16, s[4:5], v33, v16
 ; SDAG-NEXT:    v_add_i32_e64 v17, s[4:5], v36, v17
-; SDAG-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v13, v21, v[11:12]
+; SDAG-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v13, v19, v[11:12]
 ; SDAG-NEXT:    v_add_i32_e64 v8, s[4:5], v8, v15
 ; SDAG-NEXT:    v_addc_u32_e64 v9, s[4:5], v9, v16, s[4:5]
 ; SDAG-NEXT:    v_subb_u32_e32 v2, vcc, v2, v8, vcc
 ; SDAG-NEXT:    v_subb_u32_e32 v3, vcc, v3, v9, vcc
 ; SDAG-NEXT:    v_add_i32_e32 v8, vcc, v11, v10
 ; SDAG-NEXT:    v_addc_u32_e32 v9, vcc, v12, v17, vcc
-; SDAG-NEXT:    v_mov_b32_e32 v10, v19
+; SDAG-NEXT:    v_mov_b32_e32 v10, v20
 ; SDAG-NEXT:    v_sub_i32_e32 v4, vcc, v4, v14
 ; SDAG-NEXT:    v_subb_u32_e32 v5, vcc, v5, v10, vcc
 ; SDAG-NEXT:    v_subb_u32_e32 v6, vcc, v6, v8, vcc
@@ -2876,7 +2877,6 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-LABEL: v_urem_v2i128_vv:
 ; GISEL:       ; %bb.0: ; %_udiv-special-cases_udiv-special-cases
 ; GISEL-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GISEL-NEXT:    s_mov_b64 s[8:9], 0
 ; GISEL-NEXT:    v_or_b32_e32 v16, v8, v10
 ; GISEL-NEXT:    v_or_b32_e32 v17, v9, v11
 ; GISEL-NEXT:    v_or_b32_e32 v18, v0, v2
@@ -2887,20 +2887,21 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_ffbh_u32_e32 v25, v10
 ; GISEL-NEXT:    v_ffbh_u32_e32 v26, v1
 ; GISEL-NEXT:    v_ffbh_u32_e32 v27, v0
-; GISEL-NEXT:    v_ffbh_u32_e32 v28, v3
-; GISEL-NEXT:    v_ffbh_u32_e32 v29, v2
+; GISEL-NEXT:    v_ffbh_u32_e32 v28, v2
+; GISEL-NEXT:    v_ffbh_u32_e32 v29, v3
 ; GISEL-NEXT:    v_mov_b32_e32 v20, 0x7f
 ; GISEL-NEXT:    v_mov_b32_e32 v21, 0
+; GISEL-NEXT:    s_mov_b64 s[8:9], 0
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[16:17]
 ; GISEL-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[18:19]
 ; GISEL-NEXT:    v_add_i32_e64 v16, s[6:7], 32, v23
 ; GISEL-NEXT:    v_add_i32_e64 v17, s[6:7], 32, v25
 ; GISEL-NEXT:    v_add_i32_e64 v18, s[6:7], 32, v27
-; GISEL-NEXT:    v_add_i32_e64 v19, s[6:7], 32, v29
+; GISEL-NEXT:    v_add_i32_e64 v19, s[6:7], 32, v28
 ; GISEL-NEXT:    v_min_u32_e32 v16, v22, v16
 ; GISEL-NEXT:    v_min_u32_e32 v17, v24, v17
 ; GISEL-NEXT:    v_min_u32_e32 v18, v26, v18
-; GISEL-NEXT:    v_min_u32_e32 v19, v28, v19
+; GISEL-NEXT:    v_min_u32_e32 v19, v29, v19
 ; GISEL-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v22, 0, 1, s[4:5]
 ; GISEL-NEXT:    v_add_i32_e32 v16, vcc, 64, v16
@@ -2913,28 +2914,28 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_subb_u32_e64 v19, s[4:5], 0, 0, vcc
 ; GISEL-NEXT:    v_subb_u32_e64 v16, s[4:5], 0, 0, s[4:5]
 ; GISEL-NEXT:    v_subb_u32_e64 v17, s[4:5], 0, 0, s[4:5]
+; GISEL-NEXT:    v_xor_b32_e32 v23, 0x7f, v18
 ; GISEL-NEXT:    v_cmp_gt_u64_e32 vcc, v[18:19], v[20:21]
-; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, vcc
-; GISEL-NEXT:    v_xor_b32_e32 v20, 0x7f, v18
-; GISEL-NEXT:    v_cmp_lt_u64_e32 vcc, 0, v[16:17]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v24, 0, 1, vcc
-; GISEL-NEXT:    v_or_b32_e32 v20, v20, v16
+; GISEL-NEXT:    v_or_b32_e32 v20, v23, v16
 ; GISEL-NEXT:    v_or_b32_e32 v21, v19, v17
+; GISEL-NEXT:    v_cmp_lt_u64_e32 vcc, 0, v[16:17]
+; GISEL-NEXT:    v_cndmask_b32_e64 v23, 0, 1, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[16:17]
-; GISEL-NEXT:    v_cndmask_b32_e32 v23, v24, v23, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v23, v23, v24, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[20:21]
 ; GISEL-NEXT:    v_cndmask_b32_e64 v20, 0, 1, vcc
 ; GISEL-NEXT:    v_or_b32_e32 v21, v22, v23
-; GISEL-NEXT:    v_and_b32_e32 v22, 1, v21
 ; GISEL-NEXT:    v_or_b32_e32 v20, v21, v20
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v22
+; GISEL-NEXT:    v_and_b32_e32 v21, 1, v21
+; GISEL-NEXT:    v_and_b32_e32 v20, 1, v20
+; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v21
 ; GISEL-NEXT:    v_cndmask_b32_e64 v32, v0, 0, vcc
-; GISEL-NEXT:    v_and_b32_e32 v22, 1, v20
-; GISEL-NEXT:    v_cndmask_b32_e64 v33, v1, 0, vcc
+; GISEL-NEXT:    v_cmp_ne_u32_e64 s[4:5], 0, v20
 ; GISEL-NEXT:    v_cndmask_b32_e64 v20, v2, 0, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e64 v21, v3, 0, vcc
-; GISEL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v22
-; GISEL-NEXT:    s_xor_b64 s[4:5], vcc, -1
+; GISEL-NEXT:    s_xor_b64 s[4:5], s[4:5], -1
+; GISEL-NEXT:    v_cndmask_b32_e64 v33, v1, 0, vcc
 ; GISEL-NEXT:    s_and_saveexec_b64 s[12:13], s[4:5]
 ; GISEL-NEXT:    s_cbranch_execz .LBB3_6
 ; GISEL-NEXT:  ; %bb.1: ; %udiv-bb15
@@ -2987,11 +2988,11 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v30
 ; GISEL-NEXT:    v_cndmask_b32_e32 v18, v26, v18, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v19, v27, v19, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v28, 0, v16, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v29, 0, v17, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v26, 0, v16, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v27, 0, v17, vcc
 ; GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v30
-; GISEL-NEXT:    v_cndmask_b32_e32 v26, v18, v0, vcc
-; GISEL-NEXT:    v_cndmask_b32_e32 v27, v19, v1, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v28, v18, v0, vcc
+; GISEL-NEXT:    v_cndmask_b32_e32 v29, v19, v1, vcc
 ; GISEL-NEXT:    v_mov_b32_e32 v25, 0
 ; GISEL-NEXT:    v_mov_b32_e32 v19, s7
 ; GISEL-NEXT:    v_mov_b32_e32 v18, s6
@@ -2999,40 +3000,40 @@ define <2 x i128> @v_urem_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GISEL-NEXT:    v_mov_b32_e32 v16, s4
 ; GISEL-NEXT:  .LBB3_3: ; %udiv-do-while3
 ; GISEL-NEXT:    ; =>This Inner Loop Header: Depth=1
+; GISEL-NEXT:    v_lshrrev_b32_e32 v38, 31, v23
 ; GISEL-NEXT:    v_lshl_b64 v[18:19], v[22:23], 1
-; GISEL-NEXT:    v_lshrrev_b32_e32 v24, 31, v23
-; GISEL-NEXT:    v_lshl_b64 v[38:39], v[26:27], 1
+; GISEL-NEXT:    v_lshrrev_b32_e32 v24, 31, v29
 ; GISEL-NEXT:    v_lshl_b64 v[28:29], v[28:29], 1
-; GISEL-NEXT:    v_lshrrev_b32_e32 v26, 31, v27
-; GISEL-NEXT:    v_lshrrev_b32_e32 v27, 31, v21
-; GISEL-NEXT:    v_lshl_b64 v[20:21], v[20:21], 1
+; GISEL-NEXT:    v_lshl_b64 v[26:27], v[26:27], 1
+; GISEL-NEXT:    v_lshrrev_b32_e32 v39, 31, v21
 ; GISEL-NEXT:    v_add_i32_e32 v30, vcc, -1, v30
 ; GISEL-NEXT:    v_addc_u32_e32 v31, vcc, -1, v31, vcc
+; GISEL-NEXT:    v_lshl_b64 v[20:21], v[20:21], 1
 ; GISEL-NEXT:    v_or_b32_e32 v22, v16, v18
 ; GISEL-NEXT:    v_or_b32_e32 v23, v17, v19
-; GISEL-NEXT:    v_or_b32_e32 v18, v28, v26
-; GISEL-NEXT:    v_or_b32_e32 v19, v38, v27
-; GISEL-NEXT:    v_or_b32_e32 v20, v20, v24
+; GISEL-NEXT:    v_or_b32_e32 v18, v26, v24
+; GISEL-NEXT:    v_or_b32_e32 v19, v28, v39
 ; GISEL-NEXT:    v_addc_u32_e32 v32, vcc, -1, v32, vcc
 ; GISEL-NEXT:    v_addc_u32_e32 v33, vcc, -1, v33, vcc
 ; GISEL-NEXT:    v_sub_i32_e32 v16, vcc, v34, v19
-; GISEL-NEXT:    v_subb_u32_e32 v16, vcc, v35, v39, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v16, vcc, v35, v29, vcc
 ; GISEL-NEXT:    v_or_b32_e32 v16, v30, v32
 ; GISEL-NEXT:    v_or_b32_e32 v17, v31, v33
 ; GISEL-NEXT:    v_subb_u32_e32 v24, vcc, v36, v18, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v24, vcc, v37, v29, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v24, vcc, v37, v27, vcc
 ; GISEL-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[16:17]
 ; GISEL-NEXT:    v_ashrrev_i32_e32 v16, 31, v24
 ; GISEL-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
-; GISEL-NEXT:    v_and_b32_e32 v24, 1, v16
 ; GISEL-NEXT:    v_and_b32_e32 v17, v16, v8
-; GISEL-NEXT:    v_and_b32_e32 v27, v16, v9
-; GISEL-NEXT:    v_and_b32_e32 v28, v16, v10
-; GISEL-NEXT:    v_and_b32_e32 v16, v16, v11
-; GISEL-NEXT:    v_sub_i32_e32 v26, vcc, v19, v17
-; GISEL-NEXT:    v_subb_u32_e32 v27, vcc, v39, v27, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v28, vcc, v18, v28, vcc
-; GISEL-NEXT:    v_subb_u32_e32 v29, vcc, v29, v16, vcc
+; GISEL-NEXT:    v_and_b32_e32 v26, v16, v9
+; GISEL-NEXT:    v_and_b32_e32 v39, v16, v10
+; GISEL-NEXT:    v_and_b32_e32 v48, v16, v11
+; GISEL-NEXT:    v_and_b32_e32 v24, 1, v16
+; GISEL-NEXT:    v_sub_i32_e32 v28, vcc, v19, v17
+; GISEL-NEXT:    v_subb_u32_e32 v29, vcc, v29, v26, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v26, vcc, v18, v39, vcc
+; GISEL-NEXT:    v_subb_u32_e32 v27, vcc, v27, v48, vcc
+; GISEL-NEXT:    v_or_b32_e32 v20, v20, v38
 ; GISEL-NEXT:    v_mov_b32_e32 v16, v24
 ; GISEL-NEXT:    v_mov_b32_e32 v17, v25
 ; GISEL-NEXT:    s_andn2_b64 exec, exec, s[4:5]
diff --git a/llvm/test/CodeGen/AMDGPU/extract_vector_elt-f16.ll b/llvm/test/CodeGen/AMDGPU/extract_vector_elt-f16.ll
index c3c1540383ec6..a442566676561 100644
--- a/llvm/test/CodeGen/AMDGPU/extract_vector_elt-f16.ll
+++ b/llvm/test/CodeGen/AMDGPU/extract_vector_elt-f16.ll
@@ -694,18 +694,14 @@ define amdgpu_kernel void @v_extractelement_v16f16_dynamic_sgpr(ptr addrspace(1)
 ; SI-NEXT:    s_load_dword s8, s[4:5], 0xd
 ; SI-NEXT:    s_mov_b32 s7, 0xf000
 ; SI-NEXT:    s_mov_b32 s6, 0
-; SI-NEXT:    v_lshlrev_b32_e32 v5, 5, v0
-; SI-NEXT:    v_mov_b32_e32 v6, 0
+; SI-NEXT:    v_lshlrev_b32_e32 v8, 5, v0
+; SI-NEXT:    v_mov_b32_e32 v9, 0
 ; SI-NEXT:    s_waitcnt lgkmcnt(0)
 ; SI-NEXT:    s_mov_b64 s[4:5], s[2:3]
-; SI-NEXT:    buffer_load_dwordx4 v[1:4], v[5:6], s[4:7], 0 addr64
-; SI-NEXT:    v_lshlrev_b32_e32 v9, 1, v0
-; SI-NEXT:    v_mov_b32_e32 v10, v6
-; SI-NEXT:    s_mov_b64 s[2:3], s[6:7]
-; SI-NEXT:    buffer_load_dwordx4 v[5:8], v[5:6], s[4:7], 0 addr64 offset:16
-; SI-NEXT:    s_cmp_eq_u32 s8, 1
+; SI-NEXT:    buffer_load_dwordx4 v[1:4], v[8:9], s[4:7], 0 addr64
+; SI-NEXT:    buffer_load_dwordx4 v[5:8], v[8:9], s[4:7], 0 addr64 offset:16
 ; SI-NEXT:    s_waitcnt vmcnt(1)
-; SI-NEXT:    v_cvt_f32_f16_e32 v0, v1
+; SI-NEXT:    v_cvt_f32_f16_e32 v10, v1
 ; SI-NEXT:    v_lshrrev_b32_e32 v1, 16, v1
 ; SI-NEXT:    v_cvt_f32_f16_e32 v11, v2
 ; SI-NEXT:    v_lshrrev_b32_e32 v2, 16, v2
@@ -721,61 +717,64 @@ define amdgpu_kernel void @v_extractelement_v16f16_dynamic_sgpr(ptr addrspace(1)
 ; SI-NEXT:    v_cvt_f32_f16_e32 v16, v7
 ; SI-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
 ; SI-NEXT:    v_cvt_f32_f16_e32 v17, v8
-; SI-NEXT:    v_lshrrev_b32_e32 v8, 16, v8
-; SI-NEXT:    v_cvt_f32_f16_e32 v1, v1
+; SI-NEXT:    v_lshrrev_b32_e32 v18, 16, v8
+; SI-NEXT:    v_lshlrev_b32_e32 v8, 1, v0
+; SI-NEXT:    s_mov_b64 s[2:3], s[6:7]
+; SI-NEXT:    s_cmp_eq_u32 s8, 1
+; SI-NEXT:    v_cvt_f32_f16_e32 v0, v1
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 2
-; SI-NEXT:    v_cvt_f32_f16_e32 v2, v2
-; SI-NEXT:    v_cvt_f32_f16_e32 v3, v3
-; SI-NEXT:    v_cvt_f32_f16_e32 v4, v4
-; SI-NEXT:    v_cvt_f32_f16_e32 v5, v5
-; SI-NEXT:    v_cvt_f32_f16_e32 v6, v6
-; SI-NEXT:    v_cvt_f32_f16_e32 v7, v7
-; SI-NEXT:    v_cvt_f32_f16_e32 v8, v8
-; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v1, vcc
+; SI-NEXT:    v_cvt_f32_f16_e32 v1, v2
+; SI-NEXT:    v_cvt_f32_f16_e32 v2, v3
+; SI-NEXT:    v_cvt_f32_f16_e32 v3, v4
+; SI-NEXT:    v_cvt_f32_f16_e32 v4, v5
+; SI-NEXT:    v_cvt_f32_f16_e32 v5, v6
+; SI-NEXT:    v_cvt_f32_f16_e32 v6, v7
+; SI-NEXT:    v_cvt_f32_f16_e32 v7, v18
+; SI-NEXT:    v_cndmask_b32_e32 v0, v10, v0, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 3
 ; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v11, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 4
-; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v2, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v1, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 5
 ; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v12, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 6
-; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v3, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v2, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 7
 ; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v13, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 8
-; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v4, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v3, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 9
 ; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v14, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 10
-; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v5, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v4, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 11
 ; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v15, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 12
-; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v6, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v5, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 13
 ; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v16, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 14
-; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v7, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v6, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; SI-NEXT:    s_cmp_eq_u32 s8, 15
 ; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v17, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v8, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v7, vcc
 ; SI-NEXT:    v_cvt_f16_f32_e32 v0, v0
-; SI-NEXT:    buffer_store_short v0, v[9:10], s[0:3], 0 addr64
+; SI-NEXT:    buffer_store_short v0, v[8:9], s[0:3], 0 addr64
 ; SI-NEXT:    s_endpgm
 ;
 ; VI-LABEL: v_extractelement_v16f16_dynamic_sgpr:
diff --git a/llvm/test/CodeGen/AMDGPU/fcanonicalize.f16.ll b/llvm/test/CodeGen/AMDGPU/fcanonicalize.f16.ll
index 3199b76d279fa..3c70883f09d2c 100644
--- a/llvm/test/CodeGen/AMDGPU/fcanonicalize.f16.ll
+++ b/llvm/test/CodeGen/AMDGPU/fcanonicalize.f16.ll
@@ -3030,50 +3030,50 @@ define <32 x half> @v_test_canonicalize_var_v32f16(<32 x half> %val) #1 {
 ; VI-LABEL: v_test_canonicalize_var_v32f16:
 ; VI:       ; %bb.0:
 ; VI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; VI-NEXT:    v_max_f16_sdwa v20, v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_max_f16_sdwa v19, v0, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v0, v0, v0
-; VI-NEXT:    v_or_b32_e32 v0, v0, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v1, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v0, v0, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v1, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v1, v1, v1
-; VI-NEXT:    v_or_b32_e32 v1, v1, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v2, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v1, v1, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v2, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v2, v2, v2
-; VI-NEXT:    v_or_b32_e32 v2, v2, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v3, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v2, v2, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v3, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v3, v3, v3
-; VI-NEXT:    v_or_b32_e32 v3, v3, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v4, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v3, v3, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v4, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v4, v4, v4
-; VI-NEXT:    v_or_b32_e32 v4, v4, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v5, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v4, v4, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v5, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v5, v5, v5
-; VI-NEXT:    v_or_b32_e32 v5, v5, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v6, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v5, v5, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v6, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v6, v6, v6
-; VI-NEXT:    v_or_b32_e32 v6, v6, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v7, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v6, v6, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v7, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v7, v7, v7
-; VI-NEXT:    v_or_b32_e32 v7, v7, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v8, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v7, v7, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v8, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v8, v8, v8
-; VI-NEXT:    v_or_b32_e32 v8, v8, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v9, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v8, v8, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v9, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v9, v9, v9
-; VI-NEXT:    v_or_b32_e32 v9, v9, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v10, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v9, v9, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v10, v10 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v10, v10, v10
+; VI-NEXT:    v_or_b32_e32 v10, v10, v19
+; VI-NEXT:    v_max_f16_sdwa v19, v11, v11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_max_f16_e32 v11, v11, v11
 ; VI-NEXT:    v_max_f16_sdwa v16, v15, v15 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_sdwa v17, v14, v14 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_sdwa v18, v13, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; VI-NEXT:    v_or_b32_e32 v11, v11, v19
 ; VI-NEXT:    v_max_f16_sdwa v19, v12, v12 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
-; VI-NEXT:    v_or_b32_e32 v10, v10, v20
-; VI-NEXT:    v_max_f16_sdwa v20, v11, v11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; VI-NEXT:    v_max_f16_e32 v15, v15, v15
 ; VI-NEXT:    v_max_f16_e32 v14, v14, v14
 ; VI-NEXT:    v_max_f16_e32 v13, v13, v13
 ; VI-NEXT:    v_max_f16_e32 v12, v12, v12
-; VI-NEXT:    v_max_f16_e32 v11, v11, v11
-; VI-NEXT:    v_or_b32_e32 v11, v11, v20
 ; VI-NEXT:    v_or_b32_e32 v12, v12, v19
 ; VI-NEXT:    v_or_b32_e32 v13, v13, v18
 ; VI-NEXT:    v_or_b32_e32 v14, v14, v17
@@ -3342,11 +3342,11 @@ define <64 x half> @v_test_canonicalize_var_v64f16(<64 x half> %val) #1 {
 ; CI-LABEL: v_test_canonicalize_var_v64f16:
 ; CI:       ; %bb.0:
 ; CI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:132
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:128
 ; CI-NEXT:    v_cvt_f16_f32_e32 v2, v2
 ; CI-NEXT:    v_cvt_f16_f32_e32 v1, v1
 ; CI-NEXT:    v_cvt_f16_f32_e32 v3, v3
-; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:104
-; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:108
 ; CI-NEXT:    v_cvt_f32_f16_e32 v2, v2
 ; CI-NEXT:    v_cvt_f32_f16_e32 v1, v1
 ; CI-NEXT:    v_cvt_f32_f16_e32 v3, v3
@@ -3358,7 +3358,7 @@ define <64 x half> @v_test_canonicalize_var_v64f16(<64 x half> %val) #1 {
 ; CI-NEXT:    v_cvt_f16_f32_e32 v2, v4
 ; CI-NEXT:    v_cvt_f16_f32_e32 v4, v5
 ; CI-NEXT:    v_cvt_f16_f32_e32 v5, v7
-; CI-NEXT:    v_cvt_f16_f32_e32 v7, v9
+; CI-NEXT:    v_cvt_f16_f32_e32 v7, v11
 ; CI-NEXT:    v_cvt_f32_f16_e32 v2, v2
 ; CI-NEXT:    v_cvt_f32_f16_e32 v4, v4
 ; CI-NEXT:    v_cvt_f32_f16_e32 v5, v5
@@ -3370,341 +3370,344 @@ define <64 x half> @v_test_canonicalize_var_v64f16(<64 x half> %val) #1 {
 ; CI-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
 ; CI-NEXT:    v_or_b32_e32 v2, v3, v2
 ; CI-NEXT:    v_cvt_f16_f32_e32 v3, v6
-; CI-NEXT:    v_cvt_f16_f32_e32 v6, v10
-; CI-NEXT:    v_cvt_f16_f32_e32 v9, v13
-; CI-NEXT:    v_cvt_f16_f32_e32 v10, v16
+; CI-NEXT:    v_cvt_f16_f32_e32 v6, v9
+; CI-NEXT:    v_cvt_f16_f32_e32 v9, v16
+; CI-NEXT:    v_cvt_f16_f32_e32 v16, v21
 ; CI-NEXT:    v_cvt_f32_f16_e32 v3, v3
 ; CI-NEXT:    v_cvt_f32_f16_e32 v6, v6
 ; CI-NEXT:    v_cvt_f32_f16_e32 v9, v9
-; CI-NEXT:    v_cvt_f16_f32_e32 v13, v17
+; CI-NEXT:    v_cvt_f32_f16_e32 v16, v16
 ; CI-NEXT:    v_cvt_f16_f32_e32 v3, v3
 ; CI-NEXT:    v_cvt_f16_f32_e32 v6, v6
 ; CI-NEXT:    v_cvt_f16_f32_e32 v9, v9
-; CI-NEXT:    v_cvt_f32_f16_e32 v13, v13
+; CI-NEXT:    v_cvt_f16_f32_e32 v16, v16
 ; CI-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; CI-NEXT:    v_or_b32_e32 v3, v4, v3
 ; CI-NEXT:    v_cvt_f16_f32_e32 v4, v8
-; CI-NEXT:    v_cvt_f16_f32_e32 v8, v14
-; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32
-; CI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:4
-; CI-NEXT:    v_cvt_f16_f32_e32 v17, v23
+; CI-NEXT:    v_cvt_f16_f32_e32 v8, v13
+; CI-NEXT:    v_cvt_f16_f32_e32 v13, v20
+; CI-NEXT:    v_cvt_f16_f32_e32 v20, v25
 ; CI-NEXT:    v_cvt_f32_f16_e32 v4, v4
 ; CI-NEXT:    v_cvt_f32_f16_e32 v8, v8
-; CI-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; CI-NEXT:    v_cvt_f32_f16_e32 v13, v13
+; CI-NEXT:    v_cvt_f16_f32_e32 v21, v28
 ; CI-NEXT:    v_cvt_f16_f32_e32 v4, v4
 ; CI-NEXT:    v_cvt_f16_f32_e32 v8, v8
+; CI-NEXT:    v_cvt_f16_f32_e32 v13, v13
+; CI-NEXT:    v_cvt_f32_f16_e32 v20, v20
 ; CI-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
 ; CI-NEXT:    v_or_b32_e32 v4, v5, v4
-; CI-NEXT:    v_lshlrev_b32_e32 v5, 16, v6
+; CI-NEXT:    v_cvt_f16_f32_e32 v5, v10
+; CI-NEXT:    v_cvt_f16_f32_e32 v10, v15
+; CI-NEXT:    v_cvt_f32_f16_e32 v21, v21
+; CI-NEXT:    v_cvt_f16_f32_e32 v20, v20
+; CI-NEXT:    v_cvt_f32_f16_e32 v5, v5
+; CI-NEXT:    v_cvt_f32_f16_e32 v10, v10
+; CI-NEXT:    v_cvt_f16_f32_e32 v21, v21
+; CI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:20
+; CI-NEXT:    v_cvt_f16_f32_e32 v5, v5
+; CI-NEXT:    v_cvt_f16_f32_e32 v10, v10
+; CI-NEXT:    v_lshlrev_b32_e32 v5, 16, v5
+; CI-NEXT:    v_or_b32_e32 v5, v6, v5
 ; CI-NEXT:    v_cvt_f16_f32_e32 v6, v12
-; CI-NEXT:    v_or_b32_e32 v5, v7, v5
-; CI-NEXT:    v_cvt_f16_f32_e32 v7, v11
-; CI-NEXT:    v_cvt_f16_f32_e32 v11, v15
+; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:8
 ; CI-NEXT:    v_cvt_f32_f16_e32 v6, v6
-; CI-NEXT:    v_cvt_f16_f32_e32 v15, v21
-; CI-NEXT:    v_cvt_f32_f16_e32 v7, v7
+; CI-NEXT:    s_waitcnt vmcnt(3)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(2)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
 ; CI-NEXT:    v_cvt_f16_f32_e32 v6, v6
-; CI-NEXT:    v_cvt_f16_f32_e32 v7, v7
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
 ; CI-NEXT:    v_lshlrev_b32_e32 v6, 16, v6
 ; CI-NEXT:    v_or_b32_e32 v6, v7, v6
-; CI-NEXT:    v_lshlrev_b32_e32 v7, 16, v8
-; CI-NEXT:    v_cvt_f16_f32_e32 v8, v19
-; CI-NEXT:    v_or_b32_e32 v7, v9, v7
-; CI-NEXT:    v_cvt_f16_f32_e32 v9, v20
-; CI-NEXT:    v_cvt_f32_f16_e32 v12, v8
-; CI-NEXT:    v_cvt_f32_f16_e32 v8, v10
-; CI-NEXT:    v_cvt_f32_f16_e32 v10, v11
-; CI-NEXT:    v_cvt_f16_f32_e32 v11, v18
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:124
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:112
-; CI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:116
-; CI-NEXT:    v_cvt_f16_f32_e32 v8, v8
-; CI-NEXT:    v_cvt_f16_f32_e32 v10, v10
-; CI-NEXT:    v_cvt_f32_f16_e32 v11, v11
-; CI-NEXT:    v_cvt_f32_f16_e32 v9, v9
-; CI-NEXT:    v_lshlrev_b32_e32 v8, 16, v8
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v7, v14
+; CI-NEXT:    v_cvt_f16_f32_e32 v14, v19
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x7c, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:124
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:120
+; CI-NEXT:    v_cvt_f32_f16_e32 v7, v7
+; CI-NEXT:    v_cvt_f32_f16_e32 v14, v14
+; CI-NEXT:    v_cvt_f16_f32_e32 v19, v26
+; CI-NEXT:    v_cvt_f16_f32_e32 v7, v7
+; CI-NEXT:    v_cvt_f16_f32_e32 v14, v14
+; CI-NEXT:    v_cvt_f32_f16_e32 v19, v19
+; CI-NEXT:    v_lshlrev_b32_e32 v7, 16, v7
+; CI-NEXT:    v_or_b32_e32 v7, v8, v7
+; CI-NEXT:    v_lshlrev_b32_e32 v8, 16, v9
+; CI-NEXT:    v_cvt_f16_f32_e32 v9, v18
 ; CI-NEXT:    v_or_b32_e32 v8, v10, v8
-; CI-NEXT:    v_cvt_f16_f32_e32 v10, v11
-; CI-NEXT:    v_cvt_f16_f32_e32 v11, v13
-; CI-NEXT:    v_cvt_f16_f32_e32 v13, v9
-; CI-NEXT:    v_cvt_f16_f32_e32 v12, v12
-; CI-NEXT:    v_lshlrev_b32_e32 v9, 16, v10
-; CI-NEXT:    v_or_b32_e32 v9, v11, v9
+; CI-NEXT:    v_cvt_f16_f32_e32 v10, v17
+; CI-NEXT:    v_cvt_f16_f32_e32 v17, v24
+; CI-NEXT:    v_cvt_f32_f16_e32 v9, v9
+; CI-NEXT:    v_cvt_f16_f32_e32 v18, v23
+; CI-NEXT:    v_cvt_f32_f16_e32 v10, v10
+; CI-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; CI-NEXT:    v_cvt_f16_f32_e32 v9, v9
+; CI-NEXT:    v_cvt_f32_f16_e32 v18, v18
+; CI-NEXT:    v_cvt_f16_f32_e32 v10, v10
+; CI-NEXT:    v_cvt_f16_f32_e32 v17, v17
+; CI-NEXT:    v_lshlrev_b32_e32 v9, 16, v9
+; CI-NEXT:    v_cvt_f16_f32_e32 v18, v18
+; CI-NEXT:    v_or_b32_e32 v9, v10, v9
 ; CI-NEXT:    v_lshlrev_b32_e32 v10, 16, v13
-; CI-NEXT:    v_cvt_f16_f32_e32 v11, v25
 ; CI-NEXT:    v_cvt_f16_f32_e32 v13, v22
-; CI-NEXT:    v_or_b32_e32 v10, v12, v10
-; CI-NEXT:    v_cvt_f16_f32_e32 v12, v26
-; CI-NEXT:    v_cvt_f32_f16_e32 v16, v11
-; CI-NEXT:    v_cvt_f32_f16_e32 v11, v13
-; CI-NEXT:    v_cvt_f32_f16_e32 v13, v15
-; CI-NEXT:    v_cvt_f16_f32_e32 v15, v24
-; CI-NEXT:    v_cvt_f32_f16_e32 v12, v12
-; CI-NEXT:    v_cvt_f16_f32_e32 v11, v11
+; CI-NEXT:    v_or_b32_e32 v10, v14, v10
+; CI-NEXT:    v_lshlrev_b32_e32 v17, 16, v17
+; CI-NEXT:    v_or_b32_e32 v17, v18, v17
+; CI-NEXT:    v_cvt_f32_f16_e32 v13, v13
+; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:16
+; CI-NEXT:    v_cvt_f16_f32_e32 v22, v27
+; CI-NEXT:    v_cvt_f16_f32_e32 v19, v19
 ; CI-NEXT:    v_cvt_f16_f32_e32 v13, v13
-; CI-NEXT:    v_cvt_f32_f16_e32 v15, v15
-; CI-NEXT:    v_cvt_f16_f32_e32 v22, v30
-; CI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
-; CI-NEXT:    v_or_b32_e32 v11, v13, v11
-; CI-NEXT:    v_cvt_f16_f32_e32 v13, v15
-; CI-NEXT:    v_cvt_f16_f32_e32 v15, v17
-; CI-NEXT:    v_cvt_f16_f32_e32 v17, v12
-; CI-NEXT:    v_cvt_f16_f32_e32 v25, v29
-; CI-NEXT:    v_lshlrev_b32_e32 v12, 16, v13
-; CI-NEXT:    v_or_b32_e32 v12, v15, v12
-; CI-NEXT:    s_waitcnt vmcnt(6)
-; CI-NEXT:    v_cvt_f16_f32_e32 v15, v31
-; CI-NEXT:    v_lshlrev_b32_e32 v13, 16, v17
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:128
-; CI-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:132
-; CI-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:120
 ; CI-NEXT:    v_cvt_f32_f16_e32 v22, v22
-; CI-NEXT:    v_cvt_f32_f16_e32 v23, v15
-; CI-NEXT:    v_cvt_f16_f32_e32 v15, v27
-; CI-NEXT:    v_cvt_f32_f16_e32 v25, v25
-; CI-NEXT:    s_waitcnt vmcnt(7)
-; CI-NEXT:    v_cvt_f16_f32_e32 v14, v14
-; CI-NEXT:    s_waitcnt vmcnt(6)
-; CI-NEXT:    v_cvt_f16_f32_e32 v21, v33
-; CI-NEXT:    v_cvt_f32_f16_e32 v15, v15
-; CI-NEXT:    v_cvt_f16_f32_e32 v22, v22
-; CI-NEXT:    v_cvt_f32_f16_e32 v24, v14
-; CI-NEXT:    v_cvt_f16_f32_e32 v14, v28
-; CI-NEXT:    v_cvt_f16_f32_e32 v15, v15
-; CI-NEXT:    v_cvt_f32_f16_e32 v21, v21
-; CI-NEXT:    v_cvt_f16_f32_e32 v25, v25
-; CI-NEXT:    v_cvt_f32_f16_e32 v14, v14
-; CI-NEXT:    v_cvt_f16_f32_e32 v16, v16
-; CI-NEXT:    v_cvt_f16_f32_e32 v24, v24
-; CI-NEXT:    v_cvt_f16_f32_e32 v28, v23
-; CI-NEXT:    v_cvt_f16_f32_e32 v14, v14
+; CI-NEXT:    v_lshlrev_b32_e32 v19, 16, v19
+; CI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
 ; CI-NEXT:    v_or_b32_e32 v13, v16, v13
-; CI-NEXT:    v_cvt_f16_f32_e32 v16, v32
-; CI-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:12
-; CI-NEXT:    v_lshlrev_b32_e32 v14, 16, v14
-; CI-NEXT:    v_or_b32_e32 v14, v15, v14
-; CI-NEXT:    v_lshlrev_b32_e32 v15, 16, v22
-; CI-NEXT:    v_or_b32_e32 v15, v25, v15
-; CI-NEXT:    v_cvt_f16_f32_e32 v25, v21
-; CI-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:96
-; CI-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:100
-; CI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; CI-NEXT:    buffer_load_dword v29, off, s[0:3], s32 offset:64
-; CI-NEXT:    v_lshlrev_b32_e32 v25, 16, v25
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v16
-; CI-NEXT:    v_or_b32_e32 v16, v24, v25
-; CI-NEXT:    v_lshlrev_b32_e32 v24, 16, v27
-; CI-NEXT:    v_or_b32_e32 v25, v28, v24
-; CI-NEXT:    s_waitcnt vmcnt(9)
-; CI-NEXT:    v_cvt_f16_f32_e32 v18, v18
-; CI-NEXT:    s_waitcnt vmcnt(8)
-; CI-NEXT:    v_cvt_f16_f32_e32 v19, v19
-; CI-NEXT:    s_waitcnt vmcnt(7)
-; CI-NEXT:    v_cvt_f16_f32_e32 v20, v20
-; CI-NEXT:    v_cvt_f32_f16_e32 v18, v18
-; CI-NEXT:    v_cvt_f32_f16_e32 v19, v19
-; CI-NEXT:    v_cvt_f32_f16_e32 v20, v20
-; CI-NEXT:    v_cvt_f16_f32_e32 v18, v18
-; CI-NEXT:    v_cvt_f16_f32_e32 v19, v19
-; CI-NEXT:    v_cvt_f16_f32_e32 v20, v20
-; CI-NEXT:    v_lshlrev_b32_e32 v18, 16, v18
-; CI-NEXT:    v_lshlrev_b32_e32 v20, 16, v20
-; CI-NEXT:    v_or_b32_e32 v20, v19, v20
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:20
-; CI-NEXT:    buffer_load_dword v24, off, s[0:3], s32 offset:8
-; CI-NEXT:    s_waitcnt vmcnt(8)
-; CI-NEXT:    v_cvt_f16_f32_e32 v17, v17
-; CI-NEXT:    s_waitcnt vmcnt(7)
-; CI-NEXT:    v_cvt_f16_f32_e32 v26, v26
+; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:12
+; CI-NEXT:    v_cvt_f16_f32_e32 v22, v22
+; CI-NEXT:    v_or_b32_e32 v19, v20, v19
+; CI-NEXT:    v_lshlrev_b32_e32 v20, 16, v21
+; CI-NEXT:    v_cvt_f16_f32_e32 v21, v30
+; CI-NEXT:    v_or_b32_e32 v20, v22, v20
+; CI-NEXT:    v_cvt_f16_f32_e32 v22, v29
 ; CI-NEXT:    s_waitcnt vmcnt(6)
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v34
-; CI-NEXT:    v_cvt_f32_f16_e32 v17, v17
-; CI-NEXT:    v_cvt_f32_f16_e32 v26, v26
-; CI-NEXT:    v_cvt_f32_f16_e32 v27, v27
-; CI-NEXT:    v_cvt_f16_f32_e32 v17, v17
-; CI-NEXT:    v_cvt_f16_f32_e32 v26, v26
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v27
-; CI-NEXT:    v_lshlrev_b32_e32 v26, 16, v26
-; CI-NEXT:    v_or_b32_e32 v17, v17, v26
-; CI-NEXT:    v_add_i32_e32 v26, vcc, 0x7c, v0
-; CI-NEXT:    v_or_b32_e32 v18, v27, v18
-; CI-NEXT:    buffer_store_dword v17, v26, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x78, v0
-; CI-NEXT:    buffer_store_dword v18, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x74, v0
-; CI-NEXT:    buffer_store_dword v20, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x70, v0
-; CI-NEXT:    buffer_store_dword v25, v17, s[0:3], 0 offen
-; CI-NEXT:    s_waitcnt vmcnt(8)
-; CI-NEXT:    v_cvt_f16_f32_e32 v21, v21
-; CI-NEXT:    s_waitcnt vmcnt(7)
-; CI-NEXT:    v_cvt_f16_f32_e32 v20, v22
-; CI-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:88
-; CI-NEXT:    buffer_load_dword v28, off, s[0:3], s32 offset:92
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:80
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:84
-; CI-NEXT:    buffer_load_dword v25, off, s[0:3], s32 offset:72
-; CI-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:76
-; CI-NEXT:    v_cvt_f16_f32_e32 v22, v23
+; CI-NEXT:    v_cvt_f16_f32_e32 v11, v11
 ; CI-NEXT:    v_cvt_f32_f16_e32 v21, v21
-; CI-NEXT:    v_cvt_f32_f16_e32 v20, v20
-; CI-NEXT:    s_waitcnt vmcnt(12)
-; CI-NEXT:    v_cvt_f16_f32_e32 v29, v29
 ; CI-NEXT:    v_cvt_f32_f16_e32 v22, v22
+; CI-NEXT:    v_cvt_f32_f16_e32 v11, v11
 ; CI-NEXT:    v_cvt_f16_f32_e32 v21, v21
-; CI-NEXT:    v_cvt_f16_f32_e32 v20, v20
-; CI-NEXT:    v_cvt_f32_f16_e32 v29, v29
-; CI-NEXT:    v_cvt_f16_f32_e32 v22, v22
-; CI-NEXT:    v_lshlrev_b32_e32 v20, 16, v20
-; CI-NEXT:    v_or_b32_e32 v20, v21, v20
-; CI-NEXT:    v_add_i32_e32 v21, vcc, 0x6c, v0
-; CI-NEXT:    buffer_store_dword v20, v21, s[0:3], 0 offen
-; CI-NEXT:    v_lshlrev_b32_e32 v20, 16, v22
-; CI-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:24
-; CI-NEXT:    v_cvt_f16_f32_e32 v29, v29
-; CI-NEXT:    s_waitcnt vmcnt(13)
-; CI-NEXT:    v_cvt_f16_f32_e32 v19, v19
-; CI-NEXT:    s_waitcnt vmcnt(12)
-; CI-NEXT:    v_cvt_f16_f32_e32 v23, v24
-; CI-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:28
-; CI-NEXT:    buffer_load_dword v24, off, s[0:3], s32 offset:16
-; CI-NEXT:    v_cvt_f32_f16_e32 v19, v19
-; CI-NEXT:    v_cvt_f32_f16_e32 v23, v23
-; CI-NEXT:    v_cvt_f16_f32_e32 v19, v19
-; CI-NEXT:    v_cvt_f16_f32_e32 v23, v23
-; CI-NEXT:    v_lshlrev_b32_e32 v19, 16, v19
-; CI-NEXT:    v_or_b32_e32 v20, v23, v20
-; CI-NEXT:    s_waitcnt vmcnt(9)
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v27
-; CI-NEXT:    s_waitcnt vmcnt(8)
-; CI-NEXT:    v_cvt_f16_f32_e32 v23, v28
-; CI-NEXT:    s_waitcnt vmcnt(7)
-; CI-NEXT:    v_cvt_f16_f32_e32 v17, v17
-; CI-NEXT:    s_waitcnt vmcnt(6)
-; CI-NEXT:    v_cvt_f16_f32_e32 v18, v18
-; CI-NEXT:    v_cvt_f32_f16_e32 v27, v27
-; CI-NEXT:    v_cvt_f32_f16_e32 v23, v23
-; CI-NEXT:    s_waitcnt vmcnt(4)
-; CI-NEXT:    v_cvt_f16_f32_e32 v26, v26
-; CI-NEXT:    v_cvt_f16_f32_e32 v25, v25
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v27
-; CI-NEXT:    v_cvt_f16_f32_e32 v23, v23
-; CI-NEXT:    v_cvt_f32_f16_e32 v18, v18
-; CI-NEXT:    v_cvt_f32_f16_e32 v26, v26
-; CI-NEXT:    v_cvt_f32_f16_e32 v17, v17
-; CI-NEXT:    v_lshlrev_b32_e32 v23, 16, v23
-; CI-NEXT:    v_or_b32_e32 v23, v27, v23
-; CI-NEXT:    v_add_i32_e32 v27, vcc, 0x68, v0
-; CI-NEXT:    buffer_store_dword v23, v27, s[0:3], 0 offen
-; CI-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:32
-; CI-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:36
-; CI-NEXT:    v_cvt_f32_f16_e32 v25, v25
-; CI-NEXT:    v_cvt_f16_f32_e32 v18, v18
-; CI-NEXT:    v_cvt_f16_f32_e32 v26, v26
-; CI-NEXT:    v_cvt_f16_f32_e32 v17, v17
-; CI-NEXT:    v_cvt_f16_f32_e32 v25, v25
-; CI-NEXT:    v_lshlrev_b32_e32 v18, 16, v18
-; CI-NEXT:    v_lshlrev_b32_e32 v26, 16, v26
-; CI-NEXT:    v_or_b32_e32 v17, v17, v18
-; CI-NEXT:    v_add_i32_e32 v18, vcc, 0x64, v0
-; CI-NEXT:    v_or_b32_e32 v25, v25, v26
-; CI-NEXT:    buffer_store_dword v17, v18, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x60, v0
-; CI-NEXT:    buffer_store_dword v25, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x5c, v0
 ; CI-NEXT:    s_waitcnt vmcnt(5)
-; CI-NEXT:    v_cvt_f16_f32_e32 v24, v24
-; CI-NEXT:    v_cvt_f16_f32_e32 v21, v21
-; CI-NEXT:    v_cvt_f32_f16_e32 v24, v24
-; CI-NEXT:    v_cvt_f32_f16_e32 v21, v21
-; CI-NEXT:    v_cvt_f16_f32_e32 v24, v24
-; CI-NEXT:    v_cvt_f16_f32_e32 v21, v21
-; CI-NEXT:    v_or_b32_e32 v19, v24, v19
-; CI-NEXT:    buffer_load_dword v24, off, s[0:3], s32 offset:44
+; CI-NEXT:    v_cvt_f16_f32_e32 v12, v12
 ; CI-NEXT:    v_cvt_f16_f32_e32 v22, v22
+; CI-NEXT:    v_cvt_f16_f32_e32 v11, v11
 ; CI-NEXT:    v_lshlrev_b32_e32 v21, 16, v21
-; CI-NEXT:    v_cvt_f32_f16_e32 v22, v22
-; CI-NEXT:    v_cvt_f16_f32_e32 v22, v22
+; CI-NEXT:    v_cvt_f32_f16_e32 v12, v12
 ; CI-NEXT:    v_or_b32_e32 v21, v22, v21
-; CI-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:40
-; CI-NEXT:    s_waitcnt vmcnt(5)
-; CI-NEXT:    v_cvt_f16_f32_e32 v23, v23
-; CI-NEXT:    s_waitcnt vmcnt(4)
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v27
-; CI-NEXT:    v_cvt_f32_f16_e32 v23, v23
-; CI-NEXT:    v_cvt_f32_f16_e32 v27, v27
-; CI-NEXT:    v_cvt_f16_f32_e32 v23, v23
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v27
-; CI-NEXT:    v_lshlrev_b32_e32 v27, 16, v27
+; CI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
+; CI-NEXT:    v_cvt_f16_f32_e32 v12, v12
+; CI-NEXT:    s_waitcnt vmcnt(3)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(2)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x78, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:116
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:112
 ; CI-NEXT:    s_waitcnt vmcnt(1)
-; CI-NEXT:    v_cvt_f16_f32_e32 v24, v24
-; CI-NEXT:    v_cvt_f32_f16_e32 v24, v24
-; CI-NEXT:    v_cvt_f16_f32_e32 v24, v24
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_cvt_f16_f32_e32 v22, v22
-; CI-NEXT:    v_cvt_f32_f16_e32 v22, v22
-; CI-NEXT:    v_cvt_f16_f32_e32 v28, v22
-; CI-NEXT:    v_or_b32_e32 v22, v23, v27
-; CI-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:52
-; CI-NEXT:    v_lshlrev_b32_e32 v23, 16, v24
-; CI-NEXT:    v_or_b32_e32 v23, v28, v23
-; CI-NEXT:    buffer_load_dword v28, off, s[0:3], s32 offset:56
-; CI-NEXT:    buffer_load_dword v24, off, s[0:3], s32 offset:48
-; CI-NEXT:    s_waitcnt vmcnt(2)
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v27
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x74, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:108
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:104
 ; CI-NEXT:    s_waitcnt vmcnt(1)
-; CI-NEXT:    v_cvt_f16_f32_e32 v28, v28
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_cvt_f16_f32_e32 v24, v24
-; CI-NEXT:    v_cvt_f32_f16_e32 v27, v27
-; CI-NEXT:    v_cvt_f32_f16_e32 v28, v28
-; CI-NEXT:    v_cvt_f32_f16_e32 v24, v24
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v27
-; CI-NEXT:    v_cvt_f16_f32_e32 v28, v28
-; CI-NEXT:    v_cvt_f16_f32_e32 v24, v24
-; CI-NEXT:    v_lshlrev_b32_e32 v27, 16, v27
-; CI-NEXT:    v_or_b32_e32 v24, v24, v27
-; CI-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:60
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x70, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:100
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:96
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v27
-; CI-NEXT:    v_cvt_f32_f16_e32 v27, v27
-; CI-NEXT:    v_cvt_f16_f32_e32 v27, v27
-; CI-NEXT:    v_lshlrev_b32_e32 v27, 16, v27
-; CI-NEXT:    v_or_b32_e32 v27, v28, v27
-; CI-NEXT:    buffer_load_dword v28, off, s[0:3], s32 offset:68
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x6c, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:92
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:88
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_cvt_f16_f32_e32 v28, v28
-; CI-NEXT:    v_cvt_f32_f16_e32 v28, v28
-; CI-NEXT:    v_cvt_f16_f32_e32 v28, v28
-; CI-NEXT:    v_lshlrev_b32_e32 v28, 16, v28
-; CI-NEXT:    v_or_b32_e32 v28, v29, v28
-; CI-NEXT:    buffer_store_dword v28, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x58, v0
-; CI-NEXT:    buffer_store_dword v27, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x54, v0
-; CI-NEXT:    buffer_store_dword v24, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x50, v0
-; CI-NEXT:    buffer_store_dword v23, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x4c, v0
-; CI-NEXT:    buffer_store_dword v22, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x48, v0
-; CI-NEXT:    buffer_store_dword v21, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 0x44, v0
-; CI-NEXT:    buffer_store_dword v19, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 64, v0
-; CI-NEXT:    buffer_store_dword v20, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v17, vcc, 60, v0
-; CI-NEXT:    buffer_store_dword v16, v17, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v16, vcc, 56, v0
-; CI-NEXT:    buffer_store_dword v15, v16, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v15, vcc, 52, v0
-; CI-NEXT:    buffer_store_dword v14, v15, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v14, vcc, 48, v0
-; CI-NEXT:    buffer_store_dword v13, v14, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v13, vcc, 44, v0
-; CI-NEXT:    buffer_store_dword v12, v13, s[0:3], 0 offen
-; CI-NEXT:    v_add_i32_e32 v12, vcc, 40, v0
-; CI-NEXT:    buffer_store_dword v11, v12, s[0:3], 0 offen
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x68, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:84
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:80
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x64, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:76
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:72
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x60, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:68
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:64
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x5c, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:60
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:56
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x58, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:52
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:48
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x54, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:44
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:40
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x50, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:36
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:32
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x4c, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:28
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:24
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_cvt_f32_f16_e32 v31, v31
+; CI-NEXT:    v_cvt_f32_f16_e32 v32, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v31, v31
+; CI-NEXT:    v_cvt_f16_f32_e32 v32, v32
+; CI-NEXT:    v_lshlrev_b32_e32 v31, 16, v31
+; CI-NEXT:    v_or_b32_e32 v31, v32, v31
+; CI-NEXT:    v_add_i32_e32 v32, vcc, 0x48, v0
+; CI-NEXT:    buffer_store_dword v31, v32, s[0:3], 0 offen
+; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:4
+; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32
+; CI-NEXT:    s_waitcnt vmcnt(1)
+; CI-NEXT:    v_cvt_f16_f32_e32 v14, v14
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v15, v15
+; CI-NEXT:    v_cvt_f32_f16_e32 v14, v14
+; CI-NEXT:    v_cvt_f32_f16_e32 v15, v15
+; CI-NEXT:    v_cvt_f16_f32_e32 v14, v14
+; CI-NEXT:    v_cvt_f16_f32_e32 v15, v15
+; CI-NEXT:    v_lshlrev_b32_e32 v14, 16, v14
+; CI-NEXT:    v_or_b32_e32 v14, v15, v14
+; CI-NEXT:    v_cvt_f16_f32_e32 v15, v16
+; CI-NEXT:    v_cvt_f16_f32_e32 v16, v18
+; CI-NEXT:    v_cvt_f32_f16_e32 v15, v15
+; CI-NEXT:    v_cvt_f32_f16_e32 v16, v16
+; CI-NEXT:    v_cvt_f16_f32_e32 v15, v15
+; CI-NEXT:    v_cvt_f16_f32_e32 v16, v16
+; CI-NEXT:    v_lshlrev_b32_e32 v15, 16, v15
+; CI-NEXT:    v_or_b32_e32 v12, v12, v15
+; CI-NEXT:    v_or_b32_e32 v11, v16, v11
+; CI-NEXT:    v_add_i32_e32 v15, vcc, 0x44, v0
+; CI-NEXT:    buffer_store_dword v11, v15, s[0:3], 0 offen
+; CI-NEXT:    v_add_i32_e32 v11, vcc, 64, v0
+; CI-NEXT:    buffer_store_dword v12, v11, s[0:3], 0 offen
+; CI-NEXT:    v_add_i32_e32 v11, vcc, 60, v0
+; CI-NEXT:    buffer_store_dword v14, v11, s[0:3], 0 offen
+; CI-NEXT:    v_add_i32_e32 v11, vcc, 56, v0
+; CI-NEXT:    buffer_store_dword v21, v11, s[0:3], 0 offen
+; CI-NEXT:    v_add_i32_e32 v11, vcc, 52, v0
+; CI-NEXT:    buffer_store_dword v20, v11, s[0:3], 0 offen
+; CI-NEXT:    v_add_i32_e32 v11, vcc, 48, v0
+; CI-NEXT:    buffer_store_dword v19, v11, s[0:3], 0 offen
+; CI-NEXT:    v_add_i32_e32 v11, vcc, 44, v0
+; CI-NEXT:    buffer_store_dword v17, v11, s[0:3], 0 offen
+; CI-NEXT:    v_add_i32_e32 v11, vcc, 40, v0
+; CI-NEXT:    buffer_store_dword v13, v11, s[0:3], 0 offen
 ; CI-NEXT:    v_add_i32_e32 v11, vcc, 36, v0
 ; CI-NEXT:    buffer_store_dword v10, v11, s[0:3], 0 offen
 ; CI-NEXT:    v_add_i32_e32 v10, vcc, 32, v0
diff --git a/llvm/test/CodeGen/AMDGPU/flat-atomicrmw-fadd.ll b/llvm/test/CodeGen/AMDGPU/flat-atomicrmw-fadd.ll
index ff48a3fc98018..72f883928cffb 100644
--- a/llvm/test/CodeGen/AMDGPU/flat-atomicrmw-fadd.ll
+++ b/llvm/test/CodeGen/AMDGPU/flat-atomicrmw-fadd.ll
@@ -14349,8 +14349,10 @@ define <2 x half> @flat_agent_atomic_fadd_ret_v2f16__amdgpu_no_fine_grained_memo
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v3
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -14539,8 +14541,10 @@ define <2 x half> @flat_agent_atomic_fadd_ret_v2f16__offset12b_pos__amdgpu_no_fi
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_add_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -14743,8 +14747,10 @@ define <2 x half> @flat_agent_atomic_fadd_ret_v2f16__offset12b_neg__amdgpu_no_fi
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_add_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -14924,8 +14930,10 @@ define void @flat_agent_atomic_fadd_noret_v2f16__amdgpu_no_fine_grained_memory(p
 ; GFX8-NEXT:  .LBB59_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -15107,8 +15115,10 @@ define void @flat_agent_atomic_fadd_noret_v2f16__offset12b_pos__amdgpu_no_fine_g
 ; GFX8-NEXT:  .LBB60_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -15308,8 +15318,10 @@ define void @flat_agent_atomic_fadd_noret_v2f16__offset12b_neg__amdgpu_no_fine_g
 ; GFX8-NEXT:  .LBB61_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -15502,8 +15514,10 @@ define <2 x half> @flat_system_atomic_fadd_ret_v2f16__offset12b_pos__amdgpu_no_f
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_add_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -15690,8 +15704,10 @@ define void @flat_system_atomic_fadd_noret_v2f16__offset12b_pos__amdgpu_no_fine_
 ; GFX8-NEXT:  .LBB63_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -15878,8 +15894,10 @@ define <2 x half> @flat_agent_atomic_fadd_ret_v2f16__amdgpu_no_remote_memory(ptr
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v3
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -16059,8 +16077,10 @@ define void @flat_agent_atomic_fadd_noret_v2f16__amdgpu_no_remote_memory(ptr %pt
 ; GFX8-NEXT:  .LBB65_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -16244,8 +16264,10 @@ define <2 x half> @flat_agent_atomic_fadd_ret_v2f16__amdgpu_no_fine_grained_memo
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v3
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -16425,8 +16447,10 @@ define void @flat_agent_atomic_fadd_noret_v2f16__amdgpu_no_fine_grained_memory__
 ; GFX8-NEXT:  .LBB67_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
diff --git a/llvm/test/CodeGen/AMDGPU/flat-atomicrmw-fsub.ll b/llvm/test/CodeGen/AMDGPU/flat-atomicrmw-fsub.ll
index 14f75814128f1..9c2a76380d83d 100644
--- a/llvm/test/CodeGen/AMDGPU/flat-atomicrmw-fsub.ll
+++ b/llvm/test/CodeGen/AMDGPU/flat-atomicrmw-fsub.ll
@@ -12094,8 +12094,10 @@ define <2 x half> @flat_agent_atomic_fsub_ret_v2f16(ptr %ptr, <2 x half> %val) #
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v3
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -12316,8 +12318,10 @@ define <2 x half> @flat_agent_atomic_fsub_ret_v2f16__offset12b_pos(ptr %ptr, <2
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_sub_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_sub_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -12556,8 +12560,10 @@ define <2 x half> @flat_agent_atomic_fsub_ret_v2f16__offset12b_neg(ptr %ptr, <2
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_sub_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_sub_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -12766,8 +12772,10 @@ define void @flat_agent_atomic_fsub_noret_v2f16(ptr %ptr, <2 x half> %val) #0 {
 ; GFX8-NEXT:  .LBB45_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -12978,8 +12986,10 @@ define void @flat_agent_atomic_fsub_noret_v2f16__offset12b_pos(ptr %ptr, <2 x ha
 ; GFX8-NEXT:  .LBB46_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -13211,8 +13221,10 @@ define void @flat_agent_atomic_fsub_noret_v2f16__offset12b_neg(ptr %ptr, <2 x ha
 ; GFX8-NEXT:  .LBB47_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -13437,8 +13449,10 @@ define <2 x half> @flat_system_atomic_fsub_ret_v2f16__offset12b_pos(ptr %ptr, <2
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_sub_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_sub_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
@@ -13654,8 +13668,10 @@ define void @flat_system_atomic_fsub_noret_v2f16__offset12b_pos(ptr %ptr, <2 x h
 ; GFX8-NEXT:  .LBB49_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
diff --git a/llvm/test/CodeGen/AMDGPU/fptoi.i128.ll b/llvm/test/CodeGen/AMDGPU/fptoi.i128.ll
index a0fe9d88e31cf..3a7f3e41002d2 100644
--- a/llvm/test/CodeGen/AMDGPU/fptoi.i128.ll
+++ b/llvm/test/CodeGen/AMDGPU/fptoi.i128.ll
@@ -172,52 +172,52 @@ define i128 @fptosi_f64_to_i128(double %x) {
 ; GISEL-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, -1, s[6:7]
 ; GISEL-NEXT:    v_and_b32_e32 v0, 1, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v2, 1, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, s[6:7]
-; GISEL-NEXT:    v_lshlrev_b16_e32 v3, 2, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v8, 3, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v9, 4, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v10, 5, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v11, 6, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v12, 7, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v13, 8, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v14, 9, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v15, 10, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v16, 11, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v17, 12, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v18, 13, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v19, 14, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v20, 15, v0
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v2
+; GISEL-NEXT:    v_lshlrev_b16_e32 v2, 1, v0
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v2
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v3
+; GISEL-NEXT:    v_lshlrev_b16_e32 v3, 2, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v0, v2
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v3
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v8
+; GISEL-NEXT:    v_lshlrev_b16_e32 v8, 3, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v3
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v8
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v9
+; GISEL-NEXT:    v_lshlrev_b16_e32 v9, 4, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v8
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v9
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v10
+; GISEL-NEXT:    v_lshlrev_b16_e32 v10, 5, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v9
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v10
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v11
+; GISEL-NEXT:    v_lshlrev_b16_e32 v11, 6, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v10
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v11
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v12
+; GISEL-NEXT:    v_lshlrev_b16_e32 v12, 7, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v11
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v12
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v13
+; GISEL-NEXT:    v_lshlrev_b16_e32 v13, 8, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v12
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v13
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v14
+; GISEL-NEXT:    v_lshlrev_b16_e32 v14, 9, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v13
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v14
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v15
+; GISEL-NEXT:    v_lshlrev_b16_e32 v15, 10, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v14
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v15
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v16
+; GISEL-NEXT:    v_lshlrev_b16_e32 v16, 11, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v15
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v16
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v17
+; GISEL-NEXT:    v_lshlrev_b16_e32 v17, 12, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v16
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v17
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v18
+; GISEL-NEXT:    v_lshlrev_b16_e32 v18, 13, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v17
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v18
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v19
+; GISEL-NEXT:    v_lshlrev_b16_e32 v19, 14, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v18
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v19
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v20
-; GISEL-NEXT:    v_or_b32_e32 v1, v1, v20
+; GISEL-NEXT:    v_lshlrev_b16_e32 v0, 15, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v19
+; GISEL-NEXT:    v_or_b32_e32 v1, v1, v0
+; GISEL-NEXT:    v_or_b32_e32 v0, v2, v0
 ; GISEL-NEXT:    v_and_b32_e32 v0, 0xffff, v0
 ; GISEL-NEXT:    v_and_b32_e32 v1, 0xffff, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v2, 16, v0
@@ -331,34 +331,34 @@ define i128 @fptosi_f64_to_i128(double %x) {
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v15, v16
 ; GISEL-NEXT:    v_or3_b32 v0, v0, v17, v18
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v19, 18, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v20, 19, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 19, v1
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v17, v18
-; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v20
-; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 20, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 21, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v20
-; GISEL-NEXT:    v_or3_b32 v0, v0, v3, v4
-; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 22, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 23, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v3, v4
-; GISEL-NEXT:    v_or3_b32 v0, v0, v5, v6
-; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 24, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 25, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v5, v6
-; GISEL-NEXT:    v_or3_b32 v0, v0, v7, v8
-; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 26, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 27, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v7, v8
-; GISEL-NEXT:    v_or3_b32 v0, v0, v9, v10
-; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 28, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 29, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v9, v10
-; GISEL-NEXT:    v_or3_b32 v0, v0, v11, v12
-; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 30, v1
+; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v3
+; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 20, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 21, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v3
+; GISEL-NEXT:    v_or3_b32 v0, v0, v4, v5
+; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 22, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 23, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v4, v5
+; GISEL-NEXT:    v_or3_b32 v0, v0, v6, v7
+; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 24, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 25, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v6, v7
+; GISEL-NEXT:    v_or3_b32 v0, v0, v8, v9
+; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 26, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 27, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v8, v9
+; GISEL-NEXT:    v_or3_b32 v0, v0, v10, v11
+; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 28, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 29, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v10, v11
+; GISEL-NEXT:    v_or3_b32 v0, v0, v12, v13
+; GISEL-NEXT:    v_lshlrev_b32_e32 v14, 30, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v1, 31, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v11, v12
-; GISEL-NEXT:    v_or3_b32 v0, v0, v13, v1
-; GISEL-NEXT:    v_or3_b32 v1, v2, v13, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v12, v13
+; GISEL-NEXT:    v_or3_b32 v0, v0, v14, v1
+; GISEL-NEXT:    v_or3_b32 v1, v2, v14, v1
 ; GISEL-NEXT:    v_add_u32_e32 v3, 0x80000000, v1
 ; GISEL-NEXT:    v_mov_b32_e32 v2, v1
 ; GISEL-NEXT:  .LBB0_9: ; %Flow3
@@ -540,52 +540,52 @@ define i128 @fptoui_f64_to_i128(double %x) {
 ; GISEL-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, -1, s[6:7]
 ; GISEL-NEXT:    v_and_b32_e32 v0, 1, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v2, 1, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, s[6:7]
-; GISEL-NEXT:    v_lshlrev_b16_e32 v3, 2, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v8, 3, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v9, 4, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v10, 5, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v11, 6, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v12, 7, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v13, 8, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v14, 9, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v15, 10, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v16, 11, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v17, 12, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v18, 13, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v19, 14, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v20, 15, v0
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v2
+; GISEL-NEXT:    v_lshlrev_b16_e32 v2, 1, v0
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v2
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v3
+; GISEL-NEXT:    v_lshlrev_b16_e32 v3, 2, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v0, v2
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v3
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v8
+; GISEL-NEXT:    v_lshlrev_b16_e32 v8, 3, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v3
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v8
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v9
+; GISEL-NEXT:    v_lshlrev_b16_e32 v9, 4, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v8
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v9
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v10
+; GISEL-NEXT:    v_lshlrev_b16_e32 v10, 5, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v9
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v10
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v11
+; GISEL-NEXT:    v_lshlrev_b16_e32 v11, 6, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v10
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v11
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v12
+; GISEL-NEXT:    v_lshlrev_b16_e32 v12, 7, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v11
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v12
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v13
+; GISEL-NEXT:    v_lshlrev_b16_e32 v13, 8, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v12
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v13
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v14
+; GISEL-NEXT:    v_lshlrev_b16_e32 v14, 9, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v13
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v14
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v15
+; GISEL-NEXT:    v_lshlrev_b16_e32 v15, 10, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v14
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v15
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v16
+; GISEL-NEXT:    v_lshlrev_b16_e32 v16, 11, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v15
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v16
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v17
+; GISEL-NEXT:    v_lshlrev_b16_e32 v17, 12, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v16
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v17
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v18
+; GISEL-NEXT:    v_lshlrev_b16_e32 v18, 13, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v17
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v18
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v19
+; GISEL-NEXT:    v_lshlrev_b16_e32 v19, 14, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v18
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v19
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v20
-; GISEL-NEXT:    v_or_b32_e32 v1, v1, v20
+; GISEL-NEXT:    v_lshlrev_b16_e32 v0, 15, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v19
+; GISEL-NEXT:    v_or_b32_e32 v1, v1, v0
+; GISEL-NEXT:    v_or_b32_e32 v0, v2, v0
 ; GISEL-NEXT:    v_and_b32_e32 v0, 0xffff, v0
 ; GISEL-NEXT:    v_and_b32_e32 v1, 0xffff, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v2, 16, v0
@@ -699,34 +699,34 @@ define i128 @fptoui_f64_to_i128(double %x) {
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v15, v16
 ; GISEL-NEXT:    v_or3_b32 v0, v0, v17, v18
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v19, 18, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v20, 19, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 19, v1
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v17, v18
-; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v20
-; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 20, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 21, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v20
-; GISEL-NEXT:    v_or3_b32 v0, v0, v3, v4
-; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 22, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 23, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v3, v4
-; GISEL-NEXT:    v_or3_b32 v0, v0, v5, v6
-; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 24, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 25, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v5, v6
-; GISEL-NEXT:    v_or3_b32 v0, v0, v7, v8
-; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 26, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 27, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v7, v8
-; GISEL-NEXT:    v_or3_b32 v0, v0, v9, v10
-; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 28, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 29, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v9, v10
-; GISEL-NEXT:    v_or3_b32 v0, v0, v11, v12
-; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 30, v1
+; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v3
+; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 20, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 21, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v3
+; GISEL-NEXT:    v_or3_b32 v0, v0, v4, v5
+; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 22, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 23, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v4, v5
+; GISEL-NEXT:    v_or3_b32 v0, v0, v6, v7
+; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 24, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 25, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v6, v7
+; GISEL-NEXT:    v_or3_b32 v0, v0, v8, v9
+; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 26, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 27, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v8, v9
+; GISEL-NEXT:    v_or3_b32 v0, v0, v10, v11
+; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 28, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 29, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v10, v11
+; GISEL-NEXT:    v_or3_b32 v0, v0, v12, v13
+; GISEL-NEXT:    v_lshlrev_b32_e32 v14, 30, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v1, 31, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v11, v12
-; GISEL-NEXT:    v_or3_b32 v0, v0, v13, v1
-; GISEL-NEXT:    v_or3_b32 v1, v2, v13, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v12, v13
+; GISEL-NEXT:    v_or3_b32 v0, v0, v14, v1
+; GISEL-NEXT:    v_or3_b32 v1, v2, v14, v1
 ; GISEL-NEXT:    v_add_u32_e32 v3, 0x80000000, v1
 ; GISEL-NEXT:    v_mov_b32_e32 v2, v1
 ; GISEL-NEXT:  .LBB1_9: ; %Flow3
@@ -900,52 +900,52 @@ define i128 @fptosi_f32_to_i128(float %x) {
 ; GISEL-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, -1, s[6:7]
 ; GISEL-NEXT:    v_and_b32_e32 v0, 1, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v2, 1, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, s[6:7]
-; GISEL-NEXT:    v_lshlrev_b16_e32 v3, 2, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v5, 3, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v8, 4, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v9, 5, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v10, 6, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v11, 7, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v12, 8, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v13, 9, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v14, 10, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v15, 11, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v16, 12, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v17, 13, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v18, 14, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v19, 15, v0
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v2
+; GISEL-NEXT:    v_lshlrev_b16_e32 v2, 1, v0
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v2
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v3
+; GISEL-NEXT:    v_lshlrev_b16_e32 v3, 2, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v0, v2
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v3
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v5
+; GISEL-NEXT:    v_lshlrev_b16_e32 v5, 3, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v3
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v5
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v8
+; GISEL-NEXT:    v_lshlrev_b16_e32 v8, 4, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v5
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v8
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v9
+; GISEL-NEXT:    v_lshlrev_b16_e32 v9, 5, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v8
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v9
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v10
+; GISEL-NEXT:    v_lshlrev_b16_e32 v10, 6, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v9
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v10
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v11
+; GISEL-NEXT:    v_lshlrev_b16_e32 v11, 7, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v10
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v11
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v12
+; GISEL-NEXT:    v_lshlrev_b16_e32 v12, 8, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v11
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v12
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v13
+; GISEL-NEXT:    v_lshlrev_b16_e32 v13, 9, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v12
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v13
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v14
+; GISEL-NEXT:    v_lshlrev_b16_e32 v14, 10, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v13
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v14
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v15
+; GISEL-NEXT:    v_lshlrev_b16_e32 v15, 11, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v14
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v15
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v16
+; GISEL-NEXT:    v_lshlrev_b16_e32 v16, 12, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v15
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v16
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v17
+; GISEL-NEXT:    v_lshlrev_b16_e32 v17, 13, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v16
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v17
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v18
+; GISEL-NEXT:    v_lshlrev_b16_e32 v18, 14, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v17
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v18
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v19
-; GISEL-NEXT:    v_or_b32_e32 v1, v1, v19
+; GISEL-NEXT:    v_lshlrev_b16_e32 v0, 15, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v18
+; GISEL-NEXT:    v_or_b32_e32 v1, v1, v0
+; GISEL-NEXT:    v_or_b32_e32 v0, v2, v0
 ; GISEL-NEXT:    v_and_b32_e32 v0, 0xffff, v0
 ; GISEL-NEXT:    v_and_b32_e32 v1, 0xffff, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v2, 16, v0
@@ -1054,34 +1054,34 @@ define i128 @fptosi_f32_to_i128(float %x) {
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v15, v16
 ; GISEL-NEXT:    v_or3_b32 v0, v0, v17, v18
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v19, 18, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v20, 19, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 19, v1
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v17, v18
-; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v20
-; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 20, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 21, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v20
-; GISEL-NEXT:    v_or3_b32 v0, v0, v3, v4
-; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 22, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 23, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v3, v4
-; GISEL-NEXT:    v_or3_b32 v0, v0, v5, v6
-; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 24, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 25, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v5, v6
-; GISEL-NEXT:    v_or3_b32 v0, v0, v7, v8
-; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 26, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 27, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v7, v8
-; GISEL-NEXT:    v_or3_b32 v0, v0, v9, v10
-; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 28, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 29, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v9, v10
-; GISEL-NEXT:    v_or3_b32 v0, v0, v11, v12
-; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 30, v1
+; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v3
+; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 20, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 21, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v3
+; GISEL-NEXT:    v_or3_b32 v0, v0, v4, v5
+; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 22, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 23, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v4, v5
+; GISEL-NEXT:    v_or3_b32 v0, v0, v6, v7
+; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 24, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 25, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v6, v7
+; GISEL-NEXT:    v_or3_b32 v0, v0, v8, v9
+; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 26, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 27, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v8, v9
+; GISEL-NEXT:    v_or3_b32 v0, v0, v10, v11
+; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 28, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 29, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v10, v11
+; GISEL-NEXT:    v_or3_b32 v0, v0, v12, v13
+; GISEL-NEXT:    v_lshlrev_b32_e32 v14, 30, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v1, 31, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v11, v12
-; GISEL-NEXT:    v_or3_b32 v0, v0, v13, v1
-; GISEL-NEXT:    v_or3_b32 v1, v2, v13, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v12, v13
+; GISEL-NEXT:    v_or3_b32 v0, v0, v14, v1
+; GISEL-NEXT:    v_or3_b32 v1, v2, v14, v1
 ; GISEL-NEXT:    v_add_u32_e32 v3, 0x80000000, v1
 ; GISEL-NEXT:    v_mov_b32_e32 v2, v1
 ; GISEL-NEXT:  .LBB2_9: ; %Flow3
@@ -1255,52 +1255,52 @@ define i128 @fptoui_f32_to_i128(float %x) {
 ; GISEL-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
 ; GISEL-NEXT:    v_cndmask_b32_e64 v0, 0, -1, s[6:7]
 ; GISEL-NEXT:    v_and_b32_e32 v0, 1, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v2, 1, v0
 ; GISEL-NEXT:    v_cndmask_b32_e64 v1, 0, 1, s[6:7]
-; GISEL-NEXT:    v_lshlrev_b16_e32 v3, 2, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v5, 3, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v8, 4, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v9, 5, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v10, 6, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v11, 7, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v12, 8, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v13, 9, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v14, 10, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v15, 11, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v16, 12, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v17, 13, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v18, 14, v0
-; GISEL-NEXT:    v_lshlrev_b16_e32 v19, 15, v0
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v2
+; GISEL-NEXT:    v_lshlrev_b16_e32 v2, 1, v0
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v2
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v3
+; GISEL-NEXT:    v_lshlrev_b16_e32 v3, 2, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v0, v2
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v3
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v5
+; GISEL-NEXT:    v_lshlrev_b16_e32 v5, 3, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v3
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v5
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v8
+; GISEL-NEXT:    v_lshlrev_b16_e32 v8, 4, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v5
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v8
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v9
+; GISEL-NEXT:    v_lshlrev_b16_e32 v9, 5, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v8
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v9
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v10
+; GISEL-NEXT:    v_lshlrev_b16_e32 v10, 6, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v9
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v10
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v11
+; GISEL-NEXT:    v_lshlrev_b16_e32 v11, 7, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v10
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v11
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v12
+; GISEL-NEXT:    v_lshlrev_b16_e32 v12, 8, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v11
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v12
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v13
+; GISEL-NEXT:    v_lshlrev_b16_e32 v13, 9, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v12
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v13
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v14
+; GISEL-NEXT:    v_lshlrev_b16_e32 v14, 10, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v13
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v14
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v15
+; GISEL-NEXT:    v_lshlrev_b16_e32 v15, 11, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v14
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v15
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v16
+; GISEL-NEXT:    v_lshlrev_b16_e32 v16, 12, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v15
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v16
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v17
+; GISEL-NEXT:    v_lshlrev_b16_e32 v17, 13, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v16
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v17
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v18
+; GISEL-NEXT:    v_lshlrev_b16_e32 v18, 14, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v17
 ; GISEL-NEXT:    v_or_b32_e32 v1, v1, v18
-; GISEL-NEXT:    v_or_b32_e32 v0, v0, v19
-; GISEL-NEXT:    v_or_b32_e32 v1, v1, v19
+; GISEL-NEXT:    v_lshlrev_b16_e32 v0, 15, v0
+; GISEL-NEXT:    v_or_b32_e32 v2, v2, v18
+; GISEL-NEXT:    v_or_b32_e32 v1, v1, v0
+; GISEL-NEXT:    v_or_b32_e32 v0, v2, v0
 ; GISEL-NEXT:    v_and_b32_e32 v0, 0xffff, v0
 ; GISEL-NEXT:    v_and_b32_e32 v1, 0xffff, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v2, 16, v0
@@ -1409,34 +1409,34 @@ define i128 @fptoui_f32_to_i128(float %x) {
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v15, v16
 ; GISEL-NEXT:    v_or3_b32 v0, v0, v17, v18
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v19, 18, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v20, 19, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 19, v1
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v17, v18
-; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v20
-; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 20, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 21, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v20
-; GISEL-NEXT:    v_or3_b32 v0, v0, v3, v4
-; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 22, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 23, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v3, v4
-; GISEL-NEXT:    v_or3_b32 v0, v0, v5, v6
-; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 24, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 25, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v5, v6
-; GISEL-NEXT:    v_or3_b32 v0, v0, v7, v8
-; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 26, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 27, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v7, v8
-; GISEL-NEXT:    v_or3_b32 v0, v0, v9, v10
-; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 28, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 29, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v9, v10
-; GISEL-NEXT:    v_or3_b32 v0, v0, v11, v12
-; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 30, v1
+; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v3
+; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 20, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 21, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v3
+; GISEL-NEXT:    v_or3_b32 v0, v0, v4, v5
+; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 22, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 23, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v4, v5
+; GISEL-NEXT:    v_or3_b32 v0, v0, v6, v7
+; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 24, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 25, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v6, v7
+; GISEL-NEXT:    v_or3_b32 v0, v0, v8, v9
+; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 26, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 27, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v8, v9
+; GISEL-NEXT:    v_or3_b32 v0, v0, v10, v11
+; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 28, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 29, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v10, v11
+; GISEL-NEXT:    v_or3_b32 v0, v0, v12, v13
+; GISEL-NEXT:    v_lshlrev_b32_e32 v14, 30, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v1, 31, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v11, v12
-; GISEL-NEXT:    v_or3_b32 v0, v0, v13, v1
-; GISEL-NEXT:    v_or3_b32 v1, v2, v13, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v12, v13
+; GISEL-NEXT:    v_or3_b32 v0, v0, v14, v1
+; GISEL-NEXT:    v_or3_b32 v1, v2, v14, v1
 ; GISEL-NEXT:    v_add_u32_e32 v3, 0x80000000, v1
 ; GISEL-NEXT:    v_mov_b32_e32 v2, v1
 ; GISEL-NEXT:  .LBB3_9: ; %Flow3
@@ -1786,34 +1786,34 @@ define i128 @fptosi_bf16_to_i128(bfloat %x) {
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v15, v16
 ; GISEL-NEXT:    v_or3_b32 v0, v0, v17, v18
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v19, 18, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v20, 19, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 19, v1
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v17, v18
-; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v20
-; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 20, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 21, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v20
-; GISEL-NEXT:    v_or3_b32 v0, v0, v3, v4
-; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 22, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 23, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v3, v4
-; GISEL-NEXT:    v_or3_b32 v0, v0, v5, v6
-; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 24, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 25, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v5, v6
-; GISEL-NEXT:    v_or3_b32 v0, v0, v7, v8
-; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 26, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 27, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v7, v8
-; GISEL-NEXT:    v_or3_b32 v0, v0, v9, v10
-; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 28, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 29, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v9, v10
-; GISEL-NEXT:    v_or3_b32 v0, v0, v11, v12
-; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 30, v1
+; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v3
+; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 20, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 21, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v3
+; GISEL-NEXT:    v_or3_b32 v0, v0, v4, v5
+; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 22, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 23, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v4, v5
+; GISEL-NEXT:    v_or3_b32 v0, v0, v6, v7
+; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 24, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 25, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v6, v7
+; GISEL-NEXT:    v_or3_b32 v0, v0, v8, v9
+; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 26, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 27, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v8, v9
+; GISEL-NEXT:    v_or3_b32 v0, v0, v10, v11
+; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 28, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 29, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v10, v11
+; GISEL-NEXT:    v_or3_b32 v0, v0, v12, v13
+; GISEL-NEXT:    v_lshlrev_b32_e32 v14, 30, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v1, 31, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v11, v12
-; GISEL-NEXT:    v_or3_b32 v0, v0, v13, v1
-; GISEL-NEXT:    v_or3_b32 v1, v2, v13, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v12, v13
+; GISEL-NEXT:    v_or3_b32 v0, v0, v14, v1
+; GISEL-NEXT:    v_or3_b32 v1, v2, v14, v1
 ; GISEL-NEXT:    v_add_u32_e32 v3, 0x80000000, v1
 ; GISEL-NEXT:    v_mov_b32_e32 v2, v1
 ; GISEL-NEXT:  .LBB6_9: ; %Flow3
@@ -2135,34 +2135,34 @@ define i128 @fptoui_bf16_to_i128(bfloat %x) {
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v15, v16
 ; GISEL-NEXT:    v_or3_b32 v0, v0, v17, v18
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v19, 18, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v20, 19, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 19, v1
 ; GISEL-NEXT:    v_or3_b32 v2, v2, v17, v18
-; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v20
-; GISEL-NEXT:    v_lshlrev_b32_e32 v3, 20, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 21, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v20
-; GISEL-NEXT:    v_or3_b32 v0, v0, v3, v4
-; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 22, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 23, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v3, v4
-; GISEL-NEXT:    v_or3_b32 v0, v0, v5, v6
-; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 24, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 25, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v5, v6
-; GISEL-NEXT:    v_or3_b32 v0, v0, v7, v8
-; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 26, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 27, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v7, v8
-; GISEL-NEXT:    v_or3_b32 v0, v0, v9, v10
-; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 28, v1
-; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 29, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v9, v10
-; GISEL-NEXT:    v_or3_b32 v0, v0, v11, v12
-; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 30, v1
+; GISEL-NEXT:    v_or3_b32 v0, v0, v19, v3
+; GISEL-NEXT:    v_lshlrev_b32_e32 v4, 20, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v5, 21, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v19, v3
+; GISEL-NEXT:    v_or3_b32 v0, v0, v4, v5
+; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 22, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v7, 23, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v4, v5
+; GISEL-NEXT:    v_or3_b32 v0, v0, v6, v7
+; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 24, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v9, 25, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v6, v7
+; GISEL-NEXT:    v_or3_b32 v0, v0, v8, v9
+; GISEL-NEXT:    v_lshlrev_b32_e32 v10, 26, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v11, 27, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v8, v9
+; GISEL-NEXT:    v_or3_b32 v0, v0, v10, v11
+; GISEL-NEXT:    v_lshlrev_b32_e32 v12, 28, v1
+; GISEL-NEXT:    v_lshlrev_b32_e32 v13, 29, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v10, v11
+; GISEL-NEXT:    v_or3_b32 v0, v0, v12, v13
+; GISEL-NEXT:    v_lshlrev_b32_e32 v14, 30, v1
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v1, 31, v1
-; GISEL-NEXT:    v_or3_b32 v2, v2, v11, v12
-; GISEL-NEXT:    v_or3_b32 v0, v0, v13, v1
-; GISEL-NEXT:    v_or3_b32 v1, v2, v13, v1
+; GISEL-NEXT:    v_or3_b32 v2, v2, v12, v13
+; GISEL-NEXT:    v_or3_b32 v0, v0, v14, v1
+; GISEL-NEXT:    v_or3_b32 v1, v2, v14, v1
 ; GISEL-NEXT:    v_add_u32_e32 v3, 0x80000000, v1
 ; GISEL-NEXT:    v_mov_b32_e32 v2, v1
 ; GISEL-NEXT:  .LBB7_9: ; %Flow3
diff --git a/llvm/test/CodeGen/AMDGPU/fsqrt.f64.ll b/llvm/test/CodeGen/AMDGPU/fsqrt.f64.ll
index 4f3086a9eb1f9..34ee90c68569f 100644
--- a/llvm/test/CodeGen/AMDGPU/fsqrt.f64.ll
+++ b/llvm/test/CodeGen/AMDGPU/fsqrt.f64.ll
@@ -1209,50 +1209,50 @@ define <3 x double> @v_sqrt_v3f64(<3 x double> %x) {
 ; SDAG-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[4:5]
 ; SDAG-NEXT:    v_lshlrev_b32_e32 v6, 8, v6
 ; SDAG-NEXT:    v_ldexp_f64 v[2:3], v[2:3], v6
-; SDAG-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[6:7]
-; SDAG-NEXT:    v_lshlrev_b32_e32 v6, 8, v6
-; SDAG-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v6
+; SDAG-NEXT:    v_cndmask_b32_e64 v10, 0, 1, s[6:7]
+; SDAG-NEXT:    v_lshlrev_b32_e32 v10, 8, v10
+; SDAG-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v10
 ; SDAG-NEXT:    v_rsq_f64_e32 v[6:7], v[0:1]
 ; SDAG-NEXT:    v_rsq_f64_e32 v[8:9], v[2:3]
-; SDAG-NEXT:    v_rsq_f64_e32 v[10:11], v[4:5]
-; SDAG-NEXT:    v_mul_f64 v[12:13], v[0:1], v[6:7]
+; SDAG-NEXT:    v_rsq_f64_e32 v[12:13], v[4:5]
+; SDAG-NEXT:    v_mul_f64 v[10:11], v[0:1], v[6:7]
 ; SDAG-NEXT:    v_mul_f64 v[6:7], v[6:7], 0.5
 ; SDAG-NEXT:    v_mul_f64 v[14:15], v[2:3], v[8:9]
 ; SDAG-NEXT:    v_mul_f64 v[8:9], v[8:9], 0.5
-; SDAG-NEXT:    v_mul_f64 v[16:17], v[4:5], v[10:11]
-; SDAG-NEXT:    v_mul_f64 v[10:11], v[10:11], 0.5
-; SDAG-NEXT:    v_fma_f64 v[18:19], -v[6:7], v[12:13], 0.5
-; SDAG-NEXT:    v_fma_f64 v[20:21], -v[8:9], v[14:15], 0.5
-; SDAG-NEXT:    v_fma_f64 v[22:23], -v[10:11], v[16:17], 0.5
+; SDAG-NEXT:    v_fma_f64 v[16:17], -v[6:7], v[10:11], 0.5
+; SDAG-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[14:15], 0.5
+; SDAG-NEXT:    v_fma_f64 v[10:11], v[10:11], v[16:17], v[10:11]
+; SDAG-NEXT:    v_fma_f64 v[6:7], v[6:7], v[16:17], v[6:7]
+; SDAG-NEXT:    v_mul_f64 v[16:17], v[4:5], v[12:13]
+; SDAG-NEXT:    v_mul_f64 v[12:13], v[12:13], 0.5
+; SDAG-NEXT:    v_fma_f64 v[14:15], v[14:15], v[18:19], v[14:15]
+; SDAG-NEXT:    v_fma_f64 v[8:9], v[8:9], v[18:19], v[8:9]
+; SDAG-NEXT:    v_fma_f64 v[18:19], -v[12:13], v[16:17], 0.5
+; SDAG-NEXT:    v_fma_f64 v[16:17], v[16:17], v[18:19], v[16:17]
 ; SDAG-NEXT:    v_fma_f64 v[12:13], v[12:13], v[18:19], v[12:13]
-; SDAG-NEXT:    v_fma_f64 v[6:7], v[6:7], v[18:19], v[6:7]
-; SDAG-NEXT:    v_fma_f64 v[14:15], v[14:15], v[20:21], v[14:15]
-; SDAG-NEXT:    v_fma_f64 v[8:9], v[8:9], v[20:21], v[8:9]
-; SDAG-NEXT:    v_fma_f64 v[16:17], v[16:17], v[22:23], v[16:17]
-; SDAG-NEXT:    v_fma_f64 v[10:11], v[10:11], v[22:23], v[10:11]
-; SDAG-NEXT:    v_fma_f64 v[18:19], -v[12:13], v[12:13], v[0:1]
-; SDAG-NEXT:    v_fma_f64 v[20:21], -v[14:15], v[14:15], v[2:3]
-; SDAG-NEXT:    v_fma_f64 v[22:23], -v[16:17], v[16:17], v[4:5]
-; SDAG-NEXT:    v_fma_f64 v[12:13], v[18:19], v[6:7], v[12:13]
-; SDAG-NEXT:    v_fma_f64 v[14:15], v[20:21], v[8:9], v[14:15]
-; SDAG-NEXT:    v_fma_f64 v[16:17], v[22:23], v[10:11], v[16:17]
-; SDAG-NEXT:    v_fma_f64 v[18:19], -v[12:13], v[12:13], v[0:1]
-; SDAG-NEXT:    v_fma_f64 v[20:21], -v[14:15], v[14:15], v[2:3]
-; SDAG-NEXT:    v_fma_f64 v[22:23], -v[16:17], v[16:17], v[4:5]
-; SDAG-NEXT:    v_fma_f64 v[6:7], v[18:19], v[6:7], v[12:13]
-; SDAG-NEXT:    v_mov_b32_e32 v12, 0xffffff80
-; SDAG-NEXT:    v_mov_b32_e32 v13, 0x260
-; SDAG-NEXT:    v_fma_f64 v[8:9], v[20:21], v[8:9], v[14:15]
-; SDAG-NEXT:    v_cndmask_b32_e32 v14, 0, v12, vcc
-; SDAG-NEXT:    v_cndmask_b32_e64 v15, 0, v12, s[4:5]
-; SDAG-NEXT:    v_fma_f64 v[10:11], v[22:23], v[10:11], v[16:17]
-; SDAG-NEXT:    v_cndmask_b32_e64 v12, 0, v12, s[6:7]
-; SDAG-NEXT:    v_ldexp_f64 v[6:7], v[6:7], v14
-; SDAG-NEXT:    v_cmp_class_f64_e32 vcc, v[0:1], v13
-; SDAG-NEXT:    v_cmp_class_f64_e64 s[4:5], v[2:3], v13
-; SDAG-NEXT:    v_ldexp_f64 v[8:9], v[8:9], v15
-; SDAG-NEXT:    v_cmp_class_f64_e64 s[6:7], v[4:5], v13
-; SDAG-NEXT:    v_ldexp_f64 v[10:11], v[10:11], v12
+; SDAG-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[10:11], v[0:1]
+; SDAG-NEXT:    v_fma_f64 v[10:11], v[18:19], v[6:7], v[10:11]
+; SDAG-NEXT:    v_fma_f64 v[18:19], -v[14:15], v[14:15], v[2:3]
+; SDAG-NEXT:    v_fma_f64 v[14:15], v[18:19], v[8:9], v[14:15]
+; SDAG-NEXT:    v_fma_f64 v[18:19], -v[16:17], v[16:17], v[4:5]
+; SDAG-NEXT:    v_fma_f64 v[16:17], v[18:19], v[12:13], v[16:17]
+; SDAG-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[10:11], v[0:1]
+; SDAG-NEXT:    v_fma_f64 v[6:7], v[18:19], v[6:7], v[10:11]
+; SDAG-NEXT:    v_fma_f64 v[10:11], -v[14:15], v[14:15], v[2:3]
+; SDAG-NEXT:    v_fma_f64 v[18:19], -v[16:17], v[16:17], v[4:5]
+; SDAG-NEXT:    v_fma_f64 v[8:9], v[10:11], v[8:9], v[14:15]
+; SDAG-NEXT:    v_fma_f64 v[10:11], v[18:19], v[12:13], v[16:17]
+; SDAG-NEXT:    v_mov_b32_e32 v14, 0xffffff80
+; SDAG-NEXT:    v_mov_b32_e32 v15, 0x260
+; SDAG-NEXT:    v_cndmask_b32_e32 v12, 0, v14, vcc
+; SDAG-NEXT:    v_cndmask_b32_e64 v13, 0, v14, s[4:5]
+; SDAG-NEXT:    v_cndmask_b32_e64 v14, 0, v14, s[6:7]
+; SDAG-NEXT:    v_ldexp_f64 v[6:7], v[6:7], v12
+; SDAG-NEXT:    v_cmp_class_f64_e32 vcc, v[0:1], v15
+; SDAG-NEXT:    v_ldexp_f64 v[8:9], v[8:9], v13
+; SDAG-NEXT:    v_cmp_class_f64_e64 s[4:5], v[2:3], v15
+; SDAG-NEXT:    v_ldexp_f64 v[10:11], v[10:11], v14
+; SDAG-NEXT:    v_cmp_class_f64_e64 s[6:7], v[4:5], v15
 ; SDAG-NEXT:    v_cndmask_b32_e32 v0, v6, v0, vcc
 ; SDAG-NEXT:    v_cndmask_b32_e32 v1, v7, v1, vcc
 ; SDAG-NEXT:    v_cndmask_b32_e64 v2, v8, v2, s[4:5]
@@ -1266,61 +1266,61 @@ define <3 x double> @v_sqrt_v3f64(<3 x double> %x) {
 ; GISEL-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GISEL-NEXT:    s_mov_b32 s4, 0
 ; GISEL-NEXT:    s_brev_b32 s5, 8
-; GISEL-NEXT:    v_mov_b32_e32 v6, s4
 ; GISEL-NEXT:    v_cmp_gt_f64_e32 vcc, s[4:5], v[0:1]
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, vcc
+; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 8, v6
+; GISEL-NEXT:    v_ldexp_f64 v[0:1], v[0:1], v6
+; GISEL-NEXT:    v_mov_b32_e32 v6, s4
 ; GISEL-NEXT:    v_mov_b32_e32 v7, s5
 ; GISEL-NEXT:    v_cmp_lt_f64_e64 s[4:5], v[2:3], v[6:7]
 ; GISEL-NEXT:    v_cmp_lt_f64_e64 s[6:7], v[4:5], v[6:7]
-; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, vcc
-; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 8, v8
-; GISEL-NEXT:    v_ldexp_f64 v[0:1], v[0:1], v8
 ; GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[6:7]
 ; GISEL-NEXT:    v_lshlrev_b32_e32 v8, 8, v8
-; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 8, v6
 ; GISEL-NEXT:    v_ldexp_f64 v[2:3], v[2:3], v8
+; GISEL-NEXT:    v_rsq_f64_e32 v[8:9], v[0:1]
+; GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[6:7]
+; GISEL-NEXT:    v_lshlrev_b32_e32 v6, 8, v6
 ; GISEL-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v6
-; GISEL-NEXT:    v_rsq_f64_e32 v[6:7], v[0:1]
-; GISEL-NEXT:    v_rsq_f64_e32 v[8:9], v[2:3]
-; GISEL-NEXT:    v_rsq_f64_e32 v[10:11], v[4:5]
-; GISEL-NEXT:    v_mul_f64 v[12:13], v[6:7], 0.5
-; GISEL-NEXT:    v_mul_f64 v[6:7], v[0:1], v[6:7]
-; GISEL-NEXT:    v_mul_f64 v[14:15], v[8:9], 0.5
-; GISEL-NEXT:    v_mul_f64 v[8:9], v[2:3], v[8:9]
-; GISEL-NEXT:    v_mul_f64 v[16:17], v[10:11], 0.5
-; GISEL-NEXT:    v_mul_f64 v[10:11], v[4:5], v[10:11]
-; GISEL-NEXT:    v_fma_f64 v[18:19], -v[12:13], v[6:7], 0.5
-; GISEL-NEXT:    v_fma_f64 v[20:21], -v[14:15], v[8:9], 0.5
-; GISEL-NEXT:    v_fma_f64 v[22:23], -v[16:17], v[10:11], 0.5
-; GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[18:19], v[6:7]
+; GISEL-NEXT:    v_rsq_f64_e32 v[10:11], v[2:3]
+; GISEL-NEXT:    v_rsq_f64_e32 v[12:13], v[4:5]
+; GISEL-NEXT:    v_mul_f64 v[6:7], v[8:9], 0.5
+; GISEL-NEXT:    v_mul_f64 v[8:9], v[0:1], v[8:9]
+; GISEL-NEXT:    v_mul_f64 v[14:15], v[10:11], 0.5
+; GISEL-NEXT:    v_mul_f64 v[10:11], v[2:3], v[10:11]
+; GISEL-NEXT:    v_fma_f64 v[16:17], -v[6:7], v[8:9], 0.5
+; GISEL-NEXT:    v_fma_f64 v[18:19], -v[14:15], v[10:11], 0.5
+; GISEL-NEXT:    v_fma_f64 v[8:9], v[8:9], v[16:17], v[8:9]
+; GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[16:17], v[6:7]
+; GISEL-NEXT:    v_mul_f64 v[16:17], v[12:13], 0.5
+; GISEL-NEXT:    v_mul_f64 v[12:13], v[4:5], v[12:13]
+; GISEL-NEXT:    v_fma_f64 v[10:11], v[10:11], v[18:19], v[10:11]
+; GISEL-NEXT:    v_fma_f64 v[14:15], v[14:15], v[18:19], v[14:15]
+; GISEL-NEXT:    v_fma_f64 v[18:19], -v[16:17], v[12:13], 0.5
 ; GISEL-NEXT:    v_fma_f64 v[12:13], v[12:13], v[18:19], v[12:13]
-; GISEL-NEXT:    v_fma_f64 v[8:9], v[8:9], v[20:21], v[8:9]
-; GISEL-NEXT:    v_fma_f64 v[14:15], v[14:15], v[20:21], v[14:15]
-; GISEL-NEXT:    v_fma_f64 v[10:11], v[10:11], v[22:23], v[10:11]
-; GISEL-NEXT:    v_fma_f64 v[18:19], -v[6:7], v[6:7], v[0:1]
-; GISEL-NEXT:    v_fma_f64 v[16:17], v[16:17], v[22:23], v[16:17]
-; GISEL-NEXT:    v_fma_f64 v[20:21], -v[8:9], v[8:9], v[2:3]
-; GISEL-NEXT:    v_fma_f64 v[22:23], -v[10:11], v[10:11], v[4:5]
-; GISEL-NEXT:    v_fma_f64 v[6:7], v[18:19], v[12:13], v[6:7]
-; GISEL-NEXT:    v_fma_f64 v[8:9], v[20:21], v[14:15], v[8:9]
-; GISEL-NEXT:    v_fma_f64 v[10:11], v[22:23], v[16:17], v[10:11]
-; GISEL-NEXT:    v_fma_f64 v[18:19], -v[6:7], v[6:7], v[0:1]
-; GISEL-NEXT:    v_fma_f64 v[20:21], -v[8:9], v[8:9], v[2:3]
-; GISEL-NEXT:    v_fma_f64 v[22:23], -v[10:11], v[10:11], v[4:5]
-; GISEL-NEXT:    v_fma_f64 v[6:7], v[18:19], v[12:13], v[6:7]
-; GISEL-NEXT:    v_mov_b32_e32 v12, 0xffffff80
-; GISEL-NEXT:    v_mov_b32_e32 v13, 0x260
-; GISEL-NEXT:    v_fma_f64 v[8:9], v[20:21], v[14:15], v[8:9]
-; GISEL-NEXT:    v_cndmask_b32_e32 v14, 0, v12, vcc
-; GISEL-NEXT:    v_fma_f64 v[10:11], v[22:23], v[16:17], v[10:11]
-; GISEL-NEXT:    v_cndmask_b32_e64 v15, 0, v12, s[4:5]
-; GISEL-NEXT:    v_cndmask_b32_e64 v12, 0, v12, s[6:7]
-; GISEL-NEXT:    v_ldexp_f64 v[6:7], v[6:7], v14
-; GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[0:1], v13
-; GISEL-NEXT:    v_cmp_class_f64_e64 s[4:5], v[2:3], v13
-; GISEL-NEXT:    v_ldexp_f64 v[8:9], v[8:9], v15
-; GISEL-NEXT:    v_cmp_class_f64_e64 s[6:7], v[4:5], v13
-; GISEL-NEXT:    v_ldexp_f64 v[10:11], v[10:11], v12
+; GISEL-NEXT:    v_fma_f64 v[16:17], v[16:17], v[18:19], v[16:17]
+; GISEL-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[8:9], v[0:1]
+; GISEL-NEXT:    v_fma_f64 v[8:9], v[18:19], v[6:7], v[8:9]
+; GISEL-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[10:11], v[2:3]
+; GISEL-NEXT:    v_fma_f64 v[10:11], v[18:19], v[14:15], v[10:11]
+; GISEL-NEXT:    v_fma_f64 v[18:19], -v[12:13], v[12:13], v[4:5]
+; GISEL-NEXT:    v_fma_f64 v[12:13], v[18:19], v[16:17], v[12:13]
+; GISEL-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[8:9], v[0:1]
+; GISEL-NEXT:    v_fma_f64 v[6:7], v[18:19], v[6:7], v[8:9]
+; GISEL-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[10:11], v[2:3]
+; GISEL-NEXT:    v_fma_f64 v[18:19], -v[12:13], v[12:13], v[4:5]
+; GISEL-NEXT:    v_fma_f64 v[8:9], v[8:9], v[14:15], v[10:11]
+; GISEL-NEXT:    v_fma_f64 v[10:11], v[18:19], v[16:17], v[12:13]
+; GISEL-NEXT:    v_mov_b32_e32 v14, 0xffffff80
+; GISEL-NEXT:    v_mov_b32_e32 v15, 0x260
+; GISEL-NEXT:    v_cndmask_b32_e32 v12, 0, v14, vcc
+; GISEL-NEXT:    v_cndmask_b32_e64 v13, 0, v14, s[4:5]
+; GISEL-NEXT:    v_cndmask_b32_e64 v14, 0, v14, s[6:7]
+; GISEL-NEXT:    v_ldexp_f64 v[6:7], v[6:7], v12
+; GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[0:1], v15
+; GISEL-NEXT:    v_ldexp_f64 v[8:9], v[8:9], v13
+; GISEL-NEXT:    v_cmp_class_f64_e64 s[4:5], v[2:3], v15
+; GISEL-NEXT:    v_ldexp_f64 v[10:11], v[10:11], v14
+; GISEL-NEXT:    v_cmp_class_f64_e64 s[6:7], v[4:5], v15
 ; GISEL-NEXT:    v_cndmask_b32_e32 v0, v6, v0, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e32 v1, v7, v1, vcc
 ; GISEL-NEXT:    v_cndmask_b32_e64 v2, v8, v2, s[4:5]
diff --git a/llvm/test/CodeGen/AMDGPU/function-args.ll b/llvm/test/CodeGen/AMDGPU/function-args.ll
index 3b2f15c8340a6..78e521aba120e 100644
--- a/llvm/test/CodeGen/AMDGPU/function-args.ll
+++ b/llvm/test/CodeGen/AMDGPU/function-args.ll
@@ -671,17 +671,17 @@ define void @void_func_v33i32(<33 x i32> %arg0) #0 {
 ; CI-NEXT:    s_mov_b32 s6, -1
 ; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
 ; CI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
+; CI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:4
+; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(5)
+; CI-NEXT:    s_waitcnt vmcnt(6)
 ; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(5)
-; CI-NEXT:    buffer_store_dword v16, off, s[4:7], 0
+; CI-NEXT:    s_waitcnt vmcnt(6)
+; CI-NEXT:    buffer_store_dword v20, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -692,17 +692,17 @@ define void @void_func_v33i32(<33 x i32> %arg0) #0 {
 ; VI-NEXT:    s_mov_b32 s6, -1
 ; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
 ; VI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
+; VI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:4
+; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(5)
+; VI-NEXT:    s_waitcnt vmcnt(6)
 ; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(5)
-; VI-NEXT:    buffer_store_dword v16, off, s[4:7], 0
+; VI-NEXT:    s_waitcnt vmcnt(6)
+; VI-NEXT:    buffer_store_dword v20, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -713,19 +713,19 @@ define void @void_func_v33i32(<33 x i32> %arg0) #0 {
 ; GFX9-NEXT:    s_mov_b32 s6, -1
 ; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
+; GFX9-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:4
 ; GFX9-NEXT:    s_nop 0
+; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(5)
+; GFX9-NEXT:    s_waitcnt vmcnt(6)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(5)
-; GFX9-NEXT:    buffer_store_dword v16, off, s[4:7], 0
+; GFX9-NEXT:    s_waitcnt vmcnt(6)
+; GFX9-NEXT:    buffer_store_dword v20, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1388,137 +1388,137 @@ define void @void_func_v32i8(<32 x i8> %arg0) #0 {
 ; CI-LABEL: void_func_v32i8:
 ; CI:       ; %bb.0:
 ; CI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; CI-NEXT:    v_and_b32_e32 v2, 0xff, v2
-; CI-NEXT:    v_lshlrev_b32_e32 v3, 24, v3
-; CI-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
-; CI-NEXT:    v_or_b32_e32 v2, v3, v2
-; CI-NEXT:    buffer_load_dword v3, off, s[0:3], s32
 ; CI-NEXT:    v_lshlrev_b32_e32 v5, 8, v5
 ; CI-NEXT:    v_and_b32_e32 v4, 0xff, v4
-; CI-NEXT:    v_and_b32_e32 v6, 0xff, v6
 ; CI-NEXT:    v_or_b32_e32 v4, v4, v5
-; CI-NEXT:    v_lshlrev_b32_e32 v5, 24, v7
-; CI-NEXT:    v_lshlrev_b32_e32 v6, 16, v6
+; CI-NEXT:    buffer_load_dword v5, off, s[0:3], s32
+; CI-NEXT:    v_lshlrev_b32_e32 v9, 8, v9
+; CI-NEXT:    v_and_b32_e32 v8, 0xff, v8
 ; CI-NEXT:    v_lshlrev_b32_e32 v13, 8, v13
 ; CI-NEXT:    v_and_b32_e32 v12, 0xff, v12
-; CI-NEXT:    v_or_b32_e32 v5, v5, v6
-; CI-NEXT:    v_and_b32_e32 v4, 0xffff, v4
+; CI-NEXT:    v_or_b32_e32 v8, v8, v9
 ; CI-NEXT:    v_lshlrev_b32_e32 v1, 8, v1
 ; CI-NEXT:    v_and_b32_e32 v0, 0xff, v0
-; CI-NEXT:    v_or_b32_e32 v12, v12, v13
-; CI-NEXT:    v_lshlrev_b32_e32 v9, 8, v9
-; CI-NEXT:    v_and_b32_e32 v8, 0xff, v8
-; CI-NEXT:    v_and_b32_e32 v13, 0xff, v14
+; CI-NEXT:    v_and_b32_e32 v9, 0xff, v14
 ; CI-NEXT:    v_and_b32_e32 v10, 0xff, v10
-; CI-NEXT:    v_or_b32_e32 v7, v4, v5
+; CI-NEXT:    v_and_b32_e32 v6, 0xff, v6
+; CI-NEXT:    v_or_b32_e32 v12, v12, v13
 ; CI-NEXT:    v_or_b32_e32 v0, v0, v1
-; CI-NEXT:    v_lshlrev_b32_e32 v1, 8, v29
-; CI-NEXT:    v_and_b32_e32 v4, 0xff, v28
-; CI-NEXT:    v_and_b32_e32 v6, 0xff, v26
-; CI-NEXT:    v_or_b32_e32 v8, v8, v9
-; CI-NEXT:    v_lshlrev_b32_e32 v9, 24, v15
-; CI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; CI-NEXT:    v_lshlrev_b32_e32 v1, 24, v15
 ; CI-NEXT:    v_lshlrev_b32_e32 v11, 24, v11
+; CI-NEXT:    v_lshlrev_b32_e32 v7, 24, v7
+; CI-NEXT:    v_and_b32_e32 v2, 0xff, v2
+; CI-NEXT:    v_lshlrev_b32_e32 v9, 16, v9
 ; CI-NEXT:    v_lshlrev_b32_e32 v10, 16, v10
-; CI-NEXT:    v_or_b32_e32 v1, v4, v1
-; CI-NEXT:    v_and_b32_e32 v4, 0xff, v30
-; CI-NEXT:    v_lshlrev_b32_e32 v5, 24, v27
 ; CI-NEXT:    v_lshlrev_b32_e32 v6, 16, v6
+; CI-NEXT:    v_lshlrev_b32_e32 v3, 24, v3
+; CI-NEXT:    v_lshlrev_b32_e32 v13, 8, v29
+; CI-NEXT:    v_and_b32_e32 v14, 0xff, v28
+; CI-NEXT:    v_and_b32_e32 v26, 0xff, v26
+; CI-NEXT:    v_lshlrev_b32_e32 v25, 8, v25
+; CI-NEXT:    v_and_b32_e32 v24, 0xff, v24
+; CI-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
+; CI-NEXT:    v_or_b32_e32 v1, v1, v9
+; CI-NEXT:    v_or_b32_e32 v9, v11, v10
+; CI-NEXT:    v_and_b32_e32 v10, 0xffff, v12
+; CI-NEXT:    v_or_b32_e32 v6, v7, v6
+; CI-NEXT:    v_and_b32_e32 v4, 0xffff, v4
+; CI-NEXT:    v_lshlrev_b32_e32 v15, 24, v27
+; CI-NEXT:    v_and_b32_e32 v27, 0xff, v30
+; CI-NEXT:    v_or_b32_e32 v13, v14, v13
+; CI-NEXT:    v_lshlrev_b32_e32 v14, 16, v26
+; CI-NEXT:    v_or_b32_e32 v7, v3, v2
+; CI-NEXT:    v_or_b32_e32 v3, v10, v1
+; CI-NEXT:    v_or_b32_e32 v1, v4, v6
+; CI-NEXT:    v_lshlrev_b32_e32 v26, 16, v27
+; CI-NEXT:    v_or_b32_e32 v11, v15, v14
 ; CI-NEXT:    v_and_b32_e32 v0, 0xffff, v0
-; CI-NEXT:    v_or_b32_e32 v9, v9, v13
-; CI-NEXT:    v_or_b32_e32 v10, v11, v10
-; CI-NEXT:    v_and_b32_e32 v11, 0xffff, v12
+; CI-NEXT:    v_and_b32_e32 v12, 0xffff, v13
 ; CI-NEXT:    v_and_b32_e32 v8, 0xffff, v8
-; CI-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
-; CI-NEXT:    v_or_b32_e32 v5, v5, v6
-; CI-NEXT:    v_or_b32_e32 v6, v0, v2
-; CI-NEXT:    v_or_b32_e32 v9, v11, v9
-; CI-NEXT:    v_or_b32_e32 v8, v8, v10
-; CI-NEXT:    v_lshlrev_b32_e32 v10, 8, v25
-; CI-NEXT:    v_and_b32_e32 v11, 0xff, v24
-; CI-NEXT:    v_and_b32_e32 v1, 0xffff, v1
+; CI-NEXT:    v_or_b32_e32 v0, v0, v7
+; CI-NEXT:    v_or_b32_e32 v2, v8, v9
+; CI-NEXT:    v_and_b32_e32 v8, 0xff, v20
+; CI-NEXT:    v_and_b32_e32 v9, 0xff, v16
 ; CI-NEXT:    s_mov_b32 s5, 0
 ; CI-NEXT:    s_mov_b32 s4, 16
 ; CI-NEXT:    s_mov_b32 s7, 0xf000
 ; CI-NEXT:    s_mov_b32 s6, -1
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_lshlrev_b32_e32 v0, 24, v3
-; CI-NEXT:    v_or_b32_e32 v0, v0, v4
-; CI-NEXT:    v_or_b32_e32 v3, v1, v0
-; CI-NEXT:    v_or_b32_e32 v0, v11, v10
-; CI-NEXT:    v_and_b32_e32 v0, 0xffff, v0
-; CI-NEXT:    v_and_b32_e32 v1, 0xff, v22
-; CI-NEXT:    v_or_b32_e32 v2, v0, v5
-; CI-NEXT:    v_lshlrev_b32_e32 v0, 24, v23
-; CI-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
-; CI-NEXT:    v_or_b32_e32 v0, v0, v1
-; CI-NEXT:    v_lshlrev_b32_e32 v1, 8, v21
-; CI-NEXT:    v_and_b32_e32 v4, 0xff, v20
-; CI-NEXT:    v_or_b32_e32 v1, v4, v1
-; CI-NEXT:    v_and_b32_e32 v1, 0xffff, v1
-; CI-NEXT:    v_and_b32_e32 v4, 0xff, v18
-; CI-NEXT:    v_or_b32_e32 v1, v1, v0
-; CI-NEXT:    v_lshlrev_b32_e32 v0, 24, v19
-; CI-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
-; CI-NEXT:    v_or_b32_e32 v0, v0, v4
-; CI-NEXT:    v_lshlrev_b32_e32 v4, 8, v17
-; CI-NEXT:    v_and_b32_e32 v5, 0xff, v16
-; CI-NEXT:    v_or_b32_e32 v4, v5, v4
-; CI-NEXT:    v_and_b32_e32 v4, 0xffff, v4
-; CI-NEXT:    v_or_b32_e32 v0, v4, v0
-; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
+; CI-NEXT:    v_lshlrev_b32_e32 v4, 24, v5
+; CI-NEXT:    v_or_b32_e32 v5, v24, v25
+; CI-NEXT:    v_and_b32_e32 v5, 0xffff, v5
+; CI-NEXT:    v_or_b32_e32 v4, v4, v26
+; CI-NEXT:    v_or_b32_e32 v6, v5, v11
+; CI-NEXT:    v_and_b32_e32 v5, 0xff, v22
+; CI-NEXT:    v_or_b32_e32 v7, v12, v4
+; CI-NEXT:    v_lshlrev_b32_e32 v4, 24, v23
+; CI-NEXT:    v_lshlrev_b32_e32 v5, 16, v5
+; CI-NEXT:    v_or_b32_e32 v4, v4, v5
+; CI-NEXT:    v_lshlrev_b32_e32 v5, 8, v21
+; CI-NEXT:    v_or_b32_e32 v5, v8, v5
+; CI-NEXT:    v_and_b32_e32 v5, 0xffff, v5
+; CI-NEXT:    v_and_b32_e32 v8, 0xff, v18
+; CI-NEXT:    v_or_b32_e32 v5, v5, v4
+; CI-NEXT:    v_lshlrev_b32_e32 v4, 24, v19
+; CI-NEXT:    v_lshlrev_b32_e32 v8, 16, v8
+; CI-NEXT:    v_or_b32_e32 v4, v4, v8
+; CI-NEXT:    v_lshlrev_b32_e32 v8, 8, v17
+; CI-NEXT:    v_or_b32_e32 v8, v9, v8
+; CI-NEXT:    v_and_b32_e32 v8, 0xffff, v8
+; CI-NEXT:    v_or_b32_e32 v4, v8, v4
+; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; CI-NEXT:    s_mov_b32 s4, s5
-; CI-NEXT:    buffer_store_dwordx4 v[6:9], off, s[4:7], 0
+; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX89-LABEL: void_func_v32i8:
 ; GFX89:       ; %bb.0:
 ; GFX89-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX89-NEXT:    v_lshlrev_b16_e32 v9, 8, v9
+; GFX89-NEXT:    v_or_b32_sdwa v8, v8, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_lshlrev_b16_e32 v9, 8, v11
+; GFX89-NEXT:    v_or_b32_sdwa v9, v10, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    buffer_load_ubyte v10, off, s[0:3], s32
 ; GFX89-NEXT:    v_lshlrev_b16_e32 v13, 8, v13
 ; GFX89-NEXT:    v_or_b32_sdwa v12, v12, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX89-NEXT:    v_lshlrev_b16_e32 v13, 8, v15
-; GFX89-NEXT:    v_or_b32_sdwa v13, v14, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    buffer_load_ubyte v14, off, s[0:3], s32
 ; GFX89-NEXT:    v_lshlrev_b16_e32 v5, 8, v5
+; GFX89-NEXT:    v_lshlrev_b16_e32 v7, 8, v7
+; GFX89-NEXT:    v_lshlrev_b16_e32 v3, 8, v3
+; GFX89-NEXT:    v_or_b32_sdwa v13, v14, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX89-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
+; GFX89-NEXT:    v_lshlrev_b16_e32 v11, 8, v29
+; GFX89-NEXT:    v_lshlrev_b16_e32 v14, 8, v25
+; GFX89-NEXT:    v_lshlrev_b16_e32 v15, 8, v27
+; GFX89-NEXT:    v_lshlrev_b16_e32 v21, 8, v21
+; GFX89-NEXT:    v_lshlrev_b16_e32 v23, 8, v23
+; GFX89-NEXT:    v_lshlrev_b16_e32 v17, 8, v17
+; GFX89-NEXT:    v_lshlrev_b16_e32 v19, 8, v19
 ; GFX89-NEXT:    v_or_b32_sdwa v4, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_lshlrev_b16_e32 v5, 8, v7
-; GFX89-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_lshlrev_b16_e32 v1, 8, v3
-; GFX89-NEXT:    v_lshlrev_b16_e32 v9, 8, v9
-; GFX89-NEXT:    v_or_b32_sdwa v5, v6, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_or_b32_sdwa v6, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_lshlrev_b16_e32 v1, 8, v29
-; GFX89-NEXT:    v_or_b32_sdwa v8, v8, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_lshlrev_b16_e32 v9, 8, v11
-; GFX89-NEXT:    v_or_b32_sdwa v7, v28, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_lshlrev_b16_e32 v1, 8, v25
-; GFX89-NEXT:    v_or_b32_sdwa v9, v10, v9 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_or_b32_sdwa v10, v24, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_lshlrev_b16_e32 v1, 8, v27
-; GFX89-NEXT:    v_lshlrev_b16_e32 v2, 8, v23
-; GFX89-NEXT:    v_or_b32_sdwa v11, v26, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_lshlrev_b16_e32 v1, 8, v21
-; GFX89-NEXT:    v_lshlrev_b16_e32 v3, 8, v17
-; GFX89-NEXT:    v_lshlrev_b16_e32 v15, 8, v19
-; GFX89-NEXT:    v_or_b32_sdwa v19, v22, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v5, v6, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v6, v2, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX89-NEXT:    v_or_b32_sdwa v2, v8, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX89-NEXT:    v_or_b32_sdwa v17, v20, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_or_b32_sdwa v16, v16, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX89-NEXT:    v_or_b32_sdwa v15, v18, v15 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v7, v28, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v11, v24, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v14, v26, v15 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v15, v20, v21 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v20, v22, v23 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v16, v16, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v17, v18, v19 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX89-NEXT:    s_mov_b32 s5, 0
 ; GFX89-NEXT:    s_mov_b32 s4, 16
 ; GFX89-NEXT:    s_mov_b32 s7, 0xf000
 ; GFX89-NEXT:    s_mov_b32 s6, -1
 ; GFX89-NEXT:    v_or_b32_sdwa v1, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX89-NEXT:    v_or_b32_sdwa v0, v0, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX89-NEXT:    v_or_b32_sdwa v6, v10, v11 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX89-NEXT:    v_or_b32_sdwa v5, v17, v19 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX89-NEXT:    v_or_b32_sdwa v4, v16, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v6, v11, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v5, v15, v20 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX89-NEXT:    v_or_b32_sdwa v4, v16, v17 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX89-NEXT:    v_or_b32_sdwa v3, v12, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX89-NEXT:    s_waitcnt vmcnt(0)
-; GFX89-NEXT:    v_lshlrev_b16_e32 v8, 8, v14
+; GFX89-NEXT:    v_lshlrev_b16_e32 v8, 8, v10
 ; GFX89-NEXT:    v_or_b32_sdwa v8, v30, v8 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX89-NEXT:    v_or_b32_sdwa v7, v7, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX89-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
@@ -2622,102 +2622,37 @@ define void @void_func_byval_i32_byval_i64(ptr addrspace(5) byval(i32) %arg0, pt
 }
 
 define void @void_func_v32i32_i32_i64(<32 x i32> %arg0, i32 %arg1, i64 %arg2) #0 {
-; CI-LABEL: void_func_v32i32_i32_i64:
-; CI:       ; %bb.0:
-; CI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; CI-NEXT:    s_mov_b32 s7, 0xf000
-; CI-NEXT:    s_mov_b32 s6, -1
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:12
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:8
-; CI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:4
-; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dword v20, off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx2 v[16:17], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    s_setpc_b64 s[30:31]
-;
-; VI-LABEL: void_func_v32i32_i32_i64:
-; VI:       ; %bb.0:
-; VI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; VI-NEXT:    s_mov_b32 s7, 0xf000
-; VI-NEXT:    s_mov_b32 s6, -1
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:12
-; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:8
-; VI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:4
-; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dword v20, off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx2 v[16:17], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    s_setpc_b64 s[30:31]
-;
-; GFX9-LABEL: void_func_v32i32_i32_i64:
-; GFX9:       ; %bb.0:
-; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; GFX9-NEXT:    s_mov_b32 s7, 0xf000
-; GFX9-NEXT:    s_mov_b32 s6, -1
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:12
-; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:4
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dword v20, off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx2 v[16:17], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    s_setpc_b64 s[30:31]
+; CIGFX89-LABEL: void_func_v32i32_i32_i64:
+; CIGFX89:       ; %bb.0:
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; CIGFX89-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; CIGFX89-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:12
+; CIGFX89-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:8
+; CIGFX89-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:4
+; CIGFX89-NEXT:    s_mov_b32 s7, 0xf000
+; CIGFX89-NEXT:    s_mov_b32 s6, -1
+; CIGFX89-NEXT:    s_waitcnt vmcnt(3)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dword v34, off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx2 v[32:33], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: void_func_v32i32_i32_i64:
 ; GFX11:       ; %bb.0:
@@ -2765,129 +2700,86 @@ define void @void_func_v32i32_i1_i8_i16_bf16(<32 x i32> %arg0, i1 %arg1, i8 %arg
 ; CI:       ; %bb.0:
 ; CI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:20
+; CI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:16
+; CI-NEXT:    buffer_load_ubyte v34, off, s[0:3], s32 offset:4
+; CI-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:8
+; CI-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:12
 ; CI-NEXT:    s_mov_b32 s7, 0xf000
 ; CI-NEXT:    s_mov_b32 s6, -1
-; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    s_waitcnt vmcnt(5)
 ; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:20
 ; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:16
-; CI-NEXT:    buffer_load_ubyte v17, off, s[0:3], s32 offset:4
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:8
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:12
 ; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_mul_f32_e32 v12, 1.0, v32
+; CI-NEXT:    v_cvt_f16_f32_e32 v13, v33
 ; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_cvt_f16_f32_e32 v16, v16
-; CI-NEXT:    v_mul_f32_e32 v20, 1.0, v20
-; CI-NEXT:    v_and_b32_e32 v0, 1, v17
-; CI-NEXT:    v_lshrrev_b32_e32 v1, 16, v20
+; CI-NEXT:    v_and_b32_e32 v0, 1, v34
+; CI-NEXT:    v_lshrrev_b32_e32 v1, 16, v12
 ; CI-NEXT:    buffer_store_byte v0, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v18, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v35, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_short v19, off, s[4:7], 0
+; CI-NEXT:    buffer_store_short v36, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_short v16, off, s[4:7], 0
+; CI-NEXT:    buffer_store_short v13, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_short v1, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    s_setpc_b64 s[30:31]
 ;
-; VI-LABEL: void_func_v32i32_i1_i8_i16_bf16:
-; VI:       ; %bb.0:
-; VI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; VI-NEXT:    s_mov_b32 s7, 0xf000
-; VI-NEXT:    s_mov_b32 s6, -1
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_ubyte v20, off, s[0:3], s32 offset:4
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_ushort v16, off, s[0:3], s32 offset:8
-; VI-NEXT:    buffer_load_ushort v17, off, s[0:3], s32 offset:12
-; VI-NEXT:    buffer_load_ushort v18, off, s[0:3], s32 offset:16
-; VI-NEXT:    buffer_load_ushort v19, off, s[0:3], s32 offset:20
-; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    v_and_b32_e32 v0, 1, v20
-; VI-NEXT:    buffer_store_byte v0, off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v16, off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_short v17, off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_short v18, off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_short v19, off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    s_setpc_b64 s[30:31]
-;
-; GFX9-LABEL: void_func_v32i32_i1_i8_i16_bf16:
-; GFX9:       ; %bb.0:
-; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; GFX9-NEXT:    s_mov_b32 s7, 0xf000
-; GFX9-NEXT:    s_mov_b32 s6, -1
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_ubyte v20, off, s[0:3], s32 offset:4
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_ushort v16, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    buffer_load_ushort v17, off, s[0:3], s32 offset:12
-; GFX9-NEXT:    buffer_load_ushort v18, off, s[0:3], s32 offset:16
-; GFX9-NEXT:    buffer_load_ushort v19, off, s[0:3], s32 offset:20
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    v_and_b32_e32 v0, 1, v20
-; GFX9-NEXT:    buffer_store_byte v0, off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v16, off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_short v17, off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_short v18, off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_short v19, off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    s_setpc_b64 s[30:31]
+; GFX89-LABEL: void_func_v32i32_i1_i8_i16_bf16:
+; GFX89:       ; %bb.0:
+; GFX89-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX89-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; GFX89-NEXT:    buffer_load_ubyte v32, off, s[0:3], s32 offset:4
+; GFX89-NEXT:    buffer_load_ushort v33, off, s[0:3], s32 offset:8
+; GFX89-NEXT:    buffer_load_ushort v34, off, s[0:3], s32 offset:12
+; GFX89-NEXT:    buffer_load_ushort v35, off, s[0:3], s32 offset:16
+; GFX89-NEXT:    buffer_load_ushort v36, off, s[0:3], s32 offset:20
+; GFX89-NEXT:    s_mov_b32 s7, 0xf000
+; GFX89-NEXT:    s_mov_b32 s6, -1
+; GFX89-NEXT:    s_waitcnt vmcnt(5)
+; GFX89-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    v_and_b32_e32 v0, 1, v32
+; GFX89-NEXT:    buffer_store_byte v0, off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_byte v33, off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_short v34, off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_short v35, off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_short v36, off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: void_func_v32i32_i1_i8_i16_bf16:
 ; GFX11:       ; %bb.0:
@@ -2945,105 +2837,38 @@ define void @void_func_v32i32_i1_i8_i16_bf16(<32 x i32> %arg0, i1 %arg1, i8 %arg
 }
 
 define void @void_func_v32i32_v2i32_v2f32(<32 x i32> %arg0, <2 x i32> %arg1, <2 x float> %arg2) #0 {
-; CI-LABEL: void_func_v32i32_v2i32_v2f32:
-; CI:       ; %bb.0:
-; CI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; CI-NEXT:    s_mov_b32 s7, 0xf000
-; CI-NEXT:    s_mov_b32 s6, -1
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx2 v[16:17], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx2 v[18:19], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    s_setpc_b64 s[30:31]
-;
-; VI-LABEL: void_func_v32i32_v2i32_v2f32:
-; VI:       ; %bb.0:
-; VI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; VI-NEXT:    s_mov_b32 s7, 0xf000
-; VI-NEXT:    s_mov_b32 s6, -1
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
-; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
-; VI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
-; VI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx2 v[16:17], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx2 v[18:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    s_setpc_b64 s[30:31]
-;
-; GFX9-LABEL: void_func_v32i32_v2i32_v2f32:
-; GFX9:       ; %bb.0:
-; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; GFX9-NEXT:    s_mov_b32 s7, 0xf000
-; GFX9-NEXT:    s_mov_b32 s6, -1
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
-; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
-; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx2 v[16:17], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx2 v[18:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    s_setpc_b64 s[30:31]
+; CIGFX89-LABEL: void_func_v32i32_v2i32_v2f32:
+; CIGFX89:       ; %bb.0:
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; CIGFX89-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; CIGFX89-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:8
+; CIGFX89-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:4
+; CIGFX89-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:16
+; CIGFX89-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:12
+; CIGFX89-NEXT:    s_mov_b32 s7, 0xf000
+; CIGFX89-NEXT:    s_mov_b32 s6, -1
+; CIGFX89-NEXT:    s_waitcnt vmcnt(4)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx2 v[32:33], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx2 v[34:35], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: void_func_v32i32_v2i32_v2f32:
 ; GFX11:       ; %bb.0:
@@ -3093,54 +2918,54 @@ define void @void_func_v32i32_v2i16_v2f16_v2bf16_v4bf16(<32 x i32> %arg0, <2 x i
 ; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; CI-NEXT:    s_mov_b32 s7, 0xf000
 ; CI-NEXT:    s_mov_b32 s6, -1
-; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:28
+; CI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:32
+; CI-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:36
+; CI-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:40
+; CI-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:20
+; CI-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:24
+; CI-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:12
+; CI-NEXT:    s_waitcnt vmcnt(7)
 ; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:16
 ; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:32
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:36
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:40
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:20
+; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:8
+; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:4
 ; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:24
-; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:12
-; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:16
-; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:8
-; CI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:28
 ; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:4
 ; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_cvt_f16_f32_e32 v10, v38
+; CI-NEXT:    v_mul_f32_e32 v4, 1.0, v32
+; CI-NEXT:    v_mul_f32_e32 v5, 1.0, v33
+; CI-NEXT:    v_mul_f32_e32 v6, 1.0, v34
+; CI-NEXT:    v_mul_f32_e32 v7, 1.0, v35
+; CI-NEXT:    v_mul_f32_e32 v8, 1.0, v36
+; CI-NEXT:    v_mul_f32_e32 v9, 1.0, v37
 ; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_short v15, off, s[4:7], 0
+; CI-NEXT:    buffer_store_short v16, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_short v8, off, s[4:7], 0
+; CI-NEXT:    buffer_store_short v17, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_cvt_f16_f32_e32 v14, v14
-; CI-NEXT:    v_cvt_f16_f32_e32 v13, v13
-; CI-NEXT:    v_mul_f32_e32 v9, 1.0, v20
-; CI-NEXT:    v_mul_f32_e32 v10, 1.0, v16
-; CI-NEXT:    v_mul_f32_e32 v11, 1.0, v17
-; CI-NEXT:    v_mul_f32_e32 v16, 1.0, v18
-; CI-NEXT:    v_mul_f32_e32 v17, 1.0, v19
-; CI-NEXT:    v_mul_f32_e32 v12, 1.0, v12
-; CI-NEXT:    v_lshrrev_b32_e32 v0, 16, v9
-; CI-NEXT:    v_lshrrev_b32_e32 v1, 16, v10
-; CI-NEXT:    v_lshrrev_b32_e32 v2, 16, v11
-; CI-NEXT:    v_lshrrev_b32_e32 v3, 16, v16
-; CI-NEXT:    v_lshrrev_b32_e32 v4, 16, v17
-; CI-NEXT:    v_lshrrev_b32_e32 v5, 16, v12
-; CI-NEXT:    buffer_store_short v14, off, s[4:7], 0
+; CI-NEXT:    v_cvt_f16_f32_e32 v11, v20
+; CI-NEXT:    v_lshrrev_b32_e32 v0, 16, v4
+; CI-NEXT:    v_lshrrev_b32_e32 v1, 16, v5
+; CI-NEXT:    v_lshrrev_b32_e32 v2, 16, v6
+; CI-NEXT:    v_lshrrev_b32_e32 v3, 16, v7
+; CI-NEXT:    v_lshrrev_b32_e32 v4, 16, v8
+; CI-NEXT:    v_lshrrev_b32_e32 v5, 16, v9
+; CI-NEXT:    buffer_store_short v11, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_short v13, off, s[4:7], 0
+; CI-NEXT:    buffer_store_short v10, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_short v5, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
@@ -3156,82 +2981,43 @@ define void @void_func_v32i32_v2i16_v2f16_v2bf16_v4bf16(<32 x i32> %arg0, <2 x i
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    s_setpc_b64 s[30:31]
 ;
-; VI-LABEL: void_func_v32i32_v2i16_v2f16_v2bf16_v4bf16:
-; VI:       ; %bb.0:
-; VI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; VI-NEXT:    s_mov_b32 s7, 0xf000
-; VI-NEXT:    s_mov_b32 s6, -1
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:4
-; VI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:8
-; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:20
-; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:16
-; VI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:12
-; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dword v18, off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dword v19, off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dword v20, off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx2 v[16:17], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    s_setpc_b64 s[30:31]
-;
-; GFX9-LABEL: void_func_v32i32_v2i16_v2f16_v2bf16_v4bf16:
-; GFX9:       ; %bb.0:
-; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; GFX9-NEXT:    s_mov_b32 s7, 0xf000
-; GFX9-NEXT:    s_mov_b32 s6, -1
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:4
-; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:20
-; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:16
-; GFX9-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:12
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dword v18, off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dword v19, off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dword v20, off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx2 v[16:17], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    s_setpc_b64 s[30:31]
+; GFX89-LABEL: void_func_v32i32_v2i16_v2f16_v2bf16_v4bf16:
+; GFX89:       ; %bb.0:
+; GFX89-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX89-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; GFX89-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:20
+; GFX89-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:16
+; GFX89-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:4
+; GFX89-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:8
+; GFX89-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:12
+; GFX89-NEXT:    s_mov_b32 s7, 0xf000
+; GFX89-NEXT:    s_mov_b32 s6, -1
+; GFX89-NEXT:    s_waitcnt vmcnt(5)
+; GFX89-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dword v34, off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dword v35, off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dword v36, off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    buffer_store_dwordx2 v[32:33], off, s[4:7], 0
+; GFX89-NEXT:    s_waitcnt vmcnt(0)
+; GFX89-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: void_func_v32i32_v2i16_v2f16_v2bf16_v4bf16:
 ; GFX11:       ; %bb.0:
@@ -3277,284 +3063,132 @@ define void @void_func_v32i32_v2i16_v2f16_v2bf16_v4bf16(<32 x i32> %arg0, <2 x i
 ; GFX11-NEXT:    s_setpc_b64 s[30:31]
   store volatile <32 x i32> %arg0, ptr addrspace(1) undef
   store volatile <2 x i16> %arg1, ptr addrspace(1) undef
-  store volatile <2 x half> %arg2, ptr addrspace(1) undef
-  store volatile <2 x bfloat> %arg3, ptr addrspace(1) undef
-  store volatile <4 x bfloat> %arg4, ptr addrspace(1) undef
-  ret void
-}
-
-define void @void_func_v32i32_v2i64_v2f64(<32 x i32> %arg0, <2 x i64> %arg1, <2 x double> %arg2) #0 {
-; CI-LABEL: void_func_v32i32_v2i64_v2f64:
-; CI:       ; %bb.0:
-; CI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; CI-NEXT:    s_mov_b32 s7, 0xf000
-; CI-NEXT:    s_mov_b32 s6, -1
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
-; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
-; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
-; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
-; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
-; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    s_setpc_b64 s[30:31]
-;
-; VI-LABEL: void_func_v32i32_v2i64_v2f64:
-; VI:       ; %bb.0:
-; VI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; VI-NEXT:    s_mov_b32 s7, 0xf000
-; VI-NEXT:    s_mov_b32 s6, -1
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
-; VI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
-; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
-; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
-; VI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
-; VI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
-; VI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
-; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    s_setpc_b64 s[30:31]
-;
-; GFX9-LABEL: void_func_v32i32_v2i64_v2f64:
-; GFX9:       ; %bb.0:
-; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; GFX9-NEXT:    s_mov_b32 s7, 0xf000
-; GFX9-NEXT:    s_mov_b32 s6, -1
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
-; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
-; GFX9-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
-; GFX9-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
-; GFX9-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    s_setpc_b64 s[30:31]
-;
-; GFX11-LABEL: void_func_v32i32_v2i64_v2f64:
-; GFX11:       ; %bb.0:
-; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX11-NEXT:    s_clause 0x8
-; GFX11-NEXT:    scratch_load_b32 v31, off, s32
-; GFX11-NEXT:    scratch_load_b32 v35, off, s32 offset:32
-; GFX11-NEXT:    scratch_load_b32 v34, off, s32 offset:28
-; GFX11-NEXT:    scratch_load_b32 v33, off, s32 offset:24
-; GFX11-NEXT:    scratch_load_b32 v39, off, s32 offset:16
-; GFX11-NEXT:    scratch_load_b32 v38, off, s32 offset:12
-; GFX11-NEXT:    scratch_load_b32 v37, off, s32 offset:8
-; GFX11-NEXT:    scratch_load_b32 v36, off, s32 offset:4
-; GFX11-NEXT:    scratch_load_b32 v32, off, s32 offset:20
-; GFX11-NEXT:    s_mov_b32 s3, 0x31016000
-; GFX11-NEXT:    s_mov_b32 s2, -1
-; GFX11-NEXT:    s_waitcnt vmcnt(8)
-; GFX11-NEXT:    buffer_store_b128 v[28:31], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    buffer_store_b128 v[24:27], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    buffer_store_b128 v[20:23], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    buffer_store_b128 v[16:19], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    buffer_store_b128 v[12:15], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    buffer_store_b128 v[8:11], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    buffer_store_b128 v[4:7], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    buffer_store_b128 v[0:3], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    s_waitcnt vmcnt(1)
-; GFX11-NEXT:    buffer_store_b128 v[36:39], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    s_waitcnt vmcnt(0)
-; GFX11-NEXT:    buffer_store_b128 v[32:35], off, s[0:3], 0 dlc
-; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
-; GFX11-NEXT:    s_setpc_b64 s[30:31]
-  store volatile <32 x i32> %arg0, ptr addrspace(1) undef
-  store volatile <2 x i64> %arg1, ptr addrspace(1) undef
-  store volatile <2 x double> %arg2, ptr addrspace(1) undef
-  ret void
-}
-
-define void @void_func_v32i32_v4i32_v4f32(<32 x i32> %arg0, <4 x i32> %arg1, <4 x float> %arg2) #0 {
-; CI-LABEL: void_func_v32i32_v4i32_v4f32:
-; CI:       ; %bb.0:
-; CI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; CI-NEXT:    s_mov_b32 s7, 0xf000
-; CI-NEXT:    s_mov_b32 s6, -1
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
-; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
-; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
-; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
-; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
-; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    s_setpc_b64 s[30:31]
-;
-; VI-LABEL: void_func_v32i32_v4i32_v4f32:
-; VI:       ; %bb.0:
-; VI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; VI-NEXT:    s_mov_b32 s7, 0xf000
-; VI-NEXT:    s_mov_b32 s6, -1
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
-; VI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
-; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
-; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
-; VI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
-; VI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
-; VI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
-; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    s_setpc_b64 s[30:31]
-;
-; GFX9-LABEL: void_func_v32i32_v4i32_v4f32:
-; GFX9:       ; %bb.0:
-; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
-; GFX9-NEXT:    s_mov_b32 s7, 0xf000
-; GFX9-NEXT:    s_mov_b32 s6, -1
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
-; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
-; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
-; GFX9-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
-; GFX9-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
-; GFX9-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    s_setpc_b64 s[30:31]
+  store volatile <2 x half> %arg2, ptr addrspace(1) undef
+  store volatile <2 x bfloat> %arg3, ptr addrspace(1) undef
+  store volatile <4 x bfloat> %arg4, ptr addrspace(1) undef
+  ret void
+}
+
+define void @void_func_v32i32_v2i64_v2f64(<32 x i32> %arg0, <2 x i64> %arg1, <2 x double> %arg2) #0 {
+; CIGFX89-LABEL: void_func_v32i32_v2i64_v2f64:
+; CIGFX89:       ; %bb.0:
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; CIGFX89-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; CIGFX89-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:20
+; CIGFX89-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:16
+; CIGFX89-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:12
+; CIGFX89-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:8
+; CIGFX89-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:4
+; CIGFX89-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:32
+; CIGFX89-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:28
+; CIGFX89-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:24
+; CIGFX89-NEXT:    s_mov_b32 s7, 0xf000
+; CIGFX89-NEXT:    s_mov_b32 s6, -1
+; CIGFX89-NEXT:    s_waitcnt vmcnt(8)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[32:35], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[36:39], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    s_setpc_b64 s[30:31]
+;
+; GFX11-LABEL: void_func_v32i32_v2i64_v2f64:
+; GFX11:       ; %bb.0:
+; GFX11-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX11-NEXT:    s_clause 0x8
+; GFX11-NEXT:    scratch_load_b32 v31, off, s32
+; GFX11-NEXT:    scratch_load_b32 v35, off, s32 offset:32
+; GFX11-NEXT:    scratch_load_b32 v34, off, s32 offset:28
+; GFX11-NEXT:    scratch_load_b32 v33, off, s32 offset:24
+; GFX11-NEXT:    scratch_load_b32 v39, off, s32 offset:16
+; GFX11-NEXT:    scratch_load_b32 v38, off, s32 offset:12
+; GFX11-NEXT:    scratch_load_b32 v37, off, s32 offset:8
+; GFX11-NEXT:    scratch_load_b32 v36, off, s32 offset:4
+; GFX11-NEXT:    scratch_load_b32 v32, off, s32 offset:20
+; GFX11-NEXT:    s_mov_b32 s3, 0x31016000
+; GFX11-NEXT:    s_mov_b32 s2, -1
+; GFX11-NEXT:    s_waitcnt vmcnt(8)
+; GFX11-NEXT:    buffer_store_b128 v[28:31], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    buffer_store_b128 v[24:27], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    buffer_store_b128 v[20:23], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    buffer_store_b128 v[16:19], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    buffer_store_b128 v[12:15], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    buffer_store_b128 v[8:11], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    buffer_store_b128 v[4:7], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    buffer_store_b128 v[0:3], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    s_waitcnt vmcnt(1)
+; GFX11-NEXT:    buffer_store_b128 v[36:39], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    s_waitcnt vmcnt(0)
+; GFX11-NEXT:    buffer_store_b128 v[32:35], off, s[0:3], 0 dlc
+; GFX11-NEXT:    s_waitcnt_vscnt null, 0x0
+; GFX11-NEXT:    s_setpc_b64 s[30:31]
+  store volatile <32 x i32> %arg0, ptr addrspace(1) undef
+  store volatile <2 x i64> %arg1, ptr addrspace(1) undef
+  store volatile <2 x double> %arg2, ptr addrspace(1) undef
+  ret void
+}
+
+define void @void_func_v32i32_v4i32_v4f32(<32 x i32> %arg0, <4 x i32> %arg1, <4 x float> %arg2) #0 {
+; CIGFX89-LABEL: void_func_v32i32_v4i32_v4f32:
+; CIGFX89:       ; %bb.0:
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; CIGFX89-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; CIGFX89-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:20
+; CIGFX89-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:16
+; CIGFX89-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:12
+; CIGFX89-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:8
+; CIGFX89-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:4
+; CIGFX89-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:32
+; CIGFX89-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:28
+; CIGFX89-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:24
+; CIGFX89-NEXT:    s_mov_b32 s7, 0xf000
+; CIGFX89-NEXT:    s_mov_b32 s6, -1
+; CIGFX89-NEXT:    s_waitcnt vmcnt(8)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[32:35], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    buffer_store_dwordx4 v[36:39], off, s[4:7], 0
+; CIGFX89-NEXT:    s_waitcnt vmcnt(0)
+; CIGFX89-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: void_func_v32i32_v4i32_v4f32:
 ; GFX11:       ; %bb.0:
@@ -3608,7 +3242,14 @@ define void @void_func_v32i32_v8i32_v8f32(<32 x i32> %arg0, <8 x i32> %arg1, <8
 ; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; CI-NEXT:    s_mov_b32 s7, 0xf000
 ; CI-NEXT:    s_mov_b32 s6, -1
-; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:64
+; CI-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:60
+; CI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:56
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:52
+; CI-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:16
+; CI-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:12
+; CI-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:8
+; CI-NEXT:    s_waitcnt vmcnt(7)
 ; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
@@ -3617,37 +3258,30 @@ define void @void_func_v32i32_v8i32_v8f32(<32 x i32> %arg0, <8 x i32> %arg1, <8
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:64
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:60
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:56
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:52
 ; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:16
-; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:12
-; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:8
-; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:4
+; CI-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:4
+; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
+; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
+; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
+; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
+; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:48
+; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:44
+; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:40
+; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:36
 ; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:32
-; CI-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:28
-; CI-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:24
-; CI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:20
 ; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:48
-; CI-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:44
-; CI-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:40
-; CI-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:36
 ; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
+; CI-NEXT:    buffer_store_dwordx4 v[36:39], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
+; CI-NEXT:    buffer_store_dwordx4 v[32:35], off, s[4:7], 0
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3657,7 +3291,14 @@ define void @void_func_v32i32_v8i32_v8f32(<32 x i32> %arg0, <8 x i32> %arg1, <8
 ; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; VI-NEXT:    s_mov_b32 s7, 0xf000
 ; VI-NEXT:    s_mov_b32 s6, -1
-; VI-NEXT:    s_waitcnt vmcnt(0)
+; VI-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:64
+; VI-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:60
+; VI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:56
+; VI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:52
+; VI-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:16
+; VI-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:12
+; VI-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:8
+; VI-NEXT:    s_waitcnt vmcnt(7)
 ; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
@@ -3666,37 +3307,30 @@ define void @void_func_v32i32_v8i32_v8f32(<32 x i32> %arg0, <8 x i32> %arg1, <8
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:64
-; VI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:60
-; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:56
-; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:52
 ; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:16
-; VI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:12
-; VI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:8
-; VI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:4
+; VI-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:4
+; VI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
+; VI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
+; VI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
+; VI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
+; VI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:48
+; VI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:44
+; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:40
+; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:36
 ; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:32
-; VI-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:28
-; VI-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:24
-; VI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:20
 ; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:48
-; VI-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:44
-; VI-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:40
-; VI-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:36
 ; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
+; VI-NEXT:    buffer_store_dwordx4 v[36:39], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
+; VI-NEXT:    buffer_store_dwordx4 v[32:35], off, s[4:7], 0
+; VI-NEXT:    s_waitcnt vmcnt(0)
+; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3706,7 +3340,14 @@ define void @void_func_v32i32_v8i32_v8f32(<32 x i32> %arg0, <8 x i32> %arg1, <8
 ; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; GFX9-NEXT:    s_mov_b32 s7, 0xf000
 ; GFX9-NEXT:    s_mov_b32 s6, -1
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
+; GFX9-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:64
+; GFX9-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:60
+; GFX9-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:56
+; GFX9-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:52
+; GFX9-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:16
+; GFX9-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:12
+; GFX9-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:8
+; GFX9-NEXT:    s_waitcnt vmcnt(7)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
@@ -3715,41 +3356,31 @@ define void @void_func_v32i32_v8i32_v8f32(<32 x i32> %arg0, <8 x i32> %arg1, <8
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:64
-; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:60
-; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:56
-; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:52
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:16
-; GFX9-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:12
-; GFX9-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:4
+; GFX9-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:4
+; GFX9-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
+; GFX9-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
+; GFX9-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
+; GFX9-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
+; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:48
+; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:44
+; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:40
+; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:36
 ; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:32
-; GFX9-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:28
-; GFX9-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:24
-; GFX9-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:20
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:48
-; GFX9-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:44
-; GFX9-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:40
-; GFX9-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:36
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_dwordx4 v[36:39], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_dwordx4 v[32:35], off, s[4:7], 0
+; GFX9-NEXT:    s_waitcnt vmcnt(0)
+; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3817,9 +3448,16 @@ define void @void_func_v32i32_v16i32_v16f32(<32 x i32> %arg0, <16 x i32> %arg1,
 ; CI:       ; %bb.0:
 ; CI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; CI-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:64
+; CI-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:60
+; CI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:56
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:52
 ; CI-NEXT:    s_mov_b32 s7, 0xf000
 ; CI-NEXT:    s_mov_b32 s6, -1
-; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:48
+; CI-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:44
+; CI-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:40
+; CI-NEXT:    s_waitcnt vmcnt(7)
 ; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
@@ -3828,61 +3466,54 @@ define void @void_func_v32i32_v16i32_v16f32(<32 x i32> %arg0, <16 x i32> %arg1,
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:64
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:60
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:56
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:52
 ; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:48
-; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:44
-; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:40
-; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:36
+; CI-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:36
+; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
+; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
+; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
+; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
+; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
+; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
+; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
 ; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:32
-; CI-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:28
-; CI-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:24
-; CI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:20
 ; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
 ; CI-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:96
 ; CI-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:92
 ; CI-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:88
 ; CI-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:84
+; CI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:112
+; CI-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:108
+; CI-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:104
 ; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:112
-; CI-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:108
-; CI-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:104
-; CI-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:100
-; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:128
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:124
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:120
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:116
-; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
+; CI-NEXT:    buffer_store_dwordx4 v[32:35], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:16
-; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:12
-; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:8
-; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:4
-; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; CI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:100
+; CI-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:128
+; CI-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:124
+; CI-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:120
+; CI-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:116
+; CI-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:80
+; CI-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:76
+; CI-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:72
+; CI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:68
+; CI-NEXT:    buffer_store_dwordx4 v[36:39], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:80
-; CI-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:76
-; CI-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:72
-; CI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:68
 ; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; CI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3890,9 +3521,16 @@ define void @void_func_v32i32_v16i32_v16f32(<32 x i32> %arg0, <16 x i32> %arg1,
 ; VI:       ; %bb.0:
 ; VI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; VI-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:64
+; VI-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:60
+; VI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:56
+; VI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:52
 ; VI-NEXT:    s_mov_b32 s7, 0xf000
 ; VI-NEXT:    s_mov_b32 s6, -1
-; VI-NEXT:    s_waitcnt vmcnt(0)
+; VI-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:48
+; VI-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:44
+; VI-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:40
+; VI-NEXT:    s_waitcnt vmcnt(7)
 ; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
@@ -3901,61 +3539,54 @@ define void @void_func_v32i32_v16i32_v16f32(<32 x i32> %arg0, <16 x i32> %arg1,
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:64
-; VI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:60
-; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:56
-; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:52
 ; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:48
-; VI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:44
-; VI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:40
-; VI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:36
+; VI-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:36
+; VI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
+; VI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
+; VI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
+; VI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
+; VI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
+; VI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
+; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
 ; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:32
-; VI-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:28
-; VI-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:24
-; VI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:20
 ; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
+; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
 ; VI-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:96
 ; VI-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:92
 ; VI-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:88
 ; VI-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:84
+; VI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:112
+; VI-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:108
+; VI-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:104
 ; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:112
-; VI-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:108
-; VI-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:104
-; VI-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:100
-; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:128
-; VI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:124
-; VI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:120
-; VI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:116
-; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
+; VI-NEXT:    buffer_store_dwordx4 v[32:35], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:16
-; VI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:12
-; VI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:8
-; VI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:4
-; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; VI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:100
+; VI-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:128
+; VI-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:124
+; VI-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:120
+; VI-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:116
+; VI-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:80
+; VI-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:76
+; VI-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:72
+; VI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:68
+; VI-NEXT:    buffer_store_dwordx4 v[36:39], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:80
-; VI-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:76
-; VI-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:72
-; VI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:68
 ; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
+; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; VI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3963,9 +3594,16 @@ define void @void_func_v32i32_v16i32_v16f32(<32 x i32> %arg0, <16 x i32> %arg1,
 ; GFX9:       ; %bb.0:
 ; GFX9-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
+; GFX9-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:64
+; GFX9-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:60
+; GFX9-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:56
+; GFX9-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:52
 ; GFX9-NEXT:    s_mov_b32 s7, 0xf000
 ; GFX9-NEXT:    s_mov_b32 s6, -1
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
+; GFX9-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:48
+; GFX9-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:44
+; GFX9-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:40
+; GFX9-NEXT:    s_waitcnt vmcnt(7)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
@@ -3974,69 +3612,57 @@ define void @void_func_v32i32_v16i32_v16f32(<32 x i32> %arg0, <16 x i32> %arg1,
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:64
-; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:60
-; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:56
-; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:52
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:48
-; GFX9-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:44
-; GFX9-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:40
-; GFX9-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:36
+; GFX9-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:36
+; GFX9-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:32
+; GFX9-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:28
+; GFX9-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:24
+; GFX9-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:20
+; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:16
+; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
+; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:8
 ; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:32
-; GFX9-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:28
-; GFX9-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:24
-; GFX9-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:20
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
+; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:4
 ; GFX9-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:96
 ; GFX9-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:92
 ; GFX9-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:88
 ; GFX9-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:84
+; GFX9-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:112
+; GFX9-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:108
+; GFX9-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:104
 ; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:112
-; GFX9-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:108
-; GFX9-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:104
-; GFX9-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:100
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:128
-; GFX9-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:124
-; GFX9-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:120
-; GFX9-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:116
-; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:16
-; GFX9-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:12
-; GFX9-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:4
+; GFX9-NEXT:    buffer_store_dwordx4 v[32:35], off, s[4:7], 0
+; GFX9-NEXT:    s_waitcnt vmcnt(0)
+; GFX9-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:100
+; GFX9-NEXT:    buffer_load_dword v3, off, s[0:3], s32 offset:128
+; GFX9-NEXT:    buffer_load_dword v2, off, s[0:3], s32 offset:124
+; GFX9-NEXT:    buffer_load_dword v1, off, s[0:3], s32 offset:120
+; GFX9-NEXT:    buffer_load_dword v0, off, s[0:3], s32 offset:116
+; GFX9-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:80
+; GFX9-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:76
+; GFX9-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:72
+; GFX9-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:68
 ; GFX9-NEXT:    s_nop 0
-; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_dwordx4 v[36:39], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:80
-; GFX9-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:76
-; GFX9-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:72
-; GFX9-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:68
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
+; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_dwordx4 v[20:23], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -4323,7 +3949,14 @@ define void @void_func_v32i32_v16i8(<32 x i32> %arg0, <16 x i8> %arg1) #0 {
 ; CI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; CI-NEXT:    s_mov_b32 s7, 0xf000
 ; CI-NEXT:    s_mov_b32 s6, -1
-; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:60
+; CI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:64
+; CI-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:48
+; CI-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:52
+; CI-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:56
+; CI-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:36
+; CI-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:40
+; CI-NEXT:    s_waitcnt vmcnt(7)
 ; CI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
@@ -4332,61 +3965,54 @@ define void @void_func_v32i32_v16i8(<32 x i32> %arg0, <16 x i8> %arg1) #0 {
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:64
-; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:48
-; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:52
-; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:56
+; CI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:28
+; CI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:32
+; CI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:20
+; CI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:24
 ; CI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:36
-; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:40
-; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:44
-; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:28
+; CI-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:16
+; CI-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:12
+; CI-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:8
+; CI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:4
+; CI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:44
 ; CI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:32
-; CI-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:20
-; CI-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:24
-; CI-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:16
 ; CI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:12
-; CI-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:8
-; CI-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:4
-; CI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:60
 ; CI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v16, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v33, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v20, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v32, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v19, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v36, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v18, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v35, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v17, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v34, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v14, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v20, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v13, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v38, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v12, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v37, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v8, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v17, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v15, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v16, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v10, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v19, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v9, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v18, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v11, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v12, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v4, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v13, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v5, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v14, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    buffer_store_byte v6, off, s[4:7], 0
+; CI-NEXT:    buffer_store_byte v15, off, s[4:7], 0
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -4396,7 +4022,14 @@ define void @void_func_v32i32_v16i8(<32 x i32> %arg0, <16 x i8> %arg1) #0 {
 ; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; VI-NEXT:    s_mov_b32 s7, 0xf000
 ; VI-NEXT:    s_mov_b32 s6, -1
-; VI-NEXT:    s_waitcnt vmcnt(0)
+; VI-NEXT:    buffer_load_ubyte v32, off, s[0:3], s32 offset:60
+; VI-NEXT:    buffer_load_ubyte v33, off, s[0:3], s32 offset:64
+; VI-NEXT:    buffer_load_ubyte v34, off, s[0:3], s32 offset:48
+; VI-NEXT:    buffer_load_ubyte v35, off, s[0:3], s32 offset:52
+; VI-NEXT:    buffer_load_ubyte v36, off, s[0:3], s32 offset:56
+; VI-NEXT:    buffer_load_ubyte v37, off, s[0:3], s32 offset:36
+; VI-NEXT:    buffer_load_ubyte v38, off, s[0:3], s32 offset:40
+; VI-NEXT:    s_waitcnt vmcnt(7)
 ; VI-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
@@ -4405,61 +4038,54 @@ define void @void_func_v32i32_v16i8(<32 x i32> %arg0, <16 x i8> %arg1) #0 {
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_ubyte v16, off, s[0:3], s32 offset:64
-; VI-NEXT:    buffer_load_ubyte v17, off, s[0:3], s32 offset:48
-; VI-NEXT:    buffer_load_ubyte v18, off, s[0:3], s32 offset:52
-; VI-NEXT:    buffer_load_ubyte v19, off, s[0:3], s32 offset:56
+; VI-NEXT:    buffer_load_ubyte v16, off, s[0:3], s32 offset:28
+; VI-NEXT:    buffer_load_ubyte v17, off, s[0:3], s32 offset:32
+; VI-NEXT:    buffer_load_ubyte v18, off, s[0:3], s32 offset:20
+; VI-NEXT:    buffer_load_ubyte v19, off, s[0:3], s32 offset:24
 ; VI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_ubyte v12, off, s[0:3], s32 offset:36
-; VI-NEXT:    buffer_load_ubyte v13, off, s[0:3], s32 offset:40
-; VI-NEXT:    buffer_load_ubyte v14, off, s[0:3], s32 offset:44
-; VI-NEXT:    buffer_load_ubyte v15, off, s[0:3], s32 offset:28
+; VI-NEXT:    buffer_load_ubyte v12, off, s[0:3], s32 offset:16
+; VI-NEXT:    buffer_load_ubyte v13, off, s[0:3], s32 offset:12
+; VI-NEXT:    buffer_load_ubyte v14, off, s[0:3], s32 offset:8
+; VI-NEXT:    buffer_load_ubyte v15, off, s[0:3], s32 offset:4
+; VI-NEXT:    buffer_load_ubyte v20, off, s[0:3], s32 offset:44
 ; VI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_ubyte v8, off, s[0:3], s32 offset:32
-; VI-NEXT:    buffer_load_ubyte v9, off, s[0:3], s32 offset:20
-; VI-NEXT:    buffer_load_ubyte v10, off, s[0:3], s32 offset:24
-; VI-NEXT:    buffer_load_ubyte v11, off, s[0:3], s32 offset:16
 ; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_load_ubyte v4, off, s[0:3], s32 offset:12
-; VI-NEXT:    buffer_load_ubyte v5, off, s[0:3], s32 offset:8
-; VI-NEXT:    buffer_load_ubyte v6, off, s[0:3], s32 offset:4
-; VI-NEXT:    buffer_load_ubyte v20, off, s[0:3], s32 offset:60
 ; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v16, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v33, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v20, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v32, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v19, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v36, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v18, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v35, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v17, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v34, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v14, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v20, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v13, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v38, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v12, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v37, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v8, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v17, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v15, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v16, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v10, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v19, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v9, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v18, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v11, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v12, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v4, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v13, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v5, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v14, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    buffer_store_byte v6, off, s[4:7], 0
+; VI-NEXT:    buffer_store_byte v15, off, s[4:7], 0
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -4469,7 +4095,14 @@ define void @void_func_v32i32_v16i8(<32 x i32> %arg0, <16 x i8> %arg1) #0 {
 ; GFX9-NEXT:    buffer_load_dword v31, off, s[0:3], s32
 ; GFX9-NEXT:    s_mov_b32 s7, 0xf000
 ; GFX9-NEXT:    s_mov_b32 s6, -1
-; GFX9-NEXT:    s_waitcnt vmcnt(0)
+; GFX9-NEXT:    buffer_load_ubyte v32, off, s[0:3], s32 offset:60
+; GFX9-NEXT:    buffer_load_ubyte v33, off, s[0:3], s32 offset:64
+; GFX9-NEXT:    buffer_load_ubyte v34, off, s[0:3], s32 offset:48
+; GFX9-NEXT:    buffer_load_ubyte v35, off, s[0:3], s32 offset:52
+; GFX9-NEXT:    buffer_load_ubyte v36, off, s[0:3], s32 offset:56
+; GFX9-NEXT:    buffer_load_ubyte v37, off, s[0:3], s32 offset:36
+; GFX9-NEXT:    buffer_load_ubyte v38, off, s[0:3], s32 offset:40
+; GFX9-NEXT:    s_waitcnt vmcnt(7)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[28:31], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[24:27], off, s[4:7], 0
@@ -4478,65 +4111,56 @@ define void @void_func_v32i32_v16i8(<32 x i32> %arg0, <16 x i8> %arg1) #0 {
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    buffer_store_dwordx4 v[16:19], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_ubyte v16, off, s[0:3], s32 offset:64
-; GFX9-NEXT:    buffer_load_ubyte v17, off, s[0:3], s32 offset:48
-; GFX9-NEXT:    buffer_load_ubyte v18, off, s[0:3], s32 offset:52
-; GFX9-NEXT:    buffer_load_ubyte v19, off, s[0:3], s32 offset:56
-; GFX9-NEXT:    buffer_load_ubyte v20, off, s[0:3], s32 offset:60
+; GFX9-NEXT:    buffer_load_ubyte v16, off, s[0:3], s32 offset:28
+; GFX9-NEXT:    buffer_load_ubyte v17, off, s[0:3], s32 offset:32
+; GFX9-NEXT:    buffer_load_ubyte v18, off, s[0:3], s32 offset:20
+; GFX9-NEXT:    buffer_load_ubyte v19, off, s[0:3], s32 offset:24
+; GFX9-NEXT:    buffer_load_ubyte v20, off, s[0:3], s32 offset:44
 ; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[12:15], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_ubyte v12, off, s[0:3], s32 offset:36
-; GFX9-NEXT:    buffer_load_ubyte v13, off, s[0:3], s32 offset:40
-; GFX9-NEXT:    buffer_load_ubyte v14, off, s[0:3], s32 offset:44
-; GFX9-NEXT:    buffer_load_ubyte v15, off, s[0:3], s32 offset:28
+; GFX9-NEXT:    buffer_load_ubyte v12, off, s[0:3], s32 offset:16
+; GFX9-NEXT:    buffer_load_ubyte v13, off, s[0:3], s32 offset:12
+; GFX9-NEXT:    buffer_load_ubyte v14, off, s[0:3], s32 offset:8
+; GFX9-NEXT:    buffer_load_ubyte v15, off, s[0:3], s32 offset:4
 ; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[8:11], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_ubyte v8, off, s[0:3], s32 offset:32
-; GFX9-NEXT:    buffer_load_ubyte v9, off, s[0:3], s32 offset:20
-; GFX9-NEXT:    buffer_load_ubyte v10, off, s[0:3], s32 offset:24
-; GFX9-NEXT:    buffer_load_ubyte v11, off, s[0:3], s32 offset:16
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[4:7], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_load_ubyte v4, off, s[0:3], s32 offset:12
-; GFX9-NEXT:    buffer_load_ubyte v5, off, s[0:3], s32 offset:8
-; GFX9-NEXT:    buffer_load_ubyte v6, off, s[0:3], s32 offset:4
-; GFX9-NEXT:    s_nop 0
 ; GFX9-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v16, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v33, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v20, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v32, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v19, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v36, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v18, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v35, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v17, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v34, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v14, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v20, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v13, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v38, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v12, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v37, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v8, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v17, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v15, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v16, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v10, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v19, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v9, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v18, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v11, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v12, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v4, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v13, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v5, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v14, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    buffer_store_byte v6, off, s[4:7], 0
+; GFX9-NEXT:    buffer_store_byte v15, off, s[4:7], 0
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/function-returns.ll b/llvm/test/CodeGen/AMDGPU/function-returns.ll
index 401cbce00ac9a..ac9f56d1ee7b1 100644
--- a/llvm/test/CodeGen/AMDGPU/function-returns.ll
+++ b/llvm/test/CodeGen/AMDGPU/function-returns.ll
@@ -1497,8 +1497,8 @@ define <33 x i32> @v33i32_func_void() #0 {
 ; GFX9-NEXT:    buffer_load_dwordx4 v[1:4], off, s[4:7], 0 offset:112
 ; GFX9-NEXT:    buffer_load_dwordx4 v[5:8], off, s[4:7], 0 offset:96
 ; GFX9-NEXT:    buffer_load_dwordx4 v[9:12], off, s[4:7], 0 offset:80
-; GFX9-NEXT:    buffer_load_dword v33, off, s[4:7], 0 offset:128
 ; GFX9-NEXT:    buffer_load_dwordx4 v[13:16], off, s[4:7], 0 offset:64
+; GFX9-NEXT:    buffer_load_dword v33, off, s[4:7], 0 offset:128
 ; GFX9-NEXT:    buffer_load_dwordx4 v[17:20], off, s[4:7], 0 offset:48
 ; GFX9-NEXT:    buffer_load_dwordx4 v[21:24], off, s[4:7], 0 offset:32
 ; GFX9-NEXT:    buffer_load_dwordx4 v[25:28], off, s[4:7], 0 offset:16
@@ -1519,13 +1519,13 @@ define <33 x i32> @v33i32_func_void() #0 {
 ; GFX9-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:84
 ; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:80
 ; GFX9-NEXT:    s_waitcnt vmcnt(17)
-; GFX9-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen offset:128
-; GFX9-NEXT:    s_waitcnt vmcnt(17)
 ; GFX9-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:76
 ; GFX9-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:72
 ; GFX9-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:68
 ; GFX9-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:64
 ; GFX9-NEXT:    s_waitcnt vmcnt(20)
+; GFX9-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen offset:128
+; GFX9-NEXT:    s_waitcnt vmcnt(20)
 ; GFX9-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:60
 ; GFX9-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:56
 ; GFX9-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:52
@@ -1780,8 +1780,8 @@ define { <32 x i32>, i32 } @struct_v32i32_i32_func_void() #0 {
 ; GFX9-NEXT:    buffer_load_dwordx4 v[1:4], off, s[4:7], 0 offset:112
 ; GFX9-NEXT:    buffer_load_dwordx4 v[5:8], off, s[4:7], 0 offset:96
 ; GFX9-NEXT:    buffer_load_dwordx4 v[9:12], off, s[4:7], 0 offset:80
-; GFX9-NEXT:    buffer_load_dword v33, off, s[4:7], 0 offset:128
 ; GFX9-NEXT:    buffer_load_dwordx4 v[13:16], off, s[4:7], 0 offset:64
+; GFX9-NEXT:    buffer_load_dword v33, off, s[4:7], 0 offset:128
 ; GFX9-NEXT:    buffer_load_dwordx4 v[17:20], off, s[4:7], 0 offset:48
 ; GFX9-NEXT:    buffer_load_dwordx4 v[21:24], off, s[4:7], 0 offset:32
 ; GFX9-NEXT:    buffer_load_dwordx4 v[25:28], off, s[4:7], 0 offset:16
@@ -1802,13 +1802,13 @@ define { <32 x i32>, i32 } @struct_v32i32_i32_func_void() #0 {
 ; GFX9-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:84
 ; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:80
 ; GFX9-NEXT:    s_waitcnt vmcnt(17)
-; GFX9-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen offset:128
-; GFX9-NEXT:    s_waitcnt vmcnt(17)
 ; GFX9-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:76
 ; GFX9-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:72
 ; GFX9-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:68
 ; GFX9-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:64
 ; GFX9-NEXT:    s_waitcnt vmcnt(20)
+; GFX9-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen offset:128
+; GFX9-NEXT:    s_waitcnt vmcnt(20)
 ; GFX9-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:60
 ; GFX9-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:56
 ; GFX9-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:52
@@ -2063,8 +2063,8 @@ define { i32, <32 x i32> } @struct_i32_v32i32_func_void() #0 {
 ; GFX9-NEXT:    buffer_load_dwordx4 v[1:4], off, s[4:7], 0 offset:240
 ; GFX9-NEXT:    buffer_load_dwordx4 v[5:8], off, s[4:7], 0 offset:224
 ; GFX9-NEXT:    buffer_load_dwordx4 v[9:12], off, s[4:7], 0 offset:208
-; GFX9-NEXT:    buffer_load_dword v33, off, s[4:7], 0
 ; GFX9-NEXT:    buffer_load_dwordx4 v[13:16], off, s[4:7], 0 offset:192
+; GFX9-NEXT:    buffer_load_dword v33, off, s[4:7], 0
 ; GFX9-NEXT:    buffer_load_dwordx4 v[17:20], off, s[4:7], 0 offset:176
 ; GFX9-NEXT:    buffer_load_dwordx4 v[21:24], off, s[4:7], 0 offset:160
 ; GFX9-NEXT:    buffer_load_dwordx4 v[25:28], off, s[4:7], 0 offset:144
@@ -2085,13 +2085,13 @@ define { i32, <32 x i32> } @struct_i32_v32i32_func_void() #0 {
 ; GFX9-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:212
 ; GFX9-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:208
 ; GFX9-NEXT:    s_waitcnt vmcnt(17)
-; GFX9-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen
-; GFX9-NEXT:    s_waitcnt vmcnt(17)
 ; GFX9-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:204
 ; GFX9-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:200
 ; GFX9-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:196
 ; GFX9-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:192
 ; GFX9-NEXT:    s_waitcnt vmcnt(20)
+; GFX9-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen
+; GFX9-NEXT:    s_waitcnt vmcnt(20)
 ; GFX9-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:188
 ; GFX9-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:184
 ; GFX9-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:180
@@ -2616,21 +2616,21 @@ define <32 x bfloat> @v32bf16_func_void() #0 {
 ; CI-NEXT:    v_mov_b32_e32 v9, v1
 ; CI-NEXT:    v_mov_b32_e32 v10, v2
 ; CI-NEXT:    v_mov_b32_e32 v11, v3
-; CI-NEXT:    v_mov_b32_e32 v12, v4
-; CI-NEXT:    v_mov_b32_e32 v13, v5
-; CI-NEXT:    v_mov_b32_e32 v14, v6
 ; CI-NEXT:    v_mov_b32_e32 v16, v0
 ; CI-NEXT:    v_mov_b32_e32 v17, v1
 ; CI-NEXT:    v_mov_b32_e32 v18, v2
 ; CI-NEXT:    v_mov_b32_e32 v19, v3
-; CI-NEXT:    v_mov_b32_e32 v20, v4
-; CI-NEXT:    v_mov_b32_e32 v21, v5
 ; CI-NEXT:    v_mov_b32_e32 v24, v0
 ; CI-NEXT:    v_mov_b32_e32 v25, v1
 ; CI-NEXT:    v_mov_b32_e32 v26, v2
 ; CI-NEXT:    v_mov_b32_e32 v27, v3
+; CI-NEXT:    v_mov_b32_e32 v12, v4
+; CI-NEXT:    v_mov_b32_e32 v20, v4
 ; CI-NEXT:    v_mov_b32_e32 v28, v4
+; CI-NEXT:    v_mov_b32_e32 v13, v5
+; CI-NEXT:    v_mov_b32_e32 v21, v5
 ; CI-NEXT:    v_mov_b32_e32 v29, v5
+; CI-NEXT:    v_mov_b32_e32 v14, v6
 ; CI-NEXT:    v_mov_b32_e32 v22, v6
 ; CI-NEXT:    v_mov_b32_e32 v30, v6
 ; CI-NEXT:    v_mov_b32_e32 v15, v7
diff --git a/llvm/test/CodeGen/AMDGPU/gfx-callable-argument-types.ll b/llvm/test/CodeGen/AMDGPU/gfx-callable-argument-types.ll
index 545a9af3f9a0b..5ccbc85f46dd4 100644
--- a/llvm/test/CodeGen/AMDGPU/gfx-callable-argument-types.ll
+++ b/llvm/test/CodeGen/AMDGPU/gfx-callable-argument-types.ll
@@ -5227,19 +5227,19 @@ define amdgpu_gfx void @test_call_external_void_func_v32i8_ret() #0 {
 ; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v31
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v28, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_or_b32_sdwa v1, v30, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v3, 8, v27
+; GFX9-NEXT:    v_or_b32_sdwa v7, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX9-NEXT:    v_lshlrev_b16_e32 v2, 8, v25
+; GFX9-NEXT:    v_or_b32_sdwa v4, v26, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_or_b32_sdwa v3, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX9-NEXT:    v_lshlrev_b16_e32 v0, 8, v25
-; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v27
-; GFX9-NEXT:    v_or_b32_sdwa v0, v24, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX9-NEXT:    v_or_b32_sdwa v1, v26, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX9-NEXT:    v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_lshlrev_b16_e32 v0, 8, v21
 ; GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v23
+; GFX9-NEXT:    v_or_b32_sdwa v2, v24, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v20, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_or_b32_sdwa v1, v22, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_lshlrev_b16_e32 v13, 8, v13
 ; GFX9-NEXT:    v_lshlrev_b16_e32 v9, 8, v9
-; GFX9-NEXT:    v_or_b32_sdwa v7, v4, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX9-NEXT:    v_or_b32_sdwa v2, v2, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_or_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_lshlrev_b16_e32 v0, 8, v17
 ; GFX9-NEXT:    v_lshlrev_b16_e32 v4, 8, v19
diff --git a/llvm/test/CodeGen/AMDGPU/gfx-callable-return-types.ll b/llvm/test/CodeGen/AMDGPU/gfx-callable-return-types.ll
index 7d07641f455e3..c3ab9c23d1950 100644
--- a/llvm/test/CodeGen/AMDGPU/gfx-callable-return-types.ll
+++ b/llvm/test/CodeGen/AMDGPU/gfx-callable-return-types.ll
@@ -2379,140 +2379,128 @@ define amdgpu_gfx <72 x i32> @return_72xi32(<72 x i32> %val) #1 {
 ; GFX10-LABEL: return_72xi32:
 ; GFX10:       ; %bb.0:
 ; GFX10-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX10-NEXT:    buffer_store_dword v40, off, s[0:3], s32 offset:180 ; 4-byte Folded Spill
-; GFX10-NEXT:    buffer_store_dword v41, off, s[0:3], s32 offset:176 ; 4-byte Folded Spill
-; GFX10-NEXT:    buffer_store_dword v42, off, s[0:3], s32 offset:172 ; 4-byte Folded Spill
-; GFX10-NEXT:    buffer_store_dword v43, off, s[0:3], s32 offset:168 ; 4-byte Folded Spill
-; GFX10-NEXT:    buffer_store_dword v44, off, s[0:3], s32 offset:164 ; 4-byte Folded Spill
-; GFX10-NEXT:    s_clause 0x14
-; GFX10-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:128
-; GFX10-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:132
-; GFX10-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:136
-; GFX10-NEXT:    buffer_load_dword v49, off, s[0:3], s32 offset:140
-; GFX10-NEXT:    buffer_load_dword v52, off, s[0:3], s32 offset:144
-; GFX10-NEXT:    buffer_load_dword v54, off, s[0:3], s32 offset:148
-; GFX10-NEXT:    buffer_load_dword v55, off, s[0:3], s32 offset:152
-; GFX10-NEXT:    buffer_load_dword v40, off, s[0:3], s32 offset:156
-; GFX10-NEXT:    buffer_load_dword v41, off, s[0:3], s32 offset:160
-; GFX10-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:96
-; GFX10-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:100
-; GFX10-NEXT:    buffer_load_dword v48, off, s[0:3], s32 offset:104
-; GFX10-NEXT:    buffer_load_dword v51, off, s[0:3], s32 offset:108
-; GFX10-NEXT:    buffer_load_dword v53, off, s[0:3], s32 offset:112
-; GFX10-NEXT:    buffer_load_dword v42, off, s[0:3], s32 offset:116
-; GFX10-NEXT:    buffer_load_dword v43, off, s[0:3], s32 offset:120
-; GFX10-NEXT:    buffer_load_dword v44, off, s[0:3], s32 offset:124
-; GFX10-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:64
-; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:68
-; GFX10-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:72
-; GFX10-NEXT:    buffer_load_dword v50, off, s[0:3], s32 offset:76
+; GFX10-NEXT:    s_clause 0x7
+; GFX10-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:64
+; GFX10-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:68
+; GFX10-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:72
+; GFX10-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:76
+; GFX10-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:80
+; GFX10-NEXT:    buffer_load_dword v37, off, s[0:3], s32 offset:84
+; GFX10-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:88
+; GFX10-NEXT:    buffer_load_dword v39, off, s[0:3], s32 offset:92
 ; GFX10-NEXT:    buffer_store_dword v31, v0, s[0:3], 0 offen offset:120
-; GFX10-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:80
 ; GFX10-NEXT:    buffer_store_dword v30, v0, s[0:3], 0 offen offset:116
-; GFX10-NEXT:    buffer_load_dword v30, off, s[0:3], s32 offset:84
 ; GFX10-NEXT:    buffer_store_dword v29, v0, s[0:3], 0 offen offset:112
-; GFX10-NEXT:    buffer_load_dword v29, off, s[0:3], s32 offset:88
 ; GFX10-NEXT:    buffer_store_dword v28, v0, s[0:3], 0 offen offset:108
-; GFX10-NEXT:    buffer_load_dword v28, off, s[0:3], s32 offset:92
+; GFX10-NEXT:    s_clause 0x7
+; GFX10-NEXT:    buffer_load_dword v28, off, s[0:3], s32 offset:128
+; GFX10-NEXT:    buffer_load_dword v29, off, s[0:3], s32 offset:132
+; GFX10-NEXT:    buffer_load_dword v30, off, s[0:3], s32 offset:136
+; GFX10-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:140
+; GFX10-NEXT:    buffer_load_dword v48, off, s[0:3], s32 offset:144
+; GFX10-NEXT:    buffer_load_dword v49, off, s[0:3], s32 offset:148
+; GFX10-NEXT:    buffer_load_dword v50, off, s[0:3], s32 offset:152
+; GFX10-NEXT:    buffer_load_dword v51, off, s[0:3], s32 offset:156
 ; GFX10-NEXT:    buffer_store_dword v27, v0, s[0:3], 0 offen offset:104
-; GFX10-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:32
 ; GFX10-NEXT:    buffer_store_dword v26, v0, s[0:3], 0 offen offset:100
-; GFX10-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:36
 ; GFX10-NEXT:    buffer_store_dword v25, v0, s[0:3], 0 offen offset:96
-; GFX10-NEXT:    buffer_load_dword v25, off, s[0:3], s32 offset:40
 ; GFX10-NEXT:    buffer_store_dword v24, v0, s[0:3], 0 offen offset:92
-; GFX10-NEXT:    buffer_load_dword v24, off, s[0:3], s32 offset:44
 ; GFX10-NEXT:    buffer_store_dword v23, v0, s[0:3], 0 offen offset:88
-; GFX10-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:48
 ; GFX10-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:84
-; GFX10-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:52
 ; GFX10-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:80
-; GFX10-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:56
 ; GFX10-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:76
-; GFX10-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:60
 ; GFX10-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:72
-; GFX10-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:28
+; GFX10-NEXT:    s_clause 0x7
+; GFX10-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:96
+; GFX10-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:100
+; GFX10-NEXT:    buffer_load_dword v21, off, s[0:3], s32 offset:104
+; GFX10-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:108
+; GFX10-NEXT:    buffer_load_dword v23, off, s[0:3], s32 offset:112
+; GFX10-NEXT:    buffer_load_dword v24, off, s[0:3], s32 offset:116
+; GFX10-NEXT:    buffer_load_dword v25, off, s[0:3], s32 offset:120
+; GFX10-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:124
 ; GFX10-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:68
-; GFX10-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:12
 ; GFX10-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:64
-; GFX10-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:16
 ; GFX10-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:60
-; GFX10-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:20
 ; GFX10-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:56
-; GFX10-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:24
 ; GFX10-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:52
-; GFX10-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:4
 ; GFX10-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:48
-; GFX10-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:8
 ; GFX10-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:44
-; GFX10-NEXT:    buffer_load_dword v12, off, s[0:3], s32
 ; GFX10-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:40
+; GFX10-NEXT:    s_clause 0x7
+; GFX10-NEXT:    buffer_load_dword v11, off, s[0:3], s32 offset:32
+; GFX10-NEXT:    buffer_load_dword v12, off, s[0:3], s32 offset:36
+; GFX10-NEXT:    buffer_load_dword v13, off, s[0:3], s32 offset:40
+; GFX10-NEXT:    buffer_load_dword v14, off, s[0:3], s32 offset:44
+; GFX10-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:48
+; GFX10-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:52
+; GFX10-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:56
+; GFX10-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:60
 ; GFX10-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:36
 ; GFX10-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:32
 ; GFX10-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:28
 ; GFX10-NEXT:    buffer_store_dword v7, v0, s[0:3], 0 offen offset:24
 ; GFX10-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:20
+; GFX10-NEXT:    s_clause 0x3
+; GFX10-NEXT:    buffer_load_dword v6, off, s[0:3], s32 offset:12
+; GFX10-NEXT:    buffer_load_dword v7, off, s[0:3], s32 offset:16
+; GFX10-NEXT:    buffer_load_dword v8, off, s[0:3], s32 offset:20
+; GFX10-NEXT:    buffer_load_dword v9, off, s[0:3], s32 offset:24
 ; GFX10-NEXT:    buffer_store_dword v5, v0, s[0:3], 0 offen offset:16
 ; GFX10-NEXT:    buffer_store_dword v4, v0, s[0:3], 0 offen offset:12
+; GFX10-NEXT:    s_clause 0x3
+; GFX10-NEXT:    buffer_load_dword v4, off, s[0:3], s32 offset:4
+; GFX10-NEXT:    buffer_load_dword v5, off, s[0:3], s32 offset:8
+; GFX10-NEXT:    buffer_load_dword v27, off, s[0:3], s32 offset:160
+; GFX10-NEXT:    buffer_load_dword v10, off, s[0:3], s32 offset:28
 ; GFX10-NEXT:    buffer_store_dword v3, v0, s[0:3], 0 offen offset:8
+; GFX10-NEXT:    buffer_load_dword v3, off, s[0:3], s32
 ; GFX10-NEXT:    buffer_store_dword v2, v0, s[0:3], 0 offen offset:4
-; GFX10-NEXT:    s_waitcnt vmcnt(32)
-; GFX10-NEXT:    buffer_store_dword v41, v0, s[0:3], 0 offen offset:284
-; GFX10-NEXT:    buffer_store_dword v40, v0, s[0:3], 0 offen offset:280
-; GFX10-NEXT:    buffer_store_dword v55, v0, s[0:3], 0 offen offset:276
-; GFX10-NEXT:    buffer_store_dword v54, v0, s[0:3], 0 offen offset:272
-; GFX10-NEXT:    buffer_store_dword v52, v0, s[0:3], 0 offen offset:268
-; GFX10-NEXT:    buffer_store_dword v49, v0, s[0:3], 0 offen offset:264
-; GFX10-NEXT:    buffer_store_dword v38, v0, s[0:3], 0 offen offset:260
-; GFX10-NEXT:    buffer_store_dword v35, v0, s[0:3], 0 offen offset:256
-; GFX10-NEXT:    buffer_store_dword v32, v0, s[0:3], 0 offen offset:252
-; GFX10-NEXT:    s_waitcnt vmcnt(24)
-; GFX10-NEXT:    buffer_store_dword v44, v0, s[0:3], 0 offen offset:248
-; GFX10-NEXT:    buffer_store_dword v43, v0, s[0:3], 0 offen offset:244
-; GFX10-NEXT:    buffer_store_dword v42, v0, s[0:3], 0 offen offset:240
-; GFX10-NEXT:    buffer_store_dword v53, v0, s[0:3], 0 offen offset:236
-; GFX10-NEXT:    buffer_store_dword v51, v0, s[0:3], 0 offen offset:232
-; GFX10-NEXT:    buffer_store_dword v48, v0, s[0:3], 0 offen offset:228
-; GFX10-NEXT:    buffer_store_dword v37, v0, s[0:3], 0 offen offset:224
-; GFX10-NEXT:    buffer_store_dword v34, v0, s[0:3], 0 offen offset:220
-; GFX10-NEXT:    s_waitcnt vmcnt(16)
-; GFX10-NEXT:    buffer_store_dword v28, v0, s[0:3], 0 offen offset:216
-; GFX10-NEXT:    buffer_store_dword v29, v0, s[0:3], 0 offen offset:212
-; GFX10-NEXT:    buffer_store_dword v30, v0, s[0:3], 0 offen offset:208
-; GFX10-NEXT:    buffer_store_dword v31, v0, s[0:3], 0 offen offset:204
-; GFX10-NEXT:    buffer_store_dword v50, v0, s[0:3], 0 offen offset:200
-; GFX10-NEXT:    buffer_store_dword v39, v0, s[0:3], 0 offen offset:196
-; GFX10-NEXT:    buffer_store_dword v36, v0, s[0:3], 0 offen offset:192
-; GFX10-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen offset:188
-; GFX10-NEXT:    s_waitcnt vmcnt(8)
-; GFX10-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:184
-; GFX10-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:180
-; GFX10-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:176
-; GFX10-NEXT:    buffer_store_dword v23, v0, s[0:3], 0 offen offset:172
-; GFX10-NEXT:    buffer_store_dword v24, v0, s[0:3], 0 offen offset:168
-; GFX10-NEXT:    buffer_store_dword v25, v0, s[0:3], 0 offen offset:164
-; GFX10-NEXT:    buffer_store_dword v26, v0, s[0:3], 0 offen offset:160
-; GFX10-NEXT:    buffer_store_dword v27, v0, s[0:3], 0 offen offset:156
-; GFX10-NEXT:    s_waitcnt vmcnt(7)
-; GFX10-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:152
-; GFX10-NEXT:    s_waitcnt vmcnt(3)
-; GFX10-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:148
-; GFX10-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:144
-; GFX10-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:140
-; GFX10-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:136
+; GFX10-NEXT:    s_waitcnt vmcnt(2)
+; GFX10-NEXT:    buffer_store_dword v27, v0, s[0:3], 0 offen offset:284
+; GFX10-NEXT:    buffer_store_dword v51, v0, s[0:3], 0 offen offset:280
+; GFX10-NEXT:    buffer_store_dword v50, v0, s[0:3], 0 offen offset:276
+; GFX10-NEXT:    buffer_store_dword v49, v0, s[0:3], 0 offen offset:272
+; GFX10-NEXT:    buffer_store_dword v48, v0, s[0:3], 0 offen offset:268
+; GFX10-NEXT:    buffer_store_dword v31, v0, s[0:3], 0 offen offset:264
+; GFX10-NEXT:    buffer_store_dword v30, v0, s[0:3], 0 offen offset:260
+; GFX10-NEXT:    buffer_store_dword v29, v0, s[0:3], 0 offen offset:256
+; GFX10-NEXT:    buffer_store_dword v28, v0, s[0:3], 0 offen offset:252
+; GFX10-NEXT:    buffer_store_dword v26, v0, s[0:3], 0 offen offset:248
+; GFX10-NEXT:    buffer_store_dword v25, v0, s[0:3], 0 offen offset:244
+; GFX10-NEXT:    buffer_store_dword v24, v0, s[0:3], 0 offen offset:240
+; GFX10-NEXT:    buffer_store_dword v23, v0, s[0:3], 0 offen offset:236
+; GFX10-NEXT:    buffer_store_dword v22, v0, s[0:3], 0 offen offset:232
+; GFX10-NEXT:    buffer_store_dword v21, v0, s[0:3], 0 offen offset:228
+; GFX10-NEXT:    buffer_store_dword v20, v0, s[0:3], 0 offen offset:224
+; GFX10-NEXT:    buffer_store_dword v19, v0, s[0:3], 0 offen offset:220
+; GFX10-NEXT:    buffer_store_dword v39, v0, s[0:3], 0 offen offset:216
+; GFX10-NEXT:    buffer_store_dword v38, v0, s[0:3], 0 offen offset:212
+; GFX10-NEXT:    buffer_store_dword v37, v0, s[0:3], 0 offen offset:208
+; GFX10-NEXT:    buffer_store_dword v36, v0, s[0:3], 0 offen offset:204
+; GFX10-NEXT:    buffer_store_dword v35, v0, s[0:3], 0 offen offset:200
+; GFX10-NEXT:    buffer_store_dword v34, v0, s[0:3], 0 offen offset:196
+; GFX10-NEXT:    buffer_store_dword v33, v0, s[0:3], 0 offen offset:192
+; GFX10-NEXT:    buffer_store_dword v32, v0, s[0:3], 0 offen offset:188
+; GFX10-NEXT:    buffer_store_dword v18, v0, s[0:3], 0 offen offset:184
+; GFX10-NEXT:    buffer_store_dword v17, v0, s[0:3], 0 offen offset:180
+; GFX10-NEXT:    buffer_store_dword v16, v0, s[0:3], 0 offen offset:176
+; GFX10-NEXT:    buffer_store_dword v15, v0, s[0:3], 0 offen offset:172
+; GFX10-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:168
+; GFX10-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:164
+; GFX10-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:160
+; GFX10-NEXT:    buffer_store_dword v11, v0, s[0:3], 0 offen offset:156
 ; GFX10-NEXT:    s_waitcnt vmcnt(1)
-; GFX10-NEXT:    buffer_store_dword v13, v0, s[0:3], 0 offen offset:132
-; GFX10-NEXT:    buffer_store_dword v14, v0, s[0:3], 0 offen offset:128
+; GFX10-NEXT:    buffer_store_dword v10, v0, s[0:3], 0 offen offset:152
+; GFX10-NEXT:    buffer_store_dword v9, v0, s[0:3], 0 offen offset:148
+; GFX10-NEXT:    buffer_store_dword v8, v0, s[0:3], 0 offen offset:144
+; GFX10-NEXT:    buffer_store_dword v7, v0, s[0:3], 0 offen offset:140
+; GFX10-NEXT:    buffer_store_dword v6, v0, s[0:3], 0 offen offset:136
+; GFX10-NEXT:    buffer_store_dword v5, v0, s[0:3], 0 offen offset:132
+; GFX10-NEXT:    buffer_store_dword v4, v0, s[0:3], 0 offen offset:128
 ; GFX10-NEXT:    s_waitcnt vmcnt(0)
-; GFX10-NEXT:    buffer_store_dword v12, v0, s[0:3], 0 offen offset:124
+; GFX10-NEXT:    buffer_store_dword v3, v0, s[0:3], 0 offen offset:124
 ; GFX10-NEXT:    buffer_store_dword v1, v0, s[0:3], 0 offen
-; GFX10-NEXT:    s_clause 0x4
-; GFX10-NEXT:    buffer_load_dword v44, off, s[0:3], s32 offset:164
-; GFX10-NEXT:    buffer_load_dword v43, off, s[0:3], s32 offset:168
-; GFX10-NEXT:    buffer_load_dword v42, off, s[0:3], s32 offset:172
-; GFX10-NEXT:    buffer_load_dword v41, off, s[0:3], s32 offset:176
-; GFX10-NEXT:    buffer_load_dword v40, off, s[0:3], s32 offset:180
-; GFX10-NEXT:    s_waitcnt vmcnt(0)
 ; GFX10-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX11-LABEL: return_72xi32:
diff --git a/llvm/test/CodeGen/AMDGPU/global-atomicrmw-fadd.ll b/llvm/test/CodeGen/AMDGPU/global-atomicrmw-fadd.ll
index ec4ea232e661c..2be6bf302d35f 100644
--- a/llvm/test/CodeGen/AMDGPU/global-atomicrmw-fadd.ll
+++ b/llvm/test/CodeGen/AMDGPU/global-atomicrmw-fadd.ll
@@ -15403,8 +15403,10 @@ define <2 x half> @global_agent_atomic_fadd_ret_v2f16__amdgpu_no_fine_grained_me
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v3
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -15635,8 +15637,10 @@ define <2 x half> @global_agent_atomic_fadd_ret_v2f16__offset12b_pos__amdgpu_no_
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_add_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -15867,8 +15871,10 @@ define <2 x half> @global_agent_atomic_fadd_ret_v2f16__offset12b_neg__amdgpu_no_
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_add_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -16083,8 +16089,10 @@ define void @global_agent_atomic_fadd_noret_v2f16__amdgpu_no_fine_grained_memory
 ; GFX8-NEXT:  .LBB67_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -16293,8 +16301,10 @@ define void @global_agent_atomic_fadd_noret_v2f16__offset12b_pos__amdgpu_no_fine
 ; GFX8-NEXT:  .LBB68_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -16504,8 +16514,10 @@ define void @global_agent_atomic_fadd_noret_v2f16__offset12b_neg__amdgpu_no_fine
 ; GFX8-NEXT:  .LBB69_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -16744,8 +16756,10 @@ define <2 x half> @global_system_atomic_fadd_ret_v2f16__offset12b_pos__amdgpu_no
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_add_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_add_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -16961,8 +16975,10 @@ define void @global_system_atomic_fadd_noret_v2f16__offset12b_pos__amdgpu_no_fin
 ; GFX8-NEXT:  .LBB71_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -17202,8 +17218,10 @@ define <2 x half> @global_agent_atomic_fadd_ret_v2f16__amdgpu_no_remote_memory(p
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v3
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -17440,8 +17458,10 @@ define void @global_agent_atomic_fadd_noret_v2f16__amdgpu_no_remote_memory(ptr a
 ; GFX8-NEXT:  .LBB73_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -17666,8 +17686,10 @@ define <2 x half> @global_agent_atomic_fadd_ret_v2f16__amdgpu_no_fine_grained_me
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v3
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -17878,8 +17900,10 @@ define void @global_agent_atomic_fadd_noret_v2f16__amdgpu_no_fine_grained_memory
 ; GFX8-NEXT:  .LBB75_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -18118,8 +18142,10 @@ define <2 x half> @global_agent_atomic_fadd_ret_v2f16__maybe_remote(ptr addrspac
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v3
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -18356,8 +18382,10 @@ define void @global_agent_atomic_fadd_noret_v2f16__maybe_remote(ptr addrspace(1)
 ; GFX8-NEXT:  .LBB77_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
diff --git a/llvm/test/CodeGen/AMDGPU/global-atomicrmw-fsub.ll b/llvm/test/CodeGen/AMDGPU/global-atomicrmw-fsub.ll
index 3dbf6477a7cb8..24791b60bfc6d 100644
--- a/llvm/test/CodeGen/AMDGPU/global-atomicrmw-fsub.ll
+++ b/llvm/test/CodeGen/AMDGPU/global-atomicrmw-fsub.ll
@@ -12433,8 +12433,10 @@ define <2 x half> @global_agent_atomic_fsub_ret_v2f16(ptr addrspace(1) %ptr, <2
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v4, v3
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -12711,8 +12713,10 @@ define <2 x half> @global_agent_atomic_fsub_ret_v2f16__offset12b_pos(ptr addrspa
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_sub_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_sub_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -12989,8 +12993,10 @@ define <2 x half> @global_agent_atomic_fsub_ret_v2f16__offset12b_neg(ptr addrspa
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_sub_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_sub_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -13260,8 +13266,10 @@ define void @global_agent_atomic_fsub_noret_v2f16(ptr addrspace(1) %ptr, <2 x ha
 ; GFX8-NEXT:  .LBB45_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -13525,8 +13533,10 @@ define void @global_agent_atomic_fsub_noret_v2f16__offset12b_pos(ptr addrspace(1
 ; GFX8-NEXT:  .LBB46_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -13791,8 +13801,10 @@ define void @global_agent_atomic_fsub_noret_v2f16__offset12b_neg(ptr addrspace(1
 ; GFX8-NEXT:  .LBB47_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -14077,8 +14089,10 @@ define <2 x half> @global_system_atomic_fsub_ret_v2f16__offset12b_pos(ptr addrsp
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v1, v0
-; GFX8-NEXT:    v_sub_f16_sdwa v0, v1, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v0, 16, v1
+; GFX8-NEXT:    v_sub_f16_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v1, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GFX8-NEXT:    v_or_b32_e32 v0, v5, v0
 ; GFX8-NEXT:    flat_atomic_cmpswap v0, v[3:4], v[0:1] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
@@ -14349,8 +14363,10 @@ define void @global_system_atomic_fsub_noret_v2f16__offset12b_pos(ptr addrspace(
 ; GFX8-NEXT:  .LBB49_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v4, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v4
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v5, v4, v2
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v5, v3
 ; GFX8-NEXT:    flat_atomic_cmpswap v3, v[0:1], v[3:4] glc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
diff --git a/llvm/test/CodeGen/AMDGPU/half.ll b/llvm/test/CodeGen/AMDGPU/half.ll
index fbb54893d9b2a..a2fca33af1046 100644
--- a/llvm/test/CodeGen/AMDGPU/half.ll
+++ b/llvm/test/CodeGen/AMDGPU/half.ll
@@ -1253,57 +1253,57 @@ define amdgpu_kernel void @global_extload_v16f16_to_v16f32(ptr addrspace(1) %out
 ; CI-NEXT:    s_load_dwordx4 s[0:3], s[8:9], 0x0
 ; CI-NEXT:    s_waitcnt lgkmcnt(0)
 ; CI-NEXT:    s_add_u32 s4, s2, 16
+; CI-NEXT:    v_mov_b32_e32 v5, s3
 ; CI-NEXT:    s_addc_u32 s5, s3, 0
 ; CI-NEXT:    v_mov_b32_e32 v0, s4
-; CI-NEXT:    v_mov_b32_e32 v5, s3
-; CI-NEXT:    v_mov_b32_e32 v1, s5
 ; CI-NEXT:    v_mov_b32_e32 v4, s2
+; CI-NEXT:    v_mov_b32_e32 v1, s5
 ; CI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
 ; CI-NEXT:    flat_load_dwordx4 v[4:7], v[4:5]
 ; CI-NEXT:    s_add_u32 s2, s0, 16
 ; CI-NEXT:    s_addc_u32 s3, s1, 0
+; CI-NEXT:    v_mov_b32_e32 v14, s3
+; CI-NEXT:    v_mov_b32_e32 v13, s2
+; CI-NEXT:    s_add_u32 s2, s0, 48
+; CI-NEXT:    s_addc_u32 s3, s1, 0
 ; CI-NEXT:    s_waitcnt vmcnt(1)
-; CI-NEXT:    v_cvt_f32_f16_e32 v14, v3
+; CI-NEXT:    v_cvt_f32_f16_e32 v8, v1
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_cvt_f32_f16_e32 v18, v7
-; CI-NEXT:    v_cvt_f32_f16_e32 v16, v6
-; CI-NEXT:    v_lshrrev_b32_e32 v19, 16, v7
-; CI-NEXT:    v_lshrrev_b32_e32 v25, 16, v6
-; CI-NEXT:    v_mov_b32_e32 v7, s3
-; CI-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
-; CI-NEXT:    v_lshrrev_b32_e32 v17, 16, v5
-; CI-NEXT:    v_mov_b32_e32 v6, s2
-; CI-NEXT:    s_add_u32 s2, s0, 48
-; CI-NEXT:    v_cvt_f32_f16_e32 v10, v1
-; CI-NEXT:    v_cvt_f32_f16_e32 v8, v0
+; CI-NEXT:    v_cvt_f32_f16_e32 v11, v7
+; CI-NEXT:    v_cvt_f32_f16_e32 v9, v6
+; CI-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; CI-NEXT:    v_lshrrev_b32_e32 v6, 16, v6
+; CI-NEXT:    v_cvt_f32_f16_e32 v12, v7
+; CI-NEXT:    v_cvt_f32_f16_e32 v10, v6
 ; CI-NEXT:    v_lshrrev_b32_e32 v1, 16, v1
-; CI-NEXT:    v_lshrrev_b32_e32 v9, 16, v0
-; CI-NEXT:    v_cvt_f32_f16_e32 v12, v2
-; CI-NEXT:    v_lshrrev_b32_e32 v13, 16, v2
+; CI-NEXT:    v_lshrrev_b32_e32 v16, 16, v5
+; CI-NEXT:    v_lshrrev_b32_e32 v17, 16, v4
+; CI-NEXT:    flat_store_dwordx4 v[13:14], v[9:12]
+; CI-NEXT:    v_cvt_f32_f16_e32 v6, v0
+; CI-NEXT:    v_cvt_f32_f16_e32 v12, v3
+; CI-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
+; CI-NEXT:    v_lshrrev_b32_e32 v7, 16, v0
+; CI-NEXT:    v_cvt_f32_f16_e32 v10, v2
+; CI-NEXT:    v_lshrrev_b32_e32 v11, 16, v2
 ; CI-NEXT:    v_cvt_f32_f16_e32 v2, v5
 ; CI-NEXT:    v_cvt_f32_f16_e32 v0, v4
-; CI-NEXT:    v_lshrrev_b32_e32 v24, 16, v4
 ; CI-NEXT:    v_mov_b32_e32 v5, s1
-; CI-NEXT:    s_addc_u32 s3, s1, 0
-; CI-NEXT:    v_cvt_f32_f16_e32 v15, v3
-; CI-NEXT:    v_cvt_f32_f16_e32 v3, v17
-; CI-NEXT:    v_cvt_f32_f16_e32 v19, v19
-; CI-NEXT:    v_cvt_f32_f16_e32 v17, v25
+; CI-NEXT:    v_cvt_f32_f16_e32 v9, v1
+; CI-NEXT:    v_cvt_f32_f16_e32 v13, v3
+; CI-NEXT:    v_cvt_f32_f16_e32 v3, v16
+; CI-NEXT:    v_cvt_f32_f16_e32 v1, v17
 ; CI-NEXT:    v_mov_b32_e32 v4, s0
-; CI-NEXT:    v_cvt_f32_f16_e32 v11, v1
 ; CI-NEXT:    s_add_u32 s0, s0, 32
-; CI-NEXT:    v_cvt_f32_f16_e32 v1, v24
+; CI-NEXT:    v_cvt_f32_f16_e32 v11, v11
 ; CI-NEXT:    s_addc_u32 s1, s1, 0
-; CI-NEXT:    v_cvt_f32_f16_e32 v13, v13
-; CI-NEXT:    v_mov_b32_e32 v21, s3
-; CI-NEXT:    v_mov_b32_e32 v23, s1
-; CI-NEXT:    v_cvt_f32_f16_e32 v9, v9
-; CI-NEXT:    v_mov_b32_e32 v20, s2
-; CI-NEXT:    v_mov_b32_e32 v22, s0
-; CI-NEXT:    flat_store_dwordx4 v[6:7], v[16:19]
+; CI-NEXT:    v_cvt_f32_f16_e32 v7, v7
+; CI-NEXT:    v_mov_b32_e32 v15, s3
+; CI-NEXT:    v_mov_b32_e32 v17, s1
+; CI-NEXT:    v_mov_b32_e32 v14, s2
+; CI-NEXT:    v_mov_b32_e32 v16, s0
 ; CI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; CI-NEXT:    flat_store_dwordx4 v[20:21], v[12:15]
-; CI-NEXT:    flat_store_dwordx4 v[22:23], v[8:11]
+; CI-NEXT:    flat_store_dwordx4 v[14:15], v[10:13]
+; CI-NEXT:    flat_store_dwordx4 v[16:17], v[6:9]
 ; CI-NEXT:    s_endpgm
 ;
 ; VI-LABEL: global_extload_v16f16_to_v16f32:
@@ -1312,26 +1312,24 @@ define amdgpu_kernel void @global_extload_v16f16_to_v16f32(ptr addrspace(1) %out
 ; VI-NEXT:    s_waitcnt lgkmcnt(0)
 ; VI-NEXT:    v_mov_b32_e32 v0, s2
 ; VI-NEXT:    v_mov_b32_e32 v1, s3
+; VI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
 ; VI-NEXT:    s_add_u32 s2, s2, 16
 ; VI-NEXT:    s_addc_u32 s3, s3, 0
-; VI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
 ; VI-NEXT:    v_mov_b32_e32 v5, s3
 ; VI-NEXT:    v_mov_b32_e32 v4, s2
 ; VI-NEXT:    flat_load_dwordx4 v[4:7], v[4:5]
 ; VI-NEXT:    s_add_u32 s2, s0, 16
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v23, s3
-; VI-NEXT:    v_mov_b32_e32 v22, s2
+; VI-NEXT:    v_mov_b32_e32 v19, s3
+; VI-NEXT:    v_mov_b32_e32 v18, s2
 ; VI-NEXT:    s_add_u32 s2, s0, 48
-; VI-NEXT:    v_mov_b32_e32 v21, s1
+; VI-NEXT:    v_mov_b32_e32 v17, s1
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v20, s0
+; VI-NEXT:    v_mov_b32_e32 v16, s0
 ; VI-NEXT:    s_add_u32 s0, s0, 32
 ; VI-NEXT:    s_addc_u32 s1, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v25, s3
-; VI-NEXT:    v_mov_b32_e32 v27, s1
-; VI-NEXT:    v_mov_b32_e32 v24, s2
-; VI-NEXT:    v_mov_b32_e32 v26, s0
+; VI-NEXT:    v_mov_b32_e32 v21, s3
+; VI-NEXT:    v_mov_b32_e32 v20, s2
 ; VI-NEXT:    s_waitcnt vmcnt(1)
 ; VI-NEXT:    v_cvt_f32_f16_e32 v14, v3
 ; VI-NEXT:    v_cvt_f32_f16_e32 v12, v2
@@ -1341,19 +1339,21 @@ define amdgpu_kernel void @global_extload_v16f16_to_v16f32(ptr addrspace(1) %out
 ; VI-NEXT:    v_cvt_f32_f16_e32 v8, v0
 ; VI-NEXT:    v_cvt_f32_f16_sdwa v11, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
 ; VI-NEXT:    v_cvt_f32_f16_sdwa v9, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    v_cvt_f32_f16_e32 v18, v7
-; VI-NEXT:    v_cvt_f32_f16_e32 v16, v6
-; VI-NEXT:    v_cvt_f32_f16_sdwa v19, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f32_f16_sdwa v17, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    flat_store_dwordx4 v[18:19], v[12:15]
+; VI-NEXT:    s_waitcnt vmcnt(1)
 ; VI-NEXT:    v_cvt_f32_f16_e32 v2, v5
+; VI-NEXT:    v_cvt_f32_f16_e32 v14, v7
+; VI-NEXT:    v_cvt_f32_f16_e32 v12, v6
+; VI-NEXT:    v_cvt_f32_f16_sdwa v15, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f32_f16_sdwa v13, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
 ; VI-NEXT:    v_cvt_f32_f16_e32 v0, v4
 ; VI-NEXT:    v_cvt_f32_f16_sdwa v3, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
 ; VI-NEXT:    v_cvt_f32_f16_sdwa v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    flat_store_dwordx4 v[22:23], v[12:15]
-; VI-NEXT:    flat_store_dwordx4 v[20:21], v[8:11]
-; VI-NEXT:    flat_store_dwordx4 v[24:25], v[16:19]
-; VI-NEXT:    flat_store_dwordx4 v[26:27], v[0:3]
+; VI-NEXT:    v_mov_b32_e32 v5, s1
+; VI-NEXT:    v_mov_b32_e32 v4, s0
+; VI-NEXT:    flat_store_dwordx4 v[16:17], v[8:11]
+; VI-NEXT:    flat_store_dwordx4 v[20:21], v[12:15]
+; VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; VI-NEXT:    s_endpgm
 ;
 ; GFX11-LABEL: global_extload_v16f16_to_v16f32:
@@ -1665,43 +1665,43 @@ define amdgpu_kernel void @global_extload_v8f16_to_v8f64(ptr addrspace(1) %out,
 ; CI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
 ; CI-NEXT:    s_add_u32 s2, s0, 48
 ; CI-NEXT:    s_addc_u32 s3, s1, 0
-; CI-NEXT:    v_mov_b32_e32 v19, s3
-; CI-NEXT:    v_mov_b32_e32 v18, s2
+; CI-NEXT:    v_mov_b32_e32 v7, s3
+; CI-NEXT:    v_mov_b32_e32 v6, s2
 ; CI-NEXT:    s_add_u32 s2, s0, 32
-; CI-NEXT:    v_mov_b32_e32 v17, s1
+; CI-NEXT:    v_mov_b32_e32 v13, s1
 ; CI-NEXT:    s_addc_u32 s3, s1, 0
-; CI-NEXT:    v_mov_b32_e32 v16, s0
+; CI-NEXT:    v_mov_b32_e32 v12, s0
 ; CI-NEXT:    s_add_u32 s0, s0, 16
+; CI-NEXT:    v_mov_b32_e32 v15, s3
 ; CI-NEXT:    s_addc_u32 s1, s1, 0
-; CI-NEXT:    v_mov_b32_e32 v21, s3
-; CI-NEXT:    v_mov_b32_e32 v23, s1
-; CI-NEXT:    v_mov_b32_e32 v20, s2
-; CI-NEXT:    v_mov_b32_e32 v22, s0
+; CI-NEXT:    v_mov_b32_e32 v14, s2
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    v_lshrrev_b32_e32 v4, 16, v3
 ; CI-NEXT:    v_cvt_f32_f16_e32 v3, v3
 ; CI-NEXT:    v_lshrrev_b32_e32 v5, 16, v2
-; CI-NEXT:    v_cvt_f32_f16_e32 v10, v4
-; CI-NEXT:    v_cvt_f32_f16_e32 v2, v2
-; CI-NEXT:    v_lshrrev_b32_e32 v6, 16, v1
-; CI-NEXT:    v_cvt_f32_f16_e32 v11, v5
-; CI-NEXT:    v_cvt_f32_f16_e32 v7, v1
-; CI-NEXT:    v_lshrrev_b32_e32 v1, 16, v0
-; CI-NEXT:    v_cvt_f32_f16_e32 v6, v6
-; CI-NEXT:    v_cvt_f32_f16_e32 v0, v0
-; CI-NEXT:    v_cvt_f32_f16_e32 v24, v1
-; CI-NEXT:    v_cvt_f64_f32_e32 v[12:13], v3
-; CI-NEXT:    v_cvt_f64_f32_e32 v[14:15], v10
-; CI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v2
-; CI-NEXT:    v_cvt_f64_f32_e32 v[10:11], v11
-; CI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v7
-; CI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v6
-; CI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v0
-; CI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v24
-; CI-NEXT:    flat_store_dwordx4 v[18:19], v[12:15]
-; CI-NEXT:    flat_store_dwordx4 v[20:21], v[8:11]
-; CI-NEXT:    flat_store_dwordx4 v[22:23], v[4:7]
+; CI-NEXT:    v_cvt_f32_f16_e32 v8, v2
+; CI-NEXT:    v_cvt_f32_f16_e32 v2, v4
+; CI-NEXT:    v_lshrrev_b32_e32 v9, 16, v1
+; CI-NEXT:    v_cvt_f32_f16_e32 v10, v1
+; CI-NEXT:    v_lshrrev_b32_e32 v11, 16, v0
+; CI-NEXT:    v_cvt_f32_f16_e32 v4, v0
+; CI-NEXT:    v_cvt_f32_f16_e32 v16, v5
+; CI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v3
+; CI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v2
+; CI-NEXT:    v_cvt_f32_f16_e32 v17, v9
+; CI-NEXT:    v_cvt_f32_f16_e32 v18, v11
+; CI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v8
+; CI-NEXT:    flat_store_dwordx4 v[6:7], v[0:3]
+; CI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v4
+; CI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v10
+; CI-NEXT:    v_cvt_f64_f32_e32 v[10:11], v16
+; CI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v17
+; CI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v18
+; CI-NEXT:    v_mov_b32_e32 v17, s1
+; CI-NEXT:    v_mov_b32_e32 v16, s0
+; CI-NEXT:    flat_store_dwordx4 v[14:15], v[8:11]
 ; CI-NEXT:    flat_store_dwordx4 v[16:17], v[0:3]
+; CI-NEXT:    flat_store_dwordx4 v[12:13], v[4:7]
 ; CI-NEXT:    s_endpgm
 ;
 ; VI-LABEL: global_extload_v8f16_to_v8f64:
@@ -1713,39 +1713,39 @@ define amdgpu_kernel void @global_extload_v8f16_to_v8f64(ptr addrspace(1) %out,
 ; VI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
 ; VI-NEXT:    s_add_u32 s2, s0, 48
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v19, s3
-; VI-NEXT:    v_mov_b32_e32 v18, s2
+; VI-NEXT:    v_mov_b32_e32 v8, s3
+; VI-NEXT:    v_mov_b32_e32 v7, s2
 ; VI-NEXT:    s_add_u32 s2, s0, 32
-; VI-NEXT:    v_mov_b32_e32 v17, s1
+; VI-NEXT:    v_mov_b32_e32 v13, s1
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v16, s0
+; VI-NEXT:    v_mov_b32_e32 v12, s0
 ; VI-NEXT:    s_add_u32 s0, s0, 16
+; VI-NEXT:    v_mov_b32_e32 v15, s3
 ; VI-NEXT:    s_addc_u32 s1, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v21, s3
-; VI-NEXT:    v_mov_b32_e32 v23, s1
-; VI-NEXT:    v_mov_b32_e32 v20, s2
-; VI-NEXT:    v_mov_b32_e32 v22, s0
+; VI-NEXT:    v_mov_b32_e32 v14, s2
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    v_cvt_f32_f16_e32 v10, v3
-; VI-NEXT:    v_cvt_f32_f16_sdwa v3, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f32_f16_e32 v7, v2
+; VI-NEXT:    v_cvt_f32_f16_e32 v9, v0
+; VI-NEXT:    v_cvt_f32_f16_sdwa v16, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f32_f16_e32 v0, v3
+; VI-NEXT:    v_cvt_f32_f16_sdwa v5, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f32_f16_e32 v10, v1
+; VI-NEXT:    v_cvt_f32_f16_e32 v11, v2
+; VI-NEXT:    v_cvt_f64_f32_e32 v[3:4], v0
+; VI-NEXT:    v_cvt_f64_f32_e32 v[5:6], v5
 ; VI-NEXT:    v_cvt_f32_f16_sdwa v2, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f32_f16_e32 v4, v0
-; VI-NEXT:    v_cvt_f32_f16_e32 v5, v1
-; VI-NEXT:    v_cvt_f32_f16_sdwa v6, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f32_f16_sdwa v24, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f64_f32_e32 v[12:13], v10
-; VI-NEXT:    v_cvt_f64_f32_e32 v[14:15], v3
-; VI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v7
+; VI-NEXT:    v_cvt_f32_f16_sdwa v17, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v9
+; VI-NEXT:    flat_store_dwordx4 v[7:8], v[3:6]
+; VI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v11
+; VI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v10
 ; VI-NEXT:    v_cvt_f64_f32_e32 v[10:11], v2
-; VI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v4
-; VI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v5
-; VI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v6
-; VI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v24
-; VI-NEXT:    flat_store_dwordx4 v[18:19], v[12:15]
-; VI-NEXT:    flat_store_dwordx4 v[20:21], v[8:11]
-; VI-NEXT:    flat_store_dwordx4 v[22:23], v[4:7]
-; VI-NEXT:    flat_store_dwordx4 v[16:17], v[0:3]
+; VI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v17
+; VI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v16
+; VI-NEXT:    v_mov_b32_e32 v17, s1
+; VI-NEXT:    v_mov_b32_e32 v16, s0
+; VI-NEXT:    flat_store_dwordx4 v[14:15], v[8:11]
+; VI-NEXT:    flat_store_dwordx4 v[16:17], v[4:7]
+; VI-NEXT:    flat_store_dwordx4 v[12:13], v[0:3]
 ; VI-NEXT:    s_endpgm
 ;
 ; GFX11-LABEL: global_extload_v8f16_to_v8f64:
@@ -1794,92 +1794,91 @@ define amdgpu_kernel void @global_extload_v16f16_to_v16f64(ptr addrspace(1) %out
 ; CI-NEXT:    s_waitcnt lgkmcnt(0)
 ; CI-NEXT:    v_mov_b32_e32 v0, s2
 ; CI-NEXT:    v_mov_b32_e32 v1, s3
-; CI-NEXT:    flat_load_dwordx4 v[4:7], v[0:1]
+; CI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
 ; CI-NEXT:    s_add_u32 s2, s2, 16
 ; CI-NEXT:    s_addc_u32 s3, s3, 0
-; CI-NEXT:    v_mov_b32_e32 v0, s2
-; CI-NEXT:    v_mov_b32_e32 v1, s3
-; CI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
+; CI-NEXT:    v_mov_b32_e32 v5, s3
+; CI-NEXT:    v_mov_b32_e32 v4, s2
+; CI-NEXT:    flat_load_dwordx4 v[4:7], v[4:5]
 ; CI-NEXT:    s_add_u32 s2, s0, 48
 ; CI-NEXT:    s_addc_u32 s3, s1, 0
-; CI-NEXT:    v_mov_b32_e32 v14, s3
-; CI-NEXT:    v_mov_b32_e32 v13, s2
+; CI-NEXT:    v_mov_b32_e32 v15, s3
+; CI-NEXT:    v_mov_b32_e32 v14, s2
 ; CI-NEXT:    s_add_u32 s2, s0, 32
 ; CI-NEXT:    s_addc_u32 s3, s1, 0
-; CI-NEXT:    v_mov_b32_e32 v16, s3
-; CI-NEXT:    v_mov_b32_e32 v15, s2
+; CI-NEXT:    v_mov_b32_e32 v17, s3
+; CI-NEXT:    v_mov_b32_e32 v16, s2
 ; CI-NEXT:    s_add_u32 s2, s0, 16
 ; CI-NEXT:    s_addc_u32 s3, s1, 0
-; CI-NEXT:    v_mov_b32_e32 v18, s3
-; CI-NEXT:    v_mov_b32_e32 v17, s2
+; CI-NEXT:    v_mov_b32_e32 v19, s3
+; CI-NEXT:    v_mov_b32_e32 v18, s2
 ; CI-NEXT:    s_add_u32 s2, s0, 0x70
 ; CI-NEXT:    s_addc_u32 s3, s1, 0
-; CI-NEXT:    v_mov_b32_e32 v12, s1
-; CI-NEXT:    v_mov_b32_e32 v11, s0
+; CI-NEXT:    v_mov_b32_e32 v13, s1
+; CI-NEXT:    v_mov_b32_e32 v12, s0
 ; CI-NEXT:    s_waitcnt vmcnt(1)
-; CI-NEXT:    v_lshrrev_b32_e32 v8, 16, v7
-; CI-NEXT:    v_cvt_f32_f16_e32 v7, v7
-; CI-NEXT:    v_cvt_f32_f16_e32 v9, v8
-; CI-NEXT:    v_lshrrev_b32_e32 v19, 16, v6
-; CI-NEXT:    v_cvt_f32_f16_e32 v6, v6
-; CI-NEXT:    v_cvt_f64_f32_e32 v[7:8], v7
-; CI-NEXT:    v_cvt_f64_f32_e32 v[9:10], v9
+; CI-NEXT:    v_lshrrev_b32_e32 v8, 16, v3
+; CI-NEXT:    v_cvt_f32_f16_e32 v3, v3
+; CI-NEXT:    v_cvt_f32_f16_e32 v10, v8
 ; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_cvt_f32_f16_e32 v21, v0
-; CI-NEXT:    flat_store_dwordx4 v[13:14], v[7:10]
-; CI-NEXT:    s_nop 0
-; CI-NEXT:    v_cvt_f32_f16_e32 v8, v19
-; CI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v6
-; CI-NEXT:    v_lshrrev_b32_e32 v10, 16, v3
-; CI-NEXT:    v_mov_b32_e32 v14, s3
-; CI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v8
-; CI-NEXT:    v_mov_b32_e32 v13, s2
-; CI-NEXT:    s_add_u32 s2, s0, 0x60
-; CI-NEXT:    s_addc_u32 s3, s1, 0
-; CI-NEXT:    flat_store_dwordx4 v[15:16], v[6:9]
-; CI-NEXT:    v_mov_b32_e32 v16, s3
-; CI-NEXT:    v_lshrrev_b32_e32 v6, 16, v5
-; CI-NEXT:    v_cvt_f32_f16_e32 v5, v5
-; CI-NEXT:    v_cvt_f32_f16_e32 v6, v6
-; CI-NEXT:    v_lshrrev_b32_e32 v8, 16, v4
-; CI-NEXT:    v_cvt_f32_f16_e32 v9, v4
-; CI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v5
-; CI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v6
+; CI-NEXT:    v_lshrrev_b32_e32 v20, 16, v5
+; CI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v3
+; CI-NEXT:    v_lshrrev_b32_e32 v3, 16, v2
+; CI-NEXT:    v_cvt_f64_f32_e32 v[10:11], v10
+; CI-NEXT:    v_cvt_f32_f16_e32 v2, v2
+; CI-NEXT:    v_cvt_f32_f16_e32 v3, v3
+; CI-NEXT:    v_cvt_f32_f16_e32 v21, v5
+; CI-NEXT:    flat_store_dwordx4 v[14:15], v[8:11]
+; CI-NEXT:    v_mov_b32_e32 v15, s3
+; CI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v2
+; CI-NEXT:    v_cvt_f64_f32_e32 v[10:11], v3
+; CI-NEXT:    v_lshrrev_b32_e32 v2, 16, v1
+; CI-NEXT:    v_cvt_f32_f16_e32 v1, v1
+; CI-NEXT:    v_cvt_f32_f16_e32 v2, v2
+; CI-NEXT:    flat_store_dwordx4 v[16:17], v[8:11]
+; CI-NEXT:    v_mov_b32_e32 v14, s2
+; CI-NEXT:    v_lshrrev_b32_e32 v8, 16, v0
+; CI-NEXT:    v_cvt_f32_f16_e32 v9, v0
+; CI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v1
+; CI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v2
 ; CI-NEXT:    v_cvt_f32_f16_e32 v8, v8
-; CI-NEXT:    v_mov_b32_e32 v15, s2
-; CI-NEXT:    s_add_u32 s2, s0, 0x50
-; CI-NEXT:    flat_store_dwordx4 v[17:18], v[4:7]
-; CI-NEXT:    v_cvt_f32_f16_e32 v17, v1
-; CI-NEXT:    v_cvt_f32_f16_e32 v4, v3
-; CI-NEXT:    v_lshrrev_b32_e32 v5, 16, v2
-; CI-NEXT:    v_cvt_f32_f16_e32 v6, v2
-; CI-NEXT:    v_lshrrev_b32_e32 v7, 16, v1
-; CI-NEXT:    v_lshrrev_b32_e32 v18, 16, v0
+; CI-NEXT:    v_lshrrev_b32_e32 v10, 16, v7
+; CI-NEXT:    v_cvt_f32_f16_e32 v7, v7
+; CI-NEXT:    flat_store_dwordx4 v[18:19], v[0:3]
+; CI-NEXT:    v_lshrrev_b32_e32 v11, 16, v6
 ; CI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v9
 ; CI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v8
 ; CI-NEXT:    v_cvt_f32_f16_e32 v8, v10
-; CI-NEXT:    v_cvt_f32_f16_e32 v10, v5
-; CI-NEXT:    v_cvt_f32_f16_e32 v7, v7
-; CI-NEXT:    flat_store_dwordx4 v[11:12], v[0:3]
-; CI-NEXT:    v_cvt_f32_f16_e32 v12, v18
-; CI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v4
+; CI-NEXT:    s_add_u32 s2, s0, 0x60
+; CI-NEXT:    v_cvt_f32_f16_e32 v6, v6
+; CI-NEXT:    v_cvt_f32_f16_e32 v10, v11
+; CI-NEXT:    s_addc_u32 s3, s1, 0
+; CI-NEXT:    v_lshrrev_b32_e32 v5, 16, v4
+; CI-NEXT:    flat_store_dwordx4 v[12:13], v[0:3]
+; CI-NEXT:    v_mov_b32_e32 v17, s3
+; CI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v7
 ; CI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v8
+; CI-NEXT:    v_cvt_f32_f16_e32 v7, v20
+; CI-NEXT:    v_cvt_f32_f16_e32 v4, v4
+; CI-NEXT:    v_cvt_f32_f16_e32 v12, v5
+; CI-NEXT:    v_mov_b32_e32 v16, s2
+; CI-NEXT:    s_add_u32 s2, s0, 0x50
 ; CI-NEXT:    s_addc_u32 s3, s1, 0
 ; CI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v6
 ; CI-NEXT:    v_cvt_f64_f32_e32 v[10:11], v10
 ; CI-NEXT:    s_add_u32 s0, s0, 64
-; CI-NEXT:    flat_store_dwordx4 v[13:14], v[0:3]
+; CI-NEXT:    flat_store_dwordx4 v[14:15], v[0:3]
 ; CI-NEXT:    s_addc_u32 s1, s1, 0
-; CI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v17
+; CI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v21
 ; CI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v7
-; CI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v21
+; CI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v4
 ; CI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v12
-; CI-NEXT:    v_mov_b32_e32 v20, s3
+; CI-NEXT:    v_mov_b32_e32 v19, s3
 ; CI-NEXT:    v_mov_b32_e32 v13, s1
-; CI-NEXT:    v_mov_b32_e32 v19, s2
+; CI-NEXT:    v_mov_b32_e32 v18, s2
 ; CI-NEXT:    v_mov_b32_e32 v12, s0
-; CI-NEXT:    flat_store_dwordx4 v[15:16], v[8:11]
-; CI-NEXT:    flat_store_dwordx4 v[19:20], v[0:3]
+; CI-NEXT:    flat_store_dwordx4 v[16:17], v[8:11]
+; CI-NEXT:    flat_store_dwordx4 v[18:19], v[0:3]
 ; CI-NEXT:    flat_store_dwordx4 v[12:13], v[4:7]
 ; CI-NEXT:    s_endpgm
 ;
@@ -1897,76 +1896,77 @@ define amdgpu_kernel void @global_extload_v16f16_to_v16f64(ptr addrspace(1) %out
 ; VI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
 ; VI-NEXT:    s_add_u32 s2, s0, 48
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v9, s3
-; VI-NEXT:    v_mov_b32_e32 v8, s2
+; VI-NEXT:    v_mov_b32_e32 v14, s3
+; VI-NEXT:    v_mov_b32_e32 v13, s2
 ; VI-NEXT:    s_add_u32 s2, s0, 32
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v13, s3
-; VI-NEXT:    v_mov_b32_e32 v12, s2
+; VI-NEXT:    v_mov_b32_e32 v16, s3
+; VI-NEXT:    v_mov_b32_e32 v15, s2
 ; VI-NEXT:    s_add_u32 s2, s0, 16
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v15, s3
-; VI-NEXT:    v_mov_b32_e32 v14, s2
+; VI-NEXT:    v_mov_b32_e32 v18, s3
+; VI-NEXT:    v_mov_b32_e32 v17, s2
 ; VI-NEXT:    s_add_u32 s2, s0, 0x50
+; VI-NEXT:    v_mov_b32_e32 v12, s1
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v17, s3
-; VI-NEXT:    v_mov_b32_e32 v16, s2
+; VI-NEXT:    v_mov_b32_e32 v11, s0
+; VI-NEXT:    s_waitcnt vmcnt(1)
+; VI-NEXT:    v_cvt_f32_f16_e32 v8, v7
+; VI-NEXT:    v_cvt_f32_f16_sdwa v9, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f64_f32_e32 v[7:8], v8
+; VI-NEXT:    v_cvt_f64_f32_e32 v[9:10], v9
+; VI-NEXT:    flat_store_dwordx4 v[13:14], v[7:10]
+; VI-NEXT:    s_nop 0
+; VI-NEXT:    v_cvt_f32_f16_e32 v7, v6
+; VI-NEXT:    v_cvt_f32_f16_sdwa v8, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    s_waitcnt vmcnt(1)
+; VI-NEXT:    v_cvt_f32_f16_e32 v10, v2
+; VI-NEXT:    v_mov_b32_e32 v14, s3
+; VI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v7
+; VI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v8
+; VI-NEXT:    v_mov_b32_e32 v13, s2
 ; VI-NEXT:    s_add_u32 s2, s0, 64
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v19, s3
-; VI-NEXT:    v_mov_b32_e32 v11, s1
-; VI-NEXT:    v_mov_b32_e32 v18, s2
+; VI-NEXT:    flat_store_dwordx4 v[15:16], v[6:9]
+; VI-NEXT:    v_mov_b32_e32 v16, s3
+; VI-NEXT:    v_cvt_f32_f16_e32 v6, v5
+; VI-NEXT:    v_cvt_f32_f16_sdwa v7, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f32_f16_e32 v8, v4
+; VI-NEXT:    v_cvt_f32_f16_sdwa v9, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v6
+; VI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v7
+; VI-NEXT:    v_mov_b32_e32 v15, s2
 ; VI-NEXT:    s_add_u32 s2, s0, 0x70
-; VI-NEXT:    v_mov_b32_e32 v10, s0
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
+; VI-NEXT:    flat_store_dwordx4 v[17:18], v[4:7]
+; VI-NEXT:    v_cvt_f32_f16_sdwa v17, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v8
+; VI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v9
+; VI-NEXT:    v_cvt_f32_f16_sdwa v9, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f32_f16_sdwa v8, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f32_f16_e32 v2, v1
+; VI-NEXT:    flat_store_dwordx4 v[11:12], v[4:7]
+; VI-NEXT:    v_cvt_f32_f16_sdwa v11, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
+; VI-NEXT:    v_cvt_f32_f16_e32 v7, v3
+; VI-NEXT:    v_cvt_f64_f32_e32 v[3:4], v9
+; VI-NEXT:    v_cvt_f32_f16_e32 v9, v0
+; VI-NEXT:    v_cvt_f64_f32_e32 v[1:2], v2
+; VI-NEXT:    v_cvt_f64_f32_e32 v[5:6], v10
+; VI-NEXT:    v_cvt_f64_f32_e32 v[11:12], v11
+; VI-NEXT:    v_cvt_f64_f32_e32 v[9:10], v9
 ; VI-NEXT:    s_add_u32 s0, s0, 0x60
+; VI-NEXT:    flat_store_dwordx4 v[13:14], v[1:4]
 ; VI-NEXT:    s_addc_u32 s1, s1, 0
-; VI-NEXT:    s_waitcnt vmcnt(1)
-; VI-NEXT:    v_cvt_f32_f16_e32 v22, v4
-; VI-NEXT:    v_cvt_f32_f16_sdwa v23, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f32_f16_e32 v4, v7
-; VI-NEXT:    v_cvt_f32_f16_sdwa v7, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f32_f16_e32 v24, v5
-; VI-NEXT:    v_cvt_f32_f16_sdwa v25, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f32_f16_e32 v20, v6
-; VI-NEXT:    v_cvt_f32_f16_sdwa v21, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v4
-; VI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v7
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    v_cvt_f32_f16_e32 v26, v2
-; VI-NEXT:    v_cvt_f32_f16_sdwa v27, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f32_f16_sdwa v28, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    flat_store_dwordx4 v[8:9], v[4:7]
-; VI-NEXT:    v_cvt_f32_f16_e32 v8, v3
-; VI-NEXT:    v_cvt_f32_f16_e32 v29, v0
-; VI-NEXT:    v_cvt_f32_f16_sdwa v30, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f32_f16_e32 v31, v1
-; VI-NEXT:    v_cvt_f32_f16_sdwa v32, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
-; VI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v20
-; VI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v21
-; VI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v22
-; VI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v23
-; VI-NEXT:    v_cvt_f64_f32_e32 v[8:9], v8
-; VI-NEXT:    flat_store_dwordx4 v[12:13], v[0:3]
-; VI-NEXT:    v_cvt_f64_f32_e32 v[12:13], v31
-; VI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v24
-; VI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v25
-; VI-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
-; VI-NEXT:    v_cvt_f64_f32_e32 v[10:11], v28
-; VI-NEXT:    v_cvt_f64_f32_e32 v[4:5], v29
-; VI-NEXT:    flat_store_dwordx4 v[14:15], v[0:3]
-; VI-NEXT:    v_cvt_f64_f32_e32 v[14:15], v32
-; VI-NEXT:    v_cvt_f64_f32_e32 v[6:7], v30
-; VI-NEXT:    v_mov_b32_e32 v21, s3
-; VI-NEXT:    v_mov_b32_e32 v23, s1
-; VI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v26
-; VI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v27
-; VI-NEXT:    v_mov_b32_e32 v20, s2
-; VI-NEXT:    v_mov_b32_e32 v22, s0
-; VI-NEXT:    flat_store_dwordx4 v[16:17], v[12:15]
-; VI-NEXT:    flat_store_dwordx4 v[18:19], v[4:7]
-; VI-NEXT:    flat_store_dwordx4 v[20:21], v[8:11]
-; VI-NEXT:    flat_store_dwordx4 v[22:23], v[0:3]
+; VI-NEXT:    v_cvt_f64_f32_e32 v[0:1], v7
+; VI-NEXT:    v_cvt_f64_f32_e32 v[2:3], v17
+; VI-NEXT:    v_cvt_f64_f32_e32 v[7:8], v8
+; VI-NEXT:    v_mov_b32_e32 v20, s3
+; VI-NEXT:    v_mov_b32_e32 v14, s1
+; VI-NEXT:    v_mov_b32_e32 v19, s2
+; VI-NEXT:    v_mov_b32_e32 v13, s0
+; VI-NEXT:    flat_store_dwordx4 v[15:16], v[9:12]
+; VI-NEXT:    flat_store_dwordx4 v[19:20], v[0:3]
+; VI-NEXT:    flat_store_dwordx4 v[13:14], v[5:8]
 ; VI-NEXT:    s_endpgm
 ;
 ; GFX11-LABEL: global_extload_v16f16_to_v16f64:
@@ -2368,52 +2368,51 @@ define amdgpu_kernel void @global_truncstore_v16f32_to_v16f16(ptr addrspace(1) %
 ; CI-NEXT:    flat_load_dwordx4 v[4:7], v[4:5]
 ; CI-NEXT:    s_addc_u32 s3, s3, 0
 ; CI-NEXT:    v_mov_b32_e32 v13, s3
-; CI-NEXT:    flat_load_dwordx4 v[8:11], v[8:9]
 ; CI-NEXT:    v_mov_b32_e32 v12, s2
+; CI-NEXT:    flat_load_dwordx4 v[8:11], v[8:9]
 ; CI-NEXT:    flat_load_dwordx4 v[12:15], v[12:13]
 ; CI-NEXT:    s_add_u32 s2, s0, 16
 ; CI-NEXT:    s_addc_u32 s3, s1, 0
-; CI-NEXT:    v_mov_b32_e32 v17, s3
-; CI-NEXT:    v_mov_b32_e32 v16, s2
 ; CI-NEXT:    s_waitcnt vmcnt(3)
 ; CI-NEXT:    v_cvt_f16_f32_e32 v3, v3
 ; CI-NEXT:    v_cvt_f16_f32_e32 v2, v2
 ; CI-NEXT:    v_cvt_f16_f32_e32 v1, v1
 ; CI-NEXT:    s_waitcnt vmcnt(2)
 ; CI-NEXT:    v_cvt_f16_f32_e32 v7, v7
-; CI-NEXT:    v_cvt_f16_f32_e32 v5, v5
+; CI-NEXT:    v_cvt_f16_f32_e32 v16, v5
 ; CI-NEXT:    v_cvt_f16_f32_e32 v0, v0
 ; CI-NEXT:    v_cvt_f16_f32_e32 v6, v6
-; CI-NEXT:    v_cvt_f16_f32_e32 v4, v4
+; CI-NEXT:    v_cvt_f16_f32_e32 v17, v4
 ; CI-NEXT:    s_waitcnt vmcnt(1)
 ; CI-NEXT:    v_cvt_f16_f32_e32 v11, v11
 ; CI-NEXT:    v_cvt_f16_f32_e32 v9, v9
-; CI-NEXT:    v_cvt_f16_f32_e32 v10, v10
-; CI-NEXT:    v_cvt_f16_f32_e32 v8, v8
 ; CI-NEXT:    s_waitcnt vmcnt(0)
 ; CI-NEXT:    v_cvt_f16_f32_e32 v15, v15
 ; CI-NEXT:    v_cvt_f16_f32_e32 v13, v13
+; CI-NEXT:    v_cvt_f16_f32_e32 v10, v10
+; CI-NEXT:    v_cvt_f16_f32_e32 v8, v8
 ; CI-NEXT:    v_cvt_f16_f32_e32 v14, v14
 ; CI-NEXT:    v_cvt_f16_f32_e32 v12, v12
 ; CI-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; CI-NEXT:    v_mov_b32_e32 v5, s3
 ; CI-NEXT:    v_lshlrev_b32_e32 v18, 16, v1
 ; CI-NEXT:    v_or_b32_e32 v1, v2, v3
 ; CI-NEXT:    v_lshlrev_b32_e32 v2, 16, v7
-; CI-NEXT:    v_lshlrev_b32_e32 v5, 16, v5
+; CI-NEXT:    v_lshlrev_b32_e32 v7, 16, v16
+; CI-NEXT:    v_mov_b32_e32 v4, s2
 ; CI-NEXT:    v_or_b32_e32 v0, v0, v18
 ; CI-NEXT:    v_or_b32_e32 v3, v6, v2
-; CI-NEXT:    v_or_b32_e32 v2, v4, v5
-; CI-NEXT:    v_lshlrev_b32_e32 v4, 16, v11
-; CI-NEXT:    v_lshlrev_b32_e32 v5, 16, v9
-; CI-NEXT:    v_lshlrev_b32_e32 v6, 16, v15
-; CI-NEXT:    v_lshlrev_b32_e32 v7, 16, v13
-; CI-NEXT:    flat_store_dwordx4 v[16:17], v[0:3]
-; CI-NEXT:    s_nop 0
-; CI-NEXT:    v_or_b32_e32 v1, v10, v4
-; CI-NEXT:    v_or_b32_e32 v0, v8, v5
+; CI-NEXT:    v_or_b32_e32 v2, v17, v7
+; CI-NEXT:    v_lshlrev_b32_e32 v6, 16, v11
+; CI-NEXT:    v_lshlrev_b32_e32 v7, 16, v9
+; CI-NEXT:    v_lshlrev_b32_e32 v9, 16, v15
+; CI-NEXT:    v_lshlrev_b32_e32 v11, 16, v13
+; CI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; CI-NEXT:    v_mov_b32_e32 v5, s1
-; CI-NEXT:    v_or_b32_e32 v3, v14, v6
-; CI-NEXT:    v_or_b32_e32 v2, v12, v7
+; CI-NEXT:    v_or_b32_e32 v1, v10, v6
+; CI-NEXT:    v_or_b32_e32 v0, v8, v7
+; CI-NEXT:    v_or_b32_e32 v3, v14, v9
+; CI-NEXT:    v_or_b32_e32 v2, v12, v11
 ; CI-NEXT:    v_mov_b32_e32 v4, s0
 ; CI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; CI-NEXT:    s_endpgm
@@ -2429,31 +2428,29 @@ define amdgpu_kernel void @global_truncstore_v16f32_to_v16f16(ptr addrspace(1) %
 ; VI-NEXT:    s_add_u32 s4, s2, 48
 ; VI-NEXT:    s_addc_u32 s5, s3, 0
 ; VI-NEXT:    v_mov_b32_e32 v9, s3
+; VI-NEXT:    v_mov_b32_e32 v4, s4
 ; VI-NEXT:    v_mov_b32_e32 v8, s2
 ; VI-NEXT:    s_add_u32 s2, s2, 16
-; VI-NEXT:    v_mov_b32_e32 v4, s4
-; VI-NEXT:    s_addc_u32 s3, s3, 0
 ; VI-NEXT:    v_mov_b32_e32 v5, s5
-; VI-NEXT:    v_mov_b32_e32 v13, s3
+; VI-NEXT:    s_addc_u32 s3, s3, 0
 ; VI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
 ; VI-NEXT:    flat_load_dwordx4 v[4:7], v[4:5]
+; VI-NEXT:    v_mov_b32_e32 v13, s3
 ; VI-NEXT:    v_mov_b32_e32 v12, s2
 ; VI-NEXT:    flat_load_dwordx4 v[8:11], v[8:9]
 ; VI-NEXT:    flat_load_dwordx4 v[12:15], v[12:13]
 ; VI-NEXT:    s_add_u32 s2, s0, 16
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_mov_b32_e32 v17, s3
-; VI-NEXT:    v_mov_b32_e32 v16, s2
 ; VI-NEXT:    s_waitcnt vmcnt(3)
 ; VI-NEXT:    v_cvt_f16_f32_sdwa v3, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
 ; VI-NEXT:    v_cvt_f16_f32_e32 v2, v2
-; VI-NEXT:    v_cvt_f16_f32_sdwa v18, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
+; VI-NEXT:    v_cvt_f16_f32_sdwa v16, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
 ; VI-NEXT:    v_cvt_f16_f32_e32 v0, v0
 ; VI-NEXT:    s_waitcnt vmcnt(2)
 ; VI-NEXT:    v_cvt_f16_f32_sdwa v7, v7 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
 ; VI-NEXT:    v_cvt_f16_f32_e32 v6, v6
-; VI-NEXT:    v_cvt_f16_f32_sdwa v5, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
-; VI-NEXT:    v_cvt_f16_f32_e32 v4, v4
+; VI-NEXT:    v_cvt_f16_f32_sdwa v17, v5 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
+; VI-NEXT:    v_cvt_f16_f32_e32 v18, v4
 ; VI-NEXT:    s_waitcnt vmcnt(1)
 ; VI-NEXT:    v_cvt_f16_f32_sdwa v11, v11 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
 ; VI-NEXT:    v_cvt_f16_f32_e32 v10, v10
@@ -2464,17 +2461,19 @@ define amdgpu_kernel void @global_truncstore_v16f32_to_v16f16(ptr addrspace(1) %
 ; VI-NEXT:    v_cvt_f16_f32_e32 v14, v14
 ; VI-NEXT:    v_cvt_f16_f32_sdwa v13, v13 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
 ; VI-NEXT:    v_cvt_f16_f32_e32 v12, v12
+; VI-NEXT:    v_mov_b32_e32 v5, s3
+; VI-NEXT:    v_mov_b32_e32 v4, s2
 ; VI-NEXT:    v_or_b32_e32 v1, v2, v3
-; VI-NEXT:    v_or_b32_e32 v0, v0, v18
+; VI-NEXT:    v_or_b32_e32 v0, v0, v16
 ; VI-NEXT:    v_or_b32_e32 v3, v6, v7
-; VI-NEXT:    v_or_b32_e32 v2, v4, v5
+; VI-NEXT:    v_or_b32_e32 v2, v18, v17
+; VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; VI-NEXT:    v_mov_b32_e32 v5, s1
-; VI-NEXT:    flat_store_dwordx4 v[16:17], v[0:3]
-; VI-NEXT:    v_mov_b32_e32 v4, s0
 ; VI-NEXT:    v_or_b32_e32 v1, v10, v11
 ; VI-NEXT:    v_or_b32_e32 v0, v8, v9
 ; VI-NEXT:    v_or_b32_e32 v3, v14, v15
 ; VI-NEXT:    v_or_b32_e32 v2, v12, v13
+; VI-NEXT:    v_mov_b32_e32 v4, s0
 ; VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; VI-NEXT:    s_endpgm
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/idot4u.ll b/llvm/test/CodeGen/AMDGPU/idot4u.ll
index 8f82348d350e0..10fac09ef4ec0 100644
--- a/llvm/test/CodeGen/AMDGPU/idot4u.ll
+++ b/llvm/test/CodeGen/AMDGPU/idot4u.ll
@@ -2518,16 +2518,17 @@ define amdgpu_kernel void @udot4_acc8_vecMul(ptr addrspace(1) %src1,
 ; GFX9-NODL-NEXT:    s_waitcnt vmcnt(1)
 ; GFX9-NODL-NEXT:    v_lshrrev_b32_e32 v5, 16, v2
 ; GFX9-NODL-NEXT:    v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
-; GFX9-NODL-NEXT:    v_mul_lo_u16_e32 v7, v4, v5
-; GFX9-NODL-NEXT:    v_lshrrev_b32_e32 v8, 8, v6
-; GFX9-NODL-NEXT:    v_or_b32_sdwa v6, v7, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX9-NODL-NEXT:    v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PRESERVE src0_sel:BYTE_1 src1_sel:BYTE_1
+; GFX9-NODL-NEXT:    v_mul_lo_u16_e32 v8, v4, v5
+; GFX9-NODL-NEXT:    v_mul_lo_u16_sdwa v7, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
+; GFX9-NODL-NEXT:    v_lshrrev_b32_e32 v9, 8, v6
+; GFX9-NODL-NEXT:    v_or_b32_sdwa v6, v8, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX9-NODL-NEXT:    v_or_b32_e32 v6, v7, v6
 ; GFX9-NODL-NEXT:    v_lshrrev_b32_e32 v6, 8, v6
 ; GFX9-NODL-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NODL-NEXT:    v_mad_legacy_u16 v1, v1, v2, v3
 ; GFX9-NODL-NEXT:    v_add_u16_e32 v1, v1, v6
 ; GFX9-NODL-NEXT:    v_mad_legacy_u16 v1, v4, v5, v1
-; GFX9-NODL-NEXT:    v_add_u16_e32 v1, v1, v8
+; GFX9-NODL-NEXT:    v_add_u16_e32 v1, v1, v9
 ; GFX9-NODL-NEXT:    global_store_byte v0, v1, s[6:7]
 ; GFX9-NODL-NEXT:    s_endpgm
 ;
@@ -2546,16 +2547,17 @@ define amdgpu_kernel void @udot4_acc8_vecMul(ptr addrspace(1) %src1,
 ; GFX9-DL-NEXT:    s_waitcnt vmcnt(1)
 ; GFX9-DL-NEXT:    v_lshrrev_b32_e32 v5, 16, v2
 ; GFX9-DL-NEXT:    v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
-; GFX9-DL-NEXT:    v_mul_lo_u16_e32 v7, v4, v5
-; GFX9-DL-NEXT:    v_lshrrev_b32_e32 v8, 8, v6
-; GFX9-DL-NEXT:    v_or_b32_sdwa v6, v7, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX9-DL-NEXT:    v_mul_lo_u16_sdwa v6, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PRESERVE src0_sel:BYTE_1 src1_sel:BYTE_1
+; GFX9-DL-NEXT:    v_mul_lo_u16_e32 v8, v4, v5
+; GFX9-DL-NEXT:    v_mul_lo_u16_sdwa v7, v1, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_1 src1_sel:BYTE_1
+; GFX9-DL-NEXT:    v_lshrrev_b32_e32 v9, 8, v6
+; GFX9-DL-NEXT:    v_or_b32_sdwa v6, v8, v6 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX9-DL-NEXT:    v_or_b32_e32 v6, v7, v6
 ; GFX9-DL-NEXT:    v_lshrrev_b32_e32 v6, 8, v6
 ; GFX9-DL-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-DL-NEXT:    v_mad_legacy_u16 v1, v1, v2, v3
 ; GFX9-DL-NEXT:    v_add_u16_e32 v1, v1, v6
 ; GFX9-DL-NEXT:    v_mad_legacy_u16 v1, v4, v5, v1
-; GFX9-DL-NEXT:    v_add_u16_e32 v1, v1, v8
+; GFX9-DL-NEXT:    v_add_u16_e32 v1, v1, v9
 ; GFX9-DL-NEXT:    global_store_byte v0, v1, s[6:7]
 ; GFX9-DL-NEXT:    s_endpgm
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/idot8s.ll b/llvm/test/CodeGen/AMDGPU/idot8s.ll
index add62a5c39cb1..b9d3763e7def1 100644
--- a/llvm/test/CodeGen/AMDGPU/idot8s.ll
+++ b/llvm/test/CodeGen/AMDGPU/idot8s.ll
@@ -2678,7 +2678,8 @@ define amdgpu_kernel void @idot8_acc8_vecMul(ptr addrspace(1) %src1,
 ; GFX8-NEXT:    v_ashrrev_i16_e32 v8, 12, v8
 ; GFX8-NEXT:    v_ashrrev_i16_e32 v11, 12, v14
 ; GFX8-NEXT:    v_ashrrev_i16_e32 v13, 12, v13
-; GFX8-NEXT:    v_mul_lo_u16_e32 v20, v16, v18
+; GFX8-NEXT:    v_mul_lo_u16_e32 v10, v10, v15
+; GFX8-NEXT:    v_mul_lo_u16_e32 v15, v16, v18
 ; GFX8-NEXT:    v_mul_lo_u16_sdwa v2, v3, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
 ; GFX8-NEXT:    v_mul_lo_u16_sdwa v3, v7, v12 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
 ; GFX8-NEXT:    v_ashrrev_i16_e32 v5, 12, v5
@@ -2686,8 +2687,7 @@ define amdgpu_kernel void @idot8_acc8_vecMul(ptr addrspace(1) %src1,
 ; GFX8-NEXT:    v_mul_lo_u16_e32 v14, v17, v19
 ; GFX8-NEXT:    v_mul_lo_u16_sdwa v7, v8, v13 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
 ; GFX8-NEXT:    v_mul_lo_u16_e32 v8, v9, v11
-; GFX8-NEXT:    v_or_b32_sdwa v3, v20, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX8-NEXT:    v_mul_lo_u16_e32 v10, v10, v15
+; GFX8-NEXT:    v_or_b32_sdwa v3, v15, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX8-NEXT:    v_mul_lo_u16_sdwa v5, v5, v6 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
 ; GFX8-NEXT:    v_or_b32_sdwa v6, v14, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX8-NEXT:    v_or_b32_sdwa v7, v8, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
diff --git a/llvm/test/CodeGen/AMDGPU/indirect-addressing-si.ll b/llvm/test/CodeGen/AMDGPU/indirect-addressing-si.ll
index e71c6cf71c882..74020c43a3ca3 100644
--- a/llvm/test/CodeGen/AMDGPU/indirect-addressing-si.ll
+++ b/llvm/test/CodeGen/AMDGPU/indirect-addressing-si.ll
@@ -1111,16 +1111,13 @@ define amdgpu_kernel void @extract_neg_offset_sgpr_loaded(ptr addrspace(1) %out,
 ; GENERIC-LABEL: extract_neg_offset_sgpr_loaded:
 ; GENERIC:       ; %bb.0: ; %entry
 ; GENERIC-NEXT:    s_load_dwordx16 s[8:23], s[4:5], 0x19
-; GENERIC-NEXT:    s_load_dword s2, s[4:5], 0x39
 ; GENERIC-NEXT:    s_load_dwordx16 s[36:51], s[4:5], 0x29
-; GENERIC-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x9
-; GENERIC-NEXT:    s_mov_b32 s3, 0xf000
+; GENERIC-NEXT:    s_load_dword s2, s[4:5], 0x39
 ; GENERIC-NEXT:    s_waitcnt lgkmcnt(0)
-; GENERIC-NEXT:    s_addk_i32 s2, 0xfe00
-; GENERIC-NEXT:    s_or_b32 s4, s23, s51
-; GENERIC-NEXT:    s_or_b32 s5, s22, s50
-; GENERIC-NEXT:    s_or_b32 s6, s21, s49
-; GENERIC-NEXT:    s_or_b32 s7, s20, s48
+; GENERIC-NEXT:    s_or_b32 s6, s23, s51
+; GENERIC-NEXT:    s_or_b32 s7, s22, s50
+; GENERIC-NEXT:    s_or_b32 s21, s21, s49
+; GENERIC-NEXT:    s_or_b32 s20, s20, s48
 ; GENERIC-NEXT:    s_or_b32 s19, s19, s47
 ; GENERIC-NEXT:    s_or_b32 s18, s18, s46
 ; GENERIC-NEXT:    s_or_b32 s17, s17, s45
@@ -1133,38 +1130,42 @@ define amdgpu_kernel void @extract_neg_offset_sgpr_loaded(ptr addrspace(1) %out,
 ; GENERIC-NEXT:    s_or_b32 s10, s10, s38
 ; GENERIC-NEXT:    s_or_b32 s8, s8, s36
 ; GENERIC-NEXT:    s_or_b32 s9, s9, s37
+; GENERIC-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x9
+; GENERIC-NEXT:    s_mov_b32 s3, 0xf000
+; GENERIC-NEXT:    s_addk_i32 s2, 0xfe00
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 1
-; GENERIC-NEXT:    s_cselect_b32 s8, s9, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s9, s8
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 2
-; GENERIC-NEXT:    s_cselect_b32 s8, s10, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s10, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 3
-; GENERIC-NEXT:    s_cselect_b32 s8, s11, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s11, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 4
-; GENERIC-NEXT:    s_cselect_b32 s8, s12, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s12, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 5
-; GENERIC-NEXT:    s_cselect_b32 s8, s13, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s13, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 6
-; GENERIC-NEXT:    s_cselect_b32 s8, s14, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s14, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 7
-; GENERIC-NEXT:    s_cselect_b32 s8, s15, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s15, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 8
-; GENERIC-NEXT:    s_cselect_b32 s8, s16, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s16, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 9
-; GENERIC-NEXT:    s_cselect_b32 s8, s17, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s17, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 10
-; GENERIC-NEXT:    s_cselect_b32 s8, s18, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s18, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 11
-; GENERIC-NEXT:    s_cselect_b32 s8, s19, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s19, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 12
-; GENERIC-NEXT:    s_cselect_b32 s7, s7, s8
+; GENERIC-NEXT:    s_cselect_b32 s4, s20, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 13
-; GENERIC-NEXT:    s_cselect_b32 s6, s6, s7
+; GENERIC-NEXT:    s_cselect_b32 s4, s21, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 14
-; GENERIC-NEXT:    s_cselect_b32 s5, s5, s6
+; GENERIC-NEXT:    s_cselect_b32 s4, s7, s4
 ; GENERIC-NEXT:    s_cmp_eq_u32 s2, 15
-; GENERIC-NEXT:    s_cselect_b32 s4, s4, s5
+; GENERIC-NEXT:    s_cselect_b32 s4, s6, s4
 ; GENERIC-NEXT:    s_mov_b32 s2, -1
 ; GENERIC-NEXT:    v_mov_b32_e32 v0, s4
+; GENERIC-NEXT:    s_waitcnt lgkmcnt(0)
 ; GENERIC-NEXT:    buffer_store_dword v0, off, s[0:3], 0
 ; GENERIC-NEXT:    s_endpgm
 ;
@@ -1278,9 +1279,9 @@ define amdgpu_kernel void @extract_neg_offset_sgpr_loaded(ptr addrspace(1) %out,
 ; SI-MOVREL-NEXT:    s_mov_b32 s2, -1
 ; SI-MOVREL-NEXT:    s_waitcnt lgkmcnt(0)
 ; SI-MOVREL-NEXT:    s_or_b32 s8, s8, s36
-; SI-MOVREL-NEXT:    s_or_b32 s5, s23, s51
-; SI-MOVREL-NEXT:    s_or_b32 s6, s22, s50
-; SI-MOVREL-NEXT:    s_or_b32 s7, s21, s49
+; SI-MOVREL-NEXT:    s_or_b32 s6, s23, s51
+; SI-MOVREL-NEXT:    s_or_b32 s7, s22, s50
+; SI-MOVREL-NEXT:    s_or_b32 s21, s21, s49
 ; SI-MOVREL-NEXT:    s_or_b32 s20, s20, s48
 ; SI-MOVREL-NEXT:    s_or_b32 s19, s19, s47
 ; SI-MOVREL-NEXT:    s_or_b32 s18, s18, s46
@@ -1307,9 +1308,9 @@ define amdgpu_kernel void @extract_neg_offset_sgpr_loaded(ptr addrspace(1) %out,
 ; SI-MOVREL-NEXT:    v_mov_b32_e32 v10, s18
 ; SI-MOVREL-NEXT:    v_mov_b32_e32 v11, s19
 ; SI-MOVREL-NEXT:    v_mov_b32_e32 v12, s20
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v13, s7
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v14, s6
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v15, s5
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v13, s21
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v14, s7
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v15, s6
 ; SI-MOVREL-NEXT:    v_movrels_b32_e32 v0, v0
 ; SI-MOVREL-NEXT:    buffer_store_dword v0, off, s[0:3], 0
 ; SI-MOVREL-NEXT:    s_endpgm
@@ -5699,94 +5700,94 @@ define amdgpu_kernel void @insert_vgpr_offset_multiple_in_block(ptr addrspace(1)
 ; GENERIC-NEXT:    v_mov_b32_e32 v2, 0
 ; GENERIC-NEXT:    s_mov_b32 s27, s3
 ; GENERIC-NEXT:    s_waitcnt lgkmcnt(0)
-; GENERIC-NEXT:    buffer_load_dword v2, v[1:2], s[24:27], 0 addr64 glc
+; GENERIC-NEXT:    buffer_load_dword v14, v[1:2], s[24:27], 0 addr64 glc
 ; GENERIC-NEXT:    s_waitcnt vmcnt(0)
-; GENERIC-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x9
-; GENERIC-NEXT:    s_mov_b32 s2, -1
 ; GENERIC-NEXT:    ;;#ASMSTART
 ; GENERIC-NEXT:    v_mov_b32 v1, 62
 ; GENERIC-NEXT:    ;;#ASMEND
-; GENERIC-NEXT:    v_mov_b32_e32 v3, s20
-; GENERIC-NEXT:    v_mov_b32_e32 v4, s21
-; GENERIC-NEXT:    v_mov_b32_e32 v5, s22
-; GENERIC-NEXT:    v_mov_b32_e32 v6, s23
-; GENERIC-NEXT:    v_mov_b32_e32 v7, s16
-; GENERIC-NEXT:    v_mov_b32_e32 v8, s17
-; GENERIC-NEXT:    v_mov_b32_e32 v9, s18
-; GENERIC-NEXT:    v_mov_b32_e32 v10, s19
-; GENERIC-NEXT:    v_mov_b32_e32 v11, s12
-; GENERIC-NEXT:    v_mov_b32_e32 v12, s13
-; GENERIC-NEXT:    v_mov_b32_e32 v13, s14
-; GENERIC-NEXT:    v_mov_b32_e32 v14, s15
-; GENERIC-NEXT:    v_mov_b32_e32 v15, s8
-; GENERIC-NEXT:    v_mov_b32_e32 v16, s9
-; GENERIC-NEXT:    v_mov_b32_e32 v17, s10
-; GENERIC-NEXT:    v_mov_b32_e32 v18, s11
-; GENERIC-NEXT:    v_add_i32_e32 v19, vcc, 1, v2
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 12, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v20, v3, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 13, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v21, v4, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 14, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v22, v5, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 15, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v23, v6, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 8, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v24, v7, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 9, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v25, v8, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 10, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v26, v9, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 11, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v10, v10, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 4, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v6, v11, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 5, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v7, v12, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 6, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v8, v13, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 7, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v9, v14, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v11, v15, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v3, v16, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 2, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v4, v17, v1, vcc
-; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 3, v2
-; GENERIC-NEXT:    v_cndmask_b32_e32 v2, v18, v1, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 3, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v5, 63, v2, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 2, v19
+; GENERIC-NEXT:    v_mov_b32_e32 v10, s22
+; GENERIC-NEXT:    v_mov_b32_e32 v11, s23
+; GENERIC-NEXT:    v_mov_b32_e32 v15, s16
+; GENERIC-NEXT:    v_mov_b32_e32 v2, s18
+; GENERIC-NEXT:    v_mov_b32_e32 v3, s19
+; GENERIC-NEXT:    v_mov_b32_e32 v4, s12
+; GENERIC-NEXT:    v_mov_b32_e32 v5, s13
+; GENERIC-NEXT:    v_mov_b32_e32 v6, s14
+; GENERIC-NEXT:    v_mov_b32_e32 v7, s15
+; GENERIC-NEXT:    v_mov_b32_e32 v8, s8
+; GENERIC-NEXT:    v_mov_b32_e32 v9, s9
+; GENERIC-NEXT:    v_mov_b32_e32 v12, s10
+; GENERIC-NEXT:    v_mov_b32_e32 v13, s11
+; GENERIC-NEXT:    v_add_i32_e32 v18, vcc, 1, v14
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 10, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v16, v2, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 11, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v17, v3, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 4, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v19, v4, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 5, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v20, v5, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 6, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v6, v6, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 7, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v7, v7, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v2, v8, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v3, v9, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 2, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v4, v12, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 3, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v5, v13, v1, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 3, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v5, 63, v5, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 2, v18
 ; GENERIC-NEXT:    v_cndmask_b32_e32 v4, 63, v4, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 1, v19
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 1, v18
 ; GENERIC-NEXT:    v_cndmask_b32_e32 v3, 63, v3, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v2, 63, v11, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 7, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v9, 63, v9, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 6, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v8, 63, v8, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 5, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v7, 63, v7, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 4, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v6, 63, v6, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 11, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v13, 63, v10, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 10, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v12, 63, v26, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 9, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v11, 63, v25, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 8, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v10, 63, v24, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 15, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v17, 63, v23, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 14, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v16, 63, v22, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 13, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v15, 63, v21, vcc
-; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 12, v19
-; GENERIC-NEXT:    v_cndmask_b32_e32 v14, 63, v20, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v2, 63, v2, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 7, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v9, 63, v7, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 6, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v8, 63, v6, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 5, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v7, 63, v20, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 4, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v6, 63, v19, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 11, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v13, 63, v17, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 10, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v12, 63, v16, vcc
+; GENERIC-NEXT:    v_mov_b32_e32 v16, s17
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 14, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v19, v10, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 15, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v17, v11, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 8, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v10, v15, v1, vcc
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 9, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v11, v16, v1, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 9, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v11, 63, v11, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 8, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v10, 63, v10, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 14, v18
+; GENERIC-NEXT:    v_cmp_ne_u32_e64 s[0:1], 15, v18
+; GENERIC-NEXT:    v_cndmask_b32_e64 v17, 63, v17, s[0:1]
+; GENERIC-NEXT:    v_cndmask_b32_e32 v16, 63, v19, vcc
+; GENERIC-NEXT:    v_mov_b32_e32 v15, s21
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 13, v14
+; GENERIC-NEXT:    v_cndmask_b32_e32 v15, v15, v1, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 13, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v15, 63, v15, vcc
+; GENERIC-NEXT:    v_mov_b32_e32 v19, s20
+; GENERIC-NEXT:    v_cmp_eq_u32_e32 vcc, 12, v14
+; GENERIC-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x9
+; GENERIC-NEXT:    s_mov_b32 s2, -1
+; GENERIC-NEXT:    v_cndmask_b32_e32 v14, v19, v1, vcc
+; GENERIC-NEXT:    v_cmp_ne_u32_e32 vcc, 12, v18
+; GENERIC-NEXT:    v_cndmask_b32_e32 v14, 63, v14, vcc
 ; GENERIC-NEXT:    s_waitcnt lgkmcnt(0)
 ; GENERIC-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:48
 ; GENERIC-NEXT:    s_waitcnt vmcnt(0)
@@ -6257,97 +6258,98 @@ define amdgpu_kernel void @insert_vgpr_offset_multiple_in_block(ptr addrspace(1)
 ; SI-MOVREL-NEXT:    v_lshlrev_b32_e32 v1, 2, v0
 ; SI-MOVREL-NEXT:    v_mov_b32_e32 v2, 0
 ; SI-MOVREL-NEXT:    s_waitcnt lgkmcnt(0)
-; SI-MOVREL-NEXT:    buffer_load_dword v2, v[1:2], s[8:11], 0 addr64 glc
+; SI-MOVREL-NEXT:    buffer_load_dword v14, v[1:2], s[8:11], 0 addr64 glc
 ; SI-MOVREL-NEXT:    s_waitcnt vmcnt(0)
 ; SI-MOVREL-NEXT:    s_load_dwordx16 s[8:23], s[4:5], 0x19
-; SI-MOVREL-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x9
 ; SI-MOVREL-NEXT:    ;;#ASMSTART
 ; SI-MOVREL-NEXT:    v_mov_b32 v1, 62
 ; SI-MOVREL-NEXT:    ;;#ASMEND
 ; SI-MOVREL-NEXT:    s_mov_b32 s2, -1
 ; SI-MOVREL-NEXT:    s_waitcnt lgkmcnt(0)
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v3, s20
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v4, s21
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v5, s22
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v6, s23
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v7, s16
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v8, s17
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v9, s18
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v10, s19
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v11, s12
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v12, s13
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v13, s14
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v14, s15
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v15, s8
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v16, s9
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v17, s10
-; SI-MOVREL-NEXT:    v_mov_b32_e32 v18, s11
-; SI-MOVREL-NEXT:    v_add_i32_e32 v19, vcc, 1, v2
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 12, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v20, v3, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 13, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v21, v4, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 14, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v22, v5, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 15, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v23, v6, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 8, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v24, v7, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 9, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v25, v8, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 10, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v26, v9, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 11, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v10, v10, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 4, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v6, v11, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 5, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v7, v12, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 6, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v8, v13, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 7, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v9, v14, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v11, v15, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v3, v16, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 2, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v4, v17, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 3, v2
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v2, v18, v1, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 3, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v5, 63, v2, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 2, v19
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v2, s18
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v3, s19
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v4, s12
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v5, s13
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v6, s14
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v7, s15
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v8, s8
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v9, s9
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v12, s10
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v13, s11
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v10, s22
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v11, s23
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v15, s16
+; SI-MOVREL-NEXT:    v_add_i32_e32 v18, vcc, 1, v14
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 10, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v16, v2, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 11, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v17, v3, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 4, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v19, v4, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 5, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v20, v5, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 6, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v6, v6, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 7, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v7, v7, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v2, v8, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v3, v9, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 2, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v4, v12, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 3, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v5, v13, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 3, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v5, 63, v5, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 2, v18
 ; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v4, 63, v4, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 1, v19
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 1, v18
 ; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v3, 63, v3, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v2, 63, v11, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 7, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v9, 63, v9, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 6, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v8, 63, v8, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 5, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v7, 63, v7, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 4, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v6, 63, v6, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 11, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v13, 63, v10, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 10, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v12, 63, v26, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 9, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v11, 63, v25, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 8, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v10, 63, v24, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 15, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v17, 63, v23, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 14, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v16, 63, v22, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 13, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v15, 63, v21, vcc
-; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 12, v19
-; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v14, 63, v20, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v2, 63, v2, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 7, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v9, 63, v7, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 6, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v8, 63, v6, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 5, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v7, 63, v20, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 4, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v6, 63, v19, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 11, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v13, 63, v17, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 10, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v12, 63, v16, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 14, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v19, v10, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 15, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v17, v11, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 8, v14
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v16, s17
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v10, v15, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 9, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v11, v16, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 9, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v11, 63, v11, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 8, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v10, 63, v10, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 14, v18
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e64 s[0:1], 15, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e64 v17, 63, v17, s[0:1]
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v16, 63, v19, vcc
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v15, s21
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 13, v14
+; SI-MOVREL-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x9
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v15, v15, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 13, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v15, 63, v15, vcc
+; SI-MOVREL-NEXT:    v_mov_b32_e32 v19, s20
+; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 12, v14
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v14, v19, v1, vcc
+; SI-MOVREL-NEXT:    v_cmp_ne_u32_e32 vcc, 12, v18
+; SI-MOVREL-NEXT:    v_cndmask_b32_e32 v14, 63, v14, vcc
 ; SI-MOVREL-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v0
+; SI-MOVREL-NEXT:    s_waitcnt lgkmcnt(0)
 ; SI-MOVREL-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:48
 ; SI-MOVREL-NEXT:    s_waitcnt vmcnt(0)
 ; SI-MOVREL-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:32
@@ -6368,104 +6370,104 @@ define amdgpu_kernel void @insert_vgpr_offset_multiple_in_block(ptr addrspace(1)
 ; VI:       ; %bb.0: ; %entry
 ; VI-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x34
 ; VI-NEXT:    v_lshlrev_b32_e32 v1, 2, v0
+; VI-NEXT:    s_load_dwordx16 s[8:23], s[4:5], 0x64
 ; VI-NEXT:    s_waitcnt lgkmcnt(0)
 ; VI-NEXT:    v_mov_b32_e32 v2, s1
 ; VI-NEXT:    v_add_u32_e32 v1, vcc, s0, v1
 ; VI-NEXT:    v_addc_u32_e32 v2, vcc, 0, v2, vcc
-; VI-NEXT:    flat_load_dword v2, v[1:2] glc
+; VI-NEXT:    flat_load_dword v14, v[1:2] glc
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    s_load_dwordx16 s[8:23], s[4:5], 0x64
-; VI-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x24
+; VI-NEXT:    v_mov_b32_e32 v2, s18
+; VI-NEXT:    v_mov_b32_e32 v3, s19
 ; VI-NEXT:    ;;#ASMSTART
 ; VI-NEXT:    v_mov_b32 v1, 62
 ; VI-NEXT:    ;;#ASMEND
+; VI-NEXT:    v_mov_b32_e32 v4, s12
+; VI-NEXT:    v_mov_b32_e32 v5, s13
+; VI-NEXT:    v_mov_b32_e32 v6, s14
+; VI-NEXT:    v_mov_b32_e32 v7, s15
+; VI-NEXT:    v_mov_b32_e32 v8, s8
+; VI-NEXT:    v_mov_b32_e32 v9, s9
+; VI-NEXT:    v_mov_b32_e32 v12, s10
+; VI-NEXT:    v_mov_b32_e32 v13, s11
+; VI-NEXT:    v_mov_b32_e32 v10, s22
+; VI-NEXT:    v_mov_b32_e32 v11, s23
+; VI-NEXT:    v_mov_b32_e32 v15, s16
+; VI-NEXT:    v_add_u32_e32 v18, vcc, 1, v14
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 10, v14
+; VI-NEXT:    v_cndmask_b32_e32 v16, v2, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 11, v14
+; VI-NEXT:    v_cndmask_b32_e32 v17, v3, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 4, v14
+; VI-NEXT:    v_cndmask_b32_e32 v19, v4, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 5, v14
+; VI-NEXT:    v_cndmask_b32_e32 v20, v5, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 6, v14
+; VI-NEXT:    v_cndmask_b32_e32 v6, v6, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 7, v14
+; VI-NEXT:    v_cndmask_b32_e32 v7, v7, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v14
+; VI-NEXT:    v_cndmask_b32_e32 v2, v8, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v14
+; VI-NEXT:    v_cndmask_b32_e32 v3, v9, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 2, v14
+; VI-NEXT:    v_cndmask_b32_e32 v4, v12, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 3, v14
+; VI-NEXT:    v_cndmask_b32_e32 v5, v13, v1, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 3, v18
+; VI-NEXT:    v_cndmask_b32_e32 v5, 63, v5, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 2, v18
+; VI-NEXT:    v_cndmask_b32_e32 v4, 63, v4, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 1, v18
+; VI-NEXT:    v_cndmask_b32_e32 v3, 63, v3, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v18
+; VI-NEXT:    v_cndmask_b32_e32 v2, 63, v2, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 7, v18
+; VI-NEXT:    v_cndmask_b32_e32 v9, 63, v7, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 6, v18
+; VI-NEXT:    v_cndmask_b32_e32 v8, 63, v6, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 5, v18
+; VI-NEXT:    v_cndmask_b32_e32 v7, 63, v20, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 4, v18
+; VI-NEXT:    v_cndmask_b32_e32 v6, 63, v19, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 11, v18
+; VI-NEXT:    v_cndmask_b32_e32 v13, 63, v17, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 10, v18
+; VI-NEXT:    v_cndmask_b32_e32 v12, 63, v16, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 14, v14
+; VI-NEXT:    v_cndmask_b32_e32 v19, v10, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 15, v14
+; VI-NEXT:    v_cndmask_b32_e32 v17, v11, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 8, v14
+; VI-NEXT:    v_cmp_ne_u32_e64 s[0:1], 15, v18
+; VI-NEXT:    v_mov_b32_e32 v16, s17
+; VI-NEXT:    v_cndmask_b32_e32 v10, v15, v1, vcc
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 9, v14
+; VI-NEXT:    v_cndmask_b32_e64 v17, 63, v17, s[0:1]
+; VI-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x24
+; VI-NEXT:    v_cndmask_b32_e32 v11, v16, v1, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 9, v18
+; VI-NEXT:    v_cndmask_b32_e32 v11, 63, v11, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 8, v18
+; VI-NEXT:    v_cndmask_b32_e32 v10, 63, v10, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 14, v18
+; VI-NEXT:    v_cndmask_b32_e32 v16, 63, v19, vcc
+; VI-NEXT:    v_mov_b32_e32 v15, s21
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 13, v14
+; VI-NEXT:    v_cndmask_b32_e32 v15, v15, v1, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 13, v18
 ; VI-NEXT:    s_waitcnt lgkmcnt(0)
-; VI-NEXT:    v_mov_b32_e32 v3, s20
-; VI-NEXT:    v_mov_b32_e32 v4, s21
-; VI-NEXT:    v_mov_b32_e32 v5, s22
-; VI-NEXT:    v_mov_b32_e32 v6, s23
-; VI-NEXT:    v_mov_b32_e32 v7, s16
-; VI-NEXT:    v_mov_b32_e32 v8, s17
-; VI-NEXT:    v_mov_b32_e32 v9, s18
-; VI-NEXT:    v_mov_b32_e32 v10, s19
-; VI-NEXT:    v_mov_b32_e32 v11, s12
-; VI-NEXT:    v_mov_b32_e32 v12, s13
-; VI-NEXT:    v_mov_b32_e32 v13, s14
-; VI-NEXT:    v_mov_b32_e32 v14, s15
-; VI-NEXT:    v_mov_b32_e32 v15, s8
-; VI-NEXT:    v_mov_b32_e32 v16, s9
-; VI-NEXT:    v_mov_b32_e32 v17, s10
-; VI-NEXT:    v_mov_b32_e32 v18, s11
 ; VI-NEXT:    s_add_u32 s2, s0, 48
+; VI-NEXT:    v_cndmask_b32_e32 v15, 63, v15, vcc
+; VI-NEXT:    v_mov_b32_e32 v19, s20
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 12, v14
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
-; VI-NEXT:    v_add_u32_e32 v19, vcc, 1, v2
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 12, v2
-; VI-NEXT:    v_cndmask_b32_e32 v20, v3, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 13, v2
-; VI-NEXT:    v_cndmask_b32_e32 v21, v4, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 14, v2
-; VI-NEXT:    v_cndmask_b32_e32 v22, v5, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 15, v2
-; VI-NEXT:    v_cndmask_b32_e32 v23, v6, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 8, v2
-; VI-NEXT:    v_cndmask_b32_e32 v24, v7, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 9, v2
-; VI-NEXT:    v_cndmask_b32_e32 v25, v8, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 10, v2
-; VI-NEXT:    v_cndmask_b32_e32 v26, v9, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 11, v2
-; VI-NEXT:    v_cndmask_b32_e32 v10, v10, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 4, v2
-; VI-NEXT:    v_cndmask_b32_e32 v6, v11, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 5, v2
-; VI-NEXT:    v_cndmask_b32_e32 v7, v12, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 6, v2
-; VI-NEXT:    v_cndmask_b32_e32 v8, v13, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 7, v2
-; VI-NEXT:    v_cndmask_b32_e32 v9, v14, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v2
-; VI-NEXT:    v_cndmask_b32_e32 v11, v15, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v2
-; VI-NEXT:    v_cndmask_b32_e32 v3, v16, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 2, v2
-; VI-NEXT:    v_cndmask_b32_e32 v4, v17, v1, vcc
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 3, v2
-; VI-NEXT:    v_cndmask_b32_e32 v2, v18, v1, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 3, v19
-; VI-NEXT:    v_cndmask_b32_e32 v5, 63, v2, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 2, v19
-; VI-NEXT:    v_cndmask_b32_e32 v4, 63, v4, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 1, v19
-; VI-NEXT:    v_cndmask_b32_e32 v3, 63, v3, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v19
-; VI-NEXT:    v_cndmask_b32_e32 v2, 63, v11, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 7, v19
-; VI-NEXT:    v_cndmask_b32_e32 v9, 63, v9, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 6, v19
-; VI-NEXT:    v_cndmask_b32_e32 v8, 63, v8, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 5, v19
-; VI-NEXT:    v_cndmask_b32_e32 v7, 63, v7, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 4, v19
-; VI-NEXT:    v_cndmask_b32_e32 v6, 63, v6, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 11, v19
-; VI-NEXT:    v_cndmask_b32_e32 v13, 63, v10, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 10, v19
-; VI-NEXT:    v_cndmask_b32_e32 v12, 63, v26, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 9, v19
-; VI-NEXT:    v_cndmask_b32_e32 v11, 63, v25, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 8, v19
-; VI-NEXT:    v_cndmask_b32_e32 v10, 63, v24, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 15, v19
-; VI-NEXT:    v_cndmask_b32_e32 v17, 63, v23, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 14, v19
-; VI-NEXT:    v_cndmask_b32_e32 v16, 63, v22, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 13, v19
-; VI-NEXT:    v_cndmask_b32_e32 v15, 63, v21, vcc
-; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 12, v19
+; VI-NEXT:    v_cndmask_b32_e32 v14, v19, v1, vcc
+; VI-NEXT:    v_cmp_ne_u32_e32 vcc, 12, v18
 ; VI-NEXT:    v_mov_b32_e32 v19, s3
 ; VI-NEXT:    v_mov_b32_e32 v18, s2
 ; VI-NEXT:    s_add_u32 s2, s0, 32
-; VI-NEXT:    v_cndmask_b32_e32 v14, 63, v20, vcc
+; VI-NEXT:    v_cndmask_b32_e32 v14, 63, v14, vcc
 ; VI-NEXT:    s_addc_u32 s3, s1, 0
 ; VI-NEXT:    flat_store_dwordx4 v[18:19], v[14:17]
 ; VI-NEXT:    s_waitcnt vmcnt(0)
@@ -6496,105 +6498,105 @@ define amdgpu_kernel void @insert_vgpr_offset_multiple_in_block(ptr addrspace(1)
 ; GFX9-IDXMODE:       ; %bb.0: ; %entry
 ; GFX9-IDXMODE-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x34
 ; GFX9-IDXMODE-NEXT:    v_lshlrev_b32_e32 v1, 2, v0
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v2, 0
+; GFX9-IDXMODE-NEXT:    s_load_dwordx16 s[8:23], s[4:5], 0x64
 ; GFX9-IDXMODE-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX9-IDXMODE-NEXT:    global_load_dword v3, v1, s[0:1] glc
+; GFX9-IDXMODE-NEXT:    global_load_dword v14, v1, s[0:1] glc
 ; GFX9-IDXMODE-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-IDXMODE-NEXT:    s_load_dwordx16 s[8:23], s[4:5], 0x64
-; GFX9-IDXMODE-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x24
 ; GFX9-IDXMODE-NEXT:    ;;#ASMSTART
 ; GFX9-IDXMODE-NEXT:    v_mov_b32 v1, 62
 ; GFX9-IDXMODE-NEXT:    ;;#ASMEND
-; GFX9-IDXMODE-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v4, s20
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v5, s21
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v6, s22
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v7, s23
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v8, s16
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v9, s17
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v10, s18
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v11, s19
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v12, s12
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v13, s13
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v14, s14
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v15, s15
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v16, s8
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v17, s9
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v18, s10
-; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v19, s11
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 12, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v21, v4, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 13, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v22, v5, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 14, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v23, v6, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 15, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v24, v7, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 8, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v25, v8, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 9, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v26, v9, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 10, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v27, v10, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 11, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v11, v11, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 4, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v7, v12, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 5, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v8, v13, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 6, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v9, v14, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 7, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v10, v15, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v12, v16, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v4, v17, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 2, v3
-; GFX9-IDXMODE-NEXT:    v_add_u32_e32 v20, 1, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v5, v18, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 3, v3
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v3, v19, v1, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 3, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v6, 63, v3, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 2, v20
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v2, s18
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v3, s19
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v4, s12
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v5, s13
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v6, s14
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v7, s15
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v8, s8
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v9, s9
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v12, s10
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v13, s11
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v10, s22
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v11, s23
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v15, s16
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 10, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v16, v2, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 11, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v17, v3, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 4, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v19, v4, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 5, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v20, v5, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 6, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v6, v6, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 7, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v7, v7, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v2, v8, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v3, v9, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 2, v14
+; GFX9-IDXMODE-NEXT:    v_add_u32_e32 v18, 1, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v4, v12, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 3, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v5, v13, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 3, v18
 ; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v5, 63, v5, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 1, v20
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 2, v18
 ; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v4, 63, v4, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v3, 63, v12, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 7, v20
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 1, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v3, 63, v3, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v2, 63, v2, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 7, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v9, 63, v7, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 6, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v8, 63, v6, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 5, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v7, 63, v20, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 4, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v6, 63, v19, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 11, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v13, 63, v17, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 10, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v12, 63, v16, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 14, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v19, v10, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 15, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v17, v11, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 8, v14
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v16, s17
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v10, v15, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 9, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v11, v16, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 9, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v11, 63, v11, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 8, v18
 ; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v10, 63, v10, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 6, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v9, 63, v9, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 5, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v8, 63, v8, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 4, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v7, 63, v7, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 11, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v14, 63, v11, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 10, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v13, 63, v27, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 9, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v12, 63, v26, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 8, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v11, 63, v25, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 15, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v18, 63, v24, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 14, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v17, 63, v23, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 13, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v16, 63, v22, vcc
-; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 12, v20
-; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v15, 63, v21, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 14, v18
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e64 s[0:1], 15, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e64 v17, 63, v17, s[0:1]
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v16, 63, v19, vcc
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v15, s21
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 13, v14
+; GFX9-IDXMODE-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x24
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v15, v15, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 13, v18
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v15, 63, v15, vcc
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v19, s20
+; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 12, v14
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v14, v19, v1, vcc
+; GFX9-IDXMODE-NEXT:    v_cmp_ne_u32_e32 vcc, 12, v18
+; GFX9-IDXMODE-NEXT:    v_mov_b32_e32 v18, 0
+; GFX9-IDXMODE-NEXT:    v_cndmask_b32_e32 v14, 63, v14, vcc
 ; GFX9-IDXMODE-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v0
-; GFX9-IDXMODE-NEXT:    global_store_dwordx4 v2, v[15:18], s[0:1] offset:48
+; GFX9-IDXMODE-NEXT:    s_waitcnt lgkmcnt(0)
+; GFX9-IDXMODE-NEXT:    global_store_dwordx4 v18, v[14:17], s[0:1] offset:48
 ; GFX9-IDXMODE-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-IDXMODE-NEXT:    global_store_dwordx4 v2, v[11:14], s[0:1] offset:32
+; GFX9-IDXMODE-NEXT:    global_store_dwordx4 v18, v[10:13], s[0:1] offset:32
 ; GFX9-IDXMODE-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-IDXMODE-NEXT:    global_store_dwordx4 v2, v[7:10], s[0:1] offset:16
+; GFX9-IDXMODE-NEXT:    global_store_dwordx4 v18, v[6:9], s[0:1] offset:16
 ; GFX9-IDXMODE-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-IDXMODE-NEXT:    global_store_dwordx4 v2, v[3:6], s[0:1]
+; GFX9-IDXMODE-NEXT:    global_store_dwordx4 v18, v[2:5], s[0:1]
 ; GFX9-IDXMODE-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-IDXMODE-NEXT:    s_and_saveexec_b64 s[0:1], vcc
 ; GFX9-IDXMODE-NEXT:    s_cbranch_execz .LBB17_2
@@ -6629,132 +6631,134 @@ bb2:
 define amdgpu_kernel void @insert_w_offset_multiple_in_block(ptr addrspace(1) %out1, i32 %in) {
 ; GENERIC-LABEL: insert_w_offset_multiple_in_block:
 ; GENERIC:       ; %bb.0: ; %entry
-; GENERIC-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x9
-; GENERIC-NEXT:    s_load_dword s4, s[4:5], 0xb
-; GENERIC-NEXT:    s_mov_b32 s3, 0xf000
-; GENERIC-NEXT:    s_mov_b32 s2, -1
-; GENERIC-NEXT:    v_mov_b32_e32 v0, 0x41500000
-; GENERIC-NEXT:    v_mov_b32_e32 v8, 0x41880000
-; GENERIC-NEXT:    v_mov_b32_e32 v1, 0x41600000
-; GENERIC-NEXT:    v_mov_b32_e32 v2, 0x41700000
-; GENERIC-NEXT:    v_mov_b32_e32 v3, 0x41800000
-; GENERIC-NEXT:    v_mov_b32_e32 v4, 0x41100000
-; GENERIC-NEXT:    v_mov_b32_e32 v5, 0x41200000
-; GENERIC-NEXT:    v_mov_b32_e32 v6, 0x41300000
-; GENERIC-NEXT:    v_mov_b32_e32 v7, 0x41400000
+; GENERIC-NEXT:    s_load_dwordx2 s[28:29], s[4:5], 0x9
+; GENERIC-NEXT:    s_load_dword s24, s[4:5], 0xb
+; GENERIC-NEXT:    s_mov_b32 s31, 0xf000
+; GENERIC-NEXT:    s_mov_b32 s30, -1
+; GENERIC-NEXT:    v_mov_b32_e32 v1, 0x41500000
+; GENERIC-NEXT:    v_mov_b32_e32 v0, 0x41880000
+; GENERIC-NEXT:    v_mov_b32_e32 v2, 0x41600000
+; GENERIC-NEXT:    v_mov_b32_e32 v3, 0x41700000
+; GENERIC-NEXT:    v_mov_b32_e32 v4, 0x41800000
+; GENERIC-NEXT:    v_mov_b32_e32 v5, 0x41100000
+; GENERIC-NEXT:    v_mov_b32_e32 v6, 0x41200000
+; GENERIC-NEXT:    v_mov_b32_e32 v7, 0x41300000
+; GENERIC-NEXT:    v_mov_b32_e32 v8, 0x41400000
 ; GENERIC-NEXT:    v_mov_b32_e32 v9, 0x40a00000
 ; GENERIC-NEXT:    v_mov_b32_e32 v10, 0x40c00000
 ; GENERIC-NEXT:    v_mov_b32_e32 v11, 0x40e00000
 ; GENERIC-NEXT:    v_mov_b32_e32 v12, 0x41000000
 ; GENERIC-NEXT:    v_mov_b32_e32 v15, 0x40400000
 ; GENERIC-NEXT:    s_waitcnt lgkmcnt(0)
-; GENERIC-NEXT:    s_add_i32 s5, s4, 1
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 12
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v0, v0, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 13
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v1, v1, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 14
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v2, v2, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 15
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v3, v3, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 8
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v4, v4, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 9
-; GENERIC-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v5, v5, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 10
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v6, v6, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 11
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v7, v7, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 4
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v9, v9, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 5
-; GENERIC-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:32
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v10, v10, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 6
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v11, v11, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 7
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v12, v12, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 0
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v13, 1.0, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 1
-; GENERIC-NEXT:    buffer_store_dwordx4 v[9:12], off, s[0:3], 0 offset:16
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v14, 2.0, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 2
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v15, v15, v8, vcc
-; GENERIC-NEXT:    s_cmp_eq_u32 s5, 3
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v16, 4.0, v8, vcc
-; GENERIC-NEXT:    s_add_i32 s4, s4, 2
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 3
-; GENERIC-NEXT:    buffer_store_dwordx4 v[13:16], off, s[0:3], 0
+; GENERIC-NEXT:    s_add_i32 s25, s24, 1
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 12
 ; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 13
+; GENERIC-NEXT:    s_cselect_b64 s[0:1], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 14
+; GENERIC-NEXT:    s_cselect_b64 s[2:3], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 15
+; GENERIC-NEXT:    s_cselect_b64 s[4:5], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 8
+; GENERIC-NEXT:    s_cselect_b64 s[6:7], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 9
+; GENERIC-NEXT:    s_cselect_b64 s[8:9], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 10
+; GENERIC-NEXT:    s_cselect_b64 s[10:11], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 11
+; GENERIC-NEXT:    s_cselect_b64 s[12:13], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 4
+; GENERIC-NEXT:    s_cselect_b64 s[14:15], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 5
+; GENERIC-NEXT:    s_cselect_b64 s[16:17], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 6
+; GENERIC-NEXT:    s_cselect_b64 s[18:19], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 7
+; GENERIC-NEXT:    s_cselect_b64 s[20:21], -1, 0
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 0
+; GENERIC-NEXT:    s_cselect_b64 s[22:23], -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e64 v13, 1.0, v0, s[22:23]
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 1
+; GENERIC-NEXT:    s_cselect_b64 s[22:23], -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e64 v14, 2.0, v0, s[22:23]
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 2
+; GENERIC-NEXT:    s_cselect_b64 s[22:23], -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e64 v15, v15, v0, s[22:23]
+; GENERIC-NEXT:    s_cmp_eq_u32 s25, 3
+; GENERIC-NEXT:    s_cselect_b64 s[22:23], -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e64 v16, 4.0, v0, s[22:23]
+; GENERIC-NEXT:    s_add_i32 s26, s24, 2
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 3
+; GENERIC-NEXT:    buffer_store_dwordx4 v[13:16], off, s[28:31], 0
+; GENERIC-NEXT:    s_cselect_b64 s[22:23], -1, 0
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 2
+; GENERIC-NEXT:    s_cselect_b64 s[24:25], -1, 0
 ; GENERIC-NEXT:    s_waitcnt expcnt(0)
-; GENERIC-NEXT:    v_cndmask_b32_e32 v16, v8, v16, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 2
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v15, v8, v15, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 1
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v14, v8, v14, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 0
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v13, v8, v13, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 7
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v12, v8, v12, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 6
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v11, v8, v11, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 5
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v10, v8, v10, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 4
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v9, v8, v9, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 11
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v7, v8, v7, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 10
-; GENERIC-NEXT:    buffer_store_dwordx4 v[9:12], off, s[0:3], 0 offset:80
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v6, v8, v6, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 9
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v5, v8, v5, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 8
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v4, v8, v4, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 15
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v3, v8, v3, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 14
-; GENERIC-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:96
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v2, v8, v2, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 13
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v1, v8, v1, vcc
-; GENERIC-NEXT:    s_cmp_lg_u32 s4, 12
-; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
-; GENERIC-NEXT:    v_cndmask_b32_e32 v0, v8, v0, vcc
-; GENERIC-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:112
-; GENERIC-NEXT:    buffer_store_dwordx4 v[13:16], off, s[0:3], 0 offset:64
+; GENERIC-NEXT:    v_cndmask_b32_e64 v16, v0, v16, s[22:23]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v15, v0, v15, s[24:25]
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 1
+; GENERIC-NEXT:    s_cselect_b64 s[22:23], -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e64 v14, v0, v14, s[22:23]
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 0
+; GENERIC-NEXT:    s_cselect_b64 s[22:23], -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e64 v13, v0, v13, s[22:23]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v9, v9, v0, s[14:15]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v10, v10, v0, s[16:17]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v11, v11, v0, s[18:19]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v12, v12, v0, s[20:21]
+; GENERIC-NEXT:    buffer_store_dwordx4 v[9:12], off, s[28:31], 0 offset:16
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 7
+; GENERIC-NEXT:    s_cselect_b64 s[14:15], -1, 0
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 6
+; GENERIC-NEXT:    s_cselect_b64 s[16:17], -1, 0
+; GENERIC-NEXT:    s_waitcnt expcnt(0)
+; GENERIC-NEXT:    v_cndmask_b32_e64 v12, v0, v12, s[14:15]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v11, v0, v11, s[16:17]
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 5
+; GENERIC-NEXT:    s_cselect_b64 s[14:15], -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e64 v10, v0, v10, s[14:15]
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 4
+; GENERIC-NEXT:    s_cselect_b64 s[14:15], -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e64 v9, v0, v9, s[14:15]
+; GENERIC-NEXT:    v_cndmask_b32_e32 v1, v1, v0, vcc
+; GENERIC-NEXT:    v_cndmask_b32_e64 v2, v2, v0, s[0:1]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v3, v3, v0, s[2:3]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v4, v4, v0, s[4:5]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v5, v5, v0, s[6:7]
+; GENERIC-NEXT:    buffer_store_dwordx4 v[1:4], off, s[28:31], 0 offset:48
+; GENERIC-NEXT:    v_cndmask_b32_e64 v6, v6, v0, s[8:9]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v7, v7, v0, s[10:11]
+; GENERIC-NEXT:    v_cndmask_b32_e64 v8, v8, v0, s[12:13]
+; GENERIC-NEXT:    buffer_store_dwordx4 v[5:8], off, s[28:31], 0 offset:32
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 11
+; GENERIC-NEXT:    buffer_store_dwordx4 v[9:12], off, s[28:31], 0 offset:80
+; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
+; GENERIC-NEXT:    s_waitcnt expcnt(1)
+; GENERIC-NEXT:    v_cndmask_b32_e32 v8, v0, v8, vcc
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 10
+; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e32 v7, v0, v7, vcc
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 9
+; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e32 v6, v0, v6, vcc
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 8
+; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e32 v5, v0, v5, vcc
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 15
+; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e32 v4, v0, v4, vcc
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 14
+; GENERIC-NEXT:    buffer_store_dwordx4 v[5:8], off, s[28:31], 0 offset:96
+; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e32 v3, v0, v3, vcc
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 13
+; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e32 v2, v0, v2, vcc
+; GENERIC-NEXT:    s_cmp_lg_u32 s26, 12
+; GENERIC-NEXT:    s_cselect_b64 vcc, -1, 0
+; GENERIC-NEXT:    v_cndmask_b32_e32 v1, v0, v1, vcc
+; GENERIC-NEXT:    buffer_store_dwordx4 v[1:4], off, s[28:31], 0 offset:112
+; GENERIC-NEXT:    buffer_store_dwordx4 v[13:16], off, s[28:31], 0 offset:64
 ; GENERIC-NEXT:    s_endpgm
 ;
 ; NOOPT-LABEL: insert_w_offset_multiple_in_block:
diff --git a/llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2bf16.ll b/llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2bf16.ll
index 48a168b4bfbe7..d5b6c19399a1f 100644
--- a/llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2bf16.ll
+++ b/llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2bf16.ll
@@ -1314,108 +1314,108 @@ define amdgpu_kernel void @v_insertelement_v16bf16_3(ptr addrspace(1) %out, ptr
 define amdgpu_kernel void @v_insertelement_v16bf16_dynamic(ptr addrspace(1) %out, ptr addrspace(1) %in, i32 %val, i32 %n) {
 ; SI-LABEL: v_insertelement_v16bf16_dynamic:
 ; SI:       ; %bb.0:
-; SI-NEXT:    s_load_dwordx4 s[0:3], s[8:9], 0x0
-; SI-NEXT:    s_load_dwordx2 s[4:5], s[8:9], 0x4
-; SI-NEXT:    s_mov_b32 s11, 0x100f000
-; SI-NEXT:    s_mov_b32 s10, 0
+; SI-NEXT:    s_load_dwordx4 s[12:15], s[8:9], 0x0
+; SI-NEXT:    s_load_dwordx2 s[6:7], s[8:9], 0x4
+; SI-NEXT:    s_mov_b32 s3, 0x100f000
+; SI-NEXT:    s_mov_b32 s2, 0
 ; SI-NEXT:    v_lshlrev_b32_e32 v4, 5, v0
 ; SI-NEXT:    s_waitcnt lgkmcnt(0)
-; SI-NEXT:    s_mov_b64 s[8:9], s[2:3]
+; SI-NEXT:    s_mov_b64 s[0:1], s[14:15]
 ; SI-NEXT:    v_mov_b32_e32 v5, 0
-; SI-NEXT:    buffer_load_dwordx4 v[7:10], v[4:5], s[8:11], 0 addr64
-; SI-NEXT:    buffer_load_dwordx4 v[0:3], v[4:5], s[8:11], 0 addr64 offset:16
-; SI-NEXT:    s_cmp_eq_u32 s5, 6
-; SI-NEXT:    v_mov_b32_e32 v6, s4
+; SI-NEXT:    buffer_load_dwordx4 v[7:10], v[4:5], s[0:3], 0 addr64
+; SI-NEXT:    buffer_load_dwordx4 v[0:3], v[4:5], s[0:3], 0 addr64 offset:16
+; SI-NEXT:    s_cmp_eq_u32 s7, 6
+; SI-NEXT:    v_mov_b32_e32 v6, s6
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 7
-; SI-NEXT:    s_mov_b64 s[2:3], s[10:11]
+; SI-NEXT:    s_cmp_eq_u32 s7, 7
+; SI-NEXT:    s_mov_b64 s[14:15], s[2:3]
 ; SI-NEXT:    s_waitcnt vmcnt(1)
 ; SI-NEXT:    v_cndmask_b32_e32 v11, v10, v6, vcc
-; SI-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 4
-; SI-NEXT:    v_cndmask_b32_e32 v10, v10, v6, vcc
-; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 5
+; SI-NEXT:    s_cmp_eq_u32 s7, 4
+; SI-NEXT:    s_cselect_b64 s[0:1], -1, 0
+; SI-NEXT:    s_cmp_eq_u32 s7, 5
+; SI-NEXT:    v_lshrrev_b32_e32 v10, 16, v10
 ; SI-NEXT:    v_lshrrev_b32_e32 v12, 16, v9
-; SI-NEXT:    v_cndmask_b32_e32 v9, v9, v6, vcc
-; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 2
+; SI-NEXT:    v_cndmask_b32_e64 v9, v9, v6, s[0:1]
+; SI-NEXT:    s_cselect_b64 s[0:1], -1, 0
+; SI-NEXT:    s_cmp_eq_u32 s7, 2
+; SI-NEXT:    s_cselect_b64 s[2:3], -1, 0
+; SI-NEXT:    s_cmp_eq_u32 s7, 3
+; SI-NEXT:    v_cndmask_b32_e32 v10, v10, v6, vcc
+; SI-NEXT:    v_lshrrev_b32_e32 v13, 16, v8
+; SI-NEXT:    v_cndmask_b32_e64 v8, v8, v6, s[2:3]
+; SI-NEXT:    s_cselect_b64 s[2:3], -1, 0
+; SI-NEXT:    s_cmp_eq_u32 s7, 0
 ; SI-NEXT:    v_and_b32_e32 v11, 0xffff, v11
 ; SI-NEXT:    v_lshlrev_b32_e32 v10, 16, v10
-; SI-NEXT:    v_cndmask_b32_e32 v12, v12, v6, vcc
-; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 3
-; SI-NEXT:    v_lshrrev_b32_e32 v13, 16, v8
-; SI-NEXT:    v_and_b32_e32 v9, 0xffff, v9
+; SI-NEXT:    v_cndmask_b32_e64 v12, v12, v6, s[0:1]
+; SI-NEXT:    s_cselect_b64 s[4:5], -1, 0
 ; SI-NEXT:    v_or_b32_e32 v10, v11, v10
 ; SI-NEXT:    v_lshlrev_b32_e32 v11, 16, v12
-; SI-NEXT:    v_cndmask_b32_e32 v8, v8, v6, vcc
-; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 0
-; SI-NEXT:    v_or_b32_e32 v9, v9, v11
-; SI-NEXT:    v_cndmask_b32_e32 v11, v13, v6, vcc
-; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 1
+; SI-NEXT:    v_cndmask_b32_e64 v12, v13, v6, s[2:3]
+; SI-NEXT:    s_cmp_eq_u32 s7, 1
 ; SI-NEXT:    v_lshrrev_b32_e32 v14, 16, v7
 ; SI-NEXT:    v_and_b32_e32 v8, 0xffff, v8
-; SI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
-; SI-NEXT:    v_cndmask_b32_e32 v7, v7, v6, vcc
+; SI-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 14
-; SI-NEXT:    v_or_b32_e32 v8, v8, v11
-; SI-NEXT:    v_cndmask_b32_e32 v11, v14, v6, vcc
+; SI-NEXT:    s_cmp_eq_u32 s7, 14
+; SI-NEXT:    v_cndmask_b32_e64 v7, v7, v6, s[4:5]
+; SI-NEXT:    v_or_b32_e32 v8, v8, v12
+; SI-NEXT:    v_cndmask_b32_e32 v12, v14, v6, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 15
+; SI-NEXT:    s_cmp_eq_u32 s7, 15
 ; SI-NEXT:    s_waitcnt vmcnt(0)
 ; SI-NEXT:    v_lshrrev_b32_e32 v15, 16, v3
 ; SI-NEXT:    v_and_b32_e32 v7, 0xffff, v7
-; SI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
+; SI-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
 ; SI-NEXT:    v_cndmask_b32_e32 v3, v3, v6, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 12
-; SI-NEXT:    v_or_b32_e32 v7, v7, v11
-; SI-NEXT:    v_cndmask_b32_e32 v11, v15, v6, vcc
+; SI-NEXT:    s_cmp_eq_u32 s7, 12
+; SI-NEXT:    v_or_b32_e32 v7, v7, v12
+; SI-NEXT:    v_cndmask_b32_e32 v12, v15, v6, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 13
+; SI-NEXT:    s_cmp_eq_u32 s7, 13
 ; SI-NEXT:    v_lshrrev_b32_e32 v16, 16, v2
 ; SI-NEXT:    v_and_b32_e32 v3, 0xffff, v3
-; SI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
+; SI-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
 ; SI-NEXT:    v_cndmask_b32_e32 v2, v2, v6, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 10
-; SI-NEXT:    v_or_b32_e32 v3, v3, v11
-; SI-NEXT:    v_cndmask_b32_e32 v11, v16, v6, vcc
+; SI-NEXT:    s_cmp_eq_u32 s7, 10
+; SI-NEXT:    v_or_b32_e32 v3, v3, v12
+; SI-NEXT:    v_cndmask_b32_e32 v12, v16, v6, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 11
+; SI-NEXT:    s_cmp_eq_u32 s7, 11
 ; SI-NEXT:    v_lshrrev_b32_e32 v17, 16, v1
 ; SI-NEXT:    v_and_b32_e32 v2, 0xffff, v2
-; SI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
+; SI-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
 ; SI-NEXT:    v_cndmask_b32_e32 v1, v1, v6, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 8
-; SI-NEXT:    v_or_b32_e32 v2, v2, v11
-; SI-NEXT:    v_cndmask_b32_e32 v11, v17, v6, vcc
+; SI-NEXT:    s_cmp_eq_u32 s7, 8
+; SI-NEXT:    v_and_b32_e32 v9, 0xffff, v9
+; SI-NEXT:    v_or_b32_e32 v2, v2, v12
+; SI-NEXT:    v_cndmask_b32_e32 v12, v17, v6, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    s_cmp_eq_u32 s5, 9
-; SI-NEXT:    v_lshrrev_b32_e32 v18, 16, v0
+; SI-NEXT:    s_cmp_eq_u32 s7, 9
+; SI-NEXT:    v_or_b32_e32 v9, v9, v11
+; SI-NEXT:    v_lshrrev_b32_e32 v11, 16, v0
 ; SI-NEXT:    v_cndmask_b32_e32 v0, v0, v6, vcc
 ; SI-NEXT:    s_cselect_b64 vcc, -1, 0
-; SI-NEXT:    v_cndmask_b32_e32 v6, v18, v6, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v6, v11, v6, vcc
 ; SI-NEXT:    v_and_b32_e32 v1, 0xffff, v1
-; SI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
+; SI-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
 ; SI-NEXT:    v_and_b32_e32 v0, 0xffff, v0
 ; SI-NEXT:    v_lshlrev_b32_e32 v6, 16, v6
-; SI-NEXT:    v_or_b32_e32 v1, v1, v11
+; SI-NEXT:    v_or_b32_e32 v1, v1, v12
 ; SI-NEXT:    v_or_b32_e32 v0, v0, v6
-; SI-NEXT:    buffer_store_dwordx4 v[0:3], v[4:5], s[0:3], 0 addr64 offset:16
-; SI-NEXT:    buffer_store_dwordx4 v[7:10], v[4:5], s[0:3], 0 addr64
+; SI-NEXT:    buffer_store_dwordx4 v[0:3], v[4:5], s[12:15], 0 addr64 offset:16
+; SI-NEXT:    buffer_store_dwordx4 v[7:10], v[4:5], s[12:15], 0 addr64
 ; SI-NEXT:    s_endpgm
 ;
 ; VI-LABEL: v_insertelement_v16bf16_dynamic:
 ; VI:       ; %bb.0:
 ; VI-NEXT:    s_load_dwordx4 s[0:3], s[8:9], 0x0
-; VI-NEXT:    s_load_dwordx2 s[4:5], s[8:9], 0x10
+; VI-NEXT:    s_load_dwordx2 s[6:7], s[8:9], 0x10
 ; VI-NEXT:    v_lshlrev_b32_e32 v8, 5, v0
 ; VI-NEXT:    s_waitcnt lgkmcnt(0)
 ; VI-NEXT:    v_mov_b32_e32 v0, s3
@@ -1429,81 +1429,81 @@ define amdgpu_kernel void @v_insertelement_v16bf16_dynamic(ptr addrspace(1) %out
 ; VI-NEXT:    v_add_u32_e32 v8, vcc, s0, v8
 ; VI-NEXT:    v_addc_u32_e32 v9, vcc, 0, v9, vcc
 ; VI-NEXT:    v_add_u32_e32 v10, vcc, 16, v8
-; VI-NEXT:    s_cmp_eq_u32 s5, 14
+; VI-NEXT:    s_cmp_eq_u32 s7, 14
 ; VI-NEXT:    v_addc_u32_e32 v11, vcc, 0, v9, vcc
-; VI-NEXT:    v_mov_b32_e32 v12, s4
+; VI-NEXT:    v_mov_b32_e32 v12, s6
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 15
+; VI-NEXT:    s_cmp_eq_u32 s7, 15
 ; VI-NEXT:    s_waitcnt vmcnt(1)
 ; VI-NEXT:    v_cndmask_b32_e32 v13, v3, v12, vcc
-; VI-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 12
-; VI-NEXT:    v_cndmask_b32_e32 v3, v3, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 13
+; VI-NEXT:    s_cmp_eq_u32 s7, 12
+; VI-NEXT:    s_cselect_b64 s[0:1], -1, 0
+; VI-NEXT:    s_cmp_eq_u32 s7, 13
 ; VI-NEXT:    v_lshrrev_b32_e32 v14, 16, v2
-; VI-NEXT:    v_cndmask_b32_e32 v2, v2, v12, vcc
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 10
-; VI-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
-; VI-NEXT:    v_cndmask_b32_e32 v14, v14, v12, vcc
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 11
+; VI-NEXT:    v_cndmask_b32_e64 v2, v2, v12, s[0:1]
+; VI-NEXT:    s_cselect_b64 s[0:1], -1, 0
+; VI-NEXT:    s_cmp_eq_u32 s7, 10
+; VI-NEXT:    s_cselect_b64 s[2:3], -1, 0
+; VI-NEXT:    s_cmp_eq_u32 s7, 11
 ; VI-NEXT:    v_lshrrev_b32_e32 v15, 16, v1
-; VI-NEXT:    v_or_b32_sdwa v3, v13, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v14
-; VI-NEXT:    v_cndmask_b32_e32 v1, v1, v12, vcc
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 8
-; VI-NEXT:    v_or_b32_sdwa v2, v2, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v15, v12, vcc
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 9
+; VI-NEXT:    v_cndmask_b32_e64 v1, v1, v12, s[2:3]
+; VI-NEXT:    s_cselect_b64 s[2:3], -1, 0
+; VI-NEXT:    s_cmp_eq_u32 s7, 8
+; VI-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
+; VI-NEXT:    s_cselect_b64 s[4:5], -1, 0
+; VI-NEXT:    v_cndmask_b32_e64 v15, v15, v12, s[2:3]
+; VI-NEXT:    s_cmp_eq_u32 s7, 9
 ; VI-NEXT:    v_lshrrev_b32_e32 v16, 16, v0
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
-; VI-NEXT:    v_cndmask_b32_e32 v0, v0, v12, vcc
+; VI-NEXT:    v_cndmask_b32_e32 v3, v3, v12, vcc
+; VI-NEXT:    v_lshlrev_b32_e32 v15, 16, v15
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 6
-; VI-NEXT:    v_or_b32_sdwa v1, v1, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v16, v12, vcc
+; VI-NEXT:    s_cmp_eq_u32 s7, 6
+; VI-NEXT:    v_or_b32_sdwa v1, v1, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_cndmask_b32_e32 v15, v16, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 7
+; VI-NEXT:    s_cmp_eq_u32 s7, 7
+; VI-NEXT:    v_cndmask_b32_e64 v0, v0, v12, s[4:5]
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    v_lshrrev_b32_e32 v17, 16, v7
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; VI-NEXT:    v_cndmask_b32_e64 v14, v14, v12, s[0:1]
+; VI-NEXT:    v_lshlrev_b32_e32 v15, 16, v15
 ; VI-NEXT:    v_cndmask_b32_e32 v7, v7, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 4
-; VI-NEXT:    v_or_b32_sdwa v0, v0, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v17, v12, vcc
+; VI-NEXT:    s_cmp_eq_u32 s7, 4
+; VI-NEXT:    v_or_b32_sdwa v3, v13, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v14
+; VI-NEXT:    v_or_b32_sdwa v0, v0, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_cndmask_b32_e32 v15, v17, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 5
-; VI-NEXT:    v_lshrrev_b32_e32 v18, 16, v6
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    s_cmp_eq_u32 s7, 5
+; VI-NEXT:    v_or_b32_sdwa v2, v2, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_lshrrev_b32_e32 v13, 16, v6
 ; VI-NEXT:    v_cndmask_b32_e32 v6, v6, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 2
-; VI-NEXT:    v_or_b32_sdwa v7, v7, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v18, v12, vcc
+; VI-NEXT:    s_cmp_eq_u32 s7, 2
+; VI-NEXT:    v_cndmask_b32_e32 v13, v13, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 3
-; VI-NEXT:    v_lshrrev_b32_e32 v19, 16, v5
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    s_cmp_eq_u32 s7, 3
+; VI-NEXT:    v_lshrrev_b32_e32 v14, 16, v5
 ; VI-NEXT:    v_cndmask_b32_e32 v5, v5, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 0
-; VI-NEXT:    v_or_b32_sdwa v6, v6, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v19, v12, vcc
+; VI-NEXT:    s_cmp_eq_u32 s7, 0
+; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    v_cndmask_b32_e32 v14, v14, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 1
-; VI-NEXT:    v_lshrrev_b32_e32 v20, 16, v4
+; VI-NEXT:    s_cmp_eq_u32 s7, 1
+; VI-NEXT:    v_or_b32_sdwa v6, v6, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_lshrrev_b32_e32 v13, 16, v4
 ; VI-NEXT:    v_cndmask_b32_e32 v4, v4, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    v_cndmask_b32_e32 v12, v20, v12, vcc
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    v_cndmask_b32_e32 v12, v13, v12, vcc
+; VI-NEXT:    v_lshlrev_b32_e32 v15, 16, v15
+; VI-NEXT:    v_lshlrev_b32_e32 v14, 16, v14
 ; VI-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
-; VI-NEXT:    v_or_b32_sdwa v5, v5, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_or_b32_sdwa v7, v7, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_or_b32_sdwa v5, v5, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    v_or_b32_sdwa v4, v4, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    flat_store_dwordx4 v[8:9], v[4:7]
 ; VI-NEXT:    flat_store_dwordx4 v[10:11], v[0:3]
@@ -1542,16 +1542,14 @@ define amdgpu_kernel void @v_insertelement_v16bf16_dynamic(ptr addrspace(1) %out
 ; GFX900-NEXT:    v_cndmask_b32_e32 v2, v2, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 0
-; GFX900-NEXT:    v_perm_b32 v3, v10, v3, s2
-; GFX900-NEXT:    v_cndmask_b32_e32 v10, v12, v9, vcc
+; GFX900-NEXT:    v_cndmask_b32_e32 v11, v12, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 1
 ; GFX900-NEXT:    v_lshrrev_b32_e32 v13, 16, v1
 ; GFX900-NEXT:    v_cndmask_b32_e32 v1, v1, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 14
-; GFX900-NEXT:    v_perm_b32 v2, v10, v2, s2
-; GFX900-NEXT:    v_cndmask_b32_e32 v10, v13, v9, vcc
+; GFX900-NEXT:    v_cndmask_b32_e32 v12, v13, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 15
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
@@ -1559,30 +1557,32 @@ define amdgpu_kernel void @v_insertelement_v16bf16_dynamic(ptr addrspace(1) %out
 ; GFX900-NEXT:    v_cndmask_b32_e32 v8, v8, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 12
-; GFX900-NEXT:    v_perm_b32 v1, v10, v1, s2
-; GFX900-NEXT:    v_cndmask_b32_e32 v10, v14, v9, vcc
+; GFX900-NEXT:    v_perm_b32 v1, v12, v1, s2
+; GFX900-NEXT:    v_cndmask_b32_e32 v12, v14, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 13
 ; GFX900-NEXT:    v_lshrrev_b32_e32 v15, 16, v7
 ; GFX900-NEXT:    v_cndmask_b32_e32 v7, v7, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 10
-; GFX900-NEXT:    v_perm_b32 v8, v10, v8, s2
-; GFX900-NEXT:    v_cndmask_b32_e32 v10, v15, v9, vcc
+; GFX900-NEXT:    v_perm_b32 v8, v12, v8, s2
+; GFX900-NEXT:    v_cndmask_b32_e32 v12, v15, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 11
-; GFX900-NEXT:    v_lshrrev_b32_e32 v16, 16, v6
+; GFX900-NEXT:    v_perm_b32 v3, v10, v3, s2
+; GFX900-NEXT:    v_lshrrev_b32_e32 v10, 16, v6
 ; GFX900-NEXT:    v_cndmask_b32_e32 v6, v6, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 8
-; GFX900-NEXT:    v_perm_b32 v7, v10, v7, s2
-; GFX900-NEXT:    v_cndmask_b32_e32 v10, v16, v9, vcc
+; GFX900-NEXT:    v_cndmask_b32_e32 v10, v10, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX900-NEXT:    s_cmp_eq_u32 s5, 9
-; GFX900-NEXT:    v_lshrrev_b32_e32 v17, 16, v5
+; GFX900-NEXT:    v_perm_b32 v2, v11, v2, s2
+; GFX900-NEXT:    v_lshrrev_b32_e32 v11, 16, v5
 ; GFX900-NEXT:    v_cndmask_b32_e32 v5, v5, v9, vcc
 ; GFX900-NEXT:    s_cselect_b64 vcc, -1, 0
-; GFX900-NEXT:    v_cndmask_b32_e32 v9, v17, v9, vcc
+; GFX900-NEXT:    v_cndmask_b32_e32 v9, v11, v9, vcc
+; GFX900-NEXT:    v_perm_b32 v7, v12, v7, s2
 ; GFX900-NEXT:    v_perm_b32 v6, v10, v6, s2
 ; GFX900-NEXT:    v_perm_b32 v5, v9, v5, s2
 ; GFX900-NEXT:    global_store_dwordx4 v0, v[5:8], s[0:1] offset:16
diff --git a/llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll b/llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll
index d09af8fd2ac95..12b4b2b372ef8 100644
--- a/llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll
+++ b/llvm/test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll
@@ -2794,16 +2794,14 @@ define amdgpu_kernel void @v_insertelement_v16f16_dynamic(ptr addrspace(1) %out,
 ; GFX9-NEXT:    v_cndmask_b32_e32 v2, v2, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 0
-; GFX9-NEXT:    v_perm_b32 v3, v10, v3, s2
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, v12, v9, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v11, v12, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 1
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v13, 16, v1
 ; GFX9-NEXT:    v_cndmask_b32_e32 v1, v1, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 14
-; GFX9-NEXT:    v_perm_b32 v2, v10, v2, s2
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, v13, v9, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v12, v13, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 15
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
@@ -2811,30 +2809,32 @@ define amdgpu_kernel void @v_insertelement_v16f16_dynamic(ptr addrspace(1) %out,
 ; GFX9-NEXT:    v_cndmask_b32_e32 v8, v8, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 12
-; GFX9-NEXT:    v_perm_b32 v1, v10, v1, s2
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, v14, v9, vcc
+; GFX9-NEXT:    v_perm_b32 v1, v12, v1, s2
+; GFX9-NEXT:    v_cndmask_b32_e32 v12, v14, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 13
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v15, 16, v7
 ; GFX9-NEXT:    v_cndmask_b32_e32 v7, v7, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 10
-; GFX9-NEXT:    v_perm_b32 v8, v10, v8, s2
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, v15, v9, vcc
+; GFX9-NEXT:    v_perm_b32 v8, v12, v8, s2
+; GFX9-NEXT:    v_cndmask_b32_e32 v12, v15, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 11
-; GFX9-NEXT:    v_lshrrev_b32_e32 v16, 16, v6
+; GFX9-NEXT:    v_perm_b32 v3, v10, v3, s2
+; GFX9-NEXT:    v_lshrrev_b32_e32 v10, 16, v6
 ; GFX9-NEXT:    v_cndmask_b32_e32 v6, v6, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 8
-; GFX9-NEXT:    v_perm_b32 v7, v10, v7, s2
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, v16, v9, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v10, v10, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
 ; GFX9-NEXT:    s_cmp_eq_u32 s5, 9
-; GFX9-NEXT:    v_lshrrev_b32_e32 v17, 16, v5
+; GFX9-NEXT:    v_perm_b32 v2, v11, v2, s2
+; GFX9-NEXT:    v_lshrrev_b32_e32 v11, 16, v5
 ; GFX9-NEXT:    v_cndmask_b32_e32 v5, v5, v9, vcc
 ; GFX9-NEXT:    s_cselect_b64 vcc, -1, 0
-; GFX9-NEXT:    v_cndmask_b32_e32 v9, v17, v9, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v9, v11, v9, vcc
+; GFX9-NEXT:    v_perm_b32 v7, v12, v7, s2
 ; GFX9-NEXT:    v_perm_b32 v6, v10, v6, s2
 ; GFX9-NEXT:    v_perm_b32 v5, v9, v5, s2
 ; GFX9-NEXT:    global_store_dwordx4 v0, v[5:8], s[0:1] offset:16
@@ -2844,7 +2844,7 @@ define amdgpu_kernel void @v_insertelement_v16f16_dynamic(ptr addrspace(1) %out,
 ; VI-LABEL: v_insertelement_v16f16_dynamic:
 ; VI:       ; %bb.0:
 ; VI-NEXT:    s_load_dwordx4 s[0:3], s[8:9], 0x0
-; VI-NEXT:    s_load_dwordx2 s[4:5], s[8:9], 0x10
+; VI-NEXT:    s_load_dwordx2 s[6:7], s[8:9], 0x10
 ; VI-NEXT:    v_lshlrev_b32_e32 v8, 5, v0
 ; VI-NEXT:    s_waitcnt lgkmcnt(0)
 ; VI-NEXT:    v_mov_b32_e32 v0, s3
@@ -2858,81 +2858,81 @@ define amdgpu_kernel void @v_insertelement_v16f16_dynamic(ptr addrspace(1) %out,
 ; VI-NEXT:    v_add_u32_e32 v8, vcc, s0, v8
 ; VI-NEXT:    v_addc_u32_e32 v9, vcc, 0, v9, vcc
 ; VI-NEXT:    v_add_u32_e32 v10, vcc, 16, v8
-; VI-NEXT:    s_cmp_eq_u32 s5, 14
+; VI-NEXT:    s_cmp_eq_u32 s7, 14
 ; VI-NEXT:    v_addc_u32_e32 v11, vcc, 0, v9, vcc
-; VI-NEXT:    v_mov_b32_e32 v12, s4
+; VI-NEXT:    v_mov_b32_e32 v12, s6
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 15
+; VI-NEXT:    s_cmp_eq_u32 s7, 15
 ; VI-NEXT:    s_waitcnt vmcnt(1)
 ; VI-NEXT:    v_cndmask_b32_e32 v13, v3, v12, vcc
-; VI-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 12
-; VI-NEXT:    v_cndmask_b32_e32 v3, v3, v12, vcc
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 13
+; VI-NEXT:    s_cmp_eq_u32 s7, 12
+; VI-NEXT:    s_cselect_b64 s[0:1], -1, 0
+; VI-NEXT:    s_cmp_eq_u32 s7, 13
 ; VI-NEXT:    v_lshrrev_b32_e32 v14, 16, v2
-; VI-NEXT:    v_cndmask_b32_e32 v2, v2, v12, vcc
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 10
-; VI-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
-; VI-NEXT:    v_cndmask_b32_e32 v14, v14, v12, vcc
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 11
+; VI-NEXT:    v_cndmask_b32_e64 v2, v2, v12, s[0:1]
+; VI-NEXT:    s_cselect_b64 s[0:1], -1, 0
+; VI-NEXT:    s_cmp_eq_u32 s7, 10
+; VI-NEXT:    s_cselect_b64 s[2:3], -1, 0
+; VI-NEXT:    s_cmp_eq_u32 s7, 11
 ; VI-NEXT:    v_lshrrev_b32_e32 v15, 16, v1
-; VI-NEXT:    v_or_b32_sdwa v3, v13, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v14
-; VI-NEXT:    v_cndmask_b32_e32 v1, v1, v12, vcc
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 8
-; VI-NEXT:    v_or_b32_sdwa v2, v2, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v15, v12, vcc
-; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 9
+; VI-NEXT:    v_cndmask_b32_e64 v1, v1, v12, s[2:3]
+; VI-NEXT:    s_cselect_b64 s[2:3], -1, 0
+; VI-NEXT:    s_cmp_eq_u32 s7, 8
+; VI-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
+; VI-NEXT:    s_cselect_b64 s[4:5], -1, 0
+; VI-NEXT:    v_cndmask_b32_e64 v15, v15, v12, s[2:3]
+; VI-NEXT:    s_cmp_eq_u32 s7, 9
 ; VI-NEXT:    v_lshrrev_b32_e32 v16, 16, v0
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
-; VI-NEXT:    v_cndmask_b32_e32 v0, v0, v12, vcc
+; VI-NEXT:    v_cndmask_b32_e32 v3, v3, v12, vcc
+; VI-NEXT:    v_lshlrev_b32_e32 v15, 16, v15
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 6
-; VI-NEXT:    v_or_b32_sdwa v1, v1, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v16, v12, vcc
+; VI-NEXT:    s_cmp_eq_u32 s7, 6
+; VI-NEXT:    v_or_b32_sdwa v1, v1, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_cndmask_b32_e32 v15, v16, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 7
+; VI-NEXT:    s_cmp_eq_u32 s7, 7
+; VI-NEXT:    v_cndmask_b32_e64 v0, v0, v12, s[4:5]
 ; VI-NEXT:    s_waitcnt vmcnt(0)
 ; VI-NEXT:    v_lshrrev_b32_e32 v17, 16, v7
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; VI-NEXT:    v_cndmask_b32_e64 v14, v14, v12, s[0:1]
+; VI-NEXT:    v_lshlrev_b32_e32 v15, 16, v15
 ; VI-NEXT:    v_cndmask_b32_e32 v7, v7, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 4
-; VI-NEXT:    v_or_b32_sdwa v0, v0, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v17, v12, vcc
+; VI-NEXT:    s_cmp_eq_u32 s7, 4
+; VI-NEXT:    v_or_b32_sdwa v3, v13, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v14
+; VI-NEXT:    v_or_b32_sdwa v0, v0, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_cndmask_b32_e32 v15, v17, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 5
-; VI-NEXT:    v_lshrrev_b32_e32 v18, 16, v6
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    s_cmp_eq_u32 s7, 5
+; VI-NEXT:    v_or_b32_sdwa v2, v2, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_lshrrev_b32_e32 v13, 16, v6
 ; VI-NEXT:    v_cndmask_b32_e32 v6, v6, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 2
-; VI-NEXT:    v_or_b32_sdwa v7, v7, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v18, v12, vcc
+; VI-NEXT:    s_cmp_eq_u32 s7, 2
+; VI-NEXT:    v_cndmask_b32_e32 v13, v13, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 3
-; VI-NEXT:    v_lshrrev_b32_e32 v19, 16, v5
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    s_cmp_eq_u32 s7, 3
+; VI-NEXT:    v_lshrrev_b32_e32 v14, 16, v5
 ; VI-NEXT:    v_cndmask_b32_e32 v5, v5, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 0
-; VI-NEXT:    v_or_b32_sdwa v6, v6, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_cndmask_b32_e32 v13, v19, v12, vcc
+; VI-NEXT:    s_cmp_eq_u32 s7, 0
+; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    v_cndmask_b32_e32 v14, v14, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    s_cmp_eq_u32 s5, 1
-; VI-NEXT:    v_lshrrev_b32_e32 v20, 16, v4
+; VI-NEXT:    s_cmp_eq_u32 s7, 1
+; VI-NEXT:    v_or_b32_sdwa v6, v6, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_lshrrev_b32_e32 v13, 16, v4
 ; VI-NEXT:    v_cndmask_b32_e32 v4, v4, v12, vcc
 ; VI-NEXT:    s_cselect_b64 vcc, -1, 0
-; VI-NEXT:    v_cndmask_b32_e32 v12, v20, v12, vcc
-; VI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
+; VI-NEXT:    v_cndmask_b32_e32 v12, v13, v12, vcc
+; VI-NEXT:    v_lshlrev_b32_e32 v15, 16, v15
+; VI-NEXT:    v_lshlrev_b32_e32 v14, 16, v14
 ; VI-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
-; VI-NEXT:    v_or_b32_sdwa v5, v5, v13 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_or_b32_sdwa v7, v7, v15 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_or_b32_sdwa v5, v5, v14 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    v_or_b32_sdwa v4, v4, v12 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    flat_store_dwordx4 v[8:9], v[4:7]
 ; VI-NEXT:    flat_store_dwordx4 v[10:11], v[0:3]
@@ -2965,101 +2965,101 @@ define amdgpu_kernel void @v_insertelement_v16f16_dynamic(ptr addrspace(1) %out,
 ; CI-NEXT:    s_waitcnt vmcnt(1)
 ; CI-NEXT:    v_lshrrev_b32_e32 v11, 16, v10
 ; CI-NEXT:    v_cvt_f32_f16_e32 v10, v10
+; CI-NEXT:    v_lshrrev_b32_e32 v12, 16, v9
 ; CI-NEXT:    v_lshrrev_b32_e32 v13, 16, v8
 ; CI-NEXT:    v_cvt_f32_f16_e32 v11, v11
+; CI-NEXT:    v_cvt_f32_f16_e32 v12, v12
+; CI-NEXT:    v_cvt_f32_f16_e32 v9, v9
 ; CI-NEXT:    v_cvt_f32_f16_e32 v13, v13
 ; CI-NEXT:    v_cvt_f32_f16_e32 v8, v8
-; CI-NEXT:    v_lshrrev_b32_e32 v14, 16, v7
-; CI-NEXT:    v_cvt_f32_f16_e32 v14, v14
 ; CI-NEXT:    v_cndmask_b32_e64 v10, v10, v6, s[0:1]
 ; CI-NEXT:    s_cselect_b64 s[0:1], -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 11
-; CI-NEXT:    v_cvt_f32_f16_e32 v7, v7
-; CI-NEXT:    s_waitcnt vmcnt(0)
-; CI-NEXT:    v_lshrrev_b32_e32 v15, 16, v3
 ; CI-NEXT:    v_cndmask_b32_e32 v11, v11, v6, vcc
+; CI-NEXT:    v_cndmask_b32_e64 v12, v12, v6, s[2:3]
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 10
-; CI-NEXT:    v_cvt_f32_f16_e32 v15, v15
+; CI-NEXT:    v_cndmask_b32_e64 v9, v9, v6, s[0:1]
 ; CI-NEXT:    v_cndmask_b32_e32 v13, v13, v6, vcc
+; CI-NEXT:    v_cvt_f16_f32_e32 v12, v12
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
+; CI-NEXT:    v_cvt_f16_f32_e32 v9, v9
+; CI-NEXT:    v_cvt_f16_f32_e32 v13, v13
+; CI-NEXT:    v_cndmask_b32_e32 v8, v8, v6, vcc
+; CI-NEXT:    v_cvt_f16_f32_e32 v8, v8
+; CI-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
+; CI-NEXT:    v_lshrrev_b32_e32 v14, 16, v7
+; CI-NEXT:    v_or_b32_e32 v9, v9, v12
+; CI-NEXT:    v_lshlrev_b32_e32 v12, 16, v13
+; CI-NEXT:    v_or_b32_e32 v8, v8, v12
+; CI-NEXT:    v_cvt_f32_f16_e32 v12, v14
+; CI-NEXT:    v_cvt_f32_f16_e32 v7, v7
+; CI-NEXT:    s_waitcnt vmcnt(0)
+; CI-NEXT:    v_lshrrev_b32_e32 v15, 16, v3
+; CI-NEXT:    v_cvt_f32_f16_e32 v13, v15
 ; CI-NEXT:    s_cmp_eq_u32 s5, 9
 ; CI-NEXT:    v_cvt_f32_f16_e32 v3, v3
 ; CI-NEXT:    v_lshrrev_b32_e32 v16, 16, v2
-; CI-NEXT:    v_cvt_f16_f32_e32 v11, v11
-; CI-NEXT:    v_cndmask_b32_e32 v8, v8, v6, vcc
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 8
-; CI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; CI-NEXT:    v_cvt_f16_f32_e32 v10, v10
-; CI-NEXT:    v_cndmask_b32_e32 v14, v14, v6, vcc
+; CI-NEXT:    v_cvt_f32_f16_e32 v14, v16
+; CI-NEXT:    v_cndmask_b32_e32 v12, v12, v6, vcc
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 7
-; CI-NEXT:    v_lshrrev_b32_e32 v12, 16, v9
 ; CI-NEXT:    v_cvt_f32_f16_e32 v2, v2
 ; CI-NEXT:    v_cndmask_b32_e32 v7, v7, v6, vcc
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 6
-; CI-NEXT:    v_cvt_f32_f16_e32 v12, v12
-; CI-NEXT:    v_cndmask_b32_e32 v15, v15, v6, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v13, v13, v6, vcc
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 5
-; CI-NEXT:    v_cvt_f32_f16_e32 v9, v9
-; CI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
+; CI-NEXT:    v_cvt_f16_f32_e32 v11, v11
+; CI-NEXT:    v_cvt_f16_f32_e32 v12, v12
 ; CI-NEXT:    v_cndmask_b32_e32 v3, v3, v6, vcc
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 4
-; CI-NEXT:    v_or_b32_e32 v10, v10, v11
-; CI-NEXT:    v_cndmask_b32_e32 v11, v16, v6, vcc
+; CI-NEXT:    v_cvt_f16_f32_e32 v10, v10
+; CI-NEXT:    v_cvt_f16_f32_e32 v7, v7
+; CI-NEXT:    v_cvt_f16_f32_e32 v13, v13
+; CI-NEXT:    v_cndmask_b32_e32 v14, v14, v6, vcc
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
-; CI-NEXT:    v_cvt_f16_f32_e32 v11, v11
+; CI-NEXT:    v_cvt_f16_f32_e32 v3, v3
+; CI-NEXT:    v_cvt_f16_f32_e32 v14, v14
 ; CI-NEXT:    v_cndmask_b32_e32 v2, v2, v6, vcc
-; CI-NEXT:    v_cndmask_b32_e64 v12, v12, v6, s[2:3]
 ; CI-NEXT:    v_cvt_f16_f32_e32 v2, v2
-; CI-NEXT:    v_cndmask_b32_e64 v9, v9, v6, s[0:1]
-; CI-NEXT:    v_cvt_f16_f32_e32 v12, v12
-; CI-NEXT:    v_lshrrev_b32_e32 v17, 16, v1
-; CI-NEXT:    v_cvt_f16_f32_e32 v9, v9
-; CI-NEXT:    v_cvt_f16_f32_e32 v14, v14
-; CI-NEXT:    v_cvt_f32_f16_e32 v17, v17
-; CI-NEXT:    v_cvt_f16_f32_e32 v7, v7
 ; CI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
-; CI-NEXT:    v_cvt_f32_f16_e32 v1, v1
-; CI-NEXT:    v_or_b32_e32 v2, v2, v11
-; CI-NEXT:    v_lshrrev_b32_e32 v11, 16, v0
 ; CI-NEXT:    v_lshlrev_b32_e32 v12, 16, v12
-; CI-NEXT:    s_cmp_eq_u32 s5, 3
+; CI-NEXT:    v_or_b32_e32 v10, v10, v11
+; CI-NEXT:    v_lshrrev_b32_e32 v11, 16, v1
+; CI-NEXT:    v_or_b32_e32 v7, v7, v12
+; CI-NEXT:    v_lshlrev_b32_e32 v12, 16, v13
 ; CI-NEXT:    v_cvt_f32_f16_e32 v11, v11
-; CI-NEXT:    v_or_b32_e32 v9, v9, v12
+; CI-NEXT:    v_or_b32_e32 v3, v3, v12
 ; CI-NEXT:    v_lshlrev_b32_e32 v12, 16, v14
+; CI-NEXT:    v_cvt_f32_f16_e32 v1, v1
+; CI-NEXT:    v_or_b32_e32 v2, v2, v12
+; CI-NEXT:    v_lshrrev_b32_e32 v12, 16, v0
+; CI-NEXT:    s_cmp_eq_u32 s5, 3
+; CI-NEXT:    v_cvt_f32_f16_e32 v12, v12
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 2
 ; CI-NEXT:    v_cvt_f32_f16_e32 v0, v0
-; CI-NEXT:    v_or_b32_e32 v7, v7, v12
-; CI-NEXT:    v_cndmask_b32_e32 v12, v17, v6, vcc
+; CI-NEXT:    v_cndmask_b32_e32 v11, v11, v6, vcc
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 1
 ; CI-NEXT:    v_cndmask_b32_e32 v1, v1, v6, vcc
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
 ; CI-NEXT:    s_cmp_eq_u32 s5, 0
-; CI-NEXT:    v_cvt_f16_f32_e32 v13, v13
-; CI-NEXT:    v_cvt_f16_f32_e32 v12, v12
-; CI-NEXT:    v_cndmask_b32_e32 v11, v11, v6, vcc
+; CI-NEXT:    v_cvt_f16_f32_e32 v11, v11
+; CI-NEXT:    v_cndmask_b32_e32 v12, v12, v6, vcc
 ; CI-NEXT:    s_cselect_b64 vcc, -1, 0
-; CI-NEXT:    v_cvt_f16_f32_e32 v8, v8
-; CI-NEXT:    v_cvt_f16_f32_e32 v15, v15
 ; CI-NEXT:    v_cvt_f16_f32_e32 v1, v1
-; CI-NEXT:    v_cvt_f16_f32_e32 v11, v11
+; CI-NEXT:    v_cvt_f16_f32_e32 v12, v12
 ; CI-NEXT:    v_cndmask_b32_e32 v0, v0, v6, vcc
-; CI-NEXT:    v_cvt_f16_f32_e32 v3, v3
 ; CI-NEXT:    v_cvt_f16_f32_e32 v0, v0
-; CI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
-; CI-NEXT:    v_lshlrev_b32_e32 v6, 16, v12
-; CI-NEXT:    v_or_b32_e32 v8, v8, v13
-; CI-NEXT:    v_lshlrev_b32_e32 v13, 16, v15
-; CI-NEXT:    v_or_b32_e32 v1, v1, v6
 ; CI-NEXT:    v_lshlrev_b32_e32 v6, 16, v11
-; CI-NEXT:    v_or_b32_e32 v3, v3, v13
+; CI-NEXT:    v_or_b32_e32 v1, v1, v6
+; CI-NEXT:    v_lshlrev_b32_e32 v6, 16, v12
 ; CI-NEXT:    v_or_b32_e32 v0, v0, v6
 ; CI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; CI-NEXT:    s_nop 0
diff --git a/llvm/test/CodeGen/AMDGPU/integer-mad-patterns.ll b/llvm/test/CodeGen/AMDGPU/integer-mad-patterns.ll
index 26a4ea9d8a4b6..edf900a50cd4b 100644
--- a/llvm/test/CodeGen/AMDGPU/integer-mad-patterns.ll
+++ b/llvm/test/CodeGen/AMDGPU/integer-mad-patterns.ll
@@ -5413,33 +5413,33 @@ define <2 x i64> @clpeak_imad_pat_v2i64(<2 x i64> %x, <2 x i64> %y) {
 ; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v13, v4, v[8:9]
 ; GFX7-GISEL-NEXT:    v_add_i32_e32 v3, vcc, v0, v12
 ; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v15, v6, v[10:11]
-; GFX7-GISEL-NEXT:    v_addc_u32_e32 v18, vcc, v8, v13, vcc
+; GFX7-GISEL-NEXT:    v_addc_u32_e32 v16, vcc, v8, v13, vcc
 ; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v3, v4, 0
-; GFX7-GISEL-NEXT:    v_add_i32_e32 v16, vcc, v2, v14
-; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v16, v6, 0
+; GFX7-GISEL-NEXT:    v_add_i32_e32 v17, vcc, v2, v14
+; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v17, v6, 0
 ; GFX7-GISEL-NEXT:    v_mov_b32_e32 v1, v11
-; GFX7-GISEL-NEXT:    v_addc_u32_e32 v19, vcc, v9, v15, vcc
-; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v3, v5, v[1:2]
-; GFX7-GISEL-NEXT:    v_mov_b32_e32 v1, v13
-; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v16, v7, v[1:2]
-; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v18, v4, v[14:15]
-; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v19, v6, v[16:17]
+; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v3, v5, v[1:2]
+; GFX7-GISEL-NEXT:    v_mov_b32_e32 v1, v14
+; GFX7-GISEL-NEXT:    v_addc_u32_e32 v18, vcc, v9, v15, vcc
+; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v17, v7, v[1:2]
+; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v16, v4, v[11:12]
+; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v18, v6, v[14:15]
 ; GFX7-GISEL-NEXT:    v_add_i32_e32 v11, vcc, 1, v0
 ; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v10, v11, 0
 ; GFX7-GISEL-NEXT:    v_addc_u32_e32 v1, vcc, 0, v8, vcc
-; GFX7-GISEL-NEXT:    v_add_i32_e32 v13, vcc, 1, v2
+; GFX7-GISEL-NEXT:    v_add_i32_e32 v12, vcc, 1, v2
 ; GFX7-GISEL-NEXT:    v_mov_b32_e32 v0, v6
 ; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v10, v1, v[0:1]
-; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[6:7], s[4:5], v12, v13, 0
+; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[6:7], s[4:5], v13, v12, 0
 ; GFX7-GISEL-NEXT:    v_addc_u32_e32 v2, vcc, 0, v9, vcc
 ; GFX7-GISEL-NEXT:    v_add_i32_e32 v14, vcc, 1, v10
 ; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v3, v11, v[0:1]
 ; GFX7-GISEL-NEXT:    v_mov_b32_e32 v0, v7
 ; GFX7-GISEL-NEXT:    v_addc_u32_e32 v15, vcc, 0, v3, vcc
-; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v12, v2, v[0:1]
-; GFX7-GISEL-NEXT:    v_add_i32_e32 v16, vcc, 1, v12
+; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v13, v2, v[0:1]
+; GFX7-GISEL-NEXT:    v_add_i32_e32 v16, vcc, 1, v13
 ; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v5, v14, 0
-; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v4, v13, v[2:3]
+; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v4, v12, v[2:3]
 ; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v6, v16, 0
 ; GFX7-GISEL-NEXT:    v_addc_u32_e32 v17, vcc, 0, v4, vcc
 ; GFX7-GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v5, v15, v[1:2]
@@ -5518,33 +5518,33 @@ define <2 x i64> @clpeak_imad_pat_v2i64(<2 x i64> %x, <2 x i64> %y) {
 ; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v13, v4, v[8:9]
 ; GFX8-GISEL-NEXT:    v_add_u32_e32 v3, vcc, v0, v12
 ; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v15, v6, v[10:11]
-; GFX8-GISEL-NEXT:    v_addc_u32_e32 v18, vcc, v8, v13, vcc
+; GFX8-GISEL-NEXT:    v_addc_u32_e32 v16, vcc, v8, v13, vcc
 ; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v3, v4, 0
-; GFX8-GISEL-NEXT:    v_add_u32_e32 v16, vcc, v2, v14
-; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v16, v6, 0
+; GFX8-GISEL-NEXT:    v_add_u32_e32 v17, vcc, v2, v14
+; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v17, v6, 0
 ; GFX8-GISEL-NEXT:    v_mov_b32_e32 v1, v11
-; GFX8-GISEL-NEXT:    v_addc_u32_e32 v19, vcc, v9, v15, vcc
-; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v3, v5, v[1:2]
-; GFX8-GISEL-NEXT:    v_mov_b32_e32 v1, v13
-; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v16, v7, v[1:2]
-; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v18, v4, v[14:15]
-; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v19, v6, v[16:17]
+; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v3, v5, v[1:2]
+; GFX8-GISEL-NEXT:    v_mov_b32_e32 v1, v14
+; GFX8-GISEL-NEXT:    v_addc_u32_e32 v18, vcc, v9, v15, vcc
+; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v17, v7, v[1:2]
+; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v16, v4, v[11:12]
+; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v18, v6, v[14:15]
 ; GFX8-GISEL-NEXT:    v_add_u32_e32 v11, vcc, 1, v0
 ; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v10, v11, 0
 ; GFX8-GISEL-NEXT:    v_addc_u32_e32 v1, vcc, 0, v8, vcc
-; GFX8-GISEL-NEXT:    v_add_u32_e32 v13, vcc, 1, v2
+; GFX8-GISEL-NEXT:    v_add_u32_e32 v12, vcc, 1, v2
 ; GFX8-GISEL-NEXT:    v_mov_b32_e32 v0, v6
 ; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v10, v1, v[0:1]
-; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[6:7], s[4:5], v12, v13, 0
+; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[6:7], s[4:5], v13, v12, 0
 ; GFX8-GISEL-NEXT:    v_addc_u32_e32 v2, vcc, 0, v9, vcc
 ; GFX8-GISEL-NEXT:    v_add_u32_e32 v14, vcc, 1, v10
 ; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v3, v11, v[0:1]
 ; GFX8-GISEL-NEXT:    v_mov_b32_e32 v0, v7
 ; GFX8-GISEL-NEXT:    v_addc_u32_e32 v15, vcc, 0, v3, vcc
-; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v12, v2, v[0:1]
-; GFX8-GISEL-NEXT:    v_add_u32_e32 v16, vcc, 1, v12
+; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v13, v2, v[0:1]
+; GFX8-GISEL-NEXT:    v_add_u32_e32 v16, vcc, 1, v13
 ; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v5, v14, 0
-; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v4, v13, v[2:3]
+; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v4, v12, v[2:3]
 ; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v6, v16, 0
 ; GFX8-GISEL-NEXT:    v_addc_u32_e32 v17, vcc, 0, v4, vcc
 ; GFX8-GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v5, v15, v[1:2]
@@ -5615,33 +5615,33 @@ define <2 x i64> @clpeak_imad_pat_v2i64(<2 x i64> %x, <2 x i64> %y) {
 ; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v13, v4, v[8:9]
 ; GFX900-GISEL-NEXT:    v_add_co_u32_e32 v3, vcc, v0, v12
 ; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v15, v6, v[10:11]
-; GFX900-GISEL-NEXT:    v_addc_co_u32_e32 v18, vcc, v8, v13, vcc
+; GFX900-GISEL-NEXT:    v_addc_co_u32_e32 v16, vcc, v8, v13, vcc
 ; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[10:11], s[4:5], v3, v4, 0
-; GFX900-GISEL-NEXT:    v_add_co_u32_e32 v16, vcc, v2, v14
-; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[12:13], s[4:5], v16, v6, 0
+; GFX900-GISEL-NEXT:    v_add_co_u32_e32 v17, vcc, v2, v14
+; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v17, v6, 0
 ; GFX900-GISEL-NEXT:    v_mov_b32_e32 v1, v11
-; GFX900-GISEL-NEXT:    v_addc_co_u32_e32 v19, vcc, v9, v15, vcc
-; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v3, v5, v[1:2]
-; GFX900-GISEL-NEXT:    v_mov_b32_e32 v1, v13
-; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[16:17], s[4:5], v16, v7, v[1:2]
-; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v18, v4, v[14:15]
-; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v19, v6, v[16:17]
+; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[11:12], s[4:5], v3, v5, v[1:2]
+; GFX900-GISEL-NEXT:    v_mov_b32_e32 v1, v14
+; GFX900-GISEL-NEXT:    v_addc_co_u32_e32 v18, vcc, v9, v15, vcc
+; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[14:15], s[4:5], v17, v7, v[1:2]
+; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[3:4], s[4:5], v16, v4, v[11:12]
+; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v18, v6, v[14:15]
 ; GFX900-GISEL-NEXT:    v_add_co_u32_e32 v11, vcc, 1, v0
 ; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[5:6], s[4:5], v10, v11, 0
 ; GFX900-GISEL-NEXT:    v_addc_co_u32_e32 v1, vcc, 0, v8, vcc
-; GFX900-GISEL-NEXT:    v_add_co_u32_e32 v13, vcc, 1, v2
+; GFX900-GISEL-NEXT:    v_add_co_u32_e32 v12, vcc, 1, v2
 ; GFX900-GISEL-NEXT:    v_mov_b32_e32 v0, v6
 ; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v10, v1, v[0:1]
-; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[6:7], s[4:5], v12, v13, 0
+; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[6:7], s[4:5], v13, v12, 0
 ; GFX900-GISEL-NEXT:    v_addc_co_u32_e32 v2, vcc, 0, v9, vcc
 ; GFX900-GISEL-NEXT:    v_add_co_u32_e32 v14, vcc, 1, v10
 ; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v3, v11, v[0:1]
 ; GFX900-GISEL-NEXT:    v_mov_b32_e32 v0, v7
 ; GFX900-GISEL-NEXT:    v_addc_co_u32_e32 v15, vcc, 0, v3, vcc
-; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v12, v2, v[0:1]
-; GFX900-GISEL-NEXT:    v_add_co_u32_e32 v16, vcc, 1, v12
+; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v13, v2, v[0:1]
+; GFX900-GISEL-NEXT:    v_add_co_u32_e32 v16, vcc, 1, v13
 ; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[0:1], s[4:5], v5, v14, 0
-; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v4, v13, v[2:3]
+; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[9:10], s[4:5], v4, v12, v[2:3]
 ; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[2:3], s[4:5], v6, v16, 0
 ; GFX900-GISEL-NEXT:    v_addc_co_u32_e32 v17, vcc, 0, v4, vcc
 ; GFX900-GISEL-NEXT:    v_mad_u64_u32 v[4:5], s[4:5], v5, v15, v[1:2]
diff --git a/llvm/test/CodeGen/AMDGPU/licm-regpressure.mir b/llvm/test/CodeGen/AMDGPU/licm-regpressure.mir
index dd478f94e1039..98552de05c857 100644
--- a/llvm/test/CodeGen/AMDGPU/licm-regpressure.mir
+++ b/llvm/test/CodeGen/AMDGPU/licm-regpressure.mir
@@ -45,6 +45,10 @@ body:             |
   ; GCN-NEXT:   [[V_CVT_F64_I32_e32_10:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY10]], implicit $mode, implicit $exec
   ; GCN-NEXT:   [[V_CVT_F64_I32_e32_11:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY11]], implicit $mode, implicit $exec
   ; GCN-NEXT:   [[V_CVT_F64_I32_e32_12:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY12]], implicit $mode, implicit $exec
+  ; GCN-NEXT:   [[V_CVT_F64_I32_e32_13:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY13]], implicit $mode, implicit $exec
+  ; GCN-NEXT:   [[V_CVT_F64_I32_e32_14:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY14]], implicit $mode, implicit $exec
+  ; GCN-NEXT:   [[V_CVT_F64_I32_e32_15:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY15]], implicit $mode, implicit $exec
+  ; GCN-NEXT:   [[V_CVT_F64_I32_e32_16:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY16]], implicit $mode, implicit $exec
   ; GCN-NEXT: {{  $}}
   ; GCN-NEXT: bb.1:
   ; GCN-NEXT:   successors: %bb.2(0x04000000), %bb.1(0x7c000000)
@@ -64,14 +68,10 @@ body:             |
   ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, [[V_CVT_F64_I32_e32_10]], implicit $exec
   ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, [[V_CVT_F64_I32_e32_11]], implicit $exec
   ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, [[V_CVT_F64_I32_e32_12]], implicit $exec
-  ; GCN-NEXT:   [[V_CVT_F64_I32_e32_13:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY13]], implicit $mode, implicit $exec
-  ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, killed [[V_CVT_F64_I32_e32_13]], implicit $exec
-  ; GCN-NEXT:   [[V_CVT_F64_I32_e32_14:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY14]], implicit $mode, implicit $exec
-  ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, killed [[V_CVT_F64_I32_e32_14]], implicit $exec
-  ; GCN-NEXT:   [[V_CVT_F64_I32_e32_15:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY15]], implicit $mode, implicit $exec
-  ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, killed [[V_CVT_F64_I32_e32_15]], implicit $exec
-  ; GCN-NEXT:   [[V_CVT_F64_I32_e32_16:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY16]], implicit $mode, implicit $exec
-  ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, killed [[V_CVT_F64_I32_e32_16]], implicit $exec
+  ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, [[V_CVT_F64_I32_e32_13]], implicit $exec
+  ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, [[V_CVT_F64_I32_e32_14]], implicit $exec
+  ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, [[V_CVT_F64_I32_e32_15]], implicit $exec
+  ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, [[V_CVT_F64_I32_e32_16]], implicit $exec
   ; GCN-NEXT:   [[V_CVT_F64_I32_e32_17:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 [[COPY17]], implicit $mode, implicit $exec
   ; GCN-NEXT:   $vcc = V_CMP_EQ_U64_e64 $vcc, killed [[V_CVT_F64_I32_e32_17]], implicit $exec
   ; GCN-NEXT:   S_CBRANCH_VCCNZ %bb.1, implicit $vcc
diff --git a/llvm/test/CodeGen/AMDGPU/llvm.maximum.f16.ll b/llvm/test/CodeGen/AMDGPU/llvm.maximum.f16.ll
index 1d0367db70143..4532571d5cf2a 100644
--- a/llvm/test/CodeGen/AMDGPU/llvm.maximum.f16.ll
+++ b/llvm/test/CodeGen/AMDGPU/llvm.maximum.f16.ll
@@ -2059,207 +2059,207 @@ define <16 x half> @v_maximum_v16f16(<16 x half> %src0, <16 x half> %src1) {
 ; GFX7-LABEL: v_maximum_v16f16:
 ; GFX7:       ; %bb.0:
 ; GFX7-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v16, v16
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v0, v0
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v6, v6
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v7, v7
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v0, v0
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v6, v6
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v7, v7
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v8, v8
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[12:13], v0, v16
-; GFX7-NEXT:    v_max_f32_e32 v0, v0, v16
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v16, v22
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v8, v8
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v9, v9
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v10, v10
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v16, v16
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v17
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v9, v9
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v10, v10
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[14:15], v6, v16
-; GFX7-NEXT:    v_max_f32_e32 v6, v6, v16
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v16, v23
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v1, v1
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v2, v2
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v1, v1
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v3, v3
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v1, v1
 ; GFX7-NEXT:    v_cvt_f32_f16_e32 v2, v2
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[16:17], v7, v16
-; GFX7-NEXT:    v_max_f32_e32 v7, v7, v16
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v16, v24
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v3, v3
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v4, v4
 ; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v1, v17
 ; GFX7-NEXT:    v_max_f32_e32 v1, v1, v17
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v18
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v3, v3
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v4, v4
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v4, v4
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v5, v5
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v6, v6
 ; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[18:19], v8, v16
-; GFX7-NEXT:    v_max_f32_e32 v8, v8, v16
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v16, v25
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v7, v7
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v5, v5
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v6, v6
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[4:5], v2, v17
 ; GFX7-NEXT:    v_max_f32_e32 v2, v2, v17
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v19
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v4, v4
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v5, v5
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v7, v7
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v8, v8
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v9, v9
 ; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[20:21], v9, v16
-; GFX7-NEXT:    v_max_f32_e32 v9, v9, v16
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v16, v26
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v10, v10
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v8, v8
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v9, v9
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[6:7], v3, v17
 ; GFX7-NEXT:    v_max_f32_e32 v3, v3, v17
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v20
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v5, v5
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v10, v10
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v11, v11
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v18, v28
 ; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[22:23], v10, v16
-; GFX7-NEXT:    v_max_f32_e32 v10, v10, v16
-; GFX7-NEXT:    buffer_load_dword v16, off, s[0:3], s32
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v12, v12
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v11, v11
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v18, v18
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[8:9], v4, v17
 ; GFX7-NEXT:    v_max_f32_e32 v4, v4, v17
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v21
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v20, v28
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v12, v12
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v19, v29
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v12, v12
 ; GFX7-NEXT:    v_cvt_f16_f32_e32 v13, v13
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v18, v30
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v14, v14
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v19, v16
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[24:25], v12, v18
+; GFX7-NEXT:    v_max_f32_e32 v12, v12, v18
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v18, v29
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[10:11], v5, v17
 ; GFX7-NEXT:    v_max_f32_e32 v5, v5, v17
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v27
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v11, v11
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v15, v15
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v20, v20
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v22
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v20, v0
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v16, v18
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v18, v13
 ; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v12, v12
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v19, v19
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v13, v13
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v18, v18
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v0, v19
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v13, v20
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[26:27], v18, v16
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[12:13], v6, v17
+; GFX7-NEXT:    v_max_f32_e32 v6, v6, v17
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v23
+; GFX7-NEXT:    v_max_f32_e32 v16, v18, v16
+; GFX7-NEXT:    v_max_f32_e32 v18, v13, v0
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[28:29], v13, v0
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v13, v15
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v15, v30
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v14, v14
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[14:15], v7, v17
+; GFX7-NEXT:    v_max_f32_e32 v7, v7, v17
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v24
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v15, v15
 ; GFX7-NEXT:    v_cvt_f32_f16_e32 v14, v14
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[24:25], v11, v17
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v20, v13
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; GFX7-NEXT:    v_mov_b32_e32 v19, 0x7fc00000
+; GFX7-NEXT:    v_cndmask_b32_e32 v1, v19, v1, vcc
+; GFX7-NEXT:    v_cndmask_b32_e64 v13, v19, v16, s[26:27]
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[16:17], v8, v17
+; GFX7-NEXT:    v_max_f32_e32 v8, v8, v17
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v25
+; GFX7-NEXT:    v_max_f32_e32 v16, v14, v15
+; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v14, v15
+; GFX7-NEXT:    v_cndmask_b32_e32 v14, v19, v16, vcc
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; GFX7-NEXT:    v_cndmask_b32_e64 v2, v19, v2, s[4:5]
+; GFX7-NEXT:    v_cndmask_b32_e64 v3, v19, v3, s[6:7]
+; GFX7-NEXT:    v_cndmask_b32_e64 v4, v19, v4, s[8:9]
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[18:19], v9, v17
+; GFX7-NEXT:    v_max_f32_e32 v9, v9, v17
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v26
+; GFX7-NEXT:    v_cndmask_b32_e64 v5, v19, v5, s[10:11]
+; GFX7-NEXT:    v_cndmask_b32_e64 v6, v19, v6, s[12:13]
+; GFX7-NEXT:    v_cndmask_b32_e64 v7, v19, v7, s[14:15]
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; GFX7-NEXT:    v_cndmask_b32_e64 v8, v19, v8, s[16:17]
+; GFX7-NEXT:    v_cndmask_b32_e64 v9, v19, v9, s[18:19]
+; GFX7-NEXT:    v_cndmask_b32_e64 v12, v19, v12, s[24:25]
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[20:21], v10, v17
+; GFX7-NEXT:    v_max_f32_e32 v10, v10, v17
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v17, v27
+; GFX7-NEXT:    v_cndmask_b32_e64 v10, v19, v10, s[20:21]
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[22:23], v11, v17
 ; GFX7-NEXT:    v_max_f32_e32 v11, v11, v17
-; GFX7-NEXT:    v_mov_b32_e32 v17, 0x7fc00000
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v15, v15
-; GFX7-NEXT:    v_cndmask_b32_e32 v1, v17, v1, vcc
-; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v12, v20
-; GFX7-NEXT:    v_max_f32_e32 v12, v12, v20
-; GFX7-NEXT:    v_cndmask_b32_e32 v12, v17, v12, vcc
-; GFX7-NEXT:    v_max_f32_e32 v20, v13, v19
-; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v13, v19
-; GFX7-NEXT:    v_cndmask_b32_e32 v13, v17, v20, vcc
-; GFX7-NEXT:    v_max_f32_e32 v19, v14, v18
-; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v14, v18
-; GFX7-NEXT:    v_cndmask_b32_e32 v14, v17, v19, vcc
-; GFX7-NEXT:    v_cndmask_b32_e64 v0, v17, v0, s[12:13]
-; GFX7-NEXT:    v_cndmask_b32_e64 v2, v17, v2, s[4:5]
-; GFX7-NEXT:    v_cndmask_b32_e64 v3, v17, v3, s[6:7]
-; GFX7-NEXT:    v_cndmask_b32_e64 v4, v17, v4, s[8:9]
-; GFX7-NEXT:    v_cndmask_b32_e64 v5, v17, v5, s[10:11]
-; GFX7-NEXT:    v_cndmask_b32_e64 v6, v17, v6, s[14:15]
-; GFX7-NEXT:    v_cndmask_b32_e64 v7, v17, v7, s[16:17]
-; GFX7-NEXT:    v_cndmask_b32_e64 v8, v17, v8, s[18:19]
-; GFX7-NEXT:    v_cndmask_b32_e64 v9, v17, v9, s[20:21]
-; GFX7-NEXT:    v_cndmask_b32_e64 v10, v17, v10, s[22:23]
-; GFX7-NEXT:    v_cndmask_b32_e64 v11, v17, v11, s[24:25]
+; GFX7-NEXT:    buffer_load_dword v17, off, s[0:3], s32
+; GFX7-NEXT:    v_cndmask_b32_e64 v11, v19, v11, s[22:23]
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_cvt_f16_f32_e32 v16, v16
-; GFX7-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; GFX7-NEXT:    v_max_f32_e32 v18, v15, v16
-; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v15, v16
-; GFX7-NEXT:    v_cndmask_b32_e32 v15, v17, v18, vcc
+; GFX7-NEXT:    v_cvt_f16_f32_e32 v0, v17
+; GFX7-NEXT:    v_cvt_f32_f16_e32 v17, v0
+; GFX7-NEXT:    v_cndmask_b32_e64 v0, v19, v18, s[28:29]
+; GFX7-NEXT:    v_max_f32_e32 v15, v20, v17
+; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v20, v17
+; GFX7-NEXT:    v_cndmask_b32_e32 v15, v19, v15, vcc
 ; GFX7-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX8-LABEL: v_maximum_v16f16:
 ; GFX8:       ; %bb.0:
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_lshrrev_b32_e32 v16, 16, v15
-; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v7
-; GFX8-NEXT:    v_max_f16_e32 v18, v17, v16
-; GFX8-NEXT:    v_mov_b32_e32 v19, 0x7e00
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v17, v16
-; GFX8-NEXT:    v_cndmask_b32_e32 v16, v19, v18, vcc
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v14
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v6
-; GFX8-NEXT:    v_max_f16_e32 v20, v18, v17
+; GFX8-NEXT:    v_max_f16_e32 v16, v18, v17
 ; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v18, v17
-; GFX8-NEXT:    v_cndmask_b32_e32 v17, v19, v20, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v13
-; GFX8-NEXT:    v_lshrrev_b32_e32 v20, 16, v5
-; GFX8-NEXT:    v_max_f16_e32 v21, v20, v18
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v20, v18
-; GFX8-NEXT:    v_cndmask_b32_e32 v18, v19, v21, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v20, 16, v12
-; GFX8-NEXT:    v_lshrrev_b32_e32 v21, 16, v4
-; GFX8-NEXT:    v_max_f16_e32 v22, v21, v20
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v21, v20
-; GFX8-NEXT:    v_cndmask_b32_e32 v20, v19, v22, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v21, 16, v11
-; GFX8-NEXT:    v_lshrrev_b32_e32 v22, 16, v3
-; GFX8-NEXT:    v_max_f16_e32 v23, v22, v21
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v22, v21
-; GFX8-NEXT:    v_cndmask_b32_e32 v21, v19, v23, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v22, 16, v10
-; GFX8-NEXT:    v_lshrrev_b32_e32 v23, 16, v2
-; GFX8-NEXT:    v_max_f16_e32 v24, v23, v22
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v23, v22
-; GFX8-NEXT:    v_cndmask_b32_e32 v22, v19, v24, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v23, 16, v9
-; GFX8-NEXT:    v_lshrrev_b32_e32 v24, 16, v1
-; GFX8-NEXT:    v_max_f16_e32 v25, v24, v23
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v24, v23
-; GFX8-NEXT:    v_cndmask_b32_e32 v23, v19, v25, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v24, 16, v8
-; GFX8-NEXT:    v_lshrrev_b32_e32 v25, 16, v0
-; GFX8-NEXT:    v_max_f16_e32 v26, v25, v24
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v25, v24
-; GFX8-NEXT:    v_cndmask_b32_e32 v24, v19, v26, vcc
-; GFX8-NEXT:    v_max_f16_e32 v25, v7, v15
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v7, v15
-; GFX8-NEXT:    v_cndmask_b32_e32 v7, v19, v25, vcc
-; GFX8-NEXT:    v_max_f16_e32 v15, v6, v14
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v6, v14
-; GFX8-NEXT:    v_cndmask_b32_e32 v6, v19, v15, vcc
-; GFX8-NEXT:    v_max_f16_e32 v14, v5, v13
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v5, v13
-; GFX8-NEXT:    v_cndmask_b32_e32 v5, v19, v14, vcc
-; GFX8-NEXT:    v_max_f16_e32 v13, v4, v12
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v4, v12
-; GFX8-NEXT:    v_cndmask_b32_e32 v4, v19, v13, vcc
-; GFX8-NEXT:    v_max_f16_e32 v12, v3, v11
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v3, v11
-; GFX8-NEXT:    v_cndmask_b32_e32 v3, v19, v12, vcc
-; GFX8-NEXT:    v_max_f16_e32 v11, v2, v10
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v13
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v5
+; GFX8-NEXT:    v_max_f16_e32 v20, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[4:5], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v12
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v4
+; GFX8-NEXT:    v_max_f16_e32 v21, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[6:7], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v11
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v3
+; GFX8-NEXT:    v_max_f16_e32 v22, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[8:9], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v10
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v2
+; GFX8-NEXT:    v_max_f16_e32 v23, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[10:11], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v9
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v1
+; GFX8-NEXT:    v_max_f16_e32 v24, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[12:13], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v8
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v0
+; GFX8-NEXT:    v_max_f16_e32 v25, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[14:15], v18, v17
+; GFX8-NEXT:    v_max_f16_e32 v17, v6, v14
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[16:17], v6, v14
+; GFX8-NEXT:    v_max_f16_e32 v6, v5, v13
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[18:19], v5, v13
+; GFX8-NEXT:    v_max_f16_e32 v5, v4, v12
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[20:21], v4, v12
+; GFX8-NEXT:    v_max_f16_e32 v4, v3, v11
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[22:23], v3, v11
+; GFX8-NEXT:    v_max_f16_e32 v11, v7, v15
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[24:25], v7, v15
+; GFX8-NEXT:    v_lshrrev_b32_e32 v12, 16, v15
+; GFX8-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; GFX8-NEXT:    v_mov_b32_e32 v19, 0x7e00
+; GFX8-NEXT:    v_max_f16_e32 v13, v7, v12
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[26:27], v7, v12
+; GFX8-NEXT:    v_max_f16_e32 v3, v2, v10
+; GFX8-NEXT:    v_cndmask_b32_e64 v12, v19, v13, s[26:27]
+; GFX8-NEXT:    v_cndmask_b32_e32 v13, v19, v16, vcc
 ; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v2, v10
-; GFX8-NEXT:    v_cndmask_b32_e32 v2, v19, v11, vcc
-; GFX8-NEXT:    v_max_f16_e32 v10, v1, v9
+; GFX8-NEXT:    v_max_f16_e32 v14, v1, v9
+; GFX8-NEXT:    v_cndmask_b32_e32 v2, v19, v3, vcc
 ; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v1, v9
-; GFX8-NEXT:    v_cndmask_b32_e32 v1, v19, v10, vcc
-; GFX8-NEXT:    v_max_f16_e32 v9, v0, v8
+; GFX8-NEXT:    v_max_f16_e32 v7, v0, v8
+; GFX8-NEXT:    v_cndmask_b32_e64 v18, v19, v22, s[8:9]
+; GFX8-NEXT:    v_cndmask_b32_e64 v22, v19, v25, s[14:15]
+; GFX8-NEXT:    v_cndmask_b32_e32 v1, v19, v14, vcc
 ; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v0, v8
-; GFX8-NEXT:    v_cndmask_b32_e32 v0, v19, v9, vcc
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v24
-; GFX8-NEXT:    v_or_b32_sdwa v0, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v23
-; GFX8-NEXT:    v_or_b32_sdwa v1, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v22
-; GFX8-NEXT:    v_or_b32_sdwa v2, v2, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v21
-; GFX8-NEXT:    v_or_b32_sdwa v3, v3, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v20
-; GFX8-NEXT:    v_or_b32_sdwa v4, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v18
-; GFX8-NEXT:    v_or_b32_sdwa v5, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v17
-; GFX8-NEXT:    v_or_b32_sdwa v6, v6, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v16
-; GFX8-NEXT:    v_or_b32_sdwa v7, v7, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_cndmask_b32_e64 v16, v19, v21, s[6:7]
+; GFX8-NEXT:    v_cndmask_b32_e64 v21, v19, v24, s[12:13]
+; GFX8-NEXT:    v_cndmask_b32_e32 v0, v19, v7, vcc
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v22
+; GFX8-NEXT:    v_cndmask_b32_e64 v15, v19, v20, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v20, v19, v23, s[10:11]
+; GFX8-NEXT:    v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v21
+; GFX8-NEXT:    v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v20
+; GFX8-NEXT:    v_cndmask_b32_e64 v4, v19, v4, s[22:23]
+; GFX8-NEXT:    v_or_b32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v18
+; GFX8-NEXT:    v_cndmask_b32_e64 v5, v19, v5, s[20:21]
+; GFX8-NEXT:    v_or_b32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v4, 16, v16
+; GFX8-NEXT:    v_cndmask_b32_e64 v6, v19, v6, s[18:19]
+; GFX8-NEXT:    v_or_b32_sdwa v4, v5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v5, 16, v15
+; GFX8-NEXT:    v_cndmask_b32_e64 v11, v19, v11, s[24:25]
+; GFX8-NEXT:    v_cndmask_b32_e64 v17, v19, v17, s[16:17]
+; GFX8-NEXT:    v_or_b32_sdwa v5, v6, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v6, 16, v13
+; GFX8-NEXT:    v_lshlrev_b32_e32 v7, 16, v12
+; GFX8-NEXT:    v_or_b32_sdwa v6, v17, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_or_b32_sdwa v7, v11, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX900-LABEL: v_maximum_v16f16:
diff --git a/llvm/test/CodeGen/AMDGPU/llvm.maximum.f32.ll b/llvm/test/CodeGen/AMDGPU/llvm.maximum.f32.ll
index df7355c2c57bf..584dd2700c419 100644
--- a/llvm/test/CodeGen/AMDGPU/llvm.maximum.f32.ll
+++ b/llvm/test/CodeGen/AMDGPU/llvm.maximum.f32.ll
@@ -1730,20 +1730,20 @@ define <16 x float> @v_maximum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX7-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX7-NEXT:    buffer_store_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
 ; GFX7-NEXT:    s_mov_b64 exec, s[4:5]
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[16:17], v0, v16
-; GFX7-NEXT:    v_max_f32_e32 v0, v0, v16
-; GFX7-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; GFX7-NEXT:    v_writelane_b32 v31, s30, 0
 ; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v1, v17
 ; GFX7-NEXT:    v_max_f32_e32 v1, v1, v17
+; GFX7-NEXT:    buffer_load_dword v17, off, s[0:3], s32
+; GFX7-NEXT:    v_writelane_b32 v31, s30, 0
+; GFX7-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[4:5], v2, v18
 ; GFX7-NEXT:    v_max_f32_e32 v2, v2, v18
-; GFX7-NEXT:    v_mov_b32_e32 v17, 0x7fc00000
-; GFX7-NEXT:    v_max_f32_e32 v18, v13, v29
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[28:29], v13, v29
-; GFX7-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[6:7], v3, v19
 ; GFX7-NEXT:    v_max_f32_e32 v3, v3, v19
+; GFX7-NEXT:    v_mov_b32_e32 v18, 0x7fc00000
+; GFX7-NEXT:    v_max_f32_e32 v19, v0, v16
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[28:29], v0, v16
+; GFX7-NEXT:    v_max_f32_e32 v16, v14, v30
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[8:9], v4, v20
 ; GFX7-NEXT:    v_max_f32_e32 v4, v4, v20
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[10:11], v5, v21
@@ -1752,39 +1752,39 @@ define <16 x float> @v_maximum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX7-NEXT:    v_max_f32_e32 v6, v6, v22
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[14:15], v7, v23
 ; GFX7-NEXT:    v_max_f32_e32 v7, v7, v23
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[18:19], v8, v24
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[16:17], v8, v24
 ; GFX7-NEXT:    v_max_f32_e32 v8, v8, v24
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[20:21], v9, v25
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[18:19], v9, v25
 ; GFX7-NEXT:    v_max_f32_e32 v9, v9, v25
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[22:23], v10, v26
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[20:21], v10, v26
 ; GFX7-NEXT:    v_max_f32_e32 v10, v10, v26
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[24:25], v11, v27
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[22:23], v11, v27
 ; GFX7-NEXT:    v_max_f32_e32 v11, v11, v27
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[26:27], v12, v28
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[24:25], v12, v28
 ; GFX7-NEXT:    v_max_f32_e32 v12, v12, v28
-; GFX7-NEXT:    v_max_f32_e32 v19, v14, v30
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
-; GFX7-NEXT:    v_cndmask_b32_e32 v1, v17, v1, vcc
-; GFX7-NEXT:    v_cndmask_b32_e64 v13, v17, v18, s[28:29]
-; GFX7-NEXT:    v_cndmask_b32_e64 v0, v17, v0, s[16:17]
-; GFX7-NEXT:    v_cndmask_b32_e64 v2, v17, v2, s[4:5]
-; GFX7-NEXT:    v_cndmask_b32_e64 v3, v17, v3, s[6:7]
-; GFX7-NEXT:    v_cndmask_b32_e64 v4, v17, v4, s[8:9]
-; GFX7-NEXT:    v_cndmask_b32_e64 v5, v17, v5, s[10:11]
-; GFX7-NEXT:    v_cndmask_b32_e64 v6, v17, v6, s[12:13]
-; GFX7-NEXT:    v_cndmask_b32_e64 v7, v17, v7, s[14:15]
-; GFX7-NEXT:    v_cndmask_b32_e64 v8, v17, v8, s[18:19]
-; GFX7-NEXT:    v_cndmask_b32_e64 v9, v17, v9, s[20:21]
-; GFX7-NEXT:    v_cndmask_b32_e64 v10, v17, v10, s[22:23]
-; GFX7-NEXT:    v_cndmask_b32_e64 v11, v17, v11, s[24:25]
-; GFX7-NEXT:    v_cndmask_b32_e64 v12, v17, v12, s[26:27]
-; GFX7-NEXT:    v_cndmask_b32_e64 v14, v17, v19, s[30:31]
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[26:27], v13, v29
+; GFX7-NEXT:    v_max_f32_e32 v13, v13, v29
+; GFX7-NEXT:    v_cndmask_b32_e32 v1, v18, v1, vcc
+; GFX7-NEXT:    v_cndmask_b32_e64 v14, v18, v16, s[30:31]
+; GFX7-NEXT:    v_cndmask_b32_e64 v0, v18, v19, s[28:29]
+; GFX7-NEXT:    v_cndmask_b32_e64 v2, v18, v2, s[4:5]
+; GFX7-NEXT:    v_cndmask_b32_e64 v3, v18, v3, s[6:7]
+; GFX7-NEXT:    v_cndmask_b32_e64 v4, v18, v4, s[8:9]
+; GFX7-NEXT:    v_cndmask_b32_e64 v5, v18, v5, s[10:11]
+; GFX7-NEXT:    v_cndmask_b32_e64 v6, v18, v6, s[12:13]
+; GFX7-NEXT:    v_cndmask_b32_e64 v7, v18, v7, s[14:15]
+; GFX7-NEXT:    v_cndmask_b32_e64 v8, v18, v8, s[16:17]
+; GFX7-NEXT:    v_cndmask_b32_e64 v9, v18, v9, s[18:19]
+; GFX7-NEXT:    v_cndmask_b32_e64 v10, v18, v10, s[20:21]
+; GFX7-NEXT:    v_cndmask_b32_e64 v11, v18, v11, s[22:23]
+; GFX7-NEXT:    v_cndmask_b32_e64 v12, v18, v12, s[24:25]
+; GFX7-NEXT:    v_cndmask_b32_e64 v13, v18, v13, s[26:27]
 ; GFX7-NEXT:    v_readlane_b32 s31, v31, 1
 ; GFX7-NEXT:    v_readlane_b32 s30, v31, 0
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_max_f32_e32 v18, v15, v16
-; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v15, v16
-; GFX7-NEXT:    v_cndmask_b32_e32 v15, v17, v18, vcc
+; GFX7-NEXT:    v_max_f32_e32 v16, v15, v17
+; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v15, v17
+; GFX7-NEXT:    v_cndmask_b32_e32 v15, v18, v16, vcc
 ; GFX7-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX7-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
 ; GFX7-NEXT:    s_mov_b64 exec, s[4:5]
@@ -1797,20 +1797,20 @@ define <16 x float> @v_maximum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX8-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX8-NEXT:    buffer_store_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
 ; GFX8-NEXT:    s_mov_b64 exec, s[4:5]
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[16:17], v0, v16
-; GFX8-NEXT:    v_max_f32_e32 v0, v0, v16
-; GFX8-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; GFX8-NEXT:    v_writelane_b32 v31, s30, 0
 ; GFX8-NEXT:    v_cmp_o_f32_e32 vcc, v1, v17
 ; GFX8-NEXT:    v_max_f32_e32 v1, v1, v17
+; GFX8-NEXT:    buffer_load_dword v17, off, s[0:3], s32
+; GFX8-NEXT:    v_writelane_b32 v31, s30, 0
+; GFX8-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[4:5], v2, v18
 ; GFX8-NEXT:    v_max_f32_e32 v2, v2, v18
-; GFX8-NEXT:    v_mov_b32_e32 v17, 0x7fc00000
-; GFX8-NEXT:    v_max_f32_e32 v18, v13, v29
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[28:29], v13, v29
-; GFX8-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[6:7], v3, v19
 ; GFX8-NEXT:    v_max_f32_e32 v3, v3, v19
+; GFX8-NEXT:    v_mov_b32_e32 v18, 0x7fc00000
+; GFX8-NEXT:    v_max_f32_e32 v19, v0, v16
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[28:29], v0, v16
+; GFX8-NEXT:    v_max_f32_e32 v16, v14, v30
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[8:9], v4, v20
 ; GFX8-NEXT:    v_max_f32_e32 v4, v4, v20
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[10:11], v5, v21
@@ -1819,39 +1819,39 @@ define <16 x float> @v_maximum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX8-NEXT:    v_max_f32_e32 v6, v6, v22
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[14:15], v7, v23
 ; GFX8-NEXT:    v_max_f32_e32 v7, v7, v23
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[18:19], v8, v24
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[16:17], v8, v24
 ; GFX8-NEXT:    v_max_f32_e32 v8, v8, v24
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[20:21], v9, v25
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[18:19], v9, v25
 ; GFX8-NEXT:    v_max_f32_e32 v9, v9, v25
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[22:23], v10, v26
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[20:21], v10, v26
 ; GFX8-NEXT:    v_max_f32_e32 v10, v10, v26
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[24:25], v11, v27
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[22:23], v11, v27
 ; GFX8-NEXT:    v_max_f32_e32 v11, v11, v27
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[26:27], v12, v28
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[24:25], v12, v28
 ; GFX8-NEXT:    v_max_f32_e32 v12, v12, v28
-; GFX8-NEXT:    v_max_f32_e32 v19, v14, v30
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
-; GFX8-NEXT:    v_cndmask_b32_e32 v1, v17, v1, vcc
-; GFX8-NEXT:    v_cndmask_b32_e64 v13, v17, v18, s[28:29]
-; GFX8-NEXT:    v_cndmask_b32_e64 v0, v17, v0, s[16:17]
-; GFX8-NEXT:    v_cndmask_b32_e64 v2, v17, v2, s[4:5]
-; GFX8-NEXT:    v_cndmask_b32_e64 v3, v17, v3, s[6:7]
-; GFX8-NEXT:    v_cndmask_b32_e64 v4, v17, v4, s[8:9]
-; GFX8-NEXT:    v_cndmask_b32_e64 v5, v17, v5, s[10:11]
-; GFX8-NEXT:    v_cndmask_b32_e64 v6, v17, v6, s[12:13]
-; GFX8-NEXT:    v_cndmask_b32_e64 v7, v17, v7, s[14:15]
-; GFX8-NEXT:    v_cndmask_b32_e64 v8, v17, v8, s[18:19]
-; GFX8-NEXT:    v_cndmask_b32_e64 v9, v17, v9, s[20:21]
-; GFX8-NEXT:    v_cndmask_b32_e64 v10, v17, v10, s[22:23]
-; GFX8-NEXT:    v_cndmask_b32_e64 v11, v17, v11, s[24:25]
-; GFX8-NEXT:    v_cndmask_b32_e64 v12, v17, v12, s[26:27]
-; GFX8-NEXT:    v_cndmask_b32_e64 v14, v17, v19, s[30:31]
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[26:27], v13, v29
+; GFX8-NEXT:    v_max_f32_e32 v13, v13, v29
+; GFX8-NEXT:    v_cndmask_b32_e32 v1, v18, v1, vcc
+; GFX8-NEXT:    v_cndmask_b32_e64 v14, v18, v16, s[30:31]
+; GFX8-NEXT:    v_cndmask_b32_e64 v0, v18, v19, s[28:29]
+; GFX8-NEXT:    v_cndmask_b32_e64 v2, v18, v2, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v3, v18, v3, s[6:7]
+; GFX8-NEXT:    v_cndmask_b32_e64 v4, v18, v4, s[8:9]
+; GFX8-NEXT:    v_cndmask_b32_e64 v5, v18, v5, s[10:11]
+; GFX8-NEXT:    v_cndmask_b32_e64 v6, v18, v6, s[12:13]
+; GFX8-NEXT:    v_cndmask_b32_e64 v7, v18, v7, s[14:15]
+; GFX8-NEXT:    v_cndmask_b32_e64 v8, v18, v8, s[16:17]
+; GFX8-NEXT:    v_cndmask_b32_e64 v9, v18, v9, s[18:19]
+; GFX8-NEXT:    v_cndmask_b32_e64 v10, v18, v10, s[20:21]
+; GFX8-NEXT:    v_cndmask_b32_e64 v11, v18, v11, s[22:23]
+; GFX8-NEXT:    v_cndmask_b32_e64 v12, v18, v12, s[24:25]
+; GFX8-NEXT:    v_cndmask_b32_e64 v13, v18, v13, s[26:27]
 ; GFX8-NEXT:    v_readlane_b32 s31, v31, 1
 ; GFX8-NEXT:    v_readlane_b32 s30, v31, 0
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_max_f32_e32 v18, v15, v16
-; GFX8-NEXT:    v_cmp_o_f32_e32 vcc, v15, v16
-; GFX8-NEXT:    v_cndmask_b32_e32 v15, v17, v18, vcc
+; GFX8-NEXT:    v_max_f32_e32 v16, v15, v17
+; GFX8-NEXT:    v_cmp_o_f32_e32 vcc, v15, v17
+; GFX8-NEXT:    v_cndmask_b32_e32 v15, v18, v16, vcc
 ; GFX8-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX8-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
 ; GFX8-NEXT:    s_mov_b64 exec, s[4:5]
@@ -1864,20 +1864,20 @@ define <16 x float> @v_maximum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX900-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX900-NEXT:    buffer_store_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
 ; GFX900-NEXT:    s_mov_b64 exec, s[4:5]
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[16:17], v0, v16
-; GFX900-NEXT:    v_max_f32_e32 v0, v0, v16
-; GFX900-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; GFX900-NEXT:    v_writelane_b32 v31, s30, 0
 ; GFX900-NEXT:    v_cmp_o_f32_e32 vcc, v1, v17
 ; GFX900-NEXT:    v_max_f32_e32 v1, v1, v17
+; GFX900-NEXT:    buffer_load_dword v17, off, s[0:3], s32
+; GFX900-NEXT:    v_writelane_b32 v31, s30, 0
+; GFX900-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[4:5], v2, v18
 ; GFX900-NEXT:    v_max_f32_e32 v2, v2, v18
-; GFX900-NEXT:    v_mov_b32_e32 v17, 0x7fc00000
-; GFX900-NEXT:    v_max_f32_e32 v18, v13, v29
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[28:29], v13, v29
-; GFX900-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[6:7], v3, v19
 ; GFX900-NEXT:    v_max_f32_e32 v3, v3, v19
+; GFX900-NEXT:    v_mov_b32_e32 v18, 0x7fc00000
+; GFX900-NEXT:    v_max_f32_e32 v19, v0, v16
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[28:29], v0, v16
+; GFX900-NEXT:    v_max_f32_e32 v16, v14, v30
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[8:9], v4, v20
 ; GFX900-NEXT:    v_max_f32_e32 v4, v4, v20
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[10:11], v5, v21
@@ -1886,39 +1886,39 @@ define <16 x float> @v_maximum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX900-NEXT:    v_max_f32_e32 v6, v6, v22
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[14:15], v7, v23
 ; GFX900-NEXT:    v_max_f32_e32 v7, v7, v23
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[18:19], v8, v24
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[16:17], v8, v24
 ; GFX900-NEXT:    v_max_f32_e32 v8, v8, v24
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[20:21], v9, v25
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[18:19], v9, v25
 ; GFX900-NEXT:    v_max_f32_e32 v9, v9, v25
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[22:23], v10, v26
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[20:21], v10, v26
 ; GFX900-NEXT:    v_max_f32_e32 v10, v10, v26
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[24:25], v11, v27
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[22:23], v11, v27
 ; GFX900-NEXT:    v_max_f32_e32 v11, v11, v27
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[26:27], v12, v28
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[24:25], v12, v28
 ; GFX900-NEXT:    v_max_f32_e32 v12, v12, v28
-; GFX900-NEXT:    v_max_f32_e32 v19, v14, v30
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
-; GFX900-NEXT:    v_cndmask_b32_e32 v1, v17, v1, vcc
-; GFX900-NEXT:    v_cndmask_b32_e64 v13, v17, v18, s[28:29]
-; GFX900-NEXT:    v_cndmask_b32_e64 v0, v17, v0, s[16:17]
-; GFX900-NEXT:    v_cndmask_b32_e64 v2, v17, v2, s[4:5]
-; GFX900-NEXT:    v_cndmask_b32_e64 v3, v17, v3, s[6:7]
-; GFX900-NEXT:    v_cndmask_b32_e64 v4, v17, v4, s[8:9]
-; GFX900-NEXT:    v_cndmask_b32_e64 v5, v17, v5, s[10:11]
-; GFX900-NEXT:    v_cndmask_b32_e64 v6, v17, v6, s[12:13]
-; GFX900-NEXT:    v_cndmask_b32_e64 v7, v17, v7, s[14:15]
-; GFX900-NEXT:    v_cndmask_b32_e64 v8, v17, v8, s[18:19]
-; GFX900-NEXT:    v_cndmask_b32_e64 v9, v17, v9, s[20:21]
-; GFX900-NEXT:    v_cndmask_b32_e64 v10, v17, v10, s[22:23]
-; GFX900-NEXT:    v_cndmask_b32_e64 v11, v17, v11, s[24:25]
-; GFX900-NEXT:    v_cndmask_b32_e64 v12, v17, v12, s[26:27]
-; GFX900-NEXT:    v_cndmask_b32_e64 v14, v17, v19, s[30:31]
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[26:27], v13, v29
+; GFX900-NEXT:    v_max_f32_e32 v13, v13, v29
+; GFX900-NEXT:    v_cndmask_b32_e32 v1, v18, v1, vcc
+; GFX900-NEXT:    v_cndmask_b32_e64 v14, v18, v16, s[30:31]
+; GFX900-NEXT:    v_cndmask_b32_e64 v0, v18, v19, s[28:29]
+; GFX900-NEXT:    v_cndmask_b32_e64 v2, v18, v2, s[4:5]
+; GFX900-NEXT:    v_cndmask_b32_e64 v3, v18, v3, s[6:7]
+; GFX900-NEXT:    v_cndmask_b32_e64 v4, v18, v4, s[8:9]
+; GFX900-NEXT:    v_cndmask_b32_e64 v5, v18, v5, s[10:11]
+; GFX900-NEXT:    v_cndmask_b32_e64 v6, v18, v6, s[12:13]
+; GFX900-NEXT:    v_cndmask_b32_e64 v7, v18, v7, s[14:15]
+; GFX900-NEXT:    v_cndmask_b32_e64 v8, v18, v8, s[16:17]
+; GFX900-NEXT:    v_cndmask_b32_e64 v9, v18, v9, s[18:19]
+; GFX900-NEXT:    v_cndmask_b32_e64 v10, v18, v10, s[20:21]
+; GFX900-NEXT:    v_cndmask_b32_e64 v11, v18, v11, s[22:23]
+; GFX900-NEXT:    v_cndmask_b32_e64 v12, v18, v12, s[24:25]
+; GFX900-NEXT:    v_cndmask_b32_e64 v13, v18, v13, s[26:27]
 ; GFX900-NEXT:    v_readlane_b32 s31, v31, 1
 ; GFX900-NEXT:    v_readlane_b32 s30, v31, 0
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
-; GFX900-NEXT:    v_max_f32_e32 v18, v15, v16
-; GFX900-NEXT:    v_cmp_o_f32_e32 vcc, v15, v16
-; GFX900-NEXT:    v_cndmask_b32_e32 v15, v17, v18, vcc
+; GFX900-NEXT:    v_max_f32_e32 v16, v15, v17
+; GFX900-NEXT:    v_cmp_o_f32_e32 vcc, v15, v17
+; GFX900-NEXT:    v_cndmask_b32_e32 v15, v18, v16, vcc
 ; GFX900-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX900-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
 ; GFX900-NEXT:    s_mov_b64 exec, s[4:5]
diff --git a/llvm/test/CodeGen/AMDGPU/llvm.minimum.f16.ll b/llvm/test/CodeGen/AMDGPU/llvm.minimum.f16.ll
index f8c2c54af2783..0b9cb9682ea5f 100644
--- a/llvm/test/CodeGen/AMDGPU/llvm.minimum.f16.ll
+++ b/llvm/test/CodeGen/AMDGPU/llvm.minimum.f16.ll
@@ -1598,87 +1598,87 @@ define <16 x half> @v_minimum_v16f16(<16 x half> %src0, <16 x half> %src1) {
 ; GFX8-LABEL: v_minimum_v16f16:
 ; GFX8:       ; %bb.0:
 ; GFX8-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX8-NEXT:    v_lshrrev_b32_e32 v16, 16, v15
-; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v7
-; GFX8-NEXT:    v_min_f16_e32 v18, v17, v16
-; GFX8-NEXT:    v_mov_b32_e32 v19, 0x7e00
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v17, v16
-; GFX8-NEXT:    v_cndmask_b32_e32 v16, v19, v18, vcc
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v14
 ; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v6
-; GFX8-NEXT:    v_min_f16_e32 v20, v18, v17
+; GFX8-NEXT:    v_min_f16_e32 v16, v18, v17
 ; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v18, v17
-; GFX8-NEXT:    v_cndmask_b32_e32 v17, v19, v20, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v13
-; GFX8-NEXT:    v_lshrrev_b32_e32 v20, 16, v5
-; GFX8-NEXT:    v_min_f16_e32 v21, v20, v18
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v20, v18
-; GFX8-NEXT:    v_cndmask_b32_e32 v18, v19, v21, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v20, 16, v12
-; GFX8-NEXT:    v_lshrrev_b32_e32 v21, 16, v4
-; GFX8-NEXT:    v_min_f16_e32 v22, v21, v20
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v21, v20
-; GFX8-NEXT:    v_cndmask_b32_e32 v20, v19, v22, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v21, 16, v11
-; GFX8-NEXT:    v_lshrrev_b32_e32 v22, 16, v3
-; GFX8-NEXT:    v_min_f16_e32 v23, v22, v21
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v22, v21
-; GFX8-NEXT:    v_cndmask_b32_e32 v21, v19, v23, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v22, 16, v10
-; GFX8-NEXT:    v_lshrrev_b32_e32 v23, 16, v2
-; GFX8-NEXT:    v_min_f16_e32 v24, v23, v22
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v23, v22
-; GFX8-NEXT:    v_cndmask_b32_e32 v22, v19, v24, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v23, 16, v9
-; GFX8-NEXT:    v_lshrrev_b32_e32 v24, 16, v1
-; GFX8-NEXT:    v_min_f16_e32 v25, v24, v23
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v24, v23
-; GFX8-NEXT:    v_cndmask_b32_e32 v23, v19, v25, vcc
-; GFX8-NEXT:    v_lshrrev_b32_e32 v24, 16, v8
-; GFX8-NEXT:    v_lshrrev_b32_e32 v25, 16, v0
-; GFX8-NEXT:    v_min_f16_e32 v26, v25, v24
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v25, v24
-; GFX8-NEXT:    v_cndmask_b32_e32 v24, v19, v26, vcc
-; GFX8-NEXT:    v_min_f16_e32 v25, v7, v15
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v7, v15
-; GFX8-NEXT:    v_cndmask_b32_e32 v7, v19, v25, vcc
-; GFX8-NEXT:    v_min_f16_e32 v15, v6, v14
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v6, v14
-; GFX8-NEXT:    v_cndmask_b32_e32 v6, v19, v15, vcc
-; GFX8-NEXT:    v_min_f16_e32 v14, v5, v13
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v5, v13
-; GFX8-NEXT:    v_cndmask_b32_e32 v5, v19, v14, vcc
-; GFX8-NEXT:    v_min_f16_e32 v13, v4, v12
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v4, v12
-; GFX8-NEXT:    v_cndmask_b32_e32 v4, v19, v13, vcc
-; GFX8-NEXT:    v_min_f16_e32 v12, v3, v11
-; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v3, v11
-; GFX8-NEXT:    v_cndmask_b32_e32 v3, v19, v12, vcc
-; GFX8-NEXT:    v_min_f16_e32 v11, v2, v10
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v13
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v5
+; GFX8-NEXT:    v_min_f16_e32 v20, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[4:5], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v12
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v4
+; GFX8-NEXT:    v_min_f16_e32 v21, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[6:7], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v11
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v3
+; GFX8-NEXT:    v_min_f16_e32 v22, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[8:9], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v10
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v2
+; GFX8-NEXT:    v_min_f16_e32 v23, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[10:11], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v9
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v1
+; GFX8-NEXT:    v_min_f16_e32 v24, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[12:13], v18, v17
+; GFX8-NEXT:    v_lshrrev_b32_e32 v17, 16, v8
+; GFX8-NEXT:    v_lshrrev_b32_e32 v18, 16, v0
+; GFX8-NEXT:    v_min_f16_e32 v25, v18, v17
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[14:15], v18, v17
+; GFX8-NEXT:    v_min_f16_e32 v17, v6, v14
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[16:17], v6, v14
+; GFX8-NEXT:    v_min_f16_e32 v6, v5, v13
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[18:19], v5, v13
+; GFX8-NEXT:    v_min_f16_e32 v5, v4, v12
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[20:21], v4, v12
+; GFX8-NEXT:    v_min_f16_e32 v4, v3, v11
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[22:23], v3, v11
+; GFX8-NEXT:    v_min_f16_e32 v11, v7, v15
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[24:25], v7, v15
+; GFX8-NEXT:    v_lshrrev_b32_e32 v12, 16, v15
+; GFX8-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
+; GFX8-NEXT:    v_mov_b32_e32 v19, 0x7e00
+; GFX8-NEXT:    v_min_f16_e32 v13, v7, v12
+; GFX8-NEXT:    v_cmp_o_f16_e64 s[26:27], v7, v12
+; GFX8-NEXT:    v_min_f16_e32 v3, v2, v10
+; GFX8-NEXT:    v_cndmask_b32_e64 v12, v19, v13, s[26:27]
+; GFX8-NEXT:    v_cndmask_b32_e32 v13, v19, v16, vcc
 ; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v2, v10
-; GFX8-NEXT:    v_cndmask_b32_e32 v2, v19, v11, vcc
-; GFX8-NEXT:    v_min_f16_e32 v10, v1, v9
+; GFX8-NEXT:    v_min_f16_e32 v14, v1, v9
+; GFX8-NEXT:    v_cndmask_b32_e32 v2, v19, v3, vcc
 ; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v1, v9
-; GFX8-NEXT:    v_cndmask_b32_e32 v1, v19, v10, vcc
-; GFX8-NEXT:    v_min_f16_e32 v9, v0, v8
+; GFX8-NEXT:    v_min_f16_e32 v7, v0, v8
+; GFX8-NEXT:    v_cndmask_b32_e64 v18, v19, v22, s[8:9]
+; GFX8-NEXT:    v_cndmask_b32_e64 v22, v19, v25, s[14:15]
+; GFX8-NEXT:    v_cndmask_b32_e32 v1, v19, v14, vcc
 ; GFX8-NEXT:    v_cmp_o_f16_e32 vcc, v0, v8
-; GFX8-NEXT:    v_cndmask_b32_e32 v0, v19, v9, vcc
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v24
-; GFX8-NEXT:    v_or_b32_sdwa v0, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v23
-; GFX8-NEXT:    v_or_b32_sdwa v1, v1, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v22
-; GFX8-NEXT:    v_or_b32_sdwa v2, v2, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v21
-; GFX8-NEXT:    v_or_b32_sdwa v3, v3, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v20
-; GFX8-NEXT:    v_or_b32_sdwa v4, v4, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v18
-; GFX8-NEXT:    v_or_b32_sdwa v5, v5, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v17
-; GFX8-NEXT:    v_or_b32_sdwa v6, v6, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; GFX8-NEXT:    v_lshlrev_b32_e32 v8, 16, v16
-; GFX8-NEXT:    v_or_b32_sdwa v7, v7, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_cndmask_b32_e64 v16, v19, v21, s[6:7]
+; GFX8-NEXT:    v_cndmask_b32_e64 v21, v19, v24, s[12:13]
+; GFX8-NEXT:    v_cndmask_b32_e32 v0, v19, v7, vcc
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v22
+; GFX8-NEXT:    v_cndmask_b32_e64 v15, v19, v20, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v20, v19, v23, s[10:11]
+; GFX8-NEXT:    v_or_b32_sdwa v0, v0, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v21
+; GFX8-NEXT:    v_or_b32_sdwa v1, v1, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v20
+; GFX8-NEXT:    v_cndmask_b32_e64 v4, v19, v4, s[22:23]
+; GFX8-NEXT:    v_or_b32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v18
+; GFX8-NEXT:    v_cndmask_b32_e64 v5, v19, v5, s[20:21]
+; GFX8-NEXT:    v_or_b32_sdwa v3, v4, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v4, 16, v16
+; GFX8-NEXT:    v_cndmask_b32_e64 v6, v19, v6, s[18:19]
+; GFX8-NEXT:    v_or_b32_sdwa v4, v5, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v5, 16, v15
+; GFX8-NEXT:    v_cndmask_b32_e64 v11, v19, v11, s[24:25]
+; GFX8-NEXT:    v_cndmask_b32_e64 v17, v19, v17, s[16:17]
+; GFX8-NEXT:    v_or_b32_sdwa v5, v6, v5 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_lshlrev_b32_e32 v6, 16, v13
+; GFX8-NEXT:    v_lshlrev_b32_e32 v7, 16, v12
+; GFX8-NEXT:    v_or_b32_sdwa v6, v17, v6 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; GFX8-NEXT:    v_or_b32_sdwa v7, v11, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX8-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX900-LABEL: v_minimum_v16f16:
diff --git a/llvm/test/CodeGen/AMDGPU/llvm.minimum.f32.ll b/llvm/test/CodeGen/AMDGPU/llvm.minimum.f32.ll
index 956de6de3aad3..9962433134073 100644
--- a/llvm/test/CodeGen/AMDGPU/llvm.minimum.f32.ll
+++ b/llvm/test/CodeGen/AMDGPU/llvm.minimum.f32.ll
@@ -1730,20 +1730,20 @@ define <16 x float> @v_minimum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX7-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX7-NEXT:    buffer_store_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
 ; GFX7-NEXT:    s_mov_b64 exec, s[4:5]
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[16:17], v0, v16
-; GFX7-NEXT:    v_min_f32_e32 v0, v0, v16
-; GFX7-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; GFX7-NEXT:    v_writelane_b32 v31, s30, 0
 ; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v1, v17
 ; GFX7-NEXT:    v_min_f32_e32 v1, v1, v17
+; GFX7-NEXT:    buffer_load_dword v17, off, s[0:3], s32
+; GFX7-NEXT:    v_writelane_b32 v31, s30, 0
+; GFX7-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[4:5], v2, v18
 ; GFX7-NEXT:    v_min_f32_e32 v2, v2, v18
-; GFX7-NEXT:    v_mov_b32_e32 v17, 0x7fc00000
-; GFX7-NEXT:    v_min_f32_e32 v18, v13, v29
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[28:29], v13, v29
-; GFX7-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[6:7], v3, v19
 ; GFX7-NEXT:    v_min_f32_e32 v3, v3, v19
+; GFX7-NEXT:    v_mov_b32_e32 v18, 0x7fc00000
+; GFX7-NEXT:    v_min_f32_e32 v19, v0, v16
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[28:29], v0, v16
+; GFX7-NEXT:    v_min_f32_e32 v16, v14, v30
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[8:9], v4, v20
 ; GFX7-NEXT:    v_min_f32_e32 v4, v4, v20
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[10:11], v5, v21
@@ -1752,39 +1752,39 @@ define <16 x float> @v_minimum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX7-NEXT:    v_min_f32_e32 v6, v6, v22
 ; GFX7-NEXT:    v_cmp_o_f32_e64 s[14:15], v7, v23
 ; GFX7-NEXT:    v_min_f32_e32 v7, v7, v23
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[18:19], v8, v24
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[16:17], v8, v24
 ; GFX7-NEXT:    v_min_f32_e32 v8, v8, v24
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[20:21], v9, v25
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[18:19], v9, v25
 ; GFX7-NEXT:    v_min_f32_e32 v9, v9, v25
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[22:23], v10, v26
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[20:21], v10, v26
 ; GFX7-NEXT:    v_min_f32_e32 v10, v10, v26
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[24:25], v11, v27
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[22:23], v11, v27
 ; GFX7-NEXT:    v_min_f32_e32 v11, v11, v27
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[26:27], v12, v28
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[24:25], v12, v28
 ; GFX7-NEXT:    v_min_f32_e32 v12, v12, v28
-; GFX7-NEXT:    v_min_f32_e32 v19, v14, v30
-; GFX7-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
-; GFX7-NEXT:    v_cndmask_b32_e32 v1, v17, v1, vcc
-; GFX7-NEXT:    v_cndmask_b32_e64 v13, v17, v18, s[28:29]
-; GFX7-NEXT:    v_cndmask_b32_e64 v0, v17, v0, s[16:17]
-; GFX7-NEXT:    v_cndmask_b32_e64 v2, v17, v2, s[4:5]
-; GFX7-NEXT:    v_cndmask_b32_e64 v3, v17, v3, s[6:7]
-; GFX7-NEXT:    v_cndmask_b32_e64 v4, v17, v4, s[8:9]
-; GFX7-NEXT:    v_cndmask_b32_e64 v5, v17, v5, s[10:11]
-; GFX7-NEXT:    v_cndmask_b32_e64 v6, v17, v6, s[12:13]
-; GFX7-NEXT:    v_cndmask_b32_e64 v7, v17, v7, s[14:15]
-; GFX7-NEXT:    v_cndmask_b32_e64 v8, v17, v8, s[18:19]
-; GFX7-NEXT:    v_cndmask_b32_e64 v9, v17, v9, s[20:21]
-; GFX7-NEXT:    v_cndmask_b32_e64 v10, v17, v10, s[22:23]
-; GFX7-NEXT:    v_cndmask_b32_e64 v11, v17, v11, s[24:25]
-; GFX7-NEXT:    v_cndmask_b32_e64 v12, v17, v12, s[26:27]
-; GFX7-NEXT:    v_cndmask_b32_e64 v14, v17, v19, s[30:31]
+; GFX7-NEXT:    v_cmp_o_f32_e64 s[26:27], v13, v29
+; GFX7-NEXT:    v_min_f32_e32 v13, v13, v29
+; GFX7-NEXT:    v_cndmask_b32_e32 v1, v18, v1, vcc
+; GFX7-NEXT:    v_cndmask_b32_e64 v14, v18, v16, s[30:31]
+; GFX7-NEXT:    v_cndmask_b32_e64 v0, v18, v19, s[28:29]
+; GFX7-NEXT:    v_cndmask_b32_e64 v2, v18, v2, s[4:5]
+; GFX7-NEXT:    v_cndmask_b32_e64 v3, v18, v3, s[6:7]
+; GFX7-NEXT:    v_cndmask_b32_e64 v4, v18, v4, s[8:9]
+; GFX7-NEXT:    v_cndmask_b32_e64 v5, v18, v5, s[10:11]
+; GFX7-NEXT:    v_cndmask_b32_e64 v6, v18, v6, s[12:13]
+; GFX7-NEXT:    v_cndmask_b32_e64 v7, v18, v7, s[14:15]
+; GFX7-NEXT:    v_cndmask_b32_e64 v8, v18, v8, s[16:17]
+; GFX7-NEXT:    v_cndmask_b32_e64 v9, v18, v9, s[18:19]
+; GFX7-NEXT:    v_cndmask_b32_e64 v10, v18, v10, s[20:21]
+; GFX7-NEXT:    v_cndmask_b32_e64 v11, v18, v11, s[22:23]
+; GFX7-NEXT:    v_cndmask_b32_e64 v12, v18, v12, s[24:25]
+; GFX7-NEXT:    v_cndmask_b32_e64 v13, v18, v13, s[26:27]
 ; GFX7-NEXT:    v_readlane_b32 s31, v31, 1
 ; GFX7-NEXT:    v_readlane_b32 s30, v31, 0
 ; GFX7-NEXT:    s_waitcnt vmcnt(0)
-; GFX7-NEXT:    v_min_f32_e32 v18, v15, v16
-; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v15, v16
-; GFX7-NEXT:    v_cndmask_b32_e32 v15, v17, v18, vcc
+; GFX7-NEXT:    v_min_f32_e32 v16, v15, v17
+; GFX7-NEXT:    v_cmp_o_f32_e32 vcc, v15, v17
+; GFX7-NEXT:    v_cndmask_b32_e32 v15, v18, v16, vcc
 ; GFX7-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX7-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
 ; GFX7-NEXT:    s_mov_b64 exec, s[4:5]
@@ -1797,20 +1797,20 @@ define <16 x float> @v_minimum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX8-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX8-NEXT:    buffer_store_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
 ; GFX8-NEXT:    s_mov_b64 exec, s[4:5]
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[16:17], v0, v16
-; GFX8-NEXT:    v_min_f32_e32 v0, v0, v16
-; GFX8-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; GFX8-NEXT:    v_writelane_b32 v31, s30, 0
 ; GFX8-NEXT:    v_cmp_o_f32_e32 vcc, v1, v17
 ; GFX8-NEXT:    v_min_f32_e32 v1, v1, v17
+; GFX8-NEXT:    buffer_load_dword v17, off, s[0:3], s32
+; GFX8-NEXT:    v_writelane_b32 v31, s30, 0
+; GFX8-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[4:5], v2, v18
 ; GFX8-NEXT:    v_min_f32_e32 v2, v2, v18
-; GFX8-NEXT:    v_mov_b32_e32 v17, 0x7fc00000
-; GFX8-NEXT:    v_min_f32_e32 v18, v13, v29
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[28:29], v13, v29
-; GFX8-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[6:7], v3, v19
 ; GFX8-NEXT:    v_min_f32_e32 v3, v3, v19
+; GFX8-NEXT:    v_mov_b32_e32 v18, 0x7fc00000
+; GFX8-NEXT:    v_min_f32_e32 v19, v0, v16
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[28:29], v0, v16
+; GFX8-NEXT:    v_min_f32_e32 v16, v14, v30
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[8:9], v4, v20
 ; GFX8-NEXT:    v_min_f32_e32 v4, v4, v20
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[10:11], v5, v21
@@ -1819,39 +1819,39 @@ define <16 x float> @v_minimum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX8-NEXT:    v_min_f32_e32 v6, v6, v22
 ; GFX8-NEXT:    v_cmp_o_f32_e64 s[14:15], v7, v23
 ; GFX8-NEXT:    v_min_f32_e32 v7, v7, v23
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[18:19], v8, v24
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[16:17], v8, v24
 ; GFX8-NEXT:    v_min_f32_e32 v8, v8, v24
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[20:21], v9, v25
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[18:19], v9, v25
 ; GFX8-NEXT:    v_min_f32_e32 v9, v9, v25
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[22:23], v10, v26
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[20:21], v10, v26
 ; GFX8-NEXT:    v_min_f32_e32 v10, v10, v26
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[24:25], v11, v27
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[22:23], v11, v27
 ; GFX8-NEXT:    v_min_f32_e32 v11, v11, v27
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[26:27], v12, v28
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[24:25], v12, v28
 ; GFX8-NEXT:    v_min_f32_e32 v12, v12, v28
-; GFX8-NEXT:    v_min_f32_e32 v19, v14, v30
-; GFX8-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
-; GFX8-NEXT:    v_cndmask_b32_e32 v1, v17, v1, vcc
-; GFX8-NEXT:    v_cndmask_b32_e64 v13, v17, v18, s[28:29]
-; GFX8-NEXT:    v_cndmask_b32_e64 v0, v17, v0, s[16:17]
-; GFX8-NEXT:    v_cndmask_b32_e64 v2, v17, v2, s[4:5]
-; GFX8-NEXT:    v_cndmask_b32_e64 v3, v17, v3, s[6:7]
-; GFX8-NEXT:    v_cndmask_b32_e64 v4, v17, v4, s[8:9]
-; GFX8-NEXT:    v_cndmask_b32_e64 v5, v17, v5, s[10:11]
-; GFX8-NEXT:    v_cndmask_b32_e64 v6, v17, v6, s[12:13]
-; GFX8-NEXT:    v_cndmask_b32_e64 v7, v17, v7, s[14:15]
-; GFX8-NEXT:    v_cndmask_b32_e64 v8, v17, v8, s[18:19]
-; GFX8-NEXT:    v_cndmask_b32_e64 v9, v17, v9, s[20:21]
-; GFX8-NEXT:    v_cndmask_b32_e64 v10, v17, v10, s[22:23]
-; GFX8-NEXT:    v_cndmask_b32_e64 v11, v17, v11, s[24:25]
-; GFX8-NEXT:    v_cndmask_b32_e64 v12, v17, v12, s[26:27]
-; GFX8-NEXT:    v_cndmask_b32_e64 v14, v17, v19, s[30:31]
+; GFX8-NEXT:    v_cmp_o_f32_e64 s[26:27], v13, v29
+; GFX8-NEXT:    v_min_f32_e32 v13, v13, v29
+; GFX8-NEXT:    v_cndmask_b32_e32 v1, v18, v1, vcc
+; GFX8-NEXT:    v_cndmask_b32_e64 v14, v18, v16, s[30:31]
+; GFX8-NEXT:    v_cndmask_b32_e64 v0, v18, v19, s[28:29]
+; GFX8-NEXT:    v_cndmask_b32_e64 v2, v18, v2, s[4:5]
+; GFX8-NEXT:    v_cndmask_b32_e64 v3, v18, v3, s[6:7]
+; GFX8-NEXT:    v_cndmask_b32_e64 v4, v18, v4, s[8:9]
+; GFX8-NEXT:    v_cndmask_b32_e64 v5, v18, v5, s[10:11]
+; GFX8-NEXT:    v_cndmask_b32_e64 v6, v18, v6, s[12:13]
+; GFX8-NEXT:    v_cndmask_b32_e64 v7, v18, v7, s[14:15]
+; GFX8-NEXT:    v_cndmask_b32_e64 v8, v18, v8, s[16:17]
+; GFX8-NEXT:    v_cndmask_b32_e64 v9, v18, v9, s[18:19]
+; GFX8-NEXT:    v_cndmask_b32_e64 v10, v18, v10, s[20:21]
+; GFX8-NEXT:    v_cndmask_b32_e64 v11, v18, v11, s[22:23]
+; GFX8-NEXT:    v_cndmask_b32_e64 v12, v18, v12, s[24:25]
+; GFX8-NEXT:    v_cndmask_b32_e64 v13, v18, v13, s[26:27]
 ; GFX8-NEXT:    v_readlane_b32 s31, v31, 1
 ; GFX8-NEXT:    v_readlane_b32 s30, v31, 0
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_min_f32_e32 v18, v15, v16
-; GFX8-NEXT:    v_cmp_o_f32_e32 vcc, v15, v16
-; GFX8-NEXT:    v_cndmask_b32_e32 v15, v17, v18, vcc
+; GFX8-NEXT:    v_min_f32_e32 v16, v15, v17
+; GFX8-NEXT:    v_cmp_o_f32_e32 vcc, v15, v17
+; GFX8-NEXT:    v_cndmask_b32_e32 v15, v18, v16, vcc
 ; GFX8-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX8-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
 ; GFX8-NEXT:    s_mov_b64 exec, s[4:5]
@@ -1864,20 +1864,20 @@ define <16 x float> @v_minimum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX900-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX900-NEXT:    buffer_store_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Spill
 ; GFX900-NEXT:    s_mov_b64 exec, s[4:5]
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[16:17], v0, v16
-; GFX900-NEXT:    v_min_f32_e32 v0, v0, v16
-; GFX900-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; GFX900-NEXT:    v_writelane_b32 v31, s30, 0
 ; GFX900-NEXT:    v_cmp_o_f32_e32 vcc, v1, v17
 ; GFX900-NEXT:    v_min_f32_e32 v1, v1, v17
+; GFX900-NEXT:    buffer_load_dword v17, off, s[0:3], s32
+; GFX900-NEXT:    v_writelane_b32 v31, s30, 0
+; GFX900-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[4:5], v2, v18
 ; GFX900-NEXT:    v_min_f32_e32 v2, v2, v18
-; GFX900-NEXT:    v_mov_b32_e32 v17, 0x7fc00000
-; GFX900-NEXT:    v_min_f32_e32 v18, v13, v29
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[28:29], v13, v29
-; GFX900-NEXT:    v_writelane_b32 v31, s31, 1
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[6:7], v3, v19
 ; GFX900-NEXT:    v_min_f32_e32 v3, v3, v19
+; GFX900-NEXT:    v_mov_b32_e32 v18, 0x7fc00000
+; GFX900-NEXT:    v_min_f32_e32 v19, v0, v16
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[28:29], v0, v16
+; GFX900-NEXT:    v_min_f32_e32 v16, v14, v30
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[8:9], v4, v20
 ; GFX900-NEXT:    v_min_f32_e32 v4, v4, v20
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[10:11], v5, v21
@@ -1886,39 +1886,39 @@ define <16 x float> @v_minimum_v16f32(<16 x float> %src0, <16 x float> %src1) {
 ; GFX900-NEXT:    v_min_f32_e32 v6, v6, v22
 ; GFX900-NEXT:    v_cmp_o_f32_e64 s[14:15], v7, v23
 ; GFX900-NEXT:    v_min_f32_e32 v7, v7, v23
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[18:19], v8, v24
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[16:17], v8, v24
 ; GFX900-NEXT:    v_min_f32_e32 v8, v8, v24
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[20:21], v9, v25
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[18:19], v9, v25
 ; GFX900-NEXT:    v_min_f32_e32 v9, v9, v25
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[22:23], v10, v26
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[20:21], v10, v26
 ; GFX900-NEXT:    v_min_f32_e32 v10, v10, v26
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[24:25], v11, v27
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[22:23], v11, v27
 ; GFX900-NEXT:    v_min_f32_e32 v11, v11, v27
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[26:27], v12, v28
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[24:25], v12, v28
 ; GFX900-NEXT:    v_min_f32_e32 v12, v12, v28
-; GFX900-NEXT:    v_min_f32_e32 v19, v14, v30
-; GFX900-NEXT:    v_cmp_o_f32_e64 s[30:31], v14, v30
-; GFX900-NEXT:    v_cndmask_b32_e32 v1, v17, v1, vcc
-; GFX900-NEXT:    v_cndmask_b32_e64 v13, v17, v18, s[28:29]
-; GFX900-NEXT:    v_cndmask_b32_e64 v0, v17, v0, s[16:17]
-; GFX900-NEXT:    v_cndmask_b32_e64 v2, v17, v2, s[4:5]
-; GFX900-NEXT:    v_cndmask_b32_e64 v3, v17, v3, s[6:7]
-; GFX900-NEXT:    v_cndmask_b32_e64 v4, v17, v4, s[8:9]
-; GFX900-NEXT:    v_cndmask_b32_e64 v5, v17, v5, s[10:11]
-; GFX900-NEXT:    v_cndmask_b32_e64 v6, v17, v6, s[12:13]
-; GFX900-NEXT:    v_cndmask_b32_e64 v7, v17, v7, s[14:15]
-; GFX900-NEXT:    v_cndmask_b32_e64 v8, v17, v8, s[18:19]
-; GFX900-NEXT:    v_cndmask_b32_e64 v9, v17, v9, s[20:21]
-; GFX900-NEXT:    v_cndmask_b32_e64 v10, v17, v10, s[22:23]
-; GFX900-NEXT:    v_cndmask_b32_e64 v11, v17, v11, s[24:25]
-; GFX900-NEXT:    v_cndmask_b32_e64 v12, v17, v12, s[26:27]
-; GFX900-NEXT:    v_cndmask_b32_e64 v14, v17, v19, s[30:31]
+; GFX900-NEXT:    v_cmp_o_f32_e64 s[26:27], v13, v29
+; GFX900-NEXT:    v_min_f32_e32 v13, v13, v29
+; GFX900-NEXT:    v_cndmask_b32_e32 v1, v18, v1, vcc
+; GFX900-NEXT:    v_cndmask_b32_e64 v14, v18, v16, s[30:31]
+; GFX900-NEXT:    v_cndmask_b32_e64 v0, v18, v19, s[28:29]
+; GFX900-NEXT:    v_cndmask_b32_e64 v2, v18, v2, s[4:5]
+; GFX900-NEXT:    v_cndmask_b32_e64 v3, v18, v3, s[6:7]
+; GFX900-NEXT:    v_cndmask_b32_e64 v4, v18, v4, s[8:9]
+; GFX900-NEXT:    v_cndmask_b32_e64 v5, v18, v5, s[10:11]
+; GFX900-NEXT:    v_cndmask_b32_e64 v6, v18, v6, s[12:13]
+; GFX900-NEXT:    v_cndmask_b32_e64 v7, v18, v7, s[14:15]
+; GFX900-NEXT:    v_cndmask_b32_e64 v8, v18, v8, s[16:17]
+; GFX900-NEXT:    v_cndmask_b32_e64 v9, v18, v9, s[18:19]
+; GFX900-NEXT:    v_cndmask_b32_e64 v10, v18, v10, s[20:21]
+; GFX900-NEXT:    v_cndmask_b32_e64 v11, v18, v11, s[22:23]
+; GFX900-NEXT:    v_cndmask_b32_e64 v12, v18, v12, s[24:25]
+; GFX900-NEXT:    v_cndmask_b32_e64 v13, v18, v13, s[26:27]
 ; GFX900-NEXT:    v_readlane_b32 s31, v31, 1
 ; GFX900-NEXT:    v_readlane_b32 s30, v31, 0
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
-; GFX900-NEXT:    v_min_f32_e32 v18, v15, v16
-; GFX900-NEXT:    v_cmp_o_f32_e32 vcc, v15, v16
-; GFX900-NEXT:    v_cndmask_b32_e32 v15, v17, v18, vcc
+; GFX900-NEXT:    v_min_f32_e32 v16, v15, v17
+; GFX900-NEXT:    v_cmp_o_f32_e32 vcc, v15, v17
+; GFX900-NEXT:    v_cndmask_b32_e32 v15, v18, v16, vcc
 ; GFX900-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; GFX900-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
 ; GFX900-NEXT:    s_mov_b64 exec, s[4:5]
diff --git a/llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll b/llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll
index c735854a45590..b378d69fb842f 100644
--- a/llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll
+++ b/llvm/test/CodeGen/AMDGPU/llvm.round.f64.ll
@@ -574,84 +574,85 @@ define amdgpu_kernel void @round_v8f64(ptr addrspace(1) %out, <8 x double> %in)
 ; CI-LABEL: round_v8f64:
 ; CI:       ; %bb.0:
 ; CI-NEXT:    s_load_dwordx16 s[8:23], s[4:5], 0x19
-; CI-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x9
-; CI-NEXT:    s_brev_b32 s2, -2
+; CI-NEXT:    s_brev_b32 s6, -2
 ; CI-NEXT:    v_mov_b32_e32 v4, 0
-; CI-NEXT:    s_mov_b32 s3, 0xf000
 ; CI-NEXT:    s_waitcnt lgkmcnt(0)
 ; CI-NEXT:    v_trunc_f64_e32 v[0:1], s[10:11]
 ; CI-NEXT:    v_trunc_f64_e32 v[6:7], s[8:9]
 ; CI-NEXT:    v_add_f64 v[2:3], s[10:11], -v[0:1]
+; CI-NEXT:    v_add_f64 v[8:9], s[8:9], -v[6:7]
+; CI-NEXT:    v_cmp_ge_f64_e64 s[0:1], |v[2:3]|, 0.5
+; CI-NEXT:    v_cmp_ge_f64_e64 s[2:3], |v[8:9]|, 0.5
+; CI-NEXT:    s_and_b64 s[0:1], s[0:1], exec
+; CI-NEXT:    s_cselect_b32 s7, 0x3ff00000, 0
 ; CI-NEXT:    v_mov_b32_e32 v5, s11
-; CI-NEXT:    v_cmp_ge_f64_e64 s[4:5], |v[2:3]|, 0.5
-; CI-NEXT:    v_add_f64 v[2:3], s[8:9], -v[6:7]
-; CI-NEXT:    s_and_b64 s[4:5], s[4:5], exec
-; CI-NEXT:    s_cselect_b32 s4, 0x3ff00000, 0
-; CI-NEXT:    v_mov_b32_e32 v8, s4
-; CI-NEXT:    v_cmp_ge_f64_e64 s[4:5], |v[2:3]|, 0.5
-; CI-NEXT:    v_bfi_b32 v5, s2, v8, v5
-; CI-NEXT:    s_and_b64 s[4:5], s[4:5], exec
+; CI-NEXT:    s_and_b64 s[0:1], s[2:3], exec
+; CI-NEXT:    v_mov_b32_e32 v2, s7
 ; CI-NEXT:    v_trunc_f64_e32 v[8:9], s[14:15]
-; CI-NEXT:    s_cselect_b32 s4, 0x3ff00000, 0
+; CI-NEXT:    v_bfi_b32 v5, s6, v2, v5
+; CI-NEXT:    s_cselect_b32 s0, 0x3ff00000, 0
 ; CI-NEXT:    v_add_f64 v[2:3], v[0:1], v[4:5]
-; CI-NEXT:    v_mov_b32_e32 v5, s4
+; CI-NEXT:    v_mov_b32_e32 v5, s0
 ; CI-NEXT:    v_mov_b32_e32 v10, s9
 ; CI-NEXT:    v_add_f64 v[0:1], s[14:15], -v[8:9]
-; CI-NEXT:    v_bfi_b32 v5, s2, v5, v10
-; CI-NEXT:    v_cmp_ge_f64_e64 s[4:5], |v[0:1]|, 0.5
+; CI-NEXT:    v_bfi_b32 v5, s6, v5, v10
+; CI-NEXT:    v_cmp_ge_f64_e64 s[0:1], |v[0:1]|, 0.5
 ; CI-NEXT:    v_add_f64 v[0:1], v[6:7], v[4:5]
 ; CI-NEXT:    v_trunc_f64_e32 v[6:7], s[12:13]
-; CI-NEXT:    s_and_b64 s[4:5], s[4:5], exec
+; CI-NEXT:    s_and_b64 s[0:1], s[0:1], exec
 ; CI-NEXT:    v_add_f64 v[10:11], s[12:13], -v[6:7]
-; CI-NEXT:    s_cselect_b32 s4, 0x3ff00000, 0
-; CI-NEXT:    v_mov_b32_e32 v5, s4
-; CI-NEXT:    v_cmp_ge_f64_e64 s[4:5], |v[10:11]|, 0.5
+; CI-NEXT:    s_cselect_b32 s0, 0x3ff00000, 0
+; CI-NEXT:    v_mov_b32_e32 v5, s0
+; CI-NEXT:    v_cmp_ge_f64_e64 s[0:1], |v[10:11]|, 0.5
 ; CI-NEXT:    v_trunc_f64_e32 v[10:11], s[18:19]
 ; CI-NEXT:    v_mov_b32_e32 v12, s15
-; CI-NEXT:    s_and_b64 s[4:5], s[4:5], exec
-; CI-NEXT:    v_bfi_b32 v5, s2, v5, v12
-; CI-NEXT:    s_cselect_b32 s4, 0x3ff00000, 0
+; CI-NEXT:    s_and_b64 s[0:1], s[0:1], exec
+; CI-NEXT:    v_bfi_b32 v5, s6, v5, v12
+; CI-NEXT:    s_cselect_b32 s0, 0x3ff00000, 0
 ; CI-NEXT:    v_add_f64 v[12:13], s[18:19], -v[10:11]
 ; CI-NEXT:    v_add_f64 v[8:9], v[8:9], v[4:5]
-; CI-NEXT:    v_mov_b32_e32 v5, s4
+; CI-NEXT:    v_mov_b32_e32 v5, s0
 ; CI-NEXT:    v_mov_b32_e32 v14, s13
-; CI-NEXT:    v_bfi_b32 v5, s2, v5, v14
-; CI-NEXT:    v_cmp_ge_f64_e64 s[4:5], |v[12:13]|, 0.5
+; CI-NEXT:    v_bfi_b32 v5, s6, v5, v14
+; CI-NEXT:    v_cmp_ge_f64_e64 s[0:1], |v[12:13]|, 0.5
 ; CI-NEXT:    v_trunc_f64_e32 v[14:15], s[16:17]
-; CI-NEXT:    s_and_b64 s[4:5], s[4:5], exec
+; CI-NEXT:    s_and_b64 s[0:1], s[0:1], exec
 ; CI-NEXT:    v_add_f64 v[12:13], s[16:17], -v[14:15]
-; CI-NEXT:    s_cselect_b32 s4, 0x3ff00000, 0
+; CI-NEXT:    s_cselect_b32 s0, 0x3ff00000, 0
 ; CI-NEXT:    v_add_f64 v[6:7], v[6:7], v[4:5]
-; CI-NEXT:    v_mov_b32_e32 v5, s4
-; CI-NEXT:    v_cmp_ge_f64_e64 s[4:5], |v[12:13]|, 0.5
+; CI-NEXT:    v_mov_b32_e32 v5, s0
+; CI-NEXT:    v_cmp_ge_f64_e64 s[0:1], |v[12:13]|, 0.5
 ; CI-NEXT:    v_mov_b32_e32 v16, s19
-; CI-NEXT:    v_bfi_b32 v5, s2, v5, v16
-; CI-NEXT:    s_and_b64 s[4:5], s[4:5], exec
+; CI-NEXT:    s_and_b64 s[0:1], s[0:1], exec
+; CI-NEXT:    v_bfi_b32 v5, s6, v5, v16
+; CI-NEXT:    s_cselect_b32 s0, 0x3ff00000, 0
 ; CI-NEXT:    v_trunc_f64_e32 v[16:17], s[22:23]
-; CI-NEXT:    s_cselect_b32 s4, 0x3ff00000, 0
 ; CI-NEXT:    v_add_f64 v[12:13], v[10:11], v[4:5]
-; CI-NEXT:    v_mov_b32_e32 v5, s4
-; CI-NEXT:    v_mov_b32_e32 v18, s17
-; CI-NEXT:    v_add_f64 v[10:11], s[22:23], -v[16:17]
-; CI-NEXT:    v_bfi_b32 v5, s2, v5, v18
-; CI-NEXT:    v_cmp_ge_f64_e64 s[4:5], |v[10:11]|, 0.5
+; CI-NEXT:    v_mov_b32_e32 v5, s0
+; CI-NEXT:    v_mov_b32_e32 v10, s17
+; CI-NEXT:    v_bfi_b32 v5, s6, v5, v10
+; CI-NEXT:    v_add_f64 v[18:19], s[22:23], -v[16:17]
 ; CI-NEXT:    v_add_f64 v[10:11], v[14:15], v[4:5]
 ; CI-NEXT:    v_trunc_f64_e32 v[14:15], s[20:21]
-; CI-NEXT:    s_and_b64 s[4:5], s[4:5], exec
+; CI-NEXT:    v_cmp_ge_f64_e64 s[0:1], |v[18:19]|, 0.5
 ; CI-NEXT:    v_add_f64 v[18:19], s[20:21], -v[14:15]
-; CI-NEXT:    s_cselect_b32 s4, 0x3ff00000, 0
-; CI-NEXT:    v_mov_b32_e32 v5, s4
-; CI-NEXT:    v_cmp_ge_f64_e64 s[4:5], |v[18:19]|, 0.5
-; CI-NEXT:    v_mov_b32_e32 v20, s23
-; CI-NEXT:    s_and_b64 s[4:5], s[4:5], exec
-; CI-NEXT:    v_bfi_b32 v5, s2, v5, v20
-; CI-NEXT:    s_cselect_b32 s4, 0x3ff00000, 0
+; CI-NEXT:    s_and_b64 s[0:1], s[0:1], exec
+; CI-NEXT:    v_cmp_ge_f64_e64 s[0:1], |v[18:19]|, 0.5
+; CI-NEXT:    s_cselect_b32 s2, 0x3ff00000, 0
+; CI-NEXT:    s_and_b64 s[0:1], s[0:1], exec
+; CI-NEXT:    v_mov_b32_e32 v5, s2
+; CI-NEXT:    v_mov_b32_e32 v18, s23
+; CI-NEXT:    s_cselect_b32 s0, 0x3ff00000, 0
+; CI-NEXT:    v_bfi_b32 v5, s6, v5, v18
+; CI-NEXT:    v_mov_b32_e32 v18, s0
+; CI-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x9
+; CI-NEXT:    v_mov_b32_e32 v19, s21
 ; CI-NEXT:    v_add_f64 v[16:17], v[16:17], v[4:5]
-; CI-NEXT:    v_mov_b32_e32 v5, s4
-; CI-NEXT:    v_mov_b32_e32 v18, s21
-; CI-NEXT:    v_bfi_b32 v5, s2, v5, v18
+; CI-NEXT:    v_bfi_b32 v5, s6, v18, v19
 ; CI-NEXT:    v_add_f64 v[14:15], v[14:15], v[4:5]
+; CI-NEXT:    s_mov_b32 s3, 0xf000
 ; CI-NEXT:    s_mov_b32 s2, -1
+; CI-NEXT:    s_waitcnt lgkmcnt(0)
 ; CI-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:48
 ; CI-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:32
 ; CI-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:16
diff --git a/llvm/test/CodeGen/AMDGPU/load-constant-i1.ll b/llvm/test/CodeGen/AMDGPU/load-constant-i1.ll
index c1ab63b8160c6..223870950e4b7 100644
--- a/llvm/test/CodeGen/AMDGPU/load-constant-i1.ll
+++ b/llvm/test/CodeGen/AMDGPU/load-constant-i1.ll
@@ -1772,42 +1772,42 @@ define amdgpu_kernel void @constant_sextload_v16i1_to_v16i32(ptr addrspace(1) %o
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s2
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s3
-; GFX8-NEXT:    flat_load_ushort v12, v[0:1]
+; GFX8-NEXT:    flat_load_ushort v18, v[0:1]
 ; GFX8-NEXT:    s_add_u32 s2, s0, 48
 ; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    v_mov_b32_e32 v19, s3
-; GFX8-NEXT:    v_mov_b32_e32 v18, s2
+; GFX8-NEXT:    v_mov_b32_e32 v9, s3
+; GFX8-NEXT:    v_mov_b32_e32 v8, s2
 ; GFX8-NEXT:    s_add_u32 s2, s0, 32
-; GFX8-NEXT:    v_mov_b32_e32 v17, s1
+; GFX8-NEXT:    v_mov_b32_e32 v13, s1
 ; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    v_mov_b32_e32 v16, s0
+; GFX8-NEXT:    v_mov_b32_e32 v12, s0
 ; GFX8-NEXT:    s_add_u32 s0, s0, 16
+; GFX8-NEXT:    v_mov_b32_e32 v15, s3
 ; GFX8-NEXT:    s_addc_u32 s1, s1, 0
-; GFX8-NEXT:    v_mov_b32_e32 v21, s3
-; GFX8-NEXT:    v_mov_b32_e32 v23, s1
-; GFX8-NEXT:    v_mov_b32_e32 v20, s2
-; GFX8-NEXT:    v_mov_b32_e32 v22, s0
+; GFX8-NEXT:    v_mov_b32_e32 v14, s2
+; GFX8-NEXT:    v_mov_b32_e32 v17, s1
+; GFX8-NEXT:    v_mov_b32_e32 v16, s0
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_bfe_i32 v3, v12, 3, 1
-; GFX8-NEXT:    v_bfe_i32 v2, v12, 2, 1
-; GFX8-NEXT:    v_bfe_i32 v1, v12, 1, 1
-; GFX8-NEXT:    v_bfe_i32 v0, v12, 0, 1
-; GFX8-NEXT:    v_bfe_i32 v7, v12, 7, 1
-; GFX8-NEXT:    v_bfe_i32 v6, v12, 6, 1
-; GFX8-NEXT:    v_bfe_i32 v5, v12, 5, 1
-; GFX8-NEXT:    v_bfe_i32 v4, v12, 4, 1
-; GFX8-NEXT:    v_bfe_i32 v11, v12, 11, 1
-; GFX8-NEXT:    v_bfe_i32 v10, v12, 10, 1
-; GFX8-NEXT:    v_bfe_i32 v9, v12, 9, 1
-; GFX8-NEXT:    v_bfe_i32 v8, v12, 8, 1
-; GFX8-NEXT:    v_bfe_i32 v15, v12, 15, 1
-; GFX8-NEXT:    v_bfe_i32 v14, v12, 14, 1
-; GFX8-NEXT:    v_bfe_i32 v13, v12, 13, 1
-; GFX8-NEXT:    v_bfe_i32 v12, v12, 12, 1
-; GFX8-NEXT:    flat_store_dwordx4 v[18:19], v[12:15]
-; GFX8-NEXT:    flat_store_dwordx4 v[20:21], v[8:11]
-; GFX8-NEXT:    flat_store_dwordx4 v[22:23], v[4:7]
-; GFX8-NEXT:    flat_store_dwordx4 v[16:17], v[0:3]
+; GFX8-NEXT:    v_bfe_i32 v7, v18, 15, 1
+; GFX8-NEXT:    v_bfe_i32 v6, v18, 14, 1
+; GFX8-NEXT:    v_bfe_i32 v5, v18, 13, 1
+; GFX8-NEXT:    v_bfe_i32 v4, v18, 12, 1
+; GFX8-NEXT:    flat_store_dwordx4 v[8:9], v[4:7]
+; GFX8-NEXT:    v_bfe_i32 v11, v18, 11, 1
+; GFX8-NEXT:    v_bfe_i32 v10, v18, 10, 1
+; GFX8-NEXT:    v_bfe_i32 v9, v18, 9, 1
+; GFX8-NEXT:    v_bfe_i32 v8, v18, 8, 1
+; GFX8-NEXT:    v_bfe_i32 v3, v18, 3, 1
+; GFX8-NEXT:    v_bfe_i32 v2, v18, 2, 1
+; GFX8-NEXT:    v_bfe_i32 v1, v18, 1, 1
+; GFX8-NEXT:    v_bfe_i32 v0, v18, 0, 1
+; GFX8-NEXT:    v_bfe_i32 v7, v18, 7, 1
+; GFX8-NEXT:    v_bfe_i32 v6, v18, 6, 1
+; GFX8-NEXT:    v_bfe_i32 v5, v18, 5, 1
+; GFX8-NEXT:    v_bfe_i32 v4, v18, 4, 1
+; GFX8-NEXT:    flat_store_dwordx4 v[14:15], v[8:11]
+; GFX8-NEXT:    flat_store_dwordx4 v[16:17], v[4:7]
+; GFX8-NEXT:    flat_store_dwordx4 v[12:13], v[0:3]
 ; GFX8-NEXT:    s_endpgm
 ;
 ; EG-LABEL: constant_sextload_v16i1_to_v16i32:
@@ -2707,33 +2707,33 @@ define amdgpu_kernel void @constant_zextload_v64i1_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NEXT:    s_bfe_u32 s8, s2, 0x1000b
 ; GFX6-NEXT:    s_bfe_u32 s9, s2, 0x10009
 ; GFX6-NEXT:    s_bfe_u32 s10, s2, 0x1000f
-; GFX6-NEXT:    s_bfe_u32 s11, s2, 0x1000d
-; GFX6-NEXT:    s_bfe_u32 s12, s2, 0x10013
-; GFX6-NEXT:    s_bfe_u32 s13, s2, 0x10011
-; GFX6-NEXT:    s_bfe_u32 s14, s2, 0x10017
-; GFX6-NEXT:    s_bfe_u32 s15, s2, 0x10015
-; GFX6-NEXT:    s_bfe_u32 s16, s2, 0x1001b
-; GFX6-NEXT:    s_bfe_u32 s17, s2, 0x10019
-; GFX6-NEXT:    s_lshr_b32 s18, s2, 31
-; GFX6-NEXT:    s_bfe_u32 s19, s2, 0x1001d
-; GFX6-NEXT:    s_bfe_u32 s20, s3, 0x10003
-; GFX6-NEXT:    s_bfe_u32 s21, s3, 0x10001
-; GFX6-NEXT:    s_bfe_u32 s22, s3, 0x10007
-; GFX6-NEXT:    s_bfe_u32 s23, s3, 0x10005
-; GFX6-NEXT:    s_bfe_u32 s24, s3, 0x1000b
-; GFX6-NEXT:    s_bfe_u32 s25, s3, 0x10009
-; GFX6-NEXT:    s_bfe_u32 s26, s3, 0x1000f
-; GFX6-NEXT:    s_bfe_u32 s27, s3, 0x1000d
-; GFX6-NEXT:    s_bfe_u32 s28, s3, 0x10013
-; GFX6-NEXT:    s_bfe_u32 s29, s3, 0x10011
-; GFX6-NEXT:    s_bfe_u32 s30, s3, 0x10017
-; GFX6-NEXT:    s_bfe_u32 s31, s3, 0x10015
-; GFX6-NEXT:    s_bfe_u32 s33, s3, 0x1001b
-; GFX6-NEXT:    s_bfe_u32 s34, s3, 0x10019
-; GFX6-NEXT:    s_lshr_b32 s35, s3, 31
-; GFX6-NEXT:    s_bfe_u32 s36, s3, 0x1001d
-; GFX6-NEXT:    s_and_b32 s37, s2, 1
-; GFX6-NEXT:    s_bfe_u32 s38, s2, 0x10002
+; GFX6-NEXT:    s_bfe_u32 s13, s2, 0x1000d
+; GFX6-NEXT:    s_bfe_u32 s14, s2, 0x10013
+; GFX6-NEXT:    s_bfe_u32 s15, s2, 0x10011
+; GFX6-NEXT:    s_bfe_u32 s16, s2, 0x10017
+; GFX6-NEXT:    s_bfe_u32 s17, s2, 0x10015
+; GFX6-NEXT:    s_bfe_u32 s18, s2, 0x1001b
+; GFX6-NEXT:    s_bfe_u32 s19, s2, 0x10019
+; GFX6-NEXT:    s_lshr_b32 s20, s2, 31
+; GFX6-NEXT:    s_bfe_u32 s21, s2, 0x1001d
+; GFX6-NEXT:    s_bfe_u32 s22, s3, 0x10003
+; GFX6-NEXT:    s_bfe_u32 s23, s3, 0x10001
+; GFX6-NEXT:    s_bfe_u32 s24, s3, 0x10007
+; GFX6-NEXT:    s_bfe_u32 s25, s3, 0x10005
+; GFX6-NEXT:    s_bfe_u32 s26, s3, 0x1000b
+; GFX6-NEXT:    s_bfe_u32 s27, s3, 0x10009
+; GFX6-NEXT:    s_bfe_u32 s28, s3, 0x1000f
+; GFX6-NEXT:    s_bfe_u32 s29, s3, 0x1000d
+; GFX6-NEXT:    s_bfe_u32 s30, s3, 0x10013
+; GFX6-NEXT:    s_bfe_u32 s31, s3, 0x10011
+; GFX6-NEXT:    s_bfe_u32 s33, s3, 0x10017
+; GFX6-NEXT:    s_bfe_u32 s34, s3, 0x10015
+; GFX6-NEXT:    s_bfe_u32 s35, s3, 0x1001b
+; GFX6-NEXT:    s_bfe_u32 s36, s3, 0x10019
+; GFX6-NEXT:    s_lshr_b32 s37, s3, 31
+; GFX6-NEXT:    s_bfe_u32 s38, s3, 0x1001d
+; GFX6-NEXT:    s_and_b32 s12, s2, 1
+; GFX6-NEXT:    s_bfe_u32 s11, s2, 0x10002
 ; GFX6-NEXT:    s_bfe_u32 s39, s2, 0x10006
 ; GFX6-NEXT:    s_bfe_u32 s40, s2, 0x10004
 ; GFX6-NEXT:    s_bfe_u32 s41, s2, 0x1000a
@@ -2752,91 +2752,90 @@ define amdgpu_kernel void @constant_zextload_v64i1_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NEXT:    s_bfe_u32 s54, s3, 0x10002
 ; GFX6-NEXT:    s_bfe_u32 s55, s3, 0x10006
 ; GFX6-NEXT:    s_bfe_u32 s56, s3, 0x10004
-; GFX6-NEXT:    s_bfe_u32 s57, s3, 0x1000a
-; GFX6-NEXT:    s_bfe_u32 s58, s3, 0x10008
-; GFX6-NEXT:    s_bfe_u32 s59, s3, 0x1000e
+; GFX6-NEXT:    s_bfe_u32 s57, s3, 0x10008
+; GFX6-NEXT:    s_bfe_u32 s58, s3, 0x1000e
+; GFX6-NEXT:    s_bfe_u32 s59, s3, 0x1000c
 ; GFX6-NEXT:    s_bfe_u32 s60, s3, 0x10012
 ; GFX6-NEXT:    s_bfe_u32 s61, s3, 0x10010
 ; GFX6-NEXT:    s_bfe_u32 s62, s3, 0x10016
-; GFX6-NEXT:    s_bfe_u32 s63, s3, 0x1001a
-; GFX6-NEXT:    s_bfe_u32 s64, s3, 0x10018
-; GFX6-NEXT:    s_bfe_u32 s65, s3, 0x1001e
-; GFX6-NEXT:    s_bfe_u32 s66, s3, 0x1001c
-; GFX6-NEXT:    s_bfe_u32 s67, s3, 0x10014
-; GFX6-NEXT:    s_bfe_u32 s68, s3, 0x1000c
+; GFX6-NEXT:    s_bfe_u32 s63, s3, 0x10014
+; GFX6-NEXT:    s_bfe_u32 s64, s3, 0x1001a
+; GFX6-NEXT:    s_bfe_u32 s65, s3, 0x10018
+; GFX6-NEXT:    s_bfe_u32 s66, s3, 0x1001e
+; GFX6-NEXT:    s_bfe_u32 s67, s3, 0x1001c
+; GFX6-NEXT:    s_bfe_u32 s68, s3, 0x1000a
 ; GFX6-NEXT:    s_mov_b32 s3, 0xf000
 ; GFX6-NEXT:    s_mov_b32 s2, -1
-; GFX6-NEXT:    v_mov_b32_e32 v0, s66
-; GFX6-NEXT:    v_mov_b32_e32 v1, s36
-; GFX6-NEXT:    v_mov_b32_e32 v2, s65
-; GFX6-NEXT:    v_mov_b32_e32 v3, s35
-; GFX6-NEXT:    v_mov_b32_e32 v4, s64
-; GFX6-NEXT:    v_mov_b32_e32 v5, s34
-; GFX6-NEXT:    v_mov_b32_e32 v6, s63
-; GFX6-NEXT:    v_mov_b32_e32 v7, s33
-; GFX6-NEXT:    v_mov_b32_e32 v8, s67
-; GFX6-NEXT:    v_mov_b32_e32 v9, s31
+; GFX6-NEXT:    v_mov_b32_e32 v0, s67
+; GFX6-NEXT:    v_mov_b32_e32 v1, s38
+; GFX6-NEXT:    v_mov_b32_e32 v2, s66
+; GFX6-NEXT:    v_mov_b32_e32 v3, s37
+; GFX6-NEXT:    v_mov_b32_e32 v4, s65
+; GFX6-NEXT:    v_mov_b32_e32 v5, s36
+; GFX6-NEXT:    v_mov_b32_e32 v6, s64
+; GFX6-NEXT:    v_mov_b32_e32 v7, s35
+; GFX6-NEXT:    v_mov_b32_e32 v8, s63
+; GFX6-NEXT:    v_mov_b32_e32 v9, s34
 ; GFX6-NEXT:    v_mov_b32_e32 v10, s62
-; GFX6-NEXT:    v_mov_b32_e32 v11, s30
+; GFX6-NEXT:    v_mov_b32_e32 v11, s33
 ; GFX6-NEXT:    v_mov_b32_e32 v12, s61
-; GFX6-NEXT:    v_mov_b32_e32 v13, s29
+; GFX6-NEXT:    v_mov_b32_e32 v13, s31
 ; GFX6-NEXT:    v_mov_b32_e32 v14, s60
+; GFX6-NEXT:    v_mov_b32_e32 v15, s30
+; GFX6-NEXT:    v_mov_b32_e32 v16, s59
+; GFX6-NEXT:    v_mov_b32_e32 v17, s29
+; GFX6-NEXT:    v_mov_b32_e32 v18, s58
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v0, s57
+; GFX6-NEXT:    v_mov_b32_e32 v19, s28
+; GFX6-NEXT:    v_mov_b32_e32 v1, s27
+; GFX6-NEXT:    v_mov_b32_e32 v2, s68
+; GFX6-NEXT:    v_mov_b32_e32 v3, s26
 ; GFX6-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
 ; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
-; GFX6-NEXT:    v_mov_b32_e32 v15, s28
 ; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
-; GFX6-NEXT:    s_waitcnt expcnt(3)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s68
-; GFX6-NEXT:    v_mov_b32_e32 v1, s27
-; GFX6-NEXT:    v_mov_b32_e32 v2, s59
-; GFX6-NEXT:    v_mov_b32_e32 v3, s26
-; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:176
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s58
-; GFX6-NEXT:    v_mov_b32_e32 v1, s25
-; GFX6-NEXT:    v_mov_b32_e32 v2, s57
-; GFX6-NEXT:    v_mov_b32_e32 v3, s24
+; GFX6-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:176
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:160
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s56
-; GFX6-NEXT:    v_mov_b32_e32 v1, s23
+; GFX6-NEXT:    v_mov_b32_e32 v1, s25
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s55
-; GFX6-NEXT:    v_mov_b32_e32 v3, s22
+; GFX6-NEXT:    v_mov_b32_e32 v3, s24
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:144
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s53
-; GFX6-NEXT:    v_mov_b32_e32 v1, s21
+; GFX6-NEXT:    v_mov_b32_e32 v1, s23
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s54
-; GFX6-NEXT:    v_mov_b32_e32 v3, s20
+; GFX6-NEXT:    v_mov_b32_e32 v3, s22
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:128
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s52
-; GFX6-NEXT:    v_mov_b32_e32 v1, s19
+; GFX6-NEXT:    v_mov_b32_e32 v1, s21
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s51
-; GFX6-NEXT:    v_mov_b32_e32 v3, s18
+; GFX6-NEXT:    v_mov_b32_e32 v3, s20
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:112
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s50
-; GFX6-NEXT:    v_mov_b32_e32 v1, s17
+; GFX6-NEXT:    v_mov_b32_e32 v1, s19
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s49
-; GFX6-NEXT:    v_mov_b32_e32 v3, s16
+; GFX6-NEXT:    v_mov_b32_e32 v3, s18
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:96
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s48
-; GFX6-NEXT:    v_mov_b32_e32 v1, s15
+; GFX6-NEXT:    v_mov_b32_e32 v1, s17
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s47
-; GFX6-NEXT:    v_mov_b32_e32 v3, s14
+; GFX6-NEXT:    v_mov_b32_e32 v3, s16
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:80
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s46
-; GFX6-NEXT:    v_mov_b32_e32 v1, s13
+; GFX6-NEXT:    v_mov_b32_e32 v1, s15
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s45
-; GFX6-NEXT:    v_mov_b32_e32 v3, s12
+; GFX6-NEXT:    v_mov_b32_e32 v3, s14
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s44
-; GFX6-NEXT:    v_mov_b32_e32 v1, s11
+; GFX6-NEXT:    v_mov_b32_e32 v1, s13
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s43
 ; GFX6-NEXT:    v_mov_b32_e32 v3, s10
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
@@ -2853,9 +2852,9 @@ define amdgpu_kernel void @constant_zextload_v64i1_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NEXT:    v_mov_b32_e32 v3, s6
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s37
+; GFX6-NEXT:    v_mov_b32_e32 v0, s12
 ; GFX6-NEXT:    v_mov_b32_e32 v1, s5
-; GFX6-NEXT:    v_mov_b32_e32 v2, s38
+; GFX6-NEXT:    v_mov_b32_e32 v2, s11
 ; GFX6-NEXT:    v_mov_b32_e32 v3, s4
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
 ; GFX6-NEXT:    s_endpgm
@@ -3446,59 +3445,58 @@ define amdgpu_kernel void @constant_sextload_v64i1_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NEXT:    s_bfe_i32 s46, s3, 0x1000a
 ; GFX6-NEXT:    s_bfe_i32 s47, s3, 0x10009
 ; GFX6-NEXT:    s_bfe_i32 s48, s3, 0x10008
-; GFX6-NEXT:    s_bfe_i32 s49, s3, 0x1000f
-; GFX6-NEXT:    s_bfe_i32 s50, s3, 0x1000e
-; GFX6-NEXT:    s_bfe_i32 s51, s3, 0x1000d
-; GFX6-NEXT:    s_bfe_i32 s52, s3, 0x1000c
+; GFX6-NEXT:    s_bfe_i32 s49, s3, 0x1000e
+; GFX6-NEXT:    s_bfe_i32 s50, s3, 0x1000d
+; GFX6-NEXT:    s_bfe_i32 s51, s3, 0x1000c
+; GFX6-NEXT:    s_bfe_i32 s52, s3, 0x10013
 ; GFX6-NEXT:    s_bfe_i32 s53, s3, 0x10012
 ; GFX6-NEXT:    s_bfe_i32 s54, s3, 0x10011
 ; GFX6-NEXT:    s_bfe_i32 s55, s3, 0x10010
 ; GFX6-NEXT:    s_bfe_i32 s56, s3, 0x10017
 ; GFX6-NEXT:    s_bfe_i32 s57, s3, 0x10016
 ; GFX6-NEXT:    s_bfe_i32 s58, s3, 0x10015
-; GFX6-NEXT:    s_bfe_i32 s59, s3, 0x1001b
-; GFX6-NEXT:    s_bfe_i32 s60, s3, 0x1001a
-; GFX6-NEXT:    s_bfe_i32 s61, s3, 0x10019
-; GFX6-NEXT:    s_bfe_i32 s62, s3, 0x10018
-; GFX6-NEXT:    s_ashr_i32 s63, s3, 31
-; GFX6-NEXT:    s_bfe_i32 s64, s3, 0x1001e
-; GFX6-NEXT:    s_bfe_i32 s65, s3, 0x1001d
-; GFX6-NEXT:    s_bfe_i32 s66, s3, 0x1001c
-; GFX6-NEXT:    s_bfe_i32 s67, s3, 0x10014
-; GFX6-NEXT:    s_bfe_i32 s68, s3, 0x10013
+; GFX6-NEXT:    s_bfe_i32 s59, s3, 0x10014
+; GFX6-NEXT:    s_bfe_i32 s60, s3, 0x1001b
+; GFX6-NEXT:    s_bfe_i32 s61, s3, 0x1001a
+; GFX6-NEXT:    s_bfe_i32 s62, s3, 0x10019
+; GFX6-NEXT:    s_bfe_i32 s63, s3, 0x10018
+; GFX6-NEXT:    s_ashr_i32 s64, s3, 31
+; GFX6-NEXT:    s_bfe_i32 s65, s3, 0x1001e
+; GFX6-NEXT:    s_bfe_i32 s66, s3, 0x1001d
+; GFX6-NEXT:    s_bfe_i32 s67, s3, 0x1001c
+; GFX6-NEXT:    s_bfe_i32 s68, s3, 0x1000f
 ; GFX6-NEXT:    s_mov_b32 s3, 0xf000
 ; GFX6-NEXT:    s_mov_b32 s2, -1
-; GFX6-NEXT:    v_mov_b32_e32 v0, s66
-; GFX6-NEXT:    v_mov_b32_e32 v1, s65
-; GFX6-NEXT:    v_mov_b32_e32 v2, s64
-; GFX6-NEXT:    v_mov_b32_e32 v3, s63
-; GFX6-NEXT:    v_mov_b32_e32 v4, s62
-; GFX6-NEXT:    v_mov_b32_e32 v5, s61
-; GFX6-NEXT:    v_mov_b32_e32 v6, s60
-; GFX6-NEXT:    v_mov_b32_e32 v7, s59
-; GFX6-NEXT:    v_mov_b32_e32 v8, s67
+; GFX6-NEXT:    v_mov_b32_e32 v0, s67
+; GFX6-NEXT:    v_mov_b32_e32 v1, s66
+; GFX6-NEXT:    v_mov_b32_e32 v2, s65
+; GFX6-NEXT:    v_mov_b32_e32 v3, s64
+; GFX6-NEXT:    v_mov_b32_e32 v4, s63
+; GFX6-NEXT:    v_mov_b32_e32 v5, s62
+; GFX6-NEXT:    v_mov_b32_e32 v6, s61
+; GFX6-NEXT:    v_mov_b32_e32 v7, s60
+; GFX6-NEXT:    v_mov_b32_e32 v8, s59
 ; GFX6-NEXT:    v_mov_b32_e32 v9, s58
 ; GFX6-NEXT:    v_mov_b32_e32 v10, s57
 ; GFX6-NEXT:    v_mov_b32_e32 v11, s56
 ; GFX6-NEXT:    v_mov_b32_e32 v12, s55
 ; GFX6-NEXT:    v_mov_b32_e32 v13, s54
 ; GFX6-NEXT:    v_mov_b32_e32 v14, s53
+; GFX6-NEXT:    v_mov_b32_e32 v15, s52
+; GFX6-NEXT:    v_mov_b32_e32 v16, s51
+; GFX6-NEXT:    v_mov_b32_e32 v17, s50
+; GFX6-NEXT:    v_mov_b32_e32 v18, s49
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
-; GFX6-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
-; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
-; GFX6-NEXT:    v_mov_b32_e32 v15, s68
-; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
-; GFX6-NEXT:    s_waitcnt expcnt(3)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s52
-; GFX6-NEXT:    v_mov_b32_e32 v1, s51
-; GFX6-NEXT:    v_mov_b32_e32 v2, s50
-; GFX6-NEXT:    v_mov_b32_e32 v3, s49
-; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:176
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s48
+; GFX6-NEXT:    v_mov_b32_e32 v19, s68
 ; GFX6-NEXT:    v_mov_b32_e32 v1, s47
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s46
 ; GFX6-NEXT:    v_mov_b32_e32 v3, s45
+; GFX6-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
+; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
+; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
+; GFX6-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:176
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:160
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s44
@@ -5099,40 +5097,40 @@ define amdgpu_kernel void @constant_zextload_v8i1_to_v8i64(ptr addrspace(1) %out
 ; GFX8-NEXT:    flat_load_ubyte v0, v[0:1]
 ; GFX8-NEXT:    s_add_u32 s2, s0, 48
 ; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    v_mov_b32_e32 v19, s3
-; GFX8-NEXT:    v_mov_b32_e32 v18, s2
-; GFX8-NEXT:    s_add_u32 s2, s0, 32
-; GFX8-NEXT:    v_mov_b32_e32 v17, s1
-; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    v_mov_b32_e32 v16, s0
-; GFX8-NEXT:    s_add_u32 s0, s0, 16
+; GFX8-NEXT:    s_add_u32 s4, s0, 32
+; GFX8-NEXT:    s_addc_u32 s5, s1, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v1, 0
-; GFX8-NEXT:    v_mov_b32_e32 v21, s3
-; GFX8-NEXT:    s_addc_u32 s1, s1, 0
+; GFX8-NEXT:    v_mov_b32_e32 v16, s5
 ; GFX8-NEXT:    v_mov_b32_e32 v5, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v7, v1
-; GFX8-NEXT:    v_mov_b32_e32 v20, s2
-; GFX8-NEXT:    v_mov_b32_e32 v23, s1
+; GFX8-NEXT:    v_mov_b32_e32 v15, s4
+; GFX8-NEXT:    v_mov_b32_e32 v8, v1
+; GFX8-NEXT:    v_mov_b32_e32 v10, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v3, v1
-; GFX8-NEXT:    v_mov_b32_e32 v9, v1
-; GFX8-NEXT:    v_mov_b32_e32 v11, v1
-; GFX8-NEXT:    v_mov_b32_e32 v13, v1
-; GFX8-NEXT:    v_mov_b32_e32 v15, v1
-; GFX8-NEXT:    v_mov_b32_e32 v22, s0
+; GFX8-NEXT:    v_mov_b32_e32 v12, v1
+; GFX8-NEXT:    v_mov_b32_e32 v14, v1
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_and_b32_e32 v24, 0xffff, v0
 ; GFX8-NEXT:    v_bfe_u32 v6, v0, 5, 1
 ; GFX8-NEXT:    v_bfe_u32 v4, v0, 4, 1
-; GFX8-NEXT:    v_bfe_u32 v10, v0, 3, 1
-; GFX8-NEXT:    v_bfe_u32 v14, v0, 1, 1
-; GFX8-NEXT:    v_and_b32_e32 v12, 1, v0
-; GFX8-NEXT:    v_bfe_u32 v8, v0, 2, 1
-; GFX8-NEXT:    v_lshrrev_b32_e32 v2, 7, v24
-; GFX8-NEXT:    v_bfe_u32 v0, v24, 6, 1
-; GFX8-NEXT:    flat_store_dwordx4 v[20:21], v[4:7]
-; GFX8-NEXT:    flat_store_dwordx4 v[22:23], v[8:11]
-; GFX8-NEXT:    flat_store_dwordx4 v[18:19], v[0:3]
-; GFX8-NEXT:    flat_store_dwordx4 v[16:17], v[12:15]
+; GFX8-NEXT:    flat_store_dwordx4 v[15:16], v[4:7]
+; GFX8-NEXT:    v_mov_b32_e32 v16, s3
+; GFX8-NEXT:    v_mov_b32_e32 v5, s1
+; GFX8-NEXT:    v_mov_b32_e32 v4, s0
+; GFX8-NEXT:    s_add_u32 s0, s0, 16
+; GFX8-NEXT:    s_addc_u32 s1, s1, 0
+; GFX8-NEXT:    v_mov_b32_e32 v18, s1
+; GFX8-NEXT:    v_mov_b32_e32 v17, s0
+; GFX8-NEXT:    v_and_b32_e32 v6, 0xffff, v0
+; GFX8-NEXT:    v_bfe_u32 v9, v0, 3, 1
+; GFX8-NEXT:    v_bfe_u32 v7, v0, 2, 1
+; GFX8-NEXT:    v_mov_b32_e32 v15, s2
+; GFX8-NEXT:    v_bfe_u32 v13, v0, 1, 1
+; GFX8-NEXT:    v_and_b32_e32 v11, 1, v0
+; GFX8-NEXT:    v_lshrrev_b32_e32 v2, 7, v6
+; GFX8-NEXT:    v_bfe_u32 v0, v6, 6, 1
+; GFX8-NEXT:    flat_store_dwordx4 v[17:18], v[7:10]
+; GFX8-NEXT:    flat_store_dwordx4 v[15:16], v[0:3]
+; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[11:14]
 ; GFX8-NEXT:    s_endpgm
 ;
 ; EG-LABEL: constant_zextload_v8i1_to_v8i64:
@@ -5728,61 +5726,63 @@ define amdgpu_kernel void @constant_sextload_v16i1_to_v16i64(ptr addrspace(1) %o
 ; GFX6-NEXT:    s_mov_b32 s1, s5
 ; GFX6-NEXT:    s_waitcnt vmcnt(0)
 ; GFX6-NEXT:    v_lshrrev_b32_e32 v3, 14, v1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v5, 15, v1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v4, 15, v1
 ; GFX6-NEXT:    v_lshrrev_b32_e32 v7, 12, v1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v9, 13, v1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v8, 13, v1
 ; GFX6-NEXT:    v_lshrrev_b32_e32 v11, 10, v1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v12, 8, v1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v13, 9, v1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v8, 6, v1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v10, 7, v1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v4, 4, v1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v6, 5, v1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v12, 11, v1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v14, 8, v1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v16, 9, v1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v15, 6, v1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v9, 4, v1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v10, 5, v1
 ; GFX6-NEXT:    v_lshrrev_b32_e32 v0, 2, v1
 ; GFX6-NEXT:    v_lshrrev_b32_e32 v2, 3, v1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v16, 1, v1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v13, 1, v1
 ; GFX6-NEXT:    v_bfe_i32 v2, v2, 0, 1
 ; GFX6-NEXT:    v_bfe_i32 v0, v0, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v6, v6, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v4, v4, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v10, v10, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v8, v8, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v14, v13, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v12, v12, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v17, v5, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v15, v3, 0, 1
+; GFX6-NEXT:    v_bfe_i32 v5, v4, 0, 1
+; GFX6-NEXT:    v_bfe_i32 v3, v3, 0, 1
+; GFX6-NEXT:    v_ashrrev_i32_e32 v6, 31, v5
+; GFX6-NEXT:    v_ashrrev_i32_e32 v4, 31, v3
+; GFX6-NEXT:    buffer_store_dwordx4 v[3:6], off, s[0:3], 0 offset:112
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_bfe_i32 v6, v10, 0, 1
+; GFX6-NEXT:    v_bfe_i32 v4, v9, 0, 1
+; GFX6-NEXT:    v_bfe_i32 v9, v8, 0, 1
+; GFX6-NEXT:    v_bfe_i32 v7, v7, 0, 1
+; GFX6-NEXT:    v_ashrrev_i32_e32 v10, 31, v9
+; GFX6-NEXT:    v_ashrrev_i32_e32 v8, 31, v7
+; GFX6-NEXT:    buffer_store_dwordx4 v[7:10], off, s[0:3], 0 offset:96
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_bfe_i32 v9, v12, 0, 1
+; GFX6-NEXT:    v_bfe_i32 v7, v11, 0, 1
+; GFX6-NEXT:    v_bfe_i32 v13, v13, 0, 1
+; GFX6-NEXT:    v_bfe_i32 v11, v1, 0, 1
+; GFX6-NEXT:    v_lshrrev_b32_e32 v1, 7, v1
+; GFX6-NEXT:    v_ashrrev_i32_e32 v10, 31, v9
+; GFX6-NEXT:    v_ashrrev_i32_e32 v8, 31, v7
+; GFX6-NEXT:    buffer_store_dwordx4 v[7:10], off, s[0:3], 0 offset:80
+; GFX6-NEXT:    v_bfe_i32 v17, v1, 0, 1
+; GFX6-NEXT:    v_bfe_i32 v15, v15, 0, 1
 ; GFX6-NEXT:    v_bfe_i32 v21, v16, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v19, v1, 0, 1
-; GFX6-NEXT:    v_lshrrev_b32_e32 v1, 11, v1
-; GFX6-NEXT:    v_ashrrev_i32_e32 v18, 31, v17
-; GFX6-NEXT:    v_ashrrev_i32_e32 v16, 31, v15
-; GFX6-NEXT:    buffer_store_dwordx4 v[15:18], off, s[0:3], 0 offset:112
-; GFX6-NEXT:    v_bfe_i32 v25, v1, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v23, v11, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v29, v9, 0, 1
-; GFX6-NEXT:    v_bfe_i32 v27, v7, 0, 1
-; GFX6-NEXT:    v_ashrrev_i32_e32 v20, 31, v19
-; GFX6-NEXT:    v_ashrrev_i32_e32 v22, 31, v21
+; GFX6-NEXT:    v_bfe_i32 v19, v14, 0, 1
+; GFX6-NEXT:    v_ashrrev_i32_e32 v12, 31, v11
+; GFX6-NEXT:    v_ashrrev_i32_e32 v14, 31, v13
 ; GFX6-NEXT:    v_ashrrev_i32_e32 v3, 31, v2
 ; GFX6-NEXT:    v_ashrrev_i32_e32 v1, 31, v0
+; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_ashrrev_i32_e32 v7, 31, v6
 ; GFX6-NEXT:    v_ashrrev_i32_e32 v5, 31, v4
-; GFX6-NEXT:    v_ashrrev_i32_e32 v11, 31, v10
-; GFX6-NEXT:    v_ashrrev_i32_e32 v9, 31, v8
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_ashrrev_i32_e32 v15, 31, v14
-; GFX6-NEXT:    v_ashrrev_i32_e32 v13, 31, v12
-; GFX6-NEXT:    v_ashrrev_i32_e32 v26, 31, v25
-; GFX6-NEXT:    v_ashrrev_i32_e32 v24, 31, v23
-; GFX6-NEXT:    v_ashrrev_i32_e32 v30, 31, v29
-; GFX6-NEXT:    v_ashrrev_i32_e32 v28, 31, v27
-; GFX6-NEXT:    buffer_store_dwordx4 v[27:30], off, s[0:3], 0 offset:96
-; GFX6-NEXT:    buffer_store_dwordx4 v[23:26], off, s[0:3], 0 offset:80
-; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:64
-; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:48
+; GFX6-NEXT:    v_ashrrev_i32_e32 v18, 31, v17
+; GFX6-NEXT:    v_ashrrev_i32_e32 v16, 31, v15
+; GFX6-NEXT:    v_ashrrev_i32_e32 v22, 31, v21
+; GFX6-NEXT:    v_ashrrev_i32_e32 v20, 31, v19
+; GFX6-NEXT:    buffer_store_dwordx4 v[19:22], off, s[0:3], 0 offset:64
+; GFX6-NEXT:    buffer_store_dwordx4 v[15:18], off, s[0:3], 0 offset:48
 ; GFX6-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:32
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
-; GFX6-NEXT:    buffer_store_dwordx4 v[19:22], off, s[0:3], 0
+; GFX6-NEXT:    buffer_store_dwordx4 v[11:14], off, s[0:3], 0
 ; GFX6-NEXT:    s_endpgm
 ;
 ; GFX8-LABEL: constant_sextload_v16i1_to_v16i64:
@@ -5792,8 +5792,8 @@ define amdgpu_kernel void @constant_sextload_v16i1_to_v16i64(ptr addrspace(1) %o
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s2
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s3
 ; GFX8-NEXT:    flat_load_ushort v0, v[0:1]
-; GFX8-NEXT:    v_mov_b32_e32 v27, s1
-; GFX8-NEXT:    v_mov_b32_e32 v26, s0
+; GFX8-NEXT:    v_mov_b32_e32 v19, s1
+; GFX8-NEXT:    v_mov_b32_e32 v18, s0
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
 ; GFX8-NEXT:    v_readfirstlane_b32 s3, v0
 ; GFX8-NEXT:    s_lshr_b32 s2, s3, 14
@@ -5831,70 +5831,70 @@ define amdgpu_kernel void @constant_sextload_v16i1_to_v16i64(ptr addrspace(1) %o
 ; GFX8-NEXT:    s_add_u32 s2, s0, 0x70
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s3
 ; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    v_mov_b32_e32 v23, s3
+; GFX8-NEXT:    v_mov_b32_e32 v15, s3
+; GFX8-NEXT:    v_mov_b32_e32 v14, s2
+; GFX8-NEXT:    s_add_u32 s2, s0, 0x60
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s4
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s5
-; GFX8-NEXT:    v_mov_b32_e32 v22, s2
-; GFX8-NEXT:    s_add_u32 s2, s0, 0x60
-; GFX8-NEXT:    flat_store_dwordx4 v[22:23], v[2:5]
 ; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    v_mov_b32_e32 v2, s2
-; GFX8-NEXT:    v_mov_b32_e32 v3, s3
+; GFX8-NEXT:    flat_store_dwordx4 v[14:15], v[2:5]
+; GFX8-NEXT:    v_mov_b32_e32 v15, s3
+; GFX8-NEXT:    v_mov_b32_e32 v14, s2
 ; GFX8-NEXT:    s_add_u32 s2, s0, 0x50
 ; GFX8-NEXT:    v_mov_b32_e32 v6, s6
 ; GFX8-NEXT:    v_mov_b32_e32 v7, s7
 ; GFX8-NEXT:    v_mov_b32_e32 v8, s8
 ; GFX8-NEXT:    v_mov_b32_e32 v9, s9
 ; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    flat_store_dwordx4 v[2:3], v[6:9]
-; GFX8-NEXT:    v_mov_b32_e32 v10, s10
-; GFX8-NEXT:    v_mov_b32_e32 v9, s3
-; GFX8-NEXT:    v_mov_b32_e32 v8, s2
+; GFX8-NEXT:    flat_store_dwordx4 v[14:15], v[6:9]
+; GFX8-NEXT:    v_mov_b32_e32 v15, s3
+; GFX8-NEXT:    v_mov_b32_e32 v14, s2
 ; GFX8-NEXT:    s_add_u32 s2, s0, 64
+; GFX8-NEXT:    v_mov_b32_e32 v10, s10
 ; GFX8-NEXT:    v_mov_b32_e32 v11, s11
 ; GFX8-NEXT:    v_mov_b32_e32 v12, s12
 ; GFX8-NEXT:    v_mov_b32_e32 v13, s13
 ; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    flat_store_dwordx4 v[8:9], v[10:13]
-; GFX8-NEXT:    v_mov_b32_e32 v9, s3
-; GFX8-NEXT:    v_mov_b32_e32 v8, s2
+; GFX8-NEXT:    flat_store_dwordx4 v[14:15], v[10:13]
+; GFX8-NEXT:    v_mov_b32_e32 v15, s3
+; GFX8-NEXT:    v_mov_b32_e32 v14, s2
 ; GFX8-NEXT:    s_add_u32 s2, s0, 48
-; GFX8-NEXT:    v_mov_b32_e32 v14, s14
-; GFX8-NEXT:    v_mov_b32_e32 v15, s15
-; GFX8-NEXT:    v_mov_b32_e32 v16, s16
-; GFX8-NEXT:    v_mov_b32_e32 v17, s17
+; GFX8-NEXT:    v_mov_b32_e32 v2, s14
+; GFX8-NEXT:    v_mov_b32_e32 v3, s15
+; GFX8-NEXT:    v_mov_b32_e32 v4, s16
+; GFX8-NEXT:    v_mov_b32_e32 v5, s17
 ; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    flat_store_dwordx4 v[8:9], v[14:17]
-; GFX8-NEXT:    v_mov_b32_e32 v9, s3
-; GFX8-NEXT:    v_mov_b32_e32 v8, s2
+; GFX8-NEXT:    flat_store_dwordx4 v[14:15], v[2:5]
+; GFX8-NEXT:    v_mov_b32_e32 v6, s18
+; GFX8-NEXT:    v_mov_b32_e32 v5, s3
+; GFX8-NEXT:    v_mov_b32_e32 v4, s2
 ; GFX8-NEXT:    s_add_u32 s2, s0, 32
-; GFX8-NEXT:    v_mov_b32_e32 v18, s18
-; GFX8-NEXT:    v_mov_b32_e32 v19, s19
-; GFX8-NEXT:    v_mov_b32_e32 v20, s20
-; GFX8-NEXT:    v_mov_b32_e32 v21, s21
+; GFX8-NEXT:    v_mov_b32_e32 v7, s19
+; GFX8-NEXT:    v_mov_b32_e32 v8, s20
+; GFX8-NEXT:    v_mov_b32_e32 v9, s21
 ; GFX8-NEXT:    s_addc_u32 s3, s1, 0
-; GFX8-NEXT:    flat_store_dwordx4 v[8:9], v[18:21]
-; GFX8-NEXT:    v_mov_b32_e32 v9, s3
+; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[6:9]
+; GFX8-NEXT:    v_mov_b32_e32 v5, s3
 ; GFX8-NEXT:    s_add_u32 s0, s0, 16
-; GFX8-NEXT:    v_mov_b32_e32 v22, s22
-; GFX8-NEXT:    v_mov_b32_e32 v23, s23
-; GFX8-NEXT:    v_mov_b32_e32 v24, s24
-; GFX8-NEXT:    v_mov_b32_e32 v25, s25
-; GFX8-NEXT:    v_mov_b32_e32 v8, s2
+; GFX8-NEXT:    v_mov_b32_e32 v10, s22
+; GFX8-NEXT:    v_mov_b32_e32 v11, s23
+; GFX8-NEXT:    v_mov_b32_e32 v12, s24
+; GFX8-NEXT:    v_mov_b32_e32 v13, s25
+; GFX8-NEXT:    v_mov_b32_e32 v4, s2
 ; GFX8-NEXT:    s_addc_u32 s1, s1, 0
-; GFX8-NEXT:    flat_store_dwordx4 v[8:9], v[22:25]
-; GFX8-NEXT:    v_mov_b32_e32 v9, s1
+; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[10:13]
+; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_bfe_i32 v0, v0, 0, 1
-; GFX8-NEXT:    v_mov_b32_e32 v4, s26
-; GFX8-NEXT:    v_mov_b32_e32 v5, s27
-; GFX8-NEXT:    v_mov_b32_e32 v6, s28
-; GFX8-NEXT:    v_mov_b32_e32 v7, s29
-; GFX8-NEXT:    v_mov_b32_e32 v8, s0
+; GFX8-NEXT:    v_mov_b32_e32 v14, s26
+; GFX8-NEXT:    v_mov_b32_e32 v15, s27
+; GFX8-NEXT:    v_mov_b32_e32 v16, s28
+; GFX8-NEXT:    v_mov_b32_e32 v17, s29
+; GFX8-NEXT:    v_mov_b32_e32 v4, s0
 ; GFX8-NEXT:    v_ashrrev_i32_e32 v1, 31, v0
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s30
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s31
-; GFX8-NEXT:    flat_store_dwordx4 v[8:9], v[4:7]
-; GFX8-NEXT:    flat_store_dwordx4 v[26:27], v[0:3]
+; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[14:17]
+; GFX8-NEXT:    flat_store_dwordx4 v[18:19], v[0:3]
 ; GFX8-NEXT:    s_endpgm
 ;
 ; EG-LABEL: constant_sextload_v16i1_to_v16i64:
@@ -6607,164 +6607,164 @@ define amdgpu_kernel void @constant_sextload_v32i1_to_v32i64(ptr addrspace(1) %o
 ; GFX6:       ; %bb.0:
 ; GFX6-NEXT:    s_load_dwordx4 s[0:3], s[4:5], 0x9
 ; GFX6-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX6-NEXT:    s_load_dword s8, s[2:3], 0x0
+; GFX6-NEXT:    s_load_dword s4, s[2:3], 0x0
 ; GFX6-NEXT:    s_mov_b32 s3, 0xf000
 ; GFX6-NEXT:    s_mov_b32 s2, -1
 ; GFX6-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX6-NEXT:    s_lshr_b32 s52, s8, 30
-; GFX6-NEXT:    s_lshr_b32 s46, s8, 31
-; GFX6-NEXT:    s_lshr_b32 s48, s8, 28
-; GFX6-NEXT:    s_lshr_b32 s36, s8, 29
-; GFX6-NEXT:    s_lshr_b32 s38, s8, 26
-; GFX6-NEXT:    s_lshr_b32 s26, s8, 27
-; GFX6-NEXT:    s_lshr_b32 s28, s8, 24
-; GFX6-NEXT:    s_lshr_b32 s4, s8, 25
-; GFX6-NEXT:    s_lshr_b32 s6, s8, 22
-; GFX6-NEXT:    s_lshr_b32 s10, s8, 23
-; GFX6-NEXT:    s_lshr_b32 s12, s8, 20
-; GFX6-NEXT:    s_lshr_b32 s14, s8, 21
-; GFX6-NEXT:    s_lshr_b32 s16, s8, 18
-; GFX6-NEXT:    s_lshr_b32 s18, s8, 19
-; GFX6-NEXT:    s_lshr_b32 s20, s8, 16
-; GFX6-NEXT:    s_lshr_b32 s22, s8, 17
-; GFX6-NEXT:    s_lshr_b32 s24, s8, 14
-; GFX6-NEXT:    s_lshr_b32 s30, s8, 15
-; GFX6-NEXT:    s_lshr_b32 s34, s8, 12
-; GFX6-NEXT:    s_lshr_b32 s40, s8, 13
-; GFX6-NEXT:    s_lshr_b32 s42, s8, 10
-; GFX6-NEXT:    s_lshr_b32 s44, s8, 11
-; GFX6-NEXT:    s_bfe_i64 s[50:51], s[8:9], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[52:53], s[52:53], 0x10000
-; GFX6-NEXT:    v_mov_b32_e32 v0, s50
-; GFX6-NEXT:    v_mov_b32_e32 v1, s51
-; GFX6-NEXT:    s_lshr_b32 s50, s8, 8
-; GFX6-NEXT:    v_mov_b32_e32 v2, s52
-; GFX6-NEXT:    v_mov_b32_e32 v3, s53
-; GFX6-NEXT:    s_lshr_b32 s52, s8, 9
-; GFX6-NEXT:    s_bfe_i64 s[46:47], s[46:47], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x10000
-; GFX6-NEXT:    v_mov_b32_e32 v4, s46
-; GFX6-NEXT:    v_mov_b32_e32 v5, s47
-; GFX6-NEXT:    s_lshr_b32 s46, s8, 6
-; GFX6-NEXT:    v_mov_b32_e32 v6, s48
-; GFX6-NEXT:    v_mov_b32_e32 v7, s49
-; GFX6-NEXT:    s_lshr_b32 s48, s8, 7
-; GFX6-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
+; GFX6-NEXT:    s_lshr_b32 s38, s4, 30
+; GFX6-NEXT:    s_lshr_b32 s40, s4, 31
+; GFX6-NEXT:    s_lshr_b32 s34, s4, 28
+; GFX6-NEXT:    s_lshr_b32 s36, s4, 29
+; GFX6-NEXT:    s_lshr_b32 s28, s4, 26
+; GFX6-NEXT:    s_lshr_b32 s30, s4, 27
+; GFX6-NEXT:    s_lshr_b32 s24, s4, 24
+; GFX6-NEXT:    s_lshr_b32 s26, s4, 25
+; GFX6-NEXT:    s_lshr_b32 s20, s4, 22
+; GFX6-NEXT:    s_lshr_b32 s22, s4, 23
+; GFX6-NEXT:    s_lshr_b32 s18, s4, 20
+; GFX6-NEXT:    s_lshr_b32 s6, s4, 21
+; GFX6-NEXT:    s_lshr_b32 s8, s4, 18
+; GFX6-NEXT:    s_lshr_b32 s10, s4, 19
+; GFX6-NEXT:    s_lshr_b32 s12, s4, 16
+; GFX6-NEXT:    s_lshr_b32 s14, s4, 17
+; GFX6-NEXT:    s_lshr_b32 s16, s4, 14
+; GFX6-NEXT:    s_bfe_i64 s[44:45], s[4:5], 0x10000
+; GFX6-NEXT:    s_lshr_b32 s42, s4, 15
+; GFX6-NEXT:    v_mov_b32_e32 v0, s44
+; GFX6-NEXT:    v_mov_b32_e32 v1, s45
+; GFX6-NEXT:    s_lshr_b32 s44, s4, 12
 ; GFX6-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
+; GFX6-NEXT:    v_mov_b32_e32 v2, s38
+; GFX6-NEXT:    v_mov_b32_e32 v3, s39
+; GFX6-NEXT:    s_lshr_b32 s38, s4, 13
+; GFX6-NEXT:    v_mov_b32_e32 v4, s40
+; GFX6-NEXT:    v_mov_b32_e32 v5, s41
+; GFX6-NEXT:    s_lshr_b32 s40, s4, 10
+; GFX6-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
+; GFX6-NEXT:    v_mov_b32_e32 v6, s34
+; GFX6-NEXT:    v_mov_b32_e32 v7, s35
+; GFX6-NEXT:    s_lshr_b32 s34, s4, 11
 ; GFX6-NEXT:    v_mov_b32_e32 v8, s36
 ; GFX6-NEXT:    v_mov_b32_e32 v9, s37
-; GFX6-NEXT:    s_lshr_b32 s36, s8, 4
-; GFX6-NEXT:    v_mov_b32_e32 v10, s38
-; GFX6-NEXT:    v_mov_b32_e32 v11, s39
-; GFX6-NEXT:    s_lshr_b32 s38, s8, 5
-; GFX6-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x10000
-; GFX6-NEXT:    v_mov_b32_e32 v12, s26
-; GFX6-NEXT:    v_mov_b32_e32 v13, s27
-; GFX6-NEXT:    s_lshr_b32 s26, s8, 2
-; GFX6-NEXT:    v_mov_b32_e32 v14, s28
-; GFX6-NEXT:    v_mov_b32_e32 v15, s29
-; GFX6-NEXT:    s_lshr_b32 s28, s8, 3
-; GFX6-NEXT:    s_lshr_b32 s8, s8, 1
-; GFX6-NEXT:    s_bfe_i64 s[8:9], s[8:9], 0x10000
+; GFX6-NEXT:    s_lshr_b32 s36, s4, 8
 ; GFX6-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[46:47], s[46:47], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[52:53], s[52:53], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[50:51], s[50:51], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x10000
+; GFX6-NEXT:    v_mov_b32_e32 v10, s28
+; GFX6-NEXT:    v_mov_b32_e32 v11, s29
+; GFX6-NEXT:    s_lshr_b32 s28, s4, 9
+; GFX6-NEXT:    v_mov_b32_e32 v12, s30
+; GFX6-NEXT:    v_mov_b32_e32 v13, s31
+; GFX6-NEXT:    s_lshr_b32 s30, s4, 6
 ; GFX6-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
+; GFX6-NEXT:    v_mov_b32_e32 v14, s24
+; GFX6-NEXT:    v_mov_b32_e32 v15, s25
+; GFX6-NEXT:    s_lshr_b32 s24, s4, 7
+; GFX6-NEXT:    v_mov_b32_e32 v16, s26
+; GFX6-NEXT:    v_mov_b32_e32 v17, s27
+; GFX6-NEXT:    s_lshr_b32 s26, s4, 4
 ; GFX6-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:240
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v2, s20
+; GFX6-NEXT:    v_mov_b32_e32 v3, s21
+; GFX6-NEXT:    s_lshr_b32 s20, s4, 5
+; GFX6-NEXT:    v_mov_b32_e32 v4, s22
+; GFX6-NEXT:    v_mov_b32_e32 v5, s23
+; GFX6-NEXT:    s_lshr_b32 s22, s4, 2
+; GFX6-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:224
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v6, s18
+; GFX6-NEXT:    v_mov_b32_e32 v7, s19
+; GFX6-NEXT:    s_lshr_b32 s18, s4, 3
+; GFX6-NEXT:    s_lshr_b32 s4, s4, 1
+; GFX6-NEXT:    s_bfe_i64 s[4:5], s[4:5], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[16:17], s[16:17], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[14:15], s[14:15], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[8:9], s[8:9], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[6:7], s[6:7], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[4:5], s[4:5], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:240
-; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:224
 ; GFX6-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:208
-; GFX6-NEXT:    v_mov_b32_e32 v16, s4
-; GFX6-NEXT:    v_mov_b32_e32 v17, s5
 ; GFX6-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:192
-; GFX6-NEXT:    s_waitcnt expcnt(3)
-; GFX6-NEXT:    v_mov_b32_e32 v2, s6
-; GFX6-NEXT:    v_mov_b32_e32 v3, s7
+; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:176
+; GFX6-NEXT:    v_mov_b32_e32 v8, s6
+; GFX6-NEXT:    v_mov_b32_e32 v9, s7
+; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:160
+; GFX6-NEXT:    s_waitcnt expcnt(1)
+; GFX6-NEXT:    v_mov_b32_e32 v2, s8
+; GFX6-NEXT:    v_mov_b32_e32 v3, s9
 ; GFX6-NEXT:    v_mov_b32_e32 v4, s10
 ; GFX6-NEXT:    v_mov_b32_e32 v5, s11
-; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:176
+; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:144
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s12
 ; GFX6-NEXT:    v_mov_b32_e32 v3, s13
 ; GFX6-NEXT:    v_mov_b32_e32 v4, s14
 ; GFX6-NEXT:    v_mov_b32_e32 v5, s15
-; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:160
+; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:128
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s16
 ; GFX6-NEXT:    v_mov_b32_e32 v3, s17
-; GFX6-NEXT:    v_mov_b32_e32 v4, s18
-; GFX6-NEXT:    v_mov_b32_e32 v5, s19
-; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:144
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v2, s20
-; GFX6-NEXT:    v_mov_b32_e32 v3, s21
-; GFX6-NEXT:    v_mov_b32_e32 v4, s22
-; GFX6-NEXT:    v_mov_b32_e32 v5, s23
-; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:128
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v2, s24
-; GFX6-NEXT:    v_mov_b32_e32 v3, s25
-; GFX6-NEXT:    v_mov_b32_e32 v4, s30
-; GFX6-NEXT:    v_mov_b32_e32 v5, s31
+; GFX6-NEXT:    v_mov_b32_e32 v4, s42
+; GFX6-NEXT:    v_mov_b32_e32 v5, s43
 ; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:112
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v2, s34
-; GFX6-NEXT:    v_mov_b32_e32 v3, s35
-; GFX6-NEXT:    v_mov_b32_e32 v4, s40
-; GFX6-NEXT:    v_mov_b32_e32 v5, s41
+; GFX6-NEXT:    v_mov_b32_e32 v2, s44
+; GFX6-NEXT:    v_mov_b32_e32 v3, s45
+; GFX6-NEXT:    v_mov_b32_e32 v4, s38
+; GFX6-NEXT:    v_mov_b32_e32 v5, s39
 ; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:96
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v2, s42
-; GFX6-NEXT:    v_mov_b32_e32 v3, s43
-; GFX6-NEXT:    v_mov_b32_e32 v4, s44
-; GFX6-NEXT:    v_mov_b32_e32 v5, s45
+; GFX6-NEXT:    v_mov_b32_e32 v2, s40
+; GFX6-NEXT:    v_mov_b32_e32 v3, s41
+; GFX6-NEXT:    v_mov_b32_e32 v4, s34
+; GFX6-NEXT:    v_mov_b32_e32 v5, s35
 ; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:80
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v2, s50
-; GFX6-NEXT:    v_mov_b32_e32 v3, s51
-; GFX6-NEXT:    v_mov_b32_e32 v4, s52
-; GFX6-NEXT:    v_mov_b32_e32 v5, s53
+; GFX6-NEXT:    v_mov_b32_e32 v2, s36
+; GFX6-NEXT:    v_mov_b32_e32 v3, s37
+; GFX6-NEXT:    v_mov_b32_e32 v4, s28
+; GFX6-NEXT:    v_mov_b32_e32 v5, s29
 ; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:64
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v2, s46
-; GFX6-NEXT:    v_mov_b32_e32 v3, s47
-; GFX6-NEXT:    v_mov_b32_e32 v4, s48
-; GFX6-NEXT:    v_mov_b32_e32 v5, s49
+; GFX6-NEXT:    v_mov_b32_e32 v2, s30
+; GFX6-NEXT:    v_mov_b32_e32 v3, s31
+; GFX6-NEXT:    v_mov_b32_e32 v4, s24
+; GFX6-NEXT:    v_mov_b32_e32 v5, s25
 ; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:48
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v2, s36
-; GFX6-NEXT:    v_mov_b32_e32 v3, s37
-; GFX6-NEXT:    v_mov_b32_e32 v4, s38
-; GFX6-NEXT:    v_mov_b32_e32 v5, s39
-; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:32
-; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s26
 ; GFX6-NEXT:    v_mov_b32_e32 v3, s27
-; GFX6-NEXT:    v_mov_b32_e32 v4, s28
-; GFX6-NEXT:    v_mov_b32_e32 v5, s29
+; GFX6-NEXT:    v_mov_b32_e32 v4, s20
+; GFX6-NEXT:    v_mov_b32_e32 v5, s21
+; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:32
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v2, s22
+; GFX6-NEXT:    v_mov_b32_e32 v3, s23
+; GFX6-NEXT:    v_mov_b32_e32 v4, s18
+; GFX6-NEXT:    v_mov_b32_e32 v5, s19
 ; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:16
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v2, s8
-; GFX6-NEXT:    v_mov_b32_e32 v3, s9
+; GFX6-NEXT:    v_mov_b32_e32 v2, s4
+; GFX6-NEXT:    v_mov_b32_e32 v3, s5
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
 ; GFX6-NEXT:    s_endpgm
 ;
@@ -7332,21 +7332,21 @@ define amdgpu_kernel void @constant_zextload_v64i1_to_v64i64(ptr addrspace(1) %o
 ; GFX6-NEXT:    s_bfe_u32 s29, s2, 0x1001b
 ; GFX6-NEXT:    s_bfe_u32 s31, s2, 0x1001d
 ; GFX6-NEXT:    s_lshr_b32 s34, s2, 31
-; GFX6-NEXT:    s_bfe_u32 s36, s3, 0x10003
-; GFX6-NEXT:    s_bfe_u32 s37, s3, 0x10005
-; GFX6-NEXT:    s_bfe_u32 s38, s3, 0x10007
-; GFX6-NEXT:    s_bfe_u32 s39, s3, 0x10009
-; GFX6-NEXT:    s_bfe_u32 s40, s3, 0x1000b
-; GFX6-NEXT:    s_bfe_u32 s41, s3, 0x1000d
-; GFX6-NEXT:    s_bfe_u32 s42, s3, 0x1000f
-; GFX6-NEXT:    s_bfe_u32 s43, s3, 0x10011
-; GFX6-NEXT:    s_bfe_u32 s44, s3, 0x10013
-; GFX6-NEXT:    s_bfe_u32 s45, s3, 0x10015
-; GFX6-NEXT:    s_bfe_u32 s46, s3, 0x10017
-; GFX6-NEXT:    s_bfe_u32 s47, s3, 0x10019
-; GFX6-NEXT:    s_bfe_u32 s48, s3, 0x1001b
-; GFX6-NEXT:    s_bfe_u32 s49, s3, 0x1001d
-; GFX6-NEXT:    s_lshr_b32 s50, s3, 31
+; GFX6-NEXT:    s_bfe_u32 s35, s3, 0x10003
+; GFX6-NEXT:    s_bfe_u32 s36, s3, 0x10005
+; GFX6-NEXT:    s_bfe_u32 s37, s3, 0x10007
+; GFX6-NEXT:    s_bfe_u32 s38, s3, 0x10009
+; GFX6-NEXT:    s_bfe_u32 s39, s3, 0x1000b
+; GFX6-NEXT:    s_bfe_u32 s40, s3, 0x1000d
+; GFX6-NEXT:    s_bfe_u32 s41, s3, 0x1000f
+; GFX6-NEXT:    s_bfe_u32 s42, s3, 0x10011
+; GFX6-NEXT:    s_bfe_u32 s43, s3, 0x10013
+; GFX6-NEXT:    s_bfe_u32 s44, s3, 0x10015
+; GFX6-NEXT:    s_bfe_u32 s45, s3, 0x10017
+; GFX6-NEXT:    s_bfe_u32 s46, s3, 0x10019
+; GFX6-NEXT:    s_bfe_u32 s47, s3, 0x1001b
+; GFX6-NEXT:    s_bfe_u32 s48, s3, 0x1001d
+; GFX6-NEXT:    s_lshr_b32 s49, s3, 31
 ; GFX6-NEXT:    s_bfe_u32 s9, s3, 0x10001
 ; GFX6-NEXT:    s_bfe_u32 s6, s2, 0x10001
 ; GFX6-NEXT:    s_and_b32 s7, s2, 1
@@ -7362,7 +7362,7 @@ define amdgpu_kernel void @constant_zextload_v64i1_to_v64i64(ptr addrspace(1) %o
 ; GFX6-NEXT:    s_bfe_u32 s28, s2, 0x10012
 ; GFX6-NEXT:    s_bfe_u32 s30, s2, 0x10014
 ; GFX6-NEXT:    s_bfe_u32 s33, s2, 0x10016
-; GFX6-NEXT:    s_bfe_u32 s35, s2, 0x10018
+; GFX6-NEXT:    s_bfe_u32 s50, s2, 0x10018
 ; GFX6-NEXT:    s_bfe_u32 s51, s2, 0x1001a
 ; GFX6-NEXT:    s_bfe_u32 s52, s2, 0x1001c
 ; GFX6-NEXT:    s_bfe_u32 s53, s2, 0x1001e
@@ -7386,63 +7386,63 @@ define amdgpu_kernel void @constant_zextload_v64i1_to_v64i64(ptr addrspace(1) %o
 ; GFX6-NEXT:    s_mov_b32 s2, -1
 ; GFX6-NEXT:    v_mov_b32_e32 v3, v1
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s67
-; GFX6-NEXT:    v_mov_b32_e32 v2, s50
+; GFX6-NEXT:    v_mov_b32_e32 v2, s49
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:496
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s68
-; GFX6-NEXT:    v_mov_b32_e32 v2, s49
+; GFX6-NEXT:    v_mov_b32_e32 v2, s48
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:480
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s66
-; GFX6-NEXT:    v_mov_b32_e32 v2, s48
+; GFX6-NEXT:    v_mov_b32_e32 v2, s47
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:464
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s65
-; GFX6-NEXT:    v_mov_b32_e32 v2, s47
+; GFX6-NEXT:    v_mov_b32_e32 v2, s46
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:448
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s64
-; GFX6-NEXT:    v_mov_b32_e32 v2, s46
+; GFX6-NEXT:    v_mov_b32_e32 v2, s45
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:432
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s63
-; GFX6-NEXT:    v_mov_b32_e32 v2, s45
+; GFX6-NEXT:    v_mov_b32_e32 v2, s44
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:416
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s62
-; GFX6-NEXT:    v_mov_b32_e32 v2, s44
+; GFX6-NEXT:    v_mov_b32_e32 v2, s43
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:400
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s61
-; GFX6-NEXT:    v_mov_b32_e32 v2, s43
+; GFX6-NEXT:    v_mov_b32_e32 v2, s42
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:384
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s60
-; GFX6-NEXT:    v_mov_b32_e32 v2, s42
+; GFX6-NEXT:    v_mov_b32_e32 v2, s41
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:368
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s59
-; GFX6-NEXT:    v_mov_b32_e32 v2, s41
+; GFX6-NEXT:    v_mov_b32_e32 v2, s40
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:352
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s58
-; GFX6-NEXT:    v_mov_b32_e32 v2, s40
+; GFX6-NEXT:    v_mov_b32_e32 v2, s39
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:336
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s57
-; GFX6-NEXT:    v_mov_b32_e32 v2, s39
+; GFX6-NEXT:    v_mov_b32_e32 v2, s38
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:320
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s56
-; GFX6-NEXT:    v_mov_b32_e32 v2, s38
+; GFX6-NEXT:    v_mov_b32_e32 v2, s37
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:304
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s55
-; GFX6-NEXT:    v_mov_b32_e32 v2, s37
+; GFX6-NEXT:    v_mov_b32_e32 v2, s36
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:288
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s54
-; GFX6-NEXT:    v_mov_b32_e32 v2, s36
+; GFX6-NEXT:    v_mov_b32_e32 v2, s35
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:272
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v0, s53
@@ -7457,7 +7457,7 @@ define amdgpu_kernel void @constant_zextload_v64i1_to_v64i64(ptr addrspace(1) %o
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s29
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:208
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s35
+; GFX6-NEXT:    v_mov_b32_e32 v0, s50
 ; GFX6-NEXT:    v_mov_b32_e32 v2, s27
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:192
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
@@ -8347,478 +8347,477 @@ define amdgpu_kernel void @constant_sextload_v64i1_to_v64i64(ptr addrspace(1) %o
 ; GFX6-NEXT:    s_mov_b32 s3, 0xf000
 ; GFX6-NEXT:    s_mov_b32 s2, -1
 ; GFX6-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX6-NEXT:    s_lshr_b32 s48, s5, 30
-; GFX6-NEXT:    s_lshr_b32 s46, s5, 28
-; GFX6-NEXT:    s_lshr_b32 s44, s5, 29
-; GFX6-NEXT:    s_lshr_b32 s40, s5, 26
-; GFX6-NEXT:    s_lshr_b32 s42, s5, 27
-; GFX6-NEXT:    s_lshr_b32 s36, s5, 24
-; GFX6-NEXT:    s_lshr_b32 s38, s5, 25
-; GFX6-NEXT:    s_lshr_b32 s30, s5, 22
-; GFX6-NEXT:    s_lshr_b32 s34, s5, 23
-; GFX6-NEXT:    s_lshr_b32 s26, s5, 20
-; GFX6-NEXT:    s_lshr_b32 s28, s5, 21
-; GFX6-NEXT:    s_lshr_b32 s22, s5, 18
-; GFX6-NEXT:    s_lshr_b32 s24, s5, 19
-; GFX6-NEXT:    s_lshr_b32 s18, s5, 16
-; GFX6-NEXT:    s_lshr_b32 s20, s5, 17
-; GFX6-NEXT:    s_lshr_b32 s14, s5, 14
-; GFX6-NEXT:    s_lshr_b32 s16, s5, 15
-; GFX6-NEXT:    s_lshr_b32 s10, s5, 12
-; GFX6-NEXT:    s_lshr_b32 s12, s5, 13
-; GFX6-NEXT:    s_lshr_b32 s6, s5, 10
-; GFX6-NEXT:    s_lshr_b32 s8, s5, 11
-; GFX6-NEXT:    s_mov_b32 s50, s5
-; GFX6-NEXT:    s_bfe_i64 s[50:51], s[50:51], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[52:53], s[4:5], 0x10000
-; GFX6-NEXT:    v_mov_b32_e32 v0, s50
-; GFX6-NEXT:    v_mov_b32_e32 v1, s51
-; GFX6-NEXT:    s_lshr_b32 s50, s5, 8
-; GFX6-NEXT:    v_mov_b32_e32 v4, s52
-; GFX6-NEXT:    v_mov_b32_e32 v5, s53
-; GFX6-NEXT:    s_lshr_b32 s52, s5, 9
-; GFX6-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[54:55], s[46:47], 0x10000
-; GFX6-NEXT:    v_mov_b32_e32 v6, s48
-; GFX6-NEXT:    v_mov_b32_e32 v7, s49
-; GFX6-NEXT:    s_lshr_b32 s46, s5, 6
-; GFX6-NEXT:    v_mov_b32_e32 v10, s54
-; GFX6-NEXT:    v_mov_b32_e32 v11, s55
-; GFX6-NEXT:    s_lshr_b32 s48, s5, 7
-; GFX6-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x10000
+; GFX6-NEXT:    s_lshr_b32 s42, s5, 30
+; GFX6-NEXT:    s_lshr_b32 s36, s5, 28
+; GFX6-NEXT:    s_lshr_b32 s38, s5, 29
+; GFX6-NEXT:    s_lshr_b32 s30, s5, 26
+; GFX6-NEXT:    s_lshr_b32 s34, s5, 27
+; GFX6-NEXT:    s_lshr_b32 s26, s5, 24
+; GFX6-NEXT:    s_lshr_b32 s28, s5, 25
+; GFX6-NEXT:    s_lshr_b32 s22, s5, 22
+; GFX6-NEXT:    s_lshr_b32 s24, s5, 23
+; GFX6-NEXT:    s_lshr_b32 s18, s5, 20
+; GFX6-NEXT:    s_lshr_b32 s20, s5, 21
+; GFX6-NEXT:    s_lshr_b32 s14, s5, 18
+; GFX6-NEXT:    s_lshr_b32 s16, s5, 19
+; GFX6-NEXT:    s_lshr_b32 s10, s5, 16
+; GFX6-NEXT:    s_lshr_b32 s12, s5, 17
+; GFX6-NEXT:    s_lshr_b32 s6, s5, 14
+; GFX6-NEXT:    s_lshr_b32 s8, s5, 15
+; GFX6-NEXT:    s_mov_b32 s40, s5
 ; GFX6-NEXT:    s_ashr_i32 s7, s5, 31
-; GFX6-NEXT:    v_mov_b32_e32 v12, s44
-; GFX6-NEXT:    v_mov_b32_e32 v13, s45
-; GFX6-NEXT:    s_lshr_b32 s44, s5, 4
-; GFX6-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[54:55], s[42:43], 0x10000
-; GFX6-NEXT:    v_mov_b32_e32 v14, s40
-; GFX6-NEXT:    v_mov_b32_e32 v15, s41
-; GFX6-NEXT:    s_lshr_b32 s42, s5, 5
-; GFX6-NEXT:    v_mov_b32_e32 v16, s54
-; GFX6-NEXT:    v_mov_b32_e32 v17, s55
-; GFX6-NEXT:    s_lshr_b32 s40, s5, 2
-; GFX6-NEXT:    v_mov_b32_e32 v8, s7
+; GFX6-NEXT:    s_bfe_i64 s[44:45], s[40:41], 0x10000
+; GFX6-NEXT:    v_mov_b32_e32 v4, s7
+; GFX6-NEXT:    s_lshr_b32 s40, s5, 12
+; GFX6-NEXT:    v_mov_b32_e32 v0, s44
+; GFX6-NEXT:    v_mov_b32_e32 v1, s45
+; GFX6-NEXT:    s_bfe_i64 s[44:45], s[4:5], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x10000
+; GFX6-NEXT:    v_mov_b32_e32 v6, s44
+; GFX6-NEXT:    v_mov_b32_e32 v7, s45
+; GFX6-NEXT:    s_lshr_b32 s44, s5, 13
+; GFX6-NEXT:    v_mov_b32_e32 v2, s42
+; GFX6-NEXT:    v_mov_b32_e32 v3, s43
+; GFX6-NEXT:    s_lshr_b32 s42, s5, 10
 ; GFX6-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x10000
-; GFX6-NEXT:    v_mov_b32_e32 v9, s7
-; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:496
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v6, s36
-; GFX6-NEXT:    v_mov_b32_e32 v7, s37
-; GFX6-NEXT:    s_lshr_b32 s36, s5, 3
-; GFX6-NEXT:    v_mov_b32_e32 v8, s38
-; GFX6-NEXT:    v_mov_b32_e32 v9, s39
-; GFX6-NEXT:    s_lshr_b32 s38, s5, 1
+; GFX6-NEXT:    v_mov_b32_e32 v8, s36
+; GFX6-NEXT:    v_mov_b32_e32 v9, s37
+; GFX6-NEXT:    s_lshr_b32 s36, s5, 11
+; GFX6-NEXT:    v_mov_b32_e32 v10, s38
+; GFX6-NEXT:    v_mov_b32_e32 v11, s39
+; GFX6-NEXT:    s_lshr_b32 s38, s5, 8
 ; GFX6-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:480
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v10, s30
-; GFX6-NEXT:    v_mov_b32_e32 v11, s31
-; GFX6-NEXT:    s_lshr_b32 s30, s4, 30
-; GFX6-NEXT:    v_mov_b32_e32 v12, s34
-; GFX6-NEXT:    v_mov_b32_e32 v13, s35
-; GFX6-NEXT:    s_lshr_b32 s34, s4, 31
+; GFX6-NEXT:    v_mov_b32_e32 v12, s30
+; GFX6-NEXT:    v_mov_b32_e32 v13, s31
+; GFX6-NEXT:    s_lshr_b32 s30, s5, 9
+; GFX6-NEXT:    v_mov_b32_e32 v14, s34
+; GFX6-NEXT:    v_mov_b32_e32 v15, s35
+; GFX6-NEXT:    s_lshr_b32 s34, s5, 6
 ; GFX6-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:464
+; GFX6-NEXT:    v_mov_b32_e32 v5, s7
+; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:496
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v14, s26
-; GFX6-NEXT:    v_mov_b32_e32 v15, s27
-; GFX6-NEXT:    s_lshr_b32 s26, s4, 28
-; GFX6-NEXT:    v_mov_b32_e32 v16, s28
-; GFX6-NEXT:    v_mov_b32_e32 v17, s29
-; GFX6-NEXT:    s_lshr_b32 s28, s4, 29
+; GFX6-NEXT:    v_mov_b32_e32 v2, s26
+; GFX6-NEXT:    v_mov_b32_e32 v3, s27
+; GFX6-NEXT:    s_lshr_b32 s26, s5, 7
+; GFX6-NEXT:    v_mov_b32_e32 v4, s28
+; GFX6-NEXT:    v_mov_b32_e32 v5, s29
+; GFX6-NEXT:    s_lshr_b32 s28, s5, 4
 ; GFX6-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:448
+; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:480
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v6, s22
-; GFX6-NEXT:    v_mov_b32_e32 v7, s23
-; GFX6-NEXT:    s_lshr_b32 s22, s4, 26
-; GFX6-NEXT:    v_mov_b32_e32 v8, s24
-; GFX6-NEXT:    v_mov_b32_e32 v9, s25
-; GFX6-NEXT:    s_lshr_b32 s24, s4, 27
-; GFX6-NEXT:    s_bfe_i64 s[54:55], s[20:21], 0x10000
+; GFX6-NEXT:    v_mov_b32_e32 v8, s22
+; GFX6-NEXT:    v_mov_b32_e32 v9, s23
+; GFX6-NEXT:    s_lshr_b32 s22, s5, 5
+; GFX6-NEXT:    v_mov_b32_e32 v10, s24
+; GFX6-NEXT:    v_mov_b32_e32 v11, s25
+; GFX6-NEXT:    s_lshr_b32 s24, s5, 2
+; GFX6-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:432
+; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:464
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v10, s18
-; GFX6-NEXT:    v_mov_b32_e32 v11, s19
-; GFX6-NEXT:    s_lshr_b32 s20, s4, 24
-; GFX6-NEXT:    v_mov_b32_e32 v12, s54
-; GFX6-NEXT:    v_mov_b32_e32 v13, s55
-; GFX6-NEXT:    s_lshr_b32 s18, s4, 25
+; GFX6-NEXT:    v_mov_b32_e32 v12, s18
+; GFX6-NEXT:    v_mov_b32_e32 v13, s19
+; GFX6-NEXT:    s_lshr_b32 s18, s5, 3
+; GFX6-NEXT:    v_mov_b32_e32 v14, s20
+; GFX6-NEXT:    v_mov_b32_e32 v15, s21
+; GFX6-NEXT:    s_lshr_b32 s20, s5, 1
 ; GFX6-NEXT:    s_bfe_i64 s[16:17], s[16:17], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[14:15], s[14:15], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:416
+; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:448
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v14, s14
-; GFX6-NEXT:    v_mov_b32_e32 v15, s15
-; GFX6-NEXT:    s_lshr_b32 s14, s4, 22
-; GFX6-NEXT:    v_mov_b32_e32 v16, s16
-; GFX6-NEXT:    v_mov_b32_e32 v17, s17
-; GFX6-NEXT:    s_lshr_b32 s16, s4, 23
+; GFX6-NEXT:    v_mov_b32_e32 v2, s14
+; GFX6-NEXT:    v_mov_b32_e32 v3, s15
+; GFX6-NEXT:    s_lshr_b32 s14, s4, 30
+; GFX6-NEXT:    v_mov_b32_e32 v4, s16
+; GFX6-NEXT:    v_mov_b32_e32 v5, s17
+; GFX6-NEXT:    s_lshr_b32 s16, s4, 31
 ; GFX6-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:400
+; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:432
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v6, s10
-; GFX6-NEXT:    v_mov_b32_e32 v7, s11
-; GFX6-NEXT:    s_lshr_b32 s10, s4, 20
-; GFX6-NEXT:    v_mov_b32_e32 v8, s12
-; GFX6-NEXT:    v_mov_b32_e32 v9, s13
-; GFX6-NEXT:    s_lshr_b32 s12, s4, 21
+; GFX6-NEXT:    v_mov_b32_e32 v8, s10
+; GFX6-NEXT:    v_mov_b32_e32 v9, s11
+; GFX6-NEXT:    s_lshr_b32 s10, s4, 28
+; GFX6-NEXT:    v_mov_b32_e32 v10, s12
+; GFX6-NEXT:    v_mov_b32_e32 v11, s13
+; GFX6-NEXT:    s_lshr_b32 s12, s4, 29
 ; GFX6-NEXT:    s_bfe_i64 s[8:9], s[8:9], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[6:7], s[6:7], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:384
+; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:416
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v12, s6
+; GFX6-NEXT:    v_mov_b32_e32 v13, s7
+; GFX6-NEXT:    s_lshr_b32 s46, s4, 26
+; GFX6-NEXT:    v_mov_b32_e32 v14, s8
+; GFX6-NEXT:    v_mov_b32_e32 v15, s9
+; GFX6-NEXT:    s_lshr_b32 s8, s4, 27
+; GFX6-NEXT:    s_bfe_i64 s[6:7], s[44:45], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:400
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v2, s40
+; GFX6-NEXT:    v_mov_b32_e32 v3, s41
+; GFX6-NEXT:    s_lshr_b32 s40, s4, 24
+; GFX6-NEXT:    v_mov_b32_e32 v4, s6
+; GFX6-NEXT:    v_mov_b32_e32 v5, s7
+; GFX6-NEXT:    s_lshr_b32 s44, s4, 25
+; GFX6-NEXT:    s_bfe_i64 s[6:7], s[36:37], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[36:37], s[42:43], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:384
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v8, s36
+; GFX6-NEXT:    v_mov_b32_e32 v9, s37
+; GFX6-NEXT:    s_lshr_b32 s36, s4, 22
 ; GFX6-NEXT:    v_mov_b32_e32 v10, s6
 ; GFX6-NEXT:    v_mov_b32_e32 v11, s7
-; GFX6-NEXT:    s_lshr_b32 s6, s4, 18
-; GFX6-NEXT:    v_mov_b32_e32 v12, s8
-; GFX6-NEXT:    v_mov_b32_e32 v13, s9
-; GFX6-NEXT:    s_lshr_b32 s8, s4, 19
-; GFX6-NEXT:    s_bfe_i64 s[52:53], s[52:53], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[50:51], s[50:51], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:368
+; GFX6-NEXT:    s_lshr_b32 s42, s4, 23
+; GFX6-NEXT:    s_bfe_i64 s[6:7], s[30:31], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[30:31], s[38:39], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:368
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v12, s30
+; GFX6-NEXT:    v_mov_b32_e32 v13, s31
+; GFX6-NEXT:    s_lshr_b32 s30, s4, 20
+; GFX6-NEXT:    v_mov_b32_e32 v14, s6
+; GFX6-NEXT:    v_mov_b32_e32 v15, s7
+; GFX6-NEXT:    s_lshr_b32 s6, s4, 21
+; GFX6-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:352
+; GFX6-NEXT:    v_mov_b32_e32 v16, s34
+; GFX6-NEXT:    v_mov_b32_e32 v17, s35
+; GFX6-NEXT:    s_lshr_b32 s34, s4, 18
+; GFX6-NEXT:    v_mov_b32_e32 v18, s26
+; GFX6-NEXT:    v_mov_b32_e32 v19, s27
+; GFX6-NEXT:    s_lshr_b32 s26, s4, 19
+; GFX6-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:336
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v8, s28
+; GFX6-NEXT:    v_mov_b32_e32 v9, s29
+; GFX6-NEXT:    s_lshr_b32 s28, s4, 16
+; GFX6-NEXT:    v_mov_b32_e32 v10, s22
+; GFX6-NEXT:    v_mov_b32_e32 v11, s23
+; GFX6-NEXT:    s_lshr_b32 s22, s4, 17
+; GFX6-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:320
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v14, s50
-; GFX6-NEXT:    v_mov_b32_e32 v15, s51
-; GFX6-NEXT:    s_lshr_b32 s50, s4, 16
-; GFX6-NEXT:    v_mov_b32_e32 v16, s52
-; GFX6-NEXT:    v_mov_b32_e32 v17, s53
-; GFX6-NEXT:    s_lshr_b32 s52, s4, 17
-; GFX6-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[46:47], s[46:47], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:352
+; GFX6-NEXT:    v_mov_b32_e32 v12, s24
+; GFX6-NEXT:    v_mov_b32_e32 v13, s25
+; GFX6-NEXT:    s_lshr_b32 s24, s4, 14
+; GFX6-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x10000
+; GFX6-NEXT:    v_mov_b32_e32 v14, s18
+; GFX6-NEXT:    v_mov_b32_e32 v15, s19
+; GFX6-NEXT:    s_lshr_b32 s18, s4, 15
+; GFX6-NEXT:    v_mov_b32_e32 v2, s20
+; GFX6-NEXT:    v_mov_b32_e32 v3, s21
+; GFX6-NEXT:    s_lshr_b32 s20, s4, 12
+; GFX6-NEXT:    s_bfe_i64 s[16:17], s[16:17], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[14:15], s[14:15], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:304
+; GFX6-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NEXT:    v_mov_b32_e32 v16, s14
+; GFX6-NEXT:    v_mov_b32_e32 v17, s15
+; GFX6-NEXT:    s_lshr_b32 s14, s4, 13
+; GFX6-NEXT:    v_mov_b32_e32 v18, s16
+; GFX6-NEXT:    v_mov_b32_e32 v19, s17
+; GFX6-NEXT:    s_lshr_b32 s16, s4, 10
+; GFX6-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:288
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v6, s46
-; GFX6-NEXT:    v_mov_b32_e32 v7, s47
-; GFX6-NEXT:    s_lshr_b32 s46, s4, 14
-; GFX6-NEXT:    v_mov_b32_e32 v8, s48
-; GFX6-NEXT:    v_mov_b32_e32 v9, s49
-; GFX6-NEXT:    s_lshr_b32 s48, s4, 15
-; GFX6-NEXT:    s_bfe_i64 s[54:55], s[42:43], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[42:43], s[44:45], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:336
+; GFX6-NEXT:    v_mov_b32_e32 v8, s10
+; GFX6-NEXT:    v_mov_b32_e32 v9, s11
+; GFX6-NEXT:    s_lshr_b32 s10, s4, 11
+; GFX6-NEXT:    v_mov_b32_e32 v10, s12
+; GFX6-NEXT:    v_mov_b32_e32 v11, s13
+; GFX6-NEXT:    s_lshr_b32 s12, s4, 8
+; GFX6-NEXT:    s_bfe_i64 s[8:9], s[8:9], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[38:39], s[46:47], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:272
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v10, s42
-; GFX6-NEXT:    v_mov_b32_e32 v11, s43
-; GFX6-NEXT:    s_lshr_b32 s42, s4, 12
-; GFX6-NEXT:    v_mov_b32_e32 v12, s54
-; GFX6-NEXT:    v_mov_b32_e32 v13, s55
-; GFX6-NEXT:    s_lshr_b32 s44, s4, 13
+; GFX6-NEXT:    v_mov_b32_e32 v12, s38
+; GFX6-NEXT:    v_mov_b32_e32 v13, s39
+; GFX6-NEXT:    s_lshr_b32 s38, s4, 9
+; GFX6-NEXT:    v_mov_b32_e32 v14, s8
+; GFX6-NEXT:    v_mov_b32_e32 v15, s9
+; GFX6-NEXT:    s_lshr_b32 s8, s4, 6
+; GFX6-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:320
+; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:256
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v14, s40
-; GFX6-NEXT:    v_mov_b32_e32 v15, s41
-; GFX6-NEXT:    s_lshr_b32 s40, s4, 10
+; GFX6-NEXT:    v_mov_b32_e32 v0, s40
+; GFX6-NEXT:    v_mov_b32_e32 v1, s41
+; GFX6-NEXT:    s_lshr_b32 s40, s4, 7
+; GFX6-NEXT:    v_mov_b32_e32 v2, s44
+; GFX6-NEXT:    v_mov_b32_e32 v3, s45
+; GFX6-NEXT:    s_lshr_b32 s44, s4, 4
+; GFX6-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:240
+; GFX6-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NEXT:    v_mov_b32_e32 v16, s36
 ; GFX6-NEXT:    v_mov_b32_e32 v17, s37
-; GFX6-NEXT:    s_lshr_b32 s36, s4, 11
-; GFX6-NEXT:    v_mov_b32_e32 v2, s38
-; GFX6-NEXT:    v_mov_b32_e32 v3, s39
-; GFX6-NEXT:    s_lshr_b32 s38, s4, 8
-; GFX6-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
+; GFX6-NEXT:    s_lshr_b32 s36, s4, 5
+; GFX6-NEXT:    v_mov_b32_e32 v18, s42
+; GFX6-NEXT:    v_mov_b32_e32 v19, s43
+; GFX6-NEXT:    s_lshr_b32 s42, s4, 2
 ; GFX6-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:304
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v6, s30
-; GFX6-NEXT:    v_mov_b32_e32 v7, s31
-; GFX6-NEXT:    s_lshr_b32 s30, s4, 9
-; GFX6-NEXT:    v_mov_b32_e32 v8, s34
-; GFX6-NEXT:    v_mov_b32_e32 v9, s35
-; GFX6-NEXT:    s_lshr_b32 s34, s4, 6
-; GFX6-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:288
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v10, s26
-; GFX6-NEXT:    v_mov_b32_e32 v11, s27
-; GFX6-NEXT:    s_lshr_b32 s26, s4, 7
-; GFX6-NEXT:    v_mov_b32_e32 v12, s28
-; GFX6-NEXT:    v_mov_b32_e32 v13, s29
-; GFX6-NEXT:    s_lshr_b32 s28, s4, 4
-; GFX6-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:272
+; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:224
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v14, s22
-; GFX6-NEXT:    v_mov_b32_e32 v15, s23
-; GFX6-NEXT:    s_lshr_b32 s22, s4, 5
-; GFX6-NEXT:    v_mov_b32_e32 v16, s24
-; GFX6-NEXT:    v_mov_b32_e32 v17, s25
-; GFX6-NEXT:    s_lshr_b32 s24, s4, 2
-; GFX6-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:256
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s20
-; GFX6-NEXT:    v_mov_b32_e32 v1, s21
-; GFX6-NEXT:    s_lshr_b32 s20, s4, 3
+; GFX6-NEXT:    v_mov_b32_e32 v8, s30
+; GFX6-NEXT:    v_mov_b32_e32 v9, s31
+; GFX6-NEXT:    s_lshr_b32 s30, s4, 3
 ; GFX6-NEXT:    s_lshr_b32 s4, s4, 1
 ; GFX6-NEXT:    s_bfe_i64 s[4:5], s[4:5], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[46:47], s[46:47], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[52:53], s[52:53], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[50:51], s[50:51], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[8:9], s[8:9], 0x10000
-; GFX6-NEXT:    s_bfe_i64 s[6:7], s[6:7], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[16:17], s[16:17], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[14:15], s[14:15], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x10000
 ; GFX6-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x10000
-; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:240
-; GFX6-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:224
-; GFX6-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:208
-; GFX6-NEXT:    v_mov_b32_e32 v2, s18
-; GFX6-NEXT:    v_mov_b32_e32 v3, s19
+; GFX6-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
+; GFX6-NEXT:    s_bfe_i64 s[6:7], s[6:7], 0x10000
+; GFX6-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:208
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:192
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s14
-; GFX6-NEXT:    v_mov_b32_e32 v1, s15
-; GFX6-NEXT:    v_mov_b32_e32 v2, s16
-; GFX6-NEXT:    v_mov_b32_e32 v3, s17
-; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:176
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s10
-; GFX6-NEXT:    v_mov_b32_e32 v1, s11
-; GFX6-NEXT:    v_mov_b32_e32 v2, s12
-; GFX6-NEXT:    v_mov_b32_e32 v3, s13
-; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:160
-; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s6
-; GFX6-NEXT:    v_mov_b32_e32 v1, s7
-; GFX6-NEXT:    v_mov_b32_e32 v2, s8
-; GFX6-NEXT:    v_mov_b32_e32 v3, s9
+; GFX6-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:176
+; GFX6-NEXT:    v_mov_b32_e32 v10, s6
+; GFX6-NEXT:    v_mov_b32_e32 v11, s7
+; GFX6-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:160
+; GFX6-NEXT:    s_waitcnt expcnt(2)
+; GFX6-NEXT:    v_mov_b32_e32 v0, s34
+; GFX6-NEXT:    v_mov_b32_e32 v1, s35
+; GFX6-NEXT:    v_mov_b32_e32 v2, s26
+; GFX6-NEXT:    v_mov_b32_e32 v3, s27
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:144
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s50
-; GFX6-NEXT:    v_mov_b32_e32 v1, s51
-; GFX6-NEXT:    v_mov_b32_e32 v2, s52
-; GFX6-NEXT:    v_mov_b32_e32 v3, s53
+; GFX6-NEXT:    v_mov_b32_e32 v0, s28
+; GFX6-NEXT:    v_mov_b32_e32 v1, s29
+; GFX6-NEXT:    v_mov_b32_e32 v2, s22
+; GFX6-NEXT:    v_mov_b32_e32 v3, s23
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:128
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s46
-; GFX6-NEXT:    v_mov_b32_e32 v1, s47
-; GFX6-NEXT:    v_mov_b32_e32 v2, s48
-; GFX6-NEXT:    v_mov_b32_e32 v3, s49
+; GFX6-NEXT:    v_mov_b32_e32 v0, s24
+; GFX6-NEXT:    v_mov_b32_e32 v1, s25
+; GFX6-NEXT:    v_mov_b32_e32 v2, s18
+; GFX6-NEXT:    v_mov_b32_e32 v3, s19
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:112
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s42
-; GFX6-NEXT:    v_mov_b32_e32 v1, s43
-; GFX6-NEXT:    v_mov_b32_e32 v2, s44
-; GFX6-NEXT:    v_mov_b32_e32 v3, s45
+; GFX6-NEXT:    v_mov_b32_e32 v0, s20
+; GFX6-NEXT:    v_mov_b32_e32 v1, s21
+; GFX6-NEXT:    v_mov_b32_e32 v2, s14
+; GFX6-NEXT:    v_mov_b32_e32 v3, s15
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:96
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s40
-; GFX6-NEXT:    v_mov_b32_e32 v1, s41
-; GFX6-NEXT:    v_mov_b32_e32 v2, s36
-; GFX6-NEXT:    v_mov_b32_e32 v3, s37
+; GFX6-NEXT:    v_mov_b32_e32 v0, s16
+; GFX6-NEXT:    v_mov_b32_e32 v1, s17
+; GFX6-NEXT:    v_mov_b32_e32 v2, s10
+; GFX6-NEXT:    v_mov_b32_e32 v3, s11
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:80
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s38
-; GFX6-NEXT:    v_mov_b32_e32 v1, s39
-; GFX6-NEXT:    v_mov_b32_e32 v2, s30
-; GFX6-NEXT:    v_mov_b32_e32 v3, s31
+; GFX6-NEXT:    v_mov_b32_e32 v0, s12
+; GFX6-NEXT:    v_mov_b32_e32 v1, s13
+; GFX6-NEXT:    v_mov_b32_e32 v2, s38
+; GFX6-NEXT:    v_mov_b32_e32 v3, s39
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s34
-; GFX6-NEXT:    v_mov_b32_e32 v1, s35
-; GFX6-NEXT:    v_mov_b32_e32 v2, s26
-; GFX6-NEXT:    v_mov_b32_e32 v3, s27
+; GFX6-NEXT:    v_mov_b32_e32 v0, s8
+; GFX6-NEXT:    v_mov_b32_e32 v1, s9
+; GFX6-NEXT:    v_mov_b32_e32 v2, s40
+; GFX6-NEXT:    v_mov_b32_e32 v3, s41
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s28
-; GFX6-NEXT:    v_mov_b32_e32 v1, s29
-; GFX6-NEXT:    v_mov_b32_e32 v2, s22
-; GFX6-NEXT:    v_mov_b32_e32 v3, s23
+; GFX6-NEXT:    v_mov_b32_e32 v0, s44
+; GFX6-NEXT:    v_mov_b32_e32 v1, s45
+; GFX6-NEXT:    v_mov_b32_e32 v2, s36
+; GFX6-NEXT:    v_mov_b32_e32 v3, s37
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:32
 ; GFX6-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NEXT:    v_mov_b32_e32 v0, s24
-; GFX6-NEXT:    v_mov_b32_e32 v1, s25
-; GFX6-NEXT:    v_mov_b32_e32 v2, s20
-; GFX6-NEXT:    v_mov_b32_e32 v3, s21
+; GFX6-NEXT:    v_mov_b32_e32 v0, s42
+; GFX6-NEXT:    v_mov_b32_e32 v1, s43
+; GFX6-NEXT:    v_mov_b32_e32 v2, s30
+; GFX6-NEXT:    v_mov_b32_e32 v3, s31
 ; GFX6-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
-; GFX6-NEXT:    v_mov_b32_e32 v6, s4
-; GFX6-NEXT:    v_mov_b32_e32 v7, s5
-; GFX6-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0
+; GFX6-NEXT:    v_mov_b32_e32 v8, s4
+; GFX6-NEXT:    v_mov_b32_e32 v9, s5
+; GFX6-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0
 ; GFX6-NEXT:    s_endpgm
 ;
 ; GFX8-LABEL: constant_sextload_v64i1_to_v64i64:
 ; GFX8:       ; %bb.0:
-; GFX8-NEXT:    s_load_dwordx4 s[4:7], s[4:5], 0x24
-; GFX8-NEXT:    s_mov_b32 s88, SCRATCH_RSRC_DWORD0
-; GFX8-NEXT:    s_mov_b32 s89, SCRATCH_RSRC_DWORD1
-; GFX8-NEXT:    s_mov_b32 s90, -1
-; GFX8-NEXT:    s_mov_b32 s91, 0xe80000
-; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX8-NEXT:    s_load_dwordx2 s[2:3], s[6:7], 0x0
-; GFX8-NEXT:    s_add_u32 s88, s88, s11
-; GFX8-NEXT:    s_addc_u32 s89, s89, 0
+; GFX8-NEXT:    s_load_dwordx4 s[8:11], s[4:5], 0x24
 ; GFX8-NEXT:    ; implicit-def: $vgpr62 : SGPR spill to VGPR lane
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
+; GFX8-NEXT:    s_load_dwordx2 s[2:3], s[10:11], 0x0
+; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX8-NEXT:    s_lshr_b32 s0, s3, 8
+; GFX8-NEXT:    s_lshr_b32 s48, s3, 15
 ; GFX8-NEXT:    v_writelane_b32 v62, s0, 0
-; GFX8-NEXT:    v_writelane_b32 v62, s1, 1
-; GFX8-NEXT:    s_lshr_b32 s0, s2, 1
-; GFX8-NEXT:    s_lshr_b32 s36, s3, 21
-; GFX8-NEXT:    s_lshr_b32 s30, s3, 19
-; GFX8-NEXT:    s_bfe_i64 s[0:1], s[0:1], 0x10000
 ; GFX8-NEXT:    s_lshr_b32 s74, s3, 30
-; GFX8-NEXT:    s_lshr_b32 s50, s3, 31
+; GFX8-NEXT:    s_lshr_b32 s30, s3, 31
 ; GFX8-NEXT:    s_lshr_b32 s72, s3, 28
-; GFX8-NEXT:    s_lshr_b32 s48, s3, 29
+; GFX8-NEXT:    s_lshr_b32 s34, s3, 29
 ; GFX8-NEXT:    s_lshr_b32 s70, s3, 26
-; GFX8-NEXT:    s_lshr_b32 s46, s3, 27
+; GFX8-NEXT:    s_lshr_b32 s36, s3, 27
 ; GFX8-NEXT:    s_lshr_b32 s68, s3, 24
-; GFX8-NEXT:    s_lshr_b32 s42, s3, 25
-; GFX8-NEXT:    s_lshr_b32 s66, s3, 22
+; GFX8-NEXT:    s_lshr_b32 s38, s3, 25
+; GFX8-NEXT:    s_lshr_b32 s64, s3, 22
 ; GFX8-NEXT:    s_lshr_b32 s40, s3, 23
-; GFX8-NEXT:    s_lshr_b32 s64, s3, 20
-; GFX8-NEXT:    s_lshr_b32 s62, s3, 18
+; GFX8-NEXT:    s_lshr_b32 s60, s3, 20
+; GFX8-NEXT:    s_lshr_b32 s42, s3, 21
+; GFX8-NEXT:    s_lshr_b32 s66, s3, 18
+; GFX8-NEXT:    s_lshr_b32 s44, s3, 19
 ; GFX8-NEXT:    s_lshr_b32 s56, s3, 16
-; GFX8-NEXT:    s_lshr_b32 s18, s3, 17
+; GFX8-NEXT:    s_lshr_b32 s46, s3, 17
 ; GFX8-NEXT:    s_lshr_b32 s58, s3, 14
-; GFX8-NEXT:    s_lshr_b32 s38, s3, 15
-; GFX8-NEXT:    s_lshr_b32 s60, s3, 12
-; GFX8-NEXT:    s_lshr_b32 s44, s3, 13
+; GFX8-NEXT:    s_lshr_b32 s62, s3, 12
 ; GFX8-NEXT:    s_lshr_b32 s54, s3, 10
-; GFX8-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x10000
-; GFX8-NEXT:    v_writelane_b32 v62, s0, 2
+; GFX8-NEXT:    v_writelane_b32 v62, s1, 1
+; GFX8-NEXT:    s_lshr_b32 s0, s3, 9
+; GFX8-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x10000
 ; GFX8-NEXT:    s_lshr_b32 s52, s3, 11
-; GFX8-NEXT:    s_bfe_i64 s[74:75], s[74:75], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[72:73], s[72:73], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[70:71], s[70:71], 0x10000
+; GFX8-NEXT:    v_writelane_b32 v62, s0, 2
+; GFX8-NEXT:    s_bfe_i64 s[60:61], s[60:61], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[64:65], s[64:65], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[68:69], s[68:69], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[70:71], s[70:71], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[72:73], s[72:73], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[74:75], s[74:75], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[66:67], s[66:67], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[64:65], s[64:65], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[62:63], s[62:63], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[60:61], s[60:61], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[58:59], s[58:59], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[56:57], s[56:57], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[54:55], s[54:55], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[50:51], s[50:51], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[46:47], s[46:47], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
-; GFX8-NEXT:    v_mov_b32_e32 v18, s36
-; GFX8-NEXT:    v_mov_b32_e32 v19, s37
-; GFX8-NEXT:    v_mov_b32_e32 v26, s30
-; GFX8-NEXT:    v_mov_b32_e32 v27, s31
-; GFX8-NEXT:    s_bfe_i64 s[30:31], s[44:45], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[36:37], s[38:39], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x10000
+; GFX8-NEXT:    v_mov_b32_e32 v34, s48
+; GFX8-NEXT:    s_lshr_b32 s48, s2, 1
+; GFX8-NEXT:    s_lshr_b32 s50, s3, 13
 ; GFX8-NEXT:    v_writelane_b32 v62, s1, 3
-; GFX8-NEXT:    s_lshr_b32 s6, s3, 9
-; GFX8-NEXT:    s_lshr_b32 s8, s3, 6
+; GFX8-NEXT:    s_lshr_b32 s6, s3, 6
 ; GFX8-NEXT:    s_lshr_b32 s10, s3, 7
 ; GFX8-NEXT:    s_lshr_b32 s12, s3, 4
 ; GFX8-NEXT:    s_lshr_b32 s14, s3, 5
 ; GFX8-NEXT:    s_lshr_b32 s16, s3, 2
-; GFX8-NEXT:    s_lshr_b32 s20, s3, 3
-; GFX8-NEXT:    s_lshr_b32 s22, s3, 1
-; GFX8-NEXT:    s_mov_b32 s24, s3
-; GFX8-NEXT:    s_lshr_b32 s26, s2, 30
-; GFX8-NEXT:    s_lshr_b32 s28, s2, 31
-; GFX8-NEXT:    s_lshr_b32 s34, s2, 28
+; GFX8-NEXT:    s_lshr_b32 s18, s3, 3
+; GFX8-NEXT:    s_lshr_b32 s20, s3, 1
+; GFX8-NEXT:    s_mov_b32 s22, s3
+; GFX8-NEXT:    s_lshr_b32 s24, s2, 30
+; GFX8-NEXT:    s_lshr_b32 s26, s2, 31
+; GFX8-NEXT:    s_lshr_b32 s28, s2, 28
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s74
-; GFX8-NEXT:    v_mov_b32_e32 v8, s72
+; GFX8-NEXT:    v_mov_b32_e32 v12, s72
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s70
-; GFX8-NEXT:    v_mov_b32_e32 v54, s68
-; GFX8-NEXT:    v_mov_b32_e32 v20, s66
+; GFX8-NEXT:    v_mov_b32_e32 v8, s68
 ; GFX8-NEXT:    v_mov_b32_e32 v16, s64
-; GFX8-NEXT:    v_mov_b32_e32 v24, s62
+; GFX8-NEXT:    v_mov_b32_e32 v20, s60
+; GFX8-NEXT:    v_mov_b32_e32 v24, s66
 ; GFX8-NEXT:    v_mov_b32_e32 v28, s56
 ; GFX8-NEXT:    v_mov_b32_e32 v32, s58
-; GFX8-NEXT:    v_mov_b32_e32 v36, s60
+; GFX8-NEXT:    v_mov_b32_e32 v36, s62
 ; GFX8-NEXT:    s_lshr_b32 s86, s2, 29
 ; GFX8-NEXT:    v_mov_b32_e32 v40, s54
 ; GFX8-NEXT:    s_lshr_b32 s84, s2, 26
 ; GFX8-NEXT:    s_lshr_b32 s82, s2, 27
+; GFX8-NEXT:    s_bfe_i64 vcc, s[52:53], 0x10000
 ; GFX8-NEXT:    s_lshr_b32 s80, s2, 24
-; GFX8-NEXT:    v_mov_b32_e32 v6, s50
+; GFX8-NEXT:    v_mov_b32_e32 v6, s30
+; GFX8-NEXT:    v_mov_b32_e32 v7, s31
 ; GFX8-NEXT:    s_lshr_b32 s78, s2, 25
 ; GFX8-NEXT:    s_lshr_b32 s76, s2, 22
-; GFX8-NEXT:    v_mov_b32_e32 v10, s48
+; GFX8-NEXT:    v_mov_b32_e32 v14, s34
 ; GFX8-NEXT:    s_lshr_b32 s74, s2, 23
 ; GFX8-NEXT:    s_lshr_b32 s72, s2, 20
-; GFX8-NEXT:    v_mov_b32_e32 v2, s46
+; GFX8-NEXT:    v_mov_b32_e32 v2, s36
 ; GFX8-NEXT:    s_lshr_b32 s70, s2, 21
 ; GFX8-NEXT:    s_lshr_b32 s68, s2, 18
-; GFX8-NEXT:    v_mov_b32_e32 v56, s42
+; GFX8-NEXT:    v_mov_b32_e32 v10, s38
 ; GFX8-NEXT:    s_lshr_b32 s66, s2, 19
 ; GFX8-NEXT:    s_lshr_b32 s64, s2, 16
-; GFX8-NEXT:    v_mov_b32_e32 v22, s40
+; GFX8-NEXT:    v_mov_b32_e32 v18, s40
 ; GFX8-NEXT:    s_lshr_b32 s62, s2, 17
 ; GFX8-NEXT:    s_lshr_b32 s60, s2, 14
+; GFX8-NEXT:    v_mov_b32_e32 v22, s42
 ; GFX8-NEXT:    s_lshr_b32 s58, s2, 15
 ; GFX8-NEXT:    s_lshr_b32 s56, s2, 12
+; GFX8-NEXT:    v_mov_b32_e32 v26, s44
 ; GFX8-NEXT:    s_lshr_b32 s54, s2, 13
-; GFX8-NEXT:    s_bfe_i64 vcc, s[52:53], 0x10000
 ; GFX8-NEXT:    s_lshr_b32 s52, s2, 10
-; GFX8-NEXT:    v_mov_b32_e32 v30, s18
-; GFX8-NEXT:    v_mov_b32_e32 v31, s19
-; GFX8-NEXT:    s_lshr_b32 s50, s2, 11
-; GFX8-NEXT:    s_lshr_b32 s48, s2, 8
-; GFX8-NEXT:    v_mov_b32_e32 v34, s36
+; GFX8-NEXT:    v_mov_b32_e32 v30, s46
+; GFX8-NEXT:    s_lshr_b32 s4, s2, 11
+; GFX8-NEXT:    s_lshr_b32 s0, s2, 8
 ; GFX8-NEXT:    s_lshr_b32 s46, s2, 9
 ; GFX8-NEXT:    s_lshr_b32 s44, s2, 6
-; GFX8-NEXT:    v_mov_b32_e32 v38, s30
 ; GFX8-NEXT:    s_lshr_b32 s42, s2, 7
 ; GFX8-NEXT:    s_lshr_b32 s40, s2, 4
 ; GFX8-NEXT:    s_lshr_b32 s38, s2, 5
 ; GFX8-NEXT:    s_lshr_b32 s36, s2, 2
-; GFX8-NEXT:    s_lshr_b32 s30, s2, 3
-; GFX8-NEXT:    s_bfe_i64 s[18:19], s[2:3], 0x10000
+; GFX8-NEXT:    s_lshr_b32 s34, s2, 3
+; GFX8-NEXT:    s_bfe_i64 s[30:31], s[2:3], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[2:3], s[48:49], 0x10000
+; GFX8-NEXT:    v_writelane_b32 v62, s2, 4
+; GFX8-NEXT:    v_writelane_b32 v62, s3, 5
+; GFX8-NEXT:    v_readlane_b32 s2, v62, 2
+; GFX8-NEXT:    s_bfe_i64 s[50:51], s[50:51], 0x10000
+; GFX8-NEXT:    v_readlane_b32 s3, v62, 3
+; GFX8-NEXT:    v_mov_b32_e32 v38, s50
+; GFX8-NEXT:    v_mov_b32_e32 v39, s51
+; GFX8-NEXT:    s_bfe_i64 s[50:51], s[4:5], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[4:5], s[6:7], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[6:7], s[2:3], 0x10000
 ; GFX8-NEXT:    v_readlane_b32 s2, v62, 0
 ; GFX8-NEXT:    v_readlane_b32 s3, v62, 1
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s75
-; GFX8-NEXT:    v_mov_b32_e32 v7, s51
-; GFX8-NEXT:    v_mov_b32_e32 v9, s73
-; GFX8-NEXT:    v_mov_b32_e32 v11, s49
+; GFX8-NEXT:    v_mov_b32_e32 v13, s73
+; GFX8-NEXT:    v_mov_b32_e32 v15, s35
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s71
-; GFX8-NEXT:    v_mov_b32_e32 v3, s47
-; GFX8-NEXT:    v_mov_b32_e32 v55, s69
-; GFX8-NEXT:    v_mov_b32_e32 v57, s43
-; GFX8-NEXT:    v_mov_b32_e32 v21, s67
-; GFX8-NEXT:    v_mov_b32_e32 v23, s41
+; GFX8-NEXT:    v_mov_b32_e32 v3, s37
+; GFX8-NEXT:    v_mov_b32_e32 v9, s69
+; GFX8-NEXT:    v_mov_b32_e32 v11, s39
 ; GFX8-NEXT:    v_mov_b32_e32 v17, s65
-; GFX8-NEXT:    v_mov_b32_e32 v25, s63
+; GFX8-NEXT:    v_mov_b32_e32 v19, s41
+; GFX8-NEXT:    v_mov_b32_e32 v21, s61
+; GFX8-NEXT:    v_mov_b32_e32 v23, s43
+; GFX8-NEXT:    v_mov_b32_e32 v25, s67
+; GFX8-NEXT:    v_mov_b32_e32 v27, s45
 ; GFX8-NEXT:    v_mov_b32_e32 v29, s57
+; GFX8-NEXT:    v_mov_b32_e32 v31, s47
 ; GFX8-NEXT:    v_mov_b32_e32 v33, s59
-; GFX8-NEXT:    v_mov_b32_e32 v35, s37
-; GFX8-NEXT:    v_mov_b32_e32 v37, s61
-; GFX8-NEXT:    v_mov_b32_e32 v39, s31
+; GFX8-NEXT:    v_mov_b32_e32 v35, s49
+; GFX8-NEXT:    v_mov_b32_e32 v37, s63
 ; GFX8-NEXT:    v_mov_b32_e32 v41, s55
-; GFX8-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[46:47], s[46:47], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[50:51], s[50:51], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[48:49], s[0:1], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[52:53], s[52:53], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[54:55], s[54:55], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[56:57], s[56:57], 0x10000
@@ -8837,269 +8836,262 @@ define amdgpu_kernel void @constant_sextload_v64i1_to_v64i64(ptr addrspace(1) %o
 ; GFX8-NEXT:    s_bfe_i64 s[82:83], s[82:83], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[84:85], s[84:85], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[86:87], s[86:87], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[16:17], s[16:17], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[14:15], s[14:15], 0x10000
 ; GFX8-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[8:9], s[8:9], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[0:1], s[6:7], 0x10000
-; GFX8-NEXT:    s_bfe_i64 s[6:7], s[2:3], 0x10000
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x1f0
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
+; GFX8-NEXT:    s_bfe_i64 s[0:1], s[10:11], 0x10000
+; GFX8-NEXT:    s_bfe_i64 s[10:11], s[2:3], 0x10000
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x1f0
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v43, s3
 ; GFX8-NEXT:    v_mov_b32_e32 v42, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x1e0
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x1e0
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v45, s3
 ; GFX8-NEXT:    v_mov_b32_e32 v44, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x1d0
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x1d0
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v47, s3
 ; GFX8-NEXT:    v_mov_b32_e32 v46, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x1c0
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x1c0
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v49, s3
 ; GFX8-NEXT:    v_mov_b32_e32 v48, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x1b0
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x1b0
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v51, s3
 ; GFX8-NEXT:    v_mov_b32_e32 v50, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x1a0
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x1a0
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v53, s3
 ; GFX8-NEXT:    v_mov_b32_e32 v52, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x190
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
-; GFX8-NEXT:    v_mov_b32_e32 v15, s3
-; GFX8-NEXT:    v_mov_b32_e32 v14, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x180
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
-; GFX8-NEXT:    v_mov_b32_e32 v13, s3
-; GFX8-NEXT:    v_mov_b32_e32 v12, s2
-; GFX8-NEXT:    buffer_store_dword v12, off, s[88:91], 0 ; 4-byte Folded Spill
-; GFX8-NEXT:    buffer_store_dword v13, off, s[88:91], 0 offset:4 ; 4-byte Folded Spill
-; GFX8-NEXT:    flat_store_dwordx4 v[42:43], v[4:7]
-; GFX8-NEXT:    flat_store_dwordx4 v[44:45], v[8:11]
-; GFX8-NEXT:    flat_store_dwordx4 v[46:47], v[0:3]
-; GFX8-NEXT:    flat_store_dwordx4 v[48:49], v[54:57]
-; GFX8-NEXT:    flat_store_dwordx4 v[50:51], v[20:23]
-; GFX8-NEXT:    flat_store_dwordx4 v[52:53], v[16:19]
-; GFX8-NEXT:    flat_store_dwordx4 v[14:15], v[24:27]
-; GFX8-NEXT:    buffer_load_dword v18, off, s[88:91], 0 ; 4-byte Folded Reload
-; GFX8-NEXT:    buffer_load_dword v19, off, s[88:91], 0 offset:4 ; 4-byte Folded Reload
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x170
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x190
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
+; GFX8-NEXT:    v_mov_b32_e32 v55, s3
+; GFX8-NEXT:    v_mov_b32_e32 v54, s2
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x180
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
+; GFX8-NEXT:    v_mov_b32_e32 v57, s3
+; GFX8-NEXT:    v_mov_b32_e32 v56, s2
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x170
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v59, s3
 ; GFX8-NEXT:    v_mov_b32_e32 v58, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x160
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x160
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v61, s3
 ; GFX8-NEXT:    v_mov_b32_e32 v60, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x150
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
-; GFX8-NEXT:    v_mov_b32_e32 v45, s3
-; GFX8-NEXT:    v_mov_b32_e32 v44, s2
-; GFX8-NEXT:    s_add_u32 s2, s4, 0x140
-; GFX8-NEXT:    s_addc_u32 s3, s5, 0
-; GFX8-NEXT:    v_mov_b32_e32 v6, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0x130
-; GFX8-NEXT:    v_mov_b32_e32 v7, s1
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x150
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
+; GFX8-NEXT:    flat_store_dwordx4 v[44:45], v[12:15]
+; GFX8-NEXT:    flat_store_dwordx4 v[46:47], v[0:3]
+; GFX8-NEXT:    v_mov_b32_e32 v13, s3
+; GFX8-NEXT:    v_mov_b32_e32 v12, s2
+; GFX8-NEXT:    s_add_u32 s2, s8, 0x140
+; GFX8-NEXT:    s_addc_u32 s3, s9, 0
+; GFX8-NEXT:    v_mov_b32_e32 v2, s0
+; GFX8-NEXT:    s_add_u32 s0, s8, 0x130
+; GFX8-NEXT:    v_mov_b32_e32 v3, s1
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
+; GFX8-NEXT:    flat_store_dwordx4 v[42:43], v[4:7]
+; GFX8-NEXT:    flat_store_dwordx4 v[48:49], v[8:11]
+; GFX8-NEXT:    flat_store_dwordx4 v[50:51], v[16:19]
+; GFX8-NEXT:    v_mov_b32_e32 v4, s10
 ; GFX8-NEXT:    v_mov_b32_e32 v17, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v16, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0x120
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
-; GFX8-NEXT:    v_mov_b32_e32 v15, s1
-; GFX8-NEXT:    v_mov_b32_e32 v14, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0x110
-; GFX8-NEXT:    v_mov_b32_e32 v4, s6
-; GFX8-NEXT:    v_mov_b32_e32 v5, s7
-; GFX8-NEXT:    v_mov_b32_e32 v13, s3
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_add_u32 s0, s8, 0x120
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
+; GFX8-NEXT:    v_mov_b32_e32 v19, s1
+; GFX8-NEXT:    v_mov_b32_e32 v18, s0
+; GFX8-NEXT:    s_add_u32 s0, s8, 0x110
+; GFX8-NEXT:    v_mov_b32_e32 v5, s11
+; GFX8-NEXT:    v_mov_b32_e32 v15, s3
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    v_mov_b32_e32 v42, vcc_lo
 ; GFX8-NEXT:    v_mov_b32_e32 v43, vcc_hi
-; GFX8-NEXT:    v_mov_b32_e32 v12, s2
-; GFX8-NEXT:    v_mov_b32_e32 v0, s8
-; GFX8-NEXT:    v_mov_b32_e32 v1, s9
+; GFX8-NEXT:    v_mov_b32_e32 v14, s2
+; GFX8-NEXT:    v_mov_b32_e32 v6, s6
+; GFX8-NEXT:    v_mov_b32_e32 v7, s7
+; GFX8-NEXT:    v_mov_b32_e32 v0, s4
+; GFX8-NEXT:    v_mov_b32_e32 v1, s5
 ; GFX8-NEXT:    v_mov_b32_e32 v8, s12
-; GFX8-NEXT:    v_mov_b32_e32 v2, s10
-; GFX8-NEXT:    v_mov_b32_e32 v3, s11
+; GFX8-NEXT:    flat_store_dwordx4 v[52:53], v[20:23]
 ; GFX8-NEXT:    v_mov_b32_e32 v9, s13
+; GFX8-NEXT:    flat_store_dwordx4 v[54:55], v[24:27]
 ; GFX8-NEXT:    v_mov_b32_e32 v10, s14
 ; GFX8-NEXT:    v_mov_b32_e32 v11, s15
-; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    flat_store_dwordx4 v[18:19], v[28:31]
+; GFX8-NEXT:    flat_store_dwordx4 v[56:57], v[28:31]
 ; GFX8-NEXT:    flat_store_dwordx4 v[58:59], v[32:35]
 ; GFX8-NEXT:    flat_store_dwordx4 v[60:61], v[36:39]
-; GFX8-NEXT:    flat_store_dwordx4 v[44:45], v[40:43]
-; GFX8-NEXT:    flat_store_dwordx4 v[12:13], v[4:7]
+; GFX8-NEXT:    flat_store_dwordx4 v[12:13], v[40:43]
+; GFX8-NEXT:    flat_store_dwordx4 v[14:15], v[4:7]
 ; GFX8-NEXT:    flat_store_dwordx4 v[16:17], v[0:3]
-; GFX8-NEXT:    flat_store_dwordx4 v[14:15], v[8:11]
+; GFX8-NEXT:    flat_store_dwordx4 v[18:19], v[8:11]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0x100
+; GFX8-NEXT:    s_add_u32 s0, s8, 0x100
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s16
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s17
+; GFX8-NEXT:    v_mov_b32_e32 v2, s18
+; GFX8-NEXT:    v_mov_b32_e32 v3, s19
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
+; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX8-NEXT:    v_mov_b32_e32 v5, s1
+; GFX8-NEXT:    v_mov_b32_e32 v4, s0
+; GFX8-NEXT:    s_add_u32 s0, s8, 0xf0
+; GFX8-NEXT:    v_mov_b32_e32 v0, s22
+; GFX8-NEXT:    v_mov_b32_e32 v1, s23
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s20
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s21
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0xf0
+; GFX8-NEXT:    s_add_u32 s0, s8, 0xe0
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s24
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s25
-; GFX8-NEXT:    v_mov_b32_e32 v2, s22
-; GFX8-NEXT:    v_mov_b32_e32 v3, s23
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
-; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX8-NEXT:    v_mov_b32_e32 v5, s1
-; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0xe0
-; GFX8-NEXT:    v_mov_b32_e32 v0, s26
-; GFX8-NEXT:    v_mov_b32_e32 v1, s27
-; GFX8-NEXT:    v_mov_b32_e32 v2, s28
-; GFX8-NEXT:    v_mov_b32_e32 v3, s29
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    v_mov_b32_e32 v2, s26
+; GFX8-NEXT:    v_mov_b32_e32 v3, s27
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0xd0
-; GFX8-NEXT:    v_mov_b32_e32 v0, s34
-; GFX8-NEXT:    v_mov_b32_e32 v1, s35
+; GFX8-NEXT:    s_add_u32 s0, s8, 0xd0
+; GFX8-NEXT:    v_mov_b32_e32 v0, s28
+; GFX8-NEXT:    v_mov_b32_e32 v1, s29
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s86
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s87
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0xc0
+; GFX8-NEXT:    s_add_u32 s0, s8, 0xc0
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s84
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s85
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s82
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s83
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0xb0
+; GFX8-NEXT:    s_add_u32 s0, s8, 0xb0
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s80
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s81
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s78
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s79
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0xa0
+; GFX8-NEXT:    s_add_u32 s0, s8, 0xa0
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s76
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s77
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s74
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s75
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0x90
+; GFX8-NEXT:    s_add_u32 s0, s8, 0x90
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s72
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s73
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s70
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s71
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0x80
+; GFX8-NEXT:    s_add_u32 s0, s8, 0x80
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s68
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s69
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s66
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s67
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0x70
+; GFX8-NEXT:    s_add_u32 s0, s8, 0x70
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s64
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s65
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s62
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s63
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0x60
+; GFX8-NEXT:    s_add_u32 s0, s8, 0x60
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s60
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s61
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s58
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s59
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 0x50
+; GFX8-NEXT:    s_add_u32 s0, s8, 0x50
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s56
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s57
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s54
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s55
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 64
+; GFX8-NEXT:    s_add_u32 s0, s8, 64
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s52
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s53
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s50
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s51
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 48
+; GFX8-NEXT:    s_add_u32 s0, s8, 48
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s48
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s49
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s46
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s47
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 32
+; GFX8-NEXT:    s_add_u32 s0, s8, 32
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s44
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s45
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s42
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s43
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    s_add_u32 s0, s4, 16
+; GFX8-NEXT:    s_add_u32 s0, s8, 16
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s40
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s41
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s38
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s39
-; GFX8-NEXT:    s_addc_u32 s1, s5, 0
+; GFX8-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX8-NEXT:    v_mov_b32_e32 v0, s36
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s37
-; GFX8-NEXT:    v_mov_b32_e32 v2, s30
-; GFX8-NEXT:    v_mov_b32_e32 v3, s31
+; GFX8-NEXT:    v_mov_b32_e32 v2, s34
+; GFX8-NEXT:    v_mov_b32_e32 v3, s35
 ; GFX8-NEXT:    v_mov_b32_e32 v4, s0
-; GFX8-NEXT:    v_readlane_b32 s0, v62, 2
+; GFX8-NEXT:    v_readlane_b32 s0, v62, 4
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX8-NEXT:    v_readlane_b32 s1, v62, 3
-; GFX8-NEXT:    v_mov_b32_e32 v4, s4
-; GFX8-NEXT:    v_mov_b32_e32 v0, s18
-; GFX8-NEXT:    v_mov_b32_e32 v1, s19
+; GFX8-NEXT:    v_readlane_b32 s1, v62, 5
+; GFX8-NEXT:    v_mov_b32_e32 v4, s8
+; GFX8-NEXT:    v_mov_b32_e32 v0, s30
+; GFX8-NEXT:    v_mov_b32_e32 v1, s31
 ; GFX8-NEXT:    v_mov_b32_e32 v2, s0
 ; GFX8-NEXT:    v_mov_b32_e32 v3, s1
-; GFX8-NEXT:    v_mov_b32_e32 v5, s5
+; GFX8-NEXT:    v_mov_b32_e32 v5, s9
 ; GFX8-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX8-NEXT:    s_endpgm
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/load-constant-i16.ll b/llvm/test/CodeGen/AMDGPU/load-constant-i16.ll
index bb98af4e7a5c7..255a1acbe0086 100644
--- a/llvm/test/CodeGen/AMDGPU/load-constant-i16.ll
+++ b/llvm/test/CodeGen/AMDGPU/load-constant-i16.ll
@@ -637,8 +637,8 @@ define amdgpu_kernel void @constant_load_v16i16_align2(ptr addrspace(4) %ptr0) #
 ; GCN-NOHSA-VI-NEXT:    flat_load_ushort v19, v[6:7]
 ; GCN-NOHSA-VI-NEXT:    flat_load_ushort v20, v[8:9]
 ; GCN-NOHSA-VI-NEXT:    flat_load_ushort v21, v[10:11]
-; GCN-NOHSA-VI-NEXT:    flat_load_ushort v22, v[12:13]
-; GCN-NOHSA-VI-NEXT:    flat_load_ushort v23, v[14:15]
+; GCN-NOHSA-VI-NEXT:    flat_load_ushort v12, v[12:13]
+; GCN-NOHSA-VI-NEXT:    flat_load_ushort v13, v[14:15]
 ; GCN-NOHSA-VI-NEXT:    s_addc_u32 s3, s1, 0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s2
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s3
@@ -664,18 +664,18 @@ define amdgpu_kernel void @constant_load_v16i16_align2(ptr addrspace(4) %ptr0) #
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v10, s2
 ; GCN-NOHSA-VI-NEXT:    s_add_u32 s2, s0, 2
 ; GCN-NOHSA-VI-NEXT:    s_addc_u32 s3, s1, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v13, s3
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v15, s1
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v12, s2
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v14, s0
-; GCN-NOHSA-VI-NEXT:    flat_load_ushort v0, v[0:1]
-; GCN-NOHSA-VI-NEXT:    flat_load_ushort v24, v[2:3]
+; GCN-NOHSA-VI-NEXT:    flat_load_ushort v14, v[0:1]
+; GCN-NOHSA-VI-NEXT:    flat_load_ushort v15, v[2:3]
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s2
 ; GCN-NOHSA-VI-NEXT:    flat_load_ushort v4, v[4:5]
 ; GCN-NOHSA-VI-NEXT:    flat_load_ushort v5, v[6:7]
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s3
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s0
 ; GCN-NOHSA-VI-NEXT:    flat_load_ushort v8, v[8:9]
 ; GCN-NOHSA-VI-NEXT:    flat_load_ushort v9, v[10:11]
-; GCN-NOHSA-VI-NEXT:    flat_load_ushort v10, v[12:13]
-; GCN-NOHSA-VI-NEXT:    flat_load_ushort v11, v[14:15]
+; GCN-NOHSA-VI-NEXT:    flat_load_ushort v0, v[0:1]
+; GCN-NOHSA-VI-NEXT:    flat_load_ushort v10, v[2:3]
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(14)
 ; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v1, 16, v16
 ; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v3, v17, v1
@@ -688,25 +688,25 @@ define amdgpu_kernel void @constant_load_v16i16_align2(ptr addrspace(4) %ptr0) #
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(10)
 ; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v1, v21, v1
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(9)
-; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v6, 16, v22
+; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v6, 16, v12
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(8)
-; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v7, v23, v6
+; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v7, v13, v6
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(7)
-; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
+; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v6, 16, v14
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(6)
-; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v6, v24, v0
+; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v6, v15, v6
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(5)
-; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v0, 16, v4
+; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(4)
-; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v5, v5, v0
+; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v5, v5, v4
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(3)
-; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v0, 16, v8
+; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v4, 16, v8
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(2)
-; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v4, v9, v0
+; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v4, v9, v4
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v0, 16, v10
+; GCN-NOHSA-VI-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt vmcnt(0)
-; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v0, v11, v0
+; GCN-NOHSA-VI-NEXT:    v_or_b32_e32 v0, v10, v0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[0:1], v[4:7]
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[0:1], v[0:3]
 ; GCN-NOHSA-VI-NEXT:    s_endpgm
@@ -2502,29 +2502,27 @@ define amdgpu_kernel void @constant_zextload_v32i16_to_v32i32(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    s_load_dwordx4 s[16:19], s[4:5], 0x9
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt lgkmcnt(0)
 ; GCN-NOHSA-SI-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s19, 0xf000
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s18, -1
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s20, s1, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s21, s0, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s22, s3, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s23, s2, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s24, s5, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s25, s4, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s26, s7, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s27, s6, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s28, s9, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s29, s8, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s30, s11, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s31, s10, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s33, s13, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s34, s12, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s35, s15, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s36, s14, 16
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s1, s1, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s0, s0, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s3, s3, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s2, s2, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s18, s1, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s19, s0, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s20, s3, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s21, s2, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s22, s5, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s23, s4, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s24, s7, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s25, s6, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s26, s9, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s27, s8, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s28, s11, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s29, s10, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s30, s13, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s31, s12, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s33, s15, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s34, s14, 16
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s35, s1, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s36, s0, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s37, s3, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s38, s2, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s5, s5, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s4, s4, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s7, s7, 0xffff
@@ -2534,56 +2532,60 @@ define amdgpu_kernel void @constant_zextload_v32i16_to_v32i32(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s11, s11, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s10, s10, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s13, s13, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s12, s12, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s15, s15, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s14, s14, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s12, s12, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s3, 0xf000
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s2, -1
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s0, s16
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s1, s17
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s14
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s36
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s15
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s35
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:112
-; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s12
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s34
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s13
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s15
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s33
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:96
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:112
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s10
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s12
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s31
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s11
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s13
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s30
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:80
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:96
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s8
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s10
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s29
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s9
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s11
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s28
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:64
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:80
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s6
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s8
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s27
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s7
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s9
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s26
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:48
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s4
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s6
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s25
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s5
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s7
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s24
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:32
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s2
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s4
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s23
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s3
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s5
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s22
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:16
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:32
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s0
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s38
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s21
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s1
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s37
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s20
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
+; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s36
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s19
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s35
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s18
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
 ; GCN-NOHSA-SI-NEXT:    s_endpgm
 ;
 ; GCN-HSA-LABEL: constant_zextload_v32i16_to_v32i32:
@@ -2622,32 +2624,32 @@ define amdgpu_kernel void @constant_zextload_v32i16_to_v32i32(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_and_b32 s10, s10, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s13, s13, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s12, s12, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s0, s15, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s1, s14, 0xffff
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s0
+; GCN-HSA-NEXT:    s_and_b32 s15, s15, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s14, s14, 0xffff
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x70
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s1
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x60
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s34
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s33
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x50
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s12
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s31
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s13
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s30
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s14
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s34
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s15
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s33
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s12
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s31
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s13
+; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s30
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s10
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 64
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s10
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s29
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s11
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s28
@@ -2981,88 +2983,90 @@ define amdgpu_kernel void @constant_sextload_v32i16_to_v32i32(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    s_load_dwordx4 s[16:19], s[4:5], 0x9
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt lgkmcnt(0)
 ; GCN-NOHSA-SI-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s19, 0xf000
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s18, -1
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s20, s1, 16
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s21, s0, 16
-; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s1, s1
-; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s0, s0
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s18, s1, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s19, s0, 16
+; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s20, s1
+; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s21, s0
 ; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s22, s3, 16
 ; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s23, s2, 16
-; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s3, s3
-; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s2, s2
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s24, s5, 16
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s25, s4, 16
+; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s24, s3
+; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s25, s2
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s26, s5, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s27, s4, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s5, s5
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s4, s4
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s26, s7, 16
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s27, s6, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s28, s7, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s29, s6, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s7, s7
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s6, s6
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s28, s9, 16
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s29, s8, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s30, s9, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s31, s8, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s9, s9
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s8, s8
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s30, s11, 16
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s31, s10, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s33, s11, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s34, s10, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s11, s11
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s10, s10
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s33, s13, 16
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s34, s12, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s35, s13, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s36, s12, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s13, s13
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s35, s15, 16
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s36, s14, 16
+; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s12, s12
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s37, s15, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s38, s14, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s15, s15
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s14, s14
-; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s12, s12
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s3, 0xf000
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s2, -1
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s0, s16
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s1, s17
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s14
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s36
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s38
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s15
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s35
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:112
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s37
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:112
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s12
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s34
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s36
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s13
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s33
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:96
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s35
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:96
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s10
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s31
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s34
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s11
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s30
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:80
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s33
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:80
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s8
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s29
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s31
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s9
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s28
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:64
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s30
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s6
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s27
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s29
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s7
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s26
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:48
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s28
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s4
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s25
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s27
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s5
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s24
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:32
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s26
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:32
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s2
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s25
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s23
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s3
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s24
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s22
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:16
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s0
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s21
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s1
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s20
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s21
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s19
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s20
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s18
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
 ; GCN-NOHSA-SI-NEXT:    s_endpgm
 ;
 ; GCN-HSA-LABEL: constant_sextload_v32i16_to_v32i32:
@@ -3073,8 +3077,6 @@ define amdgpu_kernel void @constant_sextload_v32i16_to_v32i32(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GCN-HSA-NEXT:    s_ashr_i32 s18, s1, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s19, s0, 16
-; GCN-HSA-NEXT:    s_sext_i32_i16 s20, s1
-; GCN-HSA-NEXT:    s_sext_i32_i16 s21, s0
 ; GCN-HSA-NEXT:    s_ashr_i32 s22, s3, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s23, s2, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s24, s5, 16
@@ -3087,34 +3089,36 @@ define amdgpu_kernel void @constant_sextload_v32i16_to_v32i32(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_ashr_i32 s31, s10, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s33, s13, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s34, s12, 16
-; GCN-HSA-NEXT:    s_ashr_i32 s0, s15, 16
-; GCN-HSA-NEXT:    s_ashr_i32 s1, s14, 16
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s0
+; GCN-HSA-NEXT:    s_ashr_i32 s35, s15, 16
+; GCN-HSA-NEXT:    s_ashr_i32 s36, s14, 16
+; GCN-HSA-NEXT:    s_sext_i32_i16 s21, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x70
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s1
+; GCN-HSA-NEXT:    s_sext_i32_i16 s20, s1
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
-; GCN-HSA-NEXT:    s_sext_i32_i16 s15, s15
-; GCN-HSA-NEXT:    s_sext_i32_i16 s14, s14
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x60
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s14
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s15
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
-; GCN-HSA-NEXT:    s_sext_i32_i16 s13, s13
+; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s1
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s12, s12
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-HSA-NEXT:    s_sext_i32_i16 s15, s15
+; GCN-HSA-NEXT:    s_sext_i32_i16 s14, s14
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x50
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s12
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s34
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s13
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s33
+; GCN-HSA-NEXT:    s_sext_i32_i16 s13, s13
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s14
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s36
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s15
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s35
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s12
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s34
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s13
+; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s33
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s11, s11
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s10, s10
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 64
@@ -3524,18 +3528,18 @@ define amdgpu_kernel void @constant_zextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s16, s16, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s19, s19, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s18, s18, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s21, s21, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s20, s20, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s23, s23, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s22, s22, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s25, s25, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s24, s24, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s27, s27, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s26, s26, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s29, s29, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s28, s28, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s31, s31, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s30, s30, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s26, s26, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s22, s22, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s21, s21, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s0, s36
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s1, s37
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s3, 0xf000
@@ -3555,22 +3559,21 @@ define amdgpu_kernel void @constant_zextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v12, s24
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v13, s64
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v14, s25
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v15, s63
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
-; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(3)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s22
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s62
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s23
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s61
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:176
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v16, s22
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v17, s62
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v18, s23
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s20
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v19, s61
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s60
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s21
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s59
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:176
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:160
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s18
@@ -3652,10 +3655,10 @@ define amdgpu_kernel void @constant_zextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_lshr_b32 s35, s8, 16
 ; GCN-HSA-NEXT:    s_lshr_b32 s37, s11, 16
 ; GCN-HSA-NEXT:    s_lshr_b32 s39, s10, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s41, s13, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s43, s12, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s42, s13, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s44, s12, 16
 ; GCN-HSA-NEXT:    s_lshr_b32 s45, s15, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s47, s14, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s46, s14, 16
 ; GCN-HSA-NEXT:    s_and_b32 s25, s1, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s27, s0, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s29, s3, 0xffff
@@ -3664,13 +3667,13 @@ define amdgpu_kernel void @constant_zextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_and_b32 s36, s4, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s38, s7, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s40, s6, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s42, s9, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s44, s8, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s46, s11, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s41, s9, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s43, s8, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s47, s11, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s48, s10, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s49, s13, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s50, s12, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s51, s15, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s51, s12, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s50, s15, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s52, s14, 0xffff
 ; GCN-HSA-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x10
 ; GCN-HSA-NEXT:    s_waitcnt lgkmcnt(0)
@@ -3708,111 +3711,111 @@ define amdgpu_kernel void @constant_zextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_and_b32 s14, s14, 0xffff
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xf0
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v20, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v19, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xe0
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v25, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v24, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v21, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xd0
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v27, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v26, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v24, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xc0
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v29, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v28, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v26, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v25, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xb0
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v31, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v30, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v28, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v27, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xa0
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v33, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v32, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x90
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s12
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s64
-; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s13
-; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s63
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[4:7]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v25, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v24, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x80
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v35, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v34, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x70
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s14
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s66
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s15
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s65
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s10
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s62
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s11
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s61
+; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[23:24], v[8:11]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v12, s8
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s0
+; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x90
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v13, s60
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v14, s9
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v15, s59
+; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[25:26], v[12:15]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s14
+; GCN-HSA-NEXT:    v_mov_b32_e32 v13, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v12, s0
+; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x80
+; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v15, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s66
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s15
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s65
+; GCN-HSA-NEXT:    v_mov_b32_e32 v14, s0
+; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x70
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v16, s6
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v17, s58
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v18, s7
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[19:20], v[0:3]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v19, s57
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s68
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s19
-; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s67
-; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s18
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v20, s4
-; GCN-HSA-NEXT:    v_mov_b32_e32 v21, s56
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[22:23], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s5
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s2
-; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s55
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s54
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[26:27], v[8:11]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s3
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[28:29], v[12:15]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s53
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[30:31], v[16:19]
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[32:33], v[20:23]
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[0:3]
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[34:35], v[4:7]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s52
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[27:28], v[16:19]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s12
+; GCN-HSA-NEXT:    v_mov_b32_e32 v17, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v16, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x60
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s47
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s51
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s45
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v19, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s64
+; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s13
+; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s63
+; GCN-HSA-NEXT:    v_mov_b32_e32 v18, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x50
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s50
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s43
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s49
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s41
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v20, s2
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[21:22], v[4:7]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s56
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s5
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s55
+; GCN-HSA-NEXT:    v_mov_b32_e32 v21, s54
+; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s3
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s68
+; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s53
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s19
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s67
+; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s52
+; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s18
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[9:10], v[0:3]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s46
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s51
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s50
+; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s45
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s44
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s49
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s42
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[12:13], v[20:23]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[14:15], v[4:7]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[16:17], v[8:11]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[18:19], v[0:3]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 64
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s48
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s39
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s46
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s47
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s37
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 48
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s44
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s43
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s35
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s42
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s41
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s33
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
@@ -3854,57 +3857,34 @@ define amdgpu_kernel void @constant_zextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-NOHSA-VI:       ; %bb.0:
 ; GCN-NOHSA-VI-NEXT:    s_load_dwordx4 s[36:39], s[4:5], 0x24
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-NOHSA-VI-NEXT:    s_load_dwordx16 s[0:15], s[38:39], 0x0
-; GCN-NOHSA-VI-NEXT:    s_load_dwordx16 s[16:31], s[38:39], 0x40
+; GCN-NOHSA-VI-NEXT:    s_load_dwordx16 s[16:31], s[38:39], 0x0
+; GCN-NOHSA-VI-NEXT:    s_load_dwordx16 s[0:15], s[38:39], 0x40
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s33, s1, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s34, s0, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s35, s3, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s40, s2, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s41, s5, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s42, s4, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s43, s7, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s44, s6, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s45, s9, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s46, s8, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s47, s11, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s48, s10, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s38, s13, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s39, s12, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s49, s15, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s50, s14, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s51, s17, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s52, s16, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s53, s19, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s54, s18, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s55, s21, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s56, s20, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s57, s23, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s58, s22, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s59, s25, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s60, s24, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s61, s27, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s62, s26, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s63, s29, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s64, s28, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s65, s31, 16
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s66, s30, 16
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s1, s1, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s0, s0, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s3, s3, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s2, s2, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s5, s5, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s4, s4, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s7, s7, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s6, s6, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s9, s9, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s8, s8, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s67, s11, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s68, s10, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s13, s13, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s12, s12, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s15, s15, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s14, s14, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s33, s17, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s34, s16, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s35, s19, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s40, s18, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s41, s21, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s42, s20, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s43, s23, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s44, s22, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s45, s25, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s46, s24, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s47, s27, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s48, s26, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s38, s29, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s39, s28, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s49, s31, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s50, s30, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s51, s1, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s52, s0, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s53, s3, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s54, s2, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s55, s5, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s56, s4, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s57, s7, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s58, s6, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s59, s9, 16
 ; GCN-NOHSA-VI-NEXT:    s_and_b32 s17, s17, 0xffff
 ; GCN-NOHSA-VI-NEXT:    s_and_b32 s16, s16, 0xffff
 ; GCN-NOHSA-VI-NEXT:    s_and_b32 s19, s19, 0xffff
@@ -3919,151 +3899,170 @@ define amdgpu_kernel void @constant_zextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-NOHSA-VI-NEXT:    s_and_b32 s26, s26, 0xffff
 ; GCN-NOHSA-VI-NEXT:    s_and_b32 s29, s29, 0xffff
 ; GCN-NOHSA-VI-NEXT:    s_and_b32 s28, s28, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s10, s31, 0xffff
-; GCN-NOHSA-VI-NEXT:    s_and_b32 s11, s30, 0xffff
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s10
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0xf0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s11
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s31, s31, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s30, s30, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s60, s8, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s61, s11, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s62, s10, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s63, s13, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s64, s12, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s65, s15, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s66, s14, 16
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s67, s1, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s68, s0, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s3, s3, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s2, s2, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s5, s5, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s4, s4, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s7, s7, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s6, s6, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s9, s9, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s8, s8, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s11, s11, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s10, s10, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s13, s13, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s12, s12, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s0, s15, 0xffff
+; GCN-NOHSA-VI-NEXT:    s_and_b32 s1, s14, 0xffff
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0xf0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s1
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0xe0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s66
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s65
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0xe0
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s28
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0xd0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s12
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s64
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s29
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s13
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s63
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0xd0
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s26
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0xc0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s10
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s62
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s27
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s11
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s61
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0xc0
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s24
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0xb0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s8
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s60
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s25
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s9
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s59
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0xb0
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s22
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0xa0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s6
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s58
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s23
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s7
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s57
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0xa0
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s20
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0x90
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s4
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s56
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s21
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s5
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s55
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0x90
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s18
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0x80
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s2
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s54
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s19
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s3
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s53
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0x80
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s16
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0x70
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s68
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s52
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s17
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s67
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s51
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0x70
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s14
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0x60
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s30
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s50
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s15
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s31
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s49
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0x60
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s12
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 0x50
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s28
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s39
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s13
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s29
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s38
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s36, 0x50
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s68
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 64
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s26
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s48
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s67
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s27
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s47
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s8
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s8, s36, 64
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s9
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s9, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s8
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 48
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s24
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s46
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s25
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s45
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s9
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s6
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s6, s36, 48
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s7
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s7, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s6
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 32
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s22
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s44
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s23
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s43
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s7
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s4
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s4, s36, 32
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s5
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s5, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s36, 16
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s20
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s42
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s21
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s41
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s37, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s2
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s2, s36, 16
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s3
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s3, s37, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s3
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s18
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s40
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s19
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s35
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s2
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s36
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s16
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s34
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s17
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s33
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s37
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
@@ -4437,16 +4436,17 @@ define amdgpu_kernel void @constant_sextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s60, s4, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s5, s5
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s4, s4
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s61, s7, 16
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s62, s6, 16
-; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s7, s7
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s61, s6, 16
+; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s62, s7
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s6, s6
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s63, s8, 16
-; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s64, s9
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s63, s9, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s64, s8, 16
+; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s9, s9
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s8, s8
 ; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s65, s11, 16
 ; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s66, s10, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s11, s11
+; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s10, s10
 ; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s67, s13, 16
 ; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s68, s12, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s13, s13
@@ -4455,8 +4455,7 @@ define amdgpu_kernel void @constant_sextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s70, s14, 16
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s15, s15
 ; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s14, s14
-; GCN-NOHSA-SI-NEXT:    s_sext_i32_i16 s10, s10
-; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s9, s9, 16
+; GCN-NOHSA-SI-NEXT:    s_ashr_i32 s7, s7, 16
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s0, s36
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s1, s37
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s3, 0xf000
@@ -4474,24 +4473,23 @@ define amdgpu_kernel void @constant_sextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v10, s11
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v11, s65
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v12, s8
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v13, s63
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v14, s64
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v13, s64
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v14, s9
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v15, s63
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v16, s6
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v17, s61
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v18, s62
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v15, s9
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
-; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(3)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s6
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s62
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s7
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s61
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:176
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s4
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v19, s7
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s60
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s5
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s59
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:176
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:160
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s58
@@ -4586,10 +4584,10 @@ define amdgpu_kernel void @constant_sextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s43, s11
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s44, s10
 ; GCN-HSA-NEXT:    s_ashr_i32 s45, s13, 16
-; GCN-HSA-NEXT:    s_ashr_i32 s46, s12, 16
-; GCN-HSA-NEXT:    s_sext_i32_i16 s47, s13
-; GCN-HSA-NEXT:    s_sext_i32_i16 s48, s12
-; GCN-HSA-NEXT:    s_ashr_i32 s49, s15, 16
+; GCN-HSA-NEXT:    s_ashr_i32 s47, s12, 16
+; GCN-HSA-NEXT:    s_sext_i32_i16 s46, s13
+; GCN-HSA-NEXT:    s_sext_i32_i16 s49, s12
+; GCN-HSA-NEXT:    s_ashr_i32 s48, s15, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s50, s14, 16
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s51, s15
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s52, s14
@@ -4597,8 +4595,8 @@ define amdgpu_kernel void @constant_sextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GCN-HSA-NEXT:    s_ashr_i32 s18, s1, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s19, s0, 16
-; GCN-HSA-NEXT:    s_ashr_i32 s55, s3, 16
-; GCN-HSA-NEXT:    s_ashr_i32 s56, s2, 16
+; GCN-HSA-NEXT:    s_ashr_i32 s53, s3, 16
+; GCN-HSA-NEXT:    s_ashr_i32 s54, s2, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s57, s5, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s58, s4, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s59, s7, 16
@@ -4611,114 +4609,114 @@ define amdgpu_kernel void @constant_sextload_v64i16_to_v64i32(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_ashr_i32 s66, s12, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s67, s15, 16
 ; GCN-HSA-NEXT:    s_ashr_i32 s68, s14, 16
-; GCN-HSA-NEXT:    s_sext_i32_i16 s54, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xf0
-; GCN-HSA-NEXT:    s_sext_i32_i16 s53, s1
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xe0
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v25, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v24, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xd0
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v27, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v26, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xc0
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v29, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v28, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xb0
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v31, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v30, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0xa0
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v33, s1
+; GCN-HSA-NEXT:    s_sext_i32_i16 s56, s2
+; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xf0
+; GCN-HSA-NEXT:    s_sext_i32_i16 s55, s3
+; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v20, s3
+; GCN-HSA-NEXT:    v_mov_b32_e32 v19, s2
+; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xe0
+; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s3
+; GCN-HSA-NEXT:    v_mov_b32_e32 v21, s2
+; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xd0
+; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v24, s3
+; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s2
+; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xc0
+; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v26, s3
+; GCN-HSA-NEXT:    v_mov_b32_e32 v25, s2
+; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xb0
+; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v28, s3
+; GCN-HSA-NEXT:    s_sext_i32_i16 s11, s11
+; GCN-HSA-NEXT:    s_sext_i32_i16 s10, s10
+; GCN-HSA-NEXT:    v_mov_b32_e32 v27, s2
+; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xa0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s10
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s64
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s11
+; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s63
+; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[23:24], v[8:11]
+; GCN-HSA-NEXT:    s_sext_i32_i16 s9, s9
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s3
+; GCN-HSA-NEXT:    s_sext_i32_i16 s8, s8
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s2
+; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0x90
+; GCN-HSA-NEXT:    v_mov_b32_e32 v12, s8
+; GCN-HSA-NEXT:    v_mov_b32_e32 v13, s62
+; GCN-HSA-NEXT:    v_mov_b32_e32 v14, s9
+; GCN-HSA-NEXT:    v_mov_b32_e32 v15, s61
+; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[25:26], v[12:15]
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s13, s13
+; GCN-HSA-NEXT:    v_mov_b32_e32 v13, s3
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s12, s12
-; GCN-HSA-NEXT:    v_mov_b32_e32 v32, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x90
+; GCN-HSA-NEXT:    v_mov_b32_e32 v12, s2
+; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0x80
+; GCN-HSA-NEXT:    s_sext_i32_i16 s0, s0
+; GCN-HSA-NEXT:    s_sext_i32_i16 s15, s15
+; GCN-HSA-NEXT:    s_sext_i32_i16 s14, s14
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s12
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s66
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s13
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s65
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[4:7]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v25, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v24, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x80
-; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v35, s1
+; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    s_sext_i32_i16 s1, s1
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s7, s7
 ; GCN-HSA-NEXT:    s_sext_i32_i16 s6, s6
-; GCN-HSA-NEXT:    s_sext_i32_i16 s9, s9
-; GCN-HSA-NEXT:    s_sext_i32_i16 s8, s8
-; GCN-HSA-NEXT:    s_sext_i32_i16 s11, s11
-; GCN-HSA-NEXT:    s_sext_i32_i16 s10, s10
-; GCN-HSA-NEXT:    s_sext_i32_i16 s15, s15
-; GCN-HSA-NEXT:    s_sext_i32_i16 s14, s14
-; GCN-HSA-NEXT:    v_mov_b32_e32 v34, s0
-; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x70
-; GCN-HSA-NEXT:    s_sext_i32_i16 s3, s3
-; GCN-HSA-NEXT:    s_sext_i32_i16 s2, s2
-; GCN-HSA-NEXT:    s_sext_i32_i16 s5, s5
-; GCN-HSA-NEXT:    s_sext_i32_i16 s4, s4
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s14
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s68
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s15
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s67
-; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s10
-; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s64
-; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s11
-; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s63
-; GCN-HSA-NEXT:    v_mov_b32_e32 v12, s8
-; GCN-HSA-NEXT:    v_mov_b32_e32 v13, s62
-; GCN-HSA-NEXT:    v_mov_b32_e32 v14, s9
-; GCN-HSA-NEXT:    v_mov_b32_e32 v15, s61
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[21:22], v[4:7]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v16, s6
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x70
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v17, s60
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v18, s7
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[19:20], v[0:3]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v19, s59
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s54
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s19
-; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s53
-; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s18
+; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s1
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v20, s4
-; GCN-HSA-NEXT:    v_mov_b32_e32 v21, s58
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[22:23], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s5
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s2
-; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s57
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s56
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[26:27], v[8:11]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s3
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[28:29], v[12:15]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s55
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[30:31], v[16:19]
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[32:33], v[20:23]
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[0:3]
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[34:35], v[4:7]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s52
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[27:28], v[16:19]
+; GCN-HSA-NEXT:    s_sext_i32_i16 s5, s5
+; GCN-HSA-NEXT:    v_mov_b32_e32 v17, s1
+; GCN-HSA-NEXT:    v_mov_b32_e32 v16, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x60
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s50
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s51
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s49
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v19, s1
+; GCN-HSA-NEXT:    s_sext_i32_i16 s4, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v18, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 0x50
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s48
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s46
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s47
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s45
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v20, s56
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s58
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s5
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s57
+; GCN-HSA-NEXT:    v_mov_b32_e32 v21, s54
+; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s55
+; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s53
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s19
+; GCN-HSA-NEXT:    v_mov_b32_e32 v15, s3
 ; GCN-HSA-NEXT:    s_addc_u32 s1, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v14, s2
+; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s52
+; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s18
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[9:10], v[0:3]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s50
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s49
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s51
+; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s48
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s47
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s46
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s45
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[12:13], v[20:23]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[14:15], v[4:7]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[16:17], v[8:11]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[18:19], v[0:3]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
 ; GCN-HSA-NEXT:    s_add_u32 s0, s16, 64
@@ -7033,104 +7031,102 @@ define amdgpu_kernel void @constant_sextload_v16i16_to_v16i64(ptr addrspace(1) %
 ; GCN-HSA:       ; %bb.0:
 ; GCN-HSA-NEXT:    s_load_dwordx4 s[0:3], s[8:9], 0x0
 ; GCN-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-HSA-NEXT:    s_load_dwordx8 s[8:15], s[2:3], 0x0
+; GCN-HSA-NEXT:    s_load_dwordx8 s[12:19], s[2:3], 0x0
 ; GCN-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-HSA-NEXT:    s_mov_b32 s16, s15
-; GCN-HSA-NEXT:    s_mov_b32 s18, s13
-; GCN-HSA-NEXT:    s_mov_b32 s20, s11
-; GCN-HSA-NEXT:    s_mov_b32 s22, s9
-; GCN-HSA-NEXT:    s_lshr_b32 s24, s14, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s26, s12, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s28, s10, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s4, s8, 16
-; GCN-HSA-NEXT:    s_bfe_i64 s[2:3], s[8:9], 0x100000
-; GCN-HSA-NEXT:    s_bfe_i64 s[6:7], s[10:11], 0x100000
-; GCN-HSA-NEXT:    s_bfe_i64 s[30:31], s[12:13], 0x100000
-; GCN-HSA-NEXT:    s_bfe_i64 s[34:35], s[14:15], 0x100000
-; GCN-HSA-NEXT:    s_ashr_i64 s[8:9], s[8:9], 48
-; GCN-HSA-NEXT:    s_ashr_i64 s[10:11], s[10:11], 48
+; GCN-HSA-NEXT:    s_mov_b32 s6, s19
+; GCN-HSA-NEXT:    s_mov_b32 s10, s17
+; GCN-HSA-NEXT:    s_mov_b32 s20, s15
+; GCN-HSA-NEXT:    s_mov_b32 s22, s13
+; GCN-HSA-NEXT:    s_lshr_b32 s24, s18, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s26, s16, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s28, s14, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s30, s12, 16
+; GCN-HSA-NEXT:    s_bfe_i64 s[34:35], s[18:19], 0x100000
+; GCN-HSA-NEXT:    s_ashr_i64 s[18:19], s[18:19], 48
+; GCN-HSA-NEXT:    s_bfe_i64 s[6:7], s[6:7], 0x100000
+; GCN-HSA-NEXT:    s_bfe_i64 s[2:3], s[12:13], 0x100000
+; GCN-HSA-NEXT:    s_bfe_i64 s[4:5], s[14:15], 0x100000
+; GCN-HSA-NEXT:    s_bfe_i64 s[8:9], s[16:17], 0x100000
 ; GCN-HSA-NEXT:    s_ashr_i64 s[12:13], s[12:13], 48
 ; GCN-HSA-NEXT:    s_ashr_i64 s[14:15], s[14:15], 48
-; GCN-HSA-NEXT:    s_bfe_i64 s[4:5], s[4:5], 0x100000
-; GCN-HSA-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x100000
+; GCN-HSA-NEXT:    s_ashr_i64 s[16:17], s[16:17], 48
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s6
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s7
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s18
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s19
+; GCN-HSA-NEXT:    s_bfe_i64 s[6:7], s[30:31], 0x100000
+; GCN-HSA-NEXT:    s_bfe_i64 s[18:19], s[28:29], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x100000
-; GCN-HSA-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x100000
-; GCN-HSA-NEXT:    s_bfe_i64 s[16:17], s[16:17], 0x100000
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s14
-; GCN-HSA-NEXT:    s_add_u32 s14, s0, 0x70
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s15
-; GCN-HSA-NEXT:    s_addc_u32 s15, s1, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s14
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s16
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s17
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s15
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    s_nop 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s12
-; GCN-HSA-NEXT:    s_add_u32 s12, s0, 0x50
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s13
-; GCN-HSA-NEXT:    s_addc_u32 s13, s1, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s12
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s18
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s19
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s13
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    s_nop 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s10
+; GCN-HSA-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x100000
+; GCN-HSA-NEXT:    s_add_u32 s28, s0, 0x70
+; GCN-HSA-NEXT:    s_addc_u32 s29, s1, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s10
+; GCN-HSA-NEXT:    s_add_u32 s10, s0, 0x50
+; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s28
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s11
+; GCN-HSA-NEXT:    s_addc_u32 s11, s1, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s10
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s29
+; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s11
 ; GCN-HSA-NEXT:    s_add_u32 s10, s0, 48
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s11
+; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s16
+; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s17
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
 ; GCN-HSA-NEXT:    s_addc_u32 s11, s1, 0
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s10
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s20
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s21
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s14
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s15
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s11
+; GCN-HSA-NEXT:    s_add_u32 s10, s0, 16
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    s_nop 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s8
-; GCN-HSA-NEXT:    s_add_u32 s8, s0, 16
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s9
-; GCN-HSA-NEXT:    s_addc_u32 s9, s1, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s8
+; GCN-HSA-NEXT:    s_addc_u32 s11, s1, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s10
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s22
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s23
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s9
-; GCN-HSA-NEXT:    s_add_u32 s8, s0, 0x60
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s12
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s13
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s11
+; GCN-HSA-NEXT:    s_add_u32 s10, s0, 0x60
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    s_addc_u32 s9, s1, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s8
+; GCN-HSA-NEXT:    s_addc_u32 s11, s1, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s10
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s34
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s35
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s24
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s25
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s9
-; GCN-HSA-NEXT:    s_add_u32 s8, s0, 64
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s11
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GCN-HSA-NEXT:    s_nop 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s8
+; GCN-HSA-NEXT:    s_add_u32 s8, s0, 64
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s9
 ; GCN-HSA-NEXT:    s_addc_u32 s9, s1, 0
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s8
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s30
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s31
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s26
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s27
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s9
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-HSA-NEXT:    s_nop 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s6
-; GCN-HSA-NEXT:    s_add_u32 s6, s0, 32
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s7
-; GCN-HSA-NEXT:    s_addc_u32 s7, s1, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s6
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s28
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s29
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s4
+; GCN-HSA-NEXT:    s_add_u32 s4, s0, 32
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s5
+; GCN-HSA-NEXT:    s_addc_u32 s5, s1, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s18
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s19
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s1
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s2
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s4
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s5
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s6
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s7
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s0
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-HSA-NEXT:    s_endpgm
@@ -7403,106 +7399,108 @@ define amdgpu_kernel void @constant_zextload_v32i16_to_v32i64(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    s_load_dwordx4 s[16:19], s[4:5], 0x9
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt lgkmcnt(0)
 ; GCN-NOHSA-SI-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s19, 0xf000
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, 0
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s18, -1
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, v1
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s20, s1, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s21, s3, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s22, s5, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s23, s7, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s24, s9, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s25, s11, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s26, s13, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s27, s15, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s28, s14, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s29, s12, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s30, s10, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s31, s8, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s33, s6, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s34, s4, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s35, s2, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s36, s0, 16
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s0, s0, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s2, s2, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s18, s1, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s19, s3, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s20, s5, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s21, s7, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s22, s9, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s23, s11, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s24, s13, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s25, s15, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s26, s14, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s27, s12, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s28, s10, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s29, s8, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s30, s6, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s31, s4, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s33, s2, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s34, s0, 16
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s35, s0, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s36, s2, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s4, s4, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s6, s6, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s8, s8, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s10, s10, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s12, s12, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s14, s14, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s1, s1, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s3, s3, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s37, s1, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s38, s3, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s5, s5, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s7, s7, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s9, s9, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s11, s11, 0xffff
-; GCN-NOHSA-SI-NEXT:    s_and_b32 s15, s15, 0xffff
 ; GCN-NOHSA-SI-NEXT:    s_and_b32 s13, s13, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_and_b32 s15, s15, 0xffff
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s3, 0xf000
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, 0
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s2, -1
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, v1
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s0, s16
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s1, s17
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s15
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s27
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:240
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s25
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s13
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s26
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:208
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s24
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:208
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s11
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s25
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:176
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s23
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:176
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s9
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s24
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:144
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s22
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:144
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s7
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s23
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:112
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s21
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:112
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s5
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s22
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:80
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s20
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:80
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s3
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s21
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:48
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s38
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s19
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s1
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s20
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:16
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s37
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s18
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s14
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s28
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:224
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s26
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s12
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s29
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:192
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s27
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:192
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s10
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s30
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:160
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s28
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:160
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s8
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s31
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:128
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s29
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:128
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s6
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s33
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:96
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s30
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:96
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s4
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s34
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:64
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s31
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s2
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s35
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:32
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s36
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s33
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:32
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s0
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s36
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s35
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s34
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
 ; GCN-NOHSA-SI-NEXT:    s_endpgm
 ;
 ; GCN-HSA-LABEL: constant_zextload_v32i16_to_v32i64:
@@ -7513,141 +7511,142 @@ define amdgpu_kernel void @constant_zextload_v32i16_to_v32i64(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GCN-HSA-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
 ; GCN-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-HSA-NEXT:    s_lshr_b32 s19, s1, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s20, s3, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s21, s5, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s22, s7, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s23, s9, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s24, s11, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s25, s13, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s26, s15, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s27, s14, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s28, s12, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s29, s10, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s30, s8, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s31, s6, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s33, s4, 16
-; GCN-HSA-NEXT:    s_lshr_b32 s34, s2, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s20, s1, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s21, s3, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s22, s5, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s23, s7, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s24, s9, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s25, s11, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s26, s13, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s27, s15, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s28, s14, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s29, s12, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s30, s10, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s31, s8, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s33, s6, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s34, s4, 16
+; GCN-HSA-NEXT:    s_lshr_b32 s19, s2, 16
 ; GCN-HSA-NEXT:    s_lshr_b32 s18, s0, 16
 ; GCN-HSA-NEXT:    s_and_b32 s0, s0, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s35, s2, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s4, s4, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s2, s2, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s35, s4, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s6, s6, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s8, s8, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s10, s10, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s12, s12, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s14, s14, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s1, s1, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s36, s3, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s5, s5, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s3, s3, 0xffff
+; GCN-HSA-NEXT:    s_and_b32 s36, s5, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s7, s7, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s9, s9, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s11, s11, 0xffff
 ; GCN-HSA-NEXT:    s_and_b32 s13, s13, 0xffff
-; GCN-HSA-NEXT:    s_and_b32 s2, s15, 0xffff
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xf0
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xd0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s26
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    s_and_b32 s15, s15, 0xffff
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0xf0
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0xd0
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s5
+; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s4
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0xb0
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s5
+; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s4
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0x90
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s15
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s27
+; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s5
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xb0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s4
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s13
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s25
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0x90
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s26
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[6:7], v[0:3]
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0x70
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s11
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s24
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0x70
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s25
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s9
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s24
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[0:3]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s7
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s23
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0x50
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0x50
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s7
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s36
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s22
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 48
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 48
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s5
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s3
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s21
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 16
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s36
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s20
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 16
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xe0
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s1
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s19
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s20
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0xe0
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xc0
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s14
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s27
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0xa0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s12
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s28
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0xc0
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0x80
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s10
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s12
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s29
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0xa0
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 0x60
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s8
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s10
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s30
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0x80
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 64
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s6
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s8
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s31
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 0x60
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-HSA-NEXT:    s_add_u32 s2, s16, 32
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s4
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s6
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s33
-; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    s_add_u32 s4, s16, 64
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
+; GCN-HSA-NEXT:    s_addc_u32 s5, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s4
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s35
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s34
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GCN-HSA-NEXT:    s_nop 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s2
+; GCN-HSA-NEXT:    s_add_u32 s2, s16, 32
+; GCN-HSA-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s3
+; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s19
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s2
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s16
@@ -8091,144 +8090,140 @@ define amdgpu_kernel void @constant_sextload_v32i16_to_v32i64(ptr addrspace(1) %
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt lgkmcnt(0)
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s18, s15
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s20, s13
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s22, s11
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s30, s9
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s28, s7
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s36, s5
-; GCN-NOHSA-SI-NEXT:    s_mov_b32 s40, s3
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s50, s11
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s52, s9
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s56, s7
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s54, s5
+; GCN-NOHSA-SI-NEXT:    s_mov_b32 s42, s3
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s44, s1
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s24, s14, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s26, s12, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s26, s14, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s30, s12, 16
 ; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s34, s10, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s38, s8, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s42, s6, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s46, s4, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s48, s2, 16
-; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s52, s0, 16
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[62:63], s[20:21], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[64:65], s[18:19], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[66:67], s[30:31], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[68:69], s[22:23], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s36, s8, 16
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[68:69], s[20:21], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[70:71], s[18:19], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s60, s6, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s62, s4, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s64, s2, 16
+; GCN-NOHSA-SI-NEXT:    s_lshr_b32 s66, s0, 16
 ; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[18:19], s[0:1], 0x100000
 ; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[20:21], s[2:3], 0x100000
 ; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[22:23], s[4:5], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[30:31], s[6:7], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[50:51], s[8:9], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[54:55], s[10:11], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[56:57], s[12:13], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[58:59], s[14:15], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[60:61], s[0:1], 48
-; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[70:71], s[2:3], 48
-; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[72:73], s[4:5], 48
-; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[2:3], s[8:9], 48
-; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[4:5], s[12:13], 48
-; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[8:9], s[14:15], 48
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[24:25], s[6:7], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[28:29], s[8:9], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[38:39], s[10:11], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[40:41], s[12:13], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[46:47], s[14:15], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[48:49], s[0:1], 48
+; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[58:59], s[2:3], 48
+; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[6:7], s[6:7], 48
+; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[8:9], s[8:9], 48
 ; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[10:11], s[10:11], 48
-; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[74:75], s[6:7], 48
+; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[2:3], s[12:13], 48
+; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[12:13], s[14:15], 48
+; GCN-NOHSA-SI-NEXT:    s_ashr_i64 s[4:5], s[4:5], 48
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s0, s16
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s1, s17
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s64
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s65
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s8
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s9
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v4, s62
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v5, s63
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v6, s4
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v7, s5
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v8, s68
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v9, s69
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v10, s10
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v11, s11
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v12, s66
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v13, s67
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v14, s2
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v15, s3
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s70
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s71
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s12
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s13
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v4, s68
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v5, s69
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v6, s2
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v7, s3
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s3, 0xf000
 ; GCN-NOHSA-SI-NEXT:    s_mov_b32 s2, -1
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[12:13], s[56:57], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[14:15], s[52:53], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[16:17], s[50:51], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[50:51], s[54:55], 0x100000
 ; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[4:5], s[52:53], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[6:7], s[48:49], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[8:9], s[46:47], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[10:11], s[42:43], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[12:13], s[38:39], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[14:15], s[34:35], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[16:17], s[26:27], 0x100000
-; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x100000
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v8, s16
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v9, s17
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v10, s10
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v11, s11
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v12, s14
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v13, s15
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v14, s8
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v15, s9
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v16, s12
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v17, s13
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v18, s6
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v19, s7
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v20, s50
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v21, s51
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v22, s4
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v23, s5
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:208
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[4:5], s[66:67], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[6:7], s[64:65], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[8:9], s[62:63], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[10:11], s[60:61], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[12:13], s[36:37], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[14:15], s[34:35], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[16:17], s[30:31], 0x100000
+; GCN-NOHSA-SI-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x100000
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:176
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:144
-; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(3)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s28
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s29
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s74
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s75
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:112
-; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s36
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s37
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s72
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s73
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:80
-; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s40
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s41
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s70
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s71
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:112
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:80
+; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(5)
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s42
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s43
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s58
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s59
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s44
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s45
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s60
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s61
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s48
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s49
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s58
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s59
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v4, s56
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v5, s57
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v8, s54
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v9, s55
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v12, s50
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v13, s51
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v16, s30
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v17, s31
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s24
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s25
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s46
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s47
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v4, s40
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v5, s41
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v8, s38
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v9, s39
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v12, s28
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v13, s29
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v16, s24
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v17, s25
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v20, s22
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v21, s23
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v24, s20
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v25, s21
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s26
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s27
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:224
 ; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s22
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s23
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v0, s18
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v1, s19
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v6, s16
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v7, s17
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:192
-; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v4, s20
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v5, s21
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v10, s14
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v11, s15
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:160
-; GCN-NOHSA-SI-NEXT:    s_waitcnt expcnt(0)
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v8, s18
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v9, s19
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v14, s12
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v15, s13
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:128
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v18, s10
 ; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v19, s11
 ; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:96
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s8
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s9
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v6, s6
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v7, s7
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:32
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v10, s4
-; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v11, s5
-; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v22, s8
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v23, s9
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:64
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v26, s6
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v27, s7
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:32
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v2, s4
+; GCN-NOHSA-SI-NEXT:    v_mov_b32_e32 v3, s5
+; GCN-NOHSA-SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
 ; GCN-NOHSA-SI-NEXT:    s_endpgm
 ;
 ; GCN-HSA-LABEL: constant_sextload_v32i16_to_v32i64:
@@ -8237,13 +8232,13 @@ define amdgpu_kernel void @constant_sextload_v32i16_to_v32i64(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GCN-HSA-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
 ; GCN-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-HSA-NEXT:    s_mov_b32 s42, s15
+; GCN-HSA-NEXT:    s_mov_b32 s40, s15
 ; GCN-HSA-NEXT:    s_mov_b32 s48, s13
 ; GCN-HSA-NEXT:    s_mov_b32 s50, s11
 ; GCN-HSA-NEXT:    s_mov_b32 s52, s9
 ; GCN-HSA-NEXT:    s_mov_b32 s54, s7
 ; GCN-HSA-NEXT:    s_mov_b32 s56, s5
-; GCN-HSA-NEXT:    s_mov_b32 s46, s3
+; GCN-HSA-NEXT:    s_mov_b32 s44, s3
 ; GCN-HSA-NEXT:    s_mov_b32 s58, s1
 ; GCN-HSA-NEXT:    s_lshr_b32 s60, s14, 16
 ; GCN-HSA-NEXT:    s_lshr_b32 s62, s12, 16
@@ -8258,15 +8253,15 @@ define amdgpu_kernel void @constant_sextload_v32i16_to_v32i64(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_ashr_i64 s[36:37], s[0:1], 48
 ; GCN-HSA-NEXT:    s_ashr_i64 s[38:39], s[2:3], 48
 ; GCN-HSA-NEXT:    s_ashr_i64 s[0:1], s[14:15], 48
-; GCN-HSA-NEXT:    s_bfe_i64 s[2:3], s[42:43], 0x100000
+; GCN-HSA-NEXT:    s_bfe_i64 s[2:3], s[40:41], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[22:23], s[4:5], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[24:25], s[6:7], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[26:27], s[8:9], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[28:29], s[10:11], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[30:31], s[12:13], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[34:35], s[14:15], 0x100000
-; GCN-HSA-NEXT:    s_ashr_i64 s[40:41], s[4:5], 48
-; GCN-HSA-NEXT:    s_ashr_i64 s[44:45], s[6:7], 48
+; GCN-HSA-NEXT:    s_ashr_i64 s[42:43], s[4:5], 48
+; GCN-HSA-NEXT:    s_ashr_i64 s[46:47], s[6:7], 48
 ; GCN-HSA-NEXT:    s_ashr_i64 s[76:77], s[8:9], 48
 ; GCN-HSA-NEXT:    s_ashr_i64 s[78:79], s[10:11], 48
 ; GCN-HSA-NEXT:    s_ashr_i64 s[80:81], s[12:13], 48
@@ -8282,8 +8277,8 @@ define amdgpu_kernel void @constant_sextload_v32i16_to_v32i64(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    s_bfe_i64 s[10:11], s[64:65], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[12:13], s[62:63], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[14:15], s[60:61], 0x100000
-; GCN-HSA-NEXT:    s_bfe_i64 s[42:43], s[58:59], 0x100000
-; GCN-HSA-NEXT:    s_bfe_i64 s[46:47], s[46:47], 0x100000
+; GCN-HSA-NEXT:    s_bfe_i64 s[40:41], s[58:59], 0x100000
+; GCN-HSA-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[56:57], s[56:57], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[54:55], s[54:55], 0x100000
 ; GCN-HSA-NEXT:    s_bfe_i64 s[52:53], s[52:53], 0x100000
@@ -8299,84 +8294,82 @@ define amdgpu_kernel void @constant_sextload_v32i16_to_v32i64(ptr addrspace(1) %
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v25, s49
 ; GCN-HSA-NEXT:    s_add_u32 s48, s16, 0xb0
 ; GCN-HSA-NEXT:    s_addc_u32 s49, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v26, s48
-; GCN-HSA-NEXT:    v_mov_b32_e32 v27, s49
-; GCN-HSA-NEXT:    s_add_u32 s48, s16, 0x90
-; GCN-HSA-NEXT:    s_addc_u32 s49, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v18, s44
-; GCN-HSA-NEXT:    s_add_u32 s44, s16, 0x70
-; GCN-HSA-NEXT:    v_mov_b32_e32 v19, s45
-; GCN-HSA-NEXT:    s_addc_u32 s45, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v30, s44
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s58
-; GCN-HSA-NEXT:    v_mov_b32_e32 v31, s45
-; GCN-HSA-NEXT:    s_add_u32 s44, s16, 0x50
+; GCN-HSA-NEXT:    v_mov_b32_e32 v18, s46
+; GCN-HSA-NEXT:    s_add_u32 s46, s16, 0x90
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s59
-; GCN-HSA-NEXT:    s_addc_u32 s45, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v19, s47
+; GCN-HSA-NEXT:    s_addc_u32 s47, s17, 0
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[22:23], v[0:3]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s42
+; GCN-HSA-NEXT:    s_add_u32 s42, s16, 0x70
+; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s43
+; GCN-HSA-NEXT:    s_addc_u32 s43, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v30, s42
+; GCN-HSA-NEXT:    v_mov_b32_e32 v31, s43
+; GCN-HSA-NEXT:    s_add_u32 s42, s16, 0x50
+; GCN-HSA-NEXT:    s_addc_u32 s43, s17, 0
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s80
+; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s81
+; GCN-HSA-NEXT:    v_mov_b32_e32 v26, s48
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s38
 ; GCN-HSA-NEXT:    s_add_u32 s38, s16, 48
-; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s81
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s39
-; GCN-HSA-NEXT:    s_addc_u32 s39, s17, 0
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s50
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s51
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s78
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s79
-; GCN-HSA-NEXT:    v_mov_b32_e32 v28, s48
+; GCN-HSA-NEXT:    v_mov_b32_e32 v27, s49
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[4:7]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v12, s52
-; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s36
-; GCN-HSA-NEXT:    s_add_u32 s36, s16, 16
-; GCN-HSA-NEXT:    v_mov_b32_e32 v13, s53
-; GCN-HSA-NEXT:    v_mov_b32_e32 v14, s76
-; GCN-HSA-NEXT:    v_mov_b32_e32 v15, s77
-; GCN-HSA-NEXT:    v_mov_b32_e32 v29, s49
-; GCN-HSA-NEXT:    v_mov_b32_e32 v16, s54
-; GCN-HSA-NEXT:    v_mov_b32_e32 v17, s55
-; GCN-HSA-NEXT:    v_mov_b32_e32 v32, s44
 ; GCN-HSA-NEXT:    flat_store_dwordx4 v[26:27], v[8:11]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s37
-; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s38
-; GCN-HSA-NEXT:    s_addc_u32 s37, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s36
+; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s39
+; GCN-HSA-NEXT:    s_addc_u32 s39, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v24, s38
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s42
+; GCN-HSA-NEXT:    v_mov_b32_e32 v25, s39
+; GCN-HSA-NEXT:    s_add_u32 s38, s16, 16
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v20, s56
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v21, s57
-; GCN-HSA-NEXT:    v_mov_b32_e32 v33, s45
-; GCN-HSA-NEXT:    v_mov_b32_e32 v22, s40
-; GCN-HSA-NEXT:    v_mov_b32_e32 v23, s41
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s46
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s47
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s42
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s43
-; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s39
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[28:29], v[12:15]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s37
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[30:31], v[16:19]
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[32:33], v[20:23]
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s14
+; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s43
+; GCN-HSA-NEXT:    s_addc_u32 s39, s17, 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v28, s46
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[20:23]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v10, s14
 ; GCN-HSA-NEXT:    s_add_u32 s14, s16, 0xe0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s15
+; GCN-HSA-NEXT:    v_mov_b32_e32 v12, s52
+; GCN-HSA-NEXT:    v_mov_b32_e32 v13, s53
+; GCN-HSA-NEXT:    v_mov_b32_e32 v14, s76
+; GCN-HSA-NEXT:    v_mov_b32_e32 v15, s77
+; GCN-HSA-NEXT:    v_mov_b32_e32 v29, s47
+; GCN-HSA-NEXT:    v_mov_b32_e32 v11, s15
 ; GCN-HSA-NEXT:    s_addc_u32 s15, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s14
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s34
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s35
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s15
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    s_nop 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s12
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[28:29], v[12:15]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v16, s54
+; GCN-HSA-NEXT:    v_mov_b32_e32 v14, s12
 ; GCN-HSA-NEXT:    s_add_u32 s12, s16, 0xc0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s13
+; GCN-HSA-NEXT:    v_mov_b32_e32 v17, s55
+; GCN-HSA-NEXT:    v_mov_b32_e32 v15, s13
 ; GCN-HSA-NEXT:    s_addc_u32 s13, s17, 0
-; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s12
-; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s30
-; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s31
-; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s13
-; GCN-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-HSA-NEXT:    s_nop 0
+; GCN-HSA-NEXT:    v_mov_b32_e32 v0, s44
+; GCN-HSA-NEXT:    v_mov_b32_e32 v1, s45
+; GCN-HSA-NEXT:    v_mov_b32_e32 v26, s38
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[30:31], v[16:19]
+; GCN-HSA-NEXT:    v_mov_b32_e32 v4, s40
+; GCN-HSA-NEXT:    v_mov_b32_e32 v17, s15
+; GCN-HSA-NEXT:    v_mov_b32_e32 v19, s13
+; GCN-HSA-NEXT:    v_mov_b32_e32 v5, s41
+; GCN-HSA-NEXT:    v_mov_b32_e32 v27, s39
+; GCN-HSA-NEXT:    v_mov_b32_e32 v6, s36
+; GCN-HSA-NEXT:    v_mov_b32_e32 v7, s37
+; GCN-HSA-NEXT:    v_mov_b32_e32 v8, s34
+; GCN-HSA-NEXT:    v_mov_b32_e32 v9, s35
+; GCN-HSA-NEXT:    v_mov_b32_e32 v12, s30
+; GCN-HSA-NEXT:    v_mov_b32_e32 v13, s31
+; GCN-HSA-NEXT:    v_mov_b32_e32 v16, s14
+; GCN-HSA-NEXT:    v_mov_b32_e32 v18, s12
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[0:3]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[26:27], v[4:7]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[16:17], v[8:11]
+; GCN-HSA-NEXT:    flat_store_dwordx4 v[18:19], v[12:15]
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v2, s10
 ; GCN-HSA-NEXT:    s_add_u32 s10, s16, 0xa0
 ; GCN-HSA-NEXT:    v_mov_b32_e32 v3, s11
@@ -8441,208 +8434,211 @@ define amdgpu_kernel void @constant_sextload_v32i16_to_v32i64(ptr addrspace(1) %
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt lgkmcnt(0)
 ; GCN-NOHSA-VI-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
 ; GCN-NOHSA-VI-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-NOHSA-VI-NEXT:    s_mov_b32 s20, s1
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s26, s1, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[24:25], s[2:3], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s2, s2, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[30:31], s[4:5], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s4, s4, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[38:39], s[6:7], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s6, s6, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[44:45], s[8:9], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s8, s8, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[50:51], s[10:11], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s10, s10, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[56:57], s[12:13], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s12, s12, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[62:63], s[14:15], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s14, s14, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[22:23], s[20:21], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[20:21], s[26:27], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[26:27], s[2:3], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_mov_b32 s2, s3
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[34:35], s[4:5], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_mov_b32 s4, s5
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[40:41], s[6:7], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_mov_b32 s6, s7
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[46:47], s[8:9], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_mov_b32 s8, s9
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[52:53], s[10:11], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_mov_b32 s10, s11
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[58:59], s[12:13], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_mov_b32 s12, s13
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[64:65], s[14:15], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_mov_b32 s14, s15
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s22, s0, 16
+; GCN-NOHSA-VI-NEXT:    s_mov_b32 s26, s1
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s28, s1, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s30, s2, 16
+; GCN-NOHSA-VI-NEXT:    s_mov_b32 s34, s3
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s36, s3, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s40, s4, 16
+; GCN-NOHSA-VI-NEXT:    s_mov_b32 s42, s5
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s44, s5, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s46, s6, 16
+; GCN-NOHSA-VI-NEXT:    s_mov_b32 s48, s7
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s50, s7, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s52, s8, 16
+; GCN-NOHSA-VI-NEXT:    s_mov_b32 s54, s9
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s56, s9, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s58, s10, 16
+; GCN-NOHSA-VI-NEXT:    s_mov_b32 s60, s11
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s62, s11, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s66, s12, 16
+; GCN-NOHSA-VI-NEXT:    s_mov_b32 s68, s13
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s70, s13, 16
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s74, s14, 16
+; GCN-NOHSA-VI-NEXT:    s_mov_b32 s76, s15
+; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s78, s15, 16
 ; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[18:19], s[0:1], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s0, s0, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[28:29], s[2:3], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s2, s3, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[36:37], s[4:5], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s4, s5, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[42:43], s[6:7], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s6, s7, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[48:49], s[8:9], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s8, s9, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[54:55], s[10:11], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s10, s11, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[60:61], s[12:13], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s12, s13, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[66:67], s[14:15], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_lshr_b32 s14, s15, 16
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[0:1], s[0:1], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[2:3], s[2:3], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[4:5], s[4:5], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[6:7], s[6:7], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[8:9], s[8:9], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x100000
-; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[14:15], s[14:15], 0x100000
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s14
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s14, s16, 0xf0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s15
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s15, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s14
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s66
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s67
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s15
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s14, s16, 0xe0
-; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s15, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s14
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s62
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s63
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s64
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s65
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s15
-; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s12
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s12, s16, 0xd0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s13
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s13, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s12
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[0:1], s[2:3], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[2:3], s[4:5], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[20:21], s[6:7], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[24:25], s[8:9], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[38:39], s[10:11], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[64:65], s[12:13], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[72:73], s[14:15], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[4:5], s[22:23], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[8:9], s[26:27], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[6:7], s[28:29], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[10:11], s[30:31], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[14:15], s[34:35], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[12:13], s[36:37], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[22:23], s[40:41], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[28:29], s[42:43], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[26:27], s[44:45], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[30:31], s[46:47], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[36:37], s[48:49], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[34:35], s[50:51], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[40:41], s[52:53], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[44:45], s[54:55], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[42:43], s[56:57], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[46:47], s[58:59], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[48:49], s[60:61], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[50:51], s[62:63], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[52:53], s[66:67], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[54:55], s[68:69], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[56:57], s[70:71], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[58:59], s[74:75], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[60:61], s[76:77], 0x100000
+; GCN-NOHSA-VI-NEXT:    s_bfe_i64 s[62:63], s[78:79], 0x100000
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s60
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s60, s16, 0xf0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s61
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s13
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s12, s16, 0xc0
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s61, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s60
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s62
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s63
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s61
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s13, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s12
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s56
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s57
+; GCN-NOHSA-VI-NEXT:    s_nop 0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s58
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s58, s16, 0xe0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s59
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s13
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s59, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s58
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s72
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s73
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s59
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s10
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s16, 0xb0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s11
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s54
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s54, s16, 0xd0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s55
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s10, s16, 0xa0
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s55, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s54
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s56
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s57
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s55
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s11, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s10
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s50
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s51
+; GCN-NOHSA-VI-NEXT:    s_nop 0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s52
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s52, s16, 0xc0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s53
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s11
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s53, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s52
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s64
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s65
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s53
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s8
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s8, s16, 0x90
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s9
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s9, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s8
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s48
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s48, s16, 0xb0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s49
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s9
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s8, s16, 0x80
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s49, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s48
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s50
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s51
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s49
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s9, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s8
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s44
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s45
+; GCN-NOHSA-VI-NEXT:    s_nop 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s38
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s38, s16, 0xa0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s39
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s39, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s38
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s46
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s47
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s9
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s39
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s38, s16, 0x90
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s6
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s6, s16, 0x70
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s7
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s7, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s6
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s42
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s43
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s7
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s6, s16, 0x60
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s39, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s38
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s44
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s45
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s42
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s43
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s39
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s7, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s6
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s38
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s39
+; GCN-NOHSA-VI-NEXT:    s_nop 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s24
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s24, s16, 0x80
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s25
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s25, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s24
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s40
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s41
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s7
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s25
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s24, s16, 0x70
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s4
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s4, s16, 0x50
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s5
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s5, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s4
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s25, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s24
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s36
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s37
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s5
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s4, s16, 64
-; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s5, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s4
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s30
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s31
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s34
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s35
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s5
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s25
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-NOHSA-VI-NEXT:    s_nop 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s2
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s2, s16, 48
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s3
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s3, s17, 0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s2, s16, 32
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s20
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s20, s16, 0x60
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s21
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s21, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s20
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s30
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s31
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s21
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s20, s16, 0x50
+; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s21, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s20
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s28
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s29
-; GCN-NOHSA-VI-NEXT:    s_addc_u32 s3, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s26
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s27
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s21
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GCN-NOHSA-VI-NEXT:    s_nop 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s2
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s2, s16, 64
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s3
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s3, s17, 0
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s3
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s2
-; GCN-NOHSA-VI-NEXT:    s_add_u32 s2, s16, 16
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s24
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s25
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s26
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s27
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s2, s16, 48
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s22
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s23
 ; GCN-NOHSA-VI-NEXT:    s_addc_u32 s3, s17, 0
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s3
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s22
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s23
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s20
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s21
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s14
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s15
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s12
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s13
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s2
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GCN-NOHSA-VI-NEXT:    s_nop 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s16, 32
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s1
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s17, 0
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    s_add_u32 s0, s16, 16
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s10
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s11
+; GCN-NOHSA-VI-NEXT:    s_addc_u32 s1, s17, 0
+; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s8
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s9
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s6
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s7
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s0
+; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v4, s16
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v0, s18
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v1, s19
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s0
-; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s1
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v2, s4
+; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v3, s5
 ; GCN-NOHSA-VI-NEXT:    v_mov_b32_e32 v5, s17
 ; GCN-NOHSA-VI-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-NOHSA-VI-NEXT:    s_endpgm
diff --git a/llvm/test/CodeGen/AMDGPU/load-constant-i32.ll b/llvm/test/CodeGen/AMDGPU/load-constant-i32.ll
index 6eeaec12c3d14..341332e60b5c0 100644
--- a/llvm/test/CodeGen/AMDGPU/load-constant-i32.ll
+++ b/llvm/test/CodeGen/AMDGPU/load-constant-i32.ll
@@ -2713,37 +2713,39 @@ define amdgpu_kernel void @constant_sextload_v16i32_to_v16i64(ptr addrspace(1) %
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s9
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s6
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s7
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v20, s4
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v22, s5
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v24, s2
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v26, s3
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s35
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s34
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:112
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s0
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s1
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s4
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s5
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s36
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s33
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[16:19], 0 offset:96
+; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s2
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s3
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s31
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s30
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[16:19], 0 offset:80
+; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s0
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s1
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s29
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s28
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[16:19], 0 offset:64
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s27
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s26
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[16:19], off, s[16:19], 0 offset:48
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v21, s25
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v23, s24
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[20:23], off, s[16:19], 0 offset:32
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v25, s23
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v27, s22
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[24:27], off, s[16:19], 0 offset:16
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s21
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s20
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s25
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s24
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[16:19], 0 offset:32
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s23
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s22
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[16:19], 0 offset:16
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s21
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s20
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[16:19], 0
 ; GFX6-NOHSA-NEXT:    s_endpgm
 ;
 ; GFX7-HSA-LABEL: constant_sextload_v16i32_to_v16i64:
@@ -2752,97 +2754,91 @@ define amdgpu_kernel void @constant_sextload_v16i32_to_v16i64(ptr addrspace(1) %
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX7-HSA-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX7-HSA-NEXT:    s_ashr_i32 s18, s1, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s19, s0, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s20, s3, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s21, s2, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s22, s5, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s23, s4, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s24, s7, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s25, s6, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s26, s9, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s27, s8, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s28, s11, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s29, s10, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s30, s13, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s31, s12, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s33, s15, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s34, s14, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s20, s1, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s21, s0, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s22, s3, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s23, s2, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s24, s5, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s25, s4, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s26, s7, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s27, s6, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s28, s9, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s29, s8, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s30, s11, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s31, s10, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s33, s13, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s34, s12, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s35, s15, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s36, s14, 31
+; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0x70
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s19
+; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0x60
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s19
+; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0x50
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s14
-; GFX7-HSA-NEXT:    s_add_u32 s14, s16, 0x70
+; GFX7-HSA-NEXT:    s_add_u32 s14, s16, 64
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s36
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s35
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s15
 ; GFX7-HSA-NEXT:    s_addc_u32 s15, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s14
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s34
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s33
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s15
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s12
-; GFX7-HSA-NEXT:    s_add_u32 s12, s16, 0x60
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s13
-; GFX7-HSA-NEXT:    s_addc_u32 s13, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s12
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s31
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s30
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s34
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s33
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[13:14], v[0:3]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s13
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s10
-; GFX7-HSA-NEXT:    s_add_u32 s10, s16, 0x50
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s11
-; GFX7-HSA-NEXT:    s_addc_u32 s11, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s29
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s28
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s11
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s8
-; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 64
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s9
-; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s8
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s27
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s26
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s9
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s12
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s6
 ; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 48
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[15:16], v[3:6]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s7
 ; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s25
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s24
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s27
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s26
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s18
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s4
 ; GFX7-HSA-NEXT:    s_add_u32 s4, s16, 32
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s5
 ; GFX7-HSA-NEXT:    s_addc_u32 s5, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s23
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s22
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s25
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s24
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s19
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s16, 16
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s3
 ; GFX7-HSA-NEXT:    s_addc_u32 s3, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s21
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s20
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s23
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s22
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s31
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s30
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s15
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s11
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s16
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s29
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s28
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s14
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[17:18], v[6:9]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s8
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s21
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s1
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s20
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s17
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[19:20], v[9:12]
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_endpgm
 ;
@@ -3500,137 +3496,135 @@ define amdgpu_kernel void @constant_zextload_v16i32_to_v16i64(ptr addrspace(1) %
 define amdgpu_kernel void @constant_sextload_v32i32_to_v32i64(ptr addrspace(1) %out, ptr addrspace(4) %in) #0 {
 ; GFX6-NOHSA-LABEL: constant_sextload_v32i32_to_v32i64:
 ; GFX6-NOHSA:       ; %bb.0:
-; GFX6-NOHSA-NEXT:    s_load_dwordx4 s[16:19], s[4:5], 0x9
+; GFX6-NOHSA-NEXT:    s_load_dwordx4 s[0:3], s[4:5], 0x9
 ; GFX6-NOHSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX6-NOHSA-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
+; GFX6-NOHSA-NEXT:    s_load_dwordx16 s[16:31], s[2:3], 0x10
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s39, 0xf000
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s38, -1
-; GFX6-NOHSA-NEXT:    s_mov_b32 s36, s16
-; GFX6-NOHSA-NEXT:    s_mov_b32 s37, s17
-; GFX6-NOHSA-NEXT:    s_load_dwordx16 s[16:31], s[18:19], 0x10
+; GFX6-NOHSA-NEXT:    s_mov_b32 s36, s0
+; GFX6-NOHSA-NEXT:    s_mov_b32 s37, s1
+; GFX6-NOHSA-NEXT:    s_load_dwordx16 s[0:15], s[2:3], 0x0
 ; GFX6-NOHSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s33, s1, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s34, s0, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s35, s3, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s40, s2, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s41, s5, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s42, s4, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s43, s7, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s44, s6, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s45, s17, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s46, s16, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s47, s19, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s48, s18, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s49, s21, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s50, s20, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s51, s23, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s52, s30, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s53, s31, 31
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s52
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s52, s28, 31
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s53
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s53, s29, 31
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s52
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s52, s26, 31
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s53
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s53, s27, 31
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s52
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s52, s22, 31
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s53
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s53, s25, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s33, s17, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s34, s16, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s35, s19, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s40, s18, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s41, s21, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s42, s20, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s43, s30, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s44, s31, 31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s43
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s43, s28, 31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s44
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s44, s29, 31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s43
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s43, s23, 31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s44
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s44, s22, 31
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s30
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s31
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s28
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s29
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s26
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s27
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s24
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s25
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s22
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s23
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[36:39], 0 offset:240
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s20
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s21
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[36:39], 0 offset:224
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s18
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v20, s16
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s16, s25, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s18, s27, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s20, s26, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s22, s24, 31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s27
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s25
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s23
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s21
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s19
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v22, s17
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s20
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s18
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[36:39], 0 offset:208
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s16
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s17
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s16, s24, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s17, s9, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s18, s8, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s19, s11, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s20, s10, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s21, s13, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s22, s12, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s23, s15, 31
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s24, s14, 31
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s16
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s53
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s17, s1, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s18, s0, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s19, s3, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s20, s2, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s21, s5, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s23, s4, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s24, s7, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s25, s6, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s26, s9, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s27, s8, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s28, s11, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s29, s10, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s30, s13, 31
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s31, s12, 31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s22
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s22, s15, 31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s16
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s16, s14, 31
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[36:39], 0 offset:192
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s14
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s15
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s52
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s51
+; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(1)
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s14
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s15
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s44
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s43
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[16:19], off, s[36:39], 0 offset:176
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s12
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s13
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s50
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s49
+; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(1)
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s12
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s13
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s42
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s41
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[36:39], 0 offset:160
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s10
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s11
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s48
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s47
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s40
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s35
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[36:39], 0 offset:144
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s8
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s9
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s46
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s45
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[36:39], 0 offset:128
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s6
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s7
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s24
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s23
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[36:39], 0 offset:112
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v21, s34
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v23, s33
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[20:23], off, s[36:39], 0 offset:128
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s6
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s7
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s16
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s22
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[36:39], 0 offset:112
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s4
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s5
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s22
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s21
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[16:19], off, s[36:39], 0 offset:96
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s4
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s5
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s30
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[36:39], 0 offset:96
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s2
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s3
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s20
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s19
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s2
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s3
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s29
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s28
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[36:39], 0 offset:80
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s0
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s1
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s18
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s17
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s27
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s26
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[36:39], 0 offset:64
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s44
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s43
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[36:39], 0 offset:48
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s42
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s41
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[36:39], 0 offset:32
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s40
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s35
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[16:19], off, s[36:39], 0 offset:16
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s34
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s33
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s25
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s24
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[16:19], off, s[36:39], 0 offset:48
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s23
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s21
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[36:39], 0 offset:32
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s20
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s19
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[36:39], 0 offset:16
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s18
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s17
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[36:39], 0
 ; GFX6-NOHSA-NEXT:    s_endpgm
 ;
@@ -3646,45 +3640,45 @@ define amdgpu_kernel void @constant_sextload_v32i32_to_v32i64(ptr addrspace(1) %
 ; GFX7-HSA-NEXT:    s_ashr_i32 s23, s2, 31
 ; GFX7-HSA-NEXT:    s_ashr_i32 s24, s5, 31
 ; GFX7-HSA-NEXT:    s_ashr_i32 s25, s4, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s26, s7, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s27, s6, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s28, s9, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s29, s8, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s30, s11, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s31, s10, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s33, s13, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s34, s12, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s35, s15, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s36, s14, 31
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s14
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s15
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s12
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s13
+; GFX7-HSA-NEXT:    s_ashr_i32 s28, s7, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s29, s6, 31
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s14
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s12
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s8
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s6
+; GFX7-HSA-NEXT:    s_ashr_i32 s36, s9, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s37, s8, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s38, s11, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s39, s10, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s40, s13, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s41, s12, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s42, s15, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s43, s14, 31
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v29, s15
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s13
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s11
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s8
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s9
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s6
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s4
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s5
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s2
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s3
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v30, s1
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s7
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s4
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s5
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s2
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s3
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s1
 ; GFX7-HSA-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s36
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s35
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s34
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s33
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s43
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v30, s42
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s41
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s40
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX7-HSA-NEXT:    s_ashr_i32 s37, s1, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s38, s0, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s39, s3, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s40, s2, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s41, s5, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s42, s4, 31
-; GFX7-HSA-NEXT:    s_ashr_i32 s43, s7, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s18, s1, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s19, s0, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s26, s3, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s27, s2, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s30, s5, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s31, s4, 31
+; GFX7-HSA-NEXT:    s_ashr_i32 s33, s7, 31
 ; GFX7-HSA-NEXT:    s_ashr_i32 s44, s6, 31
 ; GFX7-HSA-NEXT:    s_ashr_i32 s45, s9, 31
 ; GFX7-HSA-NEXT:    s_ashr_i32 s46, s8, 31
@@ -3694,105 +3688,101 @@ define amdgpu_kernel void @constant_sextload_v32i32_to_v32i64(ptr addrspace(1) %
 ; GFX7-HSA-NEXT:    s_ashr_i32 s50, s12, 31
 ; GFX7-HSA-NEXT:    s_ashr_i32 s51, s15, 31
 ; GFX7-HSA-NEXT:    s_ashr_i32 s52, s14, 31
-; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0xf0
-; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v32, s19
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v31, s18
-; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0xe0
-; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v34, s19
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v33, s18
-; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0xd0
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[31:32], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
-; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0xc0
-; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s19
-; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0xb0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s31
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s30
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s29
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s28
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[33:34], v[4:7]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[0:1], v[8:11]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[2:3], v[12:15]
-; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s27
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s26
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
-; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0xa0
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[0:1], v[16:19]
-; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v21, s25
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s24
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
-; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0x90
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[0:1], v[20:23]
-; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s23
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s22
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
-; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0x80
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[0:1], v[24:27]
-; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v29, s21
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v31, s20
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[0:1], v[28:31]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s14
-; GFX7-HSA-NEXT:    s_add_u32 s14, s16, 0x70
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s15
-; GFX7-HSA-NEXT:    s_addc_u32 s15, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s14
+; GFX7-HSA-NEXT:    s_add_u32 s34, s16, 0xf0
+; GFX7-HSA-NEXT:    s_addc_u32 s35, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v31, s34
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v32, s35
+; GFX7-HSA-NEXT:    s_add_u32 s34, s16, 0xe0
+; GFX7-HSA-NEXT:    s_addc_u32 s35, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v33, s34
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v34, s35
+; GFX7-HSA-NEXT:    s_add_u32 s34, s16, 0xd0
+; GFX7-HSA-NEXT:    s_addc_u32 s35, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v36, s35
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v35, s34
+; GFX7-HSA-NEXT:    s_add_u32 s34, s16, 0xc0
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[31:32], v[27:30]
+; GFX7-HSA-NEXT:    s_addc_u32 s35, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s34
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s35
+; GFX7-HSA-NEXT:    s_add_u32 s34, s16, 0xb0
+; GFX7-HSA-NEXT:    s_addc_u32 s35, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v29, s34
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v30, s35
+; GFX7-HSA-NEXT:    s_add_u32 s34, s16, 0xa0
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[33:34], v[23:26]
+; GFX7-HSA-NEXT:    s_addc_u32 s35, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s34
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s35
+; GFX7-HSA-NEXT:    s_add_u32 s34, s16, 0x90
+; GFX7-HSA-NEXT:    s_addc_u32 s35, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s37
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s36
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s28
+; GFX7-HSA-NEXT:    s_add_u32 s28, s16, 0x80
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s29
+; GFX7-HSA-NEXT:    s_addc_u32 s29, s17, 0
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[27:28], v[4:7]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s24
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s28
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s29
+; GFX7-HSA-NEXT:    s_add_u32 s28, s16, 0x70
+; GFX7-HSA-NEXT:    s_addc_u32 s29, s17, 0
+; GFX7-HSA-NEXT:    s_add_u32 s24, s16, 0x60
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s25
+; GFX7-HSA-NEXT:    s_addc_u32 s25, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s39
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s38
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s25
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s34
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[35:36], v[8:11]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s24
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s28
+; GFX7-HSA-NEXT:    s_add_u32 s24, s16, 0x50
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s35
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s29
+; GFX7-HSA-NEXT:    s_addc_u32 s25, s17, 0
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[29:30], v[0:3]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s23
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s22
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v21, s21
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[23:24], v[16:19]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[25:26], v[12:15]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s52
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s20
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s51
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s15
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s12
-; GFX7-HSA-NEXT:    s_add_u32 s12, s16, 0x60
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s13
-; GFX7-HSA-NEXT:    s_addc_u32 s13, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s12
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s50
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s49
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s14
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s15
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v30, s25
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s50
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[5:6], v[20:23]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s49
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
+; GFX7-HSA-NEXT:    s_add_u32 s14, s16, 64
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s12
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s13
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s10
-; GFX7-HSA-NEXT:    s_add_u32 s10, s16, 0x50
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s11
-; GFX7-HSA-NEXT:    s_addc_u32 s11, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s48
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s47
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s11
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s8
-; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 64
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s9
-; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s8
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s46
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s45
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s9
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v29, s24
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s48
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s47
+; GFX7-HSA-NEXT:    s_addc_u32 s15, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s14
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[27:28], v[3:6]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s11
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s46
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s45
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s15
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[29:30], v[6:9]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s8
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[0:1], v[9:12]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s6
 ; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 48
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s7
 ; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s44
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s43
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s33
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
@@ -3801,8 +3791,8 @@ define amdgpu_kernel void @constant_sextload_v32i32_to_v32i64(ptr addrspace(1) %
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s5
 ; GFX7-HSA-NEXT:    s_addc_u32 s5, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s42
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s41
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s31
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s30
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
@@ -3811,15 +3801,15 @@ define amdgpu_kernel void @constant_sextload_v32i32_to_v32i64(ptr addrspace(1) %
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s3
 ; GFX7-HSA-NEXT:    s_addc_u32 s3, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s40
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s39
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s27
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s26
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s16
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s38
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s1
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s37
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s18
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s17
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_endpgm
@@ -4193,43 +4183,37 @@ define amdgpu_kernel void @constant_sextload_v32i32_to_v32i64(ptr addrspace(1) %
 ; GFX9-HSA-NEXT:    s_load_dwordx16 s[16:31], s[38:39], 0x40
 ; GFX9-HSA-NEXT:    s_load_dwordx16 s[0:15], s[38:39], 0x0
 ; GFX9-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX9-HSA-NEXT:    s_ashr_i32 s65, s31, 31
-; GFX9-HSA-NEXT:    s_ashr_i32 s66, s30, 31
-; GFX9-HSA-NEXT:    s_ashr_i32 s63, s29, 31
-; GFX9-HSA-NEXT:    s_ashr_i32 s64, s28, 31
+; GFX9-HSA-NEXT:    s_ashr_i32 s58, s30, 31
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v2, s58
+; GFX9-HSA-NEXT:    s_ashr_i32 s58, s31, 31
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v4, s58
+; GFX9-HSA-NEXT:    s_ashr_i32 s58, s28, 31
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v5, s58
+; GFX9-HSA-NEXT:    s_ashr_i32 s58, s29, 31
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v7, s58
+; GFX9-HSA-NEXT:    s_ashr_i32 s58, s26, 31
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v8, s58
+; GFX9-HSA-NEXT:    s_ashr_i32 s58, s27, 31
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v10, s58
+; GFX9-HSA-NEXT:    s_ashr_i32 s58, s24, 31
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v11, s58
+; GFX9-HSA-NEXT:    s_ashr_i32 s58, s25, 31
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v1, s30
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v2, s66
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v3, s31
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v4, s65
-; GFX9-HSA-NEXT:    s_ashr_i32 s61, s27, 31
-; GFX9-HSA-NEXT:    s_ashr_i32 s62, s26, 31
-; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[1:4], s[36:37] offset:240
-; GFX9-HSA-NEXT:    s_ashr_i32 s59, s25, 31
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v1, s28
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v2, s64
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v3, s29
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v4, s63
-; GFX9-HSA-NEXT:    s_ashr_i32 s60, s24, 31
-; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[1:4], s[36:37] offset:224
 ; GFX9-HSA-NEXT:    s_ashr_i32 s57, s23, 31
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v1, s26
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v2, s62
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v3, s27
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v4, s61
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v13, s58
 ; GFX9-HSA-NEXT:    s_ashr_i32 s58, s22, 31
-; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[1:4], s[36:37] offset:208
+; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[1:4], s[36:37] offset:240
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v6, s29
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v4, s28
 ; GFX9-HSA-NEXT:    s_ashr_i32 s55, s21, 31
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v1, s24
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v2, s60
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v3, s25
-; GFX9-HSA-NEXT:    v_mov_b32_e32 v4, s59
 ; GFX9-HSA-NEXT:    s_ashr_i32 s56, s20, 31
-; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[1:4], s[36:37] offset:192
-; GFX9-HSA-NEXT:    s_ashr_i32 s53, s19, 31
+; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[4:7], s[36:37] offset:224
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v1, s22
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v2, s58
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v3, s23
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v4, s57
+; GFX9-HSA-NEXT:    s_ashr_i32 s53, s19, 31
 ; GFX9-HSA-NEXT:    s_ashr_i32 s54, s18, 31
 ; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[1:4], s[36:37] offset:176
 ; GFX9-HSA-NEXT:    s_ashr_i32 s51, s17, 31
@@ -4294,14 +4278,18 @@ define amdgpu_kernel void @constant_sextload_v32i32_to_v32i64(ptr addrspace(1) %
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v3, s5
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v4, s39
 ; GFX9-HSA-NEXT:    s_ashr_i32 s34, s0, 31
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v7, s26
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v9, s27
 ; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[1:4], s[36:37] offset:32
-; GFX9-HSA-NEXT:    s_nop 0
+; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[7:10], s[36:37] offset:208
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v1, s2
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v2, s38
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v3, s3
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v4, s35
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v10, s24
+; GFX9-HSA-NEXT:    v_mov_b32_e32 v12, s25
 ; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[1:4], s[36:37] offset:16
-; GFX9-HSA-NEXT:    s_nop 0
+; GFX9-HSA-NEXT:    global_store_dwordx4 v0, v[10:13], s[36:37] offset:192
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v1, s0
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v2, s34
 ; GFX9-HSA-NEXT:    v_mov_b32_e32 v3, s1
@@ -4496,64 +4484,64 @@ define amdgpu_kernel void @constant_zextload_v32i32_to_v32i64(ptr addrspace(1) %
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, v1
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
+; GFX7-HSA-NEXT:    s_add_u32 s0, s36, 0xf0
+; GFX7-HSA-NEXT:    s_addc_u32 s1, s37, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s1
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s0
+; GFX7-HSA-NEXT:    s_add_u32 s0, s36, 0xe0
+; GFX7-HSA-NEXT:    s_addc_u32 s1, s37, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s1
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s0
+; GFX7-HSA-NEXT:    s_add_u32 s0, s36, 0xd0
+; GFX7-HSA-NEXT:    s_addc_u32 s1, s37, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s1
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s0
+; GFX7-HSA-NEXT:    s_add_u32 s0, s36, 0xc0
+; GFX7-HSA-NEXT:    s_addc_u32 s1, s37, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s1
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s0
+; GFX7-HSA-NEXT:    s_add_u32 s0, s36, 0xb0
+; GFX7-HSA-NEXT:    s_addc_u32 s1, s37, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s1
 ; GFX7-HSA-NEXT:    s_load_dwordx16 s[16:31], s[38:39], 0x10
-; GFX7-HSA-NEXT:    s_load_dwordx16 s[0:15], s[38:39], 0x0
-; GFX7-HSA-NEXT:    s_add_u32 s34, s36, 0xf0
-; GFX7-HSA-NEXT:    s_addc_u32 s35, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s34
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s35
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s0
+; GFX7-HSA-NEXT:    s_add_u32 s0, s36, 0xa0
+; GFX7-HSA-NEXT:    s_addc_u32 s1, s37, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s1
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s0
+; GFX7-HSA-NEXT:    s_add_u32 s0, s36, 0x90
+; GFX7-HSA-NEXT:    s_addc_u32 s1, s37, 0
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s30
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s31
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s1
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s0
+; GFX7-HSA-NEXT:    s_load_dwordx16 s[0:15], s[38:39], 0x0
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s28
-; GFX7-HSA-NEXT:    s_add_u32 s28, s36, 0xe0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s29
-; GFX7-HSA-NEXT:    s_addc_u32 s29, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s28
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s29
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[6:7], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s26
-; GFX7-HSA-NEXT:    s_add_u32 s26, s36, 0xd0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s27
-; GFX7-HSA-NEXT:    s_addc_u32 s27, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s26
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s27
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s24
-; GFX7-HSA-NEXT:    s_add_u32 s24, s36, 0xc0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s25
-; GFX7-HSA-NEXT:    s_addc_u32 s25, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s24
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s25
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s22
-; GFX7-HSA-NEXT:    s_add_u32 s22, s36, 0xb0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s23
-; GFX7-HSA-NEXT:    s_addc_u32 s23, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s22
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s23
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[12:13], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s20
-; GFX7-HSA-NEXT:    s_add_u32 s20, s36, 0xa0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s21
-; GFX7-HSA-NEXT:    s_addc_u32 s21, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s20
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s21
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[14:15], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
-; GFX7-HSA-NEXT:    s_add_u32 s18, s36, 0x90
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s19
-; GFX7-HSA-NEXT:    s_addc_u32 s19, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s19
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[16:17], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s16
 ; GFX7-HSA-NEXT:    s_add_u32 s16, s36, 0x80
@@ -4562,7 +4550,7 @@ define amdgpu_kernel void @constant_zextload_v32i32_to_v32i64(ptr addrspace(1) %
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s16
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s17
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
+; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s14
 ; GFX7-HSA-NEXT:    s_add_u32 s14, s36, 0x70
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s15
@@ -5111,53 +5099,52 @@ define amdgpu_kernel void @constant_load_v32i32(ptr addrspace(1) %out, ptr addrs
 ;
 ; GFX7-HSA-LABEL: constant_load_v32i32:
 ; GFX7-HSA:       ; %bb.0:
-; GFX7-HSA-NEXT:    s_load_dwordx4 s[36:39], s[8:9], 0x0
+; GFX7-HSA-NEXT:    s_load_dwordx4 s[16:19], s[8:9], 0x0
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX7-HSA-NEXT:    s_load_dwordx16 s[16:31], s[38:39], 0x10
-; GFX7-HSA-NEXT:    s_load_dwordx16 s[0:15], s[38:39], 0x0
-; GFX7-HSA-NEXT:    s_add_u32 s34, s36, 0x70
-; GFX7-HSA-NEXT:    s_addc_u32 s35, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s34
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s35
+; GFX7-HSA-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x10
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s28
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s29
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s30
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s31
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s24
-; GFX7-HSA-NEXT:    s_add_u32 s24, s36, 0x60
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[5:6], v[0:3]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s25
-; GFX7-HSA-NEXT:    s_addc_u32 s25, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s24
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s26
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s27
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s25
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s12
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s13
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s14
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s15
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s8
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s11
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s4
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s5
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s6
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s7
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s1
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s2
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s3
+; GFX7-HSA-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
+; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0x70
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s19
+; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0x60
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[16:17], v[0:3]
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
+; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 0x50
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[0:1], v[4:7]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s20
-; GFX7-HSA-NEXT:    s_add_u32 s20, s36, 0x50
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s21
-; GFX7-HSA-NEXT:    s_addc_u32 s21, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s20
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s22
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s23
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s21
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s16
-; GFX7-HSA-NEXT:    s_add_u32 s16, s36, 64
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s17
-; GFX7-HSA-NEXT:    s_addc_u32 s17, s37, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s16
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s19
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s17
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_nop 0
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
+; GFX7-HSA-NEXT:    s_add_u32 s18, s16, 64
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[0:1], v[8:11]
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[0:1], v[12:15]
+; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s12
-; GFX7-HSA-NEXT:    s_add_u32 s12, s36, 48
+; GFX7-HSA-NEXT:    s_add_u32 s12, s16, 48
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s13
-; GFX7-HSA-NEXT:    s_addc_u32 s13, s37, 0
+; GFX7-HSA-NEXT:    s_addc_u32 s13, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s12
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s14
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s15
@@ -5165,9 +5152,9 @@ define amdgpu_kernel void @constant_load_v32i32(ptr addrspace(1) %out, ptr addrs
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s8
-; GFX7-HSA-NEXT:    s_add_u32 s8, s36, 32
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 32
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s9
-; GFX7-HSA-NEXT:    s_addc_u32 s9, s37, 0
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s8
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s10
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s11
@@ -5175,20 +5162,20 @@ define amdgpu_kernel void @constant_load_v32i32(ptr addrspace(1) %out, ptr addrs
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s4
-; GFX7-HSA-NEXT:    s_add_u32 s4, s36, 16
+; GFX7-HSA-NEXT:    s_add_u32 s4, s16, 16
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s5
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s37, 0
+; GFX7-HSA-NEXT:    s_addc_u32 s5, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s7
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s36
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s16
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s1
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s2
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s3
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s37
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s17
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_endpgm
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/load-constant-i64.ll b/llvm/test/CodeGen/AMDGPU/load-constant-i64.ll
index 102c33ec31b09..b3e75e767ae64 100644
--- a/llvm/test/CodeGen/AMDGPU/load-constant-i64.ll
+++ b/llvm/test/CodeGen/AMDGPU/load-constant-i64.ll
@@ -638,53 +638,52 @@ define amdgpu_kernel void @constant_load_v16i64(ptr addrspace(1) %out, ptr addrs
 ;
 ; GFX7-LABEL: constant_load_v16i64:
 ; GFX7:       ; %bb.0: ; %entry
-; GFX7-NEXT:    s_load_dwordx4 s[36:39], s[8:9], 0x0
+; GFX7-NEXT:    s_load_dwordx4 s[16:19], s[8:9], 0x0
 ; GFX7-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX7-NEXT:    s_load_dwordx16 s[16:31], s[38:39], 0x10
-; GFX7-NEXT:    s_load_dwordx16 s[0:15], s[38:39], 0x0
-; GFX7-NEXT:    s_add_u32 s34, s36, 0x70
-; GFX7-NEXT:    s_addc_u32 s35, s37, 0
-; GFX7-NEXT:    v_mov_b32_e32 v5, s34
-; GFX7-NEXT:    v_mov_b32_e32 v6, s35
+; GFX7-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x10
 ; GFX7-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX7-NEXT:    v_mov_b32_e32 v0, s28
-; GFX7-NEXT:    v_mov_b32_e32 v1, s29
-; GFX7-NEXT:    v_mov_b32_e32 v2, s30
-; GFX7-NEXT:    v_mov_b32_e32 v3, s31
-; GFX7-NEXT:    v_mov_b32_e32 v4, s24
-; GFX7-NEXT:    s_add_u32 s24, s36, 0x60
-; GFX7-NEXT:    flat_store_dwordx4 v[5:6], v[0:3]
-; GFX7-NEXT:    v_mov_b32_e32 v5, s25
-; GFX7-NEXT:    s_addc_u32 s25, s37, 0
-; GFX7-NEXT:    v_mov_b32_e32 v0, s24
-; GFX7-NEXT:    v_mov_b32_e32 v6, s26
-; GFX7-NEXT:    v_mov_b32_e32 v7, s27
-; GFX7-NEXT:    v_mov_b32_e32 v1, s25
+; GFX7-NEXT:    v_mov_b32_e32 v0, s12
+; GFX7-NEXT:    v_mov_b32_e32 v1, s13
+; GFX7-NEXT:    v_mov_b32_e32 v2, s14
+; GFX7-NEXT:    v_mov_b32_e32 v3, s15
+; GFX7-NEXT:    v_mov_b32_e32 v4, s8
+; GFX7-NEXT:    v_mov_b32_e32 v5, s9
+; GFX7-NEXT:    v_mov_b32_e32 v6, s10
+; GFX7-NEXT:    v_mov_b32_e32 v7, s11
+; GFX7-NEXT:    v_mov_b32_e32 v8, s4
+; GFX7-NEXT:    v_mov_b32_e32 v9, s5
+; GFX7-NEXT:    v_mov_b32_e32 v10, s6
+; GFX7-NEXT:    v_mov_b32_e32 v11, s7
+; GFX7-NEXT:    v_mov_b32_e32 v12, s0
+; GFX7-NEXT:    v_mov_b32_e32 v13, s1
+; GFX7-NEXT:    v_mov_b32_e32 v14, s2
+; GFX7-NEXT:    v_mov_b32_e32 v15, s3
+; GFX7-NEXT:    s_load_dwordx16 s[0:15], s[18:19], 0x0
+; GFX7-NEXT:    s_add_u32 s18, s16, 0x70
+; GFX7-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-NEXT:    v_mov_b32_e32 v16, s18
+; GFX7-NEXT:    v_mov_b32_e32 v17, s19
+; GFX7-NEXT:    s_add_u32 s18, s16, 0x60
+; GFX7-NEXT:    flat_store_dwordx4 v[16:17], v[0:3]
+; GFX7-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-NEXT:    v_mov_b32_e32 v0, s18
+; GFX7-NEXT:    v_mov_b32_e32 v1, s19
+; GFX7-NEXT:    s_add_u32 s18, s16, 0x50
 ; GFX7-NEXT:    flat_store_dwordx4 v[0:1], v[4:7]
-; GFX7-NEXT:    v_mov_b32_e32 v0, s20
-; GFX7-NEXT:    s_add_u32 s20, s36, 0x50
-; GFX7-NEXT:    v_mov_b32_e32 v1, s21
-; GFX7-NEXT:    s_addc_u32 s21, s37, 0
-; GFX7-NEXT:    v_mov_b32_e32 v4, s20
-; GFX7-NEXT:    v_mov_b32_e32 v2, s22
-; GFX7-NEXT:    v_mov_b32_e32 v3, s23
-; GFX7-NEXT:    v_mov_b32_e32 v5, s21
-; GFX7-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-NEXT:    s_nop 0
-; GFX7-NEXT:    v_mov_b32_e32 v0, s16
-; GFX7-NEXT:    s_add_u32 s16, s36, 64
-; GFX7-NEXT:    v_mov_b32_e32 v1, s17
-; GFX7-NEXT:    s_addc_u32 s17, s37, 0
-; GFX7-NEXT:    v_mov_b32_e32 v4, s16
-; GFX7-NEXT:    v_mov_b32_e32 v2, s18
-; GFX7-NEXT:    v_mov_b32_e32 v3, s19
-; GFX7-NEXT:    v_mov_b32_e32 v5, s17
-; GFX7-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-NEXT:    s_nop 0
+; GFX7-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-NEXT:    v_mov_b32_e32 v0, s18
+; GFX7-NEXT:    v_mov_b32_e32 v1, s19
+; GFX7-NEXT:    s_add_u32 s18, s16, 64
+; GFX7-NEXT:    flat_store_dwordx4 v[0:1], v[8:11]
+; GFX7-NEXT:    s_addc_u32 s19, s17, 0
+; GFX7-NEXT:    v_mov_b32_e32 v0, s18
+; GFX7-NEXT:    v_mov_b32_e32 v1, s19
+; GFX7-NEXT:    flat_store_dwordx4 v[0:1], v[12:15]
+; GFX7-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX7-NEXT:    v_mov_b32_e32 v0, s12
-; GFX7-NEXT:    s_add_u32 s12, s36, 48
+; GFX7-NEXT:    s_add_u32 s12, s16, 48
 ; GFX7-NEXT:    v_mov_b32_e32 v1, s13
-; GFX7-NEXT:    s_addc_u32 s13, s37, 0
+; GFX7-NEXT:    s_addc_u32 s13, s17, 0
 ; GFX7-NEXT:    v_mov_b32_e32 v4, s12
 ; GFX7-NEXT:    v_mov_b32_e32 v2, s14
 ; GFX7-NEXT:    v_mov_b32_e32 v3, s15
@@ -692,9 +691,9 @@ define amdgpu_kernel void @constant_load_v16i64(ptr addrspace(1) %out, ptr addrs
 ; GFX7-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-NEXT:    s_nop 0
 ; GFX7-NEXT:    v_mov_b32_e32 v0, s8
-; GFX7-NEXT:    s_add_u32 s8, s36, 32
+; GFX7-NEXT:    s_add_u32 s8, s16, 32
 ; GFX7-NEXT:    v_mov_b32_e32 v1, s9
-; GFX7-NEXT:    s_addc_u32 s9, s37, 0
+; GFX7-NEXT:    s_addc_u32 s9, s17, 0
 ; GFX7-NEXT:    v_mov_b32_e32 v4, s8
 ; GFX7-NEXT:    v_mov_b32_e32 v2, s10
 ; GFX7-NEXT:    v_mov_b32_e32 v3, s11
@@ -702,20 +701,20 @@ define amdgpu_kernel void @constant_load_v16i64(ptr addrspace(1) %out, ptr addrs
 ; GFX7-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-NEXT:    s_nop 0
 ; GFX7-NEXT:    v_mov_b32_e32 v0, s4
-; GFX7-NEXT:    s_add_u32 s4, s36, 16
+; GFX7-NEXT:    s_add_u32 s4, s16, 16
 ; GFX7-NEXT:    v_mov_b32_e32 v1, s5
-; GFX7-NEXT:    s_addc_u32 s5, s37, 0
+; GFX7-NEXT:    s_addc_u32 s5, s17, 0
 ; GFX7-NEXT:    v_mov_b32_e32 v4, s4
 ; GFX7-NEXT:    v_mov_b32_e32 v2, s6
 ; GFX7-NEXT:    v_mov_b32_e32 v3, s7
 ; GFX7-NEXT:    v_mov_b32_e32 v5, s5
 ; GFX7-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-NEXT:    v_mov_b32_e32 v4, s36
+; GFX7-NEXT:    v_mov_b32_e32 v4, s16
 ; GFX7-NEXT:    v_mov_b32_e32 v0, s0
 ; GFX7-NEXT:    v_mov_b32_e32 v1, s1
 ; GFX7-NEXT:    v_mov_b32_e32 v2, s2
 ; GFX7-NEXT:    v_mov_b32_e32 v3, s3
-; GFX7-NEXT:    v_mov_b32_e32 v5, s37
+; GFX7-NEXT:    v_mov_b32_e32 v5, s17
 ; GFX7-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-NEXT:    s_endpgm
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/load-constant-i8.ll b/llvm/test/CodeGen/AMDGPU/load-constant-i8.ll
index ff55ab8859c83..efc31fbd5ed9e 100644
--- a/llvm/test/CodeGen/AMDGPU/load-constant-i8.ll
+++ b/llvm/test/CodeGen/AMDGPU/load-constant-i8.ll
@@ -2391,48 +2391,48 @@ define amdgpu_kernel void @constant_zextload_v32i8_to_v32i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_bfe_u32 s23, s9, 0x80008
 ; GFX7-HSA-NEXT:    s_lshr_b32 s24, s10, 24
 ; GFX7-HSA-NEXT:    s_bfe_u32 s25, s10, 0x80008
-; GFX7-HSA-NEXT:    s_lshr_b32 s2, s11, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s3, s11, 0x80008
-; GFX7-HSA-NEXT:    s_and_b32 s26, s4, 0xff
+; GFX7-HSA-NEXT:    s_lshr_b32 s26, s11, 24
+; GFX7-HSA-NEXT:    s_bfe_u32 s27, s11, 0x80008
+; GFX7-HSA-NEXT:    s_and_b32 s28, s4, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s4, s4, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s27, s5, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s29, s5, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s5, s5, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s28, s6, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s30, s6, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s6, s6, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s29, s7, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s31, s7, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s7, s7, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s30, s8, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s33, s8, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s8, s8, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s31, s9, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s34, s9, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s9, s9, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s33, s10, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s35, s10, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s10, s10, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s34, s11, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s36, s11, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s11, s11, 0x80010
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 0x70
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s3
 ; GFX7-HSA-NEXT:    s_addc_u32 s3, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s3
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 0x60
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s34
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s11
 ; GFX7-HSA-NEXT:    s_addc_u32 s3, s1, 0
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s3
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 0x50
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s33
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s25
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s24
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s36
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s27
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s11
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s26
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s35
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s25
 ; GFX7-HSA-NEXT:    s_addc_u32 s3, s1, 0
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s24
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s34
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 64
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s31
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s23
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s9
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s22
@@ -2441,7 +2441,7 @@ define amdgpu_kernel void @constant_zextload_v32i8_to_v32i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 48
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s30
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s33
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s21
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s8
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s20
@@ -2450,7 +2450,7 @@ define amdgpu_kernel void @constant_zextload_v32i8_to_v32i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 32
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s29
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s31
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s7
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s18
@@ -2459,21 +2459,21 @@ define amdgpu_kernel void @constant_zextload_v32i8_to_v32i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 16
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s28
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s30
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s17
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s16
 ; GFX7-HSA-NEXT:    s_addc_u32 s3, s1, 0
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s27
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s29
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s15
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s5
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s14
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s1
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s26
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s28
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s13
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s4
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s12
@@ -2880,33 +2880,33 @@ define amdgpu_kernel void @constant_sextload_v32i8_to_v32i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_ashr_i32 s30, s10, 24
 ; GFX7-HSA-NEXT:    s_bfe_i32 s31, s10, 0x80010
 ; GFX7-HSA-NEXT:    s_bfe_i32 s33, s10, 0x80008
-; GFX7-HSA-NEXT:    s_ashr_i32 s2, s11, 24
-; GFX7-HSA-NEXT:    s_bfe_i32 s3, s11, 0x80010
-; GFX7-HSA-NEXT:    s_bfe_i32 s34, s11, 0x80008
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s2
+; GFX7-HSA-NEXT:    s_ashr_i32 s34, s11, 24
+; GFX7-HSA-NEXT:    s_bfe_i32 s35, s11, 0x80010
+; GFX7-HSA-NEXT:    s_bfe_i32 s36, s11, 0x80008
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 0x70
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s3
 ; GFX7-HSA-NEXT:    s_addc_u32 s3, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
-; GFX7-HSA-NEXT:    s_sext_i32_i8 s11, s11
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s3
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 0x60
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s11
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s34
 ; GFX7-HSA-NEXT:    s_addc_u32 s3, s1, 0
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s3
 ; GFX7-HSA-NEXT:    s_sext_i32_i8 s10, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
+; GFX7-HSA-NEXT:    s_sext_i32_i8 s11, s11
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 0x50
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s33
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s31
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s30
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s11
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s36
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s35
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s34
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s33
 ; GFX7-HSA-NEXT:    s_addc_u32 s3, s1, 0
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s31
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s30
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
 ; GFX7-HSA-NEXT:    s_sext_i32_i8 s9, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s3
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s2
 ; GFX7-HSA-NEXT:    s_add_u32 s2, s0, 64
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s9
@@ -3281,32 +3281,32 @@ define amdgpu_kernel void @constant_zextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NOHSA-NEXT:    s_lshr_b32 s22, s2, 24
 ; GFX6-NOHSA-NEXT:    s_bfe_u32 s23, s2, 0x80008
 ; GFX6-NOHSA-NEXT:    s_lshr_b32 s24, s3, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s26, s3, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s27, s4, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s28, s4, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s29, s5, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s30, s5, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s31, s6, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s33, s6, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s34, s7, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s35, s7, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s36, s8, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s37, s8, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s38, s9, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s39, s9, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s40, s10, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s41, s10, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s42, s11, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s43, s11, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s44, s12, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s45, s12, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s46, s13, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s47, s13, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s48, s14, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s49, s14, 0x80008
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s50, s15, 24
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s51, s15, 0x80008
-; GFX6-NOHSA-NEXT:    s_and_b32 s52, s0, 0xff
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s27, s3, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s28, s4, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s29, s4, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s30, s5, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s31, s5, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s33, s6, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s34, s6, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s35, s7, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s36, s7, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s37, s8, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s38, s8, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s39, s9, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s40, s9, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s41, s10, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s42, s10, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s43, s11, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s44, s11, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s45, s12, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s46, s12, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s47, s13, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s48, s13, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s49, s14, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s50, s14, 0x80008
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s51, s15, 24
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s52, s15, 0x80008
+; GFX6-NOHSA-NEXT:    s_and_b32 s26, s0, 0xff
 ; GFX6-NOHSA-NEXT:    s_bfe_u32 s25, s0, 0x80010
 ; GFX6-NOHSA-NEXT:    s_and_b32 s53, s1, 0xff
 ; GFX6-NOHSA-NEXT:    s_bfe_u32 s54, s1, 0x80010
@@ -3327,92 +3327,91 @@ define amdgpu_kernel void @constant_zextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NOHSA-NEXT:    s_and_b32 s64, s9, 0xff
 ; GFX6-NOHSA-NEXT:    s_bfe_u32 s9, s9, 0x80010
 ; GFX6-NOHSA-NEXT:    s_and_b32 s65, s10, 0xff
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s10, s10, 0x80010
 ; GFX6-NOHSA-NEXT:    s_and_b32 s66, s11, 0xff
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s11, s11, 0x80010
 ; GFX6-NOHSA-NEXT:    s_and_b32 s67, s12, 0xff
 ; GFX6-NOHSA-NEXT:    s_bfe_u32 s12, s12, 0x80010
 ; GFX6-NOHSA-NEXT:    s_and_b32 s68, s13, 0xff
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s13, s13, 0x80010
 ; GFX6-NOHSA-NEXT:    s_and_b32 s69, s14, 0xff
 ; GFX6-NOHSA-NEXT:    s_bfe_u32 s14, s14, 0x80010
 ; GFX6-NOHSA-NEXT:    s_and_b32 s70, s15, 0xff
 ; GFX6-NOHSA-NEXT:    s_bfe_u32 s15, s15, 0x80010
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s13, s13, 0x80010
-; GFX6-NOHSA-NEXT:    s_bfe_u32 s11, s11, 0x80010
+; GFX6-NOHSA-NEXT:    s_bfe_u32 s10, s10, 0x80010
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s0, s16
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s1, s17
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s3, 0xf000
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s2, -1
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s70
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s51
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s52
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s15
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s50
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s51
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s69
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s49
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s50
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s14
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s48
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s49
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s68
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s47
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s48
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s13
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s46
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s47
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s67
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s45
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s46
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s12
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s45
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s66
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s44
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s11
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s44
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(3)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s66
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s43
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s11
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s42
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:176
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s65
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s41
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s43
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s42
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s10
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s40
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s41
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:176
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:160
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s64
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s39
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s40
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s9
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s38
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s39
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:144
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s63
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s37
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s38
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s8
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s36
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s37
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:128
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s62
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s35
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s36
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s7
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s34
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s35
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:112
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s61
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s33
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s34
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s6
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s33
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:96
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s60
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s30
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s31
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s5
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s29
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s30
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:80
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s59
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s28
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s29
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s4
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s27
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s28
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s57
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s26
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s27
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s58
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s24
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:48
@@ -3429,7 +3428,7 @@ define amdgpu_kernel void @constant_zextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s20
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s52
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s26
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s19
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s25
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s18
@@ -3455,25 +3454,25 @@ define amdgpu_kernel void @constant_zextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_lshr_b32 s31, s5, 24
 ; GFX7-HSA-NEXT:    s_bfe_u32 s33, s5, 0x80008
 ; GFX7-HSA-NEXT:    s_lshr_b32 s35, s6, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s36, s6, 0x80008
+; GFX7-HSA-NEXT:    s_bfe_u32 s37, s6, 0x80008
 ; GFX7-HSA-NEXT:    s_lshr_b32 s38, s7, 24
 ; GFX7-HSA-NEXT:    s_bfe_u32 s39, s7, 0x80008
 ; GFX7-HSA-NEXT:    s_lshr_b32 s41, s8, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s42, s8, 0x80008
-; GFX7-HSA-NEXT:    s_lshr_b32 s43, s9, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s44, s9, 0x80008
-; GFX7-HSA-NEXT:    s_lshr_b32 s45, s10, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s46, s10, 0x80008
-; GFX7-HSA-NEXT:    s_lshr_b32 s47, s11, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s48, s11, 0x80008
-; GFX7-HSA-NEXT:    s_lshr_b32 s49, s12, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s50, s12, 0x80008
-; GFX7-HSA-NEXT:    s_lshr_b32 s51, s13, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s52, s13, 0x80008
-; GFX7-HSA-NEXT:    s_lshr_b32 s53, s14, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s54, s14, 0x80008
-; GFX7-HSA-NEXT:    s_lshr_b32 s55, s15, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s56, s15, 0x80008
+; GFX7-HSA-NEXT:    s_bfe_u32 s43, s8, 0x80008
+; GFX7-HSA-NEXT:    s_lshr_b32 s44, s9, 24
+; GFX7-HSA-NEXT:    s_bfe_u32 s46, s9, 0x80008
+; GFX7-HSA-NEXT:    s_lshr_b32 s47, s10, 24
+; GFX7-HSA-NEXT:    s_bfe_u32 s48, s10, 0x80008
+; GFX7-HSA-NEXT:    s_lshr_b32 s49, s11, 24
+; GFX7-HSA-NEXT:    s_bfe_u32 s50, s11, 0x80008
+; GFX7-HSA-NEXT:    s_lshr_b32 s51, s12, 24
+; GFX7-HSA-NEXT:    s_bfe_u32 s52, s12, 0x80008
+; GFX7-HSA-NEXT:    s_lshr_b32 s53, s13, 24
+; GFX7-HSA-NEXT:    s_bfe_u32 s54, s13, 0x80008
+; GFX7-HSA-NEXT:    s_lshr_b32 s55, s14, 24
+; GFX7-HSA-NEXT:    s_bfe_u32 s56, s14, 0x80008
+; GFX7-HSA-NEXT:    s_lshr_b32 s57, s15, 24
+; GFX7-HSA-NEXT:    s_bfe_u32 s58, s15, 0x80008
 ; GFX7-HSA-NEXT:    s_and_b32 s24, s0, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s0, s0, 0x80010
 ; GFX7-HSA-NEXT:    s_and_b32 s27, s1, 0xff
@@ -3482,18 +3481,18 @@ define amdgpu_kernel void @constant_zextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_bfe_u32 s2, s2, 0x80010
 ; GFX7-HSA-NEXT:    s_and_b32 s34, s3, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s3, s3, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s37, s4, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s36, s4, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s4, s4, 0x80010
 ; GFX7-HSA-NEXT:    s_and_b32 s40, s5, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s5, s5, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s57, s6, 0xff
-; GFX7-HSA-NEXT:    s_bfe_u32 s58, s6, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s59, s7, 0xff
-; GFX7-HSA-NEXT:    s_bfe_u32 s60, s7, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s61, s8, 0xff
-; GFX7-HSA-NEXT:    s_bfe_u32 s8, s8, 0x80010
-; GFX7-HSA-NEXT:    s_and_b32 s62, s9, 0xff
-; GFX7-HSA-NEXT:    s_bfe_u32 s9, s9, 0x80010
+; GFX7-HSA-NEXT:    s_and_b32 s42, s6, 0xff
+; GFX7-HSA-NEXT:    s_bfe_u32 s6, s6, 0x80010
+; GFX7-HSA-NEXT:    s_and_b32 s45, s7, 0xff
+; GFX7-HSA-NEXT:    s_bfe_u32 s7, s7, 0x80010
+; GFX7-HSA-NEXT:    s_and_b32 s59, s8, 0xff
+; GFX7-HSA-NEXT:    s_bfe_u32 s60, s8, 0x80010
+; GFX7-HSA-NEXT:    s_and_b32 s61, s9, 0xff
+; GFX7-HSA-NEXT:    s_bfe_u32 s62, s9, 0x80010
 ; GFX7-HSA-NEXT:    s_and_b32 s63, s10, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s10, s10, 0x80010
 ; GFX7-HSA-NEXT:    s_and_b32 s64, s11, 0xff
@@ -3506,97 +3505,97 @@ define amdgpu_kernel void @constant_zextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_bfe_u32 s14, s14, 0x80010
 ; GFX7-HSA-NEXT:    s_and_b32 s68, s15, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s15, s15, 0x80010
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0xf0
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s6
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0xe0
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s6
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0xd0
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s6
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0xc0
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v29, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s6
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0xb0
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v31, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v30, s6
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0xa0
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v33, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v32, s6
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x90
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s67
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s54
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s14
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s53
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[4:7]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s6
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x80
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v35, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s68
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s56
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s15
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s55
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xf0
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s8
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xe0
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v21, s8
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xd0
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s8
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xc0
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s8
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xb0
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s8
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xa0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s66
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s52
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s54
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s13
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s51
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s53
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[23:24], v[8:11]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s65
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s50
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s8
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0x90
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s52
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s12
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s49
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s51
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[25:26], v[12:15]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s68
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s8
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0x80
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s58
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s15
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s57
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s8
+; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0x70
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[19:20], v[0:3]
+; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s63
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s48
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s47
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[9:10], v[0:3]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s64
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s48
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s11
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s47
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v34, s6
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s61
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s42
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s8
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s41
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x70
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s63
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v21, s46
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[22:23], v[0:3]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s62
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s45
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s44
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[26:27], v[8:11]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s9
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[28:29], v[12:15]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s43
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[30:31], v[16:19]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[32:33], v[20:23]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[0:3]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[34:35], v[4:7]
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s59
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s39
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s60
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s38
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s6
 ; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x60
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s50
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s11
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s49
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s7
 ; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s57
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s36
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s58
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s35
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s67
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s56
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s14
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s55
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[27:28], v[16:19]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s61
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s7
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[21:22], v[4:7]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v21, s46
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s62
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s59
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s44
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s43
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s6
 ; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x50
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s60
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s45
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s41
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s42
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s39
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s38
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s37
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s8
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s35
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[12:13], v[20:23]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[14:15], v[4:7]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[16:17], v[8:11]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[18:19], v[0:3]
 ; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s40
@@ -3610,7 +3609,7 @@ define amdgpu_kernel void @constant_zextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_add_u32 s4, s16, 64
 ; GFX7-HSA-NEXT:    s_addc_u32 s5, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s37
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s36
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s29
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s28
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
@@ -4235,16 +4234,17 @@ define amdgpu_kernel void @constant_sextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NOHSA-NEXT:    s_bfe_i32 s54, s10, 0x80010
 ; GFX6-NOHSA-NEXT:    s_bfe_i32 s55, s10, 0x80008
 ; GFX6-NOHSA-NEXT:    s_sext_i32_i8 s10, s10
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s56, s11, 24
-; GFX6-NOHSA-NEXT:    s_bfe_i32 s57, s11, 0x80010
-; GFX6-NOHSA-NEXT:    s_bfe_i32 s58, s11, 0x80008
-; GFX6-NOHSA-NEXT:    s_sext_i32_i8 s11, s11
-; GFX6-NOHSA-NEXT:    s_bfe_i32 s59, s12, 0x80010
-; GFX6-NOHSA-NEXT:    s_bfe_i32 s60, s12, 0x80008
-; GFX6-NOHSA-NEXT:    s_sext_i32_i8 s61, s12
+; GFX6-NOHSA-NEXT:    s_bfe_i32 s56, s11, 0x80010
+; GFX6-NOHSA-NEXT:    s_bfe_i32 s57, s11, 0x80008
+; GFX6-NOHSA-NEXT:    s_sext_i32_i8 s58, s11
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s59, s12, 24
+; GFX6-NOHSA-NEXT:    s_bfe_i32 s60, s12, 0x80010
+; GFX6-NOHSA-NEXT:    s_bfe_i32 s61, s12, 0x80008
+; GFX6-NOHSA-NEXT:    s_sext_i32_i8 s12, s12
 ; GFX6-NOHSA-NEXT:    s_ashr_i32 s62, s13, 24
 ; GFX6-NOHSA-NEXT:    s_bfe_i32 s63, s13, 0x80010
 ; GFX6-NOHSA-NEXT:    s_bfe_i32 s64, s13, 0x80008
+; GFX6-NOHSA-NEXT:    s_sext_i32_i8 s13, s13
 ; GFX6-NOHSA-NEXT:    s_ashr_i32 s65, s14, 24
 ; GFX6-NOHSA-NEXT:    s_bfe_i32 s66, s14, 0x80010
 ; GFX6-NOHSA-NEXT:    s_bfe_i32 s67, s14, 0x80008
@@ -4253,8 +4253,7 @@ define amdgpu_kernel void @constant_sextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NOHSA-NEXT:    s_bfe_i32 s69, s15, 0x80010
 ; GFX6-NOHSA-NEXT:    s_bfe_i32 s70, s15, 0x80008
 ; GFX6-NOHSA-NEXT:    s_sext_i32_i8 s15, s15
-; GFX6-NOHSA-NEXT:    s_sext_i32_i8 s13, s13
-; GFX6-NOHSA-NEXT:    s_ashr_i32 s12, s12, 24
+; GFX6-NOHSA-NEXT:    s_ashr_i32 s11, s11, 24
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s0, s16
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s1, s17
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s3, 0xf000
@@ -4271,25 +4270,24 @@ define amdgpu_kernel void @constant_sextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s64
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s63
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s62
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s61
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s60
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s59
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s12
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s61
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s60
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s59
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s58
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s57
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s56
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s12
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(3)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s11
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s58
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s57
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s56
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:176
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s10
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s11
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s55
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s54
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s53
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:208
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:192
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:176
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:160
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s9
@@ -4380,7 +4378,8 @@ define amdgpu_kernel void @constant_sextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_ashr_i32 s37, s6, 24
 ; GFX7-HSA-NEXT:    s_bfe_i32 s38, s6, 0x80010
 ; GFX7-HSA-NEXT:    s_bfe_i32 s39, s6, 0x80008
-; GFX7-HSA-NEXT:    s_ashr_i32 s40, s7, 24
+; GFX7-HSA-NEXT:    s_sext_i32_i8 s40, s6
+; GFX7-HSA-NEXT:    s_ashr_i32 s6, s7, 24
 ; GFX7-HSA-NEXT:    s_bfe_i32 s41, s7, 0x80010
 ; GFX7-HSA-NEXT:    s_bfe_i32 s42, s7, 0x80008
 ; GFX7-HSA-NEXT:    s_ashr_i32 s43, s8, 24
@@ -4411,104 +4410,103 @@ define amdgpu_kernel void @constant_sextload_v64i8_to_v64i32(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xf0
 ; GFX7-HSA-NEXT:    s_sext_i32_i8 s50, s9
 ; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s9
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s8
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s8
 ; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xe0
 ; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s9
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s8
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v21, s8
 ; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xd0
 ; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s9
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s8
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s8
 ; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xc0
 ; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v29, s9
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s8
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s8
 ; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xb0
 ; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v31, s9
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v30, s8
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s9
+; GFX7-HSA-NEXT:    s_sext_i32_i8 s13, s13
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s8
 ; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0xa0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s13
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s62
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s61
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s60
 ; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v33, s9
-; GFX7-HSA-NEXT:    s_sext_i32_i8 s14, s14
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v32, s8
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[23:24], v[8:11]
+; GFX7-HSA-NEXT:    s_sext_i32_i8 s12, s12
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s8
 ; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0x90
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s14
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s65
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s64
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s63
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s12
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s59
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s58
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s57
 ; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[4:7]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s9
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s8
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[25:26], v[12:15]
+; GFX7-HSA-NEXT:    s_sext_i32_i8 s15, s15
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s8
 ; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0x80
 ; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
+; GFX7-HSA-NEXT:    s_sext_i32_i8 s7, s7
 ; GFX7-HSA-NEXT:    s_sext_i32_i8 s11, s11
-; GFX7-HSA-NEXT:    s_sext_i32_i8 s12, s12
-; GFX7-HSA-NEXT:    s_sext_i32_i8 s13, s13
-; GFX7-HSA-NEXT:    s_sext_i32_i8 s15, s15
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v35, s9
-; GFX7-HSA-NEXT:    s_sext_i32_i8 s10, s10
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s15
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s68
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s67
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s66
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s13
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s62
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s61
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s60
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s12
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s59
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s58
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s57
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s6
+; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x70
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s11
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s56
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s55
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[19:20], v[0:3]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s54
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v34, s8
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s7
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[27:28], v[16:19]
+; GFX7-HSA-NEXT:    s_sext_i32_i8 s14, s14
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s7
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s6
+; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x60
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
+; GFX7-HSA-NEXT:    s_sext_i32_i8 s10, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s14
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s65
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s64
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s63
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s7
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s50
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[21:22], v[4:7]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s53
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s52
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s51
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v21, s49
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s48
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s46
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s47
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s45
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s9
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s6
+; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x50
+; GFX7-HSA-NEXT:    s_sext_i32_i8 s5, s5
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s8
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s44
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s43
-; GFX7-HSA-NEXT:    s_add_u32 s8, s16, 0x70
-; GFX7-HSA-NEXT:    s_sext_i32_i8 s7, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v21, s53
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[22:23], v[0:3]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s52
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s50
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s51
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s49
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[26:27], v[8:11]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s48
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[28:29], v[12:15]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s47
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[30:31], v[16:19]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[32:33], v[20:23]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[0:3]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[34:35], v[4:7]
-; GFX7-HSA-NEXT:    s_addc_u32 s9, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s8
-; GFX7-HSA-NEXT:    s_sext_i32_i8 s6, s6
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s42
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s41
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s40
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s9
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_sext_i32_i8 s5, s5
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s6
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x60
-; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[9:10], v[0:3]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s42
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s40
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s41
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s39
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s38
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s37
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
-; GFX7-HSA-NEXT:    s_add_u32 s6, s16, 0x50
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[12:13], v[20:23]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[14:15], v[4:7]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[16:17], v[8:11]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[18:19], v[0:3]
 ; GFX7-HSA-NEXT:    s_addc_u32 s7, s17, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    s_sext_i32_i8 s4, s4
@@ -6819,80 +6817,82 @@ define amdgpu_kernel void @constant_sextload_v16i8_to_v16i64(ptr addrspace(1) %o
 ; GFX6-NOHSA:       ; %bb.0:
 ; GFX6-NOHSA-NEXT:    s_load_dwordx4 s[0:3], s[4:5], 0x9
 ; GFX6-NOHSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX6-NOHSA-NEXT:    s_load_dwordx4 s[4:7], s[2:3], 0x0
+; GFX6-NOHSA-NEXT:    s_load_dwordx4 s[8:11], s[2:3], 0x0
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s3, 0xf000
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s2, -1
 ; GFX6-NOHSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s8, s7, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s10, s7, 8
-; GFX6-NOHSA-NEXT:    s_mov_b32 s12, s7
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s14, s6, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s16, s6, 24
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s18, s6, 8
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s20, s5, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s22, s5, 8
-; GFX6-NOHSA-NEXT:    s_mov_b32 s24, s5
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s26, s4, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s28, s4, 24
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s30, s4, 8
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[34:35], s[4:5], 0x80000
-; GFX6-NOHSA-NEXT:    s_ashr_i64 s[36:37], s[4:5], 56
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[38:39], s[6:7], 0x80000
-; GFX6-NOHSA-NEXT:    s_ashr_i64 s[40:41], s[6:7], 56
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[4:5], s[30:31], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[6:7], s[28:29], 0x80000
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s12, s11, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s14, s11, 8
+; GFX6-NOHSA-NEXT:    s_mov_b32 s4, s11
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s16, s10, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s18, s10, 24
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s20, s10, 8
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s22, s9, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s24, s9, 8
+; GFX6-NOHSA-NEXT:    s_mov_b32 s26, s9
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s28, s8, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s30, s8, 24
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s34, s8, 8
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[6:7], s[8:9], 0x80000
+; GFX6-NOHSA-NEXT:    s_ashr_i64 s[36:37], s[8:9], 56
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[38:39], s[10:11], 0x80000
+; GFX6-NOHSA-NEXT:    s_ashr_i64 s[10:11], s[10:11], 56
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[40:41], s[4:5], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[4:5], s[34:35], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[8:9], s[30:31], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[16:17], s[16:17], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[14:15], s[14:15], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[8:9], s[8:9], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x80000
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s40
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s41
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s12
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s13
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s10
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s11
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s40
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s41
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s38
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s39
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s36
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s37
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s24
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s25
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s34
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s35
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s8
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s9
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s26
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s27
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s12
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s13
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:112
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s10
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s11
+; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s6
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s7
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s14
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s15
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:96
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(1)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s14
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s15
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s16
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s17
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:80
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s18
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s19
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:64
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s18
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s19
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:80
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s20
 ; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s21
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:64
+; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s22
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s23
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:48
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s22
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s23
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s24
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s25
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:32
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s26
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s27
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s6
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s7
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v20, s4
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v21, s5
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[18:21], off, s[0:3], 0
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s28
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s29
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s8
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s9
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[2:5], off, s[0:3], 0 offset:16
+; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s4
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s5
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
 ; GFX6-NOHSA-NEXT:    s_endpgm
 ;
 ; GFX7-HSA-LABEL: constant_sextload_v16i8_to_v16i64:
@@ -6901,26 +6901,30 @@ define amdgpu_kernel void @constant_sextload_v16i8_to_v16i64(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX7-HSA-NEXT:    s_load_dwordx4 s[4:7], s[2:3], 0x0
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX7-HSA-NEXT:    s_lshr_b32 s10, s7, 16
-; GFX7-HSA-NEXT:    s_lshr_b32 s12, s7, 8
-; GFX7-HSA-NEXT:    s_mov_b32 s14, s7
-; GFX7-HSA-NEXT:    s_lshr_b32 s16, s6, 16
-; GFX7-HSA-NEXT:    s_lshr_b32 s18, s6, 24
-; GFX7-HSA-NEXT:    s_lshr_b32 s20, s6, 8
-; GFX7-HSA-NEXT:    s_lshr_b32 s22, s5, 16
-; GFX7-HSA-NEXT:    s_lshr_b32 s24, s5, 8
-; GFX7-HSA-NEXT:    s_mov_b32 s26, s5
-; GFX7-HSA-NEXT:    s_lshr_b32 s8, s4, 16
+; GFX7-HSA-NEXT:    s_lshr_b32 s8, s7, 16
+; GFX7-HSA-NEXT:    s_lshr_b32 s10, s7, 8
+; GFX7-HSA-NEXT:    s_mov_b32 s12, s7
+; GFX7-HSA-NEXT:    s_lshr_b32 s14, s6, 16
+; GFX7-HSA-NEXT:    s_lshr_b32 s16, s6, 24
+; GFX7-HSA-NEXT:    s_lshr_b32 s18, s6, 8
+; GFX7-HSA-NEXT:    s_lshr_b32 s20, s5, 16
+; GFX7-HSA-NEXT:    s_lshr_b32 s22, s5, 8
+; GFX7-HSA-NEXT:    s_mov_b32 s24, s5
+; GFX7-HSA-NEXT:    s_lshr_b32 s26, s4, 16
 ; GFX7-HSA-NEXT:    s_lshr_b32 s28, s4, 24
 ; GFX7-HSA-NEXT:    s_lshr_b32 s30, s4, 8
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[2:3], s[4:5], 0x80000
 ; GFX7-HSA-NEXT:    s_ashr_i64 s[34:35], s[4:5], 56
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[36:37], s[6:7], 0x80000
-; GFX7-HSA-NEXT:    s_ashr_i64 s[38:39], s[6:7], 56
+; GFX7-HSA-NEXT:    s_ashr_i64 s[4:5], s[6:7], 56
+; GFX7-HSA-NEXT:    s_bfe_i64 s[6:7], s[8:9], 0x80000
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s6
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s7
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s4
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s5
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[4:5], s[30:31], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[6:7], s[28:29], 0x80000
-; GFX7-HSA-NEXT:    s_bfe_i64 s[8:9], s[8:9], 0x80000
-; GFX7-HSA-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x80000
+; GFX7-HSA-NEXT:    s_bfe_i64 s[8:9], s[26:27], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x80000
@@ -6929,31 +6933,27 @@ define amdgpu_kernel void @constant_sextload_v16i8_to_v16i64(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[14:15], s[14:15], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x80000
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s10
-; GFX7-HSA-NEXT:    s_add_u32 s10, s0, 0x70
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s11
-; GFX7-HSA-NEXT:    s_addc_u32 s11, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s38
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s39
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s11
+; GFX7-HSA-NEXT:    s_add_u32 s26, s0, 0x70
+; GFX7-HSA-NEXT:    s_addc_u32 s27, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s10
 ; GFX7-HSA-NEXT:    s_add_u32 s10, s0, 0x60
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s26
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s11
 ; GFX7-HSA-NEXT:    s_addc_u32 s11, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s14
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s15
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s12
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s13
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s11
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s10
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s27
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s12
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s13
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s11
 ; GFX7-HSA-NEXT:    s_add_u32 s10, s0, 0x50
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
 ; GFX7-HSA-NEXT:    s_addc_u32 s11, s1, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s16
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s17
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s19
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s14
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s15
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s16
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s17
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s11
 ; GFX7-HSA-NEXT:    s_add_u32 s10, s0, 64
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
@@ -6961,15 +6961,15 @@ define amdgpu_kernel void @constant_sextload_v16i8_to_v16i64(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s10
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s36
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s37
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s20
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s21
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s19
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s11
 ; GFX7-HSA-NEXT:    s_add_u32 s10, s0, 48
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_addc_u32 s11, s1, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s22
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s23
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s20
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s21
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s34
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s35
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s11
@@ -6977,10 +6977,10 @@ define amdgpu_kernel void @constant_sextload_v16i8_to_v16i64(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_addc_u32 s11, s1, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s10
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s26
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s27
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s24
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s25
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s24
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s25
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s22
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s23
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s11
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
@@ -7390,143 +7390,144 @@ define amdgpu_kernel void @constant_zextload_v32i8_to_v32i64(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, v1
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX7-HSA-NEXT:    s_load_dwordx8 s[4:11], s[2:3], 0x0
+; GFX7-HSA-NEXT:    s_load_dwordx8 s[8:15], s[2:3], 0x0
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX7-HSA-NEXT:    s_lshr_b32 s12, s4, 24
-; GFX7-HSA-NEXT:    s_lshr_b32 s13, s5, 24
-; GFX7-HSA-NEXT:    s_lshr_b32 s14, s6, 24
-; GFX7-HSA-NEXT:    s_lshr_b32 s15, s7, 24
 ; GFX7-HSA-NEXT:    s_lshr_b32 s16, s8, 24
 ; GFX7-HSA-NEXT:    s_lshr_b32 s17, s9, 24
 ; GFX7-HSA-NEXT:    s_lshr_b32 s18, s10, 24
 ; GFX7-HSA-NEXT:    s_lshr_b32 s19, s11, 24
-; GFX7-HSA-NEXT:    s_bfe_u32 s20, s11, 0x80008
-; GFX7-HSA-NEXT:    s_bfe_u32 s21, s10, 0x80008
-; GFX7-HSA-NEXT:    s_bfe_u32 s22, s9, 0x80008
-; GFX7-HSA-NEXT:    s_bfe_u32 s23, s8, 0x80008
-; GFX7-HSA-NEXT:    s_bfe_u32 s24, s7, 0x80008
-; GFX7-HSA-NEXT:    s_bfe_u32 s25, s6, 0x80008
-; GFX7-HSA-NEXT:    s_bfe_u32 s26, s5, 0x80008
-; GFX7-HSA-NEXT:    s_bfe_u32 s2, s4, 0x80008
-; GFX7-HSA-NEXT:    s_and_b32 s3, s4, 0xff
-; GFX7-HSA-NEXT:    s_and_b32 s27, s5, 0xff
-; GFX7-HSA-NEXT:    s_and_b32 s28, s6, 0xff
-; GFX7-HSA-NEXT:    s_and_b32 s29, s7, 0xff
-; GFX7-HSA-NEXT:    s_and_b32 s30, s8, 0xff
-; GFX7-HSA-NEXT:    s_and_b32 s31, s9, 0xff
-; GFX7-HSA-NEXT:    s_and_b32 s33, s10, 0xff
-; GFX7-HSA-NEXT:    s_and_b32 s34, s11, 0xff
-; GFX7-HSA-NEXT:    s_bfe_u32 s35, s4, 0x80010
-; GFX7-HSA-NEXT:    s_bfe_u32 s36, s5, 0x80010
-; GFX7-HSA-NEXT:    s_bfe_u32 s6, s6, 0x80010
-; GFX7-HSA-NEXT:    s_bfe_u32 s7, s7, 0x80010
+; GFX7-HSA-NEXT:    s_lshr_b32 s20, s12, 24
+; GFX7-HSA-NEXT:    s_lshr_b32 s21, s13, 24
+; GFX7-HSA-NEXT:    s_lshr_b32 s22, s14, 24
+; GFX7-HSA-NEXT:    s_lshr_b32 s23, s15, 24
+; GFX7-HSA-NEXT:    s_bfe_u32 s24, s15, 0x80008
+; GFX7-HSA-NEXT:    s_bfe_u32 s25, s14, 0x80008
+; GFX7-HSA-NEXT:    s_bfe_u32 s26, s13, 0x80008
+; GFX7-HSA-NEXT:    s_bfe_u32 s27, s12, 0x80008
+; GFX7-HSA-NEXT:    s_bfe_u32 s28, s11, 0x80008
+; GFX7-HSA-NEXT:    s_bfe_u32 s29, s10, 0x80008
+; GFX7-HSA-NEXT:    s_bfe_u32 s4, s9, 0x80008
+; GFX7-HSA-NEXT:    s_bfe_u32 s2, s8, 0x80008
+; GFX7-HSA-NEXT:    s_and_b32 s3, s8, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s5, s9, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s30, s10, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s31, s11, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s33, s12, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s34, s13, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s35, s14, 0xff
+; GFX7-HSA-NEXT:    s_and_b32 s36, s15, 0xff
 ; GFX7-HSA-NEXT:    s_bfe_u32 s8, s8, 0x80010
 ; GFX7-HSA-NEXT:    s_bfe_u32 s9, s9, 0x80010
 ; GFX7-HSA-NEXT:    s_bfe_u32 s10, s10, 0x80010
-; GFX7-HSA-NEXT:    s_bfe_u32 s4, s11, 0x80010
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s4
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0xf0
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_bfe_u32 s11, s11, 0x80010
+; GFX7-HSA-NEXT:    s_bfe_u32 s12, s12, 0x80010
+; GFX7-HSA-NEXT:    s_bfe_u32 s13, s13, 0x80010
+; GFX7-HSA-NEXT:    s_bfe_u32 s14, s14, 0x80010
+; GFX7-HSA-NEXT:    s_bfe_u32 s15, s15, 0x80010
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0xf0
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0xd0
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s6
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0xb0
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s7
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s6
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0x90
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s15
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s23
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s7
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s6
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s14
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s22
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[6:7], v[0:3]
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0x70
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s13
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s21
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s12
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s20
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[0:3]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s11
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s19
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0xd0
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0x50
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s10
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0xb0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 48
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s9
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s17
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0x90
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 16
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s8
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s16
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0x70
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s7
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s15
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0x50
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s6
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s14
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 48
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0xe0
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s36
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s13
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 16
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s24
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0xc0
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s35
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s12
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0xe0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s25
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0xa0
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s34
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s20
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0xc0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s26
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0x80
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s33
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s21
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0xa0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s27
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 0x60
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s31
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s22
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0x80
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s28
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
+; GFX7-HSA-NEXT:    s_add_u32 s6, s0, 64
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX7-HSA-NEXT:    s_addc_u32 s7, s1, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s6
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s30
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s23
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 0x60
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s29
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s24
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
-; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 64
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s29
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s7
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s28
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s25
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
+; GFX7-HSA-NEXT:    s_nop 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s4
 ; GFX7-HSA-NEXT:    s_add_u32 s4, s0, 32
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s5
 ; GFX7-HSA-NEXT:    s_addc_u32 s5, s1, 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s4
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s27
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s26
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s5
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s1
@@ -7976,74 +7977,85 @@ define amdgpu_kernel void @constant_sextload_v32i8_to_v32i64(ptr addrspace(1) %o
 ; GFX6-NOHSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX6-NOHSA-NEXT:    s_load_dwordx8 s[0:7], s[10:11], 0x0
 ; GFX6-NOHSA-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s46, s7, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s48, s7, 8
-; GFX6-NOHSA-NEXT:    s_mov_b32 s50, s7
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s10, s6, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s12, s6, 24
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s14, s6, 8
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s16, s5, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s18, s5, 8
-; GFX6-NOHSA-NEXT:    s_mov_b32 s44, s5
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s20, s4, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s22, s4, 24
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s24, s4, 8
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s26, s3, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s28, s3, 8
-; GFX6-NOHSA-NEXT:    s_mov_b32 s40, s3
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s30, s2, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s34, s2, 24
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s36, s2, 8
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s38, s1, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s42, s1, 8
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[58:59], s[50:51], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[60:61], s[44:45], 0x80000
-; GFX6-NOHSA-NEXT:    s_mov_b32 s62, s1
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s56, s0, 16
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s64, s0, 24
-; GFX6-NOHSA-NEXT:    s_lshr_b32 s66, s0, 8
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[44:45], s[0:1], 0x80000
-; GFX6-NOHSA-NEXT:    s_ashr_i64 s[50:51], s[0:1], 56
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[52:53], s[2:3], 0x80000
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s10, s7, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s28, s7, 8
+; GFX6-NOHSA-NEXT:    s_mov_b32 s38, s7
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s40, s6, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s30, s6, 24
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s36, s6, 8
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s12, s5, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s14, s5, 8
+; GFX6-NOHSA-NEXT:    s_mov_b32 s42, s5
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s16, s4, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s18, s4, 24
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s20, s4, 8
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s22, s3, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s24, s3, 8
+; GFX6-NOHSA-NEXT:    s_mov_b32 s34, s3
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s26, s2, 16
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[58:59], s[42:43], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[60:61], s[38:39], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[62:63], s[10:11], 0x80000
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s42, s2, 24
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s44, s2, 8
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s46, s1, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s48, s1, 8
+; GFX6-NOHSA-NEXT:    s_mov_b32 s54, s1
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s50, s0, 16
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s52, s0, 24
+; GFX6-NOHSA-NEXT:    s_lshr_b32 s56, s0, 8
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[10:11], s[0:1], 0x80000
+; GFX6-NOHSA-NEXT:    s_ashr_i64 s[38:39], s[0:1], 56
+; GFX6-NOHSA-NEXT:    s_ashr_i64 s[64:65], s[2:3], 56
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[66:67], s[4:5], 0x80000
 ; GFX6-NOHSA-NEXT:    s_ashr_i64 s[68:69], s[4:5], 56
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[70:71], s[6:7], 0x80000
 ; GFX6-NOHSA-NEXT:    s_ashr_i64 s[6:7], s[6:7], 56
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[4:5], s[4:5], 0x80000
-; GFX6-NOHSA-NEXT:    s_ashr_i64 s[54:55], s[2:3], 56
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[4:5], s[2:3], 0x80000
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s0, s8
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s1, s9
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s6
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s7
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s58
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s59
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s70
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s71
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s68
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s69
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s60
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s61
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s4
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s5
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s6
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s7
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s60
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s61
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s70
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s71
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s68
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s69
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s58
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s59
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s66
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s67
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v22, s64
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v23, s65
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s62
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s63
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s3, 0xf000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[4:5], s[46:47], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[6:7], s[48:49], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[6:7], s[40:41], 0x80000
 ; GFX6-NOHSA-NEXT:    s_mov_b32 s2, -1
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s4
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s5
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v18, s6
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v19, s7
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:240
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[46:47], s[62:63], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[48:49], s[40:41], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[4:5], s[66:67], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[6:7], s[64:65], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[8:9], s[56:57], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[40:41], s[42:43], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x80000
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v24, s6
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:240
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[8:9], s[36:37], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x80000
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s28
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s29
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v25, s7
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:224
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v26, s30
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v27, s31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s8
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s9
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[24:27], off, s[0:3], 0 offset:208
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[40:41], s[54:55], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[54:55], s[34:35], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[6:7], s[56:57], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[8:9], s[52:53], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[28:29], s[50:51], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[30:31], s[48:49], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[34:35], s[46:47], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[36:37], s[44:45], 0x80000
+; GFX6-NOHSA-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x80000
@@ -8052,81 +8064,65 @@ define amdgpu_kernel void @constant_sextload_v32i8_to_v32i64(ptr addrspace(1) %o
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[16:17], s[16:17], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[14:15], s[14:15], 0x80000
 ; GFX6-NOHSA-NEXT:    s_bfe_i64 s[12:13], s[12:13], 0x80000
-; GFX6-NOHSA-NEXT:    s_bfe_i64 s[10:11], s[10:11], 0x80000
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[16:19], off, s[0:3], 0 offset:224
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(1)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s10
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s11
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s12
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s13
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:208
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s54
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s55
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s14
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s15
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:192
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s48
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s49
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s16
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s17
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:176
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:192
+; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(3)
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s54
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s55
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s52
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s53
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s18
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s19
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:160
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s12
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s13
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:176
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s4
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s5
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s14
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s15
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:160
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s16
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s17
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s18
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s19
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:144
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s20
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s21
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s22
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s23
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:144
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s50
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s51
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s24
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s25
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:128
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s38
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s39
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v20, s20
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v21, s21
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[18:21], off, s[0:3], 0 offset:128
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s40
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s41
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v4, s46
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v5, s47
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s26
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s27
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0 offset:112
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v20, s22
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v21, s23
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[20:23], off, s[0:3], 0 offset:112
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s10
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s11
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s24
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s25
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:96
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s44
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s45
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v10, s28
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v11, s29
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[8:11], off, s[0:3], 0 offset:96
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s30
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s31
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s26
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s27
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s42
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s43
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:80
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s36
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s37
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:64
 ; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(0)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v8, s34
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v9, s35
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:80
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s36
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s37
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:64
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s38
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s39
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0 offset:48
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(2)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s40
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s41
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:32
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(2)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s8
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s9
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s6
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s7
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v6, s34
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v7, s35
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[6:9], off, s[0:3], 0 offset:48
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v12, s30
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v13, s31
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[10:13], off, s[0:3], 0 offset:32
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v0, s28
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v1, s29
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v2, s8
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v3, s9
 ; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
-; GFX6-NOHSA-NEXT:    s_waitcnt expcnt(2)
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v14, s4
-; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v15, s5
-; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[12:15], off, s[0:3], 0
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v16, s6
+; GFX6-NOHSA-NEXT:    v_mov_b32_e32 v17, s7
+; GFX6-NOHSA-NEXT:    buffer_store_dwordx4 v[14:17], off, s[0:3], 0
 ; GFX6-NOHSA-NEXT:    s_endpgm
 ;
 ; GFX7-HSA-LABEL: constant_sextload_v32i8_to_v32i64:
@@ -8136,33 +8132,33 @@ define amdgpu_kernel void @constant_sextload_v32i8_to_v32i64(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_load_dwordx8 s[0:7], s[10:11], 0x0
 ; GFX7-HSA-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX7-HSA-NEXT:    s_lshr_b32 s14, s7, 16
-; GFX7-HSA-NEXT:    s_lshr_b32 s48, s7, 8
-; GFX7-HSA-NEXT:    s_mov_b32 s50, s7
-; GFX7-HSA-NEXT:    s_lshr_b32 s52, s6, 16
-; GFX7-HSA-NEXT:    s_lshr_b32 s54, s6, 24
-; GFX7-HSA-NEXT:    s_lshr_b32 s56, s6, 8
-; GFX7-HSA-NEXT:    s_lshr_b32 s58, s5, 16
-; GFX7-HSA-NEXT:    s_lshr_b32 s60, s5, 8
+; GFX7-HSA-NEXT:    s_lshr_b32 s50, s7, 8
+; GFX7-HSA-NEXT:    s_mov_b32 s52, s7
+; GFX7-HSA-NEXT:    s_lshr_b32 s54, s6, 16
+; GFX7-HSA-NEXT:    s_lshr_b32 s56, s6, 24
+; GFX7-HSA-NEXT:    s_lshr_b32 s58, s6, 8
+; GFX7-HSA-NEXT:    s_lshr_b32 s60, s5, 16
+; GFX7-HSA-NEXT:    s_lshr_b32 s48, s5, 8
 ; GFX7-HSA-NEXT:    s_mov_b32 s62, s5
-; GFX7-HSA-NEXT:    s_lshr_b32 s44, s4, 16
+; GFX7-HSA-NEXT:    s_lshr_b32 s42, s4, 16
 ; GFX7-HSA-NEXT:    s_lshr_b32 s40, s4, 24
 ; GFX7-HSA-NEXT:    s_lshr_b32 s38, s4, 8
 ; GFX7-HSA-NEXT:    s_lshr_b32 s36, s3, 16
 ; GFX7-HSA-NEXT:    s_lshr_b32 s30, s3, 8
 ; GFX7-HSA-NEXT:    s_mov_b32 s34, s3
-; GFX7-HSA-NEXT:    s_lshr_b32 s28, s2, 16
-; GFX7-HSA-NEXT:    s_lshr_b32 s26, s2, 24
+; GFX7-HSA-NEXT:    s_lshr_b32 s26, s2, 16
+; GFX7-HSA-NEXT:    s_lshr_b32 s24, s2, 24
 ; GFX7-HSA-NEXT:    s_lshr_b32 s22, s2, 8
-; GFX7-HSA-NEXT:    s_lshr_b32 s18, s1, 16
+; GFX7-HSA-NEXT:    s_lshr_b32 s20, s1, 16
 ; GFX7-HSA-NEXT:    s_lshr_b32 s64, s1, 8
 ; GFX7-HSA-NEXT:    s_mov_b32 s16, s1
 ; GFX7-HSA-NEXT:    s_lshr_b32 s66, s0, 16
 ; GFX7-HSA-NEXT:    s_lshr_b32 s68, s0, 24
 ; GFX7-HSA-NEXT:    s_lshr_b32 s70, s0, 8
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[12:13], s[2:3], 0x80000
-; GFX7-HSA-NEXT:    s_ashr_i64 s[20:21], s[2:3], 56
-; GFX7-HSA-NEXT:    s_bfe_i64 s[24:25], s[4:5], 0x80000
-; GFX7-HSA-NEXT:    s_ashr_i64 s[42:43], s[4:5], 56
+; GFX7-HSA-NEXT:    s_ashr_i64 s[18:19], s[2:3], 56
+; GFX7-HSA-NEXT:    s_bfe_i64 s[28:29], s[4:5], 0x80000
+; GFX7-HSA-NEXT:    s_ashr_i64 s[44:45], s[4:5], 56
 ; GFX7-HSA-NEXT:    s_ashr_i64 s[2:3], s[6:7], 56
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[4:5], s[14:15], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[10:11], s[0:1], 0x80000
@@ -8177,118 +8173,118 @@ define amdgpu_kernel void @constant_sextload_v32i8_to_v32i64(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[6:7], s[66:67], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[16:17], s[16:17], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[14:15], s[64:65], 0x80000
-; GFX7-HSA-NEXT:    s_bfe_i64 s[18:19], s[18:19], 0x80000
+; GFX7-HSA-NEXT:    s_bfe_i64 s[20:21], s[20:21], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[22:23], s[22:23], 0x80000
+; GFX7-HSA-NEXT:    s_bfe_i64 s[24:25], s[24:25], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[26:27], s[26:27], 0x80000
-; GFX7-HSA-NEXT:    s_bfe_i64 s[28:29], s[28:29], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[34:35], s[34:35], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[30:31], s[30:31], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[36:37], s[36:37], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[38:39], s[38:39], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[40:41], s[40:41], 0x80000
-; GFX7-HSA-NEXT:    s_bfe_i64 s[44:45], s[44:45], 0x80000
+; GFX7-HSA-NEXT:    s_bfe_i64 s[42:43], s[42:43], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[62:63], s[62:63], 0x80000
+; GFX7-HSA-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[60:61], s[60:61], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[58:59], s[58:59], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[56:57], s[56:57], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[54:55], s[54:55], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[52:53], s[52:53], 0x80000
 ; GFX7-HSA-NEXT:    s_bfe_i64 s[50:51], s[50:51], 0x80000
-; GFX7-HSA-NEXT:    s_bfe_i64 s[48:49], s[48:49], 0x80000
 ; GFX7-HSA-NEXT:    s_add_u32 s64, s8, 0xf0
 ; GFX7-HSA-NEXT:    s_addc_u32 s65, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s48
-; GFX7-HSA-NEXT:    s_add_u32 s48, s8, 0xe0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s49
-; GFX7-HSA-NEXT:    s_addc_u32 s49, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s48
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s49
-; GFX7-HSA-NEXT:    s_add_u32 s48, s8, 0xd0
-; GFX7-HSA-NEXT:    s_addc_u32 s49, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s46
-; GFX7-HSA-NEXT:    s_add_u32 s46, s8, 0xc0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s47
-; GFX7-HSA-NEXT:    s_addc_u32 s47, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s42
-; GFX7-HSA-NEXT:    s_add_u32 s42, s8, 0xb0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s43
-; GFX7-HSA-NEXT:    s_addc_u32 s43, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v30, s42
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s50
+; GFX7-HSA-NEXT:    s_add_u32 s50, s8, 0xe0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s51
+; GFX7-HSA-NEXT:    s_addc_u32 s51, s9, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s50
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s51
+; GFX7-HSA-NEXT:    s_add_u32 s50, s8, 0xd0
+; GFX7-HSA-NEXT:    s_addc_u32 s51, s9, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s44
+; GFX7-HSA-NEXT:    s_add_u32 s44, s8, 0xc0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s45
+; GFX7-HSA-NEXT:    s_addc_u32 s45, s9, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s44
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s64
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v31, s43
-; GFX7-HSA-NEXT:    s_add_u32 s42, s8, 0xa0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v29, s45
+; GFX7-HSA-NEXT:    s_add_u32 s44, s8, 0xb0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s65
-; GFX7-HSA-NEXT:    s_addc_u32 s43, s9, 0
+; GFX7-HSA-NEXT:    s_addc_u32 s45, s9, 0
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[22:23], v[0:3]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s50
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s40
-; GFX7-HSA-NEXT:    s_add_u32 s40, s8, 0x90
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s51
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s48
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s41
-; GFX7-HSA-NEXT:    s_addc_u32 s41, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s52
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s53
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s54
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s55
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s49
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v28, s46
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s52
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s42
+; GFX7-HSA-NEXT:    s_add_u32 s42, s8, 0xa0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s53
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s50
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s43
+; GFX7-HSA-NEXT:    s_addc_u32 s43, s9, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s54
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s55
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s56
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s57
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s51
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[4:7]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s56
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s24
-; GFX7-HSA-NEXT:    s_add_u32 s24, s8, 0x80
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s57
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v29, s47
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s58
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s59
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v32, s42
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[26:27], v[8:11]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s25
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s40
-; GFX7-HSA-NEXT:    s_addc_u32 s25, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s24
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s28
+; GFX7-HSA-NEXT:    s_add_u32 s28, s8, 0x90
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s29
+; GFX7-HSA-NEXT:    s_addc_u32 s29, s9, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v24, s28
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s42
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v25, s29
+; GFX7-HSA-NEXT:    s_add_u32 s28, s8, 0x80
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v20, s62
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v21, s63
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v33, s43
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s60
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s61
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s44
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s45
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s41
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v22, s48
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v23, s49
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v30, s44
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s43
+; GFX7-HSA-NEXT:    s_addc_u32 s29, s9, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s60
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s61
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v31, s45
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[20:23]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v10, s18
+; GFX7-HSA-NEXT:    s_add_u32 s18, s8, 0x70
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[30:31], v[16:19]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s19
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s9, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v16, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v17, s19
+; GFX7-HSA-NEXT:    s_add_u32 s18, s8, 0x60
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s9, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v18, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s46
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s47
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s58
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s59
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s40
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s41
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v26, s28
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v19, s19
+; GFX7-HSA-NEXT:    s_add_u32 s18, s8, 0x50
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[28:29], v[12:15]
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v27, s29
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v6, s38
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v7, s39
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v11, s25
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[30:31], v[16:19]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[32:33], v[20:23]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s20
-; GFX7-HSA-NEXT:    s_add_u32 s20, s8, 0x70
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s21
-; GFX7-HSA-NEXT:    s_addc_u32 s21, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s20
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s36
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s37
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s21
-; GFX7-HSA-NEXT:    s_add_u32 s20, s8, 0x60
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s21, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s20
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s34
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s35
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s30
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s31
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s21
-; GFX7-HSA-NEXT:    s_add_u32 s20, s8, 0x50
-; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
-; GFX7-HSA-NEXT:    s_addc_u32 s21, s9, 0
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s20
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s28
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s29
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s26
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s27
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s21
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v8, s36
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v9, s37
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v12, s34
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v13, s35
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v14, s30
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v15, s31
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[24:25], v[0:3]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[26:27], v[4:7]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[16:17], v[8:11]
+; GFX7-HSA-NEXT:    flat_store_dwordx4 v[18:19], v[12:15]
+; GFX7-HSA-NEXT:    s_addc_u32 s19, s9, 0
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s18
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s26
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s27
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v2, s24
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v3, s25
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s19
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    s_nop 0
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s12
@@ -8308,8 +8304,8 @@ define amdgpu_kernel void @constant_sextload_v32i8_to_v32i64(ptr addrspace(1) %o
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s1
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v4, s0
 ; GFX7-HSA-NEXT:    s_add_u32 s0, s8, 32
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s18
-; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s19
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v0, s20
+; GFX7-HSA-NEXT:    v_mov_b32_e32 v1, s21
 ; GFX7-HSA-NEXT:    s_addc_u32 s1, s9, 0
 ; GFX7-HSA-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GFX7-HSA-NEXT:    v_mov_b32_e32 v5, s1
diff --git a/llvm/test/CodeGen/AMDGPU/load-global-i16.ll b/llvm/test/CodeGen/AMDGPU/load-global-i16.ll
index 64f1f45bf734c..4217384cdd5ce 100644
--- a/llvm/test/CodeGen/AMDGPU/load-global-i16.ll
+++ b/llvm/test/CodeGen/AMDGPU/load-global-i16.ll
@@ -8733,4 +8733,4 @@ define amdgpu_kernel void @global_sextload_v32i16_to_v32i64(ptr addrspace(1) %ou
 ;   ret void
 ; }
 
-attributes #0 = { nounwind }
+attributes #0 = { nounwind "amdgpu-flat-work-group-size"="1024,1024" }
diff --git a/llvm/test/CodeGen/AMDGPU/load-global-i32.ll b/llvm/test/CodeGen/AMDGPU/load-global-i32.ll
index 8f6a1f8c01ec3..5ce8a2b5f862e 100644
--- a/llvm/test/CodeGen/AMDGPU/load-global-i32.ll
+++ b/llvm/test/CodeGen/AMDGPU/load-global-i32.ll
@@ -4645,4 +4645,4 @@ define amdgpu_kernel void @global_load_v32i32(ptr addrspace(1) %out, ptr addrspa
   ret void
 }
 
-attributes #0 = { nounwind }
+attributes #0 = { nounwind "amdgpu-flat-work-group-size"="1024,1024" }
diff --git a/llvm/test/CodeGen/AMDGPU/local-atomicrmw-fadd.ll b/llvm/test/CodeGen/AMDGPU/local-atomicrmw-fadd.ll
index 23b57a7efa586..e4602f20f8a37 100644
--- a/llvm/test/CodeGen/AMDGPU/local-atomicrmw-fadd.ll
+++ b/llvm/test/CodeGen/AMDGPU/local-atomicrmw-fadd.ll
@@ -5034,8 +5034,10 @@ define <2 x half> @local_atomic_fadd_ret_v2f16(ptr addrspace(3) %ptr, <2 x half>
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v3, v2
-; GFX8-NEXT:    v_add_f16_sdwa v2, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v2, 16, v3
+; GFX8-NEXT:    v_add_f16_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v4, v3, v1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
 ; GFX8-NEXT:    v_or_b32_e32 v2, v4, v2
 ; GFX8-NEXT:    ds_cmpst_rtn_b32 v2, v0, v3, v2
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
@@ -5257,8 +5259,10 @@ define <2 x half> @local_atomic_fadd_ret_v2f16__offset(ptr addrspace(3) %ptr, <2
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v3, v2
-; GFX8-NEXT:    v_add_f16_sdwa v2, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v2, 16, v3
+; GFX8-NEXT:    v_add_f16_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v4, v3, v1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
 ; GFX8-NEXT:    v_or_b32_e32 v2, v4, v2
 ; GFX8-NEXT:    ds_cmpst_rtn_b32 v2, v0, v3, v2 offset:65532
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
@@ -5474,8 +5478,10 @@ define void @local_atomic_fadd_noret_v2f16(ptr addrspace(3) %ptr, <2 x half> %va
 ; GFX8-NEXT:  .LBB22_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v2
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v4, v2, v1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v4, v3
 ; GFX8-NEXT:    ds_cmpst_rtn_b32 v3, v0, v2, v3
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
@@ -5688,8 +5694,10 @@ define void @local_atomic_fadd_noret_v2f16__offset(ptr addrspace(3) %ptr, <2 x h
 ; GFX8-NEXT:  .LBB23_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX8-NEXT:    v_add_f16_sdwa v3, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v2
+; GFX8-NEXT:    v_add_f16_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_add_f16_e32 v4, v2, v1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v4, v3
 ; GFX8-NEXT:    ds_cmpst_rtn_b32 v3, v0, v2, v3 offset:65532
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
diff --git a/llvm/test/CodeGen/AMDGPU/local-atomicrmw-fsub.ll b/llvm/test/CodeGen/AMDGPU/local-atomicrmw-fsub.ll
index 1b08b64b046b4..967e972e53e29 100644
--- a/llvm/test/CodeGen/AMDGPU/local-atomicrmw-fsub.ll
+++ b/llvm/test/CodeGen/AMDGPU/local-atomicrmw-fsub.ll
@@ -5532,8 +5532,10 @@ define <2 x half> @local_atomic_fsub_ret_v2f16(ptr addrspace(3) %ptr, <2 x half>
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v3, v2
-; GFX8-NEXT:    v_sub_f16_sdwa v2, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v2, 16, v3
+; GFX8-NEXT:    v_sub_f16_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v4, v3, v1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
 ; GFX8-NEXT:    v_or_b32_e32 v2, v4, v2
 ; GFX8-NEXT:    ds_cmpst_rtn_b32 v2, v0, v3, v2
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
@@ -5787,8 +5789,10 @@ define <2 x half> @local_atomic_fsub_ret_v2f16__offset(ptr addrspace(3) %ptr, <2
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX8-NEXT:    v_mov_b32_e32 v3, v2
-; GFX8-NEXT:    v_sub_f16_sdwa v2, v3, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v2, 16, v3
+; GFX8-NEXT:    v_sub_f16_sdwa v2, v2, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v4, v3, v1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
 ; GFX8-NEXT:    v_or_b32_e32 v2, v4, v2
 ; GFX8-NEXT:    ds_cmpst_rtn_b32 v2, v0, v3, v2 offset:65532
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
@@ -6033,8 +6037,10 @@ define void @local_atomic_fsub_noret_v2f16(ptr addrspace(3) %ptr, <2 x half> %va
 ; GFX8-NEXT:  .LBB22_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v2
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v4, v2, v1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v4, v3
 ; GFX8-NEXT:    ds_cmpst_rtn_b32 v3, v0, v2, v3
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
@@ -6276,8 +6282,10 @@ define void @local_atomic_fsub_noret_v2f16__offset(ptr addrspace(3) %ptr, <2 x h
 ; GFX8-NEXT:  .LBB23_1: ; %atomicrmw.start
 ; GFX8-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX8-NEXT:    v_sub_f16_sdwa v3, v2, v1 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
+; GFX8-NEXT:    v_lshrrev_b32_e32 v3, 16, v2
+; GFX8-NEXT:    v_sub_f16_sdwa v3, v3, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
 ; GFX8-NEXT:    v_sub_f16_e32 v4, v2, v1
+; GFX8-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; GFX8-NEXT:    v_or_b32_e32 v3, v4, v3
 ; GFX8-NEXT:    ds_cmpst_rtn_b32 v3, v0, v2, v3 offset:65532
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
diff --git a/llvm/test/CodeGen/AMDGPU/lower-indirect-lds-references.ll b/llvm/test/CodeGen/AMDGPU/lower-indirect-lds-references.ll
new file mode 100644
index 0000000000000..1b0c8d66d3ebc
--- /dev/null
+++ b/llvm/test/CodeGen/AMDGPU/lower-indirect-lds-references.ll
@@ -0,0 +1,44 @@
+; RUN: opt -S -mtriple=amdgcn-- -passes=amdgpu-lower-module-lds < %s | FileCheck %s
+
+; Tests that the LDS lowering pass handles indirect references to LDS GVs; i.e.
+; that it lowers to accesses into the generated LDS struct if these references
+; are deep in the call graph starting at the kernel.
+
+@lds_item_to_indirectly_load = internal addrspace(3) global ptr poison, align 8
+
+%store_type = type { i32, ptr }
+@place_to_store_indirect_caller = internal addrspace(3) global %store_type poison, align 8
+
+define amdgpu_kernel void @offloading_kernel() {
+  store ptr @indirectly_load_lds, ptr addrspace(3) getelementptr inbounds nuw (i8, ptr addrspace(3) @place_to_store_indirect_caller, i32 0), align 8
+  call void @call_unknown()
+  ret void
+}
+
+define void @call_unknown() {
+  %1 = alloca ptr, align 8
+  %2 = call i32 %1()
+  ret void
+}
+
+define void @indirectly_load_lds() {
+  call void @directly_load_lds()
+  ret void
+}
+
+define void @directly_load_lds() {
+  %2 = load ptr, ptr addrspace(3) @lds_item_to_indirectly_load, align 8
+  ret void
+}
+
+; CHECK: %[[LDS_STRUCT_TY:.*]] = type { %store_type, ptr }
+; CHECK: @[[LDS_STRUCT:.*]] = {{.*}} %[[LDS_STRUCT_TY]] {{.*}} !absolute_symbol
+
+; CHECK: define amdgpu_kernel void @offloading_kernel() {{.*}} {
+; CHECK:   store ptr @indirectly_load_lds, {{.*}} @[[LDS_STRUCT]]
+; CHECK:   call void @call_unknown()
+; CHECK: }
+
+; CHECK: define void @directly_load_lds() {
+; CHECK:   load ptr, {{.*}} (%[[LDS_STRUCT_TY]], {{.*}} @[[LDS_STRUCT]], i32 0, i32 1)
+; CHECK: }
diff --git a/llvm/test/CodeGen/AMDGPU/machine-scheduler-sink-trivial-remats.mir b/llvm/test/CodeGen/AMDGPU/machine-scheduler-sink-trivial-remats.mir
index 018da7f81e3d4..9f264de531950 100644
--- a/llvm/test/CodeGen/AMDGPU/machine-scheduler-sink-trivial-remats.mir
+++ b/llvm/test/CodeGen/AMDGPU/machine-scheduler-sink-trivial-remats.mir
@@ -139,16 +139,16 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_]], implicit [[V_CVT_I32_F64_e32_1]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_2]], implicit [[V_CVT_I32_F64_e32_3]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_4]], implicit [[V_CVT_I32_F64_e32_5]]
@@ -248,14 +248,14 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_]], implicit [[V_CVT_I32_F64_e32_1]]
@@ -356,15 +356,15 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_22]], implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]], implicit [[V_CVT_I32_F64_e32_22]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_]], implicit [[V_CVT_I32_F64_e32_1]]
@@ -464,27 +464,27 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
   ; GFX908-NEXT:   successors: %bb.3(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_25:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 25, implicit $exec, implicit $mode
   ; GFX908-NEXT:   S_NOP 0
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.3:
   ; GFX908-NEXT:   successors: %bb.4(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_26:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 26, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_26]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_25:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 26, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_25]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_26:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 25, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_26]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.4:
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_]], implicit [[V_CVT_I32_F64_e32_1]]
@@ -600,29 +600,29 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]], implicit [[V_CVT_I32_F64_e32_22]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_22]], implicit [[V_CVT_I32_F64_e32_24]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
   ; GFX908-NEXT:   successors: %bb.3(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_25:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 25, implicit $exec, implicit $mode
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_26:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 26, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_25:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 26, implicit $exec, implicit $mode
   ; GFX908-NEXT:   S_NOP 0
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.3:
   ; GFX908-NEXT:   successors: %bb.4(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_27:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 27, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_27]]
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_25]], implicit [[V_CVT_I32_F64_e32_26]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_26:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 27, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_26]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_27:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 25, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_27]], implicit [[V_CVT_I32_F64_e32_25]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.4:
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_]], implicit [[V_CVT_I32_F64_e32_1]]
@@ -722,6 +722,7 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 0, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_1:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 1, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_2:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 2, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CMP_GT_U32_e64_:%[0-9]+]]:sreg_64 = V_CMP_GT_U32_e64 [[S_LOAD_DWORDX2_IMM]].sub0, [[COPY1]](s32), implicit $exec
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_3:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 3, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_4:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 4, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_5:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 5, implicit $exec, implicit $mode, implicit-def $m0
@@ -742,8 +743,6 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
-  ; GFX908-NEXT:   [[V_CMP_GT_U32_e64_:%[0-9]+]]:sreg_64 = V_CMP_GT_U32_e64 [[S_LOAD_DWORDX2_IMM]].sub0, [[COPY1]](s32), implicit $exec
   ; GFX908-NEXT:   undef [[S_MOV_B32_:%[0-9]+]].sub1:sreg_64 = S_MOV_B32 0
   ; GFX908-NEXT:   undef [[S_MOV_B32_:%[0-9]+]].sub0:sreg_64 = COPY [[S_LOAD_DWORDX2_IMM]].sub1
   ; GFX908-NEXT: {{  $}}
@@ -759,8 +758,8 @@ body:             |
   ; GFX908-NEXT: bb.2:
   ; GFX908-NEXT:   successors: %bb.3(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.3:
   ; GFX908-NEXT:   successors: %bb.5(0x04000000), %bb.4(0x7c000000)
@@ -773,7 +772,8 @@ body:             |
   ; GFX908-NEXT: bb.4:
   ; GFX908-NEXT:   successors: %bb.1(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
   ; GFX908-NEXT:   S_BRANCH %bb.1
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.5:
@@ -1114,14 +1114,6 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_17:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 17, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_18:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 18, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_25:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 25, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_26:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 26, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_27:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 27, implicit $exec, implicit $mode
   ; GFX908-NEXT:   [[S_MOV_B32_1:%[0-9]+]]:sgpr_32 = S_MOV_B32 0
   ; GFX908-NEXT:   [[S_MOV_B32_2:%[0-9]+]]:sgpr_32 = S_MOV_B32 1
   ; GFX908-NEXT:   [[S_MOV_B32_3:%[0-9]+]]:sgpr_32 = S_MOV_B32 2
@@ -1194,12 +1186,19 @@ body:             |
   ; GFX908-NEXT:   [[S_MOV_B32_70:%[0-9]+]]:sgpr_32 = S_MOV_B32 69
   ; GFX908-NEXT:   [[S_MOV_B32_71:%[0-9]+]]:sgpr_32 = S_MOV_B32 70
   ; GFX908-NEXT:   [[S_MOV_B32_72:%[0-9]+]]:sgpr_32 = S_MOV_B32 71
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_73:%[0-9]+]]:sgpr_32 = S_MOV_B32 72
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_74:%[0-9]+]]:sgpr_32 = S_MOV_B32 73
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_75:%[0-9]+]]:sgpr_32 = S_MOV_B32 74
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_76:%[0-9]+]]:sgpr_32 = S_MOV_B32 75
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_77:%[0-9]+]]:sgpr_32 = S_MOV_B32 76
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_25:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 25, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_78:%[0-9]+]]:sgpr_32 = S_MOV_B32 77
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_26:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 26, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_79:%[0-9]+]]:sgpr_32 = S_MOV_B32 78
   ; GFX908-NEXT:   [[S_MOV_B32_80:%[0-9]+]]:sgpr_32 = S_MOV_B32 79
   ; GFX908-NEXT:   [[S_MOV_B32_81:%[0-9]+]]:sgpr_32 = S_MOV_B32 80
@@ -1216,13 +1215,14 @@ body:             |
   ; GFX908-NEXT: bb.2:
   ; GFX908-NEXT:   successors: %bb.3(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_28:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 28, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_28]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_27:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 28, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_27]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.3:
   ; GFX908-NEXT:   successors: %bb.5(0x04000000), %bb.4(0x7c000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_27]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_28:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 27, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_28]]
   ; GFX908-NEXT:   $exec = S_OR_B64 $exec, [[COPY2]], implicit-def $scc
   ; GFX908-NEXT:   undef [[S_MOV_B32_:%[0-9]+]].sub0:sreg_64 = S_ADD_I32 [[S_MOV_B32_]].sub0, -1, implicit-def dead $scc
   ; GFX908-NEXT:   S_CMP_LG_U32 [[S_MOV_B32_]].sub0, 0, implicit-def $scc
@@ -1643,10 +1643,6 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_17:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 17, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_18:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 18, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT:   [[S_MOV_B32_1:%[0-9]+]]:sgpr_32 = S_MOV_B32 0
   ; GFX908-NEXT:   [[S_MOV_B32_2:%[0-9]+]]:sgpr_32 = S_MOV_B32 1
   ; GFX908-NEXT:   [[S_MOV_B32_3:%[0-9]+]]:sgpr_32 = S_MOV_B32 2
@@ -1719,6 +1715,10 @@ body:             |
   ; GFX908-NEXT:   [[S_MOV_B32_70:%[0-9]+]]:sgpr_32 = S_MOV_B32 69
   ; GFX908-NEXT:   [[S_MOV_B32_71:%[0-9]+]]:sgpr_32 = S_MOV_B32 70
   ; GFX908-NEXT:   [[S_MOV_B32_72:%[0-9]+]]:sgpr_32 = S_MOV_B32 71
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT:   [[S_MOV_B32_73:%[0-9]+]]:sgpr_32 = S_MOV_B32 72
   ; GFX908-NEXT:   [[S_MOV_B32_74:%[0-9]+]]:sgpr_32 = S_MOV_B32 73
   ; GFX908-NEXT:   [[S_MOV_B32_75:%[0-9]+]]:sgpr_32 = S_MOV_B32 74
@@ -2049,10 +2049,6 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_17:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 17, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_18:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 18, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT:   [[S_MOV_B32_1:%[0-9]+]]:sgpr_32 = S_MOV_B32 0
   ; GFX908-NEXT:   [[S_MOV_B32_2:%[0-9]+]]:sgpr_32 = S_MOV_B32 1
   ; GFX908-NEXT:   [[S_MOV_B32_3:%[0-9]+]]:sgpr_32 = S_MOV_B32 2
@@ -2125,9 +2121,13 @@ body:             |
   ; GFX908-NEXT:   [[S_MOV_B32_70:%[0-9]+]]:sgpr_32 = S_MOV_B32 69
   ; GFX908-NEXT:   [[S_MOV_B32_71:%[0-9]+]]:sgpr_32 = S_MOV_B32 70
   ; GFX908-NEXT:   [[S_MOV_B32_72:%[0-9]+]]:sgpr_32 = S_MOV_B32 71
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_73:%[0-9]+]]:sgpr_32 = S_MOV_B32 72
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_74:%[0-9]+]]:sgpr_32 = S_MOV_B32 73
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[S_MOV_B32_75:%[0-9]+]]:sgpr_32 = S_MOV_B32 74
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT:   [[S_MOV_B32_76:%[0-9]+]]:sgpr_32 = S_MOV_B32 75
   ; GFX908-NEXT:   [[S_MOV_B32_77:%[0-9]+]]:sgpr_32 = S_MOV_B32 76
   ; GFX908-NEXT:   [[S_MOV_B32_78:%[0-9]+]]:sgpr_32 = S_MOV_B32 77
@@ -2801,6 +2801,7 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 0, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_1:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 1, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_2:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 2, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CMP_GT_U32_e64_:%[0-9]+]]:sreg_64 = V_CMP_GT_U32_e64 [[S_LOAD_DWORDX2_IMM]].sub0, [[COPY1]](s32), implicit $exec
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_3:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 3, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_4:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 4, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_5:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 5, implicit $exec, implicit $mode, implicit-def $m0
@@ -2822,7 +2823,6 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
-  ; GFX908-NEXT:   [[V_CMP_GT_U32_e64_:%[0-9]+]]:sreg_64 = V_CMP_GT_U32_e64 [[S_LOAD_DWORDX2_IMM]].sub0, [[COPY1]](s32), implicit $exec
   ; GFX908-NEXT:   undef [[S_MOV_B32_:%[0-9]+]].sub1:sreg_64 = S_MOV_B32 0
   ; GFX908-NEXT:   undef [[S_MOV_B32_:%[0-9]+]].sub0:sreg_64 = COPY [[S_LOAD_DWORDX2_IMM]].sub1
   ; GFX908-NEXT: {{  $}}
@@ -2988,7 +2988,6 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_25:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 25, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_26:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 26, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_27:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 27, implicit $exec, implicit $mode
   ; GFX908-NEXT:   undef [[S_MOV_B32_:%[0-9]+]].sub1:sreg_64 = S_MOV_B32 0
   ; GFX908-NEXT:   undef [[S_MOV_B32_:%[0-9]+]].sub0:sreg_64 = COPY [[S_LOAD_DWORDX2_IMM]].sub1
   ; GFX908-NEXT: {{  $}}
@@ -3004,9 +3003,10 @@ body:             |
   ; GFX908-NEXT: bb.2:
   ; GFX908-NEXT:   successors: %bb.3(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_28:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 28, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_28]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_27:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 28, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_27]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_28:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 27, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_28]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.3:
   ; GFX908-NEXT:   successors: %bb.5(0x04000000), %bb.4(0x7c000000)
@@ -4974,20 +4974,20 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_13:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 13, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_14:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 14, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_15:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 15, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_16:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 16, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_17:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 17, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_18:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 18, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   undef [[V_CVT_I32_F64_e32_21:%[0-9]+]].sub0:vreg_128 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]].sub1:vreg_128 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   undef [[V_CVT_I32_F64_e32_16:%[0-9]+]].sub0:vreg_128 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_16:%[0-9]+]].sub1:vreg_128 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_17:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 16, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_18:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 17, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 18, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]].sub2:vreg_128 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]].sub3:vreg_128 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_21]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_16:%[0-9]+]].sub2:vreg_128 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_16:%[0-9]+]].sub3:vreg_128 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_16]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_]], implicit [[V_CVT_I32_F64_e32_1]]
@@ -4998,9 +4998,9 @@ body:             |
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_10]], implicit [[V_CVT_I32_F64_e32_11]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_12]], implicit [[V_CVT_I32_F64_e32_13]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_14]], implicit [[V_CVT_I32_F64_e32_15]]
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_16]], implicit [[V_CVT_I32_F64_e32_17]]
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_18]], implicit [[V_CVT_I32_F64_e32_19]]
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_20]]
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_17]], implicit [[V_CVT_I32_F64_e32_18]]
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_19]], implicit [[V_CVT_I32_F64_e32_20]]
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_21]]
   ; GFX908-NEXT:   S_ENDPGM 0
   bb.0:
     successors: %bb.1
@@ -5192,13 +5192,13 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_F64_I32_e32_:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 22, implicit $exec, implicit $mode
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_22]]
+  ; GFX908-NEXT:   [[V_CVT_F64_I32_e32_:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 22, implicit $exec, implicit $mode
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_F64_I32_e32_]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
@@ -5297,7 +5297,6 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_F64_I32_e32_:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 22, implicit $exec, implicit $mode
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
@@ -5305,6 +5304,7 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_22]], implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   [[V_CVT_F64_I32_e32_:%[0-9]+]]:vreg_64 = nofpexcept V_CVT_F64_I32_e32 22, implicit $exec, implicit $mode
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_F64_I32_e32_]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
@@ -5726,17 +5726,17 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 22, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
-  ; GFX908-NEXT:   DBG_VALUE [[V_CVT_I32_F64_e32_23]], 0, 0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   DBG_VALUE %23, 0, 0
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_24:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_24]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_]], implicit [[V_CVT_I32_F64_e32_1]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_2]], implicit [[V_CVT_I32_F64_e32_3]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_4]], implicit [[V_CVT_I32_F64_e32_5]]
@@ -5836,17 +5836,17 @@ body:             |
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_19:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 19, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_20:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 20, implicit $exec, implicit $mode, implicit-def $m0
   ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_21:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 21, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
   ; GFX908-NEXT:   INLINEASM &"v_or_b32 $0, 0, $1", 32 /* isconvergent attdialect */, 327690 /* regdef:SReg_1_with_sub0 */, def %22, 327689 /* reguse:SReg_1_with_sub0 */, [[V_CVT_I32_F64_e32_4]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.1:
   ; GFX908-NEXT:   successors: %bb.2(0x80000000)
   ; GFX908-NEXT: {{  $}}
-  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_22:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 24, implicit $exec, implicit $mode, implicit-def $m0
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_22]]
   ; GFX908-NEXT: {{  $}}
   ; GFX908-NEXT: bb.2:
-  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_22]]
+  ; GFX908-NEXT:   [[V_CVT_I32_F64_e32_23:%[0-9]+]]:vgpr_32 = nofpexcept V_CVT_I32_F64_e32 23, implicit $exec, implicit $mode
+  ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_23]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_]], implicit [[V_CVT_I32_F64_e32_1]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_2]], implicit [[V_CVT_I32_F64_e32_3]]
   ; GFX908-NEXT:   S_NOP 0, implicit [[V_CVT_I32_F64_e32_4]], implicit [[V_CVT_I32_F64_e32_5]]
diff --git a/llvm/test/CodeGen/AMDGPU/machine-sink-cycle.mir b/llvm/test/CodeGen/AMDGPU/machine-sink-cycle.mir
new file mode 100644
index 0000000000000..bca1517ed183a
--- /dev/null
+++ b/llvm/test/CodeGen/AMDGPU/machine-sink-cycle.mir
@@ -0,0 +1,1272 @@
+# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 3
+# RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx942 --sink-insts-to-avoid-spills=1 --stop-after=machine-sink -o -  %s | FileCheck -check-prefixes=GFX9-SUNK %s
+# RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1031 --sink-insts-to-avoid-spills=1 -mattr=+wavefrontsize64 --stop-after=machine-sink -o -  %s | FileCheck -check-prefixes=GFX10-SUNK %s
+
+---
+name:            test_sink_copy
+alignment:       1
+tracksRegLiveness: true
+machineFunctionInfo:
+  isEntryFunction: true
+body:             |
+  ; GFX9-SUNK-LABEL: name: test_sink_copy
+  ; GFX9-SUNK: bb.0:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.1:
+  ; GFX9-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.2:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[COPY:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY1:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY2:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY3:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY4:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[COPY]], implicit [[COPY1]], implicit [[COPY2]], implicit [[COPY3]], implicit [[COPY4]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.3:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[COPY5:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY6:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY7:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY8:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY9:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[COPY5]], implicit [[COPY6]], implicit [[COPY7]], implicit [[COPY8]], implicit [[COPY9]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.4:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.5:
+  ; GFX9-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.6.entry:
+  ;
+  ; GFX10-SUNK-LABEL: name: test_sink_copy
+  ; GFX10-SUNK: bb.0:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.1:
+  ; GFX10-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.2:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[COPY:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY1:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY2:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY3:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY4:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[COPY]], implicit [[COPY1]], implicit [[COPY2]], implicit [[COPY3]], implicit [[COPY4]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.3:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[COPY5:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY6:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY7:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY8:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY9:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[COPY5]], implicit [[COPY6]], implicit [[COPY7]], implicit [[COPY8]], implicit [[COPY9]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.4:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.5:
+  ; GFX10-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.6.entry:
+  bb.0:
+    %0:vreg_256 = IMPLICIT_DEF
+    %1:vreg_256 = IMPLICIT_DEF
+    %2:vreg_256 = IMPLICIT_DEF
+    %3:vreg_256 = IMPLICIT_DEF
+    %4:vreg_256 = IMPLICIT_DEF
+    %5:vreg_256 = COPY %4
+    %6:vreg_256 = COPY %4
+    %7:vreg_256 = COPY %4
+    %8:vreg_256 = COPY %4
+    %9:vreg_256 = COPY %4
+
+
+    S_BRANCH %bb.1
+
+  bb.1:
+    S_CBRANCH_EXECZ %bb.2, implicit $exec
+    S_BRANCH %bb.3
+
+  bb.2:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9
+    S_BRANCH %bb.4
+
+  bb.3:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9
+    S_BRANCH %bb.4
+
+  bb.4:
+    S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+    S_BRANCH %bb.5
+
+  bb.5:
+    S_ENDPGM 0
+...
+
+# For gfx9, after sinking the copies, pressure is within the desired limit
+
+---
+name:            test_sink_multi_stage
+alignment:       1
+tracksRegLiveness: true
+machineFunctionInfo:
+  isEntryFunction: true
+body:             |
+  ; GFX9-SUNK-LABEL: name: test_sink_multi_stage
+  ; GFX9-SUNK: bb.0:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.1:
+  ; GFX9-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.2:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[COPY:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY1:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY2:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY3:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY4:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[COPY]], implicit [[COPY1]], implicit [[COPY2]], implicit [[COPY3]], implicit [[COPY4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.3:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[COPY5:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY6:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY7:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY8:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   [[COPY9:%[0-9]+]]:vreg_256_align2 = COPY [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[COPY5]], implicit [[COPY6]], implicit [[COPY7]], implicit [[COPY8]], implicit [[COPY9]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.4:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.5:
+  ; GFX9-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.6.entry:
+  ;
+  ; GFX10-SUNK-LABEL: name: test_sink_multi_stage
+  ; GFX10-SUNK: bb.0:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.1:
+  ; GFX10-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.2:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[COPY:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY1:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY2:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY3:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY4:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[COPY]], implicit [[COPY1]], implicit [[COPY2]], implicit [[COPY3]], implicit [[COPY4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.3:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_5:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_6:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_7:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_8:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_9:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[COPY5:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY6:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY7:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY8:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   [[COPY9:%[0-9]+]]:vreg_256 = COPY [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[COPY5]], implicit [[COPY6]], implicit [[COPY7]], implicit [[COPY8]], implicit [[COPY9]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.4:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.5:
+  ; GFX10-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.6.entry:
+  bb.0:
+    %0:vreg_256 = IMPLICIT_DEF
+    %1:vreg_256 = IMPLICIT_DEF
+    %2:vreg_256 = IMPLICIT_DEF
+    %3:vreg_256 = IMPLICIT_DEF
+    %4:vreg_256 = IMPLICIT_DEF
+    %5:vreg_256 = COPY %4
+    %6:vreg_256 = COPY %4
+    %7:vreg_256 = COPY %4
+    %8:vreg_256 = COPY %4
+    %9:vreg_256 = COPY %4
+    %10:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %11:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %12:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %13:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %14:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    S_BRANCH %bb.1
+
+  bb.1:
+    S_CBRANCH_EXECZ %bb.2, implicit $exec
+    S_BRANCH %bb.3
+
+  bb.2:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9
+    INLINEASM &"", 1, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14
+    S_BRANCH %bb.4
+
+  bb.3:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9
+    INLINEASM &"", 1, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14
+    S_BRANCH %bb.4
+
+  bb.4:
+    S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+    S_BRANCH %bb.5
+
+  bb.5:
+    S_ENDPGM 0
+...
+
+---
+name:            test_sink_low_rp
+alignment:       1
+tracksRegLiveness: true
+machineFunctionInfo:
+  isEntryFunction: true
+body:             |
+  ; GFX9-SUNK-LABEL: name: test_sink_low_rp
+  ; GFX9-SUNK: bb.0:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_5:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_6:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_7:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_8:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_9:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_10:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_11:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_12:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_13:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_14:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_15:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_16:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_17:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_18:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_19:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_20:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.1:
+  ; GFX9-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.2:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.3:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.4:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.5:
+  ; GFX9-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.6.entry:
+  ;
+  ; GFX10-SUNK-LABEL: name: test_sink_low_rp
+  ; GFX10-SUNK: bb.0:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.1:
+  ; GFX10-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.2:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_5:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_6:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_7:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_8:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_9:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_10:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_11:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_12:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_13:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_14:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_15:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_16:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_17:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_18:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_19:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_20:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.3:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_21:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_22:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_23:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_24:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_25:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_26:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_27:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_28:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_29:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_30:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_31:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_32:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_33:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_34:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_35:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_36:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_37:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_38:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_39:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_40:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_41:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_21]], implicit [[V_ADD_U32_e64_22]], implicit [[V_ADD_U32_e64_23]], implicit [[V_ADD_U32_e64_24]], implicit [[V_ADD_U32_e64_25]], implicit [[V_ADD_U32_e64_26]], implicit [[V_ADD_U32_e64_27]], implicit [[V_ADD_U32_e64_28]], implicit [[V_ADD_U32_e64_29]], implicit [[V_ADD_U32_e64_30]], implicit [[V_ADD_U32_e64_31]], implicit [[V_ADD_U32_e64_32]], implicit [[V_ADD_U32_e64_33]], implicit [[V_ADD_U32_e64_34]], implicit [[V_ADD_U32_e64_35]], implicit [[V_ADD_U32_e64_36]], implicit [[V_ADD_U32_e64_37]], implicit [[V_ADD_U32_e64_38]], implicit [[V_ADD_U32_e64_39]], implicit [[V_ADD_U32_e64_40]], implicit [[V_ADD_U32_e64_41]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.4:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.5:
+  ; GFX10-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.6.entry:
+  bb.0:
+    %0:vreg_256 = IMPLICIT_DEF
+    %1:vreg_256 = IMPLICIT_DEF
+    %2:vreg_256 = IMPLICIT_DEF
+    %3:vreg_256 = IMPLICIT_DEF
+    %4:vreg_256 = IMPLICIT_DEF
+    %5:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %6:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %7:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %8:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %9:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %10:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %11:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %12:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %13:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %14:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %15:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %16:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %17:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %18:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %19:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %20:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %21:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %22:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %23:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %24:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %25:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+
+    S_BRANCH %bb.1
+
+  bb.1:
+    S_CBRANCH_EXECZ %bb.2, implicit $exec
+    S_BRANCH %bb.3
+
+  bb.2:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14, implicit %15, implicit %16, implicit %17, implicit %18, implicit %19, implicit %20, implicit %21, implicit %22, implicit %23, implicit %24, implicit %25
+    S_BRANCH %bb.4
+
+  bb.3:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14, implicit %15, implicit %16, implicit %17, implicit %18, implicit %19, implicit %20, implicit %21, implicit %22, implicit %23, implicit %24, implicit %25
+    S_BRANCH %bb.4
+
+  bb.4:
+    S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+    S_BRANCH %bb.5
+
+  bb.5:
+    S_ENDPGM 0
+...
+
+---
+name:            test_sink_high_rp
+alignment:       1
+tracksRegLiveness: true
+machineFunctionInfo:
+  isEntryFunction: true
+body:             |
+  ; GFX9-SUNK-LABEL: name: test_sink_high_rp
+  ; GFX9-SUNK: bb.0:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.1:
+  ; GFX9-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.2:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_5:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_6:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_7:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_8:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_9:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_10:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_11:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_12:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_13:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_14:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_15:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_16:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_17:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_18:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_19:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_20:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_21:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_22:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_23:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_24:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_25:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_26:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]], implicit [[V_ADD_U32_e64_21]], implicit [[V_ADD_U32_e64_22]], implicit [[V_ADD_U32_e64_23]], implicit [[V_ADD_U32_e64_24]], implicit [[V_ADD_U32_e64_25]], implicit [[V_ADD_U32_e64_26]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.3:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_27:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_28:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_29:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_30:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_31:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_32:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_33:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_34:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_35:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_36:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_37:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_38:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_39:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_40:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_41:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_42:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_43:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_44:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_45:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_46:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_47:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_48:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_49:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_50:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_51:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_52:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_53:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_27]], implicit [[V_ADD_U32_e64_28]], implicit [[V_ADD_U32_e64_29]], implicit [[V_ADD_U32_e64_30]], implicit [[V_ADD_U32_e64_31]], implicit [[V_ADD_U32_e64_32]], implicit [[V_ADD_U32_e64_33]], implicit [[V_ADD_U32_e64_34]], implicit [[V_ADD_U32_e64_35]], implicit [[V_ADD_U32_e64_36]], implicit [[V_ADD_U32_e64_37]], implicit [[V_ADD_U32_e64_38]], implicit [[V_ADD_U32_e64_39]], implicit [[V_ADD_U32_e64_40]], implicit [[V_ADD_U32_e64_41]], implicit [[V_ADD_U32_e64_42]], implicit [[V_ADD_U32_e64_43]], implicit [[V_ADD_U32_e64_44]], implicit [[V_ADD_U32_e64_45]], implicit [[V_ADD_U32_e64_46]], implicit [[V_ADD_U32_e64_47]], implicit [[V_ADD_U32_e64_48]], implicit [[V_ADD_U32_e64_49]], implicit [[V_ADD_U32_e64_50]], implicit [[V_ADD_U32_e64_51]], implicit [[V_ADD_U32_e64_52]], implicit [[V_ADD_U32_e64_53]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.4:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.5:
+  ; GFX9-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.6.entry:
+  ;
+  ; GFX10-SUNK-LABEL: name: test_sink_high_rp
+  ; GFX10-SUNK: bb.0:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.1:
+  ; GFX10-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.2:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_5:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_6:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_7:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_8:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_9:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_10:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_11:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_12:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_13:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_14:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_15:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_16:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_17:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_18:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_19:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_20:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_21:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_22:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_23:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_24:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_25:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_26:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]], implicit [[V_ADD_U32_e64_21]], implicit [[V_ADD_U32_e64_22]], implicit [[V_ADD_U32_e64_23]], implicit [[V_ADD_U32_e64_24]], implicit [[V_ADD_U32_e64_25]], implicit [[V_ADD_U32_e64_26]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.3:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_27:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_28:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_29:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_30:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_31:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_32:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_33:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_34:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_35:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_36:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_37:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_38:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_39:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_40:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_41:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_42:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_43:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_44:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_45:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_46:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_47:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_48:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_49:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_50:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_51:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_52:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_53:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_27]], implicit [[V_ADD_U32_e64_28]], implicit [[V_ADD_U32_e64_29]], implicit [[V_ADD_U32_e64_30]], implicit [[V_ADD_U32_e64_31]], implicit [[V_ADD_U32_e64_32]], implicit [[V_ADD_U32_e64_33]], implicit [[V_ADD_U32_e64_34]], implicit [[V_ADD_U32_e64_35]], implicit [[V_ADD_U32_e64_36]], implicit [[V_ADD_U32_e64_37]], implicit [[V_ADD_U32_e64_38]], implicit [[V_ADD_U32_e64_39]], implicit [[V_ADD_U32_e64_40]], implicit [[V_ADD_U32_e64_41]], implicit [[V_ADD_U32_e64_42]], implicit [[V_ADD_U32_e64_43]], implicit [[V_ADD_U32_e64_44]], implicit [[V_ADD_U32_e64_45]], implicit [[V_ADD_U32_e64_46]], implicit [[V_ADD_U32_e64_47]], implicit [[V_ADD_U32_e64_48]], implicit [[V_ADD_U32_e64_49]], implicit [[V_ADD_U32_e64_50]], implicit [[V_ADD_U32_e64_51]], implicit [[V_ADD_U32_e64_52]], implicit [[V_ADD_U32_e64_53]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.4:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.5:
+  ; GFX10-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.6.entry:
+  bb.0:
+    %0:vreg_256 = IMPLICIT_DEF
+    %1:vreg_256 = IMPLICIT_DEF
+    %2:vreg_256 = IMPLICIT_DEF
+    %3:vreg_256 = IMPLICIT_DEF
+    %4:vreg_256 = IMPLICIT_DEF
+    %5:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %6:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %7:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %8:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %9:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %10:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %11:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %12:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %13:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %14:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %15:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %16:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %17:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %18:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %19:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %20:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %21:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %22:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %23:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %24:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %25:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %26:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %27:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %28:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %29:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub3:vreg_256, 0, implicit $exec
+    %30:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub3:vreg_256, 0, implicit $exec
+    %31:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub3:vreg_256, 0, implicit $exec
+
+    S_BRANCH %bb.1
+
+  bb.1:
+    S_CBRANCH_EXECZ %bb.2, implicit $exec
+    S_BRANCH %bb.3
+
+  bb.2:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14, implicit %15, implicit %16, implicit %17, implicit %18, implicit %19, implicit %20, implicit %21, implicit %22, implicit %23, implicit %24, implicit %25, implicit %26, implicit %27, implicit %28, implicit %29, implicit %30, implicit %31
+    S_BRANCH %bb.4
+
+  bb.3:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14, implicit %15, implicit %16, implicit %17, implicit %18, implicit %19, implicit %20, implicit %21, implicit %22, implicit %23, implicit %24, implicit %25, implicit %26, implicit %27, implicit %28, implicit %29, implicit %30, implicit %31
+    S_BRANCH %bb.4
+
+  bb.4:
+    S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+    S_BRANCH %bb.5
+
+  bb.5:
+    S_ENDPGM 0
+...
+
+# Do not sink convergent op (MFMA)
+
+---
+name:            test_sink_convergent
+alignment:       1
+tracksRegLiveness: true
+machineFunctionInfo:
+  isEntryFunction: true
+body:             |
+  ; GFX9-SUNK-LABEL: name: test_sink_convergent
+  ; GFX9-SUNK: bb.0:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF5:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF6:%[0-9]+]]:areg_128_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF7:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF8:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[V_MFMA_F32_4X4X1F32_e64_:%[0-9]+]]:areg_128_align2 = V_MFMA_F32_4X4X1F32_e64 [[DEF5]], [[DEF7]], [[DEF6]], 0, 0, 0, implicit $mode, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.1:
+  ; GFX9-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF8]], implicit [[V_MFMA_F32_4X4X1F32_e64_]]
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.2:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_5:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_6:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_7:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_8:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_9:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_10:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_11:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_12:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_13:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_14:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_15:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_16:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_17:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_18:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_19:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_20:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_21:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_22:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_23:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_24:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_25:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_26:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]], implicit [[V_ADD_U32_e64_21]], implicit [[V_ADD_U32_e64_22]], implicit [[V_ADD_U32_e64_23]], implicit [[V_ADD_U32_e64_24]], implicit [[V_ADD_U32_e64_25]], implicit [[V_ADD_U32_e64_26]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.3:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_27:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_28:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_29:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_30:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_31:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_32:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_33:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_34:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_35:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_36:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_37:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_38:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_39:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_40:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_41:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_42:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_43:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_44:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_45:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_46:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_47:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_48:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_49:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_50:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_51:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_52:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_53:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_27]], implicit [[V_ADD_U32_e64_28]], implicit [[V_ADD_U32_e64_29]], implicit [[V_ADD_U32_e64_30]], implicit [[V_ADD_U32_e64_31]], implicit [[V_ADD_U32_e64_32]], implicit [[V_ADD_U32_e64_33]], implicit [[V_ADD_U32_e64_34]], implicit [[V_ADD_U32_e64_35]], implicit [[V_ADD_U32_e64_36]], implicit [[V_ADD_U32_e64_37]], implicit [[V_ADD_U32_e64_38]], implicit [[V_ADD_U32_e64_39]], implicit [[V_ADD_U32_e64_40]], implicit [[V_ADD_U32_e64_41]], implicit [[V_ADD_U32_e64_42]], implicit [[V_ADD_U32_e64_43]], implicit [[V_ADD_U32_e64_44]], implicit [[V_ADD_U32_e64_45]], implicit [[V_ADD_U32_e64_46]], implicit [[V_ADD_U32_e64_47]], implicit [[V_ADD_U32_e64_48]], implicit [[V_ADD_U32_e64_49]], implicit [[V_ADD_U32_e64_50]], implicit [[V_ADD_U32_e64_51]], implicit [[V_ADD_U32_e64_52]], implicit [[V_ADD_U32_e64_53]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.4:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.5:
+  ; GFX9-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.6.entry:
+  ;
+  ; GFX10-SUNK-LABEL: name: test_sink_convergent
+  ; GFX10-SUNK: bb.0:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF5:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF6:%[0-9]+]]:areg_128_align2 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF7:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF8:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[V_MFMA_F32_4X4X1F32_e64_:%[0-9]+]]:areg_128_align2 = V_MFMA_F32_4X4X1F32_e64 [[DEF5]], [[DEF7]], [[DEF6]], 0, 0, 0, implicit $mode, implicit $exec
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.1:
+  ; GFX10-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF8]], implicit [[V_MFMA_F32_4X4X1F32_e64_]]
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.2:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_5:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_6:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_7:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_8:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_9:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_10:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_11:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_12:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_13:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_14:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_15:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_16:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_17:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_18:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_19:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_20:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_21:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_22:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_23:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_24:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_25:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_26:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]], implicit [[V_ADD_U32_e64_21]], implicit [[V_ADD_U32_e64_22]], implicit [[V_ADD_U32_e64_23]], implicit [[V_ADD_U32_e64_24]], implicit [[V_ADD_U32_e64_25]], implicit [[V_ADD_U32_e64_26]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.3:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_27:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_28:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_29:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_30:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_31:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_32:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_33:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_34:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_35:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_36:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_37:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_38:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_39:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_40:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_41:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_42:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_43:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_44:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_45:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_46:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_47:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_48:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_49:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_50:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_51:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_52:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_53:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_27]], implicit [[V_ADD_U32_e64_28]], implicit [[V_ADD_U32_e64_29]], implicit [[V_ADD_U32_e64_30]], implicit [[V_ADD_U32_e64_31]], implicit [[V_ADD_U32_e64_32]], implicit [[V_ADD_U32_e64_33]], implicit [[V_ADD_U32_e64_34]], implicit [[V_ADD_U32_e64_35]], implicit [[V_ADD_U32_e64_36]], implicit [[V_ADD_U32_e64_37]], implicit [[V_ADD_U32_e64_38]], implicit [[V_ADD_U32_e64_39]], implicit [[V_ADD_U32_e64_40]], implicit [[V_ADD_U32_e64_41]], implicit [[V_ADD_U32_e64_42]], implicit [[V_ADD_U32_e64_43]], implicit [[V_ADD_U32_e64_44]], implicit [[V_ADD_U32_e64_45]], implicit [[V_ADD_U32_e64_46]], implicit [[V_ADD_U32_e64_47]], implicit [[V_ADD_U32_e64_48]], implicit [[V_ADD_U32_e64_49]], implicit [[V_ADD_U32_e64_50]], implicit [[V_ADD_U32_e64_51]], implicit [[V_ADD_U32_e64_52]], implicit [[V_ADD_U32_e64_53]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.4:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.5:
+  ; GFX10-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.6.entry:
+  bb.0:
+    %0:vreg_256 = IMPLICIT_DEF
+    %1:vreg_256 = IMPLICIT_DEF
+    %2:vreg_256 = IMPLICIT_DEF
+    %3:vreg_256 = IMPLICIT_DEF
+    %4:vreg_256 = IMPLICIT_DEF
+    %5:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %6:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %7:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %8:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %9:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %10:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %11:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %12:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %13:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %14:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %15:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %16:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %17:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %18:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %19:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %20:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %21:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %22:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %23:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %24:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %25:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %26:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %27:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %28:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %29:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub3:vreg_256, 0, implicit $exec
+    %30:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub3:vreg_256, 0, implicit $exec
+    %31:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub3:vreg_256, 0, implicit $exec
+    %40:vgpr_32 = IMPLICIT_DEF
+    %41:areg_128_align2 = IMPLICIT_DEF
+    %42:vgpr_32 = IMPLICIT_DEF
+    %43:vgpr_32 = IMPLICIT_DEF
+    %44:areg_128_align2 = V_MFMA_F32_4X4X1F32_e64 %40, %42, %41, 0, 0, 0, implicit $mode, implicit $exec
+
+
+    S_BRANCH %bb.1
+
+  bb.1:
+    INLINEASM &"", 1, implicit %43, implicit %44
+    S_CBRANCH_EXECZ %bb.2, implicit $exec
+    S_BRANCH %bb.3
+
+  bb.2:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14, implicit %15, implicit %16, implicit %17, implicit %18, implicit %19, implicit %20, implicit %21, implicit %22, implicit %23, implicit %24, implicit %25, implicit %26, implicit %27, implicit %28, implicit %29, implicit %30, implicit %31
+    S_BRANCH %bb.4
+
+  bb.3:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14, implicit %15, implicit %16, implicit %17, implicit %18, implicit %19, implicit %20, implicit %21, implicit %22, implicit %23, implicit %24, implicit %25, implicit %26, implicit %27, implicit %28, implicit %29, implicit %30, implicit %31
+    S_BRANCH %bb.4
+
+  bb.4:
+    S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+    S_BRANCH %bb.5
+
+  bb.5:
+    S_ENDPGM 0
+...
+
+# Do not sink instructions with multiple defs
+
+---
+name:            test_sink_multi_def
+alignment:       1
+tracksRegLiveness: true
+machineFunctionInfo:
+  isEntryFunction: true
+body:             |
+  ; GFX9-SUNK-LABEL: name: test_sink_multi_def
+  ; GFX9-SUNK: bb.0:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256_align2 = IMPLICIT_DEF
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_5:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_6:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_7:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_8:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_9:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_10:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_11:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_12:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_13:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_14:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_15:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_16:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_17:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_18:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_19:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_20:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_21:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_22:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_23:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_24:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_25:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_U32_e64_26:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   [[V_ADD_CO_U32_e64_:%[0-9]+]]:vgpr_32, [[V_ADD_CO_U32_e64_1:%[0-9]+]]:sreg_64_xexec = V_ADD_CO_U32_e64 [[DEF]].sub2, [[DEF1]].sub4, 0, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.1:
+  ; GFX9-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_CO_U32_e64_]], implicit [[V_ADD_CO_U32_e64_1]]
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.2:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]], implicit [[V_ADD_U32_e64_21]], implicit [[V_ADD_U32_e64_22]], implicit [[V_ADD_U32_e64_23]], implicit [[V_ADD_U32_e64_24]], implicit [[V_ADD_U32_e64_25]], implicit [[V_ADD_U32_e64_26]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.3:
+  ; GFX9-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX9-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]], implicit [[V_ADD_U32_e64_21]], implicit [[V_ADD_U32_e64_22]], implicit [[V_ADD_U32_e64_23]], implicit [[V_ADD_U32_e64_24]], implicit [[V_ADD_U32_e64_25]], implicit [[V_ADD_U32_e64_26]]
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.4:
+  ; GFX9-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX9-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.5:
+  ; GFX9-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX9-SUNK-NEXT: {{  $}}
+  ; GFX9-SUNK-NEXT: bb.6.entry:
+  ;
+  ; GFX10-SUNK-LABEL: name: test_sink_multi_def
+  ; GFX10-SUNK: bb.0:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   [[DEF:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF1:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF2:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF3:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[DEF4:%[0-9]+]]:vreg_256 = IMPLICIT_DEF
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_1:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_2:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_3:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_4:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_5:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_6:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_7:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub0, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_8:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_9:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_10:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_11:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_12:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_13:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_14:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_15:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub1, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_16:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_17:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_18:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_19:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub3, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_20:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub4, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_21:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub5, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_22:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub6, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_23:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub7, [[DEF1]].sub2, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_24:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub0, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_25:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub1, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_U32_e64_26:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[DEF]].sub2, [[DEF1]].sub3, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   [[V_ADD_CO_U32_e64_:%[0-9]+]]:vgpr_32, [[V_ADD_CO_U32_e64_1:%[0-9]+]]:sreg_64_xexec = V_ADD_CO_U32_e64 [[DEF]].sub2, [[DEF1]].sub4, 0, implicit $exec
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.1
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.1:
+  ; GFX10-SUNK-NEXT:   successors: %bb.2(0x40000000), %bb.3(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_CO_U32_e64_]], implicit [[V_ADD_CO_U32_e64_1]]
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_EXECZ %bb.2, implicit $exec
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.3
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.2:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]], implicit [[V_ADD_U32_e64_21]], implicit [[V_ADD_U32_e64_22]], implicit [[V_ADD_U32_e64_23]], implicit [[V_ADD_U32_e64_24]], implicit [[V_ADD_U32_e64_25]], implicit [[V_ADD_U32_e64_26]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.3:
+  ; GFX10-SUNK-NEXT:   successors: %bb.4(0x80000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[DEF]], implicit [[DEF1]], implicit [[DEF2]], implicit [[DEF3]], implicit [[DEF4]]
+  ; GFX10-SUNK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, implicit [[V_ADD_U32_e64_]], implicit [[V_ADD_U32_e64_1]], implicit [[V_ADD_U32_e64_2]], implicit [[V_ADD_U32_e64_3]], implicit [[V_ADD_U32_e64_4]], implicit [[V_ADD_U32_e64_5]], implicit [[V_ADD_U32_e64_6]], implicit [[V_ADD_U32_e64_7]], implicit [[V_ADD_U32_e64_8]], implicit [[V_ADD_U32_e64_9]], implicit [[V_ADD_U32_e64_10]], implicit [[V_ADD_U32_e64_11]], implicit [[V_ADD_U32_e64_12]], implicit [[V_ADD_U32_e64_13]], implicit [[V_ADD_U32_e64_14]], implicit [[V_ADD_U32_e64_15]], implicit [[V_ADD_U32_e64_16]], implicit [[V_ADD_U32_e64_17]], implicit [[V_ADD_U32_e64_18]], implicit [[V_ADD_U32_e64_19]], implicit [[V_ADD_U32_e64_20]], implicit [[V_ADD_U32_e64_21]], implicit [[V_ADD_U32_e64_22]], implicit [[V_ADD_U32_e64_23]], implicit [[V_ADD_U32_e64_24]], implicit [[V_ADD_U32_e64_25]], implicit [[V_ADD_U32_e64_26]]
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.4
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.4:
+  ; GFX10-SUNK-NEXT:   successors: %bb.1(0x40000000), %bb.5(0x40000000)
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT:   S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+  ; GFX10-SUNK-NEXT:   S_BRANCH %bb.5
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.5:
+  ; GFX10-SUNK-NEXT:   S_ENDPGM 0
+  ; GFX10-SUNK-NEXT: {{  $}}
+  ; GFX10-SUNK-NEXT: bb.6.entry:
+  bb.0:
+    %0:vreg_256 = IMPLICIT_DEF
+    %1:vreg_256 = IMPLICIT_DEF
+    %2:vreg_256 = IMPLICIT_DEF
+    %3:vreg_256 = IMPLICIT_DEF
+    %4:vreg_256 = IMPLICIT_DEF
+    %5:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %6:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %7:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %8:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %9:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %10:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %11:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %12:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub0:vreg_256, 0, implicit $exec
+    %13:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %14:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %15:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %16:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %17:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %18:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %19:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %20:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub1:vreg_256, 0, implicit $exec
+    %21:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %22:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %23:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %24:vgpr_32 = V_ADD_U32_e64 %0.sub3:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %25:vgpr_32 = V_ADD_U32_e64 %0.sub4:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %26:vgpr_32 = V_ADD_U32_e64 %0.sub5:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %27:vgpr_32 = V_ADD_U32_e64 %0.sub6:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %28:vgpr_32 = V_ADD_U32_e64 %0.sub7:vreg_256, %1.sub2:vreg_256, 0, implicit $exec
+    %29:vgpr_32 = V_ADD_U32_e64 %0.sub0:vreg_256, %1.sub3:vreg_256, 0, implicit $exec
+    %30:vgpr_32 = V_ADD_U32_e64 %0.sub1:vreg_256, %1.sub3:vreg_256, 0, implicit $exec
+    %31:vgpr_32 = V_ADD_U32_e64 %0.sub2:vreg_256, %1.sub3:vreg_256, 0, implicit $exec
+    %32:vgpr_32, %33:sreg_64_xexec = V_ADD_CO_U32_e64 %0.sub2:vreg_256, %1.sub4:vreg_256, 0, implicit $exec
+
+    S_BRANCH %bb.1
+
+  bb.1:
+    INLINEASM &"", 1, implicit %32, implicit %33
+    S_CBRANCH_EXECZ %bb.2, implicit $exec
+    S_BRANCH %bb.3
+
+  bb.2:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14, implicit %15, implicit %16, implicit %17, implicit %18, implicit %19, implicit %20, implicit %21, implicit %22, implicit %23, implicit %24, implicit %25, implicit %26, implicit %27, implicit %28, implicit %29, implicit %30, implicit %31
+    S_BRANCH %bb.4
+
+  bb.3:
+    INLINEASM &"", 1, implicit %0, implicit %1, implicit %2, implicit %3, implicit %4
+    INLINEASM &"", 1, implicit %5, implicit %6, implicit %7, implicit %8, implicit %9, implicit %10, implicit %11, implicit %12, implicit %13, implicit %14, implicit %15, implicit %16, implicit %17, implicit %18, implicit %19, implicit %20, implicit %21, implicit %22, implicit %23, implicit %24, implicit %25, implicit %26, implicit %27, implicit %28, implicit %29, implicit %30, implicit %31
+    S_BRANCH %bb.4
+
+  bb.4:
+    S_CBRANCH_SCC1 %bb.1, implicit undef $scc
+    S_BRANCH %bb.5
+
+  bb.5:
+    S_ENDPGM 0
+...
+
diff --git a/llvm/test/CodeGen/AMDGPU/machine-sink-ignorable-exec-use.mir b/llvm/test/CodeGen/AMDGPU/machine-sink-ignorable-exec-use.mir
index efa21052e3ae2..0fc31ea9d6437 100644
--- a/llvm/test/CodeGen/AMDGPU/machine-sink-ignorable-exec-use.mir
+++ b/llvm/test/CodeGen/AMDGPU/machine-sink-ignorable-exec-use.mir
@@ -1,5 +1,7 @@
 # NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
 # RUN: llc -mtriple=amdgcn -mcpu=gfx908 -verify-machineinstrs -run-pass=machine-sink -o - %s | FileCheck -check-prefixes=GFX9 %s
+# RUN: llc -mtriple=amdgcn -mcpu=gfx908 -verify-machineinstrs -run-pass=machine-sink --sink-insts-to-avoid-spills=1 -o - %s | FileCheck -check-prefixes=GFX9 %s
+
 
 ---
 name:            test_sink_fmac_to_only_use
diff --git a/llvm/test/CodeGen/AMDGPU/machine-sink-lane-mask.mir b/llvm/test/CodeGen/AMDGPU/machine-sink-lane-mask.mir
index 04c80582f6f07..ef6771278b06f 100644
--- a/llvm/test/CodeGen/AMDGPU/machine-sink-lane-mask.mir
+++ b/llvm/test/CodeGen/AMDGPU/machine-sink-lane-mask.mir
@@ -1,78 +1,79 @@
 # NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 3
-# RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1031 -run-pass=machine-sink -o -  %s | FileCheck %s
+# RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1031 -run-pass=machine-sink -o -  %s | FileCheck -check-prefixes=GFX10 %s
+# RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1031 -run-pass=machine-sink --sink-insts-to-avoid-spills=1 -o -  %s | FileCheck -check-prefixes=GFX10 %s
 
 ---
 name: multi_else_break
 tracksRegLiveness: true
 body: |
-  ; CHECK-LABEL: name: multi_else_break
-  ; CHECK: bb.0:
-  ; CHECK-NEXT:   successors: %bb.1(0x80000000)
-  ; CHECK-NEXT:   liveins: $vgpr4, $vgpr5
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr5
-  ; CHECK-NEXT:   [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr4
-  ; CHECK-NEXT:   [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 0
-  ; CHECK-NEXT:   [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]], implicit $exec
-  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF2:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 1
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT: bb.1:
-  ; CHECK-NEXT:   successors: %bb.2(0x80000000)
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[PHI:%[0-9]+]]:sreg_32 = PHI [[S_MOV_B32_]], %bb.0, %9, %bb.6
-  ; CHECK-NEXT:   [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[COPY2]], %bb.0, %11, %bb.6
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT: bb.2:
-  ; CHECK-NEXT:   successors: %bb.4(0x40000000), %bb.5(0x40000000)
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[PHI2:%[0-9]+]]:sreg_32 = PHI [[DEF1]], %bb.1, %13, %bb.5
-  ; CHECK-NEXT:   [[PHI3:%[0-9]+]]:sreg_32 = PHI [[DEF]], %bb.1, %15, %bb.5
-  ; CHECK-NEXT:   [[PHI4:%[0-9]+]]:sreg_32 = PHI [[S_MOV_B32_]], %bb.1, %17, %bb.5
-  ; CHECK-NEXT:   [[PHI5:%[0-9]+]]:vgpr_32 = PHI [[PHI1]], %bb.1, %19, %bb.5
-  ; CHECK-NEXT:   [[V_CMP_LT_I32_e64_:%[0-9]+]]:sreg_32 = V_CMP_LT_I32_e64 [[PHI5]], [[COPY1]], implicit $exec
-  ; CHECK-NEXT:   [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[DEF2]]
-  ; CHECK-NEXT:   [[S_OR_B32_:%[0-9]+]]:sreg_32 = S_OR_B32 [[PHI3]], $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[S_OR_B32_1:%[0-9]+]]:sreg_32 = S_OR_B32 [[PHI2]], $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32 = SI_IF killed [[V_CMP_LT_I32_e64_]], %bb.5, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
-  ; CHECK-NEXT:   S_BRANCH %bb.4
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT: bb.3:
-  ; CHECK-NEXT:   SI_END_CF %9, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
-  ; CHECK-NEXT:   S_ENDPGM 0
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT: bb.4:
-  ; CHECK-NEXT:   successors: %bb.5(0x80000000)
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[PHI5]], [[S_MOV_B32_1]], 0, implicit $exec
-  ; CHECK-NEXT:   [[V_CMP_NE_U32_e64_:%[0-9]+]]:sreg_32 = V_CMP_NE_U32_e64 [[COPY]], [[V_ADD_U32_e64_]], implicit $exec
-  ; CHECK-NEXT:   [[S_ANDN2_B32_:%[0-9]+]]:sreg_32 = S_ANDN2_B32 [[S_OR_B32_]], $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[COPY4:%[0-9]+]]:sreg_32 = COPY [[S_ANDN2_B32_]]
-  ; CHECK-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32 = S_ANDN2_B32 [[S_OR_B32_1]], $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32 = S_AND_B32 [[V_CMP_NE_U32_e64_]], $exec_lo, implicit-def $scc
-  ; CHECK-NEXT:   [[S_OR_B32_2:%[0-9]+]]:sreg_32 = S_OR_B32 [[S_ANDN2_B32_1]], [[S_AND_B32_]], implicit-def $scc
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT: bb.5:
-  ; CHECK-NEXT:   successors: %bb.6(0x04000000), %bb.2(0x7c000000)
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[PHI6:%[0-9]+]]:sreg_32 = PHI [[S_OR_B32_1]], %bb.2, [[S_OR_B32_2]], %bb.4
-  ; CHECK-NEXT:   [[PHI7:%[0-9]+]]:sreg_32 = PHI [[S_OR_B32_]], %bb.2, [[COPY4]], %bb.4
-  ; CHECK-NEXT:   [[PHI8:%[0-9]+]]:vgpr_32 = PHI [[COPY3]], %bb.2, [[V_ADD_U32_e64_]], %bb.4
-  ; CHECK-NEXT:   SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
-  ; CHECK-NEXT:   [[SI_IF_BREAK:%[0-9]+]]:sreg_32 = SI_IF_BREAK [[PHI6]], [[PHI4]], implicit-def dead $scc
-  ; CHECK-NEXT:   SI_LOOP [[SI_IF_BREAK]], %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
-  ; CHECK-NEXT:   S_BRANCH %bb.6
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT: bb.6:
-  ; CHECK-NEXT:   successors: %bb.3(0x04000000), %bb.1(0x7c000000)
-  ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[PHI9:%[0-9]+]]:vgpr_32 = PHI [[PHI8]], %bb.5
-  ; CHECK-NEXT:   SI_END_CF [[SI_IF_BREAK]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
-  ; CHECK-NEXT:   [[SI_IF_BREAK1:%[0-9]+]]:sreg_32 = SI_IF_BREAK [[PHI7]], [[PHI]], implicit-def dead $scc
-  ; CHECK-NEXT:   SI_LOOP [[SI_IF_BREAK1]], %bb.1, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
-  ; CHECK-NEXT:   S_BRANCH %bb.3
+  ; GFX10-LABEL: name: multi_else_break
+  ; GFX10: bb.0:
+  ; GFX10-NEXT:   successors: %bb.1(0x80000000)
+  ; GFX10-NEXT:   liveins: $vgpr4, $vgpr5
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT:   [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr5
+  ; GFX10-NEXT:   [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr4
+  ; GFX10-NEXT:   [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 0
+  ; GFX10-NEXT:   [[COPY2:%[0-9]+]]:vgpr_32 = COPY [[S_MOV_B32_]], implicit $exec
+  ; GFX10-NEXT:   [[DEF:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
+  ; GFX10-NEXT:   [[DEF1:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
+  ; GFX10-NEXT:   [[DEF2:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
+  ; GFX10-NEXT:   [[S_MOV_B32_1:%[0-9]+]]:sreg_32 = S_MOV_B32 1
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT: bb.1:
+  ; GFX10-NEXT:   successors: %bb.2(0x80000000)
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT:   [[PHI:%[0-9]+]]:sreg_32 = PHI [[S_MOV_B32_]], %bb.0, %9, %bb.6
+  ; GFX10-NEXT:   [[PHI1:%[0-9]+]]:vgpr_32 = PHI [[COPY2]], %bb.0, %11, %bb.6
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT: bb.2:
+  ; GFX10-NEXT:   successors: %bb.4(0x40000000), %bb.5(0x40000000)
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT:   [[PHI2:%[0-9]+]]:sreg_32 = PHI [[DEF1]], %bb.1, %13, %bb.5
+  ; GFX10-NEXT:   [[PHI3:%[0-9]+]]:sreg_32 = PHI [[DEF]], %bb.1, %15, %bb.5
+  ; GFX10-NEXT:   [[PHI4:%[0-9]+]]:sreg_32 = PHI [[S_MOV_B32_]], %bb.1, %17, %bb.5
+  ; GFX10-NEXT:   [[PHI5:%[0-9]+]]:vgpr_32 = PHI [[PHI1]], %bb.1, %19, %bb.5
+  ; GFX10-NEXT:   [[V_CMP_LT_I32_e64_:%[0-9]+]]:sreg_32 = V_CMP_LT_I32_e64 [[PHI5]], [[COPY1]], implicit $exec
+  ; GFX10-NEXT:   [[COPY3:%[0-9]+]]:vgpr_32 = COPY [[DEF2]]
+  ; GFX10-NEXT:   [[S_OR_B32_:%[0-9]+]]:sreg_32 = S_OR_B32 [[PHI3]], $exec_lo, implicit-def $scc
+  ; GFX10-NEXT:   [[S_OR_B32_1:%[0-9]+]]:sreg_32 = S_OR_B32 [[PHI2]], $exec_lo, implicit-def $scc
+  ; GFX10-NEXT:   [[SI_IF:%[0-9]+]]:sreg_32 = SI_IF killed [[V_CMP_LT_I32_e64_]], %bb.5, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
+  ; GFX10-NEXT:   S_BRANCH %bb.4
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT: bb.3:
+  ; GFX10-NEXT:   SI_END_CF %9, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
+  ; GFX10-NEXT:   S_ENDPGM 0
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT: bb.4:
+  ; GFX10-NEXT:   successors: %bb.5(0x80000000)
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT:   [[V_ADD_U32_e64_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e64 [[PHI5]], [[S_MOV_B32_1]], 0, implicit $exec
+  ; GFX10-NEXT:   [[V_CMP_NE_U32_e64_:%[0-9]+]]:sreg_32 = V_CMP_NE_U32_e64 [[COPY]], [[V_ADD_U32_e64_]], implicit $exec
+  ; GFX10-NEXT:   [[S_ANDN2_B32_:%[0-9]+]]:sreg_32 = S_ANDN2_B32 [[S_OR_B32_]], $exec_lo, implicit-def $scc
+  ; GFX10-NEXT:   [[COPY4:%[0-9]+]]:sreg_32 = COPY [[S_ANDN2_B32_]]
+  ; GFX10-NEXT:   [[S_ANDN2_B32_1:%[0-9]+]]:sreg_32 = S_ANDN2_B32 [[S_OR_B32_1]], $exec_lo, implicit-def $scc
+  ; GFX10-NEXT:   [[S_AND_B32_:%[0-9]+]]:sreg_32 = S_AND_B32 [[V_CMP_NE_U32_e64_]], $exec_lo, implicit-def $scc
+  ; GFX10-NEXT:   [[S_OR_B32_2:%[0-9]+]]:sreg_32 = S_OR_B32 [[S_ANDN2_B32_1]], [[S_AND_B32_]], implicit-def $scc
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT: bb.5:
+  ; GFX10-NEXT:   successors: %bb.6(0x04000000), %bb.2(0x7c000000)
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT:   [[PHI6:%[0-9]+]]:sreg_32 = PHI [[S_OR_B32_1]], %bb.2, [[S_OR_B32_2]], %bb.4
+  ; GFX10-NEXT:   [[PHI7:%[0-9]+]]:sreg_32 = PHI [[S_OR_B32_]], %bb.2, [[COPY4]], %bb.4
+  ; GFX10-NEXT:   [[PHI8:%[0-9]+]]:vgpr_32 = PHI [[COPY3]], %bb.2, [[V_ADD_U32_e64_]], %bb.4
+  ; GFX10-NEXT:   SI_END_CF [[SI_IF]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
+  ; GFX10-NEXT:   [[SI_IF_BREAK:%[0-9]+]]:sreg_32 = SI_IF_BREAK [[PHI6]], [[PHI4]], implicit-def dead $scc
+  ; GFX10-NEXT:   SI_LOOP [[SI_IF_BREAK]], %bb.2, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
+  ; GFX10-NEXT:   S_BRANCH %bb.6
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT: bb.6:
+  ; GFX10-NEXT:   successors: %bb.3(0x04000000), %bb.1(0x7c000000)
+  ; GFX10-NEXT: {{  $}}
+  ; GFX10-NEXT:   [[PHI9:%[0-9]+]]:vgpr_32 = PHI [[PHI8]], %bb.5
+  ; GFX10-NEXT:   SI_END_CF [[SI_IF_BREAK]], implicit-def dead $exec, implicit-def dead $scc, implicit $exec
+  ; GFX10-NEXT:   [[SI_IF_BREAK1:%[0-9]+]]:sreg_32 = SI_IF_BREAK [[PHI7]], [[PHI]], implicit-def dead $scc
+  ; GFX10-NEXT:   SI_LOOP [[SI_IF_BREAK1]], %bb.1, implicit-def dead $exec, implicit-def dead $scc, implicit $exec
+  ; GFX10-NEXT:   S_BRANCH %bb.3
   bb.0:
     successors: %bb.1(0x80000000)
     liveins: $vgpr4, $vgpr5
diff --git a/llvm/test/CodeGen/AMDGPU/memcpy-libcall.ll b/llvm/test/CodeGen/AMDGPU/memcpy-libcall.ll
index 851c9bb02a345..127656f7aa626 100644
--- a/llvm/test/CodeGen/AMDGPU/memcpy-libcall.ll
+++ b/llvm/test/CodeGen/AMDGPU/memcpy-libcall.ll
@@ -589,6 +589,6 @@ declare void @llvm.memcpy.p3.p4.i64(ptr addrspace(3) noalias nocapture writeonly
 
 declare void @llvm.memcpy.p0.p3.i64(ptr noalias nocapture writeonly, ptr addrspace(3) noalias nocapture readonly, i64, i1 immarg) #2
 
-attributes #0 = { minsize }
-attributes #1 = { optsize }
+attributes #0 = { minsize "amdgpu-flat-work-group-size"="1024,1024" }
+attributes #1 = { optsize "amdgpu-flat-work-group-size"="1024,1024" }
 attributes #2 = { nocallback nofree nounwind willreturn memory(argmem: readwrite) }
diff --git a/llvm/test/CodeGen/AMDGPU/memory_clause.mir b/llvm/test/CodeGen/AMDGPU/memory_clause.mir
index f7e295a91c828..4b0226a0f6586 100644
--- a/llvm/test/CodeGen/AMDGPU/memory_clause.mir
+++ b/llvm/test/CodeGen/AMDGPU/memory_clause.mir
@@ -263,10 +263,10 @@ body:             |
 # GCN-NEXT: dead %6:vreg_128 = GLOBAL_LOAD_DWORDX4 %0, 64, 0, implicit $exec
 # GCN-NEXT: dead %7:vreg_128 = GLOBAL_LOAD_DWORDX4 %0, 80, 0, implicit $exec
 # GCN-NEXT: dead %8:vreg_128 = GLOBAL_LOAD_DWORDX4 %0, 96, 0, implicit $exec
-# GCN-NEXT: KILL %0{{$}}
 # GCN-NEXT: dead %9:vreg_128 = GLOBAL_LOAD_DWORDX4 %1, 128, 0, implicit $exec
 # GCN-NEXT: dead %10:vreg_128 = GLOBAL_LOAD_DWORDX4 %1, 144, 0, implicit $exec
 # GCN-NEXT: KILL %1{{$}}
+# GCN-NEXT: KILL %0{{$}}
 
 ---
 name:            reg_pressure
diff --git a/llvm/test/CodeGen/AMDGPU/min-waves-per-eu-not-respected.ll b/llvm/test/CodeGen/AMDGPU/min-waves-per-eu-not-respected.ll
index 239fa80ade98a..04f2e3235d44a 100644
--- a/llvm/test/CodeGen/AMDGPU/min-waves-per-eu-not-respected.ll
+++ b/llvm/test/CodeGen/AMDGPU/min-waves-per-eu-not-respected.ll
@@ -12,5 +12,5 @@ define amdgpu_kernel void @impossible_occupancy() #1 {
   ret void
 }
 
-attributes #0 = { "amdgpu-flat-work-group-size"="1,1024" "amdgpu-waves-per-eu"="9" }
+attributes #0 = { "amdgpu-flat-work-group-size"="1024,1024" "amdgpu-waves-per-eu"="9" }
 attributes #1 = { "amdgpu-flat-work-group-size"="1,256" "amdgpu-waves-per-eu"="11" }
diff --git a/llvm/test/CodeGen/AMDGPU/mul.ll b/llvm/test/CodeGen/AMDGPU/mul.ll
index bb7a591c91465..01eb1b1a353d1 100644
--- a/llvm/test/CodeGen/AMDGPU/mul.ll
+++ b/llvm/test/CodeGen/AMDGPU/mul.ll
@@ -2994,71 +2994,70 @@ define amdgpu_kernel void @v_mul_i128(ptr addrspace(1) %out, ptr addrspace(1) %a
 ; VI:       ; %bb.0: ; %entry
 ; VI-NEXT:    s_load_dwordx4 s[0:3], s[4:5], 0x2c
 ; VI-NEXT:    v_lshlrev_b32_e32 v2, 4, v0
-; VI-NEXT:    v_mov_b32_e32 v11, 0
+; VI-NEXT:    v_mov_b32_e32 v10, 0
 ; VI-NEXT:    s_waitcnt lgkmcnt(0)
 ; VI-NEXT:    v_mov_b32_e32 v1, s1
 ; VI-NEXT:    v_add_u32_e32 v0, vcc, s0, v2
 ; VI-NEXT:    v_addc_u32_e32 v1, vcc, 0, v1, vcc
 ; VI-NEXT:    v_mov_b32_e32 v3, s3
-; VI-NEXT:    v_add_u32_e32 v8, vcc, s2, v2
-; VI-NEXT:    v_addc_u32_e32 v9, vcc, 0, v3, vcc
+; VI-NEXT:    v_add_u32_e32 v12, vcc, s2, v2
+; VI-NEXT:    v_addc_u32_e32 v13, vcc, 0, v3, vcc
 ; VI-NEXT:    flat_load_dwordx4 v[0:3], v[0:1]
-; VI-NEXT:    flat_load_dwordx4 v[4:7], v[8:9]
+; VI-NEXT:    flat_load_dwordx4 v[4:7], v[12:13]
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    v_mul_lo_u32 v10, v4, v3
-; VI-NEXT:    v_mad_u64_u32 v[12:13], s[0:1], v4, v2, 0
-; VI-NEXT:    v_mul_lo_u32 v14, v5, v2
-; VI-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], v0, v4, 0
-; VI-NEXT:    v_add_u32_e32 v13, vcc, v13, v10
-; VI-NEXT:    v_mov_b32_e32 v10, v3
-; VI-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], v1, v4, v[10:11]
-; VI-NEXT:    v_add_u32_e32 v13, vcc, v13, v14
-; VI-NEXT:    v_mov_b32_e32 v10, v4
-; VI-NEXT:    v_mov_b32_e32 v4, v11
-; VI-NEXT:    v_mul_lo_u32 v7, v7, v0
-; VI-NEXT:    v_mad_u64_u32 v[12:13], s[0:1], v6, v0, v[12:13]
-; VI-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], v0, v5, v[3:4]
-; VI-NEXT:    v_add_u32_e32 v13, vcc, v7, v13
-; VI-NEXT:    v_mov_b32_e32 v0, v4
-; VI-NEXT:    v_mul_lo_u32 v11, v6, v1
-; VI-NEXT:    v_add_u32_e32 v6, vcc, v10, v0
-; VI-NEXT:    v_addc_u32_e64 v7, s[0:1], 0, 0, vcc
-; VI-NEXT:    v_mad_u64_u32 v[0:1], s[0:1], v1, v5, v[6:7]
-; VI-NEXT:    v_add_u32_e32 v5, vcc, v11, v13
-; VI-NEXT:    v_add_u32_e32 v4, vcc, v0, v12
-; VI-NEXT:    v_addc_u32_e32 v5, vcc, v1, v5, vcc
-; VI-NEXT:    flat_store_dwordx4 v[8:9], v[2:5]
+; VI-NEXT:    v_mul_lo_u32 v3, v4, v3
+; VI-NEXT:    v_mad_u64_u32 v[14:15], s[0:1], v4, v2, 0
+; VI-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v0, v4, 0
+; VI-NEXT:    v_mul_lo_u32 v2, v5, v2
+; VI-NEXT:    v_add_u32_e32 v3, vcc, v15, v3
+; VI-NEXT:    v_add_u32_e32 v15, vcc, v3, v2
+; VI-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], v1, v4, v[9:10]
+; VI-NEXT:    v_mov_b32_e32 v4, v3
+; VI-NEXT:    v_mov_b32_e32 v3, v10
+; VI-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], v0, v5, v[2:3]
+; VI-NEXT:    v_mad_u64_u32 v[9:10], s[0:1], v6, v0, v[14:15]
+; VI-NEXT:    v_add_u32_e32 v3, vcc, v4, v3
+; VI-NEXT:    v_addc_u32_e64 v4, s[0:1], 0, 0, vcc
+; VI-NEXT:    v_mul_lo_u32 v0, v7, v0
+; VI-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], v1, v5, v[3:4]
+; VI-NEXT:    v_mul_lo_u32 v1, v6, v1
+; VI-NEXT:    v_add_u32_e32 v0, vcc, v0, v10
+; VI-NEXT:    v_add_u32_e32 v0, vcc, v1, v0
+; VI-NEXT:    v_add_u32_e32 v10, vcc, v3, v9
+; VI-NEXT:    v_addc_u32_e32 v11, vcc, v4, v0, vcc
+; VI-NEXT:    v_mov_b32_e32 v9, v2
+; VI-NEXT:    flat_store_dwordx4 v[12:13], v[8:11]
 ; VI-NEXT:    s_endpgm
 ;
 ; GFX9-LABEL: v_mul_i128:
 ; GFX9:       ; %bb.0: ; %entry
 ; GFX9-NEXT:    s_load_dwordx4 s[0:3], s[4:5], 0x2c
-; GFX9-NEXT:    v_lshlrev_b32_e32 v13, 4, v0
-; GFX9-NEXT:    v_mov_b32_e32 v10, 0
+; GFX9-NEXT:    v_lshlrev_b32_e32 v12, 4, v0
+; GFX9-NEXT:    v_mov_b32_e32 v11, 0
 ; GFX9-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX9-NEXT:    global_load_dwordx4 v[0:3], v13, s[0:1]
-; GFX9-NEXT:    global_load_dwordx4 v[4:7], v13, s[2:3]
+; GFX9-NEXT:    global_load_dwordx4 v[0:3], v12, s[0:1]
+; GFX9-NEXT:    global_load_dwordx4 v[4:7], v12, s[2:3]
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
-; GFX9-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v0, v4, 0
-; GFX9-NEXT:    v_mul_lo_u32 v14, v5, v2
-; GFX9-NEXT:    v_mul_lo_u32 v15, v4, v3
-; GFX9-NEXT:    v_mad_u64_u32 v[11:12], s[0:1], v1, v4, v[9:10]
-; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], v4, v2, 0
-; GFX9-NEXT:    v_mul_lo_u32 v16, v7, v0
-; GFX9-NEXT:    v_mov_b32_e32 v7, v12
-; GFX9-NEXT:    v_mov_b32_e32 v12, v10
-; GFX9-NEXT:    v_mad_u64_u32 v[9:10], s[0:1], v0, v5, v[11:12]
-; GFX9-NEXT:    v_add3_u32 v3, v3, v15, v14
-; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], v6, v0, v[2:3]
-; GFX9-NEXT:    v_mov_b32_e32 v0, v10
-; GFX9-NEXT:    v_mul_lo_u32 v4, v6, v1
-; GFX9-NEXT:    v_add_co_u32_e32 v6, vcc, v7, v0
-; GFX9-NEXT:    v_addc_co_u32_e64 v7, s[0:1], 0, 0, vcc
-; GFX9-NEXT:    v_mad_u64_u32 v[0:1], s[0:1], v1, v5, v[6:7]
-; GFX9-NEXT:    v_add3_u32 v3, v16, v3, v4
-; GFX9-NEXT:    v_add_co_u32_e32 v10, vcc, v0, v2
-; GFX9-NEXT:    v_addc_co_u32_e32 v11, vcc, v1, v3, vcc
-; GFX9-NEXT:    global_store_dwordx4 v13, v[8:11], s[2:3]
+; GFX9-NEXT:    v_mul_lo_u32 v10, v5, v2
+; GFX9-NEXT:    v_mul_lo_u32 v13, v4, v3
+; GFX9-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v4, v2, 0
+; GFX9-NEXT:    v_mad_u64_u32 v[2:3], s[0:1], v0, v4, 0
+; GFX9-NEXT:    v_add3_u32 v9, v9, v13, v10
+; GFX9-NEXT:    v_mul_lo_u32 v13, v6, v1
+; GFX9-NEXT:    v_mov_b32_e32 v10, v3
+; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], v1, v4, v[10:11]
+; GFX9-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v6, v0, v[8:9]
+; GFX9-NEXT:    v_mov_b32_e32 v10, v4
+; GFX9-NEXT:    v_mov_b32_e32 v4, v11
+; GFX9-NEXT:    v_mad_u64_u32 v[3:4], s[0:1], v0, v5, v[3:4]
+; GFX9-NEXT:    v_mul_lo_u32 v0, v7, v0
+; GFX9-NEXT:    v_add_co_u32_e32 v10, vcc, v10, v4
+; GFX9-NEXT:    v_addc_co_u32_e64 v11, s[0:1], 0, 0, vcc
+; GFX9-NEXT:    v_mad_u64_u32 v[4:5], s[0:1], v1, v5, v[10:11]
+; GFX9-NEXT:    v_add3_u32 v0, v0, v9, v13
+; GFX9-NEXT:    v_add_co_u32_e32 v4, vcc, v4, v8
+; GFX9-NEXT:    v_addc_co_u32_e32 v5, vcc, v5, v0, vcc
+; GFX9-NEXT:    global_store_dwordx4 v12, v[2:5], s[2:3]
 ; GFX9-NEXT:    s_endpgm
 ;
 ; GFX10-LABEL: v_mul_i128:
diff --git a/llvm/test/CodeGen/AMDGPU/mul24-pass-ordering.ll b/llvm/test/CodeGen/AMDGPU/mul24-pass-ordering.ll
index 1e9994dd8e6ef..299bbdac60091 100644
--- a/llvm/test/CodeGen/AMDGPU/mul24-pass-ordering.ll
+++ b/llvm/test/CodeGen/AMDGPU/mul24-pass-ordering.ll
@@ -73,22 +73,22 @@ define void @lsr_order_mul24_1(i32 %arg, i32 %arg1, i32 %arg2, ptr addrspace(3)
 ; GFX9-NEXT:  .LBB1_2: ; %bb23
 ; GFX9-NEXT:    ; =>This Inner Loop Header: Depth=1
 ; GFX9-NEXT:    v_cvt_f32_u32_e32 v3, v0
-; GFX9-NEXT:    v_add_u32_e32 v18, v9, v0
 ; GFX9-NEXT:    v_add_u32_e32 v12, v17, v0
-; GFX9-NEXT:    v_add_u32_e32 v0, v0, v2
 ; GFX9-NEXT:    v_madak_f32 v3, v3, v7, 0x3727c5ac
 ; GFX9-NEXT:    v_cvt_u32_f32_e32 v3, v3
-; GFX9-NEXT:    v_mul_u32_u24_e32 v19, v3, v5
-; GFX9-NEXT:    v_add_u32_e32 v20, v3, v16
-; GFX9-NEXT:    v_sub_u32_e32 v3, v18, v19
-; GFX9-NEXT:    v_sub_u32_e32 v12, v12, v19
-; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[6:7], v20, v15, v[3:4]
-; GFX9-NEXT:    v_cmp_lt_u32_e64 s[4:5], v20, v13
+; GFX9-NEXT:    v_mul_u32_u24_e32 v18, v3, v5
+; GFX9-NEXT:    v_add_u32_e32 v19, v3, v16
+; GFX9-NEXT:    v_add_u32_e32 v3, v9, v0
+; GFX9-NEXT:    v_sub_u32_e32 v3, v3, v18
+; GFX9-NEXT:    v_sub_u32_e32 v12, v12, v18
+; GFX9-NEXT:    v_cmp_lt_u32_e64 s[4:5], v19, v13
+; GFX9-NEXT:    v_mad_u64_u32 v[18:19], s[6:7], v19, v15, v[3:4]
 ; GFX9-NEXT:    v_cmp_lt_u32_e64 s[6:7], v12, v14
 ; GFX9-NEXT:    s_and_b64 s[4:5], s[4:5], s[6:7]
 ; GFX9-NEXT:    s_and_b64 s[4:5], s[4:5], vcc
 ; GFX9-NEXT:    v_cndmask_b32_e64 v3, 0, v18, s[4:5]
 ; GFX9-NEXT:    v_lshlrev_b64 v[18:19], 2, v[3:4]
+; GFX9-NEXT:    v_add_u32_e32 v0, v0, v2
 ; GFX9-NEXT:    v_add_co_u32_e64 v18, s[6:7], v10, v18
 ; GFX9-NEXT:    v_addc_co_u32_e64 v19, s[6:7], v11, v19, s[6:7]
 ; GFX9-NEXT:    global_load_dword v3, v[18:19], off
diff --git a/llvm/test/CodeGen/AMDGPU/permute_i8.ll b/llvm/test/CodeGen/AMDGPU/permute_i8.ll
index 37bf8516403bf..8c3758daacb9c 100644
--- a/llvm/test/CodeGen/AMDGPU/permute_i8.ll
+++ b/llvm/test/CodeGen/AMDGPU/permute_i8.ll
@@ -592,7 +592,8 @@ define hidden void @addUsesOr(ptr addrspace(1) %in0, ptr addrspace(1) %in1, i8 %
 ; GFX9-NEXT:    v_add_u16_sdwa v0, v4, v7 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_3
 ; GFX9-NEXT:    v_add_u16_sdwa v1, v4, v7 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v1, v0 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX9-NEXT:    v_add_u16_sdwa v0, v4, v7 dst_sel:BYTE_1 dst_unused:UNUSED_PRESERVE src0_sel:DWORD src1_sel:BYTE_1
+; GFX9-NEXT:    v_add_u16_sdwa v1, v4, v7 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
+; GFX9-NEXT:    v_or_b32_e32 v0, v1, v0
 ; GFX9-NEXT:    global_store_dword v[5:6], v0, off
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    s_setpc_b64 s[30:31]
@@ -1616,24 +1617,24 @@ define hidden void @sdiv_store_div(ptr addrspace(1) %in0, ptr addrspace(1) %in1,
 ; GFX9-NEXT:    v_cvt_i32_f32_e32 v16, v16
 ; GFX9-NEXT:    v_mad_f32 v3, -v17, v13, v3
 ; GFX9-NEXT:    v_cvt_i32_f32_e32 v17, v17
-; GFX9-NEXT:    v_mad_f32 v20, -v18, v4, v2
+; GFX9-NEXT:    v_mad_f32 v2, -v18, v4, v2
 ; GFX9-NEXT:    v_cvt_i32_f32_e32 v18, v18
 ; GFX9-NEXT:    v_cndmask_b32_e32 v1, 0, v1, vcc
 ; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v11|, |v12|
 ; GFX9-NEXT:    v_ashrrev_i32_e32 v14, 30, v14
 ; GFX9-NEXT:    v_or_b32_e32 v9, 1, v9
-; GFX9-NEXT:    v_cndmask_b32_e32 v2, 0, v10, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v10, 0, v10, vcc
 ; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v3|, |v13|
 ; GFX9-NEXT:    v_or_b32_e32 v14, 1, v14
 ; GFX9-NEXT:    v_cndmask_b32_e32 v3, 0, v9, vcc
-; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v20|, |v4|
-; GFX9-NEXT:    v_cndmask_b32_e32 v4, 0, v14, vcc
+; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v2|, |v4|
+; GFX9-NEXT:    v_cndmask_b32_e32 v2, 0, v14, vcc
 ; GFX9-NEXT:    v_add_u32_e32 v1, v15, v1
-; GFX9-NEXT:    v_add_u32_sdwa v2, v16, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
+; GFX9-NEXT:    v_add_u32_sdwa v4, v16, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
 ; GFX9-NEXT:    v_add_u32_e32 v3, v17, v3
-; GFX9-NEXT:    v_add_u32_sdwa v4, v18, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
-; GFX9-NEXT:    v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX9-NEXT:    v_or_b32_sdwa v2, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX9-NEXT:    v_add_u32_sdwa v2, v18, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
+; GFX9-NEXT:    v_or_b32_sdwa v1, v1, v4 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX9-NEXT:    v_or_b32_sdwa v2, v3, v2 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX9-NEXT:    global_store_dword v[5:6], v1, off
 ; GFX9-NEXT:    global_store_dword v[7:8], v0, off
@@ -1952,71 +1953,71 @@ define hidden void @srem_store_div(ptr addrspace(1) %in0, ptr addrspace(1) %in1,
 ; GFX9-NEXT:    global_load_dword v9, v[0:1], off
 ; GFX9-NEXT:    s_mov_b32 s4, 0x2070306
 ; GFX9-NEXT:    s_waitcnt vmcnt(1)
-; GFX9-NEXT:    v_cvt_f32_i32_sdwa v3, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
 ; GFX9-NEXT:    v_cvt_f32_i32_sdwa v14, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_1
-; GFX9-NEXT:    v_cvt_f32_i32_sdwa v10, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2
-; GFX9-NEXT:    v_cvt_f32_i32_sdwa v16, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3
-; GFX9-NEXT:    v_rcp_iflag_f32_e32 v20, v3
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    v_cvt_f32_i32_sdwa v13, sext(v9) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3
-; GFX9-NEXT:    v_rcp_iflag_f32_e32 v21, v14
+; GFX9-NEXT:    v_cvt_f32_i32_sdwa v10, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2
+; GFX9-NEXT:    v_cvt_f32_i32_sdwa v3, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0
+; GFX9-NEXT:    v_rcp_iflag_f32_e32 v18, v14
+; GFX9-NEXT:    v_cvt_f32_i32_sdwa v16, sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3
+; GFX9-NEXT:    v_rcp_iflag_f32_e32 v19, v10
+; GFX9-NEXT:    v_perm_b32 v1, v4, v9, s4
+; GFX9-NEXT:    v_mul_f32_e32 v18, v13, v18
+; GFX9-NEXT:    v_trunc_f32_e32 v18, v18
+; GFX9-NEXT:    v_mad_f32 v13, -v18, v14, v13
+; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v13|, |v14|
+; GFX9-NEXT:    v_rcp_iflag_f32_e32 v13, v3
+; GFX9-NEXT:    v_mul_f32_e32 v14, v16, v19
+; GFX9-NEXT:    v_trunc_f32_e32 v14, v14
+; GFX9-NEXT:    v_mad_f32 v19, -v14, v10, v16
+; GFX9-NEXT:    v_mul_f32_e32 v13, v10, v13
+; GFX9-NEXT:    v_trunc_f32_e32 v13, v13
+; GFX9-NEXT:    v_cmp_ge_f32_e64 s[4:5], |v19|, |v10|
+; GFX9-NEXT:    v_mad_f32 v10, -v13, v3, v10
 ; GFX9-NEXT:    v_cvt_f32_i32_sdwa v19, sext(v9) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2
-; GFX9-NEXT:    v_rcp_iflag_f32_e32 v22, v10
-; GFX9-NEXT:    v_rcp_iflag_f32_e32 v23, v16
-; GFX9-NEXT:    v_mul_f32_e32 v20, v10, v20
-; GFX9-NEXT:    v_xor_b32_sdwa v2, sext(v4), sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0
-; GFX9-NEXT:    v_mul_f32_e32 v21, v13, v21
-; GFX9-NEXT:    v_trunc_f32_e32 v20, v20
+; GFX9-NEXT:    v_cmp_ge_f32_e64 s[6:7], |v10|, |v3|
+; GFX9-NEXT:    v_rcp_iflag_f32_e32 v3, v16
 ; GFX9-NEXT:    v_xor_b32_sdwa v12, sext(v9), sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_1
-; GFX9-NEXT:    v_ashrrev_i32_e32 v2, 30, v2
-; GFX9-NEXT:    v_mul_f32_e32 v22, v16, v22
-; GFX9-NEXT:    v_mul_f32_e32 v23, v19, v23
-; GFX9-NEXT:    v_trunc_f32_e32 v21, v21
-; GFX9-NEXT:    v_mad_f32 v24, -v20, v3, v10
+; GFX9-NEXT:    v_xor_b32_sdwa v2, sext(v4), sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_0
 ; GFX9-NEXT:    v_xor_b32_sdwa v15, sext(v4), sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:BYTE_2
+; GFX9-NEXT:    v_mul_f32_e32 v3, v19, v3
+; GFX9-NEXT:    v_trunc_f32_e32 v3, v3
 ; GFX9-NEXT:    v_ashrrev_i32_e32 v12, 30, v12
-; GFX9-NEXT:    v_or_b32_e32 v2, 1, v2
-; GFX9-NEXT:    v_trunc_f32_e32 v22, v22
-; GFX9-NEXT:    v_trunc_f32_e32 v23, v23
-; GFX9-NEXT:    v_mad_f32 v13, -v21, v14, v13
-; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v24|, |v3|
-; GFX9-NEXT:    v_xor_b32_sdwa v18, sext(v9), sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_3
+; GFX9-NEXT:    v_xor_b32_sdwa v10, sext(v9), sext(v4) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_2 src1_sel:BYTE_3
+; GFX9-NEXT:    v_cvt_i32_f32_e32 v13, v13
+; GFX9-NEXT:    v_cvt_i32_f32_e32 v18, v18
+; GFX9-NEXT:    v_cvt_i32_f32_e32 v14, v14
+; GFX9-NEXT:    v_mad_f32 v19, -v3, v16, v19
+; GFX9-NEXT:    v_cvt_i32_f32_e32 v3, v3
 ; GFX9-NEXT:    v_ashrrev_i32_e32 v15, 30, v15
 ; GFX9-NEXT:    v_or_b32_e32 v12, 1, v12
-; GFX9-NEXT:    v_cvt_i32_f32_e32 v20, v20
-; GFX9-NEXT:    v_cvt_i32_f32_e32 v21, v21
-; GFX9-NEXT:    v_mad_f32 v25, -v22, v10, v16
-; GFX9-NEXT:    v_cvt_i32_f32_e32 v22, v22
-; GFX9-NEXT:    v_mad_f32 v19, -v23, v16, v19
-; GFX9-NEXT:    v_cvt_i32_f32_e32 v23, v23
-; GFX9-NEXT:    v_cndmask_b32_e32 v2, 0, v2, vcc
-; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v13|, |v14|
-; GFX9-NEXT:    v_ashrrev_i32_e32 v18, 30, v18
+; GFX9-NEXT:    v_ashrrev_i32_e32 v2, 30, v2
+; GFX9-NEXT:    v_ashrrev_i32_e32 v10, 30, v10
 ; GFX9-NEXT:    v_or_b32_e32 v15, 1, v15
-; GFX9-NEXT:    v_cndmask_b32_e32 v3, 0, v12, vcc
-; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v25|, |v10|
-; GFX9-NEXT:    v_or_b32_e32 v18, 1, v18
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, 0, v15, vcc
+; GFX9-NEXT:    v_or_b32_e32 v2, 1, v2
+; GFX9-NEXT:    v_or_b32_e32 v10, 1, v10
+; GFX9-NEXT:    v_cndmask_b32_e32 v12, 0, v12, vcc
 ; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v19|, |v16|
-; GFX9-NEXT:    v_cndmask_b32_e32 v12, 0, v18, vcc
+; GFX9-NEXT:    v_cndmask_b32_e64 v2, 0, v2, s[6:7]
+; GFX9-NEXT:    v_cndmask_b32_e64 v15, 0, v15, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e32 v10, 0, v10, vcc
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v0, 16, v4
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v11, 8, v4
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v17, 24, v4
-; GFX9-NEXT:    v_add_u32_e32 v2, v20, v2
-; GFX9-NEXT:    v_add_u32_e32 v3, v21, v3
-; GFX9-NEXT:    v_add_u32_e32 v10, v22, v10
-; GFX9-NEXT:    v_add_u32_e32 v12, v23, v12
-; GFX9-NEXT:    v_perm_b32 v1, v4, v9, s4
+; GFX9-NEXT:    v_add_u32_e32 v2, v13, v2
+; GFX9-NEXT:    v_add_u32_e32 v12, v18, v12
+; GFX9-NEXT:    v_add_u32_e32 v13, v14, v15
+; GFX9-NEXT:    v_add_u32_e32 v3, v3, v10
 ; GFX9-NEXT:    v_mul_lo_u32 v2, v2, v4
-; GFX9-NEXT:    v_mul_lo_u32 v3, v3, v11
-; GFX9-NEXT:    v_mul_lo_u32 v4, v10, v0
-; GFX9-NEXT:    v_mul_lo_u32 v10, v12, v17
+; GFX9-NEXT:    v_mul_lo_u32 v4, v12, v11
+; GFX9-NEXT:    v_mul_lo_u32 v10, v13, v0
+; GFX9-NEXT:    v_mul_lo_u32 v3, v3, v17
 ; GFX9-NEXT:    v_sub_u32_e32 v0, v0, v2
-; GFX9-NEXT:    v_sub_u32_sdwa v2, v9, v3 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
-; GFX9-NEXT:    v_sub_u32_e32 v3, v17, v4
-; GFX9-NEXT:    v_sub_u32_sdwa v4, v9, v10 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_sub_u32_sdwa v2, v9, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:BYTE_3 src1_sel:DWORD
+; GFX9-NEXT:    v_sub_u32_e32 v4, v17, v10
+; GFX9-NEXT:    v_sub_u32_sdwa v3, v9, v3 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX9-NEXT:    v_or_b32_sdwa v2, v3, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX9-NEXT:    v_or_b32_sdwa v2, v4, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX9-NEXT:    global_store_dword v[5:6], v0, off
 ; GFX9-NEXT:    global_store_dword v[7:8], v1, off
@@ -2503,39 +2504,39 @@ define hidden void @urem_store_div(ptr addrspace(1) %in0, ptr addrspace(1) %in1,
 ; GFX9-NEXT:    v_cvt_u32_f32_e32 v15, v15
 ; GFX9-NEXT:    v_trunc_f32_e32 v16, v16
 ; GFX9-NEXT:    v_mul_f32_e32 v17, v3, v17
-; GFX9-NEXT:    v_mad_f32 v20, -v16, v3, v3
+; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v19|, v2
+; GFX9-NEXT:    v_mad_f32 v2, -v16, v3, v3
 ; GFX9-NEXT:    v_cvt_u32_f32_e32 v16, v16
 ; GFX9-NEXT:    s_waitcnt vmcnt(0)
 ; GFX9-NEXT:    v_cvt_f32_ubyte2_e32 v13, v9
 ; GFX9-NEXT:    v_trunc_f32_e32 v17, v17
-; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v19|, v2
 ; GFX9-NEXT:    v_mul_f32_e32 v18, v13, v18
-; GFX9-NEXT:    v_mad_f32 v21, -v17, v11, v3
+; GFX9-NEXT:    v_mad_f32 v19, -v17, v11, v3
 ; GFX9-NEXT:    v_cvt_u32_f32_e32 v17, v17
-; GFX9-NEXT:    v_addc_co_u32_e32 v2, vcc, 0, v15, vcc
+; GFX9-NEXT:    v_addc_co_u32_e32 v15, vcc, 0, v15, vcc
 ; GFX9-NEXT:    v_trunc_f32_e32 v18, v18
-; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v20|, v3
+; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v2|, v3
 ; GFX9-NEXT:    v_mad_f32 v13, -v18, v14, v13
 ; GFX9-NEXT:    v_cvt_u32_f32_e32 v18, v18
-; GFX9-NEXT:    v_addc_co_u32_e32 v3, vcc, 0, v16, vcc
-; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v21|, v11
-; GFX9-NEXT:    v_addc_co_u32_e32 v11, vcc, 0, v17, vcc
+; GFX9-NEXT:    v_addc_co_u32_e32 v2, vcc, 0, v16, vcc
+; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v19|, v11
+; GFX9-NEXT:    v_addc_co_u32_e32 v3, vcc, 0, v17, vcc
 ; GFX9-NEXT:    v_cmp_ge_f32_e64 vcc, |v13|, v14
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v0, 16, v4
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v10, 8, v4
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v12, 24, v4
-; GFX9-NEXT:    v_addc_co_u32_e32 v13, vcc, 0, v18, vcc
+; GFX9-NEXT:    v_addc_co_u32_e32 v11, vcc, 0, v18, vcc
 ; GFX9-NEXT:    v_perm_b32 v1, v4, v9, s4
-; GFX9-NEXT:    v_mul_lo_u32 v2, v2, v4
-; GFX9-NEXT:    v_mul_lo_u32 v3, v3, v10
-; GFX9-NEXT:    v_mul_lo_u32 v0, v11, v0
-; GFX9-NEXT:    v_mul_lo_u32 v4, v13, v12
-; GFX9-NEXT:    v_sub_u32_e32 v2, v10, v2
-; GFX9-NEXT:    v_sub_u32_sdwa v3, v10, v3 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
+; GFX9-NEXT:    v_mul_lo_u32 v4, v15, v4
+; GFX9-NEXT:    v_mul_lo_u32 v2, v2, v10
+; GFX9-NEXT:    v_mul_lo_u32 v0, v3, v0
+; GFX9-NEXT:    v_mul_lo_u32 v3, v11, v12
+; GFX9-NEXT:    v_sub_u32_e32 v4, v10, v4
+; GFX9-NEXT:    v_sub_u32_sdwa v2, v10, v2 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
 ; GFX9-NEXT:    v_sub_u32_e32 v0, v10, v0
-; GFX9-NEXT:    v_sub_u32_sdwa v4, v9, v4 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
-; GFX9-NEXT:    v_or_b32_sdwa v2, v2, v3 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
-; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v4 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX9-NEXT:    v_sub_u32_sdwa v3, v9, v3 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GFX9-NEXT:    v_or_b32_sdwa v2, v4, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; GFX9-NEXT:    v_or_b32_sdwa v0, v0, v3 dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GFX9-NEXT:    v_or_b32_sdwa v0, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; GFX9-NEXT:    global_store_dword v[5:6], v0, off
 ; GFX9-NEXT:    global_store_dword v[7:8], v1, off
diff --git a/llvm/test/CodeGen/AMDGPU/pr51516.mir b/llvm/test/CodeGen/AMDGPU/pr51516.mir
index f496a4b06bb23..81925de8910f8 100644
--- a/llvm/test/CodeGen/AMDGPU/pr51516.mir
+++ b/llvm/test/CodeGen/AMDGPU/pr51516.mir
@@ -5,8 +5,8 @@
 # is killed by that store.
 
 # GCN-LABEL: name: global_sextload_v32i32_to_v32i64
-# GCN: renamable $vgpr33_vgpr34_vgpr35_vgpr36 = SI_SPILL_V128_RESTORE %stack.0, $sgpr32, 0, implicit $exec :: (load (s128) from %stack.0, align 4, addrspace 5)
-# GCN: GLOBAL_STORE_DWORDX4_SADDR killed renamable $vgpr47, killed renamable $vgpr29_vgpr30_vgpr31_vgpr32, killed renamable $sgpr0_sgpr1, 16, 0, implicit $exec, implicit killed renamable $vgpr46
+# GCN: renamable $vgpr34_vgpr35_vgpr36_vgpr37 = SI_SPILL_V128_RESTORE %stack.0, $sgpr32, 0, implicit $exec :: (load (s128) from %stack.0, align 4, addrspace 5)
+# GCN: GLOBAL_STORE_DWORDX4_SADDR killed renamable $vgpr47, killed renamable $vgpr26_vgpr27_vgpr28_vgpr29, killed renamable $sgpr0_sgpr1, 16, 0, implicit $exec, implicit killed renamable $vgpr46
 
 # GCN-GCNTRACKER-LABEL: name: global_sextload_v32i32_to_v32i64
 # GCN-GCNTRACKER-NOT: SI_SPILL
diff --git a/llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll b/llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll
index a2a0107a6f7d8..a1197aeace86f 100644
--- a/llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll
+++ b/llvm/test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll
@@ -361,96 +361,96 @@ define hidden amdgpu_kernel void @clmem_read(ptr addrspace(1)  %buffer) {
 ; GFX8-NEXT:    s_waitcnt lgkmcnt(0)
 ; GFX8-NEXT:    s_swappc_b64 s[30:31], s[4:5]
 ; GFX8-NEXT:    v_lshlrev_b32_e32 v1, 17, v0
-; GFX8-NEXT:    v_and_b32_e32 v6, 0xfe000000, v1
+; GFX8-NEXT:    v_and_b32_e32 v12, 0xfe000000, v1
 ; GFX8-NEXT:    v_mov_b32_e32 v1, 3
 ; GFX8-NEXT:    v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_0
-; GFX8-NEXT:    v_or_b32_e32 v0, v6, v0
+; GFX8-NEXT:    v_or_b32_e32 v0, v12, v0
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s35
 ; GFX8-NEXT:    v_add_u32_e32 v0, vcc, s34, v0
 ; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v1, vcc
 ; GFX8-NEXT:    s_movk_i32 s0, 0x5000
 ; GFX8-NEXT:    v_add_u32_e32 v0, vcc, s0, v0
-; GFX8-NEXT:    v_mov_b32_e32 v2, 0
+; GFX8-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v1, vcc
-; GFX8-NEXT:    v_mov_b32_e32 v3, 0
+; GFX8-NEXT:    v_mov_b32_e32 v11, 0
 ; GFX8-NEXT:    s_movk_i32 s0, 0x7f
 ; GFX8-NEXT:  .LBB1_1: ; %for.cond.preheader
 ; GFX8-NEXT:    ; =>This Loop Header: Depth=1
 ; GFX8-NEXT:    ; Child Loop BB1_2 Depth 2
-; GFX8-NEXT:    v_mov_b32_e32 v5, v1
-; GFX8-NEXT:    v_mov_b32_e32 v4, v0
+; GFX8-NEXT:    v_mov_b32_e32 v3, v1
+; GFX8-NEXT:    v_mov_b32_e32 v2, v0
 ; GFX8-NEXT:    s_mov_b32 s1, 0
 ; GFX8-NEXT:  .LBB1_2: ; %for.body
 ; GFX8-NEXT:    ; Parent Loop BB1_1 Depth=1
 ; GFX8-NEXT:    ; => This Inner Loop Header: Depth=2
-; GFX8-NEXT:    v_add_u32_e32 v7, vcc, 0xffffb000, v4
-; GFX8-NEXT:    v_addc_u32_e32 v8, vcc, -1, v5, vcc
-; GFX8-NEXT:    v_add_u32_e32 v9, vcc, 0xffffb800, v4
-; GFX8-NEXT:    v_addc_u32_e32 v10, vcc, -1, v5, vcc
-; GFX8-NEXT:    v_add_u32_e32 v11, vcc, 0xffffc000, v4
-; GFX8-NEXT:    flat_load_dwordx2 v[7:8], v[7:8]
-; GFX8-NEXT:    flat_load_dwordx2 v[9:10], v[9:10]
-; GFX8-NEXT:    v_addc_u32_e32 v12, vcc, -1, v5, vcc
-; GFX8-NEXT:    v_add_u32_e32 v13, vcc, 0xffffc800, v4
-; GFX8-NEXT:    v_addc_u32_e32 v14, vcc, -1, v5, vcc
-; GFX8-NEXT:    v_add_u32_e32 v15, vcc, 0xffffd000, v4
-; GFX8-NEXT:    flat_load_dwordx2 v[11:12], v[11:12]
-; GFX8-NEXT:    flat_load_dwordx2 v[13:14], v[13:14]
-; GFX8-NEXT:    v_addc_u32_e32 v16, vcc, -1, v5, vcc
-; GFX8-NEXT:    v_add_u32_e32 v17, vcc, 0xffffd800, v4
-; GFX8-NEXT:    v_addc_u32_e32 v18, vcc, -1, v5, vcc
-; GFX8-NEXT:    flat_load_dwordx2 v[15:16], v[15:16]
-; GFX8-NEXT:    flat_load_dwordx2 v[17:18], v[17:18]
-; GFX8-NEXT:    v_add_u32_e32 v19, vcc, 0xffffe000, v4
-; GFX8-NEXT:    v_addc_u32_e32 v20, vcc, -1, v5, vcc
-; GFX8-NEXT:    v_add_u32_e32 v21, vcc, 0xffffe800, v4
-; GFX8-NEXT:    flat_load_dwordx2 v[19:20], v[19:20]
-; GFX8-NEXT:    v_addc_u32_e32 v22, vcc, -1, v5, vcc
-; GFX8-NEXT:    flat_load_dwordx2 v[21:22], v[21:22]
-; GFX8-NEXT:    v_add_u32_e32 v23, vcc, 0xfffff000, v4
-; GFX8-NEXT:    v_addc_u32_e32 v24, vcc, -1, v5, vcc
-; GFX8-NEXT:    flat_load_dwordx2 v[23:24], v[23:24]
-; GFX8-NEXT:    v_add_u32_e32 v25, vcc, 0xfffff800, v4
-; GFX8-NEXT:    v_addc_u32_e32 v26, vcc, -1, v5, vcc
-; GFX8-NEXT:    flat_load_dwordx2 v[25:26], v[25:26]
-; GFX8-NEXT:    flat_load_dwordx2 v[27:28], v[4:5]
-; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0x10000, v4
-; GFX8-NEXT:    v_addc_u32_e32 v5, vcc, 0, v5, vcc
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0xffffb000, v2
+; GFX8-NEXT:    v_addc_u32_e32 v5, vcc, -1, v3, vcc
+; GFX8-NEXT:    flat_load_dwordx2 v[13:14], v[4:5]
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 0xffffb800, v2
+; GFX8-NEXT:    v_addc_u32_e32 v7, vcc, -1, v3, vcc
+; GFX8-NEXT:    flat_load_dwordx2 v[15:16], v[6:7]
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0xffffc000, v2
+; GFX8-NEXT:    v_addc_u32_e32 v5, vcc, -1, v3, vcc
+; GFX8-NEXT:    flat_load_dwordx2 v[17:18], v[4:5]
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, 0xffffc800, v2
+; GFX8-NEXT:    v_addc_u32_e32 v7, vcc, -1, v3, vcc
+; GFX8-NEXT:    flat_load_dwordx2 v[6:7], v[6:7]
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, 0xffffd000, v2
+; GFX8-NEXT:    v_addc_u32_e32 v5, vcc, -1, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v19, vcc, 0xffffd800, v2
+; GFX8-NEXT:    v_addc_u32_e32 v20, vcc, -1, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v21, vcc, 0xffffe000, v2
+; GFX8-NEXT:    v_addc_u32_e32 v22, vcc, -1, v3, vcc
+; GFX8-NEXT:    flat_load_dwordx2 v[8:9], v[4:5]
+; GFX8-NEXT:    flat_load_dwordx2 v[4:5], v[19:20]
 ; GFX8-NEXT:    s_addk_i32 s1, 0x2000
 ; GFX8-NEXT:    s_cmp_gt_u32 s1, 0x3fffff
-; GFX8-NEXT:    s_waitcnt vmcnt(10)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v7, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v8, v3, vcc
-; GFX8-NEXT:    s_waitcnt vmcnt(9)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v9, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v10, v3, vcc
-; GFX8-NEXT:    s_waitcnt vmcnt(8)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v11, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v12, v3, vcc
+; GFX8-NEXT:    s_waitcnt vmcnt(5)
+; GFX8-NEXT:    v_add_u32_e32 v23, vcc, v13, v10
+; GFX8-NEXT:    v_addc_u32_e32 v24, vcc, v14, v11, vcc
+; GFX8-NEXT:    v_add_u32_e32 v10, vcc, 0xffffe800, v2
+; GFX8-NEXT:    v_addc_u32_e32 v11, vcc, -1, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v13, vcc, 0xfffff000, v2
+; GFX8-NEXT:    flat_load_dwordx2 v[19:20], v[21:22]
+; GFX8-NEXT:    flat_load_dwordx2 v[10:11], v[10:11]
+; GFX8-NEXT:    v_addc_u32_e32 v14, vcc, -1, v3, vcc
+; GFX8-NEXT:    s_waitcnt vmcnt(6)
+; GFX8-NEXT:    v_add_u32_e32 v21, vcc, v15, v23
+; GFX8-NEXT:    v_addc_u32_e32 v22, vcc, v16, v24, vcc
+; GFX8-NEXT:    v_add_u32_e32 v15, vcc, 0xfffff800, v2
+; GFX8-NEXT:    flat_load_dwordx2 v[13:14], v[13:14]
+; GFX8-NEXT:    v_addc_u32_e32 v16, vcc, -1, v3, vcc
+; GFX8-NEXT:    flat_load_dwordx2 v[15:16], v[15:16]
+; GFX8-NEXT:    s_waitcnt vmcnt(7)
+; GFX8-NEXT:    v_add_u32_e32 v21, vcc, v17, v21
+; GFX8-NEXT:    v_addc_u32_e32 v22, vcc, v18, v22, vcc
+; GFX8-NEXT:    flat_load_dwordx2 v[17:18], v[2:3]
+; GFX8-NEXT:    v_add_u32_e32 v2, vcc, 0x10000, v2
+; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, 0, v3, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(7)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v13, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v14, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, v6, v21
+; GFX8-NEXT:    v_addc_u32_e32 v7, vcc, v7, v22, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(6)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v15, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v16, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v6, vcc, v8, v6
+; GFX8-NEXT:    v_addc_u32_e32 v7, vcc, v9, v7, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(5)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v17, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v18, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, v4, v6
+; GFX8-NEXT:    v_addc_u32_e32 v5, vcc, v5, v7, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(4)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v19, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v20, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, v19, v4
+; GFX8-NEXT:    v_addc_u32_e32 v5, vcc, v20, v5, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(3)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v21, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v22, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, v10, v4
+; GFX8-NEXT:    v_addc_u32_e32 v5, vcc, v11, v5, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(2)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v23, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v24, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, v13, v4
+; GFX8-NEXT:    v_addc_u32_e32 v5, vcc, v14, v5, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(1)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v25, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v26, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v4, vcc, v15, v4
+; GFX8-NEXT:    v_addc_u32_e32 v5, vcc, v16, v5, vcc
 ; GFX8-NEXT:    s_waitcnt vmcnt(0)
-; GFX8-NEXT:    v_add_u32_e32 v2, vcc, v27, v2
-; GFX8-NEXT:    v_addc_u32_e32 v3, vcc, v28, v3, vcc
+; GFX8-NEXT:    v_add_u32_e32 v10, vcc, v17, v4
+; GFX8-NEXT:    v_addc_u32_e32 v11, vcc, v18, v5, vcc
 ; GFX8-NEXT:    s_cbranch_scc0 .LBB1_2
 ; GFX8-NEXT:  ; %bb.3: ; %while.cond.loopexit
 ; GFX8-NEXT:    ; in Loop: Header=BB1_1 Depth=1
@@ -462,9 +462,9 @@ define hidden amdgpu_kernel void @clmem_read(ptr addrspace(1)  %buffer) {
 ; GFX8-NEXT:    s_branch .LBB1_1
 ; GFX8-NEXT:  .LBB1_5: ; %while.end
 ; GFX8-NEXT:    v_mov_b32_e32 v1, s35
-; GFX8-NEXT:    v_add_u32_e32 v0, vcc, s34, v6
+; GFX8-NEXT:    v_add_u32_e32 v0, vcc, s34, v12
 ; GFX8-NEXT:    v_addc_u32_e32 v1, vcc, 0, v1, vcc
-; GFX8-NEXT:    flat_store_dwordx2 v[0:1], v[2:3]
+; GFX8-NEXT:    flat_store_dwordx2 v[0:1], v[10:11]
 ; GFX8-NEXT:    s_endpgm
 ;
 ; GFX900-LABEL: clmem_read:
@@ -496,91 +496,92 @@ define hidden amdgpu_kernel void @clmem_read(ptr addrspace(1)  %buffer) {
 ; GFX900-NEXT:    v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
 ; GFX900-NEXT:    s_movk_i32 s0, 0x5000
 ; GFX900-NEXT:    v_add_co_u32_e32 v0, vcc, s0, v0
-; GFX900-NEXT:    v_mov_b32_e32 v2, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX900-NEXT:    v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
-; GFX900-NEXT:    s_movk_i32 s2, 0x7f
-; GFX900-NEXT:    v_mov_b32_e32 v3, 0
-; GFX900-NEXT:    s_movk_i32 s0, 0xd000
-; GFX900-NEXT:    s_movk_i32 s1, 0xe000
-; GFX900-NEXT:    s_movk_i32 s3, 0xf000
+; GFX900-NEXT:    s_movk_i32 s4, 0x7f
+; GFX900-NEXT:    v_mov_b32_e32 v5, 0
+; GFX900-NEXT:    s_movk_i32 s2, 0xd000
+; GFX900-NEXT:    s_movk_i32 s3, 0xe000
+; GFX900-NEXT:    s_movk_i32 s5, 0xf000
 ; GFX900-NEXT:  .LBB1_1: ; %for.cond.preheader
 ; GFX900-NEXT:    ; =>This Loop Header: Depth=1
 ; GFX900-NEXT:    ; Child Loop BB1_2 Depth 2
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    s_mov_b32 s4, 0
+; GFX900-NEXT:    v_mov_b32_e32 v3, v1
+; GFX900-NEXT:    v_mov_b32_e32 v2, v0
+; GFX900-NEXT:    s_mov_b32 s6, 0
 ; GFX900-NEXT:  .LBB1_2: ; %for.body
 ; GFX900-NEXT:    ; Parent Loop BB1_1 Depth=1
 ; GFX900-NEXT:    ; => This Inner Loop Header: Depth=2
-; GFX900-NEXT:    v_add_co_u32_e32 v7, vcc, 0xffffb000, v4
-; GFX900-NEXT:    v_addc_co_u32_e32 v8, vcc, -1, v5, vcc
-; GFX900-NEXT:    global_load_dwordx2 v[9:10], v[4:5], off offset:-4096
-; GFX900-NEXT:    global_load_dwordx2 v[11:12], v[4:5], off offset:-2048
-; GFX900-NEXT:    v_add_co_u32_e32 v13, vcc, 0xffffc000, v4
+; GFX900-NEXT:    v_add_co_u32_e32 v7, vcc, 0xffffb000, v2
+; GFX900-NEXT:    v_addc_co_u32_e32 v8, vcc, -1, v3, vcc
+; GFX900-NEXT:    global_load_dwordx2 v[9:10], v[2:3], off offset:-4096
+; GFX900-NEXT:    global_load_dwordx2 v[11:12], v[2:3], off offset:-2048
+; GFX900-NEXT:    v_add_co_u32_e32 v13, vcc, 0xffffc000, v2
 ; GFX900-NEXT:    global_load_dwordx2 v[7:8], v[7:8], off
-; GFX900-NEXT:    v_addc_co_u32_e32 v14, vcc, -1, v5, vcc
+; GFX900-NEXT:    v_addc_co_u32_e32 v14, vcc, -1, v3, vcc
 ; GFX900-NEXT:    global_load_dwordx2 v[17:18], v[13:14], off offset:-2048
-; GFX900-NEXT:    v_add_co_u32_e32 v15, vcc, s0, v4
-; GFX900-NEXT:    v_addc_co_u32_e32 v16, vcc, -1, v5, vcc
+; GFX900-NEXT:    global_load_dwordx2 v[19:20], v[13:14], off
+; GFX900-NEXT:    v_add_co_u32_e32 v15, vcc, s2, v2
+; GFX900-NEXT:    v_addc_co_u32_e32 v16, vcc, -1, v3, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v13, vcc, s3, v2
 ; GFX900-NEXT:    global_load_dwordx2 v[15:16], v[15:16], off offset:-2048
-; GFX900-NEXT:    v_add_co_u32_e32 v19, vcc, s1, v4
-; GFX900-NEXT:    global_load_dwordx2 v[13:14], v[13:14], off
-; GFX900-NEXT:    v_addc_co_u32_e32 v20, vcc, -1, v5, vcc
-; GFX900-NEXT:    global_load_dwordx2 v[23:24], v[19:20], off offset:-4096
-; GFX900-NEXT:    global_load_dwordx2 v[25:26], v[19:20], off offset:-2048
-; GFX900-NEXT:    global_load_dwordx2 v[27:28], v[19:20], off
-; GFX900-NEXT:    v_add_co_u32_e32 v21, vcc, s3, v4
-; GFX900-NEXT:    v_addc_co_u32_e32 v22, vcc, -1, v5, vcc
-; GFX900-NEXT:    global_load_dwordx2 v[19:20], v[21:22], off offset:-2048
-; GFX900-NEXT:    global_load_dwordx2 v[29:30], v[4:5], off
-; GFX900-NEXT:    v_add_co_u32_e32 v4, vcc, 0x10000, v4
-; GFX900-NEXT:    v_addc_co_u32_e32 v5, vcc, 0, v5, vcc
-; GFX900-NEXT:    s_addk_i32 s4, 0x2000
-; GFX900-NEXT:    s_cmp_gt_u32 s4, 0x3fffff
-; GFX900-NEXT:    s_waitcnt vmcnt(8)
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v7, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v8, v3, vcc
-; GFX900-NEXT:    s_waitcnt vmcnt(7)
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v17, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v18, v3, vcc
+; GFX900-NEXT:    v_addc_co_u32_e32 v14, vcc, -1, v3, vcc
+; GFX900-NEXT:    s_addk_i32 s6, 0x2000
+; GFX900-NEXT:    s_cmp_gt_u32 s6, 0x3fffff
+; GFX900-NEXT:    s_waitcnt vmcnt(3)
+; GFX900-NEXT:    v_add_co_u32_e32 v21, vcc, v7, v4
+; GFX900-NEXT:    v_addc_co_u32_e32 v5, vcc, v8, v5, vcc
+; GFX900-NEXT:    global_load_dwordx2 v[7:8], v[13:14], off offset:-4096
+; GFX900-NEXT:    s_waitcnt vmcnt(3)
+; GFX900-NEXT:    v_add_co_u32_e64 v23, s[0:1], v17, v21
+; GFX900-NEXT:    v_addc_co_u32_e64 v24, s[0:1], v18, v5, s[0:1]
+; GFX900-NEXT:    global_load_dwordx2 v[17:18], v[13:14], off offset:-2048
+; GFX900-NEXT:    global_load_dwordx2 v[21:22], v[13:14], off
+; GFX900-NEXT:    v_add_co_u32_e32 v4, vcc, s5, v2
+; GFX900-NEXT:    v_addc_co_u32_e32 v5, vcc, -1, v3, vcc
+; GFX900-NEXT:    global_load_dwordx2 v[4:5], v[4:5], off offset:-2048
+; GFX900-NEXT:    s_waitcnt vmcnt(5)
+; GFX900-NEXT:    v_add_co_u32_e32 v19, vcc, v19, v23
+; GFX900-NEXT:    global_load_dwordx2 v[13:14], v[2:3], off
+; GFX900-NEXT:    v_addc_co_u32_e32 v20, vcc, v20, v24, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, 0x10000, v2
+; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, 0, v3, vcc
 ; GFX900-NEXT:    s_waitcnt vmcnt(5)
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v13, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v14, v3, vcc
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v15, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v16, v3, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v15, vcc, v15, v19
+; GFX900-NEXT:    v_addc_co_u32_e32 v16, vcc, v16, v20, vcc
 ; GFX900-NEXT:    s_waitcnt vmcnt(4)
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v23, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v24, v3, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v7, vcc, v7, v15
+; GFX900-NEXT:    v_addc_co_u32_e32 v8, vcc, v8, v16, vcc
 ; GFX900-NEXT:    s_waitcnt vmcnt(3)
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v25, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v26, v3, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v7, vcc, v17, v7
+; GFX900-NEXT:    v_addc_co_u32_e32 v8, vcc, v18, v8, vcc
 ; GFX900-NEXT:    s_waitcnt vmcnt(2)
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v27, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v28, v3, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v7, vcc, v21, v7
+; GFX900-NEXT:    v_addc_co_u32_e32 v8, vcc, v22, v8, vcc
 ; GFX900-NEXT:    s_waitcnt vmcnt(1)
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v19, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v20, v3, vcc
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v9, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v10, v3, vcc
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v11, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v12, v3, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v4, vcc, v4, v7
+; GFX900-NEXT:    v_addc_co_u32_e32 v5, vcc, v5, v8, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v4, vcc, v9, v4
+; GFX900-NEXT:    v_addc_co_u32_e32 v5, vcc, v10, v5, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v4, vcc, v11, v4
+; GFX900-NEXT:    v_addc_co_u32_e32 v5, vcc, v12, v5, vcc
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
-; GFX900-NEXT:    v_add_co_u32_e32 v2, vcc, v29, v2
-; GFX900-NEXT:    v_addc_co_u32_e32 v3, vcc, v30, v3, vcc
+; GFX900-NEXT:    v_add_co_u32_e32 v4, vcc, v13, v4
+; GFX900-NEXT:    v_addc_co_u32_e32 v5, vcc, v14, v5, vcc
 ; GFX900-NEXT:    s_cbranch_scc0 .LBB1_2
 ; GFX900-NEXT:  ; %bb.3: ; %while.cond.loopexit
 ; GFX900-NEXT:    ; in Loop: Header=BB1_1 Depth=1
-; GFX900-NEXT:    s_add_i32 s4, s2, -1
-; GFX900-NEXT:    s_cmp_eq_u32 s2, 0
+; GFX900-NEXT:    s_add_i32 s0, s4, -1
+; GFX900-NEXT:    s_cmp_eq_u32 s4, 0
 ; GFX900-NEXT:    s_cbranch_scc1 .LBB1_5
 ; GFX900-NEXT:  ; %bb.4: ; in Loop: Header=BB1_1 Depth=1
-; GFX900-NEXT:    s_mov_b32 s2, s4
+; GFX900-NEXT:    s_mov_b32 s4, s0
 ; GFX900-NEXT:    s_branch .LBB1_1
 ; GFX900-NEXT:  .LBB1_5: ; %while.end
 ; GFX900-NEXT:    v_mov_b32_e32 v1, s35
 ; GFX900-NEXT:    v_add_co_u32_e32 v0, vcc, s34, v6
 ; GFX900-NEXT:    v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
-; GFX900-NEXT:    global_store_dwordx2 v[0:1], v[2:3], off
+; GFX900-NEXT:    global_store_dwordx2 v[0:1], v[4:5], off
 ; GFX900-NEXT:    s_endpgm
 ;
 ; GFX10-LABEL: clmem_read:
diff --git a/llvm/test/CodeGen/AMDGPU/rem_i128.ll b/llvm/test/CodeGen/AMDGPU/rem_i128.ll
index 6583d5e8aa5a0..704947523f677 100644
--- a/llvm/test/CodeGen/AMDGPU/rem_i128.ll
+++ b/llvm/test/CodeGen/AMDGPU/rem_i128.ll
@@ -70,22 +70,22 @@ define i128 @v_srem_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    v_subbrev_co_u32_e32 v9, vcc, 0, v9, vcc
 ; GFX9-NEXT:    s_mov_b64 s[6:7], 0x7f
 ; GFX9-NEXT:    v_cmp_lt_u64_e32 vcc, s[6:7], v[6:7]
-; GFX9-NEXT:    v_or_b32_e32 v13, v7, v9
+; GFX9-NEXT:    v_or_b32_e32 v12, v7, v9
 ; GFX9-NEXT:    v_cndmask_b32_e64 v10, 0, 1, vcc
 ; GFX9-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[8:9]
 ; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, 1, vcc
 ; GFX9-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[8:9]
 ; GFX9-NEXT:    v_cndmask_b32_e32 v10, v11, v10, vcc
 ; GFX9-NEXT:    v_and_b32_e32 v10, 1, v10
+; GFX9-NEXT:    v_xor_b32_e32 v11, 0x7f, v6
 ; GFX9-NEXT:    v_cmp_eq_u32_e32 vcc, 1, v10
-; GFX9-NEXT:    v_xor_b32_e32 v10, 0x7f, v6
-; GFX9-NEXT:    v_or_b32_e32 v12, v10, v8
+; GFX9-NEXT:    v_or_b32_e32 v11, v11, v8
 ; GFX9-NEXT:    s_or_b64 s[4:5], s[4:5], vcc
-; GFX9-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[12:13]
+; GFX9-NEXT:    v_cmp_ne_u64_e32 vcc, 0, v[11:12]
 ; GFX9-NEXT:    s_xor_b64 s[6:7], s[4:5], -1
-; GFX9-NEXT:    v_cndmask_b32_e64 v11, v3, 0, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v10, v3, 0, s[4:5]
 ; GFX9-NEXT:    v_cndmask_b32_e64 v12, v2, 0, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e64 v10, v1, 0, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v11, v1, 0, s[4:5]
 ; GFX9-NEXT:    v_cndmask_b32_e64 v13, v0, 0, s[4:5]
 ; GFX9-NEXT:    s_and_b64 s[4:5], s[6:7], vcc
 ; GFX9-NEXT:    s_and_saveexec_b64 s[8:9], s[4:5]
@@ -107,47 +107,47 @@ define i128 @v_srem_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    v_or_b32_e32 v8, v10, v12
 ; GFX9-NEXT:    v_or_b32_e32 v9, v9, v11
 ; GFX9-NEXT:    v_cmp_gt_u32_e64 s[4:5], 64, v13
-; GFX9-NEXT:    v_cmp_eq_u32_e64 s[6:7], 0, v13
-; GFX9-NEXT:    v_lshlrev_b64 v[12:13], v13, v[0:1]
+; GFX9-NEXT:    v_lshlrev_b64 v[10:11], v13, v[0:1]
 ; GFX9-NEXT:    v_cndmask_b32_e64 v7, v7, v8, s[4:5]
+; GFX9-NEXT:    v_cmp_eq_u32_e64 s[6:7], 0, v13
 ; GFX9-NEXT:    v_cndmask_b32_e64 v6, v6, v9, s[4:5]
 ; GFX9-NEXT:    v_mov_b32_e32 v8, 0
-; GFX9-NEXT:    v_mov_b32_e32 v10, 0
+; GFX9-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX9-NEXT:    v_cndmask_b32_e64 v7, v7, v3, s[6:7]
 ; GFX9-NEXT:    v_cndmask_b32_e64 v6, v6, v2, s[6:7]
-; GFX9-NEXT:    v_cndmask_b32_e64 v13, 0, v13, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v11, 0, v11, s[4:5]
 ; GFX9-NEXT:    v_mov_b32_e32 v9, 0
-; GFX9-NEXT:    v_mov_b32_e32 v11, 0
-; GFX9-NEXT:    v_cndmask_b32_e64 v12, 0, v12, s[4:5]
+; GFX9-NEXT:    v_mov_b32_e32 v13, 0
+; GFX9-NEXT:    v_cndmask_b32_e64 v10, 0, v10, s[4:5]
 ; GFX9-NEXT:    s_and_saveexec_b64 s[4:5], vcc
 ; GFX9-NEXT:    s_xor_b64 s[6:7], exec, s[4:5]
 ; GFX9-NEXT:    s_cbranch_execz .LBB0_5
 ; GFX9-NEXT:  ; %bb.2: ; %udiv-preheader
-; GFX9-NEXT:    v_sub_u32_e32 v10, 64, v24
+; GFX9-NEXT:    v_sub_u32_e32 v12, 64, v24
 ; GFX9-NEXT:    v_lshrrev_b64 v[8:9], v24, v[0:1]
-; GFX9-NEXT:    v_lshlrev_b64 v[10:11], v10, v[2:3]
+; GFX9-NEXT:    v_lshlrev_b64 v[12:13], v12, v[2:3]
 ; GFX9-NEXT:    v_cmp_gt_u32_e32 vcc, 64, v24
-; GFX9-NEXT:    v_or_b32_e32 v10, v8, v10
+; GFX9-NEXT:    v_or_b32_e32 v12, v8, v12
 ; GFX9-NEXT:    v_subrev_u32_e32 v8, 64, v24
-; GFX9-NEXT:    v_or_b32_e32 v11, v9, v11
+; GFX9-NEXT:    v_or_b32_e32 v13, v9, v13
 ; GFX9-NEXT:    v_lshrrev_b64 v[8:9], v8, v[2:3]
 ; GFX9-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v24
-; GFX9-NEXT:    v_cndmask_b32_e32 v9, v9, v11, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v9, v9, v13, vcc
 ; GFX9-NEXT:    v_cndmask_b32_e64 v15, v9, v1, s[4:5]
-; GFX9-NEXT:    v_cndmask_b32_e32 v10, v8, v10, vcc
+; GFX9-NEXT:    v_cndmask_b32_e32 v12, v8, v12, vcc
 ; GFX9-NEXT:    v_lshrrev_b64 v[8:9], v24, v[2:3]
-; GFX9-NEXT:    v_cndmask_b32_e64 v14, v10, v0, s[4:5]
+; GFX9-NEXT:    v_cndmask_b32_e64 v14, v12, v0, s[4:5]
 ; GFX9-NEXT:    v_cndmask_b32_e32 v17, 0, v9, vcc
 ; GFX9-NEXT:    v_cndmask_b32_e32 v16, 0, v8, vcc
 ; GFX9-NEXT:    v_add_co_u32_e32 v28, vcc, -1, v23
 ; GFX9-NEXT:    v_addc_co_u32_e32 v29, vcc, -1, v22, vcc
 ; GFX9-NEXT:    v_addc_co_u32_e32 v30, vcc, -1, v4, vcc
 ; GFX9-NEXT:    v_mov_b32_e32 v18, 0
-; GFX9-NEXT:    v_mov_b32_e32 v10, 0
+; GFX9-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX9-NEXT:    v_addc_co_u32_e32 v31, vcc, -1, v5, vcc
 ; GFX9-NEXT:    s_mov_b64 s[4:5], 0
 ; GFX9-NEXT:    v_mov_b32_e32 v19, 0
-; GFX9-NEXT:    v_mov_b32_e32 v11, 0
+; GFX9-NEXT:    v_mov_b32_e32 v13, 0
 ; GFX9-NEXT:    v_mov_b32_e32 v9, 0
 ; GFX9-NEXT:  .LBB0_3: ; %udiv-do-while
 ; GFX9-NEXT:    ; =>This Inner Loop Header: Depth=1
@@ -155,20 +155,20 @@ define i128 @v_srem_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    v_lshlrev_b64 v[14:15], 1, v[14:15]
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v33, 31, v7
 ; GFX9-NEXT:    v_lshlrev_b64 v[6:7], 1, v[6:7]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v8, 31, v13
+; GFX9-NEXT:    v_lshrrev_b32_e32 v8, 31, v11
 ; GFX9-NEXT:    v_lshlrev_b64 v[16:17], 1, v[16:17]
 ; GFX9-NEXT:    v_or_b32_e32 v14, v14, v33
-; GFX9-NEXT:    v_or3_b32 v6, v6, v8, v10
+; GFX9-NEXT:    v_or3_b32 v6, v6, v8, v12
 ; GFX9-NEXT:    v_sub_co_u32_e32 v8, vcc, v28, v14
 ; GFX9-NEXT:    v_or_b32_e32 v16, v16, v32
 ; GFX9-NEXT:    v_subb_co_u32_e32 v8, vcc, v29, v15, vcc
 ; GFX9-NEXT:    v_subb_co_u32_e32 v8, vcc, v30, v16, vcc
-; GFX9-NEXT:    v_lshlrev_b64 v[12:13], 1, v[12:13]
+; GFX9-NEXT:    v_lshlrev_b64 v[10:11], 1, v[10:11]
 ; GFX9-NEXT:    v_subb_co_u32_e32 v8, vcc, v31, v17, vcc
 ; GFX9-NEXT:    v_ashrrev_i32_e32 v8, 31, v8
-; GFX9-NEXT:    v_or_b32_e32 v12, v18, v12
+; GFX9-NEXT:    v_or_b32_e32 v10, v18, v10
 ; GFX9-NEXT:    v_and_b32_e32 v18, v8, v23
-; GFX9-NEXT:    v_or_b32_e32 v13, v19, v13
+; GFX9-NEXT:    v_or_b32_e32 v11, v19, v11
 ; GFX9-NEXT:    v_and_b32_e32 v19, v8, v22
 ; GFX9-NEXT:    v_sub_co_u32_e32 v14, vcc, v14, v18
 ; GFX9-NEXT:    v_and_b32_e32 v32, v8, v4
@@ -185,7 +185,7 @@ define i128 @v_srem_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[18:19]
 ; GFX9-NEXT:    v_and_b32_e32 v8, 1, v8
 ; GFX9-NEXT:    v_mov_b32_e32 v19, v9
-; GFX9-NEXT:    v_or3_b32 v7, v7, 0, v11
+; GFX9-NEXT:    v_or3_b32 v7, v7, 0, v13
 ; GFX9-NEXT:    s_or_b64 s[4:5], vcc, s[4:5]
 ; GFX9-NEXT:    v_mov_b32_e32 v18, v8
 ; GFX9-NEXT:    s_andn2_b64 exec, exec, s[4:5]
@@ -194,12 +194,12 @@ define i128 @v_srem_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    s_or_b64 exec, exec, s[4:5]
 ; GFX9-NEXT:  .LBB0_5: ; %Flow2
 ; GFX9-NEXT:    s_or_b64 exec, exec, s[6:7]
-; GFX9-NEXT:    v_lshlrev_b64 v[14:15], 1, v[12:13]
+; GFX9-NEXT:    v_lshlrev_b64 v[14:15], 1, v[10:11]
 ; GFX9-NEXT:    v_lshlrev_b64 v[6:7], 1, v[6:7]
-; GFX9-NEXT:    v_lshrrev_b32_e32 v12, 31, v13
-; GFX9-NEXT:    v_or3_b32 v11, v7, 0, v11
-; GFX9-NEXT:    v_or3_b32 v12, v6, v12, v10
-; GFX9-NEXT:    v_or_b32_e32 v10, v9, v15
+; GFX9-NEXT:    v_lshrrev_b32_e32 v11, 31, v11
+; GFX9-NEXT:    v_or3_b32 v10, v7, 0, v13
+; GFX9-NEXT:    v_or3_b32 v12, v6, v11, v12
+; GFX9-NEXT:    v_or_b32_e32 v11, v9, v15
 ; GFX9-NEXT:    v_or_b32_e32 v13, v8, v14
 ; GFX9-NEXT:  .LBB0_6: ; %Flow3
 ; GFX9-NEXT:    s_or_b64 exec, exec, s[8:9]
@@ -209,19 +209,19 @@ define i128 @v_srem_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    v_mad_u64_u32 v[7:8], s[4:5], v13, v4, 0
 ; GFX9-NEXT:    v_mov_b32_e32 v14, v6
 ; GFX9-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v22, v13, v[14:15]
-; GFX9-NEXT:    v_mul_lo_u32 v9, v10, v4
-; GFX9-NEXT:    v_mul_lo_u32 v11, v11, v23
+; GFX9-NEXT:    v_mul_lo_u32 v9, v11, v4
+; GFX9-NEXT:    v_mul_lo_u32 v10, v10, v23
 ; GFX9-NEXT:    v_mov_b32_e32 v4, v14
 ; GFX9-NEXT:    v_mov_b32_e32 v14, v15
-; GFX9-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v23, v10, v[13:14]
+; GFX9-NEXT:    v_mad_u64_u32 v[13:14], s[4:5], v23, v11, v[13:14]
 ; GFX9-NEXT:    v_add3_u32 v8, v8, v16, v9
 ; GFX9-NEXT:    v_mad_u64_u32 v[6:7], s[4:5], v12, v23, v[7:8]
 ; GFX9-NEXT:    v_mov_b32_e32 v8, v14
 ; GFX9-NEXT:    v_add_co_u32_e32 v8, vcc, v4, v8
 ; GFX9-NEXT:    v_addc_co_u32_e64 v9, s[4:5], 0, 0, vcc
 ; GFX9-NEXT:    v_mul_lo_u32 v12, v12, v22
-; GFX9-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v22, v10, v[8:9]
-; GFX9-NEXT:    v_add3_u32 v4, v11, v7, v12
+; GFX9-NEXT:    v_mad_u64_u32 v[8:9], s[4:5], v22, v11, v[8:9]
+; GFX9-NEXT:    v_add3_u32 v4, v10, v7, v12
 ; GFX9-NEXT:    v_add_co_u32_e32 v6, vcc, v8, v6
 ; GFX9-NEXT:    v_addc_co_u32_e32 v4, vcc, v9, v4, vcc
 ; GFX9-NEXT:    v_mov_b32_e32 v7, v13
@@ -1628,38 +1628,38 @@ define i128 @v_urem_i128_vv(i128 %lhs, i128 %rhs) {
 ; GFX9-NEXT:    v_mov_b32_e32 v13, 0
 ; GFX9-NEXT:  .LBB1_3: ; %udiv-do-while
 ; GFX9-NEXT:    ; =>This Inner Loop Header: Depth=1
+; GFX9-NEXT:    v_lshlrev_b64 v[30:31], 1, v[10:11]
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v12, 31, v11
-; GFX9-NEXT:    v_lshlrev_b64 v[10:11], 1, v[10:11]
-; GFX9-NEXT:    v_lshlrev_b64 v[18:19], 1, v[18:19]
-; GFX9-NEXT:    v_or_b32_e32 v10, v20, v10
+; GFX9-NEXT:    v_or_b32_e32 v10, v20, v30
 ; GFX9-NEXT:    v_lshrrev_b32_e32 v20, 31, v17
 ; GFX9-NEXT:    v_lshlrev_b64 v[16:17], 1, v[16:17]
+; GFX9-NEXT:    v_or_b32_e32 v11, v21, v31
+; GFX9-NEXT:    v_lshlrev_b64 v[18:19], 1, v[18:19]
+; GFX9-NEXT:    v_lshrrev_b32_e32 v21, 31, v9
+; GFX9-NEXT:    v_or_b32_e32 v16, v16, v21
 ; GFX9-NEXT:    v_or_b32_e32 v18, v18, v20
-; GFX9-NEXT:    v_lshrrev_b32_e32 v20, 31, v9
-; GFX9-NEXT:    v_or_b32_e32 v16, v16, v20
 ; GFX9-NEXT:    v_sub_co_u32_e32 v20, vcc, v26, v16
 ; GFX9-NEXT:    v_subb_co_u32_e32 v20, vcc, v27, v17, vcc
 ; GFX9-NEXT:    v_subb_co_u32_e32 v20, vcc, v28, v18, vcc
 ; GFX9-NEXT:    v_subb_co_u32_e32 v20, vcc, v29, v19, vcc
 ; GFX9-NEXT:    v_ashrrev_i32_e32 v30, 31, v20
 ; GFX9-NEXT:    v_and_b32_e32 v20, v30, v4
+; GFX9-NEXT:    v_lshlrev_b64 v[8:9], 1, v[8:9]
 ; GFX9-NEXT:    v_sub_co_u32_e32 v16, vcc, v16, v20
 ; GFX9-NEXT:    v_and_b32_e32 v20, v30, v5
 ; GFX9-NEXT:    v_subb_co_u32_e32 v17, vcc, v17, v20, vcc
-; GFX9-NEXT:    v_and_b32_e32 v20, v30, v6
-; GFX9-NEXT:    v_subb_co_u32_e32 v18, vcc, v18, v20, vcc
+; GFX9-NEXT:    v_or3_b32 v8, v8, v12, v14
+; GFX9-NEXT:    v_and_b32_e32 v12, v30, v6
 ; GFX9-NEXT:    v_and_b32_e32 v20, v30, v7
+; GFX9-NEXT:    v_subb_co_u32_e32 v18, vcc, v18, v12, vcc
 ; GFX9-NEXT:    v_subb_co_u32_e32 v19, vcc, v19, v20, vcc
 ; GFX9-NEXT:    v_add_co_u32_e32 v22, vcc, -1, v22
 ; GFX9-NEXT:    v_addc_co_u32_e32 v23, vcc, -1, v23, vcc
 ; GFX9-NEXT:    v_addc_co_u32_e32 v24, vcc, -1, v24, vcc
 ; GFX9-NEXT:    v_addc_co_u32_e32 v25, vcc, -1, v25, vcc
-; GFX9-NEXT:    v_or_b32_e32 v11, v21, v11
-; GFX9-NEXT:    v_lshlrev_b64 v[8:9], 1, v[8:9]
 ; GFX9-NEXT:    v_or_b32_e32 v20, v22, v24
 ; GFX9-NEXT:    v_or_b32_e32 v21, v23, v25
 ; GFX9-NEXT:    v_cmp_eq_u64_e32 vcc, 0, v[20:21]
-; GFX9-NEXT:    v_or3_b32 v8, v8, v12, v14
 ; GFX9-NEXT:    v_and_b32_e32 v12, 1, v30
 ; GFX9-NEXT:    v_mov_b32_e32 v21, v13
 ; GFX9-NEXT:    v_or3_b32 v9, v9, 0, v15
diff --git a/llvm/test/CodeGen/AMDGPU/remat-fp64-constants.ll b/llvm/test/CodeGen/AMDGPU/remat-fp64-constants.ll
index a433509511584..dc5e442c2b262 100644
--- a/llvm/test/CodeGen/AMDGPU/remat-fp64-constants.ll
+++ b/llvm/test/CodeGen/AMDGPU/remat-fp64-constants.ll
@@ -8,7 +8,7 @@
 ; GCN-NOT:     v_writelane_b32
 ; GCN:         s_cbranch_{{[^ ]+}} [[LOOP]]
 ; GCN: .sgpr_spill_count: 0
-define amdgpu_kernel void @test_remat_sgpr(ptr addrspace(1) %arg, ptr addrspace(1) %arg1) {
+define amdgpu_kernel void @test_remat_sgpr(ptr addrspace(1) %arg, ptr addrspace(1) %arg1) #0 {
 bb:
   %i = tail call i32 @llvm.amdgcn.workitem.id.x()
   br label %bb3
@@ -43,3 +43,5 @@ bb3:                                              ; preds = %bb3, %bb
 
 declare double @llvm.fma.f64(double, double, double)
 declare i32 @llvm.amdgcn.workitem.id.x()
+
+attributes #0 = { "amdgpu-flat-work-group-size"="1024,1024" }
diff --git a/llvm/test/CodeGen/AMDGPU/remove-no-kernel-id-attribute.ll b/llvm/test/CodeGen/AMDGPU/remove-no-kernel-id-attribute.ll
index 2850612d70081..1765bd1cfb008 100644
--- a/llvm/test/CodeGen/AMDGPU/remove-no-kernel-id-attribute.ll
+++ b/llvm/test/CodeGen/AMDGPU/remove-no-kernel-id-attribute.ll
@@ -196,7 +196,7 @@ define amdgpu_kernel void @kernel_lds_recursion() {
 ; CHECK: attributes #[[ATTR2]] = { "amdgpu-lds-size"="2" "amdgpu-no-agpr" "amdgpu-no-completion-action" "amdgpu-no-default-queue" "amdgpu-no-dispatch-id" "amdgpu-no-dispatch-ptr" "amdgpu-no-flat-scratch-init" "amdgpu-no-heap-ptr" "amdgpu-no-hostcall-ptr" "amdgpu-no-implicitarg-ptr" "amdgpu-no-multigrid-sync-arg" "amdgpu-no-workgroup-id-x" "amdgpu-no-workgroup-id-y" "amdgpu-no-workgroup-id-z" "amdgpu-no-workitem-id-x" "amdgpu-no-workitem-id-y" "amdgpu-no-workitem-id-z" "uniform-work-group-size"="false" }
 ; CHECK: attributes #[[ATTR3]] = { "amdgpu-lds-size"="4" "amdgpu-waves-per-eu"="4,10" "uniform-work-group-size"="false" }
 ; CHECK: attributes #[[ATTR4]] = { "amdgpu-lds-size"="2" "amdgpu-no-agpr" "amdgpu-no-completion-action" "amdgpu-no-default-queue" "amdgpu-no-dispatch-id" "amdgpu-no-dispatch-ptr" "amdgpu-no-flat-scratch-init" "amdgpu-no-heap-ptr" "amdgpu-no-hostcall-ptr" "amdgpu-no-implicitarg-ptr" "amdgpu-no-lds-kernel-id" "amdgpu-no-multigrid-sync-arg" "amdgpu-no-queue-ptr" "amdgpu-no-workgroup-id-x" "amdgpu-no-workgroup-id-y" "amdgpu-no-workgroup-id-z" "amdgpu-no-workitem-id-x" "amdgpu-no-workitem-id-y" "amdgpu-no-workitem-id-z" "uniform-work-group-size"="false" }
-; CHECK: attributes #[[ATTR5]] = { "amdgpu-lds-size"="2" "amdgpu-no-agpr" "amdgpu-no-completion-action" "amdgpu-no-default-queue" "amdgpu-no-dispatch-id" "amdgpu-no-dispatch-ptr" "amdgpu-no-flat-scratch-init" "amdgpu-no-heap-ptr" "amdgpu-no-hostcall-ptr" "amdgpu-no-implicitarg-ptr" "amdgpu-no-multigrid-sync-arg" "amdgpu-no-workgroup-id-x" "amdgpu-no-workgroup-id-y" "amdgpu-no-workgroup-id-z" "amdgpu-no-workitem-id-x" "amdgpu-no-workitem-id-y" "amdgpu-no-workitem-id-z" "amdgpu-waves-per-eu"="4,10" "uniform-work-group-size"="false" }
+; CHECK: attributes #[[ATTR5]] = { "amdgpu-lds-size"="4" "amdgpu-no-agpr" "amdgpu-no-completion-action" "amdgpu-no-default-queue" "amdgpu-no-dispatch-id" "amdgpu-no-dispatch-ptr" "amdgpu-no-flat-scratch-init" "amdgpu-no-heap-ptr" "amdgpu-no-hostcall-ptr" "amdgpu-no-implicitarg-ptr" "amdgpu-no-multigrid-sync-arg" "amdgpu-no-workgroup-id-x" "amdgpu-no-workgroup-id-y" "amdgpu-no-workgroup-id-z" "amdgpu-no-workitem-id-x" "amdgpu-no-workitem-id-y" "amdgpu-no-workitem-id-z" "amdgpu-waves-per-eu"="4,10" "uniform-work-group-size"="false" }
 ; CHECK: attributes #[[ATTR6:[0-9]+]] = { nocallback nofree nosync nounwind willreturn memory(none) }
 ; CHECK: attributes #[[ATTR7:[0-9]+]] = { nocallback nofree nosync nounwind speculatable willreturn memory(none) }
 ;.
diff --git a/llvm/test/CodeGen/AMDGPU/resource-optimization-remarks.ll b/llvm/test/CodeGen/AMDGPU/resource-optimization-remarks.ll
index 8bbae59f468f1..cbd1714a5e375 100644
--- a/llvm/test/CodeGen/AMDGPU/resource-optimization-remarks.ll
+++ b/llvm/test/CodeGen/AMDGPU/resource-optimization-remarks.ll
@@ -127,7 +127,7 @@ define void @test_func() !dbg !6 {
 ; STDERR-NEXT: remark: foo.cl:8:0:     AGPRs: 0
 ; STDERR-NEXT: remark: foo.cl:8:0:     ScratchSize [bytes/lane]: 0
 ; STDERR-NEXT: remark: foo.cl:8:0:     Dynamic Stack: False
-; STDERR-NEXT: remark: foo.cl:8:0:     Occupancy [waves/SIMD]: 8
+; STDERR-NEXT: remark: foo.cl:8:0:     Occupancy [waves/SIMD]: 10
 ; STDERR-NEXT: remark: foo.cl:8:0:     SGPRs Spill: 0
 ; STDERR-NEXT: remark: foo.cl:8:0:     VGPRs Spill: 0
 ; STDERR-NEXT: remark: foo.cl:8:0:     LDS Size [bytes/block]: 0
@@ -146,7 +146,7 @@ define void @empty_func() !dbg !8 {
 ; STDERR-NEXT: remark: foo.cl:64:0:     AGPRs: test_indirect_call.num_agpr
 ; STDERR-NEXT: remark: foo.cl:64:0:     ScratchSize [bytes/lane]: 0
 ; STDERR-NEXT: remark: foo.cl:64:0:     Dynamic Stack: True
-; STDERR-NEXT: remark: foo.cl:64:0:     Occupancy [waves/SIMD]: occupancy(10, 4, 256, 8, 8, max(test_indirect_call.numbered_sgpr+(extrasgprs(test_indirect_call.uses_vcc, test_indirect_call.uses_flat_scratch, 1)), 1, 0), max(totalnumvgprs(test_indirect_call.num_agpr, test_indirect_call.num_vgpr), 1, 0))
+; STDERR-NEXT: remark: foo.cl:64:0:     Occupancy [waves/SIMD]: occupancy(10, 4, 256, 8, 10, max(test_indirect_call.numbered_sgpr+(extrasgprs(test_indirect_call.uses_vcc, test_indirect_call.uses_flat_scratch, 1)), 1, 0), max(totalnumvgprs(test_indirect_call.num_agpr, test_indirect_call.num_vgpr), 1, 0))
 ; STDERR-NEXT: remark: foo.cl:64:0:     SGPRs Spill: 0
 ; STDERR-NEXT: remark: foo.cl:64:0:     VGPRs Spill: 0
 ; STDERR-NEXT: remark: foo.cl:64:0:     LDS Size [bytes/block]: 0
@@ -164,7 +164,7 @@ define amdgpu_kernel void @test_indirect_call() !dbg !9 {
 ; STDERR-NEXT: remark: foo.cl:74:0:     AGPRs: test_indirect_w_static_stack.num_agpr
 ; STDERR-NEXT: remark: foo.cl:74:0:     ScratchSize [bytes/lane]: 144
 ; STDERR-NEXT: remark: foo.cl:74:0:     Dynamic Stack: True
-; STDERR-NEXT: remark: foo.cl:74:0:     Occupancy [waves/SIMD]: occupancy(10, 4, 256, 8, 8, max(test_indirect_w_static_stack.numbered_sgpr+(extrasgprs(test_indirect_w_static_stack.uses_vcc, test_indirect_w_static_stack.uses_flat_scratch, 1)), 1, 0), max(totalnumvgprs(test_indirect_w_static_stack.num_agpr, test_indirect_w_static_stack.num_vgpr), 1, 0))
+; STDERR-NEXT: remark: foo.cl:74:0:     Occupancy [waves/SIMD]: occupancy(10, 4, 256, 8, 10, max(test_indirect_w_static_stack.numbered_sgpr+(extrasgprs(test_indirect_w_static_stack.uses_vcc, test_indirect_w_static_stack.uses_flat_scratch, 1)), 1, 0), max(totalnumvgprs(test_indirect_w_static_stack.num_agpr, test_indirect_w_static_stack.num_vgpr), 1, 0))
 ; STDERR-NEXT: remark: foo.cl:74:0:     SGPRs Spill: 0
 ; STDERR-NEXT: remark: foo.cl:74:0:     VGPRs Spill: 0
 ; STDERR-NEXT: remark: foo.cl:74:0:     LDS Size [bytes/block]: 0
diff --git a/llvm/test/CodeGen/AMDGPU/rsq.f64.ll b/llvm/test/CodeGen/AMDGPU/rsq.f64.ll
index 8f4a4b5afcdc1..554e3640221b9 100644
--- a/llvm/test/CodeGen/AMDGPU/rsq.f64.ll
+++ b/llvm/test/CodeGen/AMDGPU/rsq.f64.ll
@@ -1675,7 +1675,7 @@ define <2 x double> @v_rsq_v2f64(<2 x double> %x) {
 ; SI-GISEL-NEXT:    v_mov_b32_e32 v15, 0x260
 ; SI-GISEL-NEXT:    v_mul_f64 v[6:7], v[4:5], 0.5
 ; SI-GISEL-NEXT:    v_mul_f64 v[4:5], v[0:1], v[4:5]
-; SI-GISEL-NEXT:    v_mov_b32_e32 v20, 0x3ff00000
+; SI-GISEL-NEXT:    v_mov_b32_e32 v18, 0x3ff00000
 ; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[6:7], v[4:5], 0.5
 ; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[4:5], v[8:9], v[4:5]
 ; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[8:9], v[6:7]
@@ -1716,23 +1716,22 @@ define <2 x double> @v_rsq_v2f64(<2 x double> %x) {
 ; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[6:7], v[4:5], v[6:7]
 ; SI-GISEL-NEXT:    v_rcp_f64_e32 v[6:7], v[8:9]
 ; SI-GISEL-NEXT:    v_mul_f64 v[14:15], v[12:13], v[4:5]
-; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v13, v20
-; SI-GISEL-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], v[12:13]
-; SI-GISEL-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[6:7], 1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[18:19], v[6:7]
-; SI-GISEL-NEXT:    v_div_scale_f64 v[18:19], s[4:5], 1.0, v[2:3], 1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[6:7], 1.0
+; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v13, v18
+; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[10:11], v[14:15], v[12:13]
+; SI-GISEL-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[6:7], 1.0
 ; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v1, v11
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[12:13], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[16:17], v[6:7]
+; SI-GISEL-NEXT:    v_div_scale_f64 v[16:17], s[6:7], 1.0, v[2:3], 1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[10:11], -v[8:9], v[6:7], 1.0
 ; SI-GISEL-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; SI-GISEL-NEXT:    v_mul_f64 v[10:11], v[18:19], v[6:7]
-; SI-GISEL-NEXT:    v_div_fmas_f64 v[4:5], v[16:17], v[4:5], v[14:15]
-; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], v[18:19]
-; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v19, v20
+; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[10:11], v[6:7]
+; SI-GISEL-NEXT:    v_div_fmas_f64 v[4:5], v[12:13], v[4:5], v[14:15]
+; SI-GISEL-NEXT:    v_mul_f64 v[10:11], v[16:17], v[6:7]
+; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v17, v18
+; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], v[16:17]
 ; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v3, v9
 ; SI-GISEL-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
 ; SI-GISEL-NEXT:    v_div_fixup_f64 v[0:1], v[4:5], v[0:1], 1.0
-; SI-GISEL-NEXT:    s_nop 0
 ; SI-GISEL-NEXT:    v_div_fmas_f64 v[6:7], v[12:13], v[6:7], v[10:11]
 ; SI-GISEL-NEXT:    v_div_fixup_f64 v[2:3], v[6:7], v[2:3], 1.0
 ; SI-GISEL-NEXT:    s_setpc_b64 s[30:31]
@@ -1978,7 +1977,7 @@ define <2 x double> @v_neg_rsq_v2f64(<2 x double> %x) {
 ; SI-GISEL-NEXT:    v_mov_b32_e32 v15, 0x260
 ; SI-GISEL-NEXT:    v_mul_f64 v[6:7], v[4:5], 0.5
 ; SI-GISEL-NEXT:    v_mul_f64 v[4:5], v[0:1], v[4:5]
-; SI-GISEL-NEXT:    v_mov_b32_e32 v20, 0xbff00000
+; SI-GISEL-NEXT:    v_mov_b32_e32 v18, 0xbff00000
 ; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[6:7], v[4:5], 0.5
 ; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[4:5], v[8:9], v[4:5]
 ; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[8:9], v[6:7]
@@ -2019,23 +2018,22 @@ define <2 x double> @v_neg_rsq_v2f64(<2 x double> %x) {
 ; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[6:7], v[4:5], v[6:7]
 ; SI-GISEL-NEXT:    v_rcp_f64_e32 v[6:7], v[8:9]
 ; SI-GISEL-NEXT:    v_mul_f64 v[14:15], v[12:13], v[4:5]
-; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v13, v20
-; SI-GISEL-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], v[12:13]
-; SI-GISEL-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[6:7], 1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[18:19], v[6:7]
-; SI-GISEL-NEXT:    v_div_scale_f64 v[18:19], s[4:5], -1.0, v[2:3], -1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[6:7], 1.0
+; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v13, v18
+; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[10:11], v[14:15], v[12:13]
+; SI-GISEL-NEXT:    v_fma_f64 v[16:17], -v[8:9], v[6:7], 1.0
 ; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v1, v11
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[12:13], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[16:17], v[6:7]
+; SI-GISEL-NEXT:    v_div_scale_f64 v[16:17], s[6:7], -1.0, v[2:3], -1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[10:11], -v[8:9], v[6:7], 1.0
 ; SI-GISEL-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; SI-GISEL-NEXT:    v_mul_f64 v[10:11], v[18:19], v[6:7]
-; SI-GISEL-NEXT:    v_div_fmas_f64 v[4:5], v[16:17], v[4:5], v[14:15]
-; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], v[18:19]
-; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v19, v20
+; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[10:11], v[6:7]
+; SI-GISEL-NEXT:    v_div_fmas_f64 v[4:5], v[12:13], v[4:5], v[14:15]
+; SI-GISEL-NEXT:    v_mul_f64 v[10:11], v[16:17], v[6:7]
+; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v17, v18
+; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], v[16:17]
 ; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v3, v9
 ; SI-GISEL-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
 ; SI-GISEL-NEXT:    v_div_fixup_f64 v[0:1], v[4:5], v[0:1], -1.0
-; SI-GISEL-NEXT:    s_nop 0
 ; SI-GISEL-NEXT:    v_div_fmas_f64 v[6:7], v[12:13], v[6:7], v[10:11]
 ; SI-GISEL-NEXT:    v_div_fixup_f64 v[2:3], v[6:7], v[2:3], -1.0
 ; SI-GISEL-NEXT:    s_setpc_b64 s[30:31]
@@ -2245,8 +2243,8 @@ define <2 x double> @v_neg_rsq_v2f64_poisonelt(<2 x double> %x) {
 ; SI-GISEL-NEXT:    v_mov_b32_e32 v11, s5
 ; SI-GISEL-NEXT:    v_rsq_f64_e32 v[4:5], v[0:1]
 ; SI-GISEL-NEXT:    v_cmp_lt_f64_e64 s[4:5], v[2:3], v[10:11]
-; SI-GISEL-NEXT:    v_mov_b32_e32 v14, 0xffffff80
-; SI-GISEL-NEXT:    v_mov_b32_e32 v15, 0x260
+; SI-GISEL-NEXT:    v_mov_b32_e32 v12, 0xffffff80
+; SI-GISEL-NEXT:    v_cndmask_b32_e32 v13, 0, v12, vcc
 ; SI-GISEL-NEXT:    v_mul_f64 v[6:7], v[4:5], 0.5
 ; SI-GISEL-NEXT:    v_mul_f64 v[4:5], v[0:1], v[4:5]
 ; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[6:7], v[4:5], 0.5
@@ -2254,60 +2252,60 @@ define <2 x double> @v_neg_rsq_v2f64_poisonelt(<2 x double> %x) {
 ; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[8:9], v[6:7]
 ; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[4:5], v[0:1]
 ; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[8:9], v[6:7], v[4:5]
+; SI-GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, s[4:5]
+; SI-GISEL-NEXT:    v_lshlrev_b32_e32 v8, 8, v8
+; SI-GISEL-NEXT:    v_ldexp_f64 v[2:3], v[2:3], v8
 ; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[4:5], v[0:1]
+; SI-GISEL-NEXT:    v_rsq_f64_e32 v[10:11], v[2:3]
 ; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[8:9], v[6:7], v[4:5]
-; SI-GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[4:5]
-; SI-GISEL-NEXT:    v_lshlrev_b32_e32 v6, 8, v6
-; SI-GISEL-NEXT:    v_ldexp_f64 v[2:3], v[2:3], v6
-; SI-GISEL-NEXT:    v_cndmask_b32_e32 v8, 0, v14, vcc
-; SI-GISEL-NEXT:    v_rsq_f64_e32 v[6:7], v[2:3]
-; SI-GISEL-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v8
-; SI-GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[0:1], v15
-; SI-GISEL-NEXT:    v_mul_f64 v[8:9], v[6:7], 0.5
-; SI-GISEL-NEXT:    v_mul_f64 v[6:7], v[2:3], v[6:7]
+; SI-GISEL-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v13
+; SI-GISEL-NEXT:    v_mul_f64 v[6:7], v[10:11], 0.5
+; SI-GISEL-NEXT:    v_mul_f64 v[8:9], v[2:3], v[10:11]
+; SI-GISEL-NEXT:    v_mov_b32_e32 v13, 0x260
+; SI-GISEL-NEXT:    v_fma_f64 v[10:11], -v[6:7], v[8:9], 0.5
+; SI-GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[0:1], v13
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]
+; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[10:11], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[10:11], -v[8:9], v[8:9], v[2:3]
 ; SI-GISEL-NEXT:    v_cndmask_b32_e32 v0, v4, v0, vcc
-; SI-GISEL-NEXT:    v_fma_f64 v[10:11], -v[8:9], v[6:7], 0.5
 ; SI-GISEL-NEXT:    v_cndmask_b32_e32 v1, v5, v1, vcc
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[6:7], v[10:11], v[6:7]
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[8:9], v[10:11], v[8:9]
-; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[4:5], v[2:3]
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], v[10:11], v[6:7], v[8:9]
 ; SI-GISEL-NEXT:    v_div_scale_f64 v[10:11], s[6:7], v[0:1], v[0:1], -1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[8:9], v[6:7], v[4:5]
-; SI-GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[2:3], v15
-; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[4:5], v[2:3]
-; SI-GISEL-NEXT:    v_rcp_f64_e32 v[12:13], v[10:11]
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[8:9], v[6:7], v[4:5]
-; SI-GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, v14, s[4:5]
-; SI-GISEL-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v6
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], -v[10:11], v[12:13], 1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[4:5], -v[8:9], v[8:9], v[2:3]
+; SI-GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[2:3], v13
+; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
+; SI-GISEL-NEXT:    v_rcp_f64_e32 v[6:7], v[10:11]
+; SI-GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, v12, s[4:5]
+; SI-GISEL-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v8
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[6:7], 1.0
 ; SI-GISEL-NEXT:    v_cndmask_b32_e32 v2, v4, v2, vcc
 ; SI-GISEL-NEXT:    v_cndmask_b32_e32 v3, v5, v3, vcc
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[12:13], v[6:7], v[12:13]
-; SI-GISEL-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[2:3], v[2:3], s[4:5]
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], -v[10:11], v[6:7], 1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[6:7], v[8:9], v[6:7]
+; SI-GISEL-NEXT:    v_div_scale_f64 v[6:7], s[4:5], v[2:3], v[2:3], s[4:5]
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[4:5], 1.0
 ; SI-GISEL-NEXT:    v_div_scale_f64 v[12:13], s[4:5], -1.0, v[0:1], -1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[6:7], v[4:5], v[6:7]
-; SI-GISEL-NEXT:    v_rcp_f64_e32 v[6:7], v[8:9]
-; SI-GISEL-NEXT:    v_mul_f64 v[14:15], v[12:13], v[4:5]
-; SI-GISEL-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], v[12:13]
-; SI-GISEL-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[6:7], 1.0
+; SI-GISEL-NEXT:    v_rcp_f64_e32 v[14:15], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[4:5], v[8:9], v[4:5]
+; SI-GISEL-NEXT:    v_mul_f64 v[8:9], v[12:13], v[4:5]
+; SI-GISEL-NEXT:    v_fma_f64 v[16:17], -v[6:7], v[14:15], 1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[8:9], v[12:13]
+; SI-GISEL-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
 ; SI-GISEL-NEXT:    v_mov_b32_e32 v10, 0xbff00000
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[18:19], v[6:7]
 ; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v13, v10
-; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[6:7], 1.0
-; SI-GISEL-NEXT:    v_div_scale_f64 v[18:19], s[4:5], s[4:5], v[2:3], s[4:5]
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[12:13], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[6:7], v[14:15], 1.0
+; SI-GISEL-NEXT:    v_div_scale_f64 v[16:17], s[4:5], s[4:5], v[2:3], s[4:5]
 ; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v1, v11
-; SI-GISEL-NEXT:    v_mul_f64 v[10:11], v[18:19], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[10:11], v[14:15], v[12:13], v[14:15]
 ; SI-GISEL-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; SI-GISEL-NEXT:    v_div_fmas_f64 v[4:5], v[16:17], v[4:5], v[14:15]
-; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], v[18:19]
-; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, s4, v19
-; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v3, v9
+; SI-GISEL-NEXT:    v_mul_f64 v[12:13], v[16:17], v[10:11]
+; SI-GISEL-NEXT:    v_div_fmas_f64 v[4:5], v[18:19], v[4:5], v[8:9]
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[6:7], v[12:13], v[16:17]
+; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, s4, v17
+; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v3, v7
 ; SI-GISEL-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
 ; SI-GISEL-NEXT:    v_div_fixup_f64 v[0:1], v[4:5], v[0:1], -1.0
 ; SI-GISEL-NEXT:    s_nop 0
-; SI-GISEL-NEXT:    v_div_fmas_f64 v[6:7], v[12:13], v[6:7], v[10:11]
+; SI-GISEL-NEXT:    v_div_fmas_f64 v[6:7], v[8:9], v[10:11], v[12:13]
 ; SI-GISEL-NEXT:    v_div_fixup_f64 v[2:3], v[6:7], v[2:3], s[4:5]
 ; SI-GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2520,8 +2518,8 @@ define <2 x double> @v_neg_pos_rsq_v2f64(<2 x double> %x) {
 ; SI-GISEL-NEXT:    v_mov_b32_e32 v11, s5
 ; SI-GISEL-NEXT:    v_rsq_f64_e32 v[4:5], v[0:1]
 ; SI-GISEL-NEXT:    v_cmp_lt_f64_e64 s[4:5], v[2:3], v[10:11]
-; SI-GISEL-NEXT:    v_mov_b32_e32 v14, 0xffffff80
-; SI-GISEL-NEXT:    v_mov_b32_e32 v15, 0x260
+; SI-GISEL-NEXT:    v_mov_b32_e32 v12, 0xffffff80
+; SI-GISEL-NEXT:    v_cndmask_b32_e32 v13, 0, v12, vcc
 ; SI-GISEL-NEXT:    v_mul_f64 v[6:7], v[4:5], 0.5
 ; SI-GISEL-NEXT:    v_mul_f64 v[4:5], v[0:1], v[4:5]
 ; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[6:7], v[4:5], 0.5
@@ -2529,61 +2527,61 @@ define <2 x double> @v_neg_pos_rsq_v2f64(<2 x double> %x) {
 ; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[8:9], v[6:7]
 ; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[4:5], v[0:1]
 ; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[8:9], v[6:7], v[4:5]
+; SI-GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, 1, s[4:5]
+; SI-GISEL-NEXT:    v_lshlrev_b32_e32 v8, 8, v8
+; SI-GISEL-NEXT:    v_ldexp_f64 v[2:3], v[2:3], v8
 ; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[4:5], v[0:1]
+; SI-GISEL-NEXT:    v_rsq_f64_e32 v[10:11], v[2:3]
 ; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[8:9], v[6:7], v[4:5]
-; SI-GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, 1, s[4:5]
-; SI-GISEL-NEXT:    v_lshlrev_b32_e32 v6, 8, v6
-; SI-GISEL-NEXT:    v_ldexp_f64 v[2:3], v[2:3], v6
-; SI-GISEL-NEXT:    v_cndmask_b32_e32 v8, 0, v14, vcc
-; SI-GISEL-NEXT:    v_rsq_f64_e32 v[6:7], v[2:3]
-; SI-GISEL-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v8
-; SI-GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[0:1], v15
-; SI-GISEL-NEXT:    v_mul_f64 v[8:9], v[6:7], 0.5
-; SI-GISEL-NEXT:    v_mul_f64 v[6:7], v[2:3], v[6:7]
+; SI-GISEL-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v13
+; SI-GISEL-NEXT:    v_mul_f64 v[6:7], v[10:11], 0.5
+; SI-GISEL-NEXT:    v_mul_f64 v[8:9], v[2:3], v[10:11]
+; SI-GISEL-NEXT:    v_mov_b32_e32 v13, 0x260
+; SI-GISEL-NEXT:    v_fma_f64 v[10:11], -v[6:7], v[8:9], 0.5
+; SI-GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[0:1], v13
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], v[8:9], v[10:11], v[8:9]
+; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[10:11], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[10:11], -v[8:9], v[8:9], v[2:3]
 ; SI-GISEL-NEXT:    v_cndmask_b32_e32 v0, v4, v0, vcc
-; SI-GISEL-NEXT:    v_fma_f64 v[10:11], -v[8:9], v[6:7], 0.5
 ; SI-GISEL-NEXT:    v_cndmask_b32_e32 v1, v5, v1, vcc
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[6:7], v[10:11], v[6:7]
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[8:9], v[10:11], v[8:9]
-; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[4:5], v[2:3]
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], v[10:11], v[6:7], v[8:9]
 ; SI-GISEL-NEXT:    v_div_scale_f64 v[10:11], s[6:7], v[0:1], v[0:1], -1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[8:9], v[6:7], v[4:5]
-; SI-GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[2:3], v15
-; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[4:5], v[4:5], v[2:3]
-; SI-GISEL-NEXT:    v_rcp_f64_e32 v[12:13], v[10:11]
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[8:9], v[6:7], v[4:5]
-; SI-GISEL-NEXT:    v_cndmask_b32_e64 v6, 0, v14, s[4:5]
-; SI-GISEL-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v6
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], -v[10:11], v[12:13], 1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[4:5], -v[8:9], v[8:9], v[2:3]
+; SI-GISEL-NEXT:    v_cmp_class_f64_e32 vcc, v[2:3], v13
+; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[4:5], v[6:7], v[8:9]
+; SI-GISEL-NEXT:    v_rcp_f64_e32 v[6:7], v[10:11]
+; SI-GISEL-NEXT:    v_cndmask_b32_e64 v8, 0, v12, s[4:5]
+; SI-GISEL-NEXT:    v_ldexp_f64 v[4:5], v[4:5], v8
+; SI-GISEL-NEXT:    v_div_scale_f64 v[12:13], s[4:5], -1.0, v[0:1], -1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[6:7], 1.0
 ; SI-GISEL-NEXT:    v_cndmask_b32_e32 v2, v4, v2, vcc
 ; SI-GISEL-NEXT:    v_cndmask_b32_e32 v3, v5, v3, vcc
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[12:13], v[6:7], v[12:13]
-; SI-GISEL-NEXT:    v_div_scale_f64 v[8:9], s[4:5], v[2:3], v[2:3], 1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], -v[10:11], v[6:7], 1.0
-; SI-GISEL-NEXT:    v_div_scale_f64 v[12:13], s[4:5], -1.0, v[0:1], -1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[6:7], v[4:5], v[6:7]
-; SI-GISEL-NEXT:    v_rcp_f64_e32 v[6:7], v[8:9]
-; SI-GISEL-NEXT:    v_mul_f64 v[14:15], v[12:13], v[4:5]
-; SI-GISEL-NEXT:    v_fma_f64 v[16:17], -v[10:11], v[14:15], v[12:13]
-; SI-GISEL-NEXT:    v_fma_f64 v[18:19], -v[8:9], v[6:7], 1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[6:7], v[8:9], v[6:7]
+; SI-GISEL-NEXT:    v_div_scale_f64 v[6:7], s[4:5], v[2:3], v[2:3], 1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[10:11], v[4:5], 1.0
+; SI-GISEL-NEXT:    v_rcp_f64_e32 v[14:15], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[4:5], v[4:5], v[8:9], v[4:5]
+; SI-GISEL-NEXT:    v_mul_f64 v[8:9], v[12:13], v[4:5]
+; SI-GISEL-NEXT:    v_fma_f64 v[16:17], -v[6:7], v[14:15], 1.0
+; SI-GISEL-NEXT:    v_fma_f64 v[18:19], -v[10:11], v[8:9], v[12:13]
+; SI-GISEL-NEXT:    v_fma_f64 v[14:15], v[14:15], v[16:17], v[14:15]
 ; SI-GISEL-NEXT:    v_mov_b32_e32 v10, 0xbff00000
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[18:19], v[6:7]
 ; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v13, v10
-; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[6:7], 1.0
-; SI-GISEL-NEXT:    v_div_scale_f64 v[18:19], s[4:5], 1.0, v[2:3], 1.0
-; SI-GISEL-NEXT:    v_fma_f64 v[6:7], v[6:7], v[12:13], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[6:7], v[14:15], 1.0
+; SI-GISEL-NEXT:    v_div_scale_f64 v[16:17], s[4:5], 1.0, v[2:3], 1.0
 ; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v1, v11
-; SI-GISEL-NEXT:    v_mul_f64 v[10:11], v[18:19], v[6:7]
+; SI-GISEL-NEXT:    v_fma_f64 v[10:11], v[14:15], v[12:13], v[14:15]
 ; SI-GISEL-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; SI-GISEL-NEXT:    v_fma_f64 v[12:13], -v[8:9], v[10:11], v[18:19]
-; SI-GISEL-NEXT:    v_mov_b32_e32 v8, 0x3ff00000
-; SI-GISEL-NEXT:    v_div_fmas_f64 v[4:5], v[16:17], v[4:5], v[14:15]
-; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v19, v8
-; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v3, v9
+; SI-GISEL-NEXT:    v_mul_f64 v[12:13], v[16:17], v[10:11]
+; SI-GISEL-NEXT:    v_div_fmas_f64 v[4:5], v[18:19], v[4:5], v[8:9]
+; SI-GISEL-NEXT:    v_fma_f64 v[8:9], -v[6:7], v[12:13], v[16:17]
+; SI-GISEL-NEXT:    v_mov_b32_e32 v6, 0x3ff00000
+; SI-GISEL-NEXT:    v_cmp_eq_u32_e32 vcc, v17, v6
+; SI-GISEL-NEXT:    v_cmp_eq_u32_e64 s[4:5], v3, v7
 ; SI-GISEL-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
 ; SI-GISEL-NEXT:    v_div_fixup_f64 v[0:1], v[4:5], v[0:1], -1.0
 ; SI-GISEL-NEXT:    s_nop 0
-; SI-GISEL-NEXT:    v_div_fmas_f64 v[6:7], v[12:13], v[6:7], v[10:11]
+; SI-GISEL-NEXT:    v_div_fmas_f64 v[6:7], v[8:9], v[10:11], v[12:13]
 ; SI-GISEL-NEXT:    v_div_fixup_f64 v[2:3], v[6:7], v[2:3], 1.0
 ; SI-GISEL-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/sched-handleMoveUp-subreg-def-across-subreg-def.mir b/llvm/test/CodeGen/AMDGPU/sched-handleMoveUp-subreg-def-across-subreg-def.mir
index 6d79837feb128..6796391aba675 100644
--- a/llvm/test/CodeGen/AMDGPU/sched-handleMoveUp-subreg-def-across-subreg-def.mir
+++ b/llvm/test/CodeGen/AMDGPU/sched-handleMoveUp-subreg-def-across-subreg-def.mir
@@ -42,7 +42,7 @@ body:             |
   ; CHECK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, 851978 /* regdef:VGPR_16 */, def dead %11
   ; CHECK-NEXT:   GLOBAL_STORE_DWORD undef %12:vreg_64, [[BUFFER_LOAD_DWORD_OFFEN]], 0, 0, implicit $exec :: (store (s32), addrspace 1)
   ; CHECK-NEXT:   [[V_MOV_B32_e32_3:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
-  ; CHECK-NEXT:   [[V_MOV_B32_e32_:%[0-9]+]].sub1:vreg_64 = COPY [[V_MOV_B32_e32_1]]
+  ; CHECK-NEXT:   [[V_MOV_B32_e32_4:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
   ; CHECK-NEXT:   [[DS_READ_B64_gfx9_:%[0-9]+]]:vreg_64 = DS_READ_B64_gfx9 undef %14:vgpr_32, 0, 0, implicit $exec :: (load (s64), addrspace 3)
   ; CHECK-NEXT:   INLINEASM &"def $0 $1", 1 /* sideeffect attdialect */, 851978 /* regdef:VGPR_16 */, def %15, 851978 /* regdef:VGPR_16 */, def %16
   ; CHECK-NEXT:   [[DS_READ_B32_gfx9_:%[0-9]+]]:vgpr_32 = DS_READ_B32_gfx9 [[V_MOV_B32_e32_1]], 0, 0, implicit $exec
@@ -50,8 +50,8 @@ body:             |
   ; CHECK-NEXT:   [[DS_READ_B32_gfx9_2:%[0-9]+]]:vgpr_32 = DS_READ_B32_gfx9 undef %20:vgpr_32, 0, 0, implicit $exec
   ; CHECK-NEXT:   INLINEASM &"def $0 $1", 1 /* sideeffect attdialect */, 851978 /* regdef:VGPR_16 */, def %21, 851978 /* regdef:VGPR_16 */, def %22
   ; CHECK-NEXT:   [[DS_READ_B32_gfx9_3:%[0-9]+]]:vgpr_32 = DS_READ_B32_gfx9 [[V_MOV_B32_e32_2]], 0, 0, implicit $exec
-  ; CHECK-NEXT:   [[V_MOV_B32_e32_4:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 0, implicit $exec
   ; CHECK-NEXT:   INLINEASM &"", 1 /* sideeffect attdialect */, 851978 /* regdef:VGPR_16 */, def dead [[V_MOV_B32_e32_3]], 851978 /* regdef:VGPR_16 */, def dead [[V_MOV_B32_e32_4]], 851977 /* reguse:VGPR_16 */, [[DS_READ_B64_gfx9_]].sub0, 2147483657 /* reguse tiedto:$0 */, [[V_MOV_B32_e32_3]](tied-def 3), 2147549193 /* reguse tiedto:$1 */, [[V_MOV_B32_e32_4]](tied-def 5), 851977 /* reguse:VGPR_16 */, %15, 851977 /* reguse:VGPR_16 */, %16, 851977 /* reguse:VGPR_16 */, [[DS_READ_B32_gfx9_1]], 851977 /* reguse:VGPR_16 */, [[DS_READ_B32_gfx9_]], 851977 /* reguse:VGPR_16 */, [[DS_READ_B32_gfx9_3]], 851977 /* reguse:VGPR_16 */, [[DS_READ_B32_gfx9_2]]
+  ; CHECK-NEXT:   [[V_MOV_B32_e32_:%[0-9]+]].sub1:vreg_64 = COPY [[V_MOV_B32_e32_1]]
   ; CHECK-NEXT:   DS_WRITE_B32_gfx9 undef %28:vgpr_32, %21, 0, 0, implicit $exec :: (store (s32), addrspace 3)
   ; CHECK-NEXT:   DS_WRITE_B32_gfx9 undef %29:vgpr_32, %22, 0, 0, implicit $exec :: (store (s32), addrspace 3)
   ; CHECK-NEXT:   DS_WRITE_B64_gfx9 undef %30:vgpr_32, [[V_MOV_B32_e32_]], 0, 0, implicit $exec :: (store (s64), addrspace 3)
diff --git a/llvm/test/CodeGen/AMDGPU/schedule-amdgpu-trackers.ll b/llvm/test/CodeGen/AMDGPU/schedule-amdgpu-trackers.ll
index 268322bd074bf..648f4fc64f9d0 100644
--- a/llvm/test/CodeGen/AMDGPU/schedule-amdgpu-trackers.ll
+++ b/llvm/test/CodeGen/AMDGPU/schedule-amdgpu-trackers.ll
@@ -44,9 +44,9 @@ entry:
 ; CHECK-LABEL: {{^}}global_extload_v16f16_to_v16f64:
 ; TONGA:    NumSgprs: 96
 ; TONGA-GCNTRACKERS:    NumSgprs: 96
-; TONGA:    NumVgprs: 33
-; TONGA-GCNTRACKERS:    NumVgprs: 25
-; TONGA:    Occupancy: 7
+; TONGA:    NumVgprs: 21
+; TONGA-GCNTRACKERS:    NumVgprs: 23
+; TONGA:    Occupancy: 8
 ; TONGA-GCNTRACKERS:    Occupancy: 8
 
 
@@ -59,11 +59,11 @@ define amdgpu_kernel void @global_extload_v16f16_to_v16f64(ptr addrspace(1) %out
 
 ; CHECK-LABEL: {{^}}constant_zextload_v64i16_to_v64i32:
 ; GENERIC:    NumSgprs: 71
-; GENERIC-GCNTRACKERS:    NumSgprs: 54
-; GENERIC:    NumVgprs: 16
-; GENERIC-GCNTRACKERS:    NumVgprs: 16
+; GENERIC-GCNTRACKERS:    NumSgprs: 45
+; GENERIC:    NumVgprs: 20
+; GENERIC-GCNTRACKERS:    NumVgprs: 20
 ; GENERIC:    Occupancy: 7
-; GENERIC-GCNTRACKERS:    Occupancy: 8
+; GENERIC-GCNTRACKERS:    Occupancy: 10
 
 define amdgpu_kernel void @constant_zextload_v64i16_to_v64i32(ptr addrspace(1) %out, ptr addrspace(4) %in) {
   %load = load <64 x i16>, ptr addrspace(4) %in
diff --git a/llvm/test/CodeGen/AMDGPU/schedule-barrier.mir b/llvm/test/CodeGen/AMDGPU/schedule-barrier.mir
index 9429d1565962e..e67036f0bbbea 100644
--- a/llvm/test/CodeGen/AMDGPU/schedule-barrier.mir
+++ b/llvm/test/CodeGen/AMDGPU/schedule-barrier.mir
@@ -16,20 +16,20 @@ body: |
     ; CHECK-NEXT: undef [[COPY:%[0-9]+]].sub3:vreg_128 = COPY $vgpr9
     ; CHECK-NEXT: undef [[COPY1:%[0-9]+]].sub2:vreg_128 = COPY $vgpr8
     ; CHECK-NEXT: undef [[COPY2:%[0-9]+]].sub1:vreg_128 = COPY $vgpr7
-    ; CHECK-NEXT: undef [[COPY3:%[0-9]+]].sub0:vreg_128 = COPY $vgpr6
-    ; CHECK-NEXT: undef [[COPY4:%[0-9]+]].sub3:vreg_128 = COPY $vgpr5
-    ; CHECK-NEXT: undef [[COPY5:%[0-9]+]].sub2:vreg_128 = COPY $vgpr4
-    ; CHECK-NEXT: undef [[COPY6:%[0-9]+]].sub1:vreg_64 = COPY $vgpr1
-    ; CHECK-NEXT: [[COPY6:%[0-9]+]].sub0:vreg_64 = COPY $vgpr0
+    ; CHECK-NEXT: undef [[COPY3:%[0-9]+]].sub1:vreg_64 = COPY $vgpr1
+    ; CHECK-NEXT: [[COPY3:%[0-9]+]].sub0:vreg_64 = COPY $vgpr0
+    ; CHECK-NEXT: undef [[COPY4:%[0-9]+]].sub0:vreg_128 = COPY $vgpr6
+    ; CHECK-NEXT: undef [[COPY5:%[0-9]+]].sub3:vreg_128 = COPY $vgpr5
+    ; CHECK-NEXT: undef [[COPY6:%[0-9]+]].sub2:vreg_128 = COPY $vgpr4
     ; CHECK-NEXT: undef [[COPY7:%[0-9]+]].sub1:vreg_128 = COPY $vgpr3
     ; CHECK-NEXT: undef [[COPY8:%[0-9]+]].sub0:vreg_128 = COPY $vgpr2
     ; CHECK-NEXT: undef [[V_READFIRSTLANE_B32_:%[0-9]+]].sub0:sgpr_128 = V_READFIRSTLANE_B32 [[COPY8]].sub0, implicit $exec
     ; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]].sub1:sgpr_128 = V_READFIRSTLANE_B32 [[COPY7]].sub1, implicit $exec
+    ; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]].sub2:sgpr_128 = V_READFIRSTLANE_B32 [[COPY6]].sub2, implicit $exec
+    ; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]].sub3:sgpr_128 = V_READFIRSTLANE_B32 [[COPY5]].sub3, implicit $exec
     ; CHECK-NEXT: S_BARRIER
-    ; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]].sub2:sgpr_128 = V_READFIRSTLANE_B32 [[COPY5]].sub2, implicit $exec
-    ; CHECK-NEXT: [[V_READFIRSTLANE_B32_:%[0-9]+]].sub3:sgpr_128 = V_READFIRSTLANE_B32 [[COPY4]].sub3, implicit $exec
     ; CHECK-NEXT: [[BUFFER_LOAD_DWORD_OFFSET:%[0-9]+]]:vgpr_32 = BUFFER_LOAD_DWORD_OFFSET [[V_READFIRSTLANE_B32_]], 0, 0, 0, 0, implicit $exec
-    ; CHECK-NEXT: undef [[V_READFIRSTLANE_B32_1:%[0-9]+]].sub0:sgpr_128 = V_READFIRSTLANE_B32 [[COPY3]].sub0, implicit $exec
+    ; CHECK-NEXT: undef [[V_READFIRSTLANE_B32_1:%[0-9]+]].sub0:sgpr_128 = V_READFIRSTLANE_B32 [[COPY4]].sub0, implicit $exec
     ; CHECK-NEXT: [[V_READFIRSTLANE_B32_1:%[0-9]+]].sub1:sgpr_128 = V_READFIRSTLANE_B32 [[COPY2]].sub1, implicit $exec
     ; CHECK-NEXT: [[V_READFIRSTLANE_B32_1:%[0-9]+]].sub2:sgpr_128 = V_READFIRSTLANE_B32 [[COPY1]].sub2, implicit $exec
     ; CHECK-NEXT: [[V_READFIRSTLANE_B32_1:%[0-9]+]].sub3:sgpr_128 = V_READFIRSTLANE_B32 [[COPY]].sub3, implicit $exec
@@ -37,7 +37,7 @@ body: |
     ; CHECK-NEXT: [[V_MUL_LO_U32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_LO_U32_e64 [[BUFFER_LOAD_DWORD_OFFSET]], [[BUFFER_LOAD_DWORD_OFFSET]], implicit $exec
     ; CHECK-NEXT: [[V_MUL_LO_U32_e64_1:%[0-9]+]]:vgpr_32 = V_MUL_LO_U32_e64 [[BUFFER_LOAD_DWORD_OFFSET1]], [[BUFFER_LOAD_DWORD_OFFSET1]], implicit $exec
     ; CHECK-NEXT: [[V_ADD_U32_e32_:%[0-9]+]]:vgpr_32 = V_ADD_U32_e32 [[V_MUL_LO_U32_e64_]], [[V_MUL_LO_U32_e64_1]], implicit $exec
-    ; CHECK-NEXT: GLOBAL_STORE_DWORD [[COPY6]], [[V_ADD_U32_e32_]], 0, 0, implicit $exec
+    ; CHECK-NEXT: GLOBAL_STORE_DWORD [[COPY3]], [[V_ADD_U32_e32_]], 0, 0, implicit $exec
     ; CHECK-NEXT: S_ENDPGM 0
     undef %43.sub3:vreg_128 = COPY $vgpr9
     undef %42.sub2:vreg_128 = COPY $vgpr8
diff --git a/llvm/test/CodeGen/AMDGPU/schedule-regpressure-limit-clustering.ll b/llvm/test/CodeGen/AMDGPU/schedule-regpressure-limit-clustering.ll
index bd1258cb1cf98..1e5d6755fbc85 100644
--- a/llvm/test/CodeGen/AMDGPU/schedule-regpressure-limit-clustering.ll
+++ b/llvm/test/CodeGen/AMDGPU/schedule-regpressure-limit-clustering.ll
@@ -42,4 +42,4 @@ bb2:
 declare i32 @llvm.amdgcn.workitem.id.x() #0
 
 attributes #0 = { nounwind readnone }
-attributes #1 = { "amdgpu-num-vgpr"="9" }
+attributes #1 = { "amdgpu-num-vgpr"="9" "amdgpu-flat-work-group-size"="1024,1024" }
diff --git a/llvm/test/CodeGen/AMDGPU/schedule-relaxed-occupancy.ll b/llvm/test/CodeGen/AMDGPU/schedule-relaxed-occupancy.ll
index 71f8d91874f04..5a30d5d5e42ec 100644
--- a/llvm/test/CodeGen/AMDGPU/schedule-relaxed-occupancy.ll
+++ b/llvm/test/CodeGen/AMDGPU/schedule-relaxed-occupancy.ll
@@ -7,16 +7,16 @@
 ; Using -amgpu-schedule-relaxed-occupancy allows scheduler to produce better ILP by further relaxing occupancy target
 
 ; CHECK-LABEL: {{^}}load_fma_store:
-; OCC:    NumVgprs: 32
-; OCC-GCNTRACKER:    NumVgprs: 24
+; OCC:    NumVgprs: 24
+; OCC-GCNTRACKER:    NumVgprs: 26
 ; RELAX:    NumVgprs: 64
 ; RELAX-GCNTRACKER:    NumVgprs: 60
-; OCC: NumVGPRsForWavesPerEU: 32
-; OCC-GCNTRACKER: NumVGPRsForWavesPerEU: 24
+; OCC: NumVGPRsForWavesPerEU: 24
+; OCC-GCNTRACKER: NumVGPRsForWavesPerEU: 26
 ; RELAX: NumVGPRsForWavesPerEU: 64
 ; RELAX-GCNTRACKER: NumVGPRsForWavesPerEU: 60
-; OCC:    Occupancy: 8
-; OCC-GCNTRACKER:    Occupancy: 8
+; OCC:    Occupancy: 10
+; OCC-GCNTRACKER:    Occupancy: 9
 ; RELAX: Occupancy: 4
 ; RELAX-GCNTRACKER: Occupancy: 4
 
diff --git a/llvm/test/CodeGen/AMDGPU/sdiv.ll b/llvm/test/CodeGen/AMDGPU/sdiv.ll
index 6225ff73e28d0..57c54c4de7102 100644
--- a/llvm/test/CodeGen/AMDGPU/sdiv.ll
+++ b/llvm/test/CodeGen/AMDGPU/sdiv.ll
@@ -792,255 +792,255 @@ define amdgpu_kernel void @sdiv_v4i32(ptr addrspace(1) %out, ptr addrspace(1) %i
 ; GCN-LABEL: sdiv_v4i32:
 ; GCN:       ; %bb.0:
 ; GCN-NEXT:    s_load_dwordx4 s[0:3], s[4:5], 0x9
-; GCN-NEXT:    s_mov_b32 s11, 0xf000
-; GCN-NEXT:    s_mov_b32 s10, -1
-; GCN-NEXT:    s_mov_b32 s6, s10
-; GCN-NEXT:    s_mov_b32 s7, s11
+; GCN-NEXT:    s_mov_b32 s7, 0xf000
+; GCN-NEXT:    s_mov_b32 s6, -1
+; GCN-NEXT:    s_mov_b32 s10, s6
+; GCN-NEXT:    s_mov_b32 s11, s7
 ; GCN-NEXT:    s_waitcnt lgkmcnt(0)
-; GCN-NEXT:    s_mov_b32 s4, s2
-; GCN-NEXT:    s_mov_b32 s5, s3
-; GCN-NEXT:    buffer_load_dwordx4 v[0:3], off, s[4:7], 0
-; GCN-NEXT:    buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:16
-; GCN-NEXT:    s_mov_b32 s8, s0
-; GCN-NEXT:    s_mov_b32 s9, s1
+; GCN-NEXT:    s_mov_b32 s8, s2
+; GCN-NEXT:    s_mov_b32 s9, s3
+; GCN-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0
+; GCN-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
+; GCN-NEXT:    s_mov_b32 s4, s0
+; GCN-NEXT:    s_mov_b32 s5, s1
 ; GCN-NEXT:    s_waitcnt vmcnt(1)
-; GCN-NEXT:    v_sub_i32_e32 v12, vcc, 0, v1
+; GCN-NEXT:    v_sub_i32_e32 v13, vcc, 0, v1
 ; GCN-NEXT:    s_waitcnt vmcnt(0)
+; GCN-NEXT:    v_sub_i32_e32 v12, vcc, 0, v5
+; GCN-NEXT:    v_xor_b32_e32 v11, v1, v5
+; GCN-NEXT:    v_max_i32_e32 v5, v5, v12
+; GCN-NEXT:    v_cvt_f32_u32_e32 v12, v5
 ; GCN-NEXT:    v_sub_i32_e32 v10, vcc, 0, v4
-; GCN-NEXT:    v_sub_i32_e32 v13, vcc, 0, v5
-; GCN-NEXT:    v_sub_i32_e32 v16, vcc, 0, v6
 ; GCN-NEXT:    v_xor_b32_e32 v8, v0, v4
-; GCN-NEXT:    v_xor_b32_e32 v11, v1, v5
-; GCN-NEXT:    v_xor_b32_e32 v14, v2, v6
+; GCN-NEXT:    v_rcp_iflag_f32_e32 v12, v12
 ; GCN-NEXT:    v_max_i32_e32 v4, v4, v10
-; GCN-NEXT:    v_max_i32_e32 v5, v5, v13
-; GCN-NEXT:    v_max_i32_e32 v6, v6, v16
-; GCN-NEXT:    v_max_i32_e32 v1, v1, v12
-; GCN-NEXT:    v_ashrrev_i32_e32 v10, 31, v14
+; GCN-NEXT:    v_sub_i32_e32 v16, vcc, 0, v5
+; GCN-NEXT:    v_mul_f32_e32 v10, 0x4f7ffffe, v12
+; GCN-NEXT:    v_cvt_u32_f32_e32 v10, v10
 ; GCN-NEXT:    v_cvt_f32_u32_e32 v12, v4
-; GCN-NEXT:    v_cvt_f32_u32_e32 v14, v5
-; GCN-NEXT:    v_cvt_f32_u32_e32 v16, v6
-; GCN-NEXT:    v_sub_i32_e32 v9, vcc, 0, v0
+; GCN-NEXT:    v_max_i32_e32 v1, v1, v13
+; GCN-NEXT:    v_sub_i32_e32 v15, vcc, 0, v6
+; GCN-NEXT:    v_mul_lo_u32 v16, v16, v10
 ; GCN-NEXT:    v_rcp_iflag_f32_e32 v12, v12
-; GCN-NEXT:    v_rcp_iflag_f32_e32 v14, v14
-; GCN-NEXT:    v_rcp_iflag_f32_e32 v16, v16
-; GCN-NEXT:    v_sub_i32_e32 v15, vcc, 0, v2
+; GCN-NEXT:    v_xor_b32_e32 v14, v2, v6
+; GCN-NEXT:    v_max_i32_e32 v6, v6, v15
+; GCN-NEXT:    v_mul_hi_u32 v16, v10, v16
 ; GCN-NEXT:    v_mul_f32_e32 v12, 0x4f7ffffe, v12
-; GCN-NEXT:    v_mul_f32_e32 v14, 0x4f7ffffe, v14
-; GCN-NEXT:    v_mul_f32_e32 v16, 0x4f7ffffe, v16
 ; GCN-NEXT:    v_cvt_u32_f32_e32 v12, v12
-; GCN-NEXT:    v_cvt_u32_f32_e32 v14, v14
-; GCN-NEXT:    v_cvt_u32_f32_e32 v16, v16
-; GCN-NEXT:    v_sub_i32_e32 v17, vcc, 0, v7
+; GCN-NEXT:    v_cvt_f32_u32_e32 v15, v6
+; GCN-NEXT:    v_add_i32_e32 v10, vcc, v10, v16
+; GCN-NEXT:    v_sub_i32_e32 v16, vcc, 0, v4
+; GCN-NEXT:    v_mul_lo_u32 v16, v16, v12
+; GCN-NEXT:    v_mul_hi_u32 v10, v1, v10
+; GCN-NEXT:    v_sub_i32_e32 v9, vcc, 0, v0
+; GCN-NEXT:    v_mul_hi_u32 v13, v12, v16
 ; GCN-NEXT:    v_max_i32_e32 v0, v0, v9
-; GCN-NEXT:    v_ashrrev_i32_e32 v9, 31, v11
-; GCN-NEXT:    v_max_i32_e32 v2, v2, v15
-; GCN-NEXT:    v_max_i32_e32 v11, v7, v17
-; GCN-NEXT:    v_sub_i32_e32 v13, vcc, 0, v4
-; GCN-NEXT:    v_sub_i32_e32 v15, vcc, 0, v5
-; GCN-NEXT:    v_sub_i32_e32 v17, vcc, 0, v6
-; GCN-NEXT:    v_mul_lo_u32 v13, v13, v12
-; GCN-NEXT:    v_mul_lo_u32 v15, v15, v14
-; GCN-NEXT:    v_mul_lo_u32 v17, v17, v16
-; GCN-NEXT:    v_cvt_f32_u32_e32 v18, v11
-; GCN-NEXT:    v_mul_hi_u32 v13, v12, v13
-; GCN-NEXT:    v_mul_hi_u32 v15, v14, v15
-; GCN-NEXT:    v_mul_hi_u32 v17, v16, v17
-; GCN-NEXT:    v_rcp_iflag_f32_e32 v18, v18
+; GCN-NEXT:    v_rcp_iflag_f32_e32 v9, v15
+; GCN-NEXT:    v_ashrrev_i32_e32 v8, 31, v8
 ; GCN-NEXT:    v_add_i32_e32 v12, vcc, v12, v13
-; GCN-NEXT:    v_add_i32_e32 v13, vcc, v14, v15
-; GCN-NEXT:    v_add_i32_e32 v14, vcc, v16, v17
+; GCN-NEXT:    v_mul_lo_u32 v13, v10, v5
 ; GCN-NEXT:    v_mul_hi_u32 v12, v0, v12
-; GCN-NEXT:    v_mul_hi_u32 v13, v1, v13
-; GCN-NEXT:    v_mul_hi_u32 v14, v2, v14
-; GCN-NEXT:    v_mul_f32_e32 v18, 0x4f7ffffe, v18
-; GCN-NEXT:    v_mul_lo_u32 v15, v12, v4
-; GCN-NEXT:    v_mul_lo_u32 v17, v13, v5
-; GCN-NEXT:    v_mul_lo_u32 v21, v14, v6
-; GCN-NEXT:    v_cvt_u32_f32_e32 v18, v18
-; GCN-NEXT:    v_sub_i32_e32 v0, vcc, v0, v15
-; GCN-NEXT:    v_sub_i32_e32 v1, vcc, v1, v17
-; GCN-NEXT:    v_sub_i32_e32 v2, vcc, v2, v21
-; GCN-NEXT:    v_add_i32_e32 v16, vcc, 1, v12
-; GCN-NEXT:    v_add_i32_e32 v20, vcc, 1, v13
-; GCN-NEXT:    v_add_i32_e32 v15, vcc, 1, v14
-; GCN-NEXT:    v_cmp_ge_u32_e64 s[0:1], v0, v4
-; GCN-NEXT:    v_cmp_ge_u32_e64 s[2:3], v1, v5
-; GCN-NEXT:    v_cmp_ge_u32_e64 s[4:5], v2, v6
-; GCN-NEXT:    v_sub_i32_e32 v19, vcc, 0, v11
-; GCN-NEXT:    v_sub_i32_e32 v17, vcc, v0, v4
-; GCN-NEXT:    v_cndmask_b32_e64 v12, v12, v16, s[0:1]
-; GCN-NEXT:    v_sub_i32_e32 v16, vcc, v1, v5
-; GCN-NEXT:    v_cndmask_b32_e64 v13, v13, v20, s[2:3]
-; GCN-NEXT:    v_cndmask_b32_e64 v14, v14, v15, s[4:5]
-; GCN-NEXT:    v_mul_lo_u32 v19, v19, v18
-; GCN-NEXT:    v_sub_i32_e32 v20, vcc, v2, v6
-; GCN-NEXT:    v_cndmask_b32_e64 v0, v0, v17, s[0:1]
-; GCN-NEXT:    v_add_i32_e32 v15, vcc, 1, v12
-; GCN-NEXT:    v_cndmask_b32_e64 v1, v1, v16, s[2:3]
-; GCN-NEXT:    v_add_i32_e32 v16, vcc, 1, v13
-; GCN-NEXT:    v_add_i32_e32 v17, vcc, 1, v14
-; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v0, v4
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v12, v15, vcc
-; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v1, v5
-; GCN-NEXT:    v_ashrrev_i32_e32 v8, 31, v8
-; GCN-NEXT:    v_cndmask_b32_e32 v1, v13, v16, vcc
+; GCN-NEXT:    v_mul_f32_e32 v9, 0x4f7ffffe, v9
+; GCN-NEXT:    v_cvt_u32_f32_e32 v9, v9
+; GCN-NEXT:    v_sub_i32_e32 v1, vcc, v1, v13
+; GCN-NEXT:    v_add_i32_e32 v13, vcc, 1, v10
+; GCN-NEXT:    v_cmp_ge_u32_e64 s[0:1], v1, v5
+; GCN-NEXT:    v_cndmask_b32_e64 v10, v10, v13, s[0:1]
+; GCN-NEXT:    v_sub_i32_e32 v13, vcc, v1, v5
+; GCN-NEXT:    v_cndmask_b32_e64 v1, v1, v13, s[0:1]
+; GCN-NEXT:    v_cmp_ge_u32_e64 s[0:1], v1, v5
+; GCN-NEXT:    v_mul_lo_u32 v1, v12, v4
+; GCN-NEXT:    v_sub_i32_e32 v5, vcc, 0, v6
+; GCN-NEXT:    v_mul_lo_u32 v5, v5, v9
+; GCN-NEXT:    v_sub_i32_e32 v0, vcc, v0, v1
+; GCN-NEXT:    v_add_i32_e32 v1, vcc, 1, v12
+; GCN-NEXT:    v_cmp_ge_u32_e64 s[2:3], v0, v4
+; GCN-NEXT:    v_cndmask_b32_e64 v1, v12, v1, s[2:3]
+; GCN-NEXT:    v_sub_i32_e32 v12, vcc, v0, v4
+; GCN-NEXT:    v_cndmask_b32_e64 v0, v0, v12, s[2:3]
+; GCN-NEXT:    v_cmp_ge_u32_e64 s[2:3], v0, v4
+; GCN-NEXT:    v_sub_i32_e32 v0, vcc, 0, v7
+; GCN-NEXT:    v_mul_hi_u32 v4, v9, v5
+; GCN-NEXT:    v_max_i32_e32 v5, v7, v0
+; GCN-NEXT:    v_cvt_f32_u32_e32 v0, v5
+; GCN-NEXT:    v_add_i32_e32 v12, vcc, 1, v1
+; GCN-NEXT:    v_add_i32_e32 v4, vcc, v9, v4
+; GCN-NEXT:    v_rcp_iflag_f32_e32 v0, v0
+; GCN-NEXT:    v_sub_i32_e32 v9, vcc, 0, v2
+; GCN-NEXT:    v_max_i32_e32 v2, v2, v9
+; GCN-NEXT:    v_mul_hi_u32 v4, v2, v4
+; GCN-NEXT:    v_mul_f32_e32 v0, 0x4f7ffffe, v0
+; GCN-NEXT:    v_cvt_u32_f32_e32 v9, v0
+; GCN-NEXT:    v_cndmask_b32_e64 v0, v1, v12, s[2:3]
 ; GCN-NEXT:    v_xor_b32_e32 v0, v0, v8
-; GCN-NEXT:    v_xor_b32_e32 v1, v1, v9
-; GCN-NEXT:    v_mul_hi_u32 v4, v18, v19
-; GCN-NEXT:    v_cndmask_b32_e64 v2, v2, v20, s[4:5]
 ; GCN-NEXT:    v_sub_i32_e32 v0, vcc, v0, v8
-; GCN-NEXT:    v_sub_i32_e32 v1, vcc, v1, v9
+; GCN-NEXT:    v_mul_lo_u32 v8, v4, v6
+; GCN-NEXT:    v_add_i32_e32 v13, vcc, 1, v10
+; GCN-NEXT:    v_cndmask_b32_e64 v1, v10, v13, s[0:1]
+; GCN-NEXT:    v_sub_i32_e32 v10, vcc, 0, v5
+; GCN-NEXT:    v_sub_i32_e32 v2, vcc, v2, v8
+; GCN-NEXT:    v_ashrrev_i32_e32 v11, 31, v11
+; GCN-NEXT:    v_mul_lo_u32 v10, v10, v9
+; GCN-NEXT:    v_add_i32_e32 v8, vcc, 1, v4
+; GCN-NEXT:    v_cmp_ge_u32_e64 s[0:1], v2, v6
+; GCN-NEXT:    v_xor_b32_e32 v1, v1, v11
+; GCN-NEXT:    v_cndmask_b32_e64 v4, v4, v8, s[0:1]
+; GCN-NEXT:    v_sub_i32_e32 v8, vcc, v2, v6
+; GCN-NEXT:    v_sub_i32_e32 v1, vcc, v1, v11
+; GCN-NEXT:    v_cndmask_b32_e64 v2, v2, v8, s[0:1]
+; GCN-NEXT:    v_add_i32_e32 v8, vcc, 1, v4
 ; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v6
-; GCN-NEXT:    v_cndmask_b32_e32 v2, v14, v17, vcc
-; GCN-NEXT:    v_sub_i32_e32 v5, vcc, 0, v3
-; GCN-NEXT:    v_max_i32_e32 v5, v3, v5
-; GCN-NEXT:    v_add_i32_e32 v4, vcc, v18, v4
-; GCN-NEXT:    v_mul_hi_u32 v4, v5, v4
-; GCN-NEXT:    v_xor_b32_e32 v2, v2, v10
-; GCN-NEXT:    v_sub_i32_e32 v2, vcc, v2, v10
-; GCN-NEXT:    v_mul_lo_u32 v6, v4, v11
+; GCN-NEXT:    v_cndmask_b32_e32 v2, v4, v8, vcc
+; GCN-NEXT:    v_mul_hi_u32 v4, v9, v10
+; GCN-NEXT:    v_sub_i32_e32 v6, vcc, 0, v3
+; GCN-NEXT:    v_max_i32_e32 v6, v3, v6
+; GCN-NEXT:    v_add_i32_e32 v4, vcc, v9, v4
+; GCN-NEXT:    v_mul_hi_u32 v4, v6, v4
+; GCN-NEXT:    v_ashrrev_i32_e32 v14, 31, v14
+; GCN-NEXT:    v_xor_b32_e32 v2, v2, v14
+; GCN-NEXT:    v_sub_i32_e32 v2, vcc, v2, v14
+; GCN-NEXT:    v_mul_lo_u32 v8, v4, v5
 ; GCN-NEXT:    v_xor_b32_e32 v3, v3, v7
+; GCN-NEXT:    v_add_i32_e32 v7, vcc, 1, v4
+; GCN-NEXT:    v_sub_i32_e32 v6, vcc, v6, v8
+; GCN-NEXT:    v_sub_i32_e32 v8, vcc, v6, v5
+; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v6, v5
+; GCN-NEXT:    v_cndmask_b32_e32 v4, v4, v7, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v6, v6, v8, vcc
+; GCN-NEXT:    v_add_i32_e32 v7, vcc, 1, v4
+; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v6, v5
 ; GCN-NEXT:    v_ashrrev_i32_e32 v3, 31, v3
-; GCN-NEXT:    v_sub_i32_e32 v5, vcc, v5, v6
-; GCN-NEXT:    v_add_i32_e32 v6, vcc, 1, v4
-; GCN-NEXT:    v_sub_i32_e32 v7, vcc, v5, v11
-; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v5, v11
-; GCN-NEXT:    v_cndmask_b32_e32 v4, v4, v6, vcc
-; GCN-NEXT:    v_cndmask_b32_e32 v5, v5, v7, vcc
-; GCN-NEXT:    v_add_i32_e32 v6, vcc, 1, v4
-; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v5, v11
-; GCN-NEXT:    v_cndmask_b32_e32 v4, v4, v6, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v4, v4, v7, vcc
 ; GCN-NEXT:    v_xor_b32_e32 v4, v4, v3
 ; GCN-NEXT:    v_sub_i32_e32 v3, vcc, v4, v3
-; GCN-NEXT:    buffer_store_dwordx4 v[0:3], off, s[8:11], 0
+; GCN-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; GCN-NEXT:    s_endpgm
 ;
 ; TONGA-LABEL: sdiv_v4i32:
 ; TONGA:       ; %bb.0:
 ; TONGA-NEXT:    s_load_dwordx4 s[0:3], s[4:5], 0x24
-; TONGA-NEXT:    s_mov_b32 s11, 0xf000
-; TONGA-NEXT:    s_mov_b32 s10, -1
-; TONGA-NEXT:    s_mov_b32 s6, s10
-; TONGA-NEXT:    s_mov_b32 s7, s11
+; TONGA-NEXT:    s_mov_b32 s7, 0xf000
+; TONGA-NEXT:    s_mov_b32 s6, -1
+; TONGA-NEXT:    s_mov_b32 s10, s6
+; TONGA-NEXT:    s_mov_b32 s11, s7
 ; TONGA-NEXT:    s_waitcnt lgkmcnt(0)
-; TONGA-NEXT:    s_mov_b32 s4, s2
-; TONGA-NEXT:    s_mov_b32 s5, s3
-; TONGA-NEXT:    buffer_load_dwordx4 v[0:3], off, s[4:7], 0
-; TONGA-NEXT:    buffer_load_dwordx4 v[4:7], off, s[4:7], 0 offset:16
-; TONGA-NEXT:    s_mov_b32 s8, s0
-; TONGA-NEXT:    s_mov_b32 s9, s1
+; TONGA-NEXT:    s_mov_b32 s8, s2
+; TONGA-NEXT:    s_mov_b32 s9, s3
+; TONGA-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0
+; TONGA-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
+; TONGA-NEXT:    s_mov_b32 s4, s0
+; TONGA-NEXT:    s_mov_b32 s5, s1
 ; TONGA-NEXT:    s_waitcnt vmcnt(1)
-; TONGA-NEXT:    v_sub_u32_e32 v12, vcc, 0, v1
+; TONGA-NEXT:    v_sub_u32_e32 v13, vcc, 0, v1
 ; TONGA-NEXT:    s_waitcnt vmcnt(0)
+; TONGA-NEXT:    v_sub_u32_e32 v12, vcc, 0, v5
+; TONGA-NEXT:    v_xor_b32_e32 v11, v1, v5
+; TONGA-NEXT:    v_max_i32_e32 v5, v5, v12
+; TONGA-NEXT:    v_cvt_f32_u32_e32 v12, v5
 ; TONGA-NEXT:    v_sub_u32_e32 v10, vcc, 0, v4
-; TONGA-NEXT:    v_sub_u32_e32 v13, vcc, 0, v5
-; TONGA-NEXT:    v_sub_u32_e32 v16, vcc, 0, v6
 ; TONGA-NEXT:    v_xor_b32_e32 v8, v0, v4
-; TONGA-NEXT:    v_xor_b32_e32 v11, v1, v5
-; TONGA-NEXT:    v_xor_b32_e32 v14, v2, v6
+; TONGA-NEXT:    v_rcp_iflag_f32_e32 v12, v12
 ; TONGA-NEXT:    v_max_i32_e32 v4, v4, v10
-; TONGA-NEXT:    v_max_i32_e32 v5, v5, v13
-; TONGA-NEXT:    v_max_i32_e32 v6, v6, v16
-; TONGA-NEXT:    v_max_i32_e32 v1, v1, v12
-; TONGA-NEXT:    v_ashrrev_i32_e32 v10, 31, v14
+; TONGA-NEXT:    v_sub_u32_e32 v16, vcc, 0, v5
+; TONGA-NEXT:    v_mul_f32_e32 v10, 0x4f7ffffe, v12
+; TONGA-NEXT:    v_cvt_u32_f32_e32 v10, v10
 ; TONGA-NEXT:    v_cvt_f32_u32_e32 v12, v4
-; TONGA-NEXT:    v_cvt_f32_u32_e32 v14, v5
-; TONGA-NEXT:    v_cvt_f32_u32_e32 v16, v6
-; TONGA-NEXT:    v_sub_u32_e32 v9, vcc, 0, v0
+; TONGA-NEXT:    v_max_i32_e32 v1, v1, v13
+; TONGA-NEXT:    v_sub_u32_e32 v15, vcc, 0, v6
+; TONGA-NEXT:    v_mul_lo_u32 v16, v16, v10
 ; TONGA-NEXT:    v_rcp_iflag_f32_e32 v12, v12
-; TONGA-NEXT:    v_rcp_iflag_f32_e32 v14, v14
-; TONGA-NEXT:    v_rcp_iflag_f32_e32 v16, v16
-; TONGA-NEXT:    v_sub_u32_e32 v15, vcc, 0, v2
+; TONGA-NEXT:    v_xor_b32_e32 v14, v2, v6
+; TONGA-NEXT:    v_max_i32_e32 v6, v6, v15
+; TONGA-NEXT:    v_mul_hi_u32 v16, v10, v16
 ; TONGA-NEXT:    v_mul_f32_e32 v12, 0x4f7ffffe, v12
-; TONGA-NEXT:    v_mul_f32_e32 v14, 0x4f7ffffe, v14
-; TONGA-NEXT:    v_mul_f32_e32 v16, 0x4f7ffffe, v16
 ; TONGA-NEXT:    v_cvt_u32_f32_e32 v12, v12
-; TONGA-NEXT:    v_cvt_u32_f32_e32 v14, v14
-; TONGA-NEXT:    v_cvt_u32_f32_e32 v16, v16
-; TONGA-NEXT:    v_sub_u32_e32 v17, vcc, 0, v7
+; TONGA-NEXT:    v_cvt_f32_u32_e32 v15, v6
+; TONGA-NEXT:    v_add_u32_e32 v10, vcc, v10, v16
+; TONGA-NEXT:    v_sub_u32_e32 v16, vcc, 0, v4
+; TONGA-NEXT:    v_mul_lo_u32 v16, v16, v12
+; TONGA-NEXT:    v_mul_hi_u32 v10, v1, v10
+; TONGA-NEXT:    v_sub_u32_e32 v9, vcc, 0, v0
+; TONGA-NEXT:    v_mul_hi_u32 v13, v12, v16
 ; TONGA-NEXT:    v_max_i32_e32 v0, v0, v9
-; TONGA-NEXT:    v_ashrrev_i32_e32 v9, 31, v11
-; TONGA-NEXT:    v_max_i32_e32 v2, v2, v15
-; TONGA-NEXT:    v_max_i32_e32 v11, v7, v17
-; TONGA-NEXT:    v_sub_u32_e32 v13, vcc, 0, v4
-; TONGA-NEXT:    v_sub_u32_e32 v15, vcc, 0, v5
-; TONGA-NEXT:    v_sub_u32_e32 v17, vcc, 0, v6
-; TONGA-NEXT:    v_mul_lo_u32 v13, v13, v12
-; TONGA-NEXT:    v_mul_lo_u32 v15, v15, v14
-; TONGA-NEXT:    v_mul_lo_u32 v17, v17, v16
-; TONGA-NEXT:    v_cvt_f32_u32_e32 v18, v11
-; TONGA-NEXT:    v_mul_hi_u32 v13, v12, v13
-; TONGA-NEXT:    v_mul_hi_u32 v15, v14, v15
-; TONGA-NEXT:    v_mul_hi_u32 v17, v16, v17
-; TONGA-NEXT:    v_rcp_iflag_f32_e32 v18, v18
+; TONGA-NEXT:    v_rcp_iflag_f32_e32 v9, v15
+; TONGA-NEXT:    v_ashrrev_i32_e32 v8, 31, v8
 ; TONGA-NEXT:    v_add_u32_e32 v12, vcc, v12, v13
-; TONGA-NEXT:    v_add_u32_e32 v13, vcc, v14, v15
-; TONGA-NEXT:    v_add_u32_e32 v14, vcc, v16, v17
+; TONGA-NEXT:    v_mul_lo_u32 v13, v10, v5
 ; TONGA-NEXT:    v_mul_hi_u32 v12, v0, v12
-; TONGA-NEXT:    v_mul_hi_u32 v13, v1, v13
-; TONGA-NEXT:    v_mul_hi_u32 v14, v2, v14
-; TONGA-NEXT:    v_mul_f32_e32 v18, 0x4f7ffffe, v18
-; TONGA-NEXT:    v_mul_lo_u32 v15, v12, v4
-; TONGA-NEXT:    v_mul_lo_u32 v17, v13, v5
-; TONGA-NEXT:    v_mul_lo_u32 v21, v14, v6
-; TONGA-NEXT:    v_cvt_u32_f32_e32 v18, v18
-; TONGA-NEXT:    v_sub_u32_e32 v0, vcc, v0, v15
-; TONGA-NEXT:    v_sub_u32_e32 v1, vcc, v1, v17
-; TONGA-NEXT:    v_sub_u32_e32 v2, vcc, v2, v21
-; TONGA-NEXT:    v_add_u32_e32 v16, vcc, 1, v12
-; TONGA-NEXT:    v_add_u32_e32 v20, vcc, 1, v13
-; TONGA-NEXT:    v_add_u32_e32 v15, vcc, 1, v14
-; TONGA-NEXT:    v_cmp_ge_u32_e64 s[0:1], v0, v4
-; TONGA-NEXT:    v_cmp_ge_u32_e64 s[2:3], v1, v5
-; TONGA-NEXT:    v_cmp_ge_u32_e64 s[4:5], v2, v6
-; TONGA-NEXT:    v_sub_u32_e32 v19, vcc, 0, v11
-; TONGA-NEXT:    v_sub_u32_e32 v17, vcc, v0, v4
-; TONGA-NEXT:    v_cndmask_b32_e64 v12, v12, v16, s[0:1]
-; TONGA-NEXT:    v_sub_u32_e32 v16, vcc, v1, v5
-; TONGA-NEXT:    v_cndmask_b32_e64 v13, v13, v20, s[2:3]
-; TONGA-NEXT:    v_cndmask_b32_e64 v14, v14, v15, s[4:5]
-; TONGA-NEXT:    v_mul_lo_u32 v19, v19, v18
-; TONGA-NEXT:    v_sub_u32_e32 v20, vcc, v2, v6
-; TONGA-NEXT:    v_cndmask_b32_e64 v0, v0, v17, s[0:1]
-; TONGA-NEXT:    v_add_u32_e32 v15, vcc, 1, v12
-; TONGA-NEXT:    v_cndmask_b32_e64 v1, v1, v16, s[2:3]
-; TONGA-NEXT:    v_add_u32_e32 v16, vcc, 1, v13
-; TONGA-NEXT:    v_add_u32_e32 v17, vcc, 1, v14
-; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v0, v4
-; TONGA-NEXT:    v_cndmask_b32_e32 v0, v12, v15, vcc
-; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v1, v5
-; TONGA-NEXT:    v_ashrrev_i32_e32 v8, 31, v8
-; TONGA-NEXT:    v_cndmask_b32_e32 v1, v13, v16, vcc
+; TONGA-NEXT:    v_mul_f32_e32 v9, 0x4f7ffffe, v9
+; TONGA-NEXT:    v_cvt_u32_f32_e32 v9, v9
+; TONGA-NEXT:    v_sub_u32_e32 v1, vcc, v1, v13
+; TONGA-NEXT:    v_add_u32_e32 v13, vcc, 1, v10
+; TONGA-NEXT:    v_cmp_ge_u32_e64 s[0:1], v1, v5
+; TONGA-NEXT:    v_cndmask_b32_e64 v10, v10, v13, s[0:1]
+; TONGA-NEXT:    v_sub_u32_e32 v13, vcc, v1, v5
+; TONGA-NEXT:    v_cndmask_b32_e64 v1, v1, v13, s[0:1]
+; TONGA-NEXT:    v_cmp_ge_u32_e64 s[0:1], v1, v5
+; TONGA-NEXT:    v_mul_lo_u32 v1, v12, v4
+; TONGA-NEXT:    v_sub_u32_e32 v5, vcc, 0, v6
+; TONGA-NEXT:    v_mul_lo_u32 v5, v5, v9
+; TONGA-NEXT:    v_sub_u32_e32 v0, vcc, v0, v1
+; TONGA-NEXT:    v_add_u32_e32 v1, vcc, 1, v12
+; TONGA-NEXT:    v_cmp_ge_u32_e64 s[2:3], v0, v4
+; TONGA-NEXT:    v_cndmask_b32_e64 v1, v12, v1, s[2:3]
+; TONGA-NEXT:    v_sub_u32_e32 v12, vcc, v0, v4
+; TONGA-NEXT:    v_cndmask_b32_e64 v0, v0, v12, s[2:3]
+; TONGA-NEXT:    v_cmp_ge_u32_e64 s[2:3], v0, v4
+; TONGA-NEXT:    v_sub_u32_e32 v0, vcc, 0, v7
+; TONGA-NEXT:    v_mul_hi_u32 v4, v9, v5
+; TONGA-NEXT:    v_max_i32_e32 v5, v7, v0
+; TONGA-NEXT:    v_cvt_f32_u32_e32 v0, v5
+; TONGA-NEXT:    v_add_u32_e32 v12, vcc, 1, v1
+; TONGA-NEXT:    v_add_u32_e32 v4, vcc, v9, v4
+; TONGA-NEXT:    v_rcp_iflag_f32_e32 v0, v0
+; TONGA-NEXT:    v_sub_u32_e32 v9, vcc, 0, v2
+; TONGA-NEXT:    v_max_i32_e32 v2, v2, v9
+; TONGA-NEXT:    v_mul_hi_u32 v4, v2, v4
+; TONGA-NEXT:    v_mul_f32_e32 v0, 0x4f7ffffe, v0
+; TONGA-NEXT:    v_cvt_u32_f32_e32 v9, v0
+; TONGA-NEXT:    v_cndmask_b32_e64 v0, v1, v12, s[2:3]
 ; TONGA-NEXT:    v_xor_b32_e32 v0, v0, v8
-; TONGA-NEXT:    v_xor_b32_e32 v1, v1, v9
-; TONGA-NEXT:    v_mul_hi_u32 v4, v18, v19
-; TONGA-NEXT:    v_cndmask_b32_e64 v2, v2, v20, s[4:5]
 ; TONGA-NEXT:    v_sub_u32_e32 v0, vcc, v0, v8
-; TONGA-NEXT:    v_sub_u32_e32 v1, vcc, v1, v9
+; TONGA-NEXT:    v_mul_lo_u32 v8, v4, v6
+; TONGA-NEXT:    v_add_u32_e32 v13, vcc, 1, v10
+; TONGA-NEXT:    v_cndmask_b32_e64 v1, v10, v13, s[0:1]
+; TONGA-NEXT:    v_sub_u32_e32 v10, vcc, 0, v5
+; TONGA-NEXT:    v_sub_u32_e32 v2, vcc, v2, v8
+; TONGA-NEXT:    v_ashrrev_i32_e32 v11, 31, v11
+; TONGA-NEXT:    v_mul_lo_u32 v10, v10, v9
+; TONGA-NEXT:    v_add_u32_e32 v8, vcc, 1, v4
+; TONGA-NEXT:    v_cmp_ge_u32_e64 s[0:1], v2, v6
+; TONGA-NEXT:    v_xor_b32_e32 v1, v1, v11
+; TONGA-NEXT:    v_cndmask_b32_e64 v4, v4, v8, s[0:1]
+; TONGA-NEXT:    v_sub_u32_e32 v8, vcc, v2, v6
+; TONGA-NEXT:    v_sub_u32_e32 v1, vcc, v1, v11
+; TONGA-NEXT:    v_cndmask_b32_e64 v2, v2, v8, s[0:1]
+; TONGA-NEXT:    v_add_u32_e32 v8, vcc, 1, v4
 ; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v2, v6
-; TONGA-NEXT:    v_cndmask_b32_e32 v2, v14, v17, vcc
-; TONGA-NEXT:    v_sub_u32_e32 v5, vcc, 0, v3
-; TONGA-NEXT:    v_max_i32_e32 v5, v3, v5
-; TONGA-NEXT:    v_add_u32_e32 v4, vcc, v18, v4
-; TONGA-NEXT:    v_mul_hi_u32 v4, v5, v4
-; TONGA-NEXT:    v_xor_b32_e32 v2, v2, v10
-; TONGA-NEXT:    v_sub_u32_e32 v2, vcc, v2, v10
-; TONGA-NEXT:    v_mul_lo_u32 v6, v4, v11
+; TONGA-NEXT:    v_cndmask_b32_e32 v2, v4, v8, vcc
+; TONGA-NEXT:    v_mul_hi_u32 v4, v9, v10
+; TONGA-NEXT:    v_sub_u32_e32 v6, vcc, 0, v3
+; TONGA-NEXT:    v_max_i32_e32 v6, v3, v6
+; TONGA-NEXT:    v_add_u32_e32 v4, vcc, v9, v4
+; TONGA-NEXT:    v_mul_hi_u32 v4, v6, v4
+; TONGA-NEXT:    v_ashrrev_i32_e32 v14, 31, v14
+; TONGA-NEXT:    v_xor_b32_e32 v2, v2, v14
+; TONGA-NEXT:    v_sub_u32_e32 v2, vcc, v2, v14
+; TONGA-NEXT:    v_mul_lo_u32 v8, v4, v5
 ; TONGA-NEXT:    v_xor_b32_e32 v3, v3, v7
+; TONGA-NEXT:    v_add_u32_e32 v7, vcc, 1, v4
+; TONGA-NEXT:    v_sub_u32_e32 v6, vcc, v6, v8
+; TONGA-NEXT:    v_sub_u32_e32 v8, vcc, v6, v5
+; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v6, v5
+; TONGA-NEXT:    v_cndmask_b32_e32 v4, v4, v7, vcc
+; TONGA-NEXT:    v_cndmask_b32_e32 v6, v6, v8, vcc
+; TONGA-NEXT:    v_add_u32_e32 v7, vcc, 1, v4
+; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v6, v5
 ; TONGA-NEXT:    v_ashrrev_i32_e32 v3, 31, v3
-; TONGA-NEXT:    v_sub_u32_e32 v5, vcc, v5, v6
-; TONGA-NEXT:    v_add_u32_e32 v6, vcc, 1, v4
-; TONGA-NEXT:    v_sub_u32_e32 v7, vcc, v5, v11
-; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v5, v11
-; TONGA-NEXT:    v_cndmask_b32_e32 v4, v4, v6, vcc
-; TONGA-NEXT:    v_cndmask_b32_e32 v5, v5, v7, vcc
-; TONGA-NEXT:    v_add_u32_e32 v6, vcc, 1, v4
-; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v5, v11
-; TONGA-NEXT:    v_cndmask_b32_e32 v4, v4, v6, vcc
+; TONGA-NEXT:    v_cndmask_b32_e32 v4, v4, v7, vcc
 ; TONGA-NEXT:    v_xor_b32_e32 v4, v4, v3
 ; TONGA-NEXT:    v_sub_u32_e32 v3, vcc, v4, v3
-; TONGA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[8:11], 0
+; TONGA-NEXT:    buffer_store_dwordx4 v[0:3], off, s[4:7], 0
 ; TONGA-NEXT:    s_endpgm
 ;
 ; GFX9-LABEL: sdiv_v4i32:
diff --git a/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-combine-sel.ll b/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-combine-sel.ll
new file mode 100644
index 0000000000000..6eae905278f3e
--- /dev/null
+++ b/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-combine-sel.ll
@@ -0,0 +1,87 @@
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
+; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx1030 -o - < %s | FileCheck -check-prefix=CHECK %s
+
+; The si-peephole-sdwa pass has mishandled the selections of preexisting sdwa instructions
+; which led to an instruction of this shape:
+;     v_lshlrev_b32_sdwa v{{[0-9]}}, v{{[0-9]}}, v{{[0-9]}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
+; instead of
+;     v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
+
+define amdgpu_kernel void @widget(ptr addrspace(1) %arg, i1 %arg1, ptr addrspace(3) %arg2, ptr addrspace(3) %arg3) {
+; CHECK-LABEL: widget:
+; CHECK:       ; %bb.0: ; %bb
+; CHECK-NEXT:    s_clause 0x1
+; CHECK-NEXT:    s_load_dwordx2 s[0:1], s[8:9], 0x0
+; CHECK-NEXT:    s_load_dword s2, s[8:9], 0x8
+; CHECK-NEXT:    v_mov_b32_e32 v2, 8
+; CHECK-NEXT:    s_waitcnt lgkmcnt(0)
+; CHECK-NEXT:    s_clause 0x1
+; CHECK-NEXT:    global_load_ushort v1, v0, s[0:1]
+; CHECK-NEXT:    global_load_ubyte v0, v0, s[0:1] offset:2
+; CHECK-NEXT:    s_bitcmp1_b32 s2, 0
+; CHECK-NEXT:    s_cselect_b32 s0, -1, 0
+; CHECK-NEXT:    s_and_b32 vcc_lo, exec_lo, s0
+; CHECK-NEXT:    s_waitcnt vmcnt(1)
+; CHECK-NEXT:    v_lshrrev_b32_sdwa v2, v2, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
+; CHECK-NEXT:    v_or_b32_sdwa v1, v1, v2 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
+; CHECK-NEXT:    v_and_b32_e32 v1, 0xffff, v1
+; CHECK-NEXT:    s_waitcnt vmcnt(0)
+; CHECK-NEXT:    v_lshl_or_b32 v0, v0, 16, v1
+; CHECK-NEXT:    s_cbranch_vccz .LBB0_2
+; CHECK-NEXT:  ; %bb.1: ; %bb19
+; CHECK-NEXT:    v_mov_b32_e32 v1, 0
+; CHECK-NEXT:    ds_write_b32 v1, v1
+; CHECK-NEXT:  .LBB0_2: ; %bb20
+; CHECK-NEXT:    v_lshrrev_b32_e32 v0, 16, v0
+; CHECK-NEXT:    s_mov_b32 s0, exec_lo
+; CHECK-NEXT:    v_cmpx_ne_u16_e32 0, v0
+; CHECK-NEXT:    s_xor_b32 s0, exec_lo, s0
+; CHECK-NEXT:    s_cbranch_execz .LBB0_4
+; CHECK-NEXT:  ; %bb.3: ; %bb11
+; CHECK-NEXT:    v_mov_b32_e32 v1, 2
+; CHECK-NEXT:    v_lshlrev_b32_sdwa v0, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
+; CHECK-NEXT:    v_mov_b32_e32 v1, 0
+; CHECK-NEXT:    ds_write_b32 v0, v1 offset:84
+; CHECK-NEXT:  .LBB0_4: ; %bb14
+; CHECK-NEXT:    s_endpgm
+bb:
+  %call = tail call i32 @llvm.amdgcn.workitem.id.x()
+  %zext = zext i32 %call to i64
+  %getelementptr = getelementptr i8, ptr addrspace(1) %arg, i64 %zext
+  %load = load i8, ptr addrspace(1) %getelementptr, align 1
+  %or = or disjoint i32 %call, 1
+  %zext4 = zext i32 %or to i64
+  %getelementptr5 = getelementptr i8, ptr addrspace(1) %arg, i64 %zext4
+  %load6 = load i8, ptr addrspace(1) %getelementptr5, align 1
+  %or7 = or disjoint i32 %call, 2
+  %zext8 = zext i32 %or7 to i64
+  %getelementptr9 = getelementptr i8, ptr addrspace(1) %arg, i64 %zext8
+  %load10 = load i8, ptr addrspace(1) %getelementptr9, align 1
+  br i1 %arg1, label %bb19, label %bb20
+
+bb11:                                             ; preds = %bb20
+  %zext12 = zext i8 %load10 to i64
+  %getelementptr13 = getelementptr nusw [14 x i32], ptr addrspace(3) inttoptr (i32 84 to ptr addrspace(3)), i64 0, i64 %zext12
+  store i32 0, ptr addrspace(3) %getelementptr13, align 4
+  br label %bb14
+
+bb14:                                             ; preds = %bb20, %bb11
+  %zext15 = zext i8 %load6 to i64
+  %getelementptr16 = getelementptr [14 x i32], ptr addrspace(3) %arg2, i64 0, i64 %zext15
+  %zext17 = zext i8 %load to i64
+  %getelementptr18 = getelementptr [14 x i32], ptr addrspace(3) %arg3, i64 0, i64 %zext17
+  ret void
+
+bb19:                                             ; preds = %bb
+  store i32 0, ptr addrspace(3) null, align 4
+  br label %bb20
+
+bb20:                                             ; preds = %bb19, %bb
+  %icmp = icmp eq i8 %load10, 0
+  br i1 %icmp, label %bb14, label %bb11
+}
+
+; Function Attrs: nocallback nofree nosync nounwind speculatable willreturn memory(none)
+declare noundef i32 @llvm.amdgcn.workitem.id.x() #0
+
+attributes #0 = { nocallback nofree nosync nounwind speculatable willreturn memory(none) }
diff --git a/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-combine-sel.mir b/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-combine-sel.mir
new file mode 100644
index 0000000000000..cc2c8b3940d78
--- /dev/null
+++ b/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-combine-sel.mir
@@ -0,0 +1,56 @@
+# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py UTC_ARGS: --version 5
+# RUN: llc -mtriple=amdgcn -mcpu=gfx1030 -run-pass=si-peephole-sdwa -o - %s | FileCheck -check-prefix=CHECK %s
+
+# Currently the conversions in si-peephole-sdwa are disabled on preexisting sdwa instructions.
+# If they are reenabled, the code matches this pattern instead of the corresponding pattern
+# for V_LSHLREV_B32_sdwa further below:
+# [[V_LSHLREV_B32_sdwa:%[0-9]+]]:vgpr_32 = V_LSHLREV_B32_sdwa 0, %{{[0-9]+}}, 0, undef [[GLOBAL_LOAD_DWORD_SADDR]], 0, 6, 0, 6, 5, implicit $exec
+
+# TODO Implement a fix for the incorrect sdwa selection
+
+---
+name:            sdwa_opsel_hazard
+body:             |
+  ; CHECK-LABEL: name: sdwa_opsel_hazard
+  ; CHECK: bb.0:
+  ; CHECK-NEXT:   successors: %bb.2(0x80000000)
+  ; CHECK-NEXT: {{  $}}
+  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:sreg_32 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF1:%[0-9]+]]:sreg_64_xexec_xnull = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF2:%[0-9]+]]:vgpr_32 = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[GLOBAL_LOAD_DWORD_SADDR:%[0-9]+]]:vgpr_32 = GLOBAL_LOAD_DWORD_SADDR killed [[DEF1]], [[DEF2]], 0, 0, implicit $exec
+  ; CHECK-NEXT:   S_BRANCH %bb.2
+  ; CHECK-NEXT: {{  $}}
+  ; CHECK-NEXT: bb.1:
+  ; CHECK-NEXT:   [[V_AND_B32_e64_:%[0-9]+]]:vgpr_32 = V_AND_B32_e64 undef %5, 255, implicit $exec
+  ; CHECK-NEXT:   [[V_MOV_B32_e32_:%[0-9]+]]:vgpr_32 = V_MOV_B32_e32 2, implicit $exec
+  ; CHECK-NEXT:   [[V_LSHLREV_B32_sdwa:%[0-9]+]]:vgpr_32 = V_LSHLREV_B32_sdwa 0, [[V_MOV_B32_e32_]], 0, undef %5, 0, 6, 0, 6, 0, implicit $exec
+  ; CHECK-NEXT:   S_ENDPGM 0
+  ; CHECK-NEXT: {{  $}}
+  ; CHECK-NEXT: bb.2:
+  ; CHECK-NEXT:   successors: %bb.1(0x80000000)
+  ; CHECK-NEXT: {{  $}}
+  ; CHECK-NEXT:   [[V_LSHRREV_B32_e64_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B32_e64 16, undef [[GLOBAL_LOAD_DWORD_SADDR]], implicit $exec
+  ; CHECK-NEXT:   S_BRANCH %bb.1
+  bb.0:
+    successors: %bb.2(0x40000000)
+    %0:sreg_32 = IMPLICIT_DEF
+    %1:sreg_64_xexec_xnull = IMPLICIT_DEF
+    %2:vgpr_32 = IMPLICIT_DEF
+    %3:vgpr_32 = GLOBAL_LOAD_DWORD_SADDR killed %1, %2, 0, 0, implicit $exec
+    S_BRANCH %bb.2
+
+  bb.1:
+    %5:vgpr_32 = V_AND_B32_e64 undef %6, 255, implicit $exec
+    %7:vgpr_32 = V_LSHLREV_B32_e64 2, killed undef %5, implicit $exec
+    S_ENDPGM 0
+
+  bb.2:
+    successors: %bb.1(0x40000000)
+
+    %6:vgpr_32 = V_LSHRREV_B32_e64 16, undef %3, implicit $exec
+
+    S_BRANCH %bb.1
+
+...
+
diff --git a/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-gfx10.mir b/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-gfx10.mir
index 62538120f8451..aaa32d871148b 100644
--- a/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-gfx10.mir
+++ b/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr-gfx10.mir
@@ -138,7 +138,8 @@ body:             |
 ---
 # GCN-LABEL: {{^}}name: vop2_instructions
 
-# GFX1010: %{{[0-9]+}}:vgpr_32 = V_AND_B32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 5, 0, 6, 5, implicit $exec
+# GFX1010: %{{[0-9]+}}:vgpr_32 = V_AND_B32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 6, 0, 6, 5, implicit $exec
+# GFX1010: %{{[0-9]+}}:vgpr_32 = V_LSHLREV_B32_e64 16, %{{[0-9]+}}, implicit $exec
 # GFX1010: %{{[0-9]+}}:vgpr_32 = V_ADD_F32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 0, 5, 0, 5, 1, implicit $mode, implicit $exec
 # GFX1010: %{{[0-9]+}}:vgpr_32 = V_SUB_F16_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 0, 6, 0, 5, 1, implicit $mode, implicit $exec
 # GFX1010: %{{[0-9]+}}:vgpr_32 = V_FMAC_F32_e32 %{{[0-9]+}}, %{{[0-9]+}}, %{{[0-9]+}}, implicit $mode, implicit $exec
diff --git a/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr.mir b/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr.mir
index e2854df2468b3..c027600a8af67 100644
--- a/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr.mir
+++ b/llvm/test/CodeGen/AMDGPU/sdwa-peephole-instr.mir
@@ -147,14 +147,15 @@ body:             |
 ---
 # GCN-LABEL: {{^}}name: vop2_instructions
 
-
-# VI: %{{[0-9]+}}:vgpr_32 = V_AND_B32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 5, 0, 6, 5, implicit $exec
+# VI: %{{[0-9]+}}:vgpr_32 = V_AND_B32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 6, 0, 6, 5, implicit $exec
+# VI: %{{[0-9]+}}:vgpr_32 = V_LSHLREV_B32_e64 16, %{{[0-9]+}}, implicit $exec
 # VI: %{{[0-9]+}}:vgpr_32 = V_ADD_F32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 0, 5, 0, 5, 1, implicit $mode, implicit $exec
 # VI: %{{[0-9]+}}:vgpr_32 = V_SUB_F16_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 0, 6, 0, 5, 1, implicit $mode, implicit $exec
 # VI: %{{[0-9]+}}:vgpr_32 = V_MAC_F32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, %{{[0-9]+}}, 0, 0, 6, 0, 6, 1, implicit $mode, implicit $exec
 # VI: %{{[0-9]+}}:vgpr_32 = V_MAC_F16_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, %{{[0-9]+}}, 0, 0, 6, 0, 5, 1, implicit $mode, implicit $exec
 
-# GFX9: %{{[0-9]+}}:vgpr_32 = V_AND_B32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 5, 0, 6, 5, implicit $exec
+# GFX9: %{{[0-9]+}}:vgpr_32 = V_AND_B32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 6, 0, 6, 5, implicit $exec
+# GFX9: %{{[0-9]+}}:vgpr_32 = V_LSHLREV_B32_e64 16, %{{[0-9]+}}, implicit $exec
 # GFX9: %{{[0-9]+}}:vgpr_32 = V_ADD_F32_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 0, 5, 0, 5, 1, implicit $mode, implicit $exec
 # GFX9: %{{[0-9]+}}:vgpr_32 = V_SUB_F16_sdwa 0, %{{[0-9]+}}, 0, %{{[0-9]+}}, 0, 0, 6, 0, 5, 1, implicit $mode, implicit $exec
 # GFX9: %{{[0-9]+}}:vgpr_32 = V_MAC_F32_e32 %{{[0-9]+}}, %{{[0-9]+}}, %{{[0-9]+}}, implicit $mode, implicit $exec
diff --git a/llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll b/llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll
index 04a824a073a7e..459ef648fd806 100644
--- a/llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll
+++ b/llvm/test/CodeGen/AMDGPU/sdwa-peephole.ll
@@ -873,20 +873,20 @@ define amdgpu_kernel void @mul_v8half(ptr addrspace(1) %out, ptr addrspace(1) %i
 ; NOSDWA-NEXT:    v_lshrrev_b32_e32 v13, 16, v5
 ; NOSDWA-NEXT:    v_mul_f16_e32 v1, v5, v1
 ; NOSDWA-NEXT:    v_lshrrev_b32_e32 v5, 16, v0
-; NOSDWA-NEXT:    v_lshrrev_b32_e32 v14, 16, v4
 ; NOSDWA-NEXT:    v_mul_f16_e32 v0, v4, v0
-; NOSDWA-NEXT:    v_mul_f16_e32 v4, v11, v10
+; NOSDWA-NEXT:    v_lshrrev_b32_e32 v4, 16, v4
+; NOSDWA-NEXT:    v_mul_f16_e32 v10, v11, v10
 ; NOSDWA-NEXT:    v_mul_f16_e32 v7, v12, v7
 ; NOSDWA-NEXT:    v_mul_f16_e32 v6, v13, v6
-; NOSDWA-NEXT:    v_mul_f16_e32 v5, v14, v5
-; NOSDWA-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
+; NOSDWA-NEXT:    v_mul_f16_e32 v4, v4, v5
+; NOSDWA-NEXT:    v_lshlrev_b32_e32 v5, 16, v10
 ; NOSDWA-NEXT:    v_lshlrev_b32_e32 v7, 16, v7
 ; NOSDWA-NEXT:    v_lshlrev_b32_e32 v6, 16, v6
-; NOSDWA-NEXT:    v_lshlrev_b32_e32 v5, 16, v5
-; NOSDWA-NEXT:    v_or_b32_e32 v3, v3, v4
+; NOSDWA-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
+; NOSDWA-NEXT:    v_or_b32_e32 v3, v3, v5
 ; NOSDWA-NEXT:    v_or_b32_e32 v2, v2, v7
 ; NOSDWA-NEXT:    v_or_b32_e32 v1, v1, v6
-; NOSDWA-NEXT:    v_or_b32_e32 v0, v0, v5
+; NOSDWA-NEXT:    v_or_b32_e32 v0, v0, v4
 ; NOSDWA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
 ; NOSDWA-NEXT:    s_endpgm
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/sdwa-preserve.mir b/llvm/test/CodeGen/AMDGPU/sdwa-preserve.mir
index ffbd2d092b5d8..467bc77c18577 100644
--- a/llvm/test/CodeGen/AMDGPU/sdwa-preserve.mir
+++ b/llvm/test/CodeGen/AMDGPU/sdwa-preserve.mir
@@ -37,9 +37,10 @@ body:             |
     ; SDWA-NEXT: [[V_LSHRREV_B32_e64_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B32_e64 16, [[FLAT_LOAD_DWORD1]], implicit $exec
     ; SDWA-NEXT: [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[FLAT_LOAD_DWORD]], 8, 8, implicit $exec
     ; SDWA-NEXT: [[V_LSHRREV_B32_e32_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B32_e32 24, [[FLAT_LOAD_DWORD1]], implicit $exec
+    ; SDWA-NEXT: [[V_ADD_F16_sdwa:%[0-9]+]]:vgpr_32 = V_ADD_F16_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 1, 0, 4, 5, implicit $mode, implicit $exec
     ; SDWA-NEXT: [[V_MUL_F32_sdwa:%[0-9]+]]:vgpr_32 = V_MUL_F32_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 5, 0, 1, 3, implicit $mode, implicit $exec
-    ; SDWA-NEXT: [[V_ADD_F16_sdwa:%[0-9]+]]:vgpr_32 = V_ADD_F16_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 1, 2, 4, 5, implicit $mode, implicit $exec, implicit [[V_MUL_F32_sdwa]](tied-def 0)
-    ; SDWA-NEXT: FLAT_STORE_DWORD [[COPY2]], [[V_ADD_F16_sdwa]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
+    ; SDWA-NEXT: [[V_OR_B32_e64_:%[0-9]+]]:vgpr_32 = V_OR_B32_e64 [[V_ADD_F16_sdwa]], [[V_MUL_F32_sdwa]], implicit $exec
+    ; SDWA-NEXT: FLAT_STORE_DWORD [[COPY2]], [[V_OR_B32_e64_]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
     ; SDWA-NEXT: $sgpr30_sgpr31 = COPY [[COPY]]
     ; SDWA-NEXT: S_SETPC_B64_return $sgpr30_sgpr31
     %2 = COPY $sgpr30_sgpr31
@@ -145,7 +146,7 @@ body:             |
     ; SDWA-NEXT: [[V_LSHRREV_B16_e64_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B16_e64 8, [[FLAT_LOAD_DWORD]], implicit $exec
     ; SDWA-NEXT: [[S_MOV_B32_:%[0-9]+]]:sreg_32_xm0 = S_MOV_B32 65535
     ; SDWA-NEXT: [[V_AND_B32_e64_:%[0-9]+]]:vgpr_32 = V_AND_B32_e64 [[FLAT_LOAD_DWORD]], killed [[S_MOV_B32_]], implicit $exec
-    ; SDWA-NEXT: [[V_MOV_B32_sdwa:%[0-9]+]]:vgpr_32 = V_MOV_B32_sdwa 0, [[FLAT_LOAD_DWORD1]], 0, 5, 2, 4, implicit $exec, implicit [[FLAT_LOAD_DWORD]](tied-def 0)
+    ; SDWA-NEXT: [[V_MOV_B32_sdwa:%[0-9]+]]:vgpr_32 = V_MOV_B32_sdwa 0, [[FLAT_LOAD_DWORD1]], 0, 5, 2, 4, implicit $exec, implicit [[V_AND_B32_e64_]](tied-def 0)
     ; SDWA-NEXT: FLAT_STORE_DWORD [[COPY2]], [[V_MOV_B32_sdwa]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
     ; SDWA-NEXT: S_ENDPGM 0
     %2 = COPY $sgpr30_sgpr31
@@ -180,15 +181,17 @@ body:             |
   ; SDWA-NEXT:   [[V_LSHRREV_B32_e64_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B32_e64 16, [[FLAT_LOAD_DWORD1]], implicit $exec
   ; SDWA-NEXT:   [[V_BFE_U32_e64_:%[0-9]+]]:vgpr_32 = V_BFE_U32_e64 [[FLAT_LOAD_DWORD]], 8, 8, implicit $exec
   ; SDWA-NEXT:   [[V_LSHRREV_B32_e32_:%[0-9]+]]:vgpr_32 = V_LSHRREV_B32_e32 24, [[FLAT_LOAD_DWORD1]], implicit $exec
+  ; SDWA-NEXT:   [[V_ADD_F16_sdwa:%[0-9]+]]:vgpr_32 = V_ADD_F16_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 1, 0, 4, 5, implicit $mode, implicit $exec
   ; SDWA-NEXT: {{  $}}
   ; SDWA-NEXT: bb.1:
   ; SDWA-NEXT:   successors: %bb.2(0x80000000)
   ; SDWA-NEXT: {{  $}}
-  ; SDWA-NEXT:   [[V_MUL_F32_sdwa:%[0-9]+]]:vgpr_32 = V_MUL_F32_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 5, 0, 1, 3, implicit $mode, implicit $exec
+  ; SDWA-NEXT:   [[V_MUL_F32_sdwa:%[0-9]+]]:vgpr_32 = V_MUL_F32_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 6, 0, 1, 3, implicit $mode, implicit $exec
+  ; SDWA-NEXT:   [[V_LSHLREV_B32_e64_:%[0-9]+]]:vgpr_32 = V_LSHLREV_B32_e64 16, [[V_MUL_F32_sdwa]], implicit $exec
   ; SDWA-NEXT: {{  $}}
   ; SDWA-NEXT: bb.2:
-  ; SDWA-NEXT:   [[V_ADD_F16_sdwa:%[0-9]+]]:vgpr_32 = V_ADD_F16_sdwa 0, [[FLAT_LOAD_DWORD]], 0, [[FLAT_LOAD_DWORD1]], 0, 0, 1, 2, 4, 5, implicit $mode, implicit $exec, implicit [[V_MUL_F32_sdwa]](tied-def 0)
-  ; SDWA-NEXT:   FLAT_STORE_DWORD [[COPY2]], [[V_ADD_F16_sdwa]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
+  ; SDWA-NEXT:   [[V_OR_B32_e64_:%[0-9]+]]:vgpr_32 = V_OR_B32_e64 [[V_ADD_F16_sdwa]], [[V_LSHLREV_B32_e64_]], implicit $exec
+  ; SDWA-NEXT:   FLAT_STORE_DWORD [[COPY2]], [[V_OR_B32_e64_]], 0, 0, implicit $exec, implicit $flat_scr :: (store (s32))
   ; SDWA-NEXT:   $sgpr30_sgpr31 = COPY [[COPY]]
   ; SDWA-NEXT:   S_SETPC_B64_return $sgpr30_sgpr31
   bb.0:
diff --git a/llvm/test/CodeGen/AMDGPU/select.f16.ll b/llvm/test/CodeGen/AMDGPU/select.f16.ll
index 572026da79646..26a4a6743cffa 100644
--- a/llvm/test/CodeGen/AMDGPU/select.f16.ll
+++ b/llvm/test/CodeGen/AMDGPU/select.f16.ll
@@ -1508,52 +1508,52 @@ define <8 x half> @v_vselect_v8f16(<8 x half> %a, <8 x half> %b, <8 x i32> %cond
 ; SI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; SI-NEXT:    v_cvt_f16_f32_e32 v0, v0
 ; SI-NEXT:    v_cvt_f16_f32_e32 v8, v8
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
 ; SI-NEXT:    v_cvt_f16_f32_e32 v1, v1
-; SI-NEXT:    v_cvt_f16_f32_e32 v9, v9
+; SI-NEXT:    v_cvt_f32_f16_e32 v0, v0
+; SI-NEXT:    v_cvt_f32_f16_e32 v8, v8
 ; SI-NEXT:    v_cvt_f16_f32_e32 v2, v2
 ; SI-NEXT:    v_cvt_f16_f32_e32 v10, v10
+; SI-NEXT:    v_cvt_f32_f16_e32 v1, v1
+; SI-NEXT:    v_cndmask_b32_e32 v0, v8, v0, vcc
+; SI-NEXT:    v_cvt_f16_f32_e32 v8, v9
 ; SI-NEXT:    v_cvt_f16_f32_e32 v3, v3
 ; SI-NEXT:    v_cvt_f16_f32_e32 v11, v11
 ; SI-NEXT:    v_cvt_f16_f32_e32 v4, v4
-; SI-NEXT:    v_cvt_f16_f32_e32 v12, v12
-; SI-NEXT:    v_cvt_f32_f16_e32 v0, v0
 ; SI-NEXT:    v_cvt_f32_f16_e32 v8, v8
+; SI-NEXT:    v_cvt_f16_f32_e32 v12, v12
 ; SI-NEXT:    v_cvt_f16_f32_e32 v5, v5
 ; SI-NEXT:    v_cvt_f16_f32_e32 v13, v13
-; SI-NEXT:    v_cvt_f32_f16_e32 v1, v1
-; SI-NEXT:    v_cvt_f32_f16_e32 v9, v9
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v17
 ; SI-NEXT:    v_cvt_f16_f32_e32 v6, v6
-; SI-NEXT:    v_cvt_f16_f32_e32 v14, v14
+; SI-NEXT:    v_cvt_f16_f32_e32 v9, v14
 ; SI-NEXT:    v_cvt_f32_f16_e32 v2, v2
 ; SI-NEXT:    v_cvt_f32_f16_e32 v10, v10
+; SI-NEXT:    v_cndmask_b32_e32 v1, v8, v1, vcc
 ; SI-NEXT:    v_cvt_f16_f32_e32 v7, v7
-; SI-NEXT:    v_cvt_f16_f32_e32 v15, v15
+; SI-NEXT:    v_cvt_f16_f32_e32 v8, v15
 ; SI-NEXT:    v_cvt_f32_f16_e32 v3, v3
 ; SI-NEXT:    v_cvt_f32_f16_e32 v11, v11
-; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
 ; SI-NEXT:    v_cvt_f32_f16_e32 v4, v4
 ; SI-NEXT:    v_cvt_f32_f16_e32 v12, v12
-; SI-NEXT:    v_cndmask_b32_e32 v0, v8, v0, vcc
-; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v17
 ; SI-NEXT:    v_cvt_f32_f16_e32 v5, v5
 ; SI-NEXT:    v_cvt_f32_f16_e32 v13, v13
-; SI-NEXT:    v_cndmask_b32_e32 v1, v9, v1, vcc
 ; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v18
 ; SI-NEXT:    v_cvt_f32_f16_e32 v6, v6
-; SI-NEXT:    v_cvt_f32_f16_e32 v14, v14
+; SI-NEXT:    v_cvt_f32_f16_e32 v9, v9
 ; SI-NEXT:    v_cndmask_b32_e32 v2, v10, v2, vcc
 ; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v19
 ; SI-NEXT:    v_cvt_f32_f16_e32 v7, v7
-; SI-NEXT:    v_cvt_f32_f16_e32 v15, v15
+; SI-NEXT:    v_cvt_f32_f16_e32 v8, v8
 ; SI-NEXT:    v_cndmask_b32_e32 v3, v11, v3, vcc
 ; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v20
 ; SI-NEXT:    v_cndmask_b32_e32 v4, v12, v4, vcc
 ; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v21
 ; SI-NEXT:    v_cndmask_b32_e32 v5, v13, v5, vcc
 ; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v22
-; SI-NEXT:    v_cndmask_b32_e32 v6, v14, v6, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v6, v9, v6, vcc
 ; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v23
-; SI-NEXT:    v_cndmask_b32_e32 v7, v15, v7, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v7, v8, v7, vcc
 ; SI-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; VI-LABEL: v_vselect_v8f16:
@@ -1652,81 +1652,81 @@ define <16 x half> @v_select_v16f16(<16 x half> %a, <16 x half> %b, i32 %cond) {
 ; SI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
 ; SI-NEXT:    v_lshlrev_b32_e32 v13, 16, v13
 ; SI-NEXT:    v_or_b32_e32 v10, v10, v11
-; SI-NEXT:    buffer_load_dword v28, off, s[0:3], s32
-; SI-NEXT:    v_cvt_f16_f32_e32 v11, v27
+; SI-NEXT:    buffer_load_dword v11, off, s[0:3], s32
 ; SI-NEXT:    v_or_b32_e32 v13, v15, v13
-; SI-NEXT:    v_cvt_f16_f32_e32 v15, v26
-; SI-NEXT:    v_cvt_f16_f32_e32 v7, v7
-; SI-NEXT:    v_lshlrev_b32_e32 v11, 16, v11
-; SI-NEXT:    v_cvt_f16_f32_e32 v6, v6
-; SI-NEXT:    v_or_b32_e32 v11, v15, v11
-; SI-NEXT:    buffer_load_dword v15, off, s[0:3], s32 offset:4
+; SI-NEXT:    v_cvt_f16_f32_e32 v15, v27
+; SI-NEXT:    v_cvt_f16_f32_e32 v26, v26
 ; SI-NEXT:    v_cvt_f16_f32_e32 v3, v3
-; SI-NEXT:    v_lshlrev_b32_e32 v7, 16, v7
-; SI-NEXT:    v_cvt_f16_f32_e32 v1, v1
 ; SI-NEXT:    v_cvt_f16_f32_e32 v9, v9
-; SI-NEXT:    v_cvt_f16_f32_e32 v25, v25
-; SI-NEXT:    v_cvt_f16_f32_e32 v23, v23
+; SI-NEXT:    v_lshlrev_b32_e32 v15, 16, v15
+; SI-NEXT:    v_or_b32_e32 v15, v26, v15
+; SI-NEXT:    buffer_load_dword v26, off, s[0:3], s32 offset:4
+; SI-NEXT:    v_cvt_f16_f32_e32 v7, v7
 ; SI-NEXT:    v_cvt_f16_f32_e32 v5, v5
-; SI-NEXT:    v_cvt_f16_f32_e32 v21, v21
 ; SI-NEXT:    v_cvt_f16_f32_e32 v2, v2
-; SI-NEXT:    v_cvt_f16_f32_e32 v19, v19
+; SI-NEXT:    v_cvt_f16_f32_e32 v8, v8
+; SI-NEXT:    v_cvt_f16_f32_e32 v6, v6
+; SI-NEXT:    v_cvt_f16_f32_e32 v4, v4
+; SI-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; SI-NEXT:    v_lshlrev_b32_e32 v9, 16, v9
+; SI-NEXT:    v_lshlrev_b32_e32 v7, 16, v7
+; SI-NEXT:    v_lshlrev_b32_e32 v5, 16, v5
+; SI-NEXT:    v_or_b32_e32 v2, v2, v3
+; SI-NEXT:    v_cvt_f16_f32_e32 v1, v1
+; SI-NEXT:    v_or_b32_e32 v8, v8, v9
+; SI-NEXT:    v_cvt_f16_f32_e32 v9, v25
 ; SI-NEXT:    v_or_b32_e32 v6, v6, v7
+; SI-NEXT:    v_cvt_f16_f32_e32 v7, v23
+; SI-NEXT:    v_or_b32_e32 v4, v4, v5
+; SI-NEXT:    v_cvt_f16_f32_e32 v5, v21
+; SI-NEXT:    v_cvt_f16_f32_e32 v19, v19
 ; SI-NEXT:    v_cvt_f16_f32_e32 v0, v0
 ; SI-NEXT:    v_cvt_f16_f32_e32 v17, v17
-; SI-NEXT:    v_cvt_f16_f32_e32 v26, v30
-; SI-NEXT:    v_cvt_f16_f32_e32 v8, v8
 ; SI-NEXT:    v_cvt_f16_f32_e32 v24, v24
 ; SI-NEXT:    v_cvt_f16_f32_e32 v22, v22
-; SI-NEXT:    v_cvt_f16_f32_e32 v4, v4
 ; SI-NEXT:    v_cvt_f16_f32_e32 v20, v20
 ; SI-NEXT:    v_cvt_f16_f32_e32 v18, v18
 ; SI-NEXT:    v_cvt_f16_f32_e32 v16, v16
-; SI-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
 ; SI-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
 ; SI-NEXT:    v_lshlrev_b32_e32 v9, 16, v9
-; SI-NEXT:    v_lshlrev_b32_e32 v25, 16, v25
-; SI-NEXT:    v_lshlrev_b32_e32 v23, 16, v23
+; SI-NEXT:    v_lshlrev_b32_e32 v7, 16, v7
 ; SI-NEXT:    v_lshlrev_b32_e32 v5, 16, v5
-; SI-NEXT:    v_lshlrev_b32_e32 v21, 16, v21
-; SI-NEXT:    v_or_b32_e32 v2, v2, v3
-; SI-NEXT:    v_lshlrev_b32_e32 v3, 16, v19
 ; SI-NEXT:    v_or_b32_e32 v0, v0, v1
 ; SI-NEXT:    v_lshlrev_b32_e32 v1, 16, v17
-; SI-NEXT:    v_or_b32_e32 v8, v8, v9
-; SI-NEXT:    v_or_b32_e32 v9, v24, v25
-; SI-NEXT:    v_or_b32_e32 v22, v22, v23
-; SI-NEXT:    v_or_b32_e32 v4, v4, v5
-; SI-NEXT:    v_or_b32_e32 v5, v20, v21
-; SI-NEXT:    v_or_b32_e32 v3, v18, v3
+; SI-NEXT:    v_or_b32_e32 v9, v24, v9
+; SI-NEXT:    v_or_b32_e32 v7, v22, v7
+; SI-NEXT:    v_or_b32_e32 v5, v20, v5
 ; SI-NEXT:    v_or_b32_e32 v1, v16, v1
 ; SI-NEXT:    s_waitcnt vmcnt(1)
-; SI-NEXT:    v_cvt_f16_f32_e32 v7, v28
-; SI-NEXT:    v_lshlrev_b32_e32 v7, 16, v7
-; SI-NEXT:    v_or_b32_e32 v7, v26, v7
+; SI-NEXT:    v_cvt_f16_f32_e32 v3, v11
+; SI-NEXT:    v_cvt_f16_f32_e32 v11, v30
+; SI-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; SI-NEXT:    v_or_b32_e32 v3, v11, v3
+; SI-NEXT:    v_lshlrev_b32_e32 v11, 16, v19
+; SI-NEXT:    v_or_b32_e32 v11, v18, v11
 ; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v15
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v26
 ; SI-NEXT:    v_cndmask_b32_e32 v1, v1, v0, vcc
-; SI-NEXT:    v_cndmask_b32_e32 v3, v3, v2, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v11, v11, v2, vcc
 ; SI-NEXT:    v_cndmask_b32_e32 v5, v5, v4, vcc
-; SI-NEXT:    v_cndmask_b32_e32 v15, v22, v6, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v7, v7, v6, vcc
 ; SI-NEXT:    v_cndmask_b32_e32 v9, v9, v8, vcc
-; SI-NEXT:    v_cndmask_b32_e32 v11, v11, v10, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v15, v15, v10, vcc
 ; SI-NEXT:    v_cndmask_b32_e32 v13, v13, v12, vcc
-; SI-NEXT:    v_cndmask_b32_e32 v16, v7, v14, vcc
+; SI-NEXT:    v_cndmask_b32_e32 v16, v3, v14, vcc
 ; SI-NEXT:    v_cvt_f32_f16_e32 v0, v1
-; SI-NEXT:    v_cvt_f32_f16_e32 v2, v3
+; SI-NEXT:    v_cvt_f32_f16_e32 v2, v11
 ; SI-NEXT:    v_cvt_f32_f16_e32 v4, v5
-; SI-NEXT:    v_cvt_f32_f16_e32 v6, v15
+; SI-NEXT:    v_cvt_f32_f16_e32 v6, v7
 ; SI-NEXT:    v_cvt_f32_f16_e32 v8, v9
-; SI-NEXT:    v_cvt_f32_f16_e32 v10, v11
+; SI-NEXT:    v_cvt_f32_f16_e32 v10, v15
 ; SI-NEXT:    v_cvt_f32_f16_e32 v12, v13
 ; SI-NEXT:    v_lshrrev_b32_e32 v1, 16, v1
-; SI-NEXT:    v_lshrrev_b32_e32 v3, 16, v3
+; SI-NEXT:    v_lshrrev_b32_e32 v3, 16, v11
 ; SI-NEXT:    v_lshrrev_b32_e32 v5, 16, v5
-; SI-NEXT:    v_lshrrev_b32_e32 v7, 16, v15
+; SI-NEXT:    v_lshrrev_b32_e32 v7, 16, v7
 ; SI-NEXT:    v_lshrrev_b32_e32 v9, 16, v9
-; SI-NEXT:    v_lshrrev_b32_e32 v11, 16, v11
+; SI-NEXT:    v_lshrrev_b32_e32 v11, 16, v15
 ; SI-NEXT:    v_lshrrev_b32_e32 v13, 16, v13
 ; SI-NEXT:    v_lshrrev_b32_e32 v15, 16, v16
 ; SI-NEXT:    v_cvt_f32_f16_e32 v14, v16
@@ -1772,136 +1772,132 @@ define <16 x half> @v_vselect_v16f16(<16 x half> %a, <16 x half> %b, <16 x i32>
 ; SI-LABEL: v_vselect_v16f16:
 ; SI:       ; %bb.0:
 ; SI-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; SI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:28
-; SI-NEXT:    v_cvt_f16_f32_e32 v0, v0
+; SI-NEXT:    buffer_load_dword v36, off, s[0:3], s32 offset:4
 ; SI-NEXT:    v_cvt_f16_f32_e32 v16, v16
+; SI-NEXT:    v_cvt_f16_f32_e32 v0, v0
 ; SI-NEXT:    v_cvt_f16_f32_e32 v1, v1
-; SI-NEXT:    v_cvt_f16_f32_e32 v2, v2
+; SI-NEXT:    v_cvt_f16_f32_e32 v17, v17
+; SI-NEXT:    v_cvt_f32_f16_e32 v37, v16
+; SI-NEXT:    buffer_load_dword v38, off, s[0:3], s32 offset:8
+; SI-NEXT:    buffer_load_dword v35, off, s[0:3], s32 offset:12
+; SI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:16
+; SI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:20
+; SI-NEXT:    buffer_load_dword v34, off, s[0:3], s32 offset:24
+; SI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:28
+; SI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:32
 ; SI-NEXT:    v_cvt_f32_f16_e32 v0, v0
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
 ; SI-NEXT:    v_cvt_f32_f16_e32 v1, v1
-; SI-NEXT:    v_cvt_f32_f16_e32 v2, v2
+; SI-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; SI-NEXT:    v_cvt_f16_f32_e32 v2, v2
 ; SI-NEXT:    v_cvt_f16_f32_e32 v3, v3
 ; SI-NEXT:    v_cvt_f16_f32_e32 v4, v4
 ; SI-NEXT:    v_cvt_f16_f32_e32 v5, v5
-; SI-NEXT:    v_cvt_f16_f32_e32 v6, v6
+; SI-NEXT:    v_cvt_f32_f16_e32 v2, v2
 ; SI-NEXT:    v_cvt_f32_f16_e32 v3, v3
 ; SI-NEXT:    v_cvt_f32_f16_e32 v4, v4
+; SI-NEXT:    v_cvt_f16_f32_e32 v6, v6
 ; SI-NEXT:    v_cvt_f32_f16_e32 v5, v5
-; SI-NEXT:    v_cvt_f32_f16_e32 v6, v6
 ; SI-NEXT:    v_cvt_f16_f32_e32 v7, v7
 ; SI-NEXT:    v_cvt_f16_f32_e32 v8, v8
+; SI-NEXT:    v_cvt_f32_f16_e32 v6, v6
 ; SI-NEXT:    v_cvt_f16_f32_e32 v9, v9
-; SI-NEXT:    v_cvt_f16_f32_e32 v10, v10
 ; SI-NEXT:    v_cvt_f32_f16_e32 v7, v7
 ; SI-NEXT:    v_cvt_f32_f16_e32 v8, v8
+; SI-NEXT:    v_cvt_f16_f32_e32 v10, v10
 ; SI-NEXT:    v_cvt_f32_f16_e32 v9, v9
-; SI-NEXT:    v_cvt_f32_f16_e32 v10, v10
 ; SI-NEXT:    v_cvt_f16_f32_e32 v11, v11
 ; SI-NEXT:    v_cvt_f16_f32_e32 v12, v12
+; SI-NEXT:    v_cvt_f32_f16_e32 v10, v10
 ; SI-NEXT:    v_cvt_f16_f32_e32 v13, v13
-; SI-NEXT:    v_cvt_f16_f32_e32 v14, v14
 ; SI-NEXT:    v_cvt_f32_f16_e32 v11, v11
 ; SI-NEXT:    v_cvt_f32_f16_e32 v12, v12
+; SI-NEXT:    v_cvt_f16_f32_e32 v14, v14
 ; SI-NEXT:    v_cvt_f16_f32_e32 v15, v15
 ; SI-NEXT:    v_cvt_f32_f16_e32 v13, v13
 ; SI-NEXT:    v_cvt_f32_f16_e32 v14, v14
 ; SI-NEXT:    v_cvt_f32_f16_e32 v15, v15
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v31
-; SI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:24
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v31
-; SI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e64 s[6:7], 0, v31
-; SI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:8
-; SI-NEXT:    v_cndmask_b32_e64 v0, v16, v0, s[6:7]
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v17
-; SI-NEXT:    v_cvt_f16_f32_e32 v17, v27
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
+; SI-NEXT:    s_waitcnt vmcnt(7)
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v36
+; SI-NEXT:    v_cndmask_b32_e32 v0, v37, v0, vcc
+; SI-NEXT:    s_waitcnt vmcnt(6)
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v38
+; SI-NEXT:    v_cndmask_b32_e32 v1, v17, v1, vcc
+; SI-NEXT:    v_cvt_f16_f32_e32 v17, v18
+; SI-NEXT:    s_waitcnt vmcnt(5)
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v35
+; SI-NEXT:    v_cvt_f16_f32_e32 v18, v20
+; SI-NEXT:    buffer_load_dword v20, off, s[0:3], s32 offset:48
 ; SI-NEXT:    v_cvt_f32_f16_e32 v17, v17
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e64 s[8:9], 0, v31
-; SI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:12
-; SI-NEXT:    v_cndmask_b32_e64 v1, v16, v1, s[8:9]
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v18
-; SI-NEXT:    v_cvt_f16_f32_e32 v18, v28
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
 ; SI-NEXT:    v_cvt_f32_f16_e32 v18, v18
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e64 s[10:11], 0, v31
-; SI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:16
-; SI-NEXT:    v_cndmask_b32_e64 v2, v16, v2, s[10:11]
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v19
-; SI-NEXT:    v_cvt_f16_f32_e32 v19, v29
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; SI-NEXT:    v_cvt_f32_f16_e32 v19, v19
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e64 s[12:13], 0, v31
-; SI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:20
-; SI-NEXT:    v_cndmask_b32_e64 v3, v16, v3, s[12:13]
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v20
-; SI-NEXT:    v_cvt_f16_f32_e32 v20, v30
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; SI-NEXT:    v_cvt_f32_f16_e32 v20, v20
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e64 s[14:15], 0, v31
-; SI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:32
-; SI-NEXT:    v_cndmask_b32_e64 v4, v16, v4, s[14:15]
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v21
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; SI-NEXT:    v_cndmask_b32_e64 v5, v16, v5, s[4:5]
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v22
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; SI-NEXT:    v_cndmask_b32_e32 v6, v16, v6, vcc
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v23
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e64 s[16:17], 0, v31
-; SI-NEXT:    v_cndmask_b32_e64 v7, v16, v7, s[16:17]
-; SI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:36
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v24
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; SI-NEXT:    v_cndmask_b32_e32 v8, v16, v8, vcc
-; SI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:40
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v25
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; SI-NEXT:    v_cndmask_b32_e32 v9, v16, v9, vcc
-; SI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:44
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v26
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; SI-NEXT:    v_cndmask_b32_e32 v10, v16, v10, vcc
-; SI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:48
-; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
-; SI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:52
-; SI-NEXT:    v_cndmask_b32_e32 v11, v17, v11, vcc
-; SI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:56
-; SI-NEXT:    s_waitcnt vmcnt(1)
+; SI-NEXT:    v_cndmask_b32_e32 v2, v17, v2, vcc
+; SI-NEXT:    v_cvt_f16_f32_e32 v17, v19
+; SI-NEXT:    s_waitcnt vmcnt(5)
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v32
+; SI-NEXT:    buffer_load_dword v32, off, s[0:3], s32 offset:36
+; SI-NEXT:    buffer_load_dword v19, off, s[0:3], s32 offset:44
+; SI-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; SI-NEXT:    v_cndmask_b32_e32 v3, v17, v3, vcc
+; SI-NEXT:    s_waitcnt vmcnt(6)
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v33
+; SI-NEXT:    buffer_load_dword v33, off, s[0:3], s32 offset:40
+; SI-NEXT:    v_cvt_f16_f32_e32 v17, v21
+; SI-NEXT:    v_cndmask_b32_e32 v4, v18, v4, vcc
+; SI-NEXT:    v_cvt_f16_f32_e32 v18, v22
+; SI-NEXT:    s_waitcnt vmcnt(6)
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v34
+; SI-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; SI-NEXT:    v_cvt_f16_f32_e32 v22, v23
+; SI-NEXT:    v_cvt_f32_f16_e32 v21, v18
+; SI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:56
+; SI-NEXT:    v_cndmask_b32_e32 v5, v17, v5, vcc
+; SI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:52
+; SI-NEXT:    s_waitcnt vmcnt(7)
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v31
+; SI-NEXT:    v_cndmask_b32_e32 v6, v21, v6, vcc
+; SI-NEXT:    s_waitcnt vmcnt(6)
 ; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
-; SI-NEXT:    v_cndmask_b32_e32 v12, v18, v12, vcc
-; SI-NEXT:    buffer_load_dword v18, off, s[0:3], s32 offset:60
-; SI-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; SI-NEXT:    s_waitcnt vmcnt(2)
+; SI-NEXT:    buffer_load_dword v16, off, s[0:3], s32 offset:60
+; SI-NEXT:    buffer_load_dword v21, off, s[0:3], s32
+; SI-NEXT:    v_cvt_f32_f16_e32 v22, v22
+; SI-NEXT:    v_cvt_f16_f32_e32 v23, v24
+; SI-NEXT:    v_cvt_f16_f32_e32 v24, v25
+; SI-NEXT:    v_cndmask_b32_e32 v7, v22, v7, vcc
+; SI-NEXT:    buffer_load_dword v22, off, s[0:3], s32 offset:64
+; SI-NEXT:    v_cvt_f32_f16_e32 v23, v23
+; SI-NEXT:    v_cvt_f32_f16_e32 v24, v24
+; SI-NEXT:    s_waitcnt vmcnt(7)
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v32
+; SI-NEXT:    v_cndmask_b32_e32 v8, v23, v8, vcc
+; SI-NEXT:    v_cvt_f16_f32_e32 v23, v26
+; SI-NEXT:    v_cvt_f32_f16_e32 v23, v23
+; SI-NEXT:    s_waitcnt vmcnt(5)
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v33
+; SI-NEXT:    v_cndmask_b32_e32 v9, v24, v9, vcc
+; SI-NEXT:    v_cvt_f16_f32_e32 v24, v27
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v19
+; SI-NEXT:    v_cvt_f16_f32_e32 v19, v28
+; SI-NEXT:    v_cndmask_b32_e32 v10, v23, v10, vcc
+; SI-NEXT:    v_cvt_f32_f16_e32 v24, v24
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v20
+; SI-NEXT:    v_cvt_f32_f16_e32 v19, v19
+; SI-NEXT:    v_cvt_f16_f32_e32 v20, v29
+; SI-NEXT:    v_cndmask_b32_e32 v11, v24, v11, vcc
+; SI-NEXT:    s_waitcnt vmcnt(3)
 ; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v17
-; SI-NEXT:    buffer_load_dword v17, off, s[0:3], s32 offset:64
-; SI-NEXT:    v_cndmask_b32_e32 v13, v19, v13, vcc
-; SI-NEXT:    s_waitcnt vmcnt(2)
+; SI-NEXT:    v_cvt_f16_f32_e32 v17, v30
+; SI-NEXT:    v_cndmask_b32_e32 v12, v19, v12, vcc
 ; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v18
 ; SI-NEXT:    s_waitcnt vmcnt(1)
-; SI-NEXT:    v_cvt_f16_f32_e32 v16, v16
-; SI-NEXT:    v_cndmask_b32_e32 v14, v20, v14, vcc
+; SI-NEXT:    v_cvt_f16_f32_e32 v18, v21
+; SI-NEXT:    v_cvt_f32_f16_e32 v20, v20
+; SI-NEXT:    v_cvt_f32_f16_e32 v17, v17
+; SI-NEXT:    v_cvt_f32_f16_e32 v18, v18
+; SI-NEXT:    v_cndmask_b32_e32 v13, v20, v13, vcc
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
+; SI-NEXT:    v_cndmask_b32_e32 v14, v17, v14, vcc
 ; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v17
-; SI-NEXT:    v_cvt_f32_f16_e32 v16, v16
-; SI-NEXT:    v_cndmask_b32_e32 v15, v16, v15, vcc
+; SI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v22
+; SI-NEXT:    v_cndmask_b32_e32 v15, v18, v15, vcc
 ; SI-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; VI-LABEL: v_vselect_v16f16:
@@ -1912,25 +1908,22 @@ define <16 x half> @v_vselect_v16f16(<16 x half> %a, <16 x half> %b, <16 x i32>
 ; VI-NEXT:    s_mov_b64 exec, s[4:5]
 ; VI-NEXT:    v_writelane_b32 v31, s30, 0
 ; VI-NEXT:    v_writelane_b32 v31, s31, 1
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v16
+; VI-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v16
 ; VI-NEXT:    v_cmp_eq_u32_e64 s[18:19], 0, v17
 ; VI-NEXT:    v_cmp_eq_u32_e64 s[30:31], 0, v29
 ; VI-NEXT:    v_lshrrev_b32_e32 v16, 16, v6
 ; VI-NEXT:    v_lshrrev_b32_e32 v17, 16, v14
-; VI-NEXT:    v_cmp_eq_u32_e64 s[4:5], 0, v18
-; VI-NEXT:    v_cmp_eq_u32_e64 s[10:11], 0, v24
+; VI-NEXT:    v_cmp_eq_u32_e64 s[6:7], 0, v18
 ; VI-NEXT:    v_cmp_eq_u32_e64 s[28:29], 0, v27
 ; VI-NEXT:    v_cndmask_b32_e64 v16, v17, v16, s[30:31]
 ; VI-NEXT:    v_lshrrev_b32_e32 v17, 16, v5
 ; VI-NEXT:    v_lshrrev_b32_e32 v18, 16, v13
 ; VI-NEXT:    v_cmp_eq_u32_e64 s[20:21], 0, v19
+; VI-NEXT:    v_cmp_eq_u32_e64 s[26:27], 0, v25
 ; VI-NEXT:    v_cndmask_b32_e64 v17, v18, v17, s[28:29]
 ; VI-NEXT:    v_lshrrev_b32_e32 v18, 16, v4
 ; VI-NEXT:    v_lshrrev_b32_e32 v19, 16, v12
-; VI-NEXT:    v_cndmask_b32_e64 v4, v12, v4, s[10:11]
-; VI-NEXT:    buffer_load_dword v12, off, s[0:3], s32
-; VI-NEXT:    v_cmp_eq_u32_e64 s[26:27], 0, v25
-; VI-NEXT:    v_cmp_eq_u32_e64 s[6:7], 0, v20
+; VI-NEXT:    v_cmp_eq_u32_e64 s[8:9], 0, v20
 ; VI-NEXT:    v_cmp_eq_u32_e64 s[24:25], 0, v23
 ; VI-NEXT:    v_cndmask_b32_e64 v18, v19, v18, s[26:27]
 ; VI-NEXT:    v_lshrrev_b32_e32 v19, 16, v3
@@ -1939,46 +1932,49 @@ define <16 x half> @v_vselect_v16f16(<16 x half> %a, <16 x half> %b, <16 x i32>
 ; VI-NEXT:    v_cndmask_b32_e64 v19, v20, v19, s[24:25]
 ; VI-NEXT:    v_lshrrev_b32_e32 v20, 16, v2
 ; VI-NEXT:    v_lshrrev_b32_e32 v21, 16, v10
-; VI-NEXT:    v_cmp_eq_u32_e64 s[8:9], 0, v22
+; VI-NEXT:    v_cmp_eq_u32_e64 s[10:11], 0, v22
 ; VI-NEXT:    v_cndmask_b32_e64 v20, v21, v20, s[22:23]
 ; VI-NEXT:    v_lshrrev_b32_e32 v21, 16, v1
 ; VI-NEXT:    v_lshrrev_b32_e32 v22, 16, v9
 ; VI-NEXT:    v_cndmask_b32_e64 v21, v22, v21, s[20:21]
-; VI-NEXT:    v_cndmask_b32_e64 v1, v9, v1, s[4:5]
-; VI-NEXT:    v_lshlrev_b32_e32 v9, 16, v21
 ; VI-NEXT:    v_lshrrev_b32_e32 v22, 16, v0
 ; VI-NEXT:    v_lshrrev_b32_e32 v23, 16, v8
-; VI-NEXT:    v_cndmask_b32_e64 v2, v10, v2, s[6:7]
+; VI-NEXT:    v_cndmask_b32_e64 v0, v8, v0, s[4:5]
+; VI-NEXT:    buffer_load_dword v8, off, s[0:3], s32
+; VI-NEXT:    v_cndmask_b32_e64 v22, v23, v22, s[18:19]
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v30
+; VI-NEXT:    v_cndmask_b32_e64 v1, v9, v1, s[6:7]
+; VI-NEXT:    v_lshlrev_b32_e32 v9, 16, v22
+; VI-NEXT:    v_cndmask_b32_e64 v2, v10, v2, s[8:9]
+; VI-NEXT:    v_or_b32_sdwa v0, v0, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
+; VI-NEXT:    v_lshrrev_b32_e32 v9, 16, v7
+; VI-NEXT:    v_cndmask_b32_e32 v7, v15, v7, vcc
+; VI-NEXT:    v_lshrrev_b32_e32 v10, 16, v15
+; VI-NEXT:    v_cmp_eq_u32_e64 s[12:13], 0, v24
+; VI-NEXT:    v_cndmask_b32_e64 v3, v11, v3, s[10:11]
+; VI-NEXT:    v_cmp_eq_u32_e64 s[14:15], 0, v26
+; VI-NEXT:    v_cndmask_b32_e64 v4, v12, v4, s[12:13]
+; VI-NEXT:    v_cmp_eq_u32_e64 s[16:17], 0, v28
+; VI-NEXT:    v_cndmask_b32_e64 v5, v13, v5, s[14:15]
+; VI-NEXT:    v_cndmask_b32_e64 v6, v14, v6, s[16:17]
+; VI-NEXT:    v_readlane_b32 s31, v31, 1
+; VI-NEXT:    v_readlane_b32 s30, v31, 0
+; VI-NEXT:    s_waitcnt vmcnt(0)
+; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v8
+; VI-NEXT:    v_cndmask_b32_e32 v8, v10, v9, vcc
+; VI-NEXT:    v_lshlrev_b32_e32 v9, 16, v21
 ; VI-NEXT:    v_or_b32_sdwa v1, v1, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    v_lshlrev_b32_e32 v9, 16, v20
-; VI-NEXT:    v_cmp_eq_u32_e64 s[12:13], 0, v26
-; VI-NEXT:    v_cndmask_b32_e64 v22, v23, v22, s[18:19]
-; VI-NEXT:    v_cndmask_b32_e64 v3, v11, v3, s[8:9]
 ; VI-NEXT:    v_or_b32_sdwa v2, v2, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    v_lshlrev_b32_e32 v9, 16, v19
-; VI-NEXT:    v_cndmask_b32_e64 v5, v13, v5, s[12:13]
-; VI-NEXT:    v_lshrrev_b32_e32 v11, 16, v7
-; VI-NEXT:    v_lshrrev_b32_e32 v13, 16, v15
-; VI-NEXT:    v_cndmask_b32_e32 v0, v8, v0, vcc
-; VI-NEXT:    v_lshlrev_b32_e32 v8, 16, v22
 ; VI-NEXT:    v_or_b32_sdwa v3, v3, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    v_lshlrev_b32_e32 v9, 16, v18
-; VI-NEXT:    v_cmp_eq_u32_e64 s[14:15], 0, v28
-; VI-NEXT:    v_cmp_eq_u32_e64 s[16:17], 0, v30
-; VI-NEXT:    v_or_b32_sdwa v0, v0, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    v_or_b32_sdwa v4, v4, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    v_lshlrev_b32_e32 v9, 16, v17
-; VI-NEXT:    v_cndmask_b32_e64 v6, v14, v6, s[14:15]
-; VI-NEXT:    v_cndmask_b32_e64 v7, v15, v7, s[16:17]
 ; VI-NEXT:    v_or_b32_sdwa v5, v5, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    v_lshlrev_b32_e32 v9, 16, v16
-; VI-NEXT:    v_or_b32_sdwa v6, v6, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
-; VI-NEXT:    v_readlane_b32 s31, v31, 1
-; VI-NEXT:    v_readlane_b32 s30, v31, 0
-; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    v_cmp_eq_u32_e32 vcc, 0, v12
-; VI-NEXT:    v_cndmask_b32_e32 v8, v13, v11, vcc
 ; VI-NEXT:    v_lshlrev_b32_e32 v8, 16, v8
+; VI-NEXT:    v_or_b32_sdwa v6, v6, v9 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    v_or_b32_sdwa v7, v7, v8 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
 ; VI-NEXT:    s_xor_saveexec_b64 s[4:5], -1
 ; VI-NEXT:    buffer_load_dword v31, off, s[0:3], s32 offset:4 ; 4-byte Folded Reload
diff --git a/llvm/test/CodeGen/AMDGPU/shift-i128.ll b/llvm/test/CodeGen/AMDGPU/shift-i128.ll
index fc6ad39db5b89..a423b6f831a9d 100644
--- a/llvm/test/CodeGen/AMDGPU/shift-i128.ll
+++ b/llvm/test/CodeGen/AMDGPU/shift-i128.ll
@@ -286,18 +286,18 @@ define <2 x i128> @v_shl_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GCN-NEXT:    v_lshr_b64 v[16:17], v[0:1], v16
 ; GCN-NEXT:    v_lshl_b64 v[18:19], v[2:3], v8
 ; GCN-NEXT:    v_cmp_gt_u64_e32 vcc, 64, v[8:9]
-; GCN-NEXT:    v_or_b32_e32 v18, v18, v16
 ; GCN-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[10:11]
-; GCN-NEXT:    v_subrev_i32_e64 v16, s[6:7], 64, v8
-; GCN-NEXT:    v_or_b32_e32 v19, v19, v17
-; GCN-NEXT:    v_lshl_b64 v[16:17], v[0:1], v16
 ; GCN-NEXT:    v_or_b32_e32 v11, v9, v11
+; GCN-NEXT:    v_subrev_i32_e64 v9, s[6:7], 64, v8
+; GCN-NEXT:    v_or_b32_e32 v19, v19, v17
+; GCN-NEXT:    v_or_b32_e32 v18, v18, v16
 ; GCN-NEXT:    v_or_b32_e32 v10, v8, v10
+; GCN-NEXT:    v_lshl_b64 v[16:17], v[0:1], v9
 ; GCN-NEXT:    s_and_b64 vcc, s[4:5], vcc
 ; GCN-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[10:11]
-; GCN-NEXT:    v_cndmask_b32_e32 v16, v16, v18, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v9, v16, v18, vcc
+; GCN-NEXT:    v_cndmask_b32_e64 v2, v9, v2, s[4:5]
 ; GCN-NEXT:    v_sub_i32_e64 v9, s[6:7], 64, v12
-; GCN-NEXT:    v_cndmask_b32_e64 v2, v16, v2, s[4:5]
 ; GCN-NEXT:    v_cndmask_b32_e32 v11, v17, v19, vcc
 ; GCN-NEXT:    v_lshr_b64 v[9:10], v[4:5], v9
 ; GCN-NEXT:    v_lshl_b64 v[16:17], v[6:7], v12
@@ -335,18 +335,18 @@ define <2 x i128> @v_lshr_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GCN-NEXT:    v_lshl_b64 v[16:17], v[2:3], v16
 ; GCN-NEXT:    v_lshr_b64 v[18:19], v[0:1], v8
 ; GCN-NEXT:    v_cmp_gt_u64_e32 vcc, 64, v[8:9]
-; GCN-NEXT:    v_or_b32_e32 v18, v18, v16
 ; GCN-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[10:11]
-; GCN-NEXT:    v_subrev_i32_e64 v16, s[6:7], 64, v8
-; GCN-NEXT:    v_or_b32_e32 v19, v19, v17
-; GCN-NEXT:    v_lshr_b64 v[16:17], v[2:3], v16
 ; GCN-NEXT:    v_or_b32_e32 v11, v9, v11
+; GCN-NEXT:    v_subrev_i32_e64 v9, s[6:7], 64, v8
+; GCN-NEXT:    v_or_b32_e32 v19, v19, v17
+; GCN-NEXT:    v_or_b32_e32 v18, v18, v16
 ; GCN-NEXT:    v_or_b32_e32 v10, v8, v10
+; GCN-NEXT:    v_lshr_b64 v[16:17], v[2:3], v9
 ; GCN-NEXT:    s_and_b64 vcc, s[4:5], vcc
 ; GCN-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[10:11]
-; GCN-NEXT:    v_cndmask_b32_e32 v16, v16, v18, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v9, v16, v18, vcc
+; GCN-NEXT:    v_cndmask_b32_e64 v0, v9, v0, s[4:5]
 ; GCN-NEXT:    v_sub_i32_e64 v9, s[6:7], 64, v12
-; GCN-NEXT:    v_cndmask_b32_e64 v0, v16, v0, s[4:5]
 ; GCN-NEXT:    v_cndmask_b32_e32 v11, v17, v19, vcc
 ; GCN-NEXT:    v_lshl_b64 v[9:10], v[6:7], v9
 ; GCN-NEXT:    v_lshr_b64 v[16:17], v[4:5], v12
@@ -384,18 +384,18 @@ define <2 x i128> @v_ashr_v2i128_vv(<2 x i128> %lhs, <2 x i128> %rhs) {
 ; GCN-NEXT:    v_lshl_b64 v[16:17], v[2:3], v16
 ; GCN-NEXT:    v_lshr_b64 v[18:19], v[0:1], v8
 ; GCN-NEXT:    v_cmp_gt_u64_e32 vcc, 64, v[8:9]
-; GCN-NEXT:    v_or_b32_e32 v18, v18, v16
 ; GCN-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[10:11]
-; GCN-NEXT:    v_subrev_i32_e64 v16, s[6:7], 64, v8
-; GCN-NEXT:    v_or_b32_e32 v19, v19, v17
-; GCN-NEXT:    v_ashr_i64 v[16:17], v[2:3], v16
 ; GCN-NEXT:    v_or_b32_e32 v11, v9, v11
+; GCN-NEXT:    v_subrev_i32_e64 v9, s[6:7], 64, v8
+; GCN-NEXT:    v_or_b32_e32 v19, v19, v17
+; GCN-NEXT:    v_or_b32_e32 v18, v18, v16
 ; GCN-NEXT:    v_or_b32_e32 v10, v8, v10
+; GCN-NEXT:    v_ashr_i64 v[16:17], v[2:3], v9
 ; GCN-NEXT:    s_and_b64 vcc, s[4:5], vcc
 ; GCN-NEXT:    v_cmp_eq_u64_e64 s[4:5], 0, v[10:11]
-; GCN-NEXT:    v_cndmask_b32_e32 v16, v16, v18, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v9, v16, v18, vcc
+; GCN-NEXT:    v_cndmask_b32_e64 v0, v9, v0, s[4:5]
 ; GCN-NEXT:    v_sub_i32_e64 v9, s[6:7], 64, v12
-; GCN-NEXT:    v_cndmask_b32_e64 v0, v16, v0, s[4:5]
 ; GCN-NEXT:    v_cndmask_b32_e32 v11, v17, v19, vcc
 ; GCN-NEXT:    v_lshl_b64 v[9:10], v[6:7], v9
 ; GCN-NEXT:    v_lshr_b64 v[16:17], v[4:5], v12
diff --git a/llvm/test/CodeGen/AMDGPU/shl.ll b/llvm/test/CodeGen/AMDGPU/shl.ll
index 6b4bca11d80c7..7e7f4f5d19914 100644
--- a/llvm/test/CodeGen/AMDGPU/shl.ll
+++ b/llvm/test/CodeGen/AMDGPU/shl.ll
@@ -911,20 +911,20 @@ define amdgpu_kernel void @shl_v4i64(ptr addrspace(1) %out, ptr addrspace(1) %in
 ; SI-NEXT:    s_waitcnt lgkmcnt(0)
 ; SI-NEXT:    s_mov_b32 s8, s6
 ; SI-NEXT:    s_mov_b32 s9, s7
-; SI-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0
-; SI-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
-; SI-NEXT:    buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:32
-; SI-NEXT:    buffer_load_dwordx4 v[11:14], off, s[8:11], 0 offset:48
+; SI-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0 offset:16
+; SI-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:48
+; SI-NEXT:    buffer_load_dwordx4 v[7:10], off, s[8:11], 0
+; SI-NEXT:    buffer_load_dwordx4 v[11:14], off, s[8:11], 0 offset:32
 ; SI-NEXT:    s_mov_b32 s0, s4
 ; SI-NEXT:    s_mov_b32 s1, s5
-; SI-NEXT:    s_waitcnt vmcnt(1)
-; SI-NEXT:    v_lshl_b64 v[2:3], v[2:3], v10
+; SI-NEXT:    s_waitcnt vmcnt(2)
+; SI-NEXT:    v_lshl_b64 v[2:3], v[2:3], v6
+; SI-NEXT:    v_lshl_b64 v[0:1], v[0:1], v4
 ; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_lshl_b64 v[6:7], v[6:7], v13
-; SI-NEXT:    v_lshl_b64 v[4:5], v[4:5], v11
-; SI-NEXT:    v_lshl_b64 v[0:1], v[0:1], v8
-; SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
-; SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
+; SI-NEXT:    v_lshl_b64 v[9:10], v[9:10], v13
+; SI-NEXT:    v_lshl_b64 v[7:8], v[7:8], v11
+; SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
+; SI-NEXT:    buffer_store_dwordx4 v[7:10], off, s[0:3], 0
 ; SI-NEXT:    s_endpgm
 ;
 ; VI-LABEL: shl_v4i64:
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v2f32.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v2f32.ll
index 3410b067fb5b4..2f6ddc63cb3e4 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v2f32.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v2f32.ll
@@ -171,15 +171,14 @@ define void @v_shuffle_v2f32_v2f32__3_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A:       ; %bb.0:
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX90A-NEXT:    ;;#ASMSTART
-; GFX90A-NEXT:    ; def v[2:3]
+; GFX90A-NEXT:    ; def v[0:1]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
-; GFX90A-NEXT:    ; def v[0:1]
+; GFX90A-NEXT:    ; def v[2:3]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -187,15 +186,15 @@ define void @v_shuffle_v2f32_v2f32__3_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940:       ; %bb.0:
 ; GFX940-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX940-NEXT:    ;;#ASMSTART
-; GFX940-NEXT:    ; def v[2:3]
+; GFX940-NEXT:    ; def v[0:1]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX940-NEXT:    ;;#ASMSTART
-; GFX940-NEXT:    ; def v[0:1]
+; GFX940-NEXT:    ; def v[2:3]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <2 x float> asm "; def $0", "=v"()
@@ -274,27 +273,24 @@ define void @v_shuffle_v2f32_v2f32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-LABEL: v_shuffle_v2f32_v2f32__3_2:
 ; GFX90A:       ; %bb.0:
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:1]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v2, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v2, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX940-LABEL: v_shuffle_v2f32_v2f32__3_2:
 ; GFX940:       ; %bb.0:
 ; GFX940-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:1]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v2, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v2, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <2 x float> asm "; def $0", "=v"()
@@ -447,27 +443,24 @@ define void @v_shuffle_v2f32_v2f32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-LABEL: v_shuffle_v2f32_v2f32__1_0:
 ; GFX90A:       ; %bb.0:
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:1]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v2, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v2, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX940-LABEL: v_shuffle_v2f32_v2f32__1_0:
 ; GFX940:       ; %bb.0:
 ; GFX940-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:1]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v2, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v2, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <2 x float> asm "; def $0", "=v"()
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v3f32.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v3f32.ll
index 7edb6939f884c..3d42e66eb865c 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v3f32.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v3f32.ll
@@ -632,10 +632,9 @@ define void @v_shuffle_v2f32_v3f32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:2]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v3, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v3, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -645,10 +644,9 @@ define void @v_shuffle_v2f32_v3f32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:2]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v3, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v3, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <3 x float> asm "; def $0", "=v"()
@@ -765,13 +763,12 @@ define void @v_shuffle_v2f32_v3f32__4_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:2]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v5, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:4]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v5, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v5, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v5, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -786,9 +783,8 @@ define void @v_shuffle_v2f32_v3f32__4_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:4]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v5, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v5, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <3 x float> asm "; def $0", "=v"()
@@ -1480,10 +1476,9 @@ define void @v_shuffle_v2f32_v3f32__4_3(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:2]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v3, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v3, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1493,10 +1488,9 @@ define void @v_shuffle_v2f32_v3f32__4_3(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:2]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v3, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v3, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <3 x float> asm "; def $0", "=v"()
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v4f32.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v4f32.ll
index ea02b31bff04f..a312b40a99a81 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v4f32.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v4f32.ll
@@ -335,13 +335,12 @@ define void @v_shuffle_v2f32_v4f32__7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:5]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v6, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v6, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -356,9 +355,8 @@ define void @v_shuffle_v2f32_v4f32__7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:5]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v5
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v6, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v6, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x float> asm "; def $0", "=v"()
@@ -447,8 +445,7 @@ define void @v_shuffle_v2f32_v4f32__7_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:7]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -463,8 +460,8 @@ define void @v_shuffle_v2f32_v4f32__7_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:7]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -637,8 +634,7 @@ define void @v_shuffle_v2f32_v4f32__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -650,8 +646,7 @@ define void @v_shuffle_v2f32_v4f32__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -809,9 +804,8 @@ define void @v_shuffle_v2f32_v4f32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -822,9 +816,8 @@ define void @v_shuffle_v2f32_v4f32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x float> asm "; def $0", "=v"()
@@ -984,13 +977,12 @@ define void @v_shuffle_v2f32_v4f32__5_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:5]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v6, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v6, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1005,9 +997,8 @@ define void @v_shuffle_v2f32_v4f32__5_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:5]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v6, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v6, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x float> asm "; def $0", "=v"()
@@ -1607,8 +1598,7 @@ define void @v_shuffle_v2f32_v4f32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1620,8 +1610,7 @@ define void @v_shuffle_v2f32_v4f32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -1698,8 +1687,7 @@ define void @v_shuffle_v2f32_v4f32__5_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:7]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1714,8 +1702,8 @@ define void @v_shuffle_v2f32_v4f32__5_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:7]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -2331,9 +2319,8 @@ define void @v_shuffle_v2f32_v4f32__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2344,9 +2331,8 @@ define void @v_shuffle_v2f32_v4f32__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x float> asm "; def $0", "=v"()
@@ -2898,8 +2884,7 @@ define void @v_shuffle_v2f32_v4f32__1_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:5]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v6, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -2914,8 +2899,8 @@ define void @v_shuffle_v2f32_v4f32__1_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:5]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v6, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3005,8 +2990,7 @@ define void @v_shuffle_v2f32_v4f32__3_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:7]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3021,8 +3005,8 @@ define void @v_shuffle_v2f32_v4f32__3_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:7]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v8f32.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v8f32.ll
index 0fc63853f63ab..2568390d8d7a6 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v8f32.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2f32.v8f32.ll
@@ -659,13 +659,12 @@ define void @v_shuffle_v2f32_v8f32__15_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -680,9 +679,8 @@ define void @v_shuffle_v2f32_v8f32__15_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v9
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x float> asm "; def $0", "=v"()
@@ -771,8 +769,7 @@ define void @v_shuffle_v2f32_v8f32__15_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v11
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -787,8 +784,8 @@ define void @v_shuffle_v2f32_v8f32__15_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v11
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -878,8 +875,7 @@ define void @v_shuffle_v2f32_v8f32__15_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v13
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -894,8 +890,8 @@ define void @v_shuffle_v2f32_v8f32__15_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v13
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -985,8 +981,7 @@ define void @v_shuffle_v2f32_v8f32__15_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v15
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[14:15], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1001,8 +996,8 @@ define void @v_shuffle_v2f32_v8f32__15_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v15
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[14:15], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -1351,8 +1346,7 @@ define void @v_shuffle_v2f32_v8f32__15_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1364,8 +1358,7 @@ define void @v_shuffle_v2f32_v8f32__15_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -1523,9 +1516,8 @@ define void @v_shuffle_v2f32_v8f32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v8, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1536,9 +1528,8 @@ define void @v_shuffle_v2f32_v8f32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v8, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x float> asm "; def $0", "=v"()
@@ -1870,13 +1861,12 @@ define void @v_shuffle_v2f32_v8f32__9_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1891,9 +1881,8 @@ define void @v_shuffle_v2f32_v8f32__9_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x float> asm "; def $0", "=v"()
@@ -1978,13 +1967,12 @@ define void @v_shuffle_v2f32_v8f32__11_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1999,9 +1987,8 @@ define void @v_shuffle_v2f32_v8f32__11_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v5
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x float> asm "; def $0", "=v"()
@@ -2086,13 +2073,12 @@ define void @v_shuffle_v2f32_v8f32__13_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2107,9 +2093,8 @@ define void @v_shuffle_v2f32_v8f32__13_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v7
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x float> asm "; def $0", "=v"()
@@ -3089,8 +3074,7 @@ define void @v_shuffle_v2f32_v8f32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3102,8 +3086,7 @@ define void @v_shuffle_v2f32_v8f32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3352,8 +3335,7 @@ define void @v_shuffle_v2f32_v8f32__9_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3368,8 +3350,8 @@ define void @v_shuffle_v2f32_v8f32__9_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3459,8 +3441,7 @@ define void @v_shuffle_v2f32_v8f32__11_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3475,8 +3456,8 @@ define void @v_shuffle_v2f32_v8f32__11_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3566,8 +3547,7 @@ define void @v_shuffle_v2f32_v8f32__13_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3582,8 +3562,8 @@ define void @v_shuffle_v2f32_v8f32__13_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v9
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -4650,8 +4630,7 @@ define void @v_shuffle_v2f32_v8f32__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -4663,8 +4642,7 @@ define void @v_shuffle_v2f32_v8f32__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -4827,8 +4805,7 @@ define void @v_shuffle_v2f32_v8f32__9_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -4843,8 +4820,8 @@ define void @v_shuffle_v2f32_v8f32__9_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -4934,8 +4911,7 @@ define void @v_shuffle_v2f32_v8f32__11_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -4950,8 +4926,8 @@ define void @v_shuffle_v2f32_v8f32__11_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v9
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -5041,8 +5017,7 @@ define void @v_shuffle_v2f32_v8f32__13_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v11
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -5057,8 +5032,8 @@ define void @v_shuffle_v2f32_v8f32__13_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v11
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6211,8 +6186,7 @@ define void @v_shuffle_v2f32_v8f32__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6224,8 +6198,7 @@ define void @v_shuffle_v2f32_v8f32__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6302,8 +6275,7 @@ define void @v_shuffle_v2f32_v8f32__9_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6318,8 +6290,8 @@ define void @v_shuffle_v2f32_v8f32__9_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v9
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6409,8 +6381,7 @@ define void @v_shuffle_v2f32_v8f32__11_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v11
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6425,8 +6396,8 @@ define void @v_shuffle_v2f32_v8f32__11_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v11
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6516,8 +6487,7 @@ define void @v_shuffle_v2f32_v8f32__13_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v13
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6532,8 +6502,8 @@ define void @v_shuffle_v2f32_v8f32__13_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v13
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -7689,9 +7659,8 @@ define void @v_shuffle_v2f32_v8f32__9_8(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v8, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -7702,9 +7671,8 @@ define void @v_shuffle_v2f32_v8f32__9_8(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v8, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x float> asm "; def $0", "=v"()
@@ -8816,8 +8784,7 @@ define void @v_shuffle_v2f32_v8f32__1_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -8832,8 +8799,8 @@ define void @v_shuffle_v2f32_v8f32__1_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -8923,8 +8890,7 @@ define void @v_shuffle_v2f32_v8f32__3_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -8939,8 +8905,8 @@ define void @v_shuffle_v2f32_v8f32__3_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -9030,8 +8996,7 @@ define void @v_shuffle_v2f32_v8f32__5_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v8
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[8:9] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -9046,8 +9011,8 @@ define void @v_shuffle_v2f32_v8f32__5_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v8
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[8:9] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -9137,8 +9102,7 @@ define void @v_shuffle_v2f32_v8f32__7_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v10
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[10:11] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -9153,8 +9117,8 @@ define void @v_shuffle_v2f32_v8f32__7_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v10
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[10:11] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -9315,8 +9279,7 @@ define void @v_shuffle_v2f32_v8f32__11_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -9328,8 +9291,7 @@ define void @v_shuffle_v2f32_v8f32__11_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10354,8 +10316,7 @@ define void @v_shuffle_v2f32_v8f32__1_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10370,8 +10331,8 @@ define void @v_shuffle_v2f32_v8f32__1_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10461,8 +10422,7 @@ define void @v_shuffle_v2f32_v8f32__3_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v8
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[8:9] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10477,8 +10437,8 @@ define void @v_shuffle_v2f32_v8f32__3_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v8
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[8:9] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10568,8 +10528,7 @@ define void @v_shuffle_v2f32_v8f32__5_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v10
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[10:11] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10584,8 +10543,8 @@ define void @v_shuffle_v2f32_v8f32__5_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v10
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[10:11] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10675,8 +10634,7 @@ define void @v_shuffle_v2f32_v8f32__7_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v12
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[12:13] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10691,8 +10649,8 @@ define void @v_shuffle_v2f32_v8f32__7_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v12
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[12:13] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10941,8 +10899,7 @@ define void @v_shuffle_v2f32_v8f32__13_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10954,8 +10911,7 @@ define void @v_shuffle_v2f32_v8f32__13_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -11892,8 +11848,7 @@ define void @v_shuffle_v2f32_v8f32__1_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v8
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[8:9] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -11908,8 +11863,8 @@ define void @v_shuffle_v2f32_v8f32__1_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v8
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[8:9] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -11999,8 +11954,7 @@ define void @v_shuffle_v2f32_v8f32__3_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v10
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[10:11] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -12015,8 +11969,8 @@ define void @v_shuffle_v2f32_v8f32__3_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v10
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[10:11] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -12106,8 +12060,7 @@ define void @v_shuffle_v2f32_v8f32__5_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v12
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[12:13] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -12122,8 +12075,8 @@ define void @v_shuffle_v2f32_v8f32__5_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v12
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[12:13] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -12213,8 +12166,7 @@ define void @v_shuffle_v2f32_v8f32__7_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v14
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[14:15] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -12229,8 +12181,8 @@ define void @v_shuffle_v2f32_v8f32__7_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v14
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[14:15] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v2i32.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v2i32.ll
index 632e8d2a32bad..2d27d7199ddf4 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v2i32.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v2i32.ll
@@ -171,15 +171,14 @@ define void @v_shuffle_v2i32_v2i32__3_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A:       ; %bb.0:
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX90A-NEXT:    ;;#ASMSTART
-; GFX90A-NEXT:    ; def v[2:3]
+; GFX90A-NEXT:    ; def v[0:1]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
-; GFX90A-NEXT:    ; def v[0:1]
+; GFX90A-NEXT:    ; def v[2:3]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -187,15 +186,15 @@ define void @v_shuffle_v2i32_v2i32__3_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940:       ; %bb.0:
 ; GFX940-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX940-NEXT:    ;;#ASMSTART
-; GFX940-NEXT:    ; def v[2:3]
+; GFX940-NEXT:    ; def v[0:1]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX940-NEXT:    ;;#ASMSTART
-; GFX940-NEXT:    ; def v[0:1]
+; GFX940-NEXT:    ; def v[2:3]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <2 x i32> asm "; def $0", "=v"()
@@ -274,27 +273,24 @@ define void @v_shuffle_v2i32_v2i32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-LABEL: v_shuffle_v2i32_v2i32__3_2:
 ; GFX90A:       ; %bb.0:
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:1]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v2, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v2, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX940-LABEL: v_shuffle_v2i32_v2i32__3_2:
 ; GFX940:       ; %bb.0:
 ; GFX940-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:1]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v2, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v2, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <2 x i32> asm "; def $0", "=v"()
@@ -447,27 +443,24 @@ define void @v_shuffle_v2i32_v2i32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-LABEL: v_shuffle_v2i32_v2i32__1_0:
 ; GFX90A:       ; %bb.0:
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:1]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v2, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v2, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX940-LABEL: v_shuffle_v2i32_v2i32__1_0:
 ; GFX940:       ; %bb.0:
 ; GFX940-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:1]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v2, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v2, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <2 x i32> asm "; def $0", "=v"()
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v3i32.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v3i32.ll
index fb6671ca78701..ea08df2e4f50f 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v3i32.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v3i32.ll
@@ -632,10 +632,9 @@ define void @v_shuffle_v2i32_v3i32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:2]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v3, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v3, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -645,10 +644,9 @@ define void @v_shuffle_v2i32_v3i32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:2]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v3, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v3, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <3 x i32> asm "; def $0", "=v"()
@@ -765,13 +763,12 @@ define void @v_shuffle_v2i32_v3i32__4_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:2]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v5, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:4]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v5, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v5, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v5, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -786,9 +783,8 @@ define void @v_shuffle_v2i32_v3i32__4_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:4]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v5, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v5, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <3 x i32> asm "; def $0", "=v"()
@@ -1480,10 +1476,9 @@ define void @v_shuffle_v2i32_v3i32__4_3(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:2]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v3, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v3, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1493,10 +1488,9 @@ define void @v_shuffle_v2i32_v3i32__4_3(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:2]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v3, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v3, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <3 x i32> asm "; def $0", "=v"()
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v4i32.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v4i32.ll
index b4051228a443e..a2431d56ce2fd 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v4i32.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v4i32.ll
@@ -335,13 +335,12 @@ define void @v_shuffle_v2i32_v4i32__7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:5]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v6, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v6, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -356,9 +355,8 @@ define void @v_shuffle_v2i32_v4i32__7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:5]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v5
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v6, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v6, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x i32> asm "; def $0", "=v"()
@@ -447,8 +445,7 @@ define void @v_shuffle_v2i32_v4i32__7_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:7]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -463,8 +460,8 @@ define void @v_shuffle_v2i32_v4i32__7_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:7]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -637,8 +634,7 @@ define void @v_shuffle_v2i32_v4i32__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -650,8 +646,7 @@ define void @v_shuffle_v2i32_v4i32__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -809,9 +804,8 @@ define void @v_shuffle_v2i32_v4i32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -822,9 +816,8 @@ define void @v_shuffle_v2i32_v4i32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x i32> asm "; def $0", "=v"()
@@ -984,13 +977,12 @@ define void @v_shuffle_v2i32_v4i32__5_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:5]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v6, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v6, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1005,9 +997,8 @@ define void @v_shuffle_v2i32_v4i32__5_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:5]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v6, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v6, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x i32> asm "; def $0", "=v"()
@@ -1607,8 +1598,7 @@ define void @v_shuffle_v2i32_v4i32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1620,8 +1610,7 @@ define void @v_shuffle_v2i32_v4i32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -1698,8 +1687,7 @@ define void @v_shuffle_v2i32_v4i32__5_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:7]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1714,8 +1702,8 @@ define void @v_shuffle_v2i32_v4i32__5_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:7]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -2331,9 +2319,8 @@ define void @v_shuffle_v2i32_v4i32__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2344,9 +2331,8 @@ define void @v_shuffle_v2i32_v4i32__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x i32> asm "; def $0", "=v"()
@@ -2898,8 +2884,7 @@ define void @v_shuffle_v2i32_v4i32__1_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:5]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v6, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -2914,8 +2899,8 @@ define void @v_shuffle_v2i32_v4i32__1_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:5]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v6, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3005,8 +2990,7 @@ define void @v_shuffle_v2i32_v4i32__3_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:7]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3021,8 +3005,8 @@ define void @v_shuffle_v2i32_v4i32__3_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:7]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v8i32.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v8i32.ll
index 11d1b88a938f2..83a51bc87eccf 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v8i32.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i32.v8i32.ll
@@ -659,13 +659,12 @@ define void @v_shuffle_v2i32_v8i32__15_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -680,9 +679,8 @@ define void @v_shuffle_v2i32_v8i32__15_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v9
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x i32> asm "; def $0", "=v"()
@@ -771,8 +769,7 @@ define void @v_shuffle_v2i32_v8i32__15_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v11
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -787,8 +784,8 @@ define void @v_shuffle_v2i32_v8i32__15_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v11
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -878,8 +875,7 @@ define void @v_shuffle_v2i32_v8i32__15_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v13
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -894,8 +890,8 @@ define void @v_shuffle_v2i32_v8i32__15_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v13
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -985,8 +981,7 @@ define void @v_shuffle_v2i32_v8i32__15_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v15
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[14:15], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1001,8 +996,8 @@ define void @v_shuffle_v2i32_v8i32__15_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v15
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[14:15], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -1351,8 +1346,7 @@ define void @v_shuffle_v2i32_v8i32__15_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1364,8 +1358,7 @@ define void @v_shuffle_v2i32_v8i32__15_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -1523,9 +1516,8 @@ define void @v_shuffle_v2i32_v8i32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v8, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1536,9 +1528,8 @@ define void @v_shuffle_v2i32_v8i32__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v8, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x i32> asm "; def $0", "=v"()
@@ -1870,13 +1861,12 @@ define void @v_shuffle_v2i32_v8i32__9_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1891,9 +1881,8 @@ define void @v_shuffle_v2i32_v8i32__9_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x i32> asm "; def $0", "=v"()
@@ -1978,13 +1967,12 @@ define void @v_shuffle_v2i32_v8i32__11_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1999,9 +1987,8 @@ define void @v_shuffle_v2i32_v8i32__11_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v5
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x i32> asm "; def $0", "=v"()
@@ -2086,13 +2073,12 @@ define void @v_shuffle_v2i32_v8i32__13_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2107,9 +2093,8 @@ define void @v_shuffle_v2i32_v8i32__13_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v7
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x i32> asm "; def $0", "=v"()
@@ -3089,8 +3074,7 @@ define void @v_shuffle_v2i32_v8i32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3102,8 +3086,7 @@ define void @v_shuffle_v2i32_v8i32__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3352,8 +3335,7 @@ define void @v_shuffle_v2i32_v8i32__9_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3368,8 +3350,8 @@ define void @v_shuffle_v2i32_v8i32__9_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3459,8 +3441,7 @@ define void @v_shuffle_v2i32_v8i32__11_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3475,8 +3456,8 @@ define void @v_shuffle_v2i32_v8i32__11_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3566,8 +3547,7 @@ define void @v_shuffle_v2i32_v8i32__13_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3582,8 +3562,8 @@ define void @v_shuffle_v2i32_v8i32__13_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v9
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -4650,8 +4630,7 @@ define void @v_shuffle_v2i32_v8i32__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -4663,8 +4642,7 @@ define void @v_shuffle_v2i32_v8i32__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -4827,8 +4805,7 @@ define void @v_shuffle_v2i32_v8i32__9_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -4843,8 +4820,8 @@ define void @v_shuffle_v2i32_v8i32__9_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -4934,8 +4911,7 @@ define void @v_shuffle_v2i32_v8i32__11_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -4950,8 +4926,8 @@ define void @v_shuffle_v2i32_v8i32__11_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v9
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -5041,8 +5017,7 @@ define void @v_shuffle_v2i32_v8i32__13_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v11
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -5057,8 +5032,8 @@ define void @v_shuffle_v2i32_v8i32__13_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v11
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6211,8 +6186,7 @@ define void @v_shuffle_v2i32_v8i32__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6224,8 +6198,7 @@ define void @v_shuffle_v2i32_v8i32__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6302,8 +6275,7 @@ define void @v_shuffle_v2i32_v8i32__9_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6318,8 +6290,8 @@ define void @v_shuffle_v2i32_v8i32__9_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v9
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6409,8 +6381,7 @@ define void @v_shuffle_v2i32_v8i32__11_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v11
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6425,8 +6396,8 @@ define void @v_shuffle_v2i32_v8i32__11_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v11
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6516,8 +6487,7 @@ define void @v_shuffle_v2i32_v8i32__13_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v13
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6532,8 +6502,8 @@ define void @v_shuffle_v2i32_v8i32__13_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v13
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -7689,9 +7659,8 @@ define void @v_shuffle_v2i32_v8i32__9_8(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v8, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -7702,9 +7671,8 @@ define void @v_shuffle_v2i32_v8i32__9_8(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v8, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x i32> asm "; def $0", "=v"()
@@ -8816,8 +8784,7 @@ define void @v_shuffle_v2i32_v8i32__1_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -8832,8 +8799,8 @@ define void @v_shuffle_v2i32_v8i32__1_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -8923,8 +8890,7 @@ define void @v_shuffle_v2i32_v8i32__3_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -8939,8 +8905,8 @@ define void @v_shuffle_v2i32_v8i32__3_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -9030,8 +8996,7 @@ define void @v_shuffle_v2i32_v8i32__5_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v8
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[8:9] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -9046,8 +9011,8 @@ define void @v_shuffle_v2i32_v8i32__5_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v8
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[8:9] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -9137,8 +9102,7 @@ define void @v_shuffle_v2i32_v8i32__7_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v10
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[10:11] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -9153,8 +9117,8 @@ define void @v_shuffle_v2i32_v8i32__7_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v10
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[10:11] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -9315,8 +9279,7 @@ define void @v_shuffle_v2i32_v8i32__11_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -9328,8 +9291,7 @@ define void @v_shuffle_v2i32_v8i32__11_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10354,8 +10316,7 @@ define void @v_shuffle_v2i32_v8i32__1_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10370,8 +10331,8 @@ define void @v_shuffle_v2i32_v8i32__1_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10461,8 +10422,7 @@ define void @v_shuffle_v2i32_v8i32__3_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v8
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[8:9] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10477,8 +10437,8 @@ define void @v_shuffle_v2i32_v8i32__3_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v8
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[8:9] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10568,8 +10528,7 @@ define void @v_shuffle_v2i32_v8i32__5_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v10
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[10:11] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10584,8 +10543,8 @@ define void @v_shuffle_v2i32_v8i32__5_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v10
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[10:11] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10675,8 +10634,7 @@ define void @v_shuffle_v2i32_v8i32__7_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v12
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[12:13] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10691,8 +10649,8 @@ define void @v_shuffle_v2i32_v8i32__7_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v12
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[12:13] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10941,8 +10899,7 @@ define void @v_shuffle_v2i32_v8i32__13_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10954,8 +10911,7 @@ define void @v_shuffle_v2i32_v8i32__13_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -11892,8 +11848,7 @@ define void @v_shuffle_v2i32_v8i32__1_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v8
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[8:9] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -11908,8 +11863,8 @@ define void @v_shuffle_v2i32_v8i32__1_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v8
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[8:9] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -11999,8 +11954,7 @@ define void @v_shuffle_v2i32_v8i32__3_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v10
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[10:11] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -12015,8 +11969,8 @@ define void @v_shuffle_v2i32_v8i32__3_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v10
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[10:11] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -12106,8 +12060,7 @@ define void @v_shuffle_v2i32_v8i32__5_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v12
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[12:13] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -12122,8 +12075,8 @@ define void @v_shuffle_v2i32_v8i32__5_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v12
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[12:13] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -12213,8 +12166,7 @@ define void @v_shuffle_v2i32_v8i32__7_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v14
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[14:15] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -12229,8 +12181,8 @@ define void @v_shuffle_v2i32_v8i32__7_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v14
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[14:15] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i64.v4i64.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i64.v4i64.ll
index 48ba2235ae2c3..b0258985bfa90 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i64.v4i64.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i64.v4i64.ll
@@ -321,15 +321,15 @@ define void @v_shuffle_v2i64_v4i64__7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i64.v8i64.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i64.v8i64.ll
index b6d305a2b0ab1..b06739392e507 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2i64.v8i64.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2i64.v8i64.ll
@@ -295,10 +295,10 @@ define void @v_shuffle_v2i64_v8i64__7_u(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:15]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v0, v14
 ; GFX900-NEXT:    v_mov_b32_e32 v1, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v2, 0
+; GFX900-NEXT:    global_store_dwordx4 v2, v[0:3], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -591,10 +591,10 @@ define void @v_shuffle_v2i64_v8i64__15_u(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:15]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v0, v14
 ; GFX900-NEXT:    v_mov_b32_e32 v1, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v2, 0
+; GFX900-NEXT:    global_store_dwordx4 v2, v[0:3], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -637,7 +637,6 @@ define void @v_shuffle_v2i64_v8i64__15_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:15]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v20, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v16, v14
 ; GFX900-NEXT:    v_mov_b32_e32 v17, v15
 ; GFX900-NEXT:    ;;#ASMSTART
@@ -645,7 +644,8 @@ define void @v_shuffle_v2i64_v8i64__15_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v18, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v19, v1
-; GFX900-NEXT:    global_store_dwordx4 v20, v[16:19], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v0, 0
+; GFX900-NEXT:    global_store_dwordx4 v0, v[16:19], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1091,12 +1091,12 @@ define void @v_shuffle_v2i64_v8i64__15_8(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:15]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v2, v14
 ; GFX900-NEXT:    v_mov_b32_e32 v3, v15
 ; GFX900-NEXT:    v_mov_b32_e32 v4, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v0, 0
+; GFX900-NEXT:    global_store_dwordx4 v0, v[2:5], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1465,10 +1465,10 @@ define void @v_shuffle_v2i64_v8i64__u_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:15]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v2, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v3, v1
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v0, 0
+; GFX900-NEXT:    global_store_dwordx4 v0, v[0:3], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1825,12 +1825,12 @@ define void @v_shuffle_v2i64_v8i64__7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:15]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v2, v14
 ; GFX900-NEXT:    v_mov_b32_e32 v3, v15
 ; GFX900-NEXT:    v_mov_b32_e32 v4, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v0, 0
+; GFX900-NEXT:    global_store_dwordx4 v0, v[2:5], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1876,10 +1876,10 @@ define void @v_shuffle_v2i64_v8i64__8_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:15]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v2, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v3, v1
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v0, 0
+; GFX900-NEXT:    global_store_dwordx4 v0, v[0:3], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -7917,10 +7917,10 @@ define void @v_shuffle_v2i64_v8i64__7_8(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:15]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v0, v14
 ; GFX900-NEXT:    v_mov_b32_e32 v1, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v2, 0
+; GFX900-NEXT:    global_store_dwordx4 v2, v[0:3], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p0.v4p0.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p0.v4p0.ll
index 07d1437e2694e..0b0570a328201 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p0.v4p0.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p0.v4p0.ll
@@ -321,15 +321,15 @@ define void @v_shuffle_v2p0_v4p0__7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v2p3.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v2p3.ll
index 2cb50e0493ae0..6d5005a899832 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v2p3.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v2p3.ll
@@ -171,15 +171,14 @@ define void @v_shuffle_v2p3_v2p3__3_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A:       ; %bb.0:
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX90A-NEXT:    ;;#ASMSTART
-; GFX90A-NEXT:    ; def v[2:3]
+; GFX90A-NEXT:    ; def v[0:1]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
-; GFX90A-NEXT:    ; def v[0:1]
+; GFX90A-NEXT:    ; def v[2:3]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -187,15 +186,15 @@ define void @v_shuffle_v2p3_v2p3__3_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940:       ; %bb.0:
 ; GFX940-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
 ; GFX940-NEXT:    ;;#ASMSTART
-; GFX940-NEXT:    ; def v[2:3]
+; GFX940-NEXT:    ; def v[0:1]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX940-NEXT:    ;;#ASMSTART
-; GFX940-NEXT:    ; def v[0:1]
+; GFX940-NEXT:    ; def v[2:3]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <2 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -274,27 +273,24 @@ define void @v_shuffle_v2p3_v2p3__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-LABEL: v_shuffle_v2p3_v2p3__3_2:
 ; GFX90A:       ; %bb.0:
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:1]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v2, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v2, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX940-LABEL: v_shuffle_v2p3_v2p3__3_2:
 ; GFX940:       ; %bb.0:
 ; GFX940-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:1]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v2, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v2, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <2 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -447,27 +443,24 @@ define void @v_shuffle_v2p3_v2p3__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-LABEL: v_shuffle_v2p3_v2p3__1_0:
 ; GFX90A:       ; %bb.0:
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:1]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v2, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v2, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
 ; GFX940-LABEL: v_shuffle_v2p3_v2p3__1_0:
 ; GFX940:       ; %bb.0:
 ; GFX940-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:1]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v2, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v2, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <2 x ptr addrspace(3)> asm "; def $0", "=v"()
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v3p3.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v3p3.ll
index b92fa40a26999..2c8f2952fd106 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v3p3.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v3p3.ll
@@ -632,10 +632,9 @@ define void @v_shuffle_v2p3_v3p3__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:2]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v3, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v3, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -645,10 +644,9 @@ define void @v_shuffle_v2p3_v3p3__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:2]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v3, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v3, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <3 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -765,13 +763,12 @@ define void @v_shuffle_v2p3_v3p3__4_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:2]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v5, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:4]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v5, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v5, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v5, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -786,9 +783,8 @@ define void @v_shuffle_v2p3_v3p3__4_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:4]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v5, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v5, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <3 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -1480,10 +1476,9 @@ define void @v_shuffle_v2p3_v3p3__4_3(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:2]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_mov_b32_e32 v3, 0
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v3, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1493,10 +1488,9 @@ define void @v_shuffle_v2p3_v3p3__4_3(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[0:2]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_mov_b32_e32 v3, 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v3, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <3 x ptr addrspace(3)> asm "; def $0", "=v"()
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v4p3.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v4p3.ll
index 8080c22d79219..20abdd10f949e 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v4p3.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v4p3.ll
@@ -335,13 +335,12 @@ define void @v_shuffle_v2p3_v4p3__7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:5]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v6, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v6, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -356,9 +355,8 @@ define void @v_shuffle_v2p3_v4p3__7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:5]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v5
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v6, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v6, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -447,8 +445,7 @@ define void @v_shuffle_v2p3_v4p3__7_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:7]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -463,8 +460,8 @@ define void @v_shuffle_v2p3_v4p3__7_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:7]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -637,8 +634,7 @@ define void @v_shuffle_v2p3_v4p3__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -650,8 +646,7 @@ define void @v_shuffle_v2p3_v4p3__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -809,9 +804,8 @@ define void @v_shuffle_v2p3_v4p3__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -822,9 +816,8 @@ define void @v_shuffle_v2p3_v4p3__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -984,13 +977,12 @@ define void @v_shuffle_v2p3_v4p3__5_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:5]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v6, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v6, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v6, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1005,9 +997,8 @@ define void @v_shuffle_v2p3_v4p3__5_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:5]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v6, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v6, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -1607,8 +1598,7 @@ define void @v_shuffle_v2p3_v4p3__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1620,8 +1610,7 @@ define void @v_shuffle_v2p3_v4p3__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -1698,8 +1687,7 @@ define void @v_shuffle_v2p3_v4p3__5_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:7]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1714,8 +1702,8 @@ define void @v_shuffle_v2p3_v4p3__5_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:7]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -2331,9 +2319,8 @@ define void @v_shuffle_v2p3_v4p3__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:3]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v4, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v4, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v4, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2344,9 +2331,8 @@ define void @v_shuffle_v2p3_v4p3__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:3]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v4, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v4, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v4, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <4 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -2898,8 +2884,7 @@ define void @v_shuffle_v2p3_v4p3__1_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:5]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v6, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -2914,8 +2899,8 @@ define void @v_shuffle_v2p3_v4p3__1_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:5]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v6, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3005,8 +2990,7 @@ define void @v_shuffle_v2p3_v4p3__3_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:7]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3021,8 +3005,8 @@ define void @v_shuffle_v2p3_v4p3__3_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:7]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v8p3.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v8p3.ll
index 02a5800ce1896..df7bdbf04d4e3 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v8p3.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v2p3.v8p3.ll
@@ -659,13 +659,12 @@ define void @v_shuffle_v2p3_v8p3__15_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -680,9 +679,8 @@ define void @v_shuffle_v2p3_v8p3__15_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v9
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -771,8 +769,7 @@ define void @v_shuffle_v2p3_v8p3__15_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v11
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -787,8 +784,8 @@ define void @v_shuffle_v2p3_v8p3__15_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v11
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -878,8 +875,7 @@ define void @v_shuffle_v2p3_v8p3__15_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v13
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -894,8 +890,8 @@ define void @v_shuffle_v2p3_v8p3__15_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v13
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -985,8 +981,7 @@ define void @v_shuffle_v2p3_v8p3__15_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v15
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[14:15], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1001,8 +996,8 @@ define void @v_shuffle_v2p3_v8p3__15_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v15
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[14:15], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -1351,8 +1346,7 @@ define void @v_shuffle_v2p3_v8p3__15_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -1364,8 +1358,7 @@ define void @v_shuffle_v2p3_v8p3__15_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -1523,9 +1516,8 @@ define void @v_shuffle_v2p3_v8p3__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v8, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1536,9 +1528,8 @@ define void @v_shuffle_v2p3_v8p3__1_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v8, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -1870,13 +1861,12 @@ define void @v_shuffle_v2p3_v8p3__9_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1891,9 +1881,8 @@ define void @v_shuffle_v2p3_v8p3__9_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v3
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -1978,13 +1967,12 @@ define void @v_shuffle_v2p3_v8p3__11_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1999,9 +1987,8 @@ define void @v_shuffle_v2p3_v8p3__11_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v5
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -2086,13 +2073,12 @@ define void @v_shuffle_v2p3_v8p3__13_0(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
+; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v10, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2107,9 +2093,8 @@ define void @v_shuffle_v2p3_v8p3__13_0(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    s_nop 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v7
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v10, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -3089,8 +3074,7 @@ define void @v_shuffle_v2p3_v8p3__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3102,8 +3086,7 @@ define void @v_shuffle_v2p3_v8p3__3_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3352,8 +3335,7 @@ define void @v_shuffle_v2p3_v8p3__9_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3368,8 +3350,8 @@ define void @v_shuffle_v2p3_v8p3__9_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3459,8 +3441,7 @@ define void @v_shuffle_v2p3_v8p3__11_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3475,8 +3456,8 @@ define void @v_shuffle_v2p3_v8p3__11_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -3566,8 +3547,7 @@ define void @v_shuffle_v2p3_v8p3__13_2(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -3582,8 +3562,8 @@ define void @v_shuffle_v2p3_v8p3__13_2(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
-; GFX940-NEXT:    v_mov_b32_e32 v0, v9
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -4650,8 +4630,7 @@ define void @v_shuffle_v2p3_v8p3__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -4663,8 +4642,7 @@ define void @v_shuffle_v2p3_v8p3__5_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -4827,8 +4805,7 @@ define void @v_shuffle_v2p3_v8p3__9_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -4843,8 +4820,8 @@ define void @v_shuffle_v2p3_v8p3__9_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -4934,8 +4911,7 @@ define void @v_shuffle_v2p3_v8p3__11_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -4950,8 +4926,8 @@ define void @v_shuffle_v2p3_v8p3__11_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v9
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -5041,8 +5017,7 @@ define void @v_shuffle_v2p3_v8p3__13_4(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v11
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -5057,8 +5032,8 @@ define void @v_shuffle_v2p3_v8p3__13_4(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
-; GFX940-NEXT:    v_mov_b32_e32 v0, v11
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6211,8 +6186,7 @@ define void @v_shuffle_v2p3_v8p3__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6224,8 +6198,7 @@ define void @v_shuffle_v2p3_v8p3__7_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6302,8 +6275,7 @@ define void @v_shuffle_v2p3_v8p3__9_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v9
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6318,8 +6290,8 @@ define void @v_shuffle_v2p3_v8p3__9_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v9
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[8:9], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6409,8 +6381,7 @@ define void @v_shuffle_v2p3_v8p3__11_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v11
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6425,8 +6396,8 @@ define void @v_shuffle_v2p3_v8p3__11_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v11
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[10:11], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -6516,8 +6487,7 @@ define void @v_shuffle_v2p3_v8p3__13_6(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v13
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -6532,8 +6502,8 @@ define void @v_shuffle_v2p3_v8p3__13_6(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
-; GFX940-NEXT:    v_mov_b32_e32 v0, v13
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[12:13], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -7689,9 +7659,8 @@ define void @v_shuffle_v2p3_v8p3__9_8(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v2, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v3, v0
-; GFX90A-NEXT:    global_store_dwordx2 v8, v[2:3], s[16:17]
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -7702,9 +7671,8 @@ define void @v_shuffle_v2p3_v8p3__9_8(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v2, v1
-; GFX940-NEXT:    v_mov_b32_e32 v3, v0
-; GFX940-NEXT:    global_store_dwordx2 v8, v[2:3], s[0:1] sc0 sc1
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[0:1] op_sel:[1,0]
+; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
   %vec0 = call <8 x ptr addrspace(3)> asm "; def $0", "=v"()
@@ -8816,8 +8784,7 @@ define void @v_shuffle_v2p3_v8p3__1_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -8832,8 +8799,8 @@ define void @v_shuffle_v2p3_v8p3__1_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -8923,8 +8890,7 @@ define void @v_shuffle_v2p3_v8p3__3_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -8939,8 +8905,8 @@ define void @v_shuffle_v2p3_v8p3__3_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -9030,8 +8996,7 @@ define void @v_shuffle_v2p3_v8p3__5_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v8
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[8:9] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -9046,8 +9011,8 @@ define void @v_shuffle_v2p3_v8p3__5_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v8
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[8:9] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -9137,8 +9102,7 @@ define void @v_shuffle_v2p3_v8p3__7_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v10
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[10:11] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -9153,8 +9117,8 @@ define void @v_shuffle_v2p3_v8p3__7_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v10
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[10:11] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -9315,8 +9279,7 @@ define void @v_shuffle_v2p3_v8p3__11_10(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v2
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -9328,8 +9291,7 @@ define void @v_shuffle_v2p3_v8p3__11_10(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v2
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[2:3] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10354,8 +10316,7 @@ define void @v_shuffle_v2p3_v8p3__1_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v6
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[6:7] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10370,8 +10331,8 @@ define void @v_shuffle_v2p3_v8p3__1_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v6
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[6:7] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10461,8 +10422,7 @@ define void @v_shuffle_v2p3_v8p3__3_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v8
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[8:9] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10477,8 +10437,8 @@ define void @v_shuffle_v2p3_v8p3__3_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v8
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[8:9] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10568,8 +10528,7 @@ define void @v_shuffle_v2p3_v8p3__5_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v10
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[10:11] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10584,8 +10543,8 @@ define void @v_shuffle_v2p3_v8p3__5_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v10
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[10:11] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10675,8 +10634,7 @@ define void @v_shuffle_v2p3_v8p3__7_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v12
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[12:13] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10691,8 +10649,8 @@ define void @v_shuffle_v2p3_v8p3__7_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v12
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[12:13] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -10941,8 +10899,7 @@ define void @v_shuffle_v2p3_v8p3__13_12(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ; def v[0:7]
 ; GFX90A-NEXT:    ;;#ASMEND
 ; GFX90A-NEXT:    v_mov_b32_e32 v8, 0
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v4
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v8, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -10954,8 +10911,7 @@ define void @v_shuffle_v2p3_v8p3__13_12(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ; def v[0:7]
 ; GFX940-NEXT:    ;;#ASMEND
 ; GFX940-NEXT:    v_mov_b32_e32 v8, 0
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v4
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[4:5] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v8, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -11892,8 +11848,7 @@ define void @v_shuffle_v2p3_v8p3__1_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[2:9]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v1
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v8
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[8:9] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -11908,8 +11863,8 @@ define void @v_shuffle_v2p3_v8p3__1_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[2:9]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v1
-; GFX940-NEXT:    v_mov_b32_e32 v1, v8
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[0:1], v[8:9] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v10, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -11999,8 +11954,7 @@ define void @v_shuffle_v2p3_v8p3__3_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[4:11]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v3
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v10
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[10:11] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -12015,8 +11969,8 @@ define void @v_shuffle_v2p3_v8p3__3_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[4:11]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v3
-; GFX940-NEXT:    v_mov_b32_e32 v1, v10
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[2:3], v[10:11] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v12, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -12106,8 +12060,7 @@ define void @v_shuffle_v2p3_v8p3__5_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[6:13]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v5
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v12
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[12:13] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v14, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -12122,8 +12075,8 @@ define void @v_shuffle_v2p3_v8p3__5_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[6:13]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v5
-; GFX940-NEXT:    v_mov_b32_e32 v1, v12
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[4:5], v[12:13] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v14, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
@@ -12213,8 +12166,7 @@ define void @v_shuffle_v2p3_v8p3__7_14(ptr addrspace(1) inreg %ptr) {
 ; GFX90A-NEXT:    ;;#ASMSTART
 ; GFX90A-NEXT:    ; def v[8:15]
 ; GFX90A-NEXT:    ;;#ASMEND
-; GFX90A-NEXT:    v_mov_b32_e32 v0, v7
-; GFX90A-NEXT:    v_mov_b32_e32 v1, v14
+; GFX90A-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[14:15] op_sel:[1,0]
 ; GFX90A-NEXT:    global_store_dwordx2 v16, v[0:1], s[16:17]
 ; GFX90A-NEXT:    s_waitcnt vmcnt(0)
 ; GFX90A-NEXT:    s_setpc_b64 s[30:31]
@@ -12229,8 +12181,8 @@ define void @v_shuffle_v2p3_v8p3__7_14(ptr addrspace(1) inreg %ptr) {
 ; GFX940-NEXT:    ;;#ASMSTART
 ; GFX940-NEXT:    ; def v[8:15]
 ; GFX940-NEXT:    ;;#ASMEND
-; GFX940-NEXT:    v_mov_b32_e32 v0, v7
-; GFX940-NEXT:    v_mov_b32_e32 v1, v14
+; GFX940-NEXT:    s_nop 0
+; GFX940-NEXT:    v_pk_mov_b32 v[0:1], v[6:7], v[14:15] op_sel:[1,0]
 ; GFX940-NEXT:    global_store_dwordx2 v16, v[0:1], s[0:1] sc0 sc1
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    s_setpc_b64 s[30:31]
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v3i64.v4i64.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v3i64.v4i64.ll
index f6253c4c02751..976c7b4fa704e 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v3i64.v4i64.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v3i64.v4i64.ll
@@ -324,15 +324,15 @@ define void @v_shuffle_v3i64_v4i64__7_0_u(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1582,16 +1582,16 @@ define void @v_shuffle_v3i64_v4i64__7_0_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2558,15 +2558,15 @@ define void @v_shuffle_v3i64_v4i64__7_0_1(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[4:11]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    global_store_dwordx2 v12, v[2:3], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v10
-; GFX900-NEXT:    v_mov_b32_e32 v3, v11
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17]
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3418,19 +3418,19 @@ define void @v_shuffle_v3i64_v4i64__7_0_2(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3i64_v4i64__7_0_2:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX900-NEXT:    v_mov_b32_e32 v14, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[6:13]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx2 v14, v[4:5], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v12
-; GFX900-NEXT:    v_mov_b32_e32 v3, v13
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v14, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx2 v12, v[4:5], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -4283,16 +4283,16 @@ define void @v_shuffle_v3i64_v4i64__7_0_3(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v2, v14
-; GFX900-NEXT:    v_mov_b32_e32 v3, v15
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx2 v16, v[6:7], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx2 v12, v[6:7], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -5029,19 +5029,19 @@ define void @v_shuffle_v3i64_v4i64__7_0_4(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3i64_v4i64__7_0_4:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
+; GFX900-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -5879,19 +5879,19 @@ define void @v_shuffle_v3i64_v4i64__7_0_5(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3i64_v4i64__7_0_5:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
+; GFX900-NEXT:    global_store_dwordx2 v12, v[2:3], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx2 v10, v[4:5], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -6735,19 +6735,19 @@ define void @v_shuffle_v3i64_v4i64__7_0_6(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3i64_v4i64__7_0_6:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    global_store_dwordx2 v12, v[4:5], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx2 v10, v[6:7], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -7542,19 +7542,19 @@ define void @v_shuffle_v3i64_v4i64__7_0_7(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3i64_v4i64__7_0_7:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    global_store_dwordx2 v12, v[6:7], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx2 v10, v[8:9], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v3p0.v4p0.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v3p0.v4p0.ll
index ca6e625620f0b..6c086a40c4153 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v3p0.v4p0.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v3p0.v4p0.ll
@@ -324,15 +324,15 @@ define void @v_shuffle_v3p0_v4p0__7_0_u(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1582,16 +1582,16 @@ define void @v_shuffle_v3p0_v4p0__7_0_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx2 v10, v[0:1], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2558,15 +2558,15 @@ define void @v_shuffle_v3p0_v4p0__7_0_1(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[4:11]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    global_store_dwordx2 v12, v[2:3], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v10
-; GFX900-NEXT:    v_mov_b32_e32 v3, v11
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17]
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3418,19 +3418,19 @@ define void @v_shuffle_v3p0_v4p0__7_0_2(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3p0_v4p0__7_0_2:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
-; GFX900-NEXT:    v_mov_b32_e32 v14, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[6:13]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx2 v14, v[4:5], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v12
-; GFX900-NEXT:    v_mov_b32_e32 v3, v13
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v14, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx2 v12, v[4:5], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -4283,16 +4283,16 @@ define void @v_shuffle_v3p0_v4p0__7_0_3(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v2, v14
-; GFX900-NEXT:    v_mov_b32_e32 v3, v15
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx2 v16, v[6:7], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx2 v12, v[6:7], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -5029,19 +5029,19 @@ define void @v_shuffle_v3p0_v4p0__7_0_4(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3p0_v4p0__7_0_4:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
+; GFX900-NEXT:    global_store_dwordx2 v12, v[0:1], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx2 v10, v[2:3], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -5879,19 +5879,19 @@ define void @v_shuffle_v3p0_v4p0__7_0_5(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3p0_v4p0__7_0_5:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
+; GFX900-NEXT:    global_store_dwordx2 v12, v[2:3], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx2 v10, v[4:5], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -6735,19 +6735,19 @@ define void @v_shuffle_v3p0_v4p0__7_0_6(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3p0_v4p0__7_0_6:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    global_store_dwordx2 v12, v[4:5], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx2 v10, v[6:7], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -7542,19 +7542,19 @@ define void @v_shuffle_v3p0_v4p0__7_0_7(ptr addrspace(1) inreg %ptr) {
 ; GFX900-LABEL: v_shuffle_v3p0_v4p0__7_0_7:
 ; GFX900:       ; %bb.0:
 ; GFX900-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    global_store_dwordx2 v12, v[6:7], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx2 v10, v[8:9], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v4i64.v4i64.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v4i64.v4i64.ll
index e21d98b5aaf4f..ab0dbd2f3ba42 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v4i64.v4i64.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v4i64.v4i64.ll
@@ -324,15 +324,15 @@ define void @v_shuffle_v4i64_v4i64__7_0_u_u(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -918,16 +918,16 @@ define void @v_shuffle_v4i64_v4i64__7_7_3_u(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
-; GFX900-NEXT:    v_mov_b32_e32 v0, v6
-; GFX900-NEXT:    v_mov_b32_e32 v1, v7
-; GFX900-NEXT:    v_mov_b32_e32 v12, v14
-; GFX900-NEXT:    v_mov_b32_e32 v13, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v16, v[12:15], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v10, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v10, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1190,18 +1190,18 @@ define void @v_shuffle_v4i64_v4i64__7_7_7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    v_mov_b32_e32 v6, v8
-; GFX900-NEXT:    v_mov_b32_e32 v7, v9
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2123,18 +2123,18 @@ define void @v_shuffle_v4i64_v4i64__7_0_0_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v2, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v3, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[0:3], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[0:3], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2262,17 +2262,18 @@ define void @v_shuffle_v4i64_v4i64__7_1_0_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[4:11]
-; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v4, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v5, v1
 ; GFX900-NEXT:    v_mov_b32_e32 v6, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v7, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
+; GFX900-NEXT:    s_nop 0
+; GFX900-NEXT:    ;;#ASMSTART
+; GFX900-NEXT:    ; def v[4:11]
+; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v0, v10
 ; GFX900-NEXT:    v_mov_b32_e32 v1, v11
-; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
 ; GFX900-NEXT:    global_store_dwordx4 v12, v[0:3], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
@@ -2735,16 +2736,16 @@ define void @v_shuffle_v4i64_v4i64__7_7_u_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v0
+; GFX900-NEXT:    v_mov_b32_e32 v9, v1
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v0
-; GFX900-NEXT:    v_mov_b32_e32 v3, v1
-; GFX900-NEXT:    v_mov_b32_e32 v6, v8
-; GFX900-NEXT:    v_mov_b32_e32 v7, v9
-; GFX900-NEXT:    global_store_dwordx4 v10, v[0:3], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v10, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2930,18 +2931,18 @@ define void @v_shuffle_v4i64_v4i64__7_7_3_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v6
-; GFX900-NEXT:    v_mov_b32_e32 v3, v7
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    v_mov_b32_e32 v12, v14
-; GFX900-NEXT:    v_mov_b32_e32 v13, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v16, v[12:15], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3133,18 +3134,18 @@ define void @v_shuffle_v4i64_v4i64__7_7_6_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v6
-; GFX900-NEXT:    v_mov_b32_e32 v3, v7
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    v_mov_b32_e32 v6, v8
-; GFX900-NEXT:    v_mov_b32_e32 v7, v9
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v4
+; GFX900-NEXT:    v_mov_b32_e32 v9, v5
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3764,19 +3765,18 @@ define void @v_shuffle_v4i64_v4i64__7_0_1_1(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[4:11]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v4, v2
 ; GFX900-NEXT:    v_mov_b32_e32 v5, v3
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    s_nop 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v10
-; GFX900-NEXT:    v_mov_b32_e32 v3, v11
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17]
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -5246,18 +5246,18 @@ define void @v_shuffle_v4i64_v4i64__7_0_2_2(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[6:13]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v14, 0
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v6, v4
 ; GFX900-NEXT:    v_mov_b32_e32 v7, v5
-; GFX900-NEXT:    global_store_dwordx4 v14, v[4:7], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v12
-; GFX900-NEXT:    v_mov_b32_e32 v3, v13
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v14, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -6718,18 +6718,18 @@ define void @v_shuffle_v4i64_v4i64__7_0_3_3(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
-; GFX900-NEXT:    v_mov_b32_e32 v4, v6
-; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx4 v16, v[4:7], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v14
-; GFX900-NEXT:    v_mov_b32_e32 v3, v15
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -6852,19 +6852,19 @@ define void @v_shuffle_v4i64_v4i64__7_2_3_3(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
+; GFX900-NEXT:    v_mov_b32_e32 v14, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v0, v6
 ; GFX900-NEXT:    v_mov_b32_e32 v1, v7
 ; GFX900-NEXT:    v_mov_b32_e32 v2, v6
 ; GFX900-NEXT:    v_mov_b32_e32 v3, v7
+; GFX900-NEXT:    global_store_dwordx4 v14, v[0:3], s[16:17] offset:16
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[6:13]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17] offset:16
 ; GFX900-NEXT:    s_nop 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v14
-; GFX900-NEXT:    v_mov_b32_e32 v3, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v2, v12
+; GFX900-NEXT:    v_mov_b32_e32 v3, v13
+; GFX900-NEXT:    global_store_dwordx4 v14, v[2:5], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -8043,19 +8043,18 @@ define void @v_shuffle_v4i64_v4i64__7_0_4_4(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v2, v0
+; GFX900-NEXT:    v_mov_b32_e32 v3, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[0:3], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v4, v2
-; GFX900-NEXT:    v_mov_b32_e32 v5, v3
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    s_nop 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -8714,18 +8713,18 @@ define void @v_shuffle_v4i64_v4i64__7_7_3_4(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
-; GFX900-NEXT:    v_mov_b32_e32 v0, v6
-; GFX900-NEXT:    v_mov_b32_e32 v1, v7
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v12, v14
-; GFX900-NEXT:    v_mov_b32_e32 v13, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v16, v[12:15], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -9477,18 +9476,18 @@ define void @v_shuffle_v4i64_v4i64__7_0_5_5(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v2
+; GFX900-NEXT:    v_mov_b32_e32 v5, v3
+; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v6, v4
-; GFX900-NEXT:    v_mov_b32_e32 v7, v5
-; GFX900-NEXT:    global_store_dwordx4 v10, v[4:7], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -10908,18 +10907,18 @@ define void @v_shuffle_v4i64_v4i64__7_0_6_6(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v2, v4
+; GFX900-NEXT:    v_mov_b32_e32 v3, v5
+; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v4, v6
-; GFX900-NEXT:    v_mov_b32_e32 v5, v7
-; GFX900-NEXT:    global_store_dwordx4 v10, v[4:7], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -12303,18 +12302,18 @@ define void @v_shuffle_v4i64_v4i64__7_0_7_7(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v6, v8
-; GFX900-NEXT:    v_mov_b32_e32 v7, v9
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/shufflevector.v4p0.v4p0.ll b/llvm/test/CodeGen/AMDGPU/shufflevector.v4p0.v4p0.ll
index e4a0c0057a062..8ce765abf5e82 100644
--- a/llvm/test/CodeGen/AMDGPU/shufflevector.v4p0.v4p0.ll
+++ b/llvm/test/CodeGen/AMDGPU/shufflevector.v4p0.v4p0.ll
@@ -324,15 +324,15 @@ define void @v_shuffle_v4p0_v4p0__7_0_u_u(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -918,16 +918,16 @@ define void @v_shuffle_v4p0_v4p0__7_7_3_u(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
-; GFX900-NEXT:    v_mov_b32_e32 v0, v6
-; GFX900-NEXT:    v_mov_b32_e32 v1, v7
-; GFX900-NEXT:    v_mov_b32_e32 v12, v14
-; GFX900-NEXT:    v_mov_b32_e32 v13, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v16, v[12:15], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v10, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v10, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1190,18 +1190,18 @@ define void @v_shuffle_v4p0_v4p0__7_7_7_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    v_mov_b32_e32 v6, v8
-; GFX900-NEXT:    v_mov_b32_e32 v7, v9
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2123,18 +2123,18 @@ define void @v_shuffle_v4p0_v4p0__7_0_0_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v2, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v3, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[0:3], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[0:3], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2262,17 +2262,18 @@ define void @v_shuffle_v4p0_v4p0__7_1_0_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[4:11]
-; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v4, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v5, v1
 ; GFX900-NEXT:    v_mov_b32_e32 v6, v0
 ; GFX900-NEXT:    v_mov_b32_e32 v7, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
+; GFX900-NEXT:    s_nop 0
+; GFX900-NEXT:    ;;#ASMSTART
+; GFX900-NEXT:    ; def v[4:11]
+; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v0, v10
 ; GFX900-NEXT:    v_mov_b32_e32 v1, v11
-; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
 ; GFX900-NEXT:    global_store_dwordx4 v12, v[0:3], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
@@ -2735,16 +2736,16 @@ define void @v_shuffle_v4p0_v4p0__7_7_u_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v0
+; GFX900-NEXT:    v_mov_b32_e32 v9, v1
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v0
-; GFX900-NEXT:    v_mov_b32_e32 v3, v1
-; GFX900-NEXT:    v_mov_b32_e32 v6, v8
-; GFX900-NEXT:    v_mov_b32_e32 v7, v9
-; GFX900-NEXT:    global_store_dwordx4 v10, v[0:3], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v10, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -2930,18 +2931,18 @@ define void @v_shuffle_v4p0_v4p0__7_7_3_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v6
-; GFX900-NEXT:    v_mov_b32_e32 v3, v7
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    v_mov_b32_e32 v12, v14
-; GFX900-NEXT:    v_mov_b32_e32 v13, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v16, v[12:15], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3133,18 +3134,18 @@ define void @v_shuffle_v4p0_v4p0__7_7_6_0(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v6
-; GFX900-NEXT:    v_mov_b32_e32 v3, v7
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    v_mov_b32_e32 v6, v8
-; GFX900-NEXT:    v_mov_b32_e32 v7, v9
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v8, v4
+; GFX900-NEXT:    v_mov_b32_e32 v9, v5
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -3764,19 +3765,18 @@ define void @v_shuffle_v4p0_v4p0__7_0_1_1(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[4:11]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
 ; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v4, v2
 ; GFX900-NEXT:    v_mov_b32_e32 v5, v3
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
 ; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    s_nop 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v10
-; GFX900-NEXT:    v_mov_b32_e32 v3, v11
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17]
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -5246,18 +5246,18 @@ define void @v_shuffle_v4p0_v4p0__7_0_2_2(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[6:13]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v14, 0
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v6, v4
 ; GFX900-NEXT:    v_mov_b32_e32 v7, v5
-; GFX900-NEXT:    global_store_dwordx4 v14, v[4:7], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v12
-; GFX900-NEXT:    v_mov_b32_e32 v3, v13
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v14, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -6718,18 +6718,18 @@ define void @v_shuffle_v4p0_v4p0__7_0_3_3(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
-; GFX900-NEXT:    v_mov_b32_e32 v4, v6
-; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx4 v16, v[4:7], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v14
-; GFX900-NEXT:    v_mov_b32_e32 v3, v15
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -6852,19 +6852,19 @@ define void @v_shuffle_v4p0_v4p0__7_2_3_3(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
+; GFX900-NEXT:    v_mov_b32_e32 v14, 0
 ; GFX900-NEXT:    v_mov_b32_e32 v0, v6
 ; GFX900-NEXT:    v_mov_b32_e32 v1, v7
 ; GFX900-NEXT:    v_mov_b32_e32 v2, v6
 ; GFX900-NEXT:    v_mov_b32_e32 v3, v7
+; GFX900-NEXT:    global_store_dwordx4 v14, v[0:3], s[16:17] offset:16
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[6:13]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17] offset:16
 ; GFX900-NEXT:    s_nop 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v14
-; GFX900-NEXT:    v_mov_b32_e32 v3, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v2, v12
+; GFX900-NEXT:    v_mov_b32_e32 v3, v13
+; GFX900-NEXT:    global_store_dwordx4 v14, v[2:5], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -8043,19 +8043,18 @@ define void @v_shuffle_v4p0_v4p0__7_0_4_4(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v2, v0
+; GFX900-NEXT:    v_mov_b32_e32 v3, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[0:3], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v4, v2
-; GFX900-NEXT:    v_mov_b32_e32 v5, v3
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17] offset:16
-; GFX900-NEXT:    s_nop 0
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -8714,18 +8713,18 @@ define void @v_shuffle_v4p0_v4p0__7_7_3_4(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[8:15]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v16, 0
-; GFX900-NEXT:    v_mov_b32_e32 v0, v6
-; GFX900-NEXT:    v_mov_b32_e32 v1, v7
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v12, v14
-; GFX900-NEXT:    v_mov_b32_e32 v13, v15
-; GFX900-NEXT:    global_store_dwordx4 v16, v[0:3], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v16, v[12:15], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17] offset:16
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -9477,18 +9476,18 @@ define void @v_shuffle_v4p0_v4p0__7_0_5_5(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v2
+; GFX900-NEXT:    v_mov_b32_e32 v5, v3
+; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v6, v4
-; GFX900-NEXT:    v_mov_b32_e32 v7, v5
-; GFX900-NEXT:    global_store_dwordx4 v10, v[4:7], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -10908,18 +10907,18 @@ define void @v_shuffle_v4p0_v4p0__7_0_6_6(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v2, v4
+; GFX900-NEXT:    v_mov_b32_e32 v3, v5
+; GFX900-NEXT:    global_store_dwordx4 v12, v[2:5], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v4, v6
-; GFX900-NEXT:    v_mov_b32_e32 v5, v7
-; GFX900-NEXT:    global_store_dwordx4 v10, v[4:7], s[16:17] offset:16
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -12303,18 +12302,18 @@ define void @v_shuffle_v4p0_v4p0__7_0_7_7(ptr addrspace(1) inreg %ptr) {
 ; GFX900-NEXT:    ;;#ASMSTART
 ; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
+; GFX900-NEXT:    v_mov_b32_e32 v12, 0
+; GFX900-NEXT:    v_mov_b32_e32 v4, v6
+; GFX900-NEXT:    v_mov_b32_e32 v5, v7
+; GFX900-NEXT:    global_store_dwordx4 v12, v[4:7], s[16:17] offset:16
+; GFX900-NEXT:    v_mov_b32_e32 v8, v6
+; GFX900-NEXT:    v_mov_b32_e32 v9, v7
 ; GFX900-NEXT:    ;;#ASMSTART
-; GFX900-NEXT:    ; def v[2:9]
+; GFX900-NEXT:    ; def v[0:7]
 ; GFX900-NEXT:    ;;#ASMEND
-; GFX900-NEXT:    v_mov_b32_e32 v10, 0
-; GFX900-NEXT:    v_mov_b32_e32 v6, v8
-; GFX900-NEXT:    v_mov_b32_e32 v7, v9
-; GFX900-NEXT:    v_mov_b32_e32 v2, v8
-; GFX900-NEXT:    v_mov_b32_e32 v3, v9
-; GFX900-NEXT:    v_mov_b32_e32 v4, v0
-; GFX900-NEXT:    v_mov_b32_e32 v5, v1
-; GFX900-NEXT:    global_store_dwordx4 v10, v[6:9], s[16:17] offset:16
-; GFX900-NEXT:    global_store_dwordx4 v10, v[2:5], s[16:17]
+; GFX900-NEXT:    v_mov_b32_e32 v10, v0
+; GFX900-NEXT:    v_mov_b32_e32 v11, v1
+; GFX900-NEXT:    global_store_dwordx4 v12, v[8:11], s[16:17]
 ; GFX900-NEXT:    s_waitcnt vmcnt(0)
 ; GFX900-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/sra.ll b/llvm/test/CodeGen/AMDGPU/sra.ll
index 9d550ec27a63b..8150328dd24f0 100644
--- a/llvm/test/CodeGen/AMDGPU/sra.ll
+++ b/llvm/test/CodeGen/AMDGPU/sra.ll
@@ -605,20 +605,20 @@ define amdgpu_kernel void @ashr_v4i64(ptr addrspace(1) %out, ptr addrspace(1) %i
 ; SI-NEXT:    s_waitcnt lgkmcnt(0)
 ; SI-NEXT:    s_mov_b32 s8, s6
 ; SI-NEXT:    s_mov_b32 s9, s7
-; SI-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0
-; SI-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
-; SI-NEXT:    buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:32
-; SI-NEXT:    buffer_load_dwordx4 v[11:14], off, s[8:11], 0 offset:48
+; SI-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0 offset:16
+; SI-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:48
+; SI-NEXT:    buffer_load_dwordx4 v[7:10], off, s[8:11], 0
+; SI-NEXT:    buffer_load_dwordx4 v[11:14], off, s[8:11], 0 offset:32
 ; SI-NEXT:    s_mov_b32 s0, s4
 ; SI-NEXT:    s_mov_b32 s1, s5
-; SI-NEXT:    s_waitcnt vmcnt(1)
-; SI-NEXT:    v_ashr_i64 v[2:3], v[2:3], v10
+; SI-NEXT:    s_waitcnt vmcnt(2)
+; SI-NEXT:    v_ashr_i64 v[2:3], v[2:3], v6
+; SI-NEXT:    v_ashr_i64 v[0:1], v[0:1], v4
 ; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_ashr_i64 v[6:7], v[6:7], v13
-; SI-NEXT:    v_ashr_i64 v[4:5], v[4:5], v11
-; SI-NEXT:    v_ashr_i64 v[0:1], v[0:1], v8
-; SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
-; SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
+; SI-NEXT:    v_ashr_i64 v[9:10], v[9:10], v13
+; SI-NEXT:    v_ashr_i64 v[7:8], v[7:8], v11
+; SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
+; SI-NEXT:    buffer_store_dwordx4 v[7:10], off, s[0:3], 0
 ; SI-NEXT:    s_endpgm
 ;
 ; VI-LABEL: ashr_v4i64:
@@ -631,20 +631,20 @@ define amdgpu_kernel void @ashr_v4i64(ptr addrspace(1) %out, ptr addrspace(1) %i
 ; VI-NEXT:    s_waitcnt lgkmcnt(0)
 ; VI-NEXT:    s_mov_b32 s8, s6
 ; VI-NEXT:    s_mov_b32 s9, s7
-; VI-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0
-; VI-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
-; VI-NEXT:    buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:32
-; VI-NEXT:    buffer_load_dwordx4 v[11:14], off, s[8:11], 0 offset:48
+; VI-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0 offset:16
+; VI-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:48
+; VI-NEXT:    buffer_load_dwordx4 v[7:10], off, s[8:11], 0
+; VI-NEXT:    buffer_load_dwordx4 v[11:14], off, s[8:11], 0 offset:32
 ; VI-NEXT:    s_mov_b32 s0, s4
 ; VI-NEXT:    s_mov_b32 s1, s5
-; VI-NEXT:    s_waitcnt vmcnt(1)
-; VI-NEXT:    v_ashrrev_i64 v[2:3], v10, v[2:3]
+; VI-NEXT:    s_waitcnt vmcnt(2)
+; VI-NEXT:    v_ashrrev_i64 v[2:3], v6, v[2:3]
+; VI-NEXT:    v_ashrrev_i64 v[0:1], v4, v[0:1]
 ; VI-NEXT:    s_waitcnt vmcnt(0)
-; VI-NEXT:    v_ashrrev_i64 v[6:7], v13, v[6:7]
-; VI-NEXT:    v_ashrrev_i64 v[4:5], v11, v[4:5]
-; VI-NEXT:    v_ashrrev_i64 v[0:1], v8, v[0:1]
-; VI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
-; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
+; VI-NEXT:    v_ashrrev_i64 v[9:10], v13, v[9:10]
+; VI-NEXT:    v_ashrrev_i64 v[7:8], v11, v[7:8]
+; VI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
+; VI-NEXT:    buffer_store_dwordx4 v[7:10], off, s[0:3], 0
 ; VI-NEXT:    s_endpgm
 ;
 ; EG-LABEL: ashr_v4i64:
diff --git a/llvm/test/CodeGen/AMDGPU/srem.ll b/llvm/test/CodeGen/AMDGPU/srem.ll
index ce15bbcc9e189..6423267be4b34 100644
--- a/llvm/test/CodeGen/AMDGPU/srem.ll
+++ b/llvm/test/CodeGen/AMDGPU/srem.ll
@@ -6117,108 +6117,108 @@ define amdgpu_kernel void @srem_v4i64(ptr addrspace(1) %out, ptr addrspace(1) %i
 ; TONGA-NEXT:    v_ashrrev_i32_e32 v8, 31, v11
 ; TONGA-NEXT:    v_add_u32_e32 v9, vcc, v10, v8
 ; TONGA-NEXT:    v_addc_u32_e32 v11, vcc, v11, v8, vcc
-; TONGA-NEXT:    v_xor_b32_e32 v22, v9, v8
-; TONGA-NEXT:    v_xor_b32_e32 v11, v11, v8
-; TONGA-NEXT:    v_cvt_f32_u32_e32 v8, v22
-; TONGA-NEXT:    v_cvt_f32_u32_e32 v9, v11
-; TONGA-NEXT:    v_sub_u32_e32 v23, vcc, 0, v22
-; TONGA-NEXT:    v_subb_u32_e32 v24, vcc, 0, v11, vcc
-; TONGA-NEXT:    v_madmk_f32 v8, v9, 0x4f800000, v8
-; TONGA-NEXT:    v_rcp_f32_e32 v8, v8
-; TONGA-NEXT:    v_mul_f32_e32 v8, 0x5f7ffffc, v8
-; TONGA-NEXT:    v_mul_f32_e32 v9, 0x2f800000, v8
-; TONGA-NEXT:    v_trunc_f32_e32 v9, v9
-; TONGA-NEXT:    v_madmk_f32 v8, v9, 0xcf800000, v8
-; TONGA-NEXT:    v_cvt_u32_f32_e32 v20, v9
-; TONGA-NEXT:    v_cvt_u32_f32_e32 v21, v8
-; TONGA-NEXT:    v_mul_lo_u32 v18, v23, v20
-; TONGA-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v23, v21, 0
-; TONGA-NEXT:    v_mul_lo_u32 v19, v24, v21
-; TONGA-NEXT:    v_add_u32_e32 v9, vcc, v9, v18
-; TONGA-NEXT:    v_add_u32_e32 v25, vcc, v9, v19
-; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v21, v25, 0
-; TONGA-NEXT:    v_mul_hi_u32 v9, v21, v8
-; TONGA-NEXT:    v_add_u32_e32 v26, vcc, v9, v18
-; TONGA-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v20, v8, 0
-; TONGA-NEXT:    v_addc_u32_e32 v27, vcc, 0, v19, vcc
-; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v20, v25, 0
-; TONGA-NEXT:    v_add_u32_e32 v8, vcc, v26, v8
-; TONGA-NEXT:    v_addc_u32_e32 v8, vcc, v27, v9, vcc
-; TONGA-NEXT:    v_addc_u32_e32 v9, vcc, 0, v19, vcc
-; TONGA-NEXT:    v_add_u32_e32 v8, vcc, v8, v18
-; TONGA-NEXT:    v_addc_u32_e32 v9, vcc, 0, v9, vcc
-; TONGA-NEXT:    v_add_u32_e32 v25, vcc, v21, v8
-; TONGA-NEXT:    v_addc_u32_e32 v26, vcc, v20, v9, vcc
-; TONGA-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v23, v25, 0
-; TONGA-NEXT:    v_mul_lo_u32 v20, v23, v26
-; TONGA-NEXT:    v_mul_lo_u32 v21, v24, v25
-; TONGA-NEXT:    v_mul_hi_u32 v23, v25, v8
-; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v26, v8, 0
-; TONGA-NEXT:    v_add_u32_e32 v9, vcc, v20, v9
-; TONGA-NEXT:    v_add_u32_e32 v9, vcc, v9, v21
-; TONGA-NEXT:    v_mad_u64_u32 v[20:21], s[0:1], v25, v9, 0
-; TONGA-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v26, v9, 0
-; TONGA-NEXT:    v_add_u32_e32 v20, vcc, v23, v20
-; TONGA-NEXT:    v_addc_u32_e32 v21, vcc, 0, v21, vcc
+; TONGA-NEXT:    v_xor_b32_e32 v9, v9, v8
+; TONGA-NEXT:    v_xor_b32_e32 v8, v11, v8
+; TONGA-NEXT:    v_cvt_f32_u32_e32 v11, v9
+; TONGA-NEXT:    v_cvt_f32_u32_e32 v18, v8
+; TONGA-NEXT:    v_sub_u32_e32 v23, vcc, 0, v9
+; TONGA-NEXT:    v_subb_u32_e32 v24, vcc, 0, v8, vcc
+; TONGA-NEXT:    v_madmk_f32 v11, v18, 0x4f800000, v11
+; TONGA-NEXT:    v_rcp_f32_e32 v11, v11
+; TONGA-NEXT:    v_mul_f32_e32 v11, 0x5f7ffffc, v11
+; TONGA-NEXT:    v_mul_f32_e32 v18, 0x2f800000, v11
+; TONGA-NEXT:    v_trunc_f32_e32 v18, v18
+; TONGA-NEXT:    v_madmk_f32 v11, v18, 0xcf800000, v11
+; TONGA-NEXT:    v_cvt_u32_f32_e32 v22, v18
+; TONGA-NEXT:    v_cvt_u32_f32_e32 v11, v11
+; TONGA-NEXT:    v_mul_lo_u32 v20, v23, v22
+; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v23, v11, 0
+; TONGA-NEXT:    v_mul_lo_u32 v21, v24, v11
+; TONGA-NEXT:    v_add_u32_e32 v19, vcc, v19, v20
+; TONGA-NEXT:    v_add_u32_e32 v21, vcc, v19, v21
+; TONGA-NEXT:    v_mad_u64_u32 v[19:20], s[0:1], v11, v21, 0
+; TONGA-NEXT:    v_mul_hi_u32 v25, v11, v18
+; TONGA-NEXT:    v_add_u32_e32 v25, vcc, v25, v19
+; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v22, v18, 0
+; TONGA-NEXT:    v_addc_u32_e32 v26, vcc, 0, v20, vcc
+; TONGA-NEXT:    v_mad_u64_u32 v[20:21], s[0:1], v22, v21, 0
+; TONGA-NEXT:    v_add_u32_e32 v18, vcc, v25, v18
+; TONGA-NEXT:    v_addc_u32_e32 v18, vcc, v26, v19, vcc
+; TONGA-NEXT:    v_addc_u32_e32 v19, vcc, 0, v21, vcc
+; TONGA-NEXT:    v_add_u32_e32 v18, vcc, v18, v20
+; TONGA-NEXT:    v_addc_u32_e32 v19, vcc, 0, v19, vcc
+; TONGA-NEXT:    v_add_u32_e32 v11, vcc, v11, v18
+; TONGA-NEXT:    v_addc_u32_e32 v25, vcc, v22, v19, vcc
+; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v23, v11, 0
+; TONGA-NEXT:    v_mul_lo_u32 v22, v23, v25
+; TONGA-NEXT:    v_mul_lo_u32 v23, v24, v11
+; TONGA-NEXT:    v_mul_hi_u32 v24, v11, v18
+; TONGA-NEXT:    v_mad_u64_u32 v[20:21], s[0:1], v25, v18, 0
+; TONGA-NEXT:    v_add_u32_e32 v19, vcc, v22, v19
+; TONGA-NEXT:    v_add_u32_e32 v19, vcc, v19, v23
+; TONGA-NEXT:    v_mad_u64_u32 v[22:23], s[0:1], v11, v19, 0
+; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v25, v19, 0
+; TONGA-NEXT:    v_add_u32_e32 v22, vcc, v24, v22
+; TONGA-NEXT:    v_addc_u32_e32 v23, vcc, 0, v23, vcc
+; TONGA-NEXT:    v_add_u32_e32 v20, vcc, v22, v20
+; TONGA-NEXT:    v_addc_u32_e32 v20, vcc, v23, v21, vcc
+; TONGA-NEXT:    v_addc_u32_e32 v19, vcc, 0, v19, vcc
 ; TONGA-NEXT:    v_add_u32_e32 v18, vcc, v20, v18
-; TONGA-NEXT:    v_addc_u32_e32 v18, vcc, v21, v19, vcc
-; TONGA-NEXT:    v_addc_u32_e32 v9, vcc, 0, v9, vcc
-; TONGA-NEXT:    v_add_u32_e32 v8, vcc, v18, v8
-; TONGA-NEXT:    v_addc_u32_e32 v9, vcc, 0, v9, vcc
-; TONGA-NEXT:    v_add_u32_e32 v18, vcc, v25, v8
-; TONGA-NEXT:    v_addc_u32_e32 v19, vcc, v26, v9, vcc
-; TONGA-NEXT:    v_ashrrev_i32_e32 v20, 31, v15
-; TONGA-NEXT:    v_add_u32_e32 v8, vcc, v14, v20
-; TONGA-NEXT:    v_xor_b32_e32 v21, v8, v20
-; TONGA-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v21, v19, 0
-; TONGA-NEXT:    v_mul_hi_u32 v23, v21, v18
-; TONGA-NEXT:    v_addc_u32_e32 v15, vcc, v15, v20, vcc
-; TONGA-NEXT:    v_xor_b32_e32 v15, v15, v20
-; TONGA-NEXT:    v_add_u32_e32 v23, vcc, v23, v8
-; TONGA-NEXT:    v_addc_u32_e32 v24, vcc, 0, v9, vcc
-; TONGA-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v15, v18, 0
-; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v15, v19, 0
-; TONGA-NEXT:    v_add_u32_e32 v8, vcc, v23, v8
-; TONGA-NEXT:    v_addc_u32_e32 v8, vcc, v24, v9, vcc
-; TONGA-NEXT:    v_addc_u32_e32 v9, vcc, 0, v19, vcc
-; TONGA-NEXT:    v_add_u32_e32 v18, vcc, v8, v18
-; TONGA-NEXT:    v_addc_u32_e32 v8, vcc, 0, v9, vcc
-; TONGA-NEXT:    v_mul_lo_u32 v19, v22, v8
-; TONGA-NEXT:    v_mad_u64_u32 v[8:9], s[0:1], v22, v18, 0
-; TONGA-NEXT:    v_mul_lo_u32 v18, v11, v18
-; TONGA-NEXT:    v_add_u32_e32 v9, vcc, v19, v9
-; TONGA-NEXT:    v_add_u32_e32 v9, vcc, v18, v9
-; TONGA-NEXT:    v_sub_u32_e32 v18, vcc, v15, v9
-; TONGA-NEXT:    v_sub_u32_e32 v8, vcc, v21, v8
-; TONGA-NEXT:    v_subb_u32_e64 v18, s[0:1], v18, v11, vcc
-; TONGA-NEXT:    v_sub_u32_e64 v19, s[0:1], v8, v22
-; TONGA-NEXT:    v_subbrev_u32_e64 v21, s[2:3], 0, v18, s[0:1]
-; TONGA-NEXT:    v_cmp_ge_u32_e64 s[2:3], v21, v11
+; TONGA-NEXT:    v_addc_u32_e32 v19, vcc, 0, v19, vcc
+; TONGA-NEXT:    v_add_u32_e32 v11, vcc, v11, v18
+; TONGA-NEXT:    v_addc_u32_e32 v20, vcc, v25, v19, vcc
+; TONGA-NEXT:    v_ashrrev_i32_e32 v22, 31, v15
+; TONGA-NEXT:    v_add_u32_e32 v18, vcc, v14, v22
+; TONGA-NEXT:    v_xor_b32_e32 v23, v18, v22
+; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v23, v20, 0
+; TONGA-NEXT:    v_mul_hi_u32 v21, v23, v11
+; TONGA-NEXT:    v_addc_u32_e32 v15, vcc, v15, v22, vcc
+; TONGA-NEXT:    v_xor_b32_e32 v15, v15, v22
+; TONGA-NEXT:    v_add_u32_e32 v24, vcc, v21, v18
+; TONGA-NEXT:    v_addc_u32_e32 v25, vcc, 0, v19, vcc
+; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v15, v11, 0
+; TONGA-NEXT:    v_mad_u64_u32 v[20:21], s[0:1], v15, v20, 0
+; TONGA-NEXT:    v_add_u32_e32 v11, vcc, v24, v18
+; TONGA-NEXT:    v_addc_u32_e32 v11, vcc, v25, v19, vcc
+; TONGA-NEXT:    v_addc_u32_e32 v18, vcc, 0, v21, vcc
+; TONGA-NEXT:    v_add_u32_e32 v11, vcc, v11, v20
+; TONGA-NEXT:    v_addc_u32_e32 v18, vcc, 0, v18, vcc
+; TONGA-NEXT:    v_mul_lo_u32 v20, v9, v18
+; TONGA-NEXT:    v_mad_u64_u32 v[18:19], s[0:1], v9, v11, 0
+; TONGA-NEXT:    v_mul_lo_u32 v11, v8, v11
+; TONGA-NEXT:    v_add_u32_e32 v19, vcc, v20, v19
+; TONGA-NEXT:    v_add_u32_e32 v11, vcc, v11, v19
+; TONGA-NEXT:    v_sub_u32_e32 v19, vcc, v15, v11
+; TONGA-NEXT:    v_sub_u32_e32 v18, vcc, v23, v18
+; TONGA-NEXT:    v_subb_u32_e64 v19, s[0:1], v19, v8, vcc
+; TONGA-NEXT:    v_sub_u32_e64 v20, s[0:1], v18, v9
+; TONGA-NEXT:    v_subbrev_u32_e64 v21, s[2:3], 0, v19, s[0:1]
+; TONGA-NEXT:    v_cmp_ge_u32_e64 s[2:3], v21, v8
 ; TONGA-NEXT:    v_cndmask_b32_e64 v23, 0, -1, s[2:3]
-; TONGA-NEXT:    v_cmp_ge_u32_e64 s[2:3], v19, v22
+; TONGA-NEXT:    v_cmp_ge_u32_e64 s[2:3], v20, v9
+; TONGA-NEXT:    v_subb_u32_e32 v11, vcc, v15, v11, vcc
 ; TONGA-NEXT:    v_cndmask_b32_e64 v24, 0, -1, s[2:3]
-; TONGA-NEXT:    v_cmp_eq_u32_e64 s[2:3], v21, v11
-; TONGA-NEXT:    v_subb_u32_e64 v18, s[0:1], v18, v11, s[0:1]
+; TONGA-NEXT:    v_cmp_eq_u32_e64 s[2:3], v21, v8
+; TONGA-NEXT:    v_subb_u32_e64 v19, s[0:1], v19, v8, s[0:1]
+; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v11, v8
 ; TONGA-NEXT:    v_cndmask_b32_e64 v23, v23, v24, s[2:3]
-; TONGA-NEXT:    v_sub_u32_e64 v24, s[0:1], v19, v22
-; TONGA-NEXT:    v_subb_u32_e32 v9, vcc, v15, v9, vcc
-; TONGA-NEXT:    v_subbrev_u32_e64 v18, s[0:1], 0, v18, s[0:1]
-; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v9, v11
-; TONGA-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v23
+; TONGA-NEXT:    v_sub_u32_e64 v24, s[0:1], v20, v9
 ; TONGA-NEXT:    v_cndmask_b32_e64 v15, 0, -1, vcc
-; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v8, v22
-; TONGA-NEXT:    v_cndmask_b32_e64 v18, v21, v18, s[0:1]
-; TONGA-NEXT:    v_cndmask_b32_e64 v21, 0, -1, vcc
-; TONGA-NEXT:    v_cmp_eq_u32_e32 vcc, v9, v11
-; TONGA-NEXT:    v_cndmask_b32_e32 v11, v15, v21, vcc
-; TONGA-NEXT:    v_cndmask_b32_e64 v19, v19, v24, s[0:1]
-; TONGA-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v11
-; TONGA-NEXT:    v_cndmask_b32_e32 v8, v8, v19, vcc
-; TONGA-NEXT:    v_cndmask_b32_e32 v9, v9, v18, vcc
-; TONGA-NEXT:    v_xor_b32_e32 v8, v8, v20
-; TONGA-NEXT:    v_xor_b32_e32 v9, v9, v20
-; TONGA-NEXT:    v_sub_u32_e32 v8, vcc, v8, v20
-; TONGA-NEXT:    v_subb_u32_e32 v9, vcc, v9, v20, vcc
+; TONGA-NEXT:    v_cmp_ge_u32_e32 vcc, v18, v9
+; TONGA-NEXT:    v_subbrev_u32_e64 v19, s[0:1], 0, v19, s[0:1]
+; TONGA-NEXT:    v_cndmask_b32_e64 v9, 0, -1, vcc
+; TONGA-NEXT:    v_cmp_eq_u32_e32 vcc, v11, v8
+; TONGA-NEXT:    v_cmp_ne_u32_e64 s[0:1], 0, v23
+; TONGA-NEXT:    v_cndmask_b32_e32 v8, v15, v9, vcc
+; TONGA-NEXT:    v_cndmask_b32_e64 v20, v20, v24, s[0:1]
+; TONGA-NEXT:    v_cmp_ne_u32_e32 vcc, 0, v8
+; TONGA-NEXT:    v_cndmask_b32_e64 v19, v21, v19, s[0:1]
+; TONGA-NEXT:    v_cndmask_b32_e32 v9, v18, v20, vcc
+; TONGA-NEXT:    v_cndmask_b32_e32 v8, v11, v19, vcc
+; TONGA-NEXT:    v_xor_b32_e32 v9, v9, v22
+; TONGA-NEXT:    v_xor_b32_e32 v11, v8, v22
+; TONGA-NEXT:    v_sub_u32_e32 v8, vcc, v9, v22
+; TONGA-NEXT:    v_subb_u32_e32 v9, vcc, v11, v22, vcc
 ; TONGA-NEXT:    s_cbranch_execnz .LBB12_3
 ; TONGA-NEXT:  .LBB12_2:
 ; TONGA-NEXT:    v_cvt_f32_u32_e32 v8, v10
@@ -8991,33 +8991,33 @@ define amdgpu_kernel void @srem_v4i64_4(ptr addrspace(1) %out, ptr addrspace(1)
 ; TONGA-NEXT:    s_waitcnt vmcnt(1)
 ; TONGA-NEXT:    v_ashrrev_i32_e32 v12, 31, v1
 ; TONGA-NEXT:    v_lshrrev_b32_e32 v12, 30, v12
-; TONGA-NEXT:    v_ashrrev_i32_e32 v13, 31, v3
 ; TONGA-NEXT:    v_add_u32_e32 v12, vcc, v0, v12
-; TONGA-NEXT:    v_lshrrev_b32_e32 v13, 30, v13
 ; TONGA-NEXT:    v_addc_u32_e32 v16, vcc, 0, v1, vcc
+; TONGA-NEXT:    v_and_b32_e32 v12, -4, v12
+; TONGA-NEXT:    v_ashrrev_i32_e32 v13, 31, v3
+; TONGA-NEXT:    v_sub_u32_e32 v0, vcc, v0, v12
+; TONGA-NEXT:    v_lshrrev_b32_e32 v13, 30, v13
+; TONGA-NEXT:    v_subb_u32_e32 v1, vcc, v1, v16, vcc
+; TONGA-NEXT:    v_add_u32_e32 v12, vcc, v2, v13
+; TONGA-NEXT:    v_addc_u32_e32 v13, vcc, 0, v3, vcc
+; TONGA-NEXT:    v_and_b32_e32 v12, -4, v12
 ; TONGA-NEXT:    s_waitcnt vmcnt(0)
 ; TONGA-NEXT:    v_ashrrev_i32_e32 v14, 31, v5
-; TONGA-NEXT:    v_add_u32_e32 v13, vcc, v2, v13
-; TONGA-NEXT:    v_lshrrev_b32_e32 v14, 30, v14
-; TONGA-NEXT:    v_addc_u32_e32 v17, vcc, 0, v3, vcc
 ; TONGA-NEXT:    v_ashrrev_i32_e32 v15, 31, v7
-; TONGA-NEXT:    v_add_u32_e32 v14, vcc, v4, v14
+; TONGA-NEXT:    v_sub_u32_e32 v2, vcc, v2, v12
+; TONGA-NEXT:    v_lshrrev_b32_e32 v14, 30, v14
 ; TONGA-NEXT:    v_lshrrev_b32_e32 v15, 30, v15
-; TONGA-NEXT:    v_addc_u32_e32 v18, vcc, 0, v5, vcc
-; TONGA-NEXT:    v_add_u32_e32 v15, vcc, v6, v15
-; TONGA-NEXT:    v_addc_u32_e32 v19, vcc, 0, v7, vcc
+; TONGA-NEXT:    v_subb_u32_e32 v3, vcc, v3, v13, vcc
+; TONGA-NEXT:    v_add_u32_e64 v12, s[0:1], v4, v14
+; TONGA-NEXT:    v_add_u32_e32 v13, vcc, v6, v15
+; TONGA-NEXT:    v_addc_u32_e32 v15, vcc, 0, v7, vcc
 ; TONGA-NEXT:    v_and_b32_e32 v12, -4, v12
-; TONGA-NEXT:    v_sub_u32_e32 v0, vcc, v0, v12
+; TONGA-NEXT:    v_addc_u32_e64 v14, s[0:1], 0, v5, s[0:1]
+; TONGA-NEXT:    v_sub_u32_e32 v4, vcc, v4, v12
 ; TONGA-NEXT:    v_and_b32_e32 v13, -4, v13
-; TONGA-NEXT:    v_subb_u32_e32 v1, vcc, v1, v16, vcc
-; TONGA-NEXT:    v_sub_u32_e32 v2, vcc, v2, v13
-; TONGA-NEXT:    v_and_b32_e32 v14, -4, v14
-; TONGA-NEXT:    v_subb_u32_e32 v3, vcc, v3, v17, vcc
-; TONGA-NEXT:    v_sub_u32_e32 v4, vcc, v4, v14
-; TONGA-NEXT:    v_and_b32_e32 v15, -4, v15
-; TONGA-NEXT:    v_subb_u32_e32 v5, vcc, v5, v18, vcc
-; TONGA-NEXT:    v_sub_u32_e32 v6, vcc, v6, v15
-; TONGA-NEXT:    v_subb_u32_e32 v7, vcc, v7, v19, vcc
+; TONGA-NEXT:    v_subb_u32_e32 v5, vcc, v5, v14, vcc
+; TONGA-NEXT:    v_sub_u32_e32 v6, vcc, v6, v13
+; TONGA-NEXT:    v_subb_u32_e32 v7, vcc, v7, v15, vcc
 ; TONGA-NEXT:    flat_store_dwordx4 v[8:9], v[0:3]
 ; TONGA-NEXT:    flat_store_dwordx4 v[10:11], v[4:7]
 ; TONGA-NEXT:    s_endpgm
diff --git a/llvm/test/CodeGen/AMDGPU/srl.ll b/llvm/test/CodeGen/AMDGPU/srl.ll
index 29488579c1553..a9b1f7e888567 100644
--- a/llvm/test/CodeGen/AMDGPU/srl.ll
+++ b/llvm/test/CodeGen/AMDGPU/srl.ll
@@ -266,20 +266,20 @@ define amdgpu_kernel void @lshr_v4i64(ptr addrspace(1) %out, ptr addrspace(1) %i
 ; SI-NEXT:    s_waitcnt lgkmcnt(0)
 ; SI-NEXT:    s_mov_b32 s8, s6
 ; SI-NEXT:    s_mov_b32 s9, s7
-; SI-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0
-; SI-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:16
-; SI-NEXT:    buffer_load_dwordx4 v[8:11], off, s[8:11], 0 offset:32
-; SI-NEXT:    buffer_load_dwordx4 v[11:14], off, s[8:11], 0 offset:48
+; SI-NEXT:    buffer_load_dwordx4 v[0:3], off, s[8:11], 0 offset:16
+; SI-NEXT:    buffer_load_dwordx4 v[4:7], off, s[8:11], 0 offset:48
+; SI-NEXT:    buffer_load_dwordx4 v[7:10], off, s[8:11], 0
+; SI-NEXT:    buffer_load_dwordx4 v[11:14], off, s[8:11], 0 offset:32
 ; SI-NEXT:    s_mov_b32 s0, s4
 ; SI-NEXT:    s_mov_b32 s1, s5
-; SI-NEXT:    s_waitcnt vmcnt(1)
-; SI-NEXT:    v_lshr_b64 v[2:3], v[2:3], v10
+; SI-NEXT:    s_waitcnt vmcnt(2)
+; SI-NEXT:    v_lshr_b64 v[2:3], v[2:3], v6
+; SI-NEXT:    v_lshr_b64 v[0:1], v[0:1], v4
 ; SI-NEXT:    s_waitcnt vmcnt(0)
-; SI-NEXT:    v_lshr_b64 v[6:7], v[6:7], v13
-; SI-NEXT:    v_lshr_b64 v[4:5], v[4:5], v11
-; SI-NEXT:    v_lshr_b64 v[0:1], v[0:1], v8
-; SI-NEXT:    buffer_store_dwordx4 v[4:7], off, s[0:3], 0 offset:16
-; SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0
+; SI-NEXT:    v_lshr_b64 v[9:10], v[9:10], v13
+; SI-NEXT:    v_lshr_b64 v[7:8], v[7:8], v11
+; SI-NEXT:    buffer_store_dwordx4 v[0:3], off, s[0:3], 0 offset:16
+; SI-NEXT:    buffer_store_dwordx4 v[7:10], off, s[0:3], 0
 ; SI-NEXT:    s_endpgm
 ;
 ; VI-LABEL: lshr_v4i64:
diff --git a/llvm/test/CodeGen/AMDGPU/ssubsat.ll b/llvm/test/CodeGen/AMDGPU/ssubsat.ll
index 6ed19bd6d764b..30a0a26ca173e 100644
--- a/llvm/test/CodeGen/AMDGPU/ssubsat.ll
+++ b/llvm/test/CodeGen/AMDGPU/ssubsat.ll
@@ -776,14 +776,14 @@ define <16 x i32> @v_ssubsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX6-NEXT:    v_xor_b32_e32 v3, 0x80000000, v3
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
 ; GFX6-NEXT:    v_cndmask_b32_e32 v3, v16, v3, vcc
-; GFX6-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; GFX6-NEXT:    v_sub_i32_e64 v17, s[4:5], v4, v20
+; GFX6-NEXT:    v_sub_i32_e64 v16, s[4:5], v4, v20
 ; GFX6-NEXT:    v_cmp_lt_i32_e32 vcc, 0, v20
-; GFX6-NEXT:    v_cmp_lt_i32_e64 s[4:5], v17, v4
-; GFX6-NEXT:    v_ashrrev_i32_e32 v4, 31, v17
+; GFX6-NEXT:    v_cmp_lt_i32_e64 s[4:5], v16, v4
+; GFX6-NEXT:    v_ashrrev_i32_e32 v4, 31, v16
 ; GFX6-NEXT:    v_xor_b32_e32 v4, 0x80000000, v4
 ; GFX6-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; GFX6-NEXT:    v_cndmask_b32_e32 v4, v17, v4, vcc
+; GFX6-NEXT:    v_cndmask_b32_e32 v4, v16, v4, vcc
+; GFX6-NEXT:    buffer_load_dword v16, off, s[0:3], s32
 ; GFX6-NEXT:    v_sub_i32_e64 v17, s[4:5], v5, v21
 ; GFX6-NEXT:    v_cmp_lt_i32_e32 vcc, 0, v21
 ; GFX6-NEXT:    v_cmp_lt_i32_e64 s[4:5], v17, v5
@@ -895,14 +895,14 @@ define <16 x i32> @v_ssubsat_v16i32(<16 x i32> %lhs, <16 x i32> %rhs) {
 ; GFX8-NEXT:    v_xor_b32_e32 v3, 0x80000000, v3
 ; GFX8-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
 ; GFX8-NEXT:    v_cndmask_b32_e32 v3, v16, v3, vcc
-; GFX8-NEXT:    buffer_load_dword v16, off, s[0:3], s32
-; GFX8-NEXT:    v_sub_u32_e64 v17, s[4:5], v4, v20
+; GFX8-NEXT:    v_sub_u32_e64 v16, s[4:5], v4, v20
 ; GFX8-NEXT:    v_cmp_lt_i32_e32 vcc, 0, v20
-; GFX8-NEXT:    v_cmp_lt_i32_e64 s[4:5], v17, v4
-; GFX8-NEXT:    v_ashrrev_i32_e32 v4, 31, v17
+; GFX8-NEXT:    v_cmp_lt_i32_e64 s[4:5], v16, v4
+; GFX8-NEXT:    v_ashrrev_i32_e32 v4, 31, v16
 ; GFX8-NEXT:    v_xor_b32_e32 v4, 0x80000000, v4
 ; GFX8-NEXT:    s_xor_b64 vcc, vcc, s[4:5]
-; GFX8-NEXT:    v_cndmask_b32_e32 v4, v17, v4, vcc
+; GFX8-NEXT:    v_cndmask_b32_e32 v4, v16, v4, vcc
+; GFX8-NEXT:    buffer_load_dword v16, off, s[0:3], s32
 ; GFX8-NEXT:    v_sub_u32_e64 v17, s[4:5], v5, v21
 ; GFX8-NEXT:    v_cmp_lt_i32_e32 vcc, 0, v21
 ; GFX8-NEXT:    v_cmp_lt_i32_e64 s[4:5], v17, v5
diff --git a/llvm/test/CodeGen/AMDGPU/udiv.ll b/llvm/test/CodeGen/AMDGPU/udiv.ll
index 7c310477dd838..530226baa775e 100644
--- a/llvm/test/CodeGen/AMDGPU/udiv.ll
+++ b/llvm/test/CodeGen/AMDGPU/udiv.ll
@@ -862,43 +862,43 @@ define amdgpu_kernel void @udiv_v4i32(ptr addrspace(1) %out, ptr addrspace(1) %i
 ; GCN-NEXT:    v_mul_lo_u32 v14, v10, v0
 ; GCN-NEXT:    v_mul_lo_u32 v16, v11, v1
 ; GCN-NEXT:    v_mul_lo_u32 v18, v12, v2
-; GCN-NEXT:    v_mul_lo_u32 v20, v13, v3
+; GCN-NEXT:    v_mul_lo_u32 v19, v13, v3
 ; GCN-NEXT:    v_sub_u32_e32 v6, vcc, v6, v14
 ; GCN-NEXT:    v_sub_u32_e32 v7, vcc, v7, v16
 ; GCN-NEXT:    v_sub_u32_e32 v8, vcc, v8, v18
-; GCN-NEXT:    v_sub_u32_e32 v9, vcc, v9, v20
+; GCN-NEXT:    v_sub_u32_e32 v9, vcc, v9, v19
 ; GCN-NEXT:    v_add_u32_e32 v15, vcc, 1, v10
 ; GCN-NEXT:    v_add_u32_e32 v17, vcc, 1, v11
-; GCN-NEXT:    v_add_u32_e32 v19, vcc, 1, v12
-; GCN-NEXT:    v_add_u32_e32 v21, vcc, 1, v13
+; GCN-NEXT:    v_add_u32_e32 v14, vcc, 1, v12
+; GCN-NEXT:    v_add_u32_e32 v16, vcc, 1, v13
 ; GCN-NEXT:    v_cmp_ge_u32_e64 s[0:1], v6, v0
 ; GCN-NEXT:    v_cmp_ge_u32_e64 s[2:3], v7, v1
 ; GCN-NEXT:    v_cmp_ge_u32_e64 s[4:5], v8, v2
 ; GCN-NEXT:    v_cmp_ge_u32_e64 s[6:7], v9, v3
-; GCN-NEXT:    v_sub_u32_e32 v14, vcc, v6, v0
+; GCN-NEXT:    v_sub_u32_e32 v18, vcc, v6, v0
 ; GCN-NEXT:    v_cndmask_b32_e64 v10, v10, v15, s[0:1]
 ; GCN-NEXT:    v_sub_u32_e32 v15, vcc, v7, v1
 ; GCN-NEXT:    v_cndmask_b32_e64 v11, v11, v17, s[2:3]
-; GCN-NEXT:    v_sub_u32_e32 v16, vcc, v8, v2
-; GCN-NEXT:    v_cndmask_b32_e64 v12, v12, v19, s[4:5]
-; GCN-NEXT:    v_sub_u32_e32 v17, vcc, v9, v3
-; GCN-NEXT:    v_cndmask_b32_e64 v13, v13, v21, s[6:7]
-; GCN-NEXT:    v_cndmask_b32_e64 v6, v6, v14, s[0:1]
-; GCN-NEXT:    v_add_u32_e32 v14, vcc, 1, v10
+; GCN-NEXT:    v_sub_u32_e32 v17, vcc, v8, v2
+; GCN-NEXT:    v_cndmask_b32_e64 v12, v12, v14, s[4:5]
+; GCN-NEXT:    v_sub_u32_e32 v14, vcc, v9, v3
+; GCN-NEXT:    v_cndmask_b32_e64 v13, v13, v16, s[6:7]
+; GCN-NEXT:    v_cndmask_b32_e64 v6, v6, v18, s[0:1]
+; GCN-NEXT:    v_add_u32_e32 v16, vcc, 1, v10
 ; GCN-NEXT:    v_cndmask_b32_e64 v7, v7, v15, s[2:3]
 ; GCN-NEXT:    v_add_u32_e32 v15, vcc, 1, v11
-; GCN-NEXT:    v_cndmask_b32_e64 v8, v8, v16, s[4:5]
-; GCN-NEXT:    v_add_u32_e32 v16, vcc, 1, v12
-; GCN-NEXT:    v_cndmask_b32_e64 v9, v9, v17, s[6:7]
-; GCN-NEXT:    v_add_u32_e32 v17, vcc, 1, v13
+; GCN-NEXT:    v_cndmask_b32_e64 v8, v8, v17, s[4:5]
+; GCN-NEXT:    v_add_u32_e32 v17, vcc, 1, v12
+; GCN-NEXT:    v_cndmask_b32_e64 v9, v9, v14, s[6:7]
+; GCN-NEXT:    v_add_u32_e32 v14, vcc, 1, v13
 ; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v6, v0
-; GCN-NEXT:    v_cndmask_b32_e32 v0, v10, v14, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v0, v10, v16, vcc
 ; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v7, v1
 ; GCN-NEXT:    v_cndmask_b32_e32 v1, v11, v15, vcc
 ; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v8, v2
-; GCN-NEXT:    v_cndmask_b32_e32 v2, v12, v16, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v2, v12, v17, vcc
 ; GCN-NEXT:    v_cmp_ge_u32_e32 vcc, v9, v3
-; GCN-NEXT:    v_cndmask_b32_e32 v3, v13, v17, vcc
+; GCN-NEXT:    v_cndmask_b32_e32 v3, v13, v14, vcc
 ; GCN-NEXT:    flat_store_dwordx4 v[4:5], v[0:3]
 ; GCN-NEXT:    s_endpgm
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/v_sat_pk_u8_i16.ll b/llvm/test/CodeGen/AMDGPU/v_sat_pk_u8_i16.ll
index 2d84e87722951..934d9efba4656 100644
--- a/llvm/test/CodeGen/AMDGPU/v_sat_pk_u8_i16.ll
+++ b/llvm/test/CodeGen/AMDGPU/v_sat_pk_u8_i16.ll
@@ -1230,7 +1230,8 @@ define i16 @basic_smax_smin_vec_input(<2 x i16> %src) {
 ; GISEL-GFX9-NEXT:    v_pk_min_i16 v0, v1, v0
 ; GISEL-GFX9-NEXT:    v_pk_max_i16 v0, 0, v0
 ; GISEL-GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GISEL-GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GISEL-GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GISEL-GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GISEL-GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GISEL-GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
@@ -1345,7 +1346,8 @@ define i16 @basic_smax_smin_vec_input_rev(<2 x i16> %src) {
 ; GISEL-GFX9-NEXT:    v_mov_b32_e32 v1, 0xff00ff
 ; GISEL-GFX9-NEXT:    v_pk_min_i16 v0, v1, v0
 ; GISEL-GFX9-NEXT:    v_mov_b32_e32 v1, 0xff
-; GISEL-GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GISEL-GFX9-NEXT:    v_and_b32_sdwa v1, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
+; GISEL-GFX9-NEXT:    v_lshlrev_b16_e32 v1, 8, v1
 ; GISEL-GFX9-NEXT:    v_or_b32_sdwa v0, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
 ; GISEL-GFX9-NEXT:    s_setpc_b64 s[30:31]
 ;
diff --git a/llvm/test/CodeGen/AMDGPU/vector_shuffle.packed.ll b/llvm/test/CodeGen/AMDGPU/vector_shuffle.packed.ll
index e7ae9d831424c..b85bd4c634668 100644
--- a/llvm/test/CodeGen/AMDGPU/vector_shuffle.packed.ll
+++ b/llvm/test/CodeGen/AMDGPU/vector_shuffle.packed.ll
@@ -4942,78 +4942,78 @@ define amdgpu_kernel void @fma_shuffle_v2bf16(ptr addrspace(1) nocapture readonl
 ;
 ; GFX940-LABEL: fma_shuffle_v2bf16:
 ; GFX940:       ; %bb.0: ; %entry
-; GFX940-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x10
 ; GFX940-NEXT:    s_load_dwordx4 s[8:11], s[4:5], 0x0
+; GFX940-NEXT:    s_load_dwordx2 s[0:1], s[4:5], 0x10
 ; GFX940-NEXT:    v_and_b32_e32 v0, 0x3ff, v0
 ; GFX940-NEXT:    v_lshlrev_b32_e32 v6, 3, v0
 ; GFX940-NEXT:    s_movk_i32 s2, 0x7fff
 ; GFX940-NEXT:    s_mov_b32 s3, 0x7060302
 ; GFX940-NEXT:    s_waitcnt lgkmcnt(0)
-; GFX940-NEXT:    global_load_dwordx2 v[0:1], v6, s[0:1]
-; GFX940-NEXT:    global_load_dwordx2 v[2:3], v6, s[8:9]
+; GFX940-NEXT:    global_load_dwordx2 v[0:1], v6, s[8:9]
+; GFX940-NEXT:    global_load_dwordx2 v[2:3], v6, s[0:1]
 ; GFX940-NEXT:    global_load_dwordx2 v[4:5], v6, s[10:11]
 ; GFX940-NEXT:    s_waitcnt vmcnt(2)
-; GFX940-NEXT:    v_and_b32_e32 v7, 0xffff0000, v0
+; GFX940-NEXT:    v_lshlrev_b32_e32 v7, 16, v0
 ; GFX940-NEXT:    s_waitcnt vmcnt(1)
-; GFX940-NEXT:    v_lshlrev_b32_e32 v8, 16, v2
+; GFX940-NEXT:    v_and_b32_e32 v8, 0xffff0000, v2
 ; GFX940-NEXT:    s_waitcnt vmcnt(0)
 ; GFX940-NEXT:    v_and_b32_e32 v9, 0xffff0000, v4
-; GFX940-NEXT:    v_lshlrev_b32_e32 v0, 16, v0
+; GFX940-NEXT:    v_lshlrev_b32_e32 v2, 16, v2
 ; GFX940-NEXT:    v_lshlrev_b32_e32 v4, 16, v4
-; GFX940-NEXT:    v_and_b32_e32 v11, 0xffff0000, v1
-; GFX940-NEXT:    v_lshlrev_b32_e32 v12, 16, v3
-; GFX940-NEXT:    v_lshlrev_b32_e32 v1, 16, v1
-; GFX940-NEXT:    v_fmac_f32_e32 v7, v8, v9
-; GFX940-NEXT:    v_fmac_f32_e32 v0, v8, v4
-; GFX940-NEXT:    v_fmac_f32_e32 v1, v12, v4
-; GFX940-NEXT:    v_bfe_u32 v4, v7, 16, 1
-; GFX940-NEXT:    v_fmac_f32_e32 v11, v12, v9
-; GFX940-NEXT:    v_or_b32_e32 v8, 0x400000, v7
-; GFX940-NEXT:    v_bfe_u32 v9, v0, 16, 1
-; GFX940-NEXT:    v_add3_u32 v4, v4, v7, s2
-; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v7, v7
-; GFX940-NEXT:    v_or_b32_e32 v12, 0x400000, v0
-; GFX940-NEXT:    v_bfe_u32 v13, v11, 16, 1
-; GFX940-NEXT:    v_add3_u32 v9, v9, v0, s2
-; GFX940-NEXT:    v_cndmask_b32_e32 v4, v4, v8, vcc
-; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v0, v0
-; GFX940-NEXT:    v_or_b32_e32 v14, 0x400000, v11
-; GFX940-NEXT:    v_bfe_u32 v15, v1, 16, 1
-; GFX940-NEXT:    v_add3_u32 v13, v13, v11, s2
-; GFX940-NEXT:    v_cndmask_b32_e32 v0, v9, v12, vcc
-; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v11, v11
-; GFX940-NEXT:    v_and_b32_e32 v2, 0xffff0000, v2
+; GFX940-NEXT:    v_lshlrev_b32_e32 v11, 16, v1
+; GFX940-NEXT:    v_and_b32_e32 v12, 0xffff0000, v3
+; GFX940-NEXT:    v_lshlrev_b32_e32 v3, 16, v3
+; GFX940-NEXT:    v_fmac_f32_e32 v8, v7, v9
+; GFX940-NEXT:    v_fmac_f32_e32 v2, v7, v4
+; GFX940-NEXT:    v_fmac_f32_e32 v3, v11, v4
+; GFX940-NEXT:    v_bfe_u32 v4, v8, 16, 1
+; GFX940-NEXT:    v_fmac_f32_e32 v12, v11, v9
+; GFX940-NEXT:    v_or_b32_e32 v7, 0x400000, v8
+; GFX940-NEXT:    v_bfe_u32 v9, v2, 16, 1
+; GFX940-NEXT:    v_add3_u32 v4, v4, v8, s2
+; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v8, v8
+; GFX940-NEXT:    v_or_b32_e32 v11, 0x400000, v2
+; GFX940-NEXT:    v_bfe_u32 v13, v12, 16, 1
+; GFX940-NEXT:    v_add3_u32 v9, v9, v2, s2
+; GFX940-NEXT:    v_cndmask_b32_e32 v4, v4, v7, vcc
+; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v2, v2
+; GFX940-NEXT:    v_or_b32_e32 v14, 0x400000, v12
+; GFX940-NEXT:    v_bfe_u32 v15, v3, 16, 1
+; GFX940-NEXT:    v_add3_u32 v13, v13, v12, s2
+; GFX940-NEXT:    v_cndmask_b32_e32 v2, v9, v11, vcc
+; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v12, v12
+; GFX940-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
 ; GFX940-NEXT:    v_lshlrev_b32_e32 v10, 16, v5
-; GFX940-NEXT:    v_or_b32_e32 v16, 0x400000, v1
-; GFX940-NEXT:    v_add3_u32 v15, v15, v1, s2
+; GFX940-NEXT:    v_or_b32_e32 v16, 0x400000, v3
+; GFX940-NEXT:    v_add3_u32 v15, v15, v3, s2
 ; GFX940-NEXT:    v_cndmask_b32_e32 v7, v13, v14, vcc
-; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v1, v1
-; GFX940-NEXT:    v_and_b32_e32 v0, 0xffff0000, v0
+; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v3, v3
+; GFX940-NEXT:    v_and_b32_e32 v2, 0xffff0000, v2
 ; GFX940-NEXT:    v_and_b32_e32 v5, 0xffff0000, v5
-; GFX940-NEXT:    v_cndmask_b32_e32 v1, v15, v16, vcc
+; GFX940-NEXT:    v_cndmask_b32_e32 v3, v15, v16, vcc
 ; GFX940-NEXT:    v_and_b32_e32 v4, 0xffff0000, v4
-; GFX940-NEXT:    v_fmac_f32_e32 v0, v2, v10
-; GFX940-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
+; GFX940-NEXT:    v_fmac_f32_e32 v2, v0, v10
 ; GFX940-NEXT:    v_and_b32_e32 v1, 0xffff0000, v1
+; GFX940-NEXT:    v_and_b32_e32 v3, 0xffff0000, v3
 ; GFX940-NEXT:    v_and_b32_e32 v7, 0xffff0000, v7
-; GFX940-NEXT:    v_fmac_f32_e32 v4, v2, v5
-; GFX940-NEXT:    v_bfe_u32 v2, v0, 16, 1
-; GFX940-NEXT:    v_fmac_f32_e32 v1, v3, v10
-; GFX940-NEXT:    v_fmac_f32_e32 v7, v3, v5
-; GFX940-NEXT:    v_or_b32_e32 v3, 0x400000, v0
+; GFX940-NEXT:    v_fmac_f32_e32 v4, v0, v5
+; GFX940-NEXT:    v_bfe_u32 v0, v2, 16, 1
+; GFX940-NEXT:    v_fmac_f32_e32 v3, v1, v10
+; GFX940-NEXT:    v_fmac_f32_e32 v7, v1, v5
+; GFX940-NEXT:    v_or_b32_e32 v1, 0x400000, v2
 ; GFX940-NEXT:    v_bfe_u32 v5, v4, 16, 1
-; GFX940-NEXT:    v_add3_u32 v2, v2, v0, s2
-; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v0, v0
+; GFX940-NEXT:    v_add3_u32 v0, v0, v2, s2
+; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v2, v2
 ; GFX940-NEXT:    v_or_b32_e32 v8, 0x400000, v4
-; GFX940-NEXT:    v_bfe_u32 v9, v1, 16, 1
+; GFX940-NEXT:    v_bfe_u32 v9, v3, 16, 1
 ; GFX940-NEXT:    v_add3_u32 v5, v5, v4, s2
-; GFX940-NEXT:    v_cndmask_b32_e32 v0, v2, v3, vcc
+; GFX940-NEXT:    v_cndmask_b32_e32 v0, v0, v1, vcc
 ; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v4, v4
-; GFX940-NEXT:    v_or_b32_e32 v10, 0x400000, v1
+; GFX940-NEXT:    v_or_b32_e32 v10, 0x400000, v3
 ; GFX940-NEXT:    v_bfe_u32 v11, v7, 16, 1
-; GFX940-NEXT:    v_add3_u32 v9, v9, v1, s2
+; GFX940-NEXT:    v_add3_u32 v9, v9, v3, s2
 ; GFX940-NEXT:    v_cndmask_b32_e32 v2, v5, v8, vcc
-; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v1, v1
+; GFX940-NEXT:    v_cmp_u_f32_e32 vcc, v3, v3
 ; GFX940-NEXT:    v_or_b32_e32 v12, 0x400000, v7
 ; GFX940-NEXT:    v_add3_u32 v11, v11, v7, s2
 ; GFX940-NEXT:    v_cndmask_b32_e32 v1, v9, v10, vcc
diff --git a/llvm/test/CodeGen/DirectX/ResourceAccess/load_rawbuffer.ll b/llvm/test/CodeGen/DirectX/ResourceAccess/load_rawbuffer.ll
new file mode 100644
index 0000000000000..5d2e4041c3ea0
--- /dev/null
+++ b/llvm/test/CodeGen/DirectX/ResourceAccess/load_rawbuffer.ll
@@ -0,0 +1,167 @@
+; RUN: opt -S -dxil-resource-access %s | FileCheck %s
+
+target triple = "dxil-pc-shadermodel6.6-compute"
+
+declare void @f32_user(float)
+declare void @v4f32_user(<4 x float>)
+declare void @i32_user(i32)
+declare void @v4i32_user(<4 x i32>)
+declare void @v3f16_user(<3 x half>)
+declare void @v4f64_user(<4 x double>)
+
+; CHECK-LABEL: define void @loadf32_struct
+define void @loadf32_struct(i32 %index) {
+  %buffer = call target("dx.RawBuffer", float, 0, 0, 0)
+      @llvm.dx.resource.handlefrombinding.tdx.RawBuffer_f32_0_0_0(
+          i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", float, 0, 0, 0) %buffer, i32 %index)
+
+  ; CHECK: %[[LOAD:.*]] = call { float, i1 } @llvm.dx.resource.load.rawbuffer.f32.tdx.RawBuffer_f32_0_0_0t(target("dx.RawBuffer", float, 0, 0, 0) %buffer, i32 %index, i32 0)
+  ; CHECK: %[[VAL:.*]] = extractvalue { float, i1 } %[[LOAD]], 0
+  ; CHECK: call void @f32_user(float %[[VAL]])
+  %data = load float, ptr %ptr
+  call void @f32_user(float %data)
+
+  ret void
+}
+
+; CHECK-LABEL: define void @loadf32_byte
+define void @loadf32_byte(i32 %offset) {
+  %buffer = call target("dx.RawBuffer", i8, 0, 0, 0)
+      @llvm.dx.resource.handlefrombinding.tdx.RawBuffer_i8_0_0_0(
+          i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", i8, 0, 0, 0) %buffer, i32 %offset)
+
+  ; CHECK: %[[LOAD:.*]] = call { float, i1 } @llvm.dx.resource.load.rawbuffer.f32.tdx.RawBuffer_i8_0_0_0t(target("dx.RawBuffer", i8, 0, 0, 0) %buffer, i32 %offset, i32 0)
+  ; CHECK: %[[VAL:.*]] = extractvalue { float, i1 } %[[LOAD]], 0
+  ; CHECK: call void @f32_user(float %[[VAL]])
+  %data = load float, ptr %ptr
+  call void @f32_user(float %data)
+
+  ret void
+}
+
+; CHECK-LABEL: define void @loadv4f32_struct
+define void @loadv4f32_struct(i32 %index) {
+  %buffer = call target("dx.RawBuffer", <4 x float>, 0, 0, 0)
+      @llvm.dx.resource.handlefrombinding.tdx.RawBuffer_v4f32_0_0_0(
+          i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", <4 x float>, 0, 0, 0) %buffer, i32 %index)
+
+  ; CHECK: %[[LOAD:.*]] = call { <4 x float>, i1 } @llvm.dx.resource.load.rawbuffer.v4f32.tdx.RawBuffer_v4f32_0_0_0t(target("dx.RawBuffer", <4 x float>, 0, 0, 0) %buffer, i32 %index, i32 0)
+  ; CHECK: %[[VAL:.*]] = extractvalue { <4 x float>, i1 } %[[LOAD]], 0
+  ; CHECK: call void @v4f32_user(<4 x float> %[[VAL]])
+  %data = load <4 x float>, ptr %ptr
+  call void @v4f32_user(<4 x float> %data)
+
+  ret void
+}
+
+; CHECK-LABEL: define void @loadv4f32_byte
+define void @loadv4f32_byte(i32 %offset) {
+  %buffer = call target("dx.RawBuffer", i8, 0, 0, 0)
+      @llvm.dx.resource.handlefrombinding.tdx.RawBuffer_i8_0_0_0(
+          i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", i8, 0, 0, 0) %buffer, i32 %offset)
+
+  ; CHECK: %[[LOAD:.*]] = call { <4 x float>, i1 } @llvm.dx.resource.load.rawbuffer.v4f32.tdx.RawBuffer_i8_0_0_0t(target("dx.RawBuffer", i8, 0, 0, 0) %buffer, i32 %offset, i32 0)
+  ; CHECK: %[[VAL:.*]] = extractvalue { <4 x float>, i1 } %[[LOAD]], 0
+  ; CHECK: call void @v4f32_user(<4 x float> %[[VAL]]
+  %data = load <4 x float>, ptr %ptr
+  call void @v4f32_user(<4 x float> %data)
+
+  ret void
+}
+
+; CHECK-LABEL: define void @loadelements
+define void @loadelements(i32 %index) {
+  %buffer = call target("dx.RawBuffer", {<4 x float>, <4 x i32>}, 0, 0, 0)
+      @llvm.dx.resource.handlefrombinding.tdx.RawBuffer_sl_v4f32v4i32s_0_0_0(
+          i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", {<4 x float>, <4 x i32>}, 0, 0, 0) %buffer,
+      i32 %index)
+
+  ; CHECK: %[[LOADF32:.*]] = call { <4 x float>, i1 } @llvm.dx.resource.load.rawbuffer.v4f32.tdx.RawBuffer_sl_v4f32v4i32s_0_0_0t(target("dx.RawBuffer", { <4 x float>, <4 x i32> }, 0, 0, 0) %buffer, i32 %index, i32 0)
+  ; CHECK: %[[VALF32:.*]] = extractvalue { <4 x float>, i1 } %[[LOADF32]], 0
+  ; CHECK: call void @v4f32_user(<4 x float> %[[VALF32]]
+  %dataf32 = load <4 x float>, ptr %ptr
+  call void @v4f32_user(<4 x float> %dataf32)
+
+  ; CHECK: %[[LOADI32:.*]] = call { <4 x i32>, i1 } @llvm.dx.resource.load.rawbuffer.v4i32.tdx.RawBuffer_sl_v4f32v4i32s_0_0_0t(target("dx.RawBuffer", { <4 x float>, <4 x i32> }, 0, 0, 0) %buffer, i32 %index, i32 16)
+  ; CHECK: %[[VALI32:.*]] = extractvalue { <4 x i32>, i1 } %[[LOADI32]], 0
+  ; CHECK: call void @v4i32_user(<4 x i32> %[[VALI32]]
+  %addri32 = getelementptr inbounds nuw i8, ptr %ptr, i32 16
+  %datai32 = load <4 x i32>, ptr %addri32
+  call void @v4i32_user(<4 x i32> %datai32)
+
+  ret void
+}
+
+; CHECK-LABEL: define void @loadnested
+define void @loadnested(i32 %index) {
+  %buffer = call
+      target("dx.RawBuffer", {i32, {<4 x float>, <3 x half>}}, 0, 0, 0)
+      @llvm.dx.resource.handlefrombinding(i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", {i32, {<4 x float>, <3 x half>}}, 0, 0, 0) %buffer,
+      i32 %index)
+
+  ; CHECK: %[[LOADI32:.*]] = call { i32, i1 } @llvm.dx.resource.load.rawbuffer.i32.tdx.RawBuffer_sl_i32sl_v4f32v3f16ss_0_0_0t(target("dx.RawBuffer", { i32, { <4 x float>, <3 x half> } }, 0, 0, 0) %buffer, i32 %index, i32 0)
+  ; CHECK: %[[VALI32:.*]] = extractvalue { i32, i1 } %[[LOADI32]], 0
+  ; CHECK: call void @i32_user(i32 %[[VALI32]])
+  %datai32 = load i32, ptr %ptr
+  call void @i32_user(i32 %datai32)
+
+  ; CHECK: %[[LOADF32:.*]] = call { <4 x float>, i1 } @llvm.dx.resource.load.rawbuffer.v4f32.tdx.RawBuffer_sl_i32sl_v4f32v3f16ss_0_0_0t(target("dx.RawBuffer", { i32, { <4 x float>, <3 x half> } }, 0, 0, 0) %buffer, i32 %index, i32 4)
+  ; CHECK: %[[VALF32:.*]] = extractvalue { <4 x float>, i1 } %[[LOADF32]], 0
+  ; CHECK: call void @v4f32_user(<4 x float> %[[VALF32]])
+  %addrf32 = getelementptr inbounds nuw i8, ptr %ptr, i32 4
+  %dataf32 = load <4 x float>, ptr %addrf32
+  call void @v4f32_user(<4 x float> %dataf32)
+
+  ; CHECK: %[[LOADF16:.*]] = call { <3 x half>, i1 } @llvm.dx.resource.load.rawbuffer.v3f16.tdx.RawBuffer_sl_i32sl_v4f32v3f16ss_0_0_0t(target("dx.RawBuffer", { i32, { <4 x float>, <3 x half> } }, 0, 0, 0) %buffer, i32 %index, i32 20)
+  ; CHECK: %[[VALF16:.*]] = extractvalue { <3 x half>, i1 } %[[LOADF16]], 0
+  ; CHECK: call void @v3f16_user(<3 x half> %[[VALF16]])
+  %addrf16 = getelementptr inbounds nuw i8, ptr %ptr, i32 20
+  %dataf16 = load <3 x half>, ptr %addrf16
+  call void @v3f16_user(<3 x half> %dataf16)
+
+  ret void
+}
+
+; byteaddressbuf.Load<int64_t4>
+; CHECK-LABEL: define void @loadv4f64_byte
+define void @loadv4f64_byte(i32 %offset) {
+  %buffer = call target("dx.RawBuffer", i8, 0, 0, 0)
+      @llvm.dx.resource.handlefrombinding.tdx.RawBuffer_i8_0_0_0(
+          i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", i8, 0, 0, 0) %buffer, i32 %offset)
+
+  ; CHECK: %[[LOAD:.*]] = call { <4 x double>, i1 } @llvm.dx.resource.load.rawbuffer.v4f64.tdx.RawBuffer_i8_0_0_0t(target("dx.RawBuffer", i8, 0, 0, 0) %buffer, i32 %offset, i32 0)
+  ; CHECK: %[[VAL:.*]] = extractvalue { <4 x double>, i1 } %[[LOAD]], 0
+  ; CHECK: call void @v4f64_user(<4 x double> %[[VAL]])
+  %data = load <4 x double>, ptr %ptr
+  call void @v4f64_user(<4 x double> %data)
+
+  ret void
+}
diff --git a/llvm/test/CodeGen/DirectX/ResourceAccess/store_rawbuffer.ll b/llvm/test/CodeGen/DirectX/ResourceAccess/store_rawbuffer.ll
new file mode 100644
index 0000000000000..b19f9d04a2dff
--- /dev/null
+++ b/llvm/test/CodeGen/DirectX/ResourceAccess/store_rawbuffer.ll
@@ -0,0 +1,124 @@
+; RUN: opt -S -dxil-resource-access %s | FileCheck %s
+
+target triple = "dxil-pc-shadermodel6.6-compute"
+
+; CHECK-LABEL: define void @storef32_struct
+define void @storef32_struct(i32 %index, float %data) {
+  %buffer = call target("dx.RawBuffer", float, 1, 0, 0)
+      @llvm.dx.resource.handlefrombinding(i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", float, 1, 0, 0) %buffer, i32 %index)
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_f32_1_0_0t.f32(target("dx.RawBuffer", float, 1, 0, 0) %buffer, i32 %index, i32 0, float %data)
+  store float %data, ptr %ptr
+
+  ret void
+}
+
+; CHECK-LABEL: define void @storef32_byte
+define void @storef32_byte(i32 %offset, float %data) {
+  %buffer = call target("dx.RawBuffer", i8, 1, 0, 0)
+      @llvm.dx.resource.handlefrombinding(i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", i8, 1, 0, 0) %buffer, i32 %offset)
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_i8_1_0_0t.f32(target("dx.RawBuffer", i8, 1, 0, 0) %buffer, i32 %offset, i32 0, float %data)
+  store float %data, ptr %ptr
+
+  ret void
+}
+
+; CHECK-LABEL: define void @storev4f32_struct
+define void @storev4f32_struct(i32 %index, <4 x float> %data) {
+  %buffer = call target("dx.RawBuffer", <4 x float>, 1, 0, 0)
+      @llvm.dx.resource.handlefrombinding(i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", <4 x float>, 1, 0, 0) %buffer, i32 %index)
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_v4f32_1_0_0t.v4f32(target("dx.RawBuffer", <4 x float>, 1, 0, 0) %buffer, i32 %index, i32 0, <4 x float> %data)
+  store <4 x float> %data, ptr %ptr
+
+  ret void
+}
+
+; CHECK-LABEL: define void @storev4f32_byte
+define void @storev4f32_byte(i32 %offset, <4 x float> %data) {
+  %buffer = call target("dx.RawBuffer", i8, 1, 0, 0)
+      @llvm.dx.resource.handlefrombinding(i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", i8, 1, 0, 0) %buffer, i32 %offset)
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_i8_1_0_0t.v4f32(target("dx.RawBuffer", i8, 1, 0, 0) %buffer, i32 %offset, i32 0, <4 x float> %data)
+  store <4 x float> %data, ptr %ptr
+
+  ret void
+}
+
+; CHECK-LABEL: define void @storeelements
+define void @storeelements(i32 %index, <4 x float> %dataf32, <4 x i32> %datai32) {
+  %buffer = call target("dx.RawBuffer", {<4 x float>, <4 x i32>}, 1, 0, 0)
+      @llvm.dx.resource.handlefrombinding(i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", {<4 x float>, <4 x i32>}, 1, 0, 0) %buffer,
+      i32 %index)
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_sl_v4f32v4i32s_1_0_0t.v4f32(target("dx.RawBuffer", { <4 x float>, <4 x i32> }, 1, 0, 0) %buffer, i32 %index, i32 0, <4 x float> %dataf32)
+  store <4 x float> %dataf32, ptr %ptr
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_sl_v4f32v4i32s_1_0_0t.v4i32(target("dx.RawBuffer", { <4 x float>, <4 x i32> }, 1, 0, 0) %buffer, i32 %index, i32 16, <4 x i32> %datai32)
+  %addri32 = getelementptr inbounds nuw i8, ptr %ptr, i32 16
+  store <4 x i32> %datai32, ptr %addri32
+
+  ret void
+}
+
+; CHECK-LABEL: define void @storenested
+define void @storenested(i32 %index, i32 %datai32, <4 x float> %dataf32, <3 x half> %dataf16) {
+  %buffer = call
+      target("dx.RawBuffer", {i32, {<4 x float>, <3 x half>}}, 1, 0, 0)
+      @llvm.dx.resource.handlefrombinding(i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", {i32, {<4 x float>, <3 x half>}}, 1, 0, 0) %buffer,
+      i32 %index)
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_sl_i32sl_v4f32v3f16ss_1_0_0t.i32(target("dx.RawBuffer", { i32, { <4 x float>, <3 x half> } }, 1, 0, 0) %buffer, i32 %index, i32 0, i32 %datai32)
+  store i32 %datai32, ptr %ptr
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_sl_i32sl_v4f32v3f16ss_1_0_0t.v4f32(target("dx.RawBuffer", { i32, { <4 x float>, <3 x half> } }, 1, 0, 0) %buffer, i32 %index, i32 4, <4 x float> %dataf32)
+  %addrf32 = getelementptr inbounds nuw i8, ptr %ptr, i32 4
+  store <4 x float> %dataf32, ptr %addrf32
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_sl_i32sl_v4f32v3f16ss_1_0_0t.v3f16(target("dx.RawBuffer", { i32, { <4 x float>, <3 x half> } }, 1, 0, 0) %buffer, i32 %index, i32 20, <3 x half> %dataf16)
+  %addrf16 = getelementptr inbounds nuw i8, ptr %ptr, i32 20
+  store <3 x half> %dataf16, ptr %addrf16
+
+  ret void
+}
+
+; byteaddressbuf.Store<int64_t4>
+; CHECK-LABEL: define void @storev4f64_byte
+define void @storev4f64_byte(i32 %offset, <4 x double> %data) {
+  %buffer = call target("dx.RawBuffer", i8, 1, 0, 0)
+      @llvm.dx.resource.handlefrombinding(i32 0, i32 0, i32 1, i32 0, i1 false)
+
+  ; CHECK-NOT: @llvm.dx.resource.getpointer
+  %ptr = call ptr @llvm.dx.resource.getpointer(
+      target("dx.RawBuffer", i8, 1, 0, 0) %buffer, i32 %offset)
+
+  ; CHECK: call void @llvm.dx.resource.store.rawbuffer.tdx.RawBuffer_i8_1_0_0t.v4f64(target("dx.RawBuffer", i8, 1, 0, 0) %buffer, i32 %offset, i32 0, <4 x double> %data)
+  store <4 x double> %data, ptr %ptr
+
+  ret void
+}
diff --git a/llvm/test/CodeGen/LoongArch/smul-with-overflow.ll b/llvm/test/CodeGen/LoongArch/smul-with-overflow.ll
index 67a10d4bcbaea..43d56e5d5eb2f 100644
--- a/llvm/test/CodeGen/LoongArch/smul-with-overflow.ll
+++ b/llvm/test/CodeGen/LoongArch/smul-with-overflow.ll
@@ -10,43 +10,33 @@ define zeroext i1 @smuloi64(i64 %v1, i64 %v2, ptr %res) {
 ; LA32-NEXT:    add.w $a5, $a6, $a5
 ; LA32-NEXT:    sltu $a6, $a5, $a6
 ; LA32-NEXT:    mulh.wu $a7, $a1, $a2
+; LA32-NEXT:    srai.w $t0, $a1, 31
+; LA32-NEXT:    mul.w $t0, $t0, $a2
+; LA32-NEXT:    add.w $a7, $a7, $t0
 ; LA32-NEXT:    add.w $a6, $a7, $a6
-; LA32-NEXT:    mul.w $a7, $a0, $a3
-; LA32-NEXT:    add.w $a5, $a7, $a5
-; LA32-NEXT:    sltu $a7, $a5, $a7
-; LA32-NEXT:    mulh.wu $t0, $a0, $a3
-; LA32-NEXT:    add.w $a7, $t0, $a7
-; LA32-NEXT:    add.w $a7, $a6, $a7
-; LA32-NEXT:    mul.w $t0, $a1, $a3
-; LA32-NEXT:    add.w $t1, $t0, $a7
-; LA32-NEXT:    srai.w $t2, $a1, 31
-; LA32-NEXT:    mul.w $t3, $a2, $t2
-; LA32-NEXT:    srai.w $t4, $a3, 31
-; LA32-NEXT:    mul.w $t5, $t4, $a0
-; LA32-NEXT:    add.w $t6, $t5, $t3
-; LA32-NEXT:    add.w $t7, $t1, $t6
-; LA32-NEXT:    sltu $t8, $t7, $t1
-; LA32-NEXT:    sltu $t0, $t1, $t0
-; LA32-NEXT:    sltu $a6, $a7, $a6
-; LA32-NEXT:    mulh.wu $a7, $a1, $a3
+; LA32-NEXT:    mulh.wu $a7, $a0, $a3
+; LA32-NEXT:    srai.w $t0, $a3, 31
+; LA32-NEXT:    mul.w $t0, $a0, $t0
+; LA32-NEXT:    add.w $a7, $a7, $t0
+; LA32-NEXT:    mul.w $t0, $a0, $a3
+; LA32-NEXT:    add.w $a5, $t0, $a5
+; LA32-NEXT:    sltu $t0, $a5, $t0
+; LA32-NEXT:    add.w $a7, $a7, $t0
+; LA32-NEXT:    add.w $t0, $a6, $a7
+; LA32-NEXT:    sltu $t1, $t0, $a6
+; LA32-NEXT:    srai.w $a6, $a6, 31
+; LA32-NEXT:    srai.w $a7, $a7, 31
+; LA32-NEXT:    add.w $a6, $a6, $a7
+; LA32-NEXT:    add.w $a6, $a6, $t1
+; LA32-NEXT:    mulh.w $a7, $a1, $a3
 ; LA32-NEXT:    add.w $a6, $a7, $a6
-; LA32-NEXT:    add.w $a6, $a6, $t0
-; LA32-NEXT:    mulh.wu $a7, $a2, $t2
-; LA32-NEXT:    add.w $a7, $a7, $t3
-; LA32-NEXT:    mul.w $a3, $a3, $t2
-; LA32-NEXT:    add.w $a3, $a7, $a3
-; LA32-NEXT:    mul.w $a1, $t4, $a1
-; LA32-NEXT:    mulh.wu $a7, $t4, $a0
-; LA32-NEXT:    add.w $a1, $a7, $a1
-; LA32-NEXT:    add.w $a1, $a1, $t5
-; LA32-NEXT:    add.w $a1, $a1, $a3
-; LA32-NEXT:    sltu $a3, $t6, $t5
-; LA32-NEXT:    add.w $a1, $a1, $a3
+; LA32-NEXT:    mul.w $a1, $a1, $a3
+; LA32-NEXT:    add.w $a3, $a1, $t0
+; LA32-NEXT:    sltu $a1, $a3, $a1
 ; LA32-NEXT:    add.w $a1, $a6, $a1
-; LA32-NEXT:    add.w $a1, $a1, $t8
-; LA32-NEXT:    srai.w $a3, $a5, 31
-; LA32-NEXT:    xor $a1, $a1, $a3
-; LA32-NEXT:    xor $a3, $t7, $a3
+; LA32-NEXT:    srai.w $a6, $a5, 31
+; LA32-NEXT:    xor $a1, $a1, $a6
+; LA32-NEXT:    xor $a3, $a3, $a6
 ; LA32-NEXT:    or $a1, $a3, $a1
 ; LA32-NEXT:    sltu $a1, $zero, $a1
 ; LA32-NEXT:    mul.w $a0, $a0, $a2
@@ -74,19 +64,19 @@ define zeroext i1 @smuloi64(i64 %v1, i64 %v2, ptr %res) {
 define zeroext i1 @smuloi128(i128 %v1, i128 %v2, ptr %res) {
 ; LA32-LABEL: smuloi128:
 ; LA32:       # %bb.0:
-; LA32-NEXT:    addi.w $sp, $sp, -96
-; LA32-NEXT:    .cfi_def_cfa_offset 96
-; LA32-NEXT:    st.w $ra, $sp, 92 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $fp, $sp, 88 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $s0, $sp, 84 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $s1, $sp, 80 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $s2, $sp, 76 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $s3, $sp, 72 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $s4, $sp, 68 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $s5, $sp, 64 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $s6, $sp, 60 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $s7, $sp, 56 # 4-byte Folded Spill
-; LA32-NEXT:    st.w $s8, $sp, 52 # 4-byte Folded Spill
+; LA32-NEXT:    addi.w $sp, $sp, -48
+; LA32-NEXT:    .cfi_def_cfa_offset 48
+; LA32-NEXT:    st.w $ra, $sp, 44 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $fp, $sp, 40 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $s0, $sp, 36 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $s1, $sp, 32 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $s2, $sp, 28 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $s3, $sp, 24 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $s4, $sp, 20 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $s5, $sp, 16 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $s6, $sp, 12 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $s7, $sp, 8 # 4-byte Folded Spill
+; LA32-NEXT:    st.w $s8, $sp, 4 # 4-byte Folded Spill
 ; LA32-NEXT:    .cfi_offset 1, -4
 ; LA32-NEXT:    .cfi_offset 22, -8
 ; LA32-NEXT:    .cfi_offset 23, -12
@@ -98,295 +88,218 @@ define zeroext i1 @smuloi128(i128 %v1, i128 %v2, ptr %res) {
 ; LA32-NEXT:    .cfi_offset 29, -36
 ; LA32-NEXT:    .cfi_offset 30, -40
 ; LA32-NEXT:    .cfi_offset 31, -44
-; LA32-NEXT:    st.w $a2, $sp, 48 # 4-byte Folded Spill
-; LA32-NEXT:    ld.w $t0, $a1, 12
-; LA32-NEXT:    ld.w $t1, $a1, 8
-; LA32-NEXT:    ld.w $a5, $a0, 12
-; LA32-NEXT:    ld.w $a7, $a1, 0
-; LA32-NEXT:    ld.w $a3, $a0, 0
-; LA32-NEXT:    ld.w $a6, $a0, 4
-; LA32-NEXT:    ld.w $a4, $a0, 8
-; LA32-NEXT:    ld.w $t3, $a1, 4
-; LA32-NEXT:    mulh.wu $a0, $a3, $a7
-; LA32-NEXT:    mul.w $a1, $a6, $a7
+; LA32-NEXT:    ld.w $a5, $a1, 12
+; LA32-NEXT:    ld.w $a6, $a1, 8
+; LA32-NEXT:    ld.w $t1, $a0, 4
+; LA32-NEXT:    ld.w $a3, $a1, 0
+; LA32-NEXT:    ld.w $a7, $a0, 8
+; LA32-NEXT:    ld.w $t0, $a0, 12
+; LA32-NEXT:    ld.w $a4, $a0, 0
+; LA32-NEXT:    ld.w $t2, $a1, 4
+; LA32-NEXT:    mulh.wu $a0, $a7, $a3
+; LA32-NEXT:    mul.w $a1, $t0, $a3
 ; LA32-NEXT:    add.w $a0, $a1, $a0
 ; LA32-NEXT:    sltu $a1, $a0, $a1
-; LA32-NEXT:    mulh.wu $t2, $a6, $a7
-; LA32-NEXT:    add.w $a1, $t2, $a1
-; LA32-NEXT:    mul.w $t2, $a3, $t3
-; LA32-NEXT:    add.w $a0, $t2, $a0
-; LA32-NEXT:    st.w $a0, $sp, 44 # 4-byte Folded Spill
-; LA32-NEXT:    sltu $t2, $a0, $t2
-; LA32-NEXT:    mulh.wu $t4, $a3, $t3
-; LA32-NEXT:    add.w $t2, $t4, $t2
-; LA32-NEXT:    add.w $t2, $a1, $t2
-; LA32-NEXT:    mul.w $t4, $a6, $t3
-; LA32-NEXT:    add.w $t5, $t4, $t2
-; LA32-NEXT:    sltu $t4, $t5, $t4
-; LA32-NEXT:    sltu $a1, $t2, $a1
-; LA32-NEXT:    mulh.wu $t2, $a6, $t3
-; LA32-NEXT:    add.w $a1, $t2, $a1
-; LA32-NEXT:    add.w $a1, $a1, $t4
-; LA32-NEXT:    mulh.wu $t2, $a4, $a7
-; LA32-NEXT:    mul.w $t4, $a5, $a7
+; LA32-NEXT:    mulh.wu $t3, $t0, $a3
+; LA32-NEXT:    add.w $a1, $t3, $a1
+; LA32-NEXT:    mul.w $t3, $a7, $t2
+; LA32-NEXT:    add.w $t4, $t3, $a0
+; LA32-NEXT:    sltu $a0, $t4, $t3
+; LA32-NEXT:    mulh.wu $t3, $a7, $t2
+; LA32-NEXT:    add.w $a0, $t3, $a0
+; LA32-NEXT:    add.w $t3, $a1, $a0
+; LA32-NEXT:    mul.w $t5, $t0, $t2
+; LA32-NEXT:    add.w $t6, $t5, $t3
+; LA32-NEXT:    srai.w $a0, $t0, 31
+; LA32-NEXT:    mul.w $t7, $a3, $a0
+; LA32-NEXT:    add.w $t8, $t6, $t7
+; LA32-NEXT:    sltu $fp, $t8, $t6
+; LA32-NEXT:    sltu $t5, $t6, $t5
+; LA32-NEXT:    sltu $a1, $t3, $a1
+; LA32-NEXT:    mulh.wu $t3, $t0, $t2
+; LA32-NEXT:    add.w $a1, $t3, $a1
+; LA32-NEXT:    add.w $a1, $a1, $t5
+; LA32-NEXT:    mulh.wu $t3, $a3, $a0
+; LA32-NEXT:    add.w $t3, $t3, $t7
+; LA32-NEXT:    mul.w $t5, $t2, $a0
+; LA32-NEXT:    add.w $t3, $t3, $t5
+; LA32-NEXT:    add.w $a1, $a1, $t3
+; LA32-NEXT:    add.w $t3, $a1, $fp
+; LA32-NEXT:    mulh.wu $a1, $a4, $a3
+; LA32-NEXT:    mul.w $t5, $t1, $a3
+; LA32-NEXT:    add.w $a1, $t5, $a1
+; LA32-NEXT:    sltu $t5, $a1, $t5
+; LA32-NEXT:    mulh.wu $t6, $t1, $a3
+; LA32-NEXT:    add.w $t5, $t6, $t5
+; LA32-NEXT:    mul.w $t6, $a4, $t2
+; LA32-NEXT:    add.w $a1, $t6, $a1
+; LA32-NEXT:    sltu $t6, $a1, $t6
+; LA32-NEXT:    mulh.wu $t7, $a4, $t2
+; LA32-NEXT:    add.w $t6, $t7, $t6
+; LA32-NEXT:    add.w $t6, $t5, $t6
+; LA32-NEXT:    mul.w $t7, $t1, $t2
+; LA32-NEXT:    add.w $fp, $t7, $t6
+; LA32-NEXT:    sltu $t7, $fp, $t7
+; LA32-NEXT:    sltu $t5, $t6, $t5
+; LA32-NEXT:    mulh.wu $t2, $t1, $t2
+; LA32-NEXT:    add.w $t2, $t2, $t5
+; LA32-NEXT:    add.w $t2, $t2, $t7
 ; LA32-NEXT:    add.w $t2, $t4, $t2
-; LA32-NEXT:    mul.w $t6, $a4, $t3
-; LA32-NEXT:    add.w $t7, $t6, $t2
-; LA32-NEXT:    add.w $a1, $t7, $a1
-; LA32-NEXT:    mul.w $t8, $a4, $a7
-; LA32-NEXT:    add.w $t5, $t8, $t5
-; LA32-NEXT:    sltu $t8, $t5, $t8
-; LA32-NEXT:    add.w $a1, $a1, $t8
-; LA32-NEXT:    sltu $fp, $a1, $t7
-; LA32-NEXT:    xor $s0, $a1, $t7
-; LA32-NEXT:    sltui $s0, $s0, 1
-; LA32-NEXT:    masknez $fp, $fp, $s0
-; LA32-NEXT:    maskeqz $t8, $t8, $s0
-; LA32-NEXT:    or $t8, $t8, $fp
-; LA32-NEXT:    sltu $t2, $t2, $t4
-; LA32-NEXT:    mulh.wu $t4, $a5, $a7
-; LA32-NEXT:    add.w $t4, $t4, $t2
-; LA32-NEXT:    sltu $t2, $t7, $t6
-; LA32-NEXT:    mulh.wu $t6, $a4, $t3
-; LA32-NEXT:    add.w $t2, $t6, $t2
-; LA32-NEXT:    add.w $fp, $t4, $t2
-; LA32-NEXT:    mul.w $t6, $a5, $t3
-; LA32-NEXT:    add.w $s0, $t6, $fp
+; LA32-NEXT:    mul.w $t5, $a7, $a3
+; LA32-NEXT:    add.w $t6, $t5, $fp
+; LA32-NEXT:    sltu $t5, $t6, $t5
+; LA32-NEXT:    add.w $t2, $t2, $t5
+; LA32-NEXT:    sltu $t7, $t2, $t4
+; LA32-NEXT:    xor $t4, $t2, $t4
+; LA32-NEXT:    sltui $t4, $t4, 1
+; LA32-NEXT:    masknez $t7, $t7, $t4
+; LA32-NEXT:    maskeqz $t4, $t5, $t4
+; LA32-NEXT:    or $t4, $t4, $t7
+; LA32-NEXT:    add.w $t5, $t8, $t4
+; LA32-NEXT:    sltu $t4, $t5, $t8
+; LA32-NEXT:    add.w $t4, $t3, $t4
+; LA32-NEXT:    mulh.wu $t3, $a4, $a6
+; LA32-NEXT:    mul.w $t7, $t1, $a6
+; LA32-NEXT:    add.w $t3, $t7, $t3
+; LA32-NEXT:    sltu $t7, $t3, $t7
+; LA32-NEXT:    mulh.wu $t8, $t1, $a6
+; LA32-NEXT:    add.w $t7, $t8, $t7
+; LA32-NEXT:    mul.w $t8, $a4, $a5
+; LA32-NEXT:    add.w $fp, $t8, $t3
+; LA32-NEXT:    sltu $t3, $fp, $t8
+; LA32-NEXT:    mulh.wu $t8, $a4, $a5
+; LA32-NEXT:    add.w $t3, $t8, $t3
+; LA32-NEXT:    add.w $t8, $t7, $t3
+; LA32-NEXT:    mul.w $s0, $t1, $a5
 ; LA32-NEXT:    add.w $s1, $s0, $t8
-; LA32-NEXT:    mulh.wu $t2, $a3, $t1
-; LA32-NEXT:    mul.w $t7, $a6, $t1
-; LA32-NEXT:    add.w $t8, $t7, $t2
-; LA32-NEXT:    mul.w $s2, $a3, $t0
-; LA32-NEXT:    add.w $s3, $s2, $t8
-; LA32-NEXT:    add.w $t2, $s3, $a1
-; LA32-NEXT:    mul.w $s4, $a3, $t1
-; LA32-NEXT:    add.w $a0, $s4, $t5
-; LA32-NEXT:    st.w $a0, $sp, 40 # 4-byte Folded Spill
-; LA32-NEXT:    sltu $t5, $a0, $s4
-; LA32-NEXT:    add.w $a0, $t2, $t5
-; LA32-NEXT:    st.w $a0, $sp, 36 # 4-byte Folded Spill
-; LA32-NEXT:    sltu $s4, $a0, $s3
-; LA32-NEXT:    xor $s5, $a0, $s3
-; LA32-NEXT:    sltui $s5, $s5, 1
-; LA32-NEXT:    masknez $s4, $s4, $s5
-; LA32-NEXT:    maskeqz $t5, $t5, $s5
-; LA32-NEXT:    or $t5, $t5, $s4
+; LA32-NEXT:    srai.w $t3, $a5, 31
+; LA32-NEXT:    mul.w $s2, $t3, $a4
+; LA32-NEXT:    add.w $s3, $s1, $s2
+; LA32-NEXT:    sltu $s4, $s3, $s1
+; LA32-NEXT:    sltu $s0, $s1, $s0
 ; LA32-NEXT:    sltu $t7, $t8, $t7
-; LA32-NEXT:    mulh.wu $t8, $a6, $t1
-; LA32-NEXT:    add.w $s4, $t8, $t7
-; LA32-NEXT:    sltu $t7, $s3, $s2
-; LA32-NEXT:    mulh.wu $t8, $a3, $t0
+; LA32-NEXT:    mulh.wu $t8, $t1, $a5
 ; LA32-NEXT:    add.w $t7, $t8, $t7
-; LA32-NEXT:    add.w $s2, $s4, $t7
-; LA32-NEXT:    mul.w $s3, $a6, $t0
-; LA32-NEXT:    add.w $s6, $s3, $s2
-; LA32-NEXT:    add.w $s7, $s6, $t5
-; LA32-NEXT:    add.w $s5, $s1, $s7
-; LA32-NEXT:    mul.w $s8, $a4, $t1
-; LA32-NEXT:    add.w $ra, $s8, $s5
-; LA32-NEXT:    srai.w $t8, $a5, 31
-; LA32-NEXT:    mul.w $t7, $a7, $t8
-; LA32-NEXT:    st.w $a7, $sp, 28 # 4-byte Folded Spill
-; LA32-NEXT:    srai.w $t5, $t0, 31
-; LA32-NEXT:    sltu $s5, $s5, $s1
-; LA32-NEXT:    sltu $s1, $s1, $s0
-; LA32-NEXT:    sltu $s0, $s0, $t6
-; LA32-NEXT:    mul.w $t2, $t5, $a3
-; LA32-NEXT:    st.w $a3, $sp, 24 # 4-byte Folded Spill
-; LA32-NEXT:    sltu $t4, $fp, $t4
-; LA32-NEXT:    mulh.wu $fp, $a5, $t3
-; LA32-NEXT:    st.w $a5, $sp, 0 # 4-byte Folded Spill
-; LA32-NEXT:    add.w $t4, $fp, $t4
-; LA32-NEXT:    add.w $fp, $t2, $t7
-; LA32-NEXT:    add.w $s0, $t4, $s0
-; LA32-NEXT:    add.w $a0, $ra, $fp
-; LA32-NEXT:    st.w $a0, $sp, 32 # 4-byte Folded Spill
-; LA32-NEXT:    add.w $a2, $s0, $s1
-; LA32-NEXT:    sltu $s0, $a0, $ra
-; LA32-NEXT:    sltu $s1, $s7, $s6
-; LA32-NEXT:    sltu $s3, $s6, $s3
-; LA32-NEXT:    sltu $s2, $s2, $s4
-; LA32-NEXT:    move $s6, $a6
-; LA32-NEXT:    st.w $a6, $sp, 16 # 4-byte Folded Spill
-; LA32-NEXT:    mulh.wu $s4, $a6, $t0
-; LA32-NEXT:    add.w $s2, $s4, $s2
-; LA32-NEXT:    add.w $s2, $s2, $s3
-; LA32-NEXT:    add.w $s1, $s2, $s1
-; LA32-NEXT:    add.w $s1, $a2, $s1
-; LA32-NEXT:    add.w $s7, $s1, $s5
-; LA32-NEXT:    move $a0, $a4
-; LA32-NEXT:    st.w $a4, $sp, 4 # 4-byte Folded Spill
-; LA32-NEXT:    mulh.wu $s1, $a4, $t1
-; LA32-NEXT:    mul.w $a5, $a5, $t1
-; LA32-NEXT:    add.w $a4, $a5, $s1
-; LA32-NEXT:    mul.w $a6, $a0, $t0
-; LA32-NEXT:    add.w $a1, $a6, $a4
-; LA32-NEXT:    sltu $ra, $ra, $s8
-; LA32-NEXT:    add.w $s1, $a1, $s7
-; LA32-NEXT:    add.w $s8, $s1, $ra
-; LA32-NEXT:    move $a0, $t2
-; LA32-NEXT:    st.w $t2, $sp, 8 # 4-byte Folded Spill
-; LA32-NEXT:    sltu $t6, $fp, $t2
-; LA32-NEXT:    mulh.wu $t2, $a7, $t8
-; LA32-NEXT:    mul.w $s4, $t3, $t8
-; LA32-NEXT:    add.w $a7, $s4, $t2
-; LA32-NEXT:    st.w $a7, $sp, 12 # 4-byte Folded Spill
-; LA32-NEXT:    add.w $s3, $t7, $a7
-; LA32-NEXT:    mulh.wu $a7, $t5, $a3
-; LA32-NEXT:    add.w $t4, $a0, $a7
-; LA32-NEXT:    mul.w $s2, $t5, $s6
-; LA32-NEXT:    add.w $s1, $s2, $t4
-; LA32-NEXT:    add.w $fp, $s1, $s3
-; LA32-NEXT:    add.w $a0, $fp, $t6
-; LA32-NEXT:    add.w $fp, $s8, $a0
-; LA32-NEXT:    add.w $a3, $fp, $s0
-; LA32-NEXT:    st.w $a3, $sp, 20 # 4-byte Folded Spill
-; LA32-NEXT:    xor $fp, $a3, $s8
+; LA32-NEXT:    add.w $t7, $t7, $s0
+; LA32-NEXT:    mul.w $t1, $t3, $t1
+; LA32-NEXT:    mulh.wu $t8, $t3, $a4
+; LA32-NEXT:    add.w $t1, $t8, $t1
+; LA32-NEXT:    add.w $t1, $t1, $s2
+; LA32-NEXT:    add.w $t1, $t7, $t1
+; LA32-NEXT:    add.w $t7, $t1, $s4
+; LA32-NEXT:    add.w $t2, $fp, $t2
+; LA32-NEXT:    mul.w $t8, $a4, $a6
+; LA32-NEXT:    add.w $t1, $t8, $t6
+; LA32-NEXT:    sltu $t6, $t1, $t8
+; LA32-NEXT:    add.w $t2, $t2, $t6
+; LA32-NEXT:    sltu $t8, $t2, $fp
+; LA32-NEXT:    xor $fp, $t2, $fp
 ; LA32-NEXT:    sltui $fp, $fp, 1
-; LA32-NEXT:    sltu $s6, $a3, $s8
-; LA32-NEXT:    masknez $s6, $s6, $fp
-; LA32-NEXT:    maskeqz $fp, $s0, $fp
-; LA32-NEXT:    or $s6, $fp, $s6
-; LA32-NEXT:    sltu $fp, $s7, $a2
-; LA32-NEXT:    xor $a2, $s7, $a2
-; LA32-NEXT:    sltui $a2, $a2, 1
-; LA32-NEXT:    masknez $fp, $fp, $a2
-; LA32-NEXT:    maskeqz $a2, $s5, $a2
-; LA32-NEXT:    or $s0, $a2, $fp
-; LA32-NEXT:    sltu $a2, $a4, $a5
-; LA32-NEXT:    ld.w $a5, $sp, 0 # 4-byte Folded Reload
-; LA32-NEXT:    mulh.wu $a3, $a5, $t1
-; LA32-NEXT:    add.w $a2, $a3, $a2
-; LA32-NEXT:    sltu $a3, $a1, $a6
-; LA32-NEXT:    ld.w $fp, $sp, 4 # 4-byte Folded Reload
-; LA32-NEXT:    mulh.wu $a4, $fp, $t0
-; LA32-NEXT:    add.w $a3, $a4, $a3
-; LA32-NEXT:    sltu $a4, $s8, $a1
-; LA32-NEXT:    xor $a1, $s8, $a1
-; LA32-NEXT:    sltui $a1, $a1, 1
-; LA32-NEXT:    masknez $a4, $a4, $a1
-; LA32-NEXT:    maskeqz $a1, $ra, $a1
-; LA32-NEXT:    or $a1, $a1, $a4
-; LA32-NEXT:    sltu $a4, $a0, $s1
-; LA32-NEXT:    xor $a0, $a0, $s1
-; LA32-NEXT:    sltui $a0, $a0, 1
-; LA32-NEXT:    masknez $a4, $a4, $a0
-; LA32-NEXT:    maskeqz $a0, $t6, $a0
-; LA32-NEXT:    or $s5, $a0, $a4
-; LA32-NEXT:    sltu $a0, $s3, $t7
-; LA32-NEXT:    add.w $a0, $t2, $a0
-; LA32-NEXT:    ld.w $t2, $sp, 8 # 4-byte Folded Reload
-; LA32-NEXT:    sltu $a4, $t4, $t2
-; LA32-NEXT:    add.w $s7, $a7, $a4
-; LA32-NEXT:    add.w $a3, $a2, $a3
-; LA32-NEXT:    sltu $a2, $a3, $a2
-; LA32-NEXT:    mulh.wu $a4, $a5, $t0
-; LA32-NEXT:    add.w $a2, $a4, $a2
-; LA32-NEXT:    mul.w $a4, $a5, $t0
-; LA32-NEXT:    move $a6, $a5
-; LA32-NEXT:    add.w $a3, $a4, $a3
-; LA32-NEXT:    sltu $a4, $a3, $a4
-; LA32-NEXT:    add.w $a2, $a2, $a4
-; LA32-NEXT:    add.w $a4, $a3, $s0
-; LA32-NEXT:    sltu $a3, $a4, $a3
-; LA32-NEXT:    add.w $a2, $a2, $a3
-; LA32-NEXT:    add.w $s8, $a4, $a1
-; LA32-NEXT:    sltu $a1, $s8, $a4
-; LA32-NEXT:    add.w $ra, $a2, $a1
-; LA32-NEXT:    ld.w $a1, $sp, 12 # 4-byte Folded Reload
-; LA32-NEXT:    sltu $a1, $a1, $s4
-; LA32-NEXT:    mulh.wu $a2, $t3, $t8
-; LA32-NEXT:    add.w $a1, $a2, $a1
-; LA32-NEXT:    add.w $a0, $a1, $a0
-; LA32-NEXT:    sltu $a1, $a0, $a1
-; LA32-NEXT:    add.w $a1, $a2, $a1
-; LA32-NEXT:    add.w $a0, $s4, $a0
-; LA32-NEXT:    sltu $a2, $a0, $s4
-; LA32-NEXT:    add.w $a1, $a1, $a2
-; LA32-NEXT:    mul.w $a2, $t8, $t1
-; LA32-NEXT:    mul.w $a3, $t8, $t0
-; LA32-NEXT:    mulh.wu $a4, $t8, $t1
-; LA32-NEXT:    add.w $a3, $a4, $a3
-; LA32-NEXT:    add.w $a3, $a3, $a2
-; LA32-NEXT:    add.w $a3, $s3, $a3
-; LA32-NEXT:    add.w $a2, $t7, $a2
-; LA32-NEXT:    sltu $a4, $a2, $t7
-; LA32-NEXT:    add.w $a3, $a3, $a4
-; LA32-NEXT:    add.w $a1, $a1, $a3
-; LA32-NEXT:    add.w $a2, $a0, $a2
-; LA32-NEXT:    sltu $a0, $a2, $a0
-; LA32-NEXT:    add.w $a0, $a1, $a0
-; LA32-NEXT:    sltu $a1, $s1, $s2
-; LA32-NEXT:    ld.w $a3, $sp, 16 # 4-byte Folded Reload
-; LA32-NEXT:    mulh.wu $a3, $t5, $a3
-; LA32-NEXT:    add.w $a1, $a3, $a1
-; LA32-NEXT:    add.w $a1, $s7, $a1
-; LA32-NEXT:    sltu $a4, $a1, $s7
-; LA32-NEXT:    add.w $a3, $a3, $a4
-; LA32-NEXT:    add.w $a1, $s2, $a1
-; LA32-NEXT:    sltu $a4, $a1, $s2
-; LA32-NEXT:    add.w $a3, $a3, $a4
-; LA32-NEXT:    mul.w $a4, $fp, $t5
-; LA32-NEXT:    mulh.wu $a5, $fp, $t5
-; LA32-NEXT:    mul.w $a6, $a6, $t5
-; LA32-NEXT:    add.w $a5, $a5, $a4
-; LA32-NEXT:    add.w $a5, $a5, $a6
-; LA32-NEXT:    add.w $a5, $a5, $s1
-; LA32-NEXT:    add.w $a6, $a4, $t2
-; LA32-NEXT:    sltu $a4, $a6, $a4
-; LA32-NEXT:    add.w $a4, $a5, $a4
-; LA32-NEXT:    add.w $a3, $a3, $a4
-; LA32-NEXT:    add.w $a4, $a1, $a6
-; LA32-NEXT:    sltu $a1, $a4, $a1
-; LA32-NEXT:    add.w $a1, $a3, $a1
-; LA32-NEXT:    add.w $a0, $a1, $a0
-; LA32-NEXT:    add.w $a1, $a4, $a2
-; LA32-NEXT:    sltu $a2, $a1, $a4
-; LA32-NEXT:    add.w $a0, $a0, $a2
-; LA32-NEXT:    add.w $a2, $a1, $s5
-; LA32-NEXT:    sltu $a1, $a2, $a1
-; LA32-NEXT:    add.w $a0, $a0, $a1
-; LA32-NEXT:    add.w $a0, $ra, $a0
-; LA32-NEXT:    add.w $a1, $s8, $a2
-; LA32-NEXT:    sltu $a2, $a1, $s8
-; LA32-NEXT:    add.w $a0, $a0, $a2
-; LA32-NEXT:    add.w $a2, $a1, $s6
-; LA32-NEXT:    sltu $a1, $a2, $a1
-; LA32-NEXT:    add.w $a0, $a0, $a1
-; LA32-NEXT:    ld.w $a4, $sp, 36 # 4-byte Folded Reload
-; LA32-NEXT:    srai.w $a1, $a4, 31
-; LA32-NEXT:    xor $a0, $a0, $a1
-; LA32-NEXT:    ld.w $a3, $sp, 20 # 4-byte Folded Reload
-; LA32-NEXT:    xor $a3, $a3, $a1
-; LA32-NEXT:    or $a0, $a3, $a0
-; LA32-NEXT:    xor $a2, $a2, $a1
-; LA32-NEXT:    ld.w $a3, $sp, 32 # 4-byte Folded Reload
-; LA32-NEXT:    xor $a1, $a3, $a1
-; LA32-NEXT:    or $a1, $a1, $a2
-; LA32-NEXT:    or $a0, $a1, $a0
-; LA32-NEXT:    ld.w $a1, $sp, 28 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $a2, $sp, 24 # 4-byte Folded Reload
-; LA32-NEXT:    mul.w $a1, $a2, $a1
-; LA32-NEXT:    ld.w $a2, $sp, 48 # 4-byte Folded Reload
-; LA32-NEXT:    st.w $a1, $a2, 0
-; LA32-NEXT:    ld.w $a1, $sp, 44 # 4-byte Folded Reload
-; LA32-NEXT:    st.w $a1, $a2, 4
-; LA32-NEXT:    ld.w $a1, $sp, 40 # 4-byte Folded Reload
-; LA32-NEXT:    st.w $a1, $a2, 8
+; LA32-NEXT:    masknez $t8, $t8, $fp
+; LA32-NEXT:    maskeqz $t6, $t6, $fp
+; LA32-NEXT:    or $t6, $t6, $t8
+; LA32-NEXT:    add.w $t6, $s3, $t6
+; LA32-NEXT:    sltu $t8, $t6, $s3
+; LA32-NEXT:    add.w $t7, $t7, $t8
+; LA32-NEXT:    add.w $t8, $t4, $t7
+; LA32-NEXT:    add.w $t6, $t5, $t6
+; LA32-NEXT:    sltu $fp, $t6, $t5
+; LA32-NEXT:    add.w $t8, $t8, $fp
+; LA32-NEXT:    mulh.wu $t5, $a7, $a6
+; LA32-NEXT:    mul.w $s0, $t0, $a6
+; LA32-NEXT:    add.w $s1, $s0, $t5
+; LA32-NEXT:    mul.w $s2, $a7, $a5
+; LA32-NEXT:    add.w $s3, $s2, $s1
+; LA32-NEXT:    add.w $s4, $s3, $t8
+; LA32-NEXT:    mul.w $s5, $a7, $a6
+; LA32-NEXT:    add.w $t5, $s5, $t6
+; LA32-NEXT:    sltu $s5, $t5, $s5
+; LA32-NEXT:    add.w $t6, $s4, $s5
+; LA32-NEXT:    sltu $s4, $t6, $s3
+; LA32-NEXT:    xor $s6, $t6, $s3
+; LA32-NEXT:    sltui $s6, $s6, 1
+; LA32-NEXT:    masknez $s4, $s4, $s6
+; LA32-NEXT:    maskeqz $s5, $s5, $s6
+; LA32-NEXT:    or $s4, $s5, $s4
+; LA32-NEXT:    sltu $s5, $t8, $t4
+; LA32-NEXT:    xor $t8, $t8, $t4
+; LA32-NEXT:    sltui $t8, $t8, 1
+; LA32-NEXT:    masknez $s5, $s5, $t8
+; LA32-NEXT:    maskeqz $t8, $fp, $t8
+; LA32-NEXT:    or $t8, $t8, $s5
+; LA32-NEXT:    srai.w $t4, $t4, 31
+; LA32-NEXT:    srai.w $t7, $t7, 31
+; LA32-NEXT:    add.w $t7, $t4, $t7
+; LA32-NEXT:    add.w $t8, $t7, $t8
+; LA32-NEXT:    sltu $fp, $s1, $s0
+; LA32-NEXT:    mulh.wu $s0, $t0, $a6
+; LA32-NEXT:    add.w $fp, $s0, $fp
+; LA32-NEXT:    sltu $s0, $s3, $s2
+; LA32-NEXT:    mulh.wu $s1, $a7, $a5
+; LA32-NEXT:    add.w $s0, $s1, $s0
+; LA32-NEXT:    add.w $s0, $fp, $s0
+; LA32-NEXT:    mul.w $s1, $t0, $a5
+; LA32-NEXT:    add.w $s2, $s1, $s0
+; LA32-NEXT:    mul.w $s3, $a6, $a0
+; LA32-NEXT:    mul.w $s5, $t3, $a7
+; LA32-NEXT:    add.w $s6, $s5, $s3
+; LA32-NEXT:    add.w $s7, $s2, $s6
+; LA32-NEXT:    add.w $s8, $s7, $t8
+; LA32-NEXT:    add.w $s4, $s8, $s4
+; LA32-NEXT:    sltu $ra, $s4, $s8
+; LA32-NEXT:    sltu $t4, $t7, $t4
+; LA32-NEXT:    add.w $t4, $t7, $t4
+; LA32-NEXT:    sltu $t7, $t8, $t7
+; LA32-NEXT:    add.w $t4, $t4, $t7
+; LA32-NEXT:    sltu $t7, $s7, $s2
+; LA32-NEXT:    sltu $t8, $s2, $s1
+; LA32-NEXT:    sltu $fp, $s0, $fp
+; LA32-NEXT:    mulh.wu $s0, $t0, $a5
+; LA32-NEXT:    add.w $fp, $s0, $fp
+; LA32-NEXT:    add.w $t8, $fp, $t8
+; LA32-NEXT:    mulh.wu $a6, $a6, $a0
+; LA32-NEXT:    add.w $a6, $a6, $s3
+; LA32-NEXT:    mul.w $a0, $a5, $a0
+; LA32-NEXT:    add.w $a0, $a6, $a0
+; LA32-NEXT:    mul.w $a5, $t3, $t0
+; LA32-NEXT:    mulh.wu $a6, $t3, $a7
+; LA32-NEXT:    add.w $a5, $a6, $a5
+; LA32-NEXT:    add.w $a5, $a5, $s5
+; LA32-NEXT:    add.w $a0, $a5, $a0
+; LA32-NEXT:    sltu $a5, $s6, $s5
+; LA32-NEXT:    add.w $a0, $a0, $a5
+; LA32-NEXT:    add.w $a0, $t8, $a0
+; LA32-NEXT:    add.w $a0, $a0, $t7
+; LA32-NEXT:    add.w $a0, $a0, $t4
+; LA32-NEXT:    sltu $a5, $s8, $s7
+; LA32-NEXT:    add.w $a0, $a0, $a5
+; LA32-NEXT:    add.w $a0, $a0, $ra
+; LA32-NEXT:    srai.w $a5, $t2, 31
+; LA32-NEXT:    xor $a0, $a0, $a5
+; LA32-NEXT:    xor $a6, $t6, $a5
+; LA32-NEXT:    or $a0, $a6, $a0
+; LA32-NEXT:    xor $a6, $s4, $a5
+; LA32-NEXT:    xor $a5, $t5, $a5
+; LA32-NEXT:    or $a5, $a5, $a6
+; LA32-NEXT:    or $a0, $a5, $a0
 ; LA32-NEXT:    sltu $a0, $zero, $a0
-; LA32-NEXT:    st.w $a4, $a2, 12
-; LA32-NEXT:    ld.w $s8, $sp, 52 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $s7, $sp, 56 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $s6, $sp, 60 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $s5, $sp, 64 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $s4, $sp, 68 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $s3, $sp, 72 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $s2, $sp, 76 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $s1, $sp, 80 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $s0, $sp, 84 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $fp, $sp, 88 # 4-byte Folded Reload
-; LA32-NEXT:    ld.w $ra, $sp, 92 # 4-byte Folded Reload
-; LA32-NEXT:    addi.w $sp, $sp, 96
+; LA32-NEXT:    mul.w $a3, $a4, $a3
+; LA32-NEXT:    st.w $a3, $a2, 0
+; LA32-NEXT:    st.w $a1, $a2, 4
+; LA32-NEXT:    st.w $t1, $a2, 8
+; LA32-NEXT:    st.w $t2, $a2, 12
+; LA32-NEXT:    ld.w $s8, $sp, 4 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $s7, $sp, 8 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $s6, $sp, 12 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $s5, $sp, 16 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $s4, $sp, 20 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $s3, $sp, 24 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $s2, $sp, 28 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $s1, $sp, 32 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $s0, $sp, 36 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $fp, $sp, 40 # 4-byte Folded Reload
+; LA32-NEXT:    ld.w $ra, $sp, 44 # 4-byte Folded Reload
+; LA32-NEXT:    addi.w $sp, $sp, 48
 ; LA32-NEXT:    ret
 ;
 ; LA64-LABEL: smuloi128:
@@ -396,43 +309,33 @@ define zeroext i1 @smuloi128(i128 %v1, i128 %v2, ptr %res) {
 ; LA64-NEXT:    add.d $a5, $a6, $a5
 ; LA64-NEXT:    sltu $a6, $a5, $a6
 ; LA64-NEXT:    mulh.du $a7, $a1, $a2
+; LA64-NEXT:    srai.d $t0, $a1, 63
+; LA64-NEXT:    mul.d $t0, $t0, $a2
+; LA64-NEXT:    add.d $a7, $a7, $t0
 ; LA64-NEXT:    add.d $a6, $a7, $a6
-; LA64-NEXT:    mul.d $a7, $a0, $a3
-; LA64-NEXT:    add.d $a5, $a7, $a5
-; LA64-NEXT:    sltu $a7, $a5, $a7
-; LA64-NEXT:    mulh.du $t0, $a0, $a3
-; LA64-NEXT:    add.d $a7, $t0, $a7
-; LA64-NEXT:    add.d $a7, $a6, $a7
-; LA64-NEXT:    mul.d $t0, $a1, $a3
-; LA64-NEXT:    add.d $t1, $t0, $a7
-; LA64-NEXT:    srai.d $t2, $a1, 63
-; LA64-NEXT:    mul.d $t3, $a2, $t2
-; LA64-NEXT:    srai.d $t4, $a3, 63
-; LA64-NEXT:    mul.d $t5, $t4, $a0
-; LA64-NEXT:    add.d $t6, $t5, $t3
-; LA64-NEXT:    add.d $t7, $t1, $t6
-; LA64-NEXT:    sltu $t8, $t7, $t1
-; LA64-NEXT:    sltu $t0, $t1, $t0
-; LA64-NEXT:    sltu $a6, $a7, $a6
-; LA64-NEXT:    mulh.du $a7, $a1, $a3
+; LA64-NEXT:    mulh.du $a7, $a0, $a3
+; LA64-NEXT:    srai.d $t0, $a3, 63
+; LA64-NEXT:    mul.d $t0, $a0, $t0
+; LA64-NEXT:    add.d $a7, $a7, $t0
+; LA64-NEXT:    mul.d $t0, $a0, $a3
+; LA64-NEXT:    add.d $a5, $t0, $a5
+; LA64-NEXT:    sltu $t0, $a5, $t0
+; LA64-NEXT:    add.d $a7, $a7, $t0
+; LA64-NEXT:    add.d $t0, $a6, $a7
+; LA64-NEXT:    sltu $t1, $t0, $a6
+; LA64-NEXT:    srai.d $a6, $a6, 63
+; LA64-NEXT:    srai.d $a7, $a7, 63
+; LA64-NEXT:    add.d $a6, $a6, $a7
+; LA64-NEXT:    add.d $a6, $a6, $t1
+; LA64-NEXT:    mulh.d $a7, $a1, $a3
 ; LA64-NEXT:    add.d $a6, $a7, $a6
-; LA64-NEXT:    add.d $a6, $a6, $t0
-; LA64-NEXT:    mulh.du $a7, $a2, $t2
-; LA64-NEXT:    add.d $a7, $a7, $t3
-; LA64-NEXT:    mul.d $a3, $a3, $t2
-; LA64-NEXT:    add.d $a3, $a7, $a3
-; LA64-NEXT:    mul.d $a1, $t4, $a1
-; LA64-NEXT:    mulh.du $a7, $t4, $a0
-; LA64-NEXT:    add.d $a1, $a7, $a1
-; LA64-NEXT:    add.d $a1, $a1, $t5
-; LA64-NEXT:    add.d $a1, $a1, $a3
-; LA64-NEXT:    sltu $a3, $t6, $t5
-; LA64-NEXT:    add.d $a1, $a1, $a3
+; LA64-NEXT:    mul.d $a1, $a1, $a3
+; LA64-NEXT:    add.d $a3, $a1, $t0
+; LA64-NEXT:    sltu $a1, $a3, $a1
 ; LA64-NEXT:    add.d $a1, $a6, $a1
-; LA64-NEXT:    add.d $a1, $a1, $t8
-; LA64-NEXT:    srai.d $a3, $a5, 63
-; LA64-NEXT:    xor $a1, $a1, $a3
-; LA64-NEXT:    xor $a3, $t7, $a3
+; LA64-NEXT:    srai.d $a6, $a5, 63
+; LA64-NEXT:    xor $a1, $a1, $a6
+; LA64-NEXT:    xor $a3, $a3, $a6
 ; LA64-NEXT:    or $a1, $a3, $a1
 ; LA64-NEXT:    sltu $a1, $zero, $a1
 ; LA64-NEXT:    mul.d $a0, $a0, $a2
diff --git a/llvm/test/CodeGen/M68k/pipeline.ll b/llvm/test/CodeGen/M68k/pipeline.ll
index bc224743e5b70..d61e591505e59 100644
--- a/llvm/test/CodeGen/M68k/pipeline.ll
+++ b/llvm/test/CodeGen/M68k/pipeline.ll
@@ -31,6 +31,9 @@
 ; CHECK-NEXT:      Block Frequency Analysis
 ; CHECK-NEXT:      Constant Hoisting
 ; CHECK-NEXT:      Replace intrinsics with calls to vector library
+; CHECK-NEXT:      Lazy Branch Probability Analysis
+; CHECK-NEXT:      Lazy Block Frequency Analysis
+; CHECK-NEXT:      Optimization Remark Emitter
 ; CHECK-NEXT:      Partially inline calls to library functions
 ; CHECK-NEXT:      Instrument function entry/exit with calls to e.g. mcount() (post inlining)
 ; CHECK-NEXT:      Scalarize Masked Memory Intrinsics
diff --git a/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-long-branch-reg-debug.ll b/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-long-branch-reg-debug.ll
index d1d8240a1007a..883657547519b 100644
--- a/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-long-branch-reg-debug.ll
+++ b/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-long-branch-reg-debug.ll
@@ -39,7 +39,7 @@
 ; CHECK-NEXT: fp64-fp16-input-denormals: true
 ; CHECK-NEXT: fp64-fp16-output-denormals: true
 ; CHECK-NEXT: BitsOf32BitAddress: 0
-; CHECK-NEXT: occupancy:       8
+; CHECK-NEXT: occupancy:       10
 ; CHECK-NEXT: vgprForAGPRCopy: ''
 ; CHECK-NEXT: sgprForEXECCopy: '$sgpr100_sgpr101'
 ; CHECK-NEXT: longBranchReservedReg: '$sgpr2_sgpr3'
diff --git a/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-long-branch-reg.ll b/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-long-branch-reg.ll
index ad6e92a25b861..278bf086d6088 100644
--- a/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-long-branch-reg.ll
+++ b/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-long-branch-reg.ll
@@ -39,7 +39,7 @@
 ; CHECK-NEXT: fp64-fp16-input-denormals: true
 ; CHECK-NEXT: fp64-fp16-output-denormals: true
 ; CHECK-NEXT: BitsOf32BitAddress: 0
-; CHECK-NEXT: occupancy:       8
+; CHECK-NEXT: occupancy:       10
 ; CHECK-NEXT: vgprForAGPRCopy: ''
 ; CHECK-NEXT: sgprForEXECCopy: '$sgpr100_sgpr101'
 ; CHECK-NEXT: longBranchReservedReg: '$sgpr2_sgpr3'
diff --git a/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-no-ir.mir b/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-no-ir.mir
index 3eff89239d541..89d831b51f694 100644
--- a/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-no-ir.mir
+++ b/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info-no-ir.mir
@@ -153,7 +153,7 @@ body:             |
 # FULL-NEXT: fp64-fp16-input-denormals: true
 # FULL-NEXT: fp64-fp16-output-denormals: true
 # FULL-NEXT:  highBitsOf32BitAddress: 0
-# FULL-NEXT:  occupancy: 8
+# FULL-NEXT:  occupancy: 10
 # FULL-NEXT: vgprForAGPRCopy: ''
 # FULL-NEXT: sgprForEXECCopy: ''
 # FULL-NEXT: longBranchReservedReg: ''
@@ -175,7 +175,7 @@ body:             |
 # SIMPLE-NEXT: workItemIDX:     { reg: '$vgpr31', mask: 1023 }
 # SIMPLE-NEXT: workItemIDY:     { reg: '$vgpr31', mask: 1047552 }
 # SIMPLE-NEXT: workItemIDZ:     { reg: '$vgpr31', mask: 1072693248 }
-# SIMPLE-NEXT:  occupancy: 8
+# SIMPLE-NEXT:  occupancy: 10
 # SIMPLE-NEXT: body:
 
 name: no_mfi
@@ -229,7 +229,7 @@ body:             |
 # FULL-NEXT: fp64-fp16-input-denormals: true
 # FULL-NEXT: fp64-fp16-output-denormals: true
 # FULL-NEXT:  highBitsOf32BitAddress: 0
-# FULL-NEXT:  occupancy: 8
+# FULL-NEXT:  occupancy: 10
 # FULL-NEXT: vgprForAGPRCopy: ''
 # FULL-NEXT: sgprForEXECCopy: ''
 # FULL-NEXT: longBranchReservedReg: ''
@@ -251,7 +251,7 @@ body:             |
 # SIMPLE-NEXT: workItemIDX:     { reg: '$vgpr31', mask: 1023 }
 # SIMPLE-NEXT: workItemIDY:     { reg: '$vgpr31', mask: 1047552 }
 # SIMPLE-NEXT: workItemIDZ:     { reg: '$vgpr31', mask: 1072693248 }
-# SIMPLE-NEXT:  occupancy: 8
+# SIMPLE-NEXT:  occupancy: 10
 # SIMPLE-NEXT: body:
 
 name: empty_mfi
@@ -306,7 +306,7 @@ body:             |
 # FULL-NEXT: fp64-fp16-input-denormals: true
 # FULL-NEXT: fp64-fp16-output-denormals: true
 # FULL-NEXT:  highBitsOf32BitAddress: 0
-# FULL-NEXT:  occupancy: 8
+# FULL-NEXT:  occupancy: 10
 # FULL-NEXT: vgprForAGPRCopy: ''
 # FULL-NEXT: sgprForEXECCopy: ''
 # FULL-NEXT: longBranchReservedReg: ''
@@ -329,7 +329,7 @@ body:             |
 # SIMPLE-NEXT: workItemIDX:     { reg: '$vgpr31', mask: 1023 }
 # SIMPLE-NEXT: workItemIDY:     { reg: '$vgpr31', mask: 1047552 }
 # SIMPLE-NEXT: workItemIDZ:     { reg: '$vgpr31', mask: 1072693248 }
-# SIMPLE-NEXT: occupancy: 8
+# SIMPLE-NEXT: occupancy: 10
 # SIMPLE-NEXT: body:
 
 name: empty_mfi_entry_func
@@ -457,11 +457,11 @@ body:             |
 ...
 
 ---
-# ALL-LABEL: name: occupancy_0
-# ALL: occupancy: 8
-name: occupancy_0
+# ALL-LABEL: name: occupancy_10
+# ALL: occupancy: 10
+name: occupancy_10
 machineFunctionInfo:
-  occupancy: 0
+  occupancy: 10
 
 body:             |
   bb.0:
diff --git a/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info.ll b/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info.ll
index eca3f99b64955..ec56de11b250a 100644
--- a/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info.ll
+++ b/llvm/test/CodeGen/MIR/AMDGPU/machine-function-info.ll
@@ -167,7 +167,7 @@ define amdgpu_ps void @gds_size_shader(i32 %arg0, i32 inreg %arg1) #5 {
 ; CHECK-NEXT: fp64-fp16-input-denormals: true
 ; CHECK-NEXT: fp64-fp16-output-denormals: true
 ; CHECK-NEXT: highBitsOf32BitAddress: 0
-; CHECK-NEXT: occupancy: 8
+; CHECK-NEXT: occupancy: 10
 ; CHECK-NEXT: vgprForAGPRCopy: ''
 ; CHECK-NEXT: sgprForEXECCopy: '$sgpr100_sgpr101'
 ; CHECK-NEXT: longBranchReservedReg: ''
@@ -220,7 +220,7 @@ define void @function() {
 ; CHECK-NEXT: fp64-fp16-input-denormals: true
 ; CHECK-NEXT: fp64-fp16-output-denormals: true
 ; CHECK-NEXT: highBitsOf32BitAddress: 0
-; CHECK-NEXT: occupancy: 8
+; CHECK-NEXT: occupancy: 10
 ; CHECK-NEXT: vgprForAGPRCopy: ''
 ; CHECK-NEXT: sgprForEXECCopy: '$sgpr100_sgpr101'
 ; CHECK-NEXT: longBranchReservedReg: ''
diff --git a/llvm/test/CodeGen/Mips/cconv/vector.ll b/llvm/test/CodeGen/Mips/cconv/vector.ll
index 28a7dc046139b..383e5ef19cebf 100644
--- a/llvm/test/CodeGen/Mips/cconv/vector.ll
+++ b/llvm/test/CodeGen/Mips/cconv/vector.ll
@@ -48,102 +48,86 @@ define <2 x i8> @i8_2(<2 x i8> %a, <2 x i8> %b) {
 ;
 ; MIPS32R5EB-LABEL: i8_2:
 ; MIPS32R5EB:       # %bb.0:
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, -64
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 64
-; MIPS32R5EB-NEXT:    sw $ra, 60($sp) # 4-byte Folded Spill
-; MIPS32R5EB-NEXT:    sw $fp, 56($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, -48
+; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 48
+; MIPS32R5EB-NEXT:    sw $ra, 44($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    sw $fp, 40($sp) # 4-byte Folded Spill
 ; MIPS32R5EB-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EB-NEXT:    .cfi_offset 30, -8
 ; MIPS32R5EB-NEXT:    move $fp, $sp
 ; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EB-NEXT:    and $sp, $sp, $1
-; MIPS32R5EB-NEXT:    sh $5, 48($sp)
-; MIPS32R5EB-NEXT:    sh $4, 52($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 49($sp)
-; MIPS32R5EB-NEXT:    sw $1, 28($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 48($sp)
-; MIPS32R5EB-NEXT:    sw $1, 20($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 53($sp)
-; MIPS32R5EB-NEXT:    sw $1, 12($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 52($sp)
-; MIPS32R5EB-NEXT:    sw $1, 4($sp)
-; MIPS32R5EB-NEXT:    ld.d $w0, 16($sp)
-; MIPS32R5EB-NEXT:    ld.d $w1, 0($sp)
-; MIPS32R5EB-NEXT:    addv.d $w0, $w1, $w0
-; MIPS32R5EB-NEXT:    shf.w $w0, $w0, 177
-; MIPS32R5EB-NEXT:    copy_s.w $1, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[3]
-; MIPS32R5EB-NEXT:    sb $2, 45($sp)
-; MIPS32R5EB-NEXT:    sb $1, 44($sp)
-; MIPS32R5EB-NEXT:    lhu $2, 44($sp)
+; MIPS32R5EB-NEXT:    sh $5, 16($sp)
+; MIPS32R5EB-NEXT:    sh $4, 0($sp)
+; MIPS32R5EB-NEXT:    ld.b $w0, 16($sp)
+; MIPS32R5EB-NEXT:    ld.b $w1, 0($sp)
+; MIPS32R5EB-NEXT:    addv.b $w0, $w1, $w0
+; MIPS32R5EB-NEXT:    shf.b $w0, $w0, 177
+; MIPS32R5EB-NEXT:    copy_u.h $2, $w0[0]
 ; MIPS32R5EB-NEXT:    move $sp, $fp
-; MIPS32R5EB-NEXT:    lw $fp, 56($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    lw $ra, 60($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, 64
+; MIPS32R5EB-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, 48
 ; MIPS32R5EB-NEXT:    jr $ra
 ; MIPS32R5EB-NEXT:    nop
 ;
-; MIPS64R5-LABEL: i8_2:
-; MIPS64R5:       # %bb.0:
-; MIPS64R5-NEXT:    daddiu $sp, $sp, -16
-; MIPS64R5-NEXT:    .cfi_def_cfa_offset 16
-; MIPS64R5-NEXT:    sh $5, 8($sp)
-; MIPS64R5-NEXT:    sh $4, 12($sp)
-; MIPS64R5-NEXT:    lb $1, 9($sp)
-; MIPS64R5-NEXT:    lb $2, 8($sp)
-; MIPS64R5-NEXT:    insert.d $w0[0], $2
-; MIPS64R5-NEXT:    insert.d $w0[1], $1
-; MIPS64R5-NEXT:    lb $1, 13($sp)
-; MIPS64R5-NEXT:    lb $2, 12($sp)
-; MIPS64R5-NEXT:    insert.d $w1[0], $2
-; MIPS64R5-NEXT:    insert.d $w1[1], $1
-; MIPS64R5-NEXT:    addv.d $w0, $w1, $w0
-; MIPS64R5-NEXT:    copy_s.d $1, $w0[0]
-; MIPS64R5-NEXT:    copy_s.d $2, $w0[1]
-; MIPS64R5-NEXT:    sb $2, 5($sp)
-; MIPS64R5-NEXT:    sb $1, 4($sp)
-; MIPS64R5-NEXT:    lh $2, 4($sp)
-; MIPS64R5-NEXT:    daddiu $sp, $sp, 16
-; MIPS64R5-NEXT:    jr $ra
-; MIPS64R5-NEXT:    nop
-;
 ; MIPS32R5EL-LABEL: i8_2:
 ; MIPS32R5EL:       # %bb.0:
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, -64
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 64
-; MIPS32R5EL-NEXT:    sw $ra, 60($sp) # 4-byte Folded Spill
-; MIPS32R5EL-NEXT:    sw $fp, 56($sp) # 4-byte Folded Spill
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, -48
+; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 48
+; MIPS32R5EL-NEXT:    sw $ra, 44($sp) # 4-byte Folded Spill
+; MIPS32R5EL-NEXT:    sw $fp, 40($sp) # 4-byte Folded Spill
 ; MIPS32R5EL-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EL-NEXT:    .cfi_offset 30, -8
 ; MIPS32R5EL-NEXT:    move $fp, $sp
 ; MIPS32R5EL-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EL-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EL-NEXT:    and $sp, $sp, $1
-; MIPS32R5EL-NEXT:    sh $5, 48($sp)
-; MIPS32R5EL-NEXT:    sh $4, 52($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 49($sp)
-; MIPS32R5EL-NEXT:    sw $1, 24($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 48($sp)
-; MIPS32R5EL-NEXT:    sw $1, 16($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 53($sp)
-; MIPS32R5EL-NEXT:    sw $1, 8($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 52($sp)
-; MIPS32R5EL-NEXT:    sw $1, 0($sp)
-; MIPS32R5EL-NEXT:    ld.d $w0, 16($sp)
-; MIPS32R5EL-NEXT:    ld.d $w1, 0($sp)
-; MIPS32R5EL-NEXT:    addv.d $w0, $w1, $w0
-; MIPS32R5EL-NEXT:    copy_s.w $1, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[2]
-; MIPS32R5EL-NEXT:    sb $2, 45($sp)
-; MIPS32R5EL-NEXT:    sb $1, 44($sp)
-; MIPS32R5EL-NEXT:    lhu $2, 44($sp)
+; MIPS32R5EL-NEXT:    sh $5, 16($sp)
+; MIPS32R5EL-NEXT:    sh $4, 0($sp)
+; MIPS32R5EL-NEXT:    ld.b $w0, 16($sp)
+; MIPS32R5EL-NEXT:    ld.b $w1, 0($sp)
+; MIPS32R5EL-NEXT:    addv.b $w0, $w1, $w0
+; MIPS32R5EL-NEXT:    copy_u.h $2, $w0[0]
 ; MIPS32R5EL-NEXT:    move $sp, $fp
-; MIPS32R5EL-NEXT:    lw $fp, 56($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    lw $ra, 60($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, 64
+; MIPS32R5EL-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
+; MIPS32R5EL-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, 48
 ; MIPS32R5EL-NEXT:    jr $ra
 ; MIPS32R5EL-NEXT:    nop
+;
+; MIPS64R5EB-LABEL: i8_2:
+; MIPS64R5EB:       # %bb.0:
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -48
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 48
+; MIPS64R5EB-NEXT:    sh $5, 16($sp)
+; MIPS64R5EB-NEXT:    sh $4, 0($sp)
+; MIPS64R5EB-NEXT:    ld.b $w0, 16($sp)
+; MIPS64R5EB-NEXT:    ld.b $w1, 0($sp)
+; MIPS64R5EB-NEXT:    addv.b $w0, $w1, $w0
+; MIPS64R5EB-NEXT:    shf.b $w0, $w0, 177
+; MIPS64R5EB-NEXT:    copy_s.h $1, $w0[0]
+; MIPS64R5EB-NEXT:    sh $1, 44($sp)
+; MIPS64R5EB-NEXT:    lh $2, 44($sp)
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 48
+; MIPS64R5EB-NEXT:    jr $ra
+;
+; MIPS64R5EL-LABEL: i8_2:
+; MIPS64R5EL:       # %bb.0:
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -48
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 48
+; MIPS64R5EL-NEXT:    sh $5, 16($sp)
+; MIPS64R5EL-NEXT:    sh $4, 0($sp)
+; MIPS64R5EL-NEXT:    ld.b $w0, 16($sp)
+; MIPS64R5EL-NEXT:    ld.b $w1, 0($sp)
+; MIPS64R5EL-NEXT:    addv.b $w0, $w1, $w0
+; MIPS64R5EL-NEXT:    copy_s.h $1, $w0[0]
+; MIPS64R5EL-NEXT:    sh $1, 44($sp)
+; MIPS64R5EL-NEXT:    lh $2, 44($sp)
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 48
+; MIPS64R5EL-NEXT:    jr $ra
+; MIPS64R5EL-NEXT:    nop
   %1 = add <2 x i8> %a, %b
   ret <2 x i8> %1
 }
@@ -229,127 +213,110 @@ define <2 x i8> @i8x2_7(<2 x i8> %a, <2 x i8> %b, <2 x i8> %c, <2 x i8> %d, <2 x
 ;
 ; MIPS32R5EB-LABEL: i8x2_7:
 ; MIPS32R5EB:       # %bb.0: # %entry
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, -144
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 144
-; MIPS32R5EB-NEXT:    sw $ra, 140($sp) # 4-byte Folded Spill
-; MIPS32R5EB-NEXT:    sw $fp, 136($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, -128
+; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 128
+; MIPS32R5EB-NEXT:    sw $ra, 124($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    sw $fp, 120($sp) # 4-byte Folded Spill
 ; MIPS32R5EB-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EB-NEXT:    .cfi_offset 30, -8
 ; MIPS32R5EB-NEXT:    move $fp, $sp
 ; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EB-NEXT:    and $sp, $sp, $1
-; MIPS32R5EB-NEXT:    sh $5, 128($sp)
-; MIPS32R5EB-NEXT:    sh $4, 132($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 129($sp)
-; MIPS32R5EB-NEXT:    sw $1, 76($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 128($sp)
-; MIPS32R5EB-NEXT:    sw $1, 68($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 133($sp)
-; MIPS32R5EB-NEXT:    sw $1, 60($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 132($sp)
-; MIPS32R5EB-NEXT:    sw $1, 52($sp)
-; MIPS32R5EB-NEXT:    ld.d $w0, 64($sp)
-; MIPS32R5EB-NEXT:    ld.d $w1, 48($sp)
-; MIPS32R5EB-NEXT:    addv.d $w0, $w1, $w0
-; MIPS32R5EB-NEXT:    sh $6, 124($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 125($sp)
-; MIPS32R5EB-NEXT:    sw $1, 92($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 124($sp)
-; MIPS32R5EB-NEXT:    sw $1, 84($sp)
-; MIPS32R5EB-NEXT:    ld.d $w1, 80($sp)
-; MIPS32R5EB-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EB-NEXT:    sh $7, 120($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 121($sp)
-; MIPS32R5EB-NEXT:    sw $1, 108($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 120($sp)
-; MIPS32R5EB-NEXT:    sw $1, 100($sp)
-; MIPS32R5EB-NEXT:    ld.d $w1, 96($sp)
-; MIPS32R5EB-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EB-NEXT:    lbu $1, 163($fp)
-; MIPS32R5EB-NEXT:    sw $1, 12($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 162($fp)
-; MIPS32R5EB-NEXT:    sw $1, 4($sp)
-; MIPS32R5EB-NEXT:    ld.d $w1, 0($sp)
-; MIPS32R5EB-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EB-NEXT:    lbu $1, 167($fp)
-; MIPS32R5EB-NEXT:    sw $1, 28($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 166($fp)
-; MIPS32R5EB-NEXT:    sw $1, 20($sp)
-; MIPS32R5EB-NEXT:    ld.d $w1, 16($sp)
-; MIPS32R5EB-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EB-NEXT:    lbu $1, 171($fp)
-; MIPS32R5EB-NEXT:    sw $1, 44($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 170($fp)
-; MIPS32R5EB-NEXT:    sw $1, 36($sp)
-; MIPS32R5EB-NEXT:    ld.d $w1, 32($sp)
-; MIPS32R5EB-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EB-NEXT:    shf.w $w0, $w0, 177
-; MIPS32R5EB-NEXT:    copy_s.w $1, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[3]
-; MIPS32R5EB-NEXT:    sb $2, 117($sp)
-; MIPS32R5EB-NEXT:    sb $1, 116($sp)
-; MIPS32R5EB-NEXT:    lhu $2, 116($sp)
+; MIPS32R5EB-NEXT:    sh $5, 16($sp)
+; MIPS32R5EB-NEXT:    sh $4, 0($sp)
+; MIPS32R5EB-NEXT:    ld.b $w0, 16($sp)
+; MIPS32R5EB-NEXT:    ld.b $w1, 0($sp)
+; MIPS32R5EB-NEXT:    addv.b $w0, $w1, $w0
+; MIPS32R5EB-NEXT:    sh $6, 32($sp)
+; MIPS32R5EB-NEXT:    ld.b $w1, 32($sp)
+; MIPS32R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EB-NEXT:    sh $7, 48($sp)
+; MIPS32R5EB-NEXT:    ld.b $w1, 48($sp)
+; MIPS32R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EB-NEXT:    lhu $1, 146($fp)
+; MIPS32R5EB-NEXT:    sh $1, 64($sp)
+; MIPS32R5EB-NEXT:    ld.b $w1, 64($sp)
+; MIPS32R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EB-NEXT:    lhu $1, 150($fp)
+; MIPS32R5EB-NEXT:    sh $1, 80($sp)
+; MIPS32R5EB-NEXT:    ld.b $w1, 80($sp)
+; MIPS32R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EB-NEXT:    lhu $1, 154($fp)
+; MIPS32R5EB-NEXT:    sh $1, 96($sp)
+; MIPS32R5EB-NEXT:    ld.b $w1, 96($sp)
+; MIPS32R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EB-NEXT:    shf.b $w0, $w0, 177
+; MIPS32R5EB-NEXT:    copy_u.h $2, $w0[0]
 ; MIPS32R5EB-NEXT:    move $sp, $fp
-; MIPS32R5EB-NEXT:    lw $fp, 136($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    lw $ra, 140($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, 144
+; MIPS32R5EB-NEXT:    lw $fp, 120($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    lw $ra, 124($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, 128
 ; MIPS32R5EB-NEXT:    jr $ra
 ; MIPS32R5EB-NEXT:    nop
 ;
-; MIPS64R5-LABEL: i8x2_7:
-; MIPS64R5:       # %bb.0: # %entry
-; MIPS64R5-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5-NEXT:    sh $5, 24($sp)
-; MIPS64R5-NEXT:    sh $4, 28($sp)
-; MIPS64R5-NEXT:    lb $1, 25($sp)
-; MIPS64R5-NEXT:    lb $2, 24($sp)
-; MIPS64R5-NEXT:    insert.d $w0[0], $2
-; MIPS64R5-NEXT:    insert.d $w0[1], $1
-; MIPS64R5-NEXT:    lb $1, 29($sp)
-; MIPS64R5-NEXT:    lb $2, 28($sp)
-; MIPS64R5-NEXT:    insert.d $w1[0], $2
-; MIPS64R5-NEXT:    insert.d $w1[1], $1
-; MIPS64R5-NEXT:    addv.d $w0, $w1, $w0
-; MIPS64R5-NEXT:    sh $6, 20($sp)
-; MIPS64R5-NEXT:    lb $1, 21($sp)
-; MIPS64R5-NEXT:    lb $2, 20($sp)
-; MIPS64R5-NEXT:    insert.d $w1[0], $2
-; MIPS64R5-NEXT:    insert.d $w1[1], $1
-; MIPS64R5-NEXT:    addv.d $w0, $w0, $w1
-; MIPS64R5-NEXT:    sh $7, 16($sp)
-; MIPS64R5-NEXT:    lb $1, 17($sp)
-; MIPS64R5-NEXT:    lb $2, 16($sp)
-; MIPS64R5-NEXT:    insert.d $w1[0], $2
-; MIPS64R5-NEXT:    insert.d $w1[1], $1
-; MIPS64R5-NEXT:    addv.d $w0, $w0, $w1
-; MIPS64R5-NEXT:    sh $8, 12($sp)
-; MIPS64R5-NEXT:    lb $1, 13($sp)
-; MIPS64R5-NEXT:    lb $2, 12($sp)
-; MIPS64R5-NEXT:    insert.d $w1[0], $2
-; MIPS64R5-NEXT:    insert.d $w1[1], $1
-; MIPS64R5-NEXT:    addv.d $w0, $w0, $w1
-; MIPS64R5-NEXT:    sh $9, 8($sp)
-; MIPS64R5-NEXT:    lb $1, 9($sp)
-; MIPS64R5-NEXT:    lb $2, 8($sp)
-; MIPS64R5-NEXT:    insert.d $w1[0], $2
-; MIPS64R5-NEXT:    insert.d $w1[1], $1
-; MIPS64R5-NEXT:    addv.d $w0, $w0, $w1
-; MIPS64R5-NEXT:    sh $10, 4($sp)
-; MIPS64R5-NEXT:    lb $1, 5($sp)
-; MIPS64R5-NEXT:    lb $2, 4($sp)
-; MIPS64R5-NEXT:    insert.d $w1[0], $2
-; MIPS64R5-NEXT:    insert.d $w1[1], $1
-; MIPS64R5-NEXT:    addv.d $w0, $w0, $w1
-; MIPS64R5-NEXT:    copy_s.d $1, $w0[0]
-; MIPS64R5-NEXT:    copy_s.d $2, $w0[1]
-; MIPS64R5-NEXT:    sb $2, 1($sp)
-; MIPS64R5-NEXT:    sb $1, 0($sp)
-; MIPS64R5-NEXT:    lh $2, 0($sp)
-; MIPS64R5-NEXT:    daddiu $sp, $sp, 32
-; MIPS64R5-NEXT:    jr $ra
-; MIPS64R5-NEXT:    nop
+; MIPS64R5EB-LABEL: i8x2_7:
+; MIPS64R5EB:       # %bb.0: # %entry
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -128
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 128
+; MIPS64R5EB-NEXT:    sh $5, 16($sp)
+; MIPS64R5EB-NEXT:    sh $4, 0($sp)
+; MIPS64R5EB-NEXT:    ld.b $w0, 16($sp)
+; MIPS64R5EB-NEXT:    ld.b $w1, 0($sp)
+; MIPS64R5EB-NEXT:    addv.b $w0, $w1, $w0
+; MIPS64R5EB-NEXT:    sh $6, 32($sp)
+; MIPS64R5EB-NEXT:    ld.b $w1, 32($sp)
+; MIPS64R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EB-NEXT:    sh $7, 48($sp)
+; MIPS64R5EB-NEXT:    ld.b $w1, 48($sp)
+; MIPS64R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EB-NEXT:    sh $8, 64($sp)
+; MIPS64R5EB-NEXT:    ld.b $w1, 64($sp)
+; MIPS64R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EB-NEXT:    sh $9, 80($sp)
+; MIPS64R5EB-NEXT:    ld.b $w1, 80($sp)
+; MIPS64R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EB-NEXT:    sh $10, 96($sp)
+; MIPS64R5EB-NEXT:    ld.b $w1, 96($sp)
+; MIPS64R5EB-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EB-NEXT:    shf.b $w0, $w0, 177
+; MIPS64R5EB-NEXT:    copy_s.h $1, $w0[0]
+; MIPS64R5EB-NEXT:    sh $1, 124($sp)
+; MIPS64R5EB-NEXT:    lh $2, 124($sp)
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 128
+; MIPS64R5EB-NEXT:    jr $ra
+; MIPS64R5EB-NEXT:    nop
+;
+; MIPS64R5EL-LABEL: i8x2_7:
+; MIPS64R5EL:       # %bb.0: # %entry
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -128
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 128
+; MIPS64R5EL-NEXT:    sh $5, 16($sp)
+; MIPS64R5EL-NEXT:    sh $4, 0($sp)
+; MIPS64R5EL-NEXT:    ld.b $w0, 16($sp)
+; MIPS64R5EL-NEXT:    ld.b $w1, 0($sp)
+; MIPS64R5EL-NEXT:    addv.b $w0, $w1, $w0
+; MIPS64R5EL-NEXT:    sh $6, 32($sp)
+; MIPS64R5EL-NEXT:    ld.b $w1, 32($sp)
+; MIPS64R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EL-NEXT:    sh $7, 48($sp)
+; MIPS64R5EL-NEXT:    ld.b $w1, 48($sp)
+; MIPS64R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EL-NEXT:    sh $8, 64($sp)
+; MIPS64R5EL-NEXT:    ld.b $w1, 64($sp)
+; MIPS64R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EL-NEXT:    sh $9, 80($sp)
+; MIPS64R5EL-NEXT:    ld.b $w1, 80($sp)
+; MIPS64R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EL-NEXT:    sh $10, 96($sp)
+; MIPS64R5EL-NEXT:    ld.b $w1, 96($sp)
+; MIPS64R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS64R5EL-NEXT:    copy_s.h $1, $w0[0]
+; MIPS64R5EL-NEXT:    sh $1, 124($sp)
+; MIPS64R5EL-NEXT:    lh $2, 124($sp)
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 128
+; MIPS64R5EL-NEXT:    jr $ra
+; MIPS64R5EL-NEXT:    nop
 ;
 ; MIPS32EL-LABEL: i8x2_7:
 ; MIPS32EL:       # %bb.0: # %entry
@@ -387,70 +354,44 @@ define <2 x i8> @i8x2_7(<2 x i8> %a, <2 x i8> %b, <2 x i8> %c, <2 x i8> %d, <2 x
 ;
 ; MIPS32R5EL-LABEL: i8x2_7:
 ; MIPS32R5EL:       # %bb.0: # %entry
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, -144
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 144
-; MIPS32R5EL-NEXT:    sw $ra, 140($sp) # 4-byte Folded Spill
-; MIPS32R5EL-NEXT:    sw $fp, 136($sp) # 4-byte Folded Spill
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, -128
+; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 128
+; MIPS32R5EL-NEXT:    sw $ra, 124($sp) # 4-byte Folded Spill
+; MIPS32R5EL-NEXT:    sw $fp, 120($sp) # 4-byte Folded Spill
 ; MIPS32R5EL-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EL-NEXT:    .cfi_offset 30, -8
 ; MIPS32R5EL-NEXT:    move $fp, $sp
 ; MIPS32R5EL-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EL-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EL-NEXT:    and $sp, $sp, $1
-; MIPS32R5EL-NEXT:    sh $5, 128($sp)
-; MIPS32R5EL-NEXT:    sh $4, 132($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 129($sp)
-; MIPS32R5EL-NEXT:    sw $1, 72($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 128($sp)
+; MIPS32R5EL-NEXT:    sh $5, 16($sp)
+; MIPS32R5EL-NEXT:    sh $4, 0($sp)
+; MIPS32R5EL-NEXT:    ld.b $w0, 16($sp)
+; MIPS32R5EL-NEXT:    ld.b $w1, 0($sp)
+; MIPS32R5EL-NEXT:    addv.b $w0, $w1, $w0
+; MIPS32R5EL-NEXT:    sh $6, 32($sp)
+; MIPS32R5EL-NEXT:    ld.b $w1, 32($sp)
+; MIPS32R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EL-NEXT:    sh $7, 48($sp)
+; MIPS32R5EL-NEXT:    ld.b $w1, 48($sp)
+; MIPS32R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EL-NEXT:    lw $1, 144($fp)
 ; MIPS32R5EL-NEXT:    sw $1, 64($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 133($sp)
-; MIPS32R5EL-NEXT:    sw $1, 56($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 132($sp)
-; MIPS32R5EL-NEXT:    sw $1, 48($sp)
-; MIPS32R5EL-NEXT:    ld.d $w0, 64($sp)
-; MIPS32R5EL-NEXT:    ld.d $w1, 48($sp)
-; MIPS32R5EL-NEXT:    addv.d $w0, $w1, $w0
-; MIPS32R5EL-NEXT:    sh $6, 124($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 125($sp)
-; MIPS32R5EL-NEXT:    sw $1, 88($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 124($sp)
+; MIPS32R5EL-NEXT:    ld.b $w1, 64($sp)
+; MIPS32R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EL-NEXT:    lw $1, 148($fp)
 ; MIPS32R5EL-NEXT:    sw $1, 80($sp)
-; MIPS32R5EL-NEXT:    ld.d $w1, 80($sp)
-; MIPS32R5EL-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EL-NEXT:    sh $7, 120($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 121($sp)
-; MIPS32R5EL-NEXT:    sw $1, 104($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 120($sp)
+; MIPS32R5EL-NEXT:    ld.b $w1, 80($sp)
+; MIPS32R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EL-NEXT:    lw $1, 152($fp)
 ; MIPS32R5EL-NEXT:    sw $1, 96($sp)
-; MIPS32R5EL-NEXT:    ld.d $w1, 96($sp)
-; MIPS32R5EL-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EL-NEXT:    lbu $1, 161($fp)
-; MIPS32R5EL-NEXT:    sw $1, 8($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 160($fp)
-; MIPS32R5EL-NEXT:    sw $1, 0($sp)
-; MIPS32R5EL-NEXT:    ld.d $w1, 0($sp)
-; MIPS32R5EL-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EL-NEXT:    lbu $1, 165($fp)
-; MIPS32R5EL-NEXT:    sw $1, 24($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 164($fp)
-; MIPS32R5EL-NEXT:    sw $1, 16($sp)
-; MIPS32R5EL-NEXT:    ld.d $w1, 16($sp)
-; MIPS32R5EL-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EL-NEXT:    lbu $1, 169($fp)
-; MIPS32R5EL-NEXT:    sw $1, 40($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 168($fp)
-; MIPS32R5EL-NEXT:    sw $1, 32($sp)
-; MIPS32R5EL-NEXT:    ld.d $w1, 32($sp)
-; MIPS32R5EL-NEXT:    addv.d $w0, $w0, $w1
-; MIPS32R5EL-NEXT:    copy_s.w $1, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[2]
-; MIPS32R5EL-NEXT:    sb $2, 117($sp)
-; MIPS32R5EL-NEXT:    sb $1, 116($sp)
-; MIPS32R5EL-NEXT:    lhu $2, 116($sp)
+; MIPS32R5EL-NEXT:    ld.b $w1, 96($sp)
+; MIPS32R5EL-NEXT:    addv.b $w0, $w0, $w1
+; MIPS32R5EL-NEXT:    copy_u.h $2, $w0[0]
 ; MIPS32R5EL-NEXT:    move $sp, $fp
-; MIPS32R5EL-NEXT:    lw $fp, 136($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    lw $ra, 140($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, 144
+; MIPS32R5EL-NEXT:    lw $fp, 120($sp) # 4-byte Folded Reload
+; MIPS32R5EL-NEXT:    lw $ra, 124($sp) # 4-byte Folded Reload
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, 128
 ; MIPS32R5EL-NEXT:    jr $ra
 ; MIPS32R5EL-NEXT:    nop
 entry:
@@ -514,77 +455,64 @@ define <4 x i8> @i8_4(<4 x i8> %a, <4 x i8> %b) {
 ; MIPS64-NEXT:    jr $ra
 ; MIPS64-NEXT:    nop
 ;
-; MIPS32R5-LABEL: i8_4:
-; MIPS32R5:       # %bb.0:
-; MIPS32R5-NEXT:    addiu $sp, $sp, -16
-; MIPS32R5-NEXT:    .cfi_def_cfa_offset 16
-; MIPS32R5-NEXT:    sw $5, 8($sp)
-; MIPS32R5-NEXT:    sw $4, 12($sp)
-; MIPS32R5-NEXT:    lbu $1, 9($sp)
-; MIPS32R5-NEXT:    lbu $2, 8($sp)
-; MIPS32R5-NEXT:    insert.w $w0[0], $2
-; MIPS32R5-NEXT:    insert.w $w0[1], $1
-; MIPS32R5-NEXT:    lbu $1, 10($sp)
-; MIPS32R5-NEXT:    insert.w $w0[2], $1
-; MIPS32R5-NEXT:    lbu $1, 11($sp)
-; MIPS32R5-NEXT:    insert.w $w0[3], $1
-; MIPS32R5-NEXT:    lbu $1, 13($sp)
-; MIPS32R5-NEXT:    lbu $2, 12($sp)
-; MIPS32R5-NEXT:    insert.w $w1[0], $2
-; MIPS32R5-NEXT:    insert.w $w1[1], $1
-; MIPS32R5-NEXT:    lbu $1, 14($sp)
-; MIPS32R5-NEXT:    insert.w $w1[2], $1
-; MIPS32R5-NEXT:    lbu $1, 15($sp)
-; MIPS32R5-NEXT:    insert.w $w1[3], $1
-; MIPS32R5-NEXT:    addv.w $w0, $w1, $w0
-; MIPS32R5-NEXT:    copy_s.w $1, $w0[0]
-; MIPS32R5-NEXT:    copy_s.w $2, $w0[1]
-; MIPS32R5-NEXT:    copy_s.w $3, $w0[2]
-; MIPS32R5-NEXT:    copy_s.w $4, $w0[3]
-; MIPS32R5-NEXT:    sb $4, 7($sp)
-; MIPS32R5-NEXT:    sb $3, 6($sp)
-; MIPS32R5-NEXT:    sb $2, 5($sp)
-; MIPS32R5-NEXT:    sb $1, 4($sp)
-; MIPS32R5-NEXT:    lw $2, 4($sp)
-; MIPS32R5-NEXT:    addiu $sp, $sp, 16
-; MIPS32R5-NEXT:    jr $ra
-; MIPS32R5-NEXT:    nop
+; MIPS32R5EB-LABEL: i8_4:
+; MIPS32R5EB:       # %bb.0:
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, -48
+; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 48
+; MIPS32R5EB-NEXT:    sw $ra, 44($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    sw $fp, 40($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    .cfi_offset 31, -4
+; MIPS32R5EB-NEXT:    .cfi_offset 30, -8
+; MIPS32R5EB-NEXT:    move $fp, $sp
+; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
+; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
+; MIPS32R5EB-NEXT:    and $sp, $sp, $1
+; MIPS32R5EB-NEXT:    sw $5, 16($sp)
+; MIPS32R5EB-NEXT:    sw $4, 0($sp)
+; MIPS32R5EB-NEXT:    ld.b $w0, 16($sp)
+; MIPS32R5EB-NEXT:    ld.b $w1, 0($sp)
+; MIPS32R5EB-NEXT:    addv.b $w0, $w1, $w0
+; MIPS32R5EB-NEXT:    shf.b $w0, $w0, 27
+; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[0]
+; MIPS32R5EB-NEXT:    move $sp, $fp
+; MIPS32R5EB-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, 48
+; MIPS32R5EB-NEXT:    jr $ra
+; MIPS32R5EB-NEXT:    nop
 ;
-; MIPS64R5-LABEL: i8_4:
-; MIPS64R5:       # %bb.0:
-; MIPS64R5-NEXT:    daddiu $sp, $sp, -16
-; MIPS64R5-NEXT:    .cfi_def_cfa_offset 16
-; MIPS64R5-NEXT:    sw $5, 8($sp)
-; MIPS64R5-NEXT:    sw $4, 12($sp)
-; MIPS64R5-NEXT:    lbu $1, 9($sp)
-; MIPS64R5-NEXT:    lbu $2, 8($sp)
-; MIPS64R5-NEXT:    insert.w $w0[0], $2
-; MIPS64R5-NEXT:    insert.w $w0[1], $1
-; MIPS64R5-NEXT:    lbu $1, 10($sp)
-; MIPS64R5-NEXT:    insert.w $w0[2], $1
-; MIPS64R5-NEXT:    lbu $1, 11($sp)
-; MIPS64R5-NEXT:    insert.w $w0[3], $1
-; MIPS64R5-NEXT:    lbu $1, 13($sp)
-; MIPS64R5-NEXT:    lbu $2, 12($sp)
-; MIPS64R5-NEXT:    insert.w $w1[0], $2
-; MIPS64R5-NEXT:    insert.w $w1[1], $1
-; MIPS64R5-NEXT:    lbu $1, 14($sp)
-; MIPS64R5-NEXT:    insert.w $w1[2], $1
-; MIPS64R5-NEXT:    lbu $1, 15($sp)
-; MIPS64R5-NEXT:    insert.w $w1[3], $1
-; MIPS64R5-NEXT:    addv.w $w0, $w1, $w0
-; MIPS64R5-NEXT:    copy_s.w $1, $w0[0]
-; MIPS64R5-NEXT:    copy_s.w $2, $w0[1]
-; MIPS64R5-NEXT:    copy_s.w $3, $w0[2]
-; MIPS64R5-NEXT:    copy_s.w $4, $w0[3]
-; MIPS64R5-NEXT:    sb $4, 7($sp)
-; MIPS64R5-NEXT:    sb $3, 6($sp)
-; MIPS64R5-NEXT:    sb $2, 5($sp)
-; MIPS64R5-NEXT:    sb $1, 4($sp)
-; MIPS64R5-NEXT:    lw $2, 4($sp)
-; MIPS64R5-NEXT:    daddiu $sp, $sp, 16
-; MIPS64R5-NEXT:    jr $ra
-; MIPS64R5-NEXT:    nop
+; MIPS64R5EB-LABEL: i8_4:
+; MIPS64R5EB:       # %bb.0:
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
+; MIPS64R5EB-NEXT:    sll $1, $5, 0
+; MIPS64R5EB-NEXT:    sw $1, 16($sp)
+; MIPS64R5EB-NEXT:    sll $1, $4, 0
+; MIPS64R5EB-NEXT:    sw $1, 0($sp)
+; MIPS64R5EB-NEXT:    ld.b $w0, 16($sp)
+; MIPS64R5EB-NEXT:    ld.b $w1, 0($sp)
+; MIPS64R5EB-NEXT:    addv.b $w0, $w1, $w0
+; MIPS64R5EB-NEXT:    shf.b $w0, $w0, 27
+; MIPS64R5EB-NEXT:    copy_s.w $2, $w0[0]
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EB-NEXT:    jr $ra
+; MIPS64R5EB-NEXT:    nop
+;
+; MIPS64R5EL-LABEL: i8_4:
+; MIPS64R5EL:       # %bb.0:
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
+; MIPS64R5EL-NEXT:    sll $1, $5, 0
+; MIPS64R5EL-NEXT:    sw $1, 16($sp)
+; MIPS64R5EL-NEXT:    sll $1, $4, 0
+; MIPS64R5EL-NEXT:    sw $1, 0($sp)
+; MIPS64R5EL-NEXT:    ld.b $w0, 16($sp)
+; MIPS64R5EL-NEXT:    ld.b $w1, 0($sp)
+; MIPS64R5EL-NEXT:    addv.b $w0, $w1, $w0
+; MIPS64R5EL-NEXT:    copy_s.w $2, $w0[0]
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EL-NEXT:    jr $ra
+; MIPS64R5EL-NEXT:    nop
   %1 = add <4 x i8> %a, %b
   ret <4 x i8> %1
 }
@@ -704,66 +632,16 @@ define <8 x i8> @i8_8(<8 x i8> %a, <8 x i8> %b) {
 ; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EB-NEXT:    and $sp, $sp, $1
-; MIPS32R5EB-NEXT:    sw $6, 24($sp)
-; MIPS32R5EB-NEXT:    lbu $1, 25($sp)
-; MIPS32R5EB-NEXT:    lbu $2, 24($sp)
-; MIPS32R5EB-NEXT:    sw $7, 28($sp)
-; MIPS32R5EB-NEXT:    insert.h $w0[0], $2
-; MIPS32R5EB-NEXT:    insert.h $w0[1], $1
-; MIPS32R5EB-NEXT:    lbu $1, 26($sp)
-; MIPS32R5EB-NEXT:    sw $4, 32($sp)
-; MIPS32R5EB-NEXT:    insert.h $w0[2], $1
-; MIPS32R5EB-NEXT:    lbu $1, 27($sp)
-; MIPS32R5EB-NEXT:    insert.h $w0[3], $1
-; MIPS32R5EB-NEXT:    lbu $1, 28($sp)
-; MIPS32R5EB-NEXT:    sw $5, 36($sp)
-; MIPS32R5EB-NEXT:    insert.h $w0[4], $1
-; MIPS32R5EB-NEXT:    lbu $1, 33($sp)
-; MIPS32R5EB-NEXT:    lbu $2, 32($sp)
-; MIPS32R5EB-NEXT:    insert.h $w1[0], $2
-; MIPS32R5EB-NEXT:    insert.h $w1[1], $1
-; MIPS32R5EB-NEXT:    lbu $1, 29($sp)
-; MIPS32R5EB-NEXT:    lbu $2, 34($sp)
-; MIPS32R5EB-NEXT:    insert.h $w1[2], $2
-; MIPS32R5EB-NEXT:    insert.h $w0[5], $1
-; MIPS32R5EB-NEXT:    lbu $1, 35($sp)
-; MIPS32R5EB-NEXT:    lbu $2, 31($sp)
-; MIPS32R5EB-NEXT:    lbu $3, 30($sp)
-; MIPS32R5EB-NEXT:    lbu $4, 39($sp)
-; MIPS32R5EB-NEXT:    insert.h $w0[6], $3
-; MIPS32R5EB-NEXT:    insert.h $w0[7], $2
-; MIPS32R5EB-NEXT:    insert.h $w1[3], $1
-; MIPS32R5EB-NEXT:    lbu $1, 36($sp)
-; MIPS32R5EB-NEXT:    insert.h $w1[4], $1
-; MIPS32R5EB-NEXT:    lbu $1, 37($sp)
-; MIPS32R5EB-NEXT:    insert.h $w1[5], $1
-; MIPS32R5EB-NEXT:    lbu $1, 38($sp)
-; MIPS32R5EB-NEXT:    insert.h $w1[6], $1
-; MIPS32R5EB-NEXT:    insert.h $w1[7], $4
-; MIPS32R5EB-NEXT:    addv.h $w0, $w1, $w0
-; MIPS32R5EB-NEXT:    copy_s.h $1, $w0[0]
-; MIPS32R5EB-NEXT:    copy_s.h $2, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.h $3, $w0[2]
-; MIPS32R5EB-NEXT:    copy_s.h $4, $w0[3]
-; MIPS32R5EB-NEXT:    copy_s.h $5, $w0[4]
-; MIPS32R5EB-NEXT:    copy_s.h $6, $w0[5]
-; MIPS32R5EB-NEXT:    copy_s.h $7, $w0[6]
-; MIPS32R5EB-NEXT:    copy_s.h $8, $w0[7]
-; MIPS32R5EB-NEXT:    sb $8, 23($sp)
-; MIPS32R5EB-NEXT:    sb $7, 22($sp)
-; MIPS32R5EB-NEXT:    sb $6, 21($sp)
-; MIPS32R5EB-NEXT:    sb $5, 20($sp)
-; MIPS32R5EB-NEXT:    sb $4, 19($sp)
-; MIPS32R5EB-NEXT:    sb $3, 18($sp)
-; MIPS32R5EB-NEXT:    sb $2, 17($sp)
-; MIPS32R5EB-NEXT:    sb $1, 16($sp)
-; MIPS32R5EB-NEXT:    lw $1, 20($sp)
-; MIPS32R5EB-NEXT:    sw $1, 12($sp)
-; MIPS32R5EB-NEXT:    lw $1, 16($sp)
-; MIPS32R5EB-NEXT:    sw $1, 4($sp)
-; MIPS32R5EB-NEXT:    ld.w $w0, 0($sp)
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[3]
+; MIPS32R5EB-NEXT:    sw $7, 20($sp)
+; MIPS32R5EB-NEXT:    sw $6, 16($sp)
+; MIPS32R5EB-NEXT:    sw $5, 4($sp)
+; MIPS32R5EB-NEXT:    sw $4, 0($sp)
+; MIPS32R5EB-NEXT:    ld.b $w0, 16($sp)
+; MIPS32R5EB-NEXT:    ld.b $w1, 0($sp)
+; MIPS32R5EB-NEXT:    addv.b $w0, $w1, $w0
+; MIPS32R5EB-NEXT:    shf.b $w0, $w0, 27
+; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[0]
+; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[1]
 ; MIPS32R5EB-NEXT:    move $sp, $fp
 ; MIPS32R5EB-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
 ; MIPS32R5EB-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
@@ -771,65 +649,35 @@ define <8 x i8> @i8_8(<8 x i8> %a, <8 x i8> %b) {
 ; MIPS32R5EB-NEXT:    jr $ra
 ; MIPS32R5EB-NEXT:    nop
 ;
-; MIPS64R5-LABEL: i8_8:
-; MIPS64R5:       # %bb.0:
-; MIPS64R5-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5-NEXT:    sd $5, 16($sp)
-; MIPS64R5-NEXT:    lbu $1, 17($sp)
-; MIPS64R5-NEXT:    lbu $2, 16($sp)
-; MIPS64R5-NEXT:    sd $4, 24($sp)
-; MIPS64R5-NEXT:    insert.h $w0[0], $2
-; MIPS64R5-NEXT:    insert.h $w0[1], $1
-; MIPS64R5-NEXT:    lbu $1, 18($sp)
-; MIPS64R5-NEXT:    insert.h $w0[2], $1
-; MIPS64R5-NEXT:    lbu $1, 19($sp)
-; MIPS64R5-NEXT:    insert.h $w0[3], $1
-; MIPS64R5-NEXT:    lbu $1, 20($sp)
-; MIPS64R5-NEXT:    insert.h $w0[4], $1
-; MIPS64R5-NEXT:    lbu $1, 25($sp)
-; MIPS64R5-NEXT:    lbu $2, 24($sp)
-; MIPS64R5-NEXT:    insert.h $w1[0], $2
-; MIPS64R5-NEXT:    insert.h $w1[1], $1
-; MIPS64R5-NEXT:    lbu $1, 21($sp)
-; MIPS64R5-NEXT:    lbu $2, 26($sp)
-; MIPS64R5-NEXT:    insert.h $w1[2], $2
-; MIPS64R5-NEXT:    insert.h $w0[5], $1
-; MIPS64R5-NEXT:    lbu $1, 27($sp)
-; MIPS64R5-NEXT:    lbu $2, 23($sp)
-; MIPS64R5-NEXT:    lbu $3, 22($sp)
-; MIPS64R5-NEXT:    lbu $4, 31($sp)
-; MIPS64R5-NEXT:    insert.h $w0[6], $3
-; MIPS64R5-NEXT:    insert.h $w0[7], $2
-; MIPS64R5-NEXT:    insert.h $w1[3], $1
-; MIPS64R5-NEXT:    lbu $1, 28($sp)
-; MIPS64R5-NEXT:    insert.h $w1[4], $1
-; MIPS64R5-NEXT:    lbu $1, 29($sp)
-; MIPS64R5-NEXT:    insert.h $w1[5], $1
-; MIPS64R5-NEXT:    lbu $1, 30($sp)
-; MIPS64R5-NEXT:    insert.h $w1[6], $1
-; MIPS64R5-NEXT:    insert.h $w1[7], $4
-; MIPS64R5-NEXT:    addv.h $w0, $w1, $w0
-; MIPS64R5-NEXT:    copy_s.h $1, $w0[0]
-; MIPS64R5-NEXT:    copy_s.h $2, $w0[1]
-; MIPS64R5-NEXT:    copy_s.h $3, $w0[2]
-; MIPS64R5-NEXT:    copy_s.h $4, $w0[3]
-; MIPS64R5-NEXT:    copy_s.h $5, $w0[4]
-; MIPS64R5-NEXT:    copy_s.h $6, $w0[5]
-; MIPS64R5-NEXT:    copy_s.h $7, $w0[6]
-; MIPS64R5-NEXT:    copy_s.h $8, $w0[7]
-; MIPS64R5-NEXT:    sb $8, 15($sp)
-; MIPS64R5-NEXT:    sb $7, 14($sp)
-; MIPS64R5-NEXT:    sb $6, 13($sp)
-; MIPS64R5-NEXT:    sb $5, 12($sp)
-; MIPS64R5-NEXT:    sb $4, 11($sp)
-; MIPS64R5-NEXT:    sb $3, 10($sp)
-; MIPS64R5-NEXT:    sb $2, 9($sp)
-; MIPS64R5-NEXT:    sb $1, 8($sp)
-; MIPS64R5-NEXT:    ld $2, 8($sp)
-; MIPS64R5-NEXT:    daddiu $sp, $sp, 32
-; MIPS64R5-NEXT:    jr $ra
-; MIPS64R5-NEXT:    nop
+; MIPS64R5EB-LABEL: i8_8:
+; MIPS64R5EB:       # %bb.0:
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
+; MIPS64R5EB-NEXT:    sd $5, 16($sp)
+; MIPS64R5EB-NEXT:    sd $4, 0($sp)
+; MIPS64R5EB-NEXT:    ld.b $w0, 16($sp)
+; MIPS64R5EB-NEXT:    ld.b $w1, 0($sp)
+; MIPS64R5EB-NEXT:    addv.b $w0, $w1, $w0
+; MIPS64R5EB-NEXT:    shf.b $w0, $w0, 27
+; MIPS64R5EB-NEXT:    shf.w $w0, $w0, 177
+; MIPS64R5EB-NEXT:    copy_s.d $2, $w0[0]
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EB-NEXT:    jr $ra
+; MIPS64R5EB-NEXT:    nop
+;
+; MIPS64R5EL-LABEL: i8_8:
+; MIPS64R5EL:       # %bb.0:
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
+; MIPS64R5EL-NEXT:    sd $5, 16($sp)
+; MIPS64R5EL-NEXT:    sd $4, 0($sp)
+; MIPS64R5EL-NEXT:    ld.b $w0, 16($sp)
+; MIPS64R5EL-NEXT:    ld.b $w1, 0($sp)
+; MIPS64R5EL-NEXT:    addv.b $w0, $w1, $w0
+; MIPS64R5EL-NEXT:    copy_s.d $2, $w0[0]
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EL-NEXT:    jr $ra
+; MIPS64R5EL-NEXT:    nop
 ;
 ; MIPS32R5EL-LABEL: i8_8:
 ; MIPS32R5EL:       # %bb.0:
@@ -843,66 +691,15 @@ define <8 x i8> @i8_8(<8 x i8> %a, <8 x i8> %b) {
 ; MIPS32R5EL-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EL-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EL-NEXT:    and $sp, $sp, $1
-; MIPS32R5EL-NEXT:    sw $6, 24($sp)
-; MIPS32R5EL-NEXT:    lbu $1, 25($sp)
-; MIPS32R5EL-NEXT:    lbu $2, 24($sp)
-; MIPS32R5EL-NEXT:    sw $7, 28($sp)
-; MIPS32R5EL-NEXT:    insert.h $w0[0], $2
-; MIPS32R5EL-NEXT:    insert.h $w0[1], $1
-; MIPS32R5EL-NEXT:    lbu $1, 26($sp)
-; MIPS32R5EL-NEXT:    sw $4, 32($sp)
-; MIPS32R5EL-NEXT:    insert.h $w0[2], $1
-; MIPS32R5EL-NEXT:    lbu $1, 27($sp)
-; MIPS32R5EL-NEXT:    insert.h $w0[3], $1
-; MIPS32R5EL-NEXT:    lbu $1, 28($sp)
-; MIPS32R5EL-NEXT:    sw $5, 36($sp)
-; MIPS32R5EL-NEXT:    insert.h $w0[4], $1
-; MIPS32R5EL-NEXT:    lbu $1, 33($sp)
-; MIPS32R5EL-NEXT:    lbu $2, 32($sp)
-; MIPS32R5EL-NEXT:    insert.h $w1[0], $2
-; MIPS32R5EL-NEXT:    insert.h $w1[1], $1
-; MIPS32R5EL-NEXT:    lbu $1, 29($sp)
-; MIPS32R5EL-NEXT:    lbu $2, 34($sp)
-; MIPS32R5EL-NEXT:    insert.h $w1[2], $2
-; MIPS32R5EL-NEXT:    insert.h $w0[5], $1
-; MIPS32R5EL-NEXT:    lbu $1, 35($sp)
-; MIPS32R5EL-NEXT:    lbu $2, 31($sp)
-; MIPS32R5EL-NEXT:    lbu $3, 30($sp)
-; MIPS32R5EL-NEXT:    lbu $4, 39($sp)
-; MIPS32R5EL-NEXT:    insert.h $w0[6], $3
-; MIPS32R5EL-NEXT:    insert.h $w0[7], $2
-; MIPS32R5EL-NEXT:    insert.h $w1[3], $1
-; MIPS32R5EL-NEXT:    lbu $1, 36($sp)
-; MIPS32R5EL-NEXT:    insert.h $w1[4], $1
-; MIPS32R5EL-NEXT:    lbu $1, 37($sp)
-; MIPS32R5EL-NEXT:    insert.h $w1[5], $1
-; MIPS32R5EL-NEXT:    lbu $1, 38($sp)
-; MIPS32R5EL-NEXT:    insert.h $w1[6], $1
-; MIPS32R5EL-NEXT:    insert.h $w1[7], $4
-; MIPS32R5EL-NEXT:    addv.h $w0, $w1, $w0
-; MIPS32R5EL-NEXT:    copy_s.h $1, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.h $2, $w0[1]
-; MIPS32R5EL-NEXT:    copy_s.h $3, $w0[2]
-; MIPS32R5EL-NEXT:    copy_s.h $4, $w0[3]
-; MIPS32R5EL-NEXT:    copy_s.h $5, $w0[4]
-; MIPS32R5EL-NEXT:    copy_s.h $6, $w0[5]
-; MIPS32R5EL-NEXT:    copy_s.h $7, $w0[6]
-; MIPS32R5EL-NEXT:    copy_s.h $8, $w0[7]
-; MIPS32R5EL-NEXT:    sb $8, 23($sp)
-; MIPS32R5EL-NEXT:    sb $7, 22($sp)
-; MIPS32R5EL-NEXT:    sb $6, 21($sp)
-; MIPS32R5EL-NEXT:    sb $5, 20($sp)
-; MIPS32R5EL-NEXT:    sb $4, 19($sp)
-; MIPS32R5EL-NEXT:    sb $3, 18($sp)
-; MIPS32R5EL-NEXT:    sb $2, 17($sp)
-; MIPS32R5EL-NEXT:    sb $1, 16($sp)
-; MIPS32R5EL-NEXT:    lw $1, 20($sp)
-; MIPS32R5EL-NEXT:    sw $1, 8($sp)
-; MIPS32R5EL-NEXT:    lw $1, 16($sp)
-; MIPS32R5EL-NEXT:    sw $1, 0($sp)
-; MIPS32R5EL-NEXT:    ld.w $w0, 0($sp)
+; MIPS32R5EL-NEXT:    sw $7, 20($sp)
+; MIPS32R5EL-NEXT:    sw $6, 16($sp)
+; MIPS32R5EL-NEXT:    sw $5, 4($sp)
+; MIPS32R5EL-NEXT:    sw $4, 0($sp)
+; MIPS32R5EL-NEXT:    ld.b $w0, 16($sp)
+; MIPS32R5EL-NEXT:    ld.b $w1, 0($sp)
+; MIPS32R5EL-NEXT:    addv.b $w0, $w1, $w0
 ; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[2]
+; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[1]
 ; MIPS32R5EL-NEXT:    move $sp, $fp
 ; MIPS32R5EL-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
 ; MIPS32R5EL-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
@@ -1221,102 +1018,86 @@ define <2 x i16> @i16_2(<2 x i16> %a, <2 x i16> %b) {
 ;
 ; MIPS32R5EB-LABEL: i16_2:
 ; MIPS32R5EB:       # %bb.0:
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, -64
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 64
-; MIPS32R5EB-NEXT:    sw $ra, 60($sp) # 4-byte Folded Spill
-; MIPS32R5EB-NEXT:    sw $fp, 56($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, -48
+; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 48
+; MIPS32R5EB-NEXT:    sw $ra, 44($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    sw $fp, 40($sp) # 4-byte Folded Spill
 ; MIPS32R5EB-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EB-NEXT:    .cfi_offset 30, -8
 ; MIPS32R5EB-NEXT:    move $fp, $sp
 ; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EB-NEXT:    and $sp, $sp, $1
-; MIPS32R5EB-NEXT:    sw $5, 48($sp)
-; MIPS32R5EB-NEXT:    sw $4, 52($sp)
-; MIPS32R5EB-NEXT:    lhu $1, 50($sp)
-; MIPS32R5EB-NEXT:    sw $1, 28($sp)
-; MIPS32R5EB-NEXT:    lhu $1, 48($sp)
-; MIPS32R5EB-NEXT:    sw $1, 20($sp)
-; MIPS32R5EB-NEXT:    lhu $1, 54($sp)
-; MIPS32R5EB-NEXT:    sw $1, 12($sp)
-; MIPS32R5EB-NEXT:    lhu $1, 52($sp)
-; MIPS32R5EB-NEXT:    sw $1, 4($sp)
-; MIPS32R5EB-NEXT:    ld.d $w0, 16($sp)
-; MIPS32R5EB-NEXT:    ld.d $w1, 0($sp)
-; MIPS32R5EB-NEXT:    addv.d $w0, $w1, $w0
-; MIPS32R5EB-NEXT:    shf.w $w0, $w0, 177
-; MIPS32R5EB-NEXT:    copy_s.w $1, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[3]
-; MIPS32R5EB-NEXT:    sh $2, 46($sp)
-; MIPS32R5EB-NEXT:    sh $1, 44($sp)
-; MIPS32R5EB-NEXT:    lw $2, 44($sp)
+; MIPS32R5EB-NEXT:    sw $5, 16($sp)
+; MIPS32R5EB-NEXT:    sw $4, 0($sp)
+; MIPS32R5EB-NEXT:    ld.h $w0, 16($sp)
+; MIPS32R5EB-NEXT:    ld.h $w1, 0($sp)
+; MIPS32R5EB-NEXT:    addv.h $w0, $w1, $w0
+; MIPS32R5EB-NEXT:    shf.h $w0, $w0, 177
+; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[0]
 ; MIPS32R5EB-NEXT:    move $sp, $fp
-; MIPS32R5EB-NEXT:    lw $fp, 56($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    lw $ra, 60($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, 64
+; MIPS32R5EB-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, 48
 ; MIPS32R5EB-NEXT:    jr $ra
 ; MIPS32R5EB-NEXT:    nop
 ;
-; MIPS64R5-LABEL: i16_2:
-; MIPS64R5:       # %bb.0:
-; MIPS64R5-NEXT:    daddiu $sp, $sp, -16
-; MIPS64R5-NEXT:    .cfi_def_cfa_offset 16
-; MIPS64R5-NEXT:    sw $5, 8($sp)
-; MIPS64R5-NEXT:    sw $4, 12($sp)
-; MIPS64R5-NEXT:    lh $1, 10($sp)
-; MIPS64R5-NEXT:    lh $2, 8($sp)
-; MIPS64R5-NEXT:    insert.d $w0[0], $2
-; MIPS64R5-NEXT:    insert.d $w0[1], $1
-; MIPS64R5-NEXT:    lh $1, 14($sp)
-; MIPS64R5-NEXT:    lh $2, 12($sp)
-; MIPS64R5-NEXT:    insert.d $w1[0], $2
-; MIPS64R5-NEXT:    insert.d $w1[1], $1
-; MIPS64R5-NEXT:    addv.d $w0, $w1, $w0
-; MIPS64R5-NEXT:    copy_s.d $1, $w0[0]
-; MIPS64R5-NEXT:    copy_s.d $2, $w0[1]
-; MIPS64R5-NEXT:    sh $2, 6($sp)
-; MIPS64R5-NEXT:    sh $1, 4($sp)
-; MIPS64R5-NEXT:    lw $2, 4($sp)
-; MIPS64R5-NEXT:    daddiu $sp, $sp, 16
-; MIPS64R5-NEXT:    jr $ra
-; MIPS64R5-NEXT:    nop
-;
 ; MIPS32R5EL-LABEL: i16_2:
 ; MIPS32R5EL:       # %bb.0:
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, -64
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 64
-; MIPS32R5EL-NEXT:    sw $ra, 60($sp) # 4-byte Folded Spill
-; MIPS32R5EL-NEXT:    sw $fp, 56($sp) # 4-byte Folded Spill
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, -48
+; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 48
+; MIPS32R5EL-NEXT:    sw $ra, 44($sp) # 4-byte Folded Spill
+; MIPS32R5EL-NEXT:    sw $fp, 40($sp) # 4-byte Folded Spill
 ; MIPS32R5EL-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EL-NEXT:    .cfi_offset 30, -8
 ; MIPS32R5EL-NEXT:    move $fp, $sp
 ; MIPS32R5EL-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EL-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EL-NEXT:    and $sp, $sp, $1
-; MIPS32R5EL-NEXT:    sw $5, 48($sp)
-; MIPS32R5EL-NEXT:    sw $4, 52($sp)
-; MIPS32R5EL-NEXT:    lhu $1, 50($sp)
-; MIPS32R5EL-NEXT:    sw $1, 24($sp)
-; MIPS32R5EL-NEXT:    lhu $1, 48($sp)
-; MIPS32R5EL-NEXT:    sw $1, 16($sp)
-; MIPS32R5EL-NEXT:    lhu $1, 54($sp)
-; MIPS32R5EL-NEXT:    sw $1, 8($sp)
-; MIPS32R5EL-NEXT:    lhu $1, 52($sp)
-; MIPS32R5EL-NEXT:    sw $1, 0($sp)
-; MIPS32R5EL-NEXT:    ld.d $w0, 16($sp)
-; MIPS32R5EL-NEXT:    ld.d $w1, 0($sp)
-; MIPS32R5EL-NEXT:    addv.d $w0, $w1, $w0
-; MIPS32R5EL-NEXT:    copy_s.w $1, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[2]
-; MIPS32R5EL-NEXT:    sh $2, 46($sp)
-; MIPS32R5EL-NEXT:    sh $1, 44($sp)
-; MIPS32R5EL-NEXT:    lw $2, 44($sp)
+; MIPS32R5EL-NEXT:    sw $5, 16($sp)
+; MIPS32R5EL-NEXT:    sw $4, 0($sp)
+; MIPS32R5EL-NEXT:    ld.h $w0, 16($sp)
+; MIPS32R5EL-NEXT:    ld.h $w1, 0($sp)
+; MIPS32R5EL-NEXT:    addv.h $w0, $w1, $w0
+; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[0]
 ; MIPS32R5EL-NEXT:    move $sp, $fp
-; MIPS32R5EL-NEXT:    lw $fp, 56($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    lw $ra, 60($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, 64
+; MIPS32R5EL-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
+; MIPS32R5EL-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, 48
 ; MIPS32R5EL-NEXT:    jr $ra
 ; MIPS32R5EL-NEXT:    nop
+;
+; MIPS64R5EB-LABEL: i16_2:
+; MIPS64R5EB:       # %bb.0:
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
+; MIPS64R5EB-NEXT:    sll $1, $5, 0
+; MIPS64R5EB-NEXT:    sw $1, 16($sp)
+; MIPS64R5EB-NEXT:    sll $1, $4, 0
+; MIPS64R5EB-NEXT:    sw $1, 0($sp)
+; MIPS64R5EB-NEXT:    ld.h $w0, 16($sp)
+; MIPS64R5EB-NEXT:    ld.h $w1, 0($sp)
+; MIPS64R5EB-NEXT:    addv.h $w0, $w1, $w0
+; MIPS64R5EB-NEXT:    shf.h $w0, $w0, 177
+; MIPS64R5EB-NEXT:    copy_s.w $2, $w0[0]
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EB-NEXT:    jr $ra
+; MIPS64R5EB-NEXT:    nop
+;
+; MIPS64R5EL-LABEL: i16_2:
+; MIPS64R5EL:       # %bb.0:
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
+; MIPS64R5EL-NEXT:    sll $1, $5, 0
+; MIPS64R5EL-NEXT:    sw $1, 16($sp)
+; MIPS64R5EL-NEXT:    sll $1, $4, 0
+; MIPS64R5EL-NEXT:    sw $1, 0($sp)
+; MIPS64R5EL-NEXT:    ld.h $w0, 16($sp)
+; MIPS64R5EL-NEXT:    ld.h $w1, 0($sp)
+; MIPS64R5EL-NEXT:    addv.h $w0, $w1, $w0
+; MIPS64R5EL-NEXT:    copy_s.w $2, $w0[0]
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EL-NEXT:    jr $ra
   %1 = add <2 x i16> %a, %b
   ret <2 x i16> %1
 }
@@ -1384,84 +1165,50 @@ define <4 x i16> @i16_4(<4 x i16> %a, <4 x i16> %b) {
 ; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EB-NEXT:    and $sp, $sp, $1
-; MIPS32R5EB-NEXT:    sw $6, 24($sp)
-; MIPS32R5EB-NEXT:    sw $7, 28($sp)
-; MIPS32R5EB-NEXT:    lhu $1, 26($sp)
-; MIPS32R5EB-NEXT:    lhu $2, 24($sp)
-; MIPS32R5EB-NEXT:    sw $4, 32($sp)
-; MIPS32R5EB-NEXT:    insert.w $w0[0], $2
-; MIPS32R5EB-NEXT:    insert.w $w0[1], $1
-; MIPS32R5EB-NEXT:    lhu $1, 28($sp)
-; MIPS32R5EB-NEXT:    sw $5, 36($sp)
-; MIPS32R5EB-NEXT:    insert.w $w0[2], $1
-; MIPS32R5EB-NEXT:    lhu $1, 30($sp)
-; MIPS32R5EB-NEXT:    insert.w $w0[3], $1
-; MIPS32R5EB-NEXT:    lhu $1, 34($sp)
-; MIPS32R5EB-NEXT:    lhu $2, 32($sp)
-; MIPS32R5EB-NEXT:    insert.w $w1[0], $2
-; MIPS32R5EB-NEXT:    insert.w $w1[1], $1
-; MIPS32R5EB-NEXT:    lhu $1, 36($sp)
-; MIPS32R5EB-NEXT:    insert.w $w1[2], $1
-; MIPS32R5EB-NEXT:    lhu $1, 38($sp)
-; MIPS32R5EB-NEXT:    insert.w $w1[3], $1
-; MIPS32R5EB-NEXT:    addv.w $w0, $w1, $w0
-; MIPS32R5EB-NEXT:    copy_s.w $1, $w0[0]
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[2]
-; MIPS32R5EB-NEXT:    copy_s.w $4, $w0[3]
-; MIPS32R5EB-NEXT:    sh $4, 22($sp)
-; MIPS32R5EB-NEXT:    sh $3, 20($sp)
-; MIPS32R5EB-NEXT:    sh $2, 18($sp)
-; MIPS32R5EB-NEXT:    sh $1, 16($sp)
-; MIPS32R5EB-NEXT:    lw $1, 20($sp)
-; MIPS32R5EB-NEXT:    sw $1, 12($sp)
-; MIPS32R5EB-NEXT:    lw $1, 16($sp)
-; MIPS32R5EB-NEXT:    sw $1, 4($sp)
-; MIPS32R5EB-NEXT:    ld.w $w0, 0($sp)
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[3]
+; MIPS32R5EB-NEXT:    sw $7, 20($sp)
+; MIPS32R5EB-NEXT:    sw $6, 16($sp)
+; MIPS32R5EB-NEXT:    sw $5, 4($sp)
+; MIPS32R5EB-NEXT:    sw $4, 0($sp)
+; MIPS32R5EB-NEXT:    ld.h $w0, 16($sp)
+; MIPS32R5EB-NEXT:    ld.h $w1, 0($sp)
+; MIPS32R5EB-NEXT:    addv.h $w0, $w1, $w0
+; MIPS32R5EB-NEXT:    shf.h $w0, $w0, 177
+; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[0]
+; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[1]
 ; MIPS32R5EB-NEXT:    move $sp, $fp
 ; MIPS32R5EB-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
 ; MIPS32R5EB-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
 ; MIPS32R5EB-NEXT:    addiu $sp, $sp, 48
 ; MIPS32R5EB-NEXT:    jr $ra
-; MIPS32R5EB-NEXT:    nop
 ;
-; MIPS64R5-LABEL: i16_4:
-; MIPS64R5:       # %bb.0:
-; MIPS64R5-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5-NEXT:    sd $5, 16($sp)
-; MIPS64R5-NEXT:    sd $4, 24($sp)
-; MIPS64R5-NEXT:    lhu $1, 18($sp)
-; MIPS64R5-NEXT:    lhu $2, 16($sp)
-; MIPS64R5-NEXT:    insert.w $w0[0], $2
-; MIPS64R5-NEXT:    insert.w $w0[1], $1
-; MIPS64R5-NEXT:    lhu $1, 20($sp)
-; MIPS64R5-NEXT:    insert.w $w0[2], $1
-; MIPS64R5-NEXT:    lhu $1, 22($sp)
-; MIPS64R5-NEXT:    insert.w $w0[3], $1
-; MIPS64R5-NEXT:    lhu $1, 26($sp)
-; MIPS64R5-NEXT:    lhu $2, 24($sp)
-; MIPS64R5-NEXT:    insert.w $w1[0], $2
-; MIPS64R5-NEXT:    insert.w $w1[1], $1
-; MIPS64R5-NEXT:    lhu $1, 28($sp)
-; MIPS64R5-NEXT:    insert.w $w1[2], $1
-; MIPS64R5-NEXT:    lhu $1, 30($sp)
-; MIPS64R5-NEXT:    insert.w $w1[3], $1
-; MIPS64R5-NEXT:    addv.w $w0, $w1, $w0
-; MIPS64R5-NEXT:    copy_s.w $1, $w0[0]
-; MIPS64R5-NEXT:    copy_s.w $2, $w0[1]
-; MIPS64R5-NEXT:    copy_s.w $3, $w0[2]
-; MIPS64R5-NEXT:    copy_s.w $4, $w0[3]
-; MIPS64R5-NEXT:    sh $4, 14($sp)
-; MIPS64R5-NEXT:    sh $3, 12($sp)
-; MIPS64R5-NEXT:    sh $2, 10($sp)
-; MIPS64R5-NEXT:    sh $1, 8($sp)
-; MIPS64R5-NEXT:    ld $2, 8($sp)
-; MIPS64R5-NEXT:    daddiu $sp, $sp, 32
-; MIPS64R5-NEXT:    jr $ra
-; MIPS64R5-NEXT:    nop
+; MIPS64R5EB-LABEL: i16_4:
+; MIPS64R5EB:       # %bb.0:
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
+; MIPS64R5EB-NEXT:    sd $5, 16($sp)
+; MIPS64R5EB-NEXT:    sd $4, 0($sp)
+; MIPS64R5EB-NEXT:    ld.h $w0, 16($sp)
+; MIPS64R5EB-NEXT:    ld.h $w1, 0($sp)
+; MIPS64R5EB-NEXT:    addv.h $w0, $w1, $w0
+; MIPS64R5EB-NEXT:    shf.h $w0, $w0, 27
+; MIPS64R5EB-NEXT:    copy_s.d $2, $w0[0]
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EB-NEXT:    jr $ra
+; MIPS64R5EB-NEXT:    nop
+;
+; MIPS64R5EL-LABEL: i16_4:
+; MIPS64R5EL:       # %bb.0:
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
+; MIPS64R5EL-NEXT:    sd $5, 16($sp)
+; MIPS64R5EL-NEXT:    sd $4, 0($sp)
+; MIPS64R5EL-NEXT:    ld.h $w0, 16($sp)
+; MIPS64R5EL-NEXT:    ld.h $w1, 0($sp)
+; MIPS64R5EL-NEXT:    addv.h $w0, $w1, $w0
+; MIPS64R5EL-NEXT:    copy_s.d $2, $w0[0]
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EL-NEXT:    jr $ra
+; MIPS64R5EL-NEXT:    nop
 ;
 ; MIPS32R5EL-LABEL: i16_4:
 ; MIPS32R5EL:       # %bb.0:
@@ -1475,42 +1222,15 @@ define <4 x i16> @i16_4(<4 x i16> %a, <4 x i16> %b) {
 ; MIPS32R5EL-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EL-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EL-NEXT:    and $sp, $sp, $1
-; MIPS32R5EL-NEXT:    sw $6, 24($sp)
-; MIPS32R5EL-NEXT:    sw $7, 28($sp)
-; MIPS32R5EL-NEXT:    lhu $1, 26($sp)
-; MIPS32R5EL-NEXT:    lhu $2, 24($sp)
-; MIPS32R5EL-NEXT:    sw $4, 32($sp)
-; MIPS32R5EL-NEXT:    insert.w $w0[0], $2
-; MIPS32R5EL-NEXT:    insert.w $w0[1], $1
-; MIPS32R5EL-NEXT:    lhu $1, 28($sp)
-; MIPS32R5EL-NEXT:    sw $5, 36($sp)
-; MIPS32R5EL-NEXT:    insert.w $w0[2], $1
-; MIPS32R5EL-NEXT:    lhu $1, 30($sp)
-; MIPS32R5EL-NEXT:    insert.w $w0[3], $1
-; MIPS32R5EL-NEXT:    lhu $1, 34($sp)
-; MIPS32R5EL-NEXT:    lhu $2, 32($sp)
-; MIPS32R5EL-NEXT:    insert.w $w1[0], $2
-; MIPS32R5EL-NEXT:    insert.w $w1[1], $1
-; MIPS32R5EL-NEXT:    lhu $1, 36($sp)
-; MIPS32R5EL-NEXT:    insert.w $w1[2], $1
-; MIPS32R5EL-NEXT:    lhu $1, 38($sp)
-; MIPS32R5EL-NEXT:    insert.w $w1[3], $1
-; MIPS32R5EL-NEXT:    addv.w $w0, $w1, $w0
-; MIPS32R5EL-NEXT:    copy_s.w $1, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[1]
-; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[2]
-; MIPS32R5EL-NEXT:    copy_s.w $4, $w0[3]
-; MIPS32R5EL-NEXT:    sh $4, 22($sp)
-; MIPS32R5EL-NEXT:    sh $3, 20($sp)
-; MIPS32R5EL-NEXT:    sh $2, 18($sp)
-; MIPS32R5EL-NEXT:    sh $1, 16($sp)
-; MIPS32R5EL-NEXT:    lw $1, 20($sp)
-; MIPS32R5EL-NEXT:    sw $1, 8($sp)
-; MIPS32R5EL-NEXT:    lw $1, 16($sp)
-; MIPS32R5EL-NEXT:    sw $1, 0($sp)
-; MIPS32R5EL-NEXT:    ld.w $w0, 0($sp)
+; MIPS32R5EL-NEXT:    sw $7, 20($sp)
+; MIPS32R5EL-NEXT:    sw $6, 16($sp)
+; MIPS32R5EL-NEXT:    sw $5, 4($sp)
+; MIPS32R5EL-NEXT:    sw $4, 0($sp)
+; MIPS32R5EL-NEXT:    ld.h $w0, 16($sp)
+; MIPS32R5EL-NEXT:    ld.h $w1, 0($sp)
+; MIPS32R5EL-NEXT:    addv.h $w0, $w1, $w0
 ; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[2]
+; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[1]
 ; MIPS32R5EL-NEXT:    move $sp, $fp
 ; MIPS32R5EL-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
 ; MIPS32R5EL-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
@@ -1730,16 +1450,15 @@ define <2 x i32> @i32_2(<2 x i32> %a, <2 x i32> %b) {
 ; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EB-NEXT:    and $sp, $sp, $1
-; MIPS32R5EB-NEXT:    sw $7, 28($sp)
-; MIPS32R5EB-NEXT:    sw $6, 20($sp)
-; MIPS32R5EB-NEXT:    sw $5, 12($sp)
-; MIPS32R5EB-NEXT:    sw $4, 4($sp)
-; MIPS32R5EB-NEXT:    ld.d $w0, 16($sp)
-; MIPS32R5EB-NEXT:    ld.d $w1, 0($sp)
-; MIPS32R5EB-NEXT:    addv.d $w0, $w1, $w0
-; MIPS32R5EB-NEXT:    shf.w $w0, $w0, 177
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[3]
+; MIPS32R5EB-NEXT:    sw $7, 20($sp)
+; MIPS32R5EB-NEXT:    sw $6, 16($sp)
+; MIPS32R5EB-NEXT:    sw $5, 4($sp)
+; MIPS32R5EB-NEXT:    sw $4, 0($sp)
+; MIPS32R5EB-NEXT:    ld.w $w0, 16($sp)
+; MIPS32R5EB-NEXT:    ld.w $w1, 0($sp)
+; MIPS32R5EB-NEXT:    addv.w $w0, $w1, $w0
+; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[0]
+; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[1]
 ; MIPS32R5EB-NEXT:    move $sp, $fp
 ; MIPS32R5EB-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
 ; MIPS32R5EB-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
@@ -1751,18 +1470,13 @@ define <2 x i32> @i32_2(<2 x i32> %a, <2 x i32> %b) {
 ; MIPS64R5EB:       # %bb.0:
 ; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
 ; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EB-NEXT:    dsrl $1, $5, 32
-; MIPS64R5EB-NEXT:    insert.d $w0[0], $1
-; MIPS64R5EB-NEXT:    insert.d $w0[1], $5
-; MIPS64R5EB-NEXT:    dsrl $1, $4, 32
-; MIPS64R5EB-NEXT:    insert.d $w1[0], $1
-; MIPS64R5EB-NEXT:    insert.d $w1[1], $4
-; MIPS64R5EB-NEXT:    addv.d $w0, $w1, $w0
-; MIPS64R5EB-NEXT:    copy_s.d $1, $w0[0]
-; MIPS64R5EB-NEXT:    copy_s.d $2, $w0[1]
-; MIPS64R5EB-NEXT:    sw $2, 12($sp)
-; MIPS64R5EB-NEXT:    sw $1, 8($sp)
-; MIPS64R5EB-NEXT:    ld $2, 8($sp)
+; MIPS64R5EB-NEXT:    sd $5, 16($sp)
+; MIPS64R5EB-NEXT:    sd $4, 0($sp)
+; MIPS64R5EB-NEXT:    ld.w $w0, 16($sp)
+; MIPS64R5EB-NEXT:    ld.w $w1, 0($sp)
+; MIPS64R5EB-NEXT:    addv.w $w0, $w1, $w0
+; MIPS64R5EB-NEXT:    shf.w $w0, $w0, 177
+; MIPS64R5EB-NEXT:    copy_s.d $2, $w0[0]
 ; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
 ; MIPS64R5EB-NEXT:    jr $ra
 ; MIPS64R5EB-NEXT:    nop
@@ -1779,15 +1493,15 @@ define <2 x i32> @i32_2(<2 x i32> %a, <2 x i32> %b) {
 ; MIPS32R5EL-NEXT:    .cfi_def_cfa_register 30
 ; MIPS32R5EL-NEXT:    addiu $1, $zero, -16
 ; MIPS32R5EL-NEXT:    and $sp, $sp, $1
-; MIPS32R5EL-NEXT:    sw $7, 24($sp)
+; MIPS32R5EL-NEXT:    sw $7, 20($sp)
 ; MIPS32R5EL-NEXT:    sw $6, 16($sp)
-; MIPS32R5EL-NEXT:    sw $5, 8($sp)
+; MIPS32R5EL-NEXT:    sw $5, 4($sp)
 ; MIPS32R5EL-NEXT:    sw $4, 0($sp)
-; MIPS32R5EL-NEXT:    ld.d $w0, 16($sp)
-; MIPS32R5EL-NEXT:    ld.d $w1, 0($sp)
-; MIPS32R5EL-NEXT:    addv.d $w0, $w1, $w0
+; MIPS32R5EL-NEXT:    ld.w $w0, 16($sp)
+; MIPS32R5EL-NEXT:    ld.w $w1, 0($sp)
+; MIPS32R5EL-NEXT:    addv.w $w0, $w1, $w0
 ; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[2]
+; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[1]
 ; MIPS32R5EL-NEXT:    move $sp, $fp
 ; MIPS32R5EL-NEXT:    lw $fp, 40($sp) # 4-byte Folded Reload
 ; MIPS32R5EL-NEXT:    lw $ra, 44($sp) # 4-byte Folded Reload
@@ -1800,19 +1514,11 @@ define <2 x i32> @i32_2(<2 x i32> %a, <2 x i32> %b) {
 ; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
 ; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
 ; MIPS64R5EL-NEXT:    sd $5, 16($sp)
-; MIPS64R5EL-NEXT:    sd $4, 24($sp)
-; MIPS64R5EL-NEXT:    lw $1, 20($sp)
-; MIPS64R5EL-NEXT:    insert.d $w0[0], $5
-; MIPS64R5EL-NEXT:    insert.d $w0[1], $1
-; MIPS64R5EL-NEXT:    lw $1, 28($sp)
-; MIPS64R5EL-NEXT:    insert.d $w1[0], $4
-; MIPS64R5EL-NEXT:    insert.d $w1[1], $1
-; MIPS64R5EL-NEXT:    addv.d $w0, $w1, $w0
-; MIPS64R5EL-NEXT:    copy_s.d $1, $w0[0]
-; MIPS64R5EL-NEXT:    copy_s.d $2, $w0[1]
-; MIPS64R5EL-NEXT:    sw $2, 12($sp)
-; MIPS64R5EL-NEXT:    sw $1, 8($sp)
-; MIPS64R5EL-NEXT:    ld $2, 8($sp)
+; MIPS64R5EL-NEXT:    sd $4, 0($sp)
+; MIPS64R5EL-NEXT:    ld.w $w0, 16($sp)
+; MIPS64R5EL-NEXT:    ld.w $w1, 0($sp)
+; MIPS64R5EL-NEXT:    addv.w $w0, $w1, $w0
+; MIPS64R5EL-NEXT:    copy_s.d $2, $w0[0]
 ; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
 ; MIPS64R5EL-NEXT:    jr $ra
 ; MIPS64R5EL-NEXT:    nop
@@ -2561,31 +2267,11 @@ define <8 x i8> @ret_8_i8() {
 ;
 ; MIPS32R5EB-LABEL: ret_8_i8:
 ; MIPS32R5EB:       # %bb.0:
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EB-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
-; MIPS32R5EB-NEXT:    sw $fp, 24($sp) # 4-byte Folded Spill
-; MIPS32R5EB-NEXT:    .cfi_offset 31, -4
-; MIPS32R5EB-NEXT:    .cfi_offset 30, -8
-; MIPS32R5EB-NEXT:    move $fp, $sp
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
-; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
-; MIPS32R5EB-NEXT:    and $sp, $sp, $1
 ; MIPS32R5EB-NEXT:    lui $1, %hi(gv8i8)
 ; MIPS32R5EB-NEXT:    lw $2, %lo(gv8i8)($1)
-; MIPS32R5EB-NEXT:    sw $2, 4($sp)
 ; MIPS32R5EB-NEXT:    addiu $1, $1, %lo(gv8i8)
-; MIPS32R5EB-NEXT:    lw $1, 4($1)
-; MIPS32R5EB-NEXT:    sw $1, 12($sp)
-; MIPS32R5EB-NEXT:    ld.w $w0, 0($sp)
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[3]
-; MIPS32R5EB-NEXT:    move $sp, $fp
-; MIPS32R5EB-NEXT:    lw $fp, 24($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EB-NEXT:    lw $3, 4($1)
 ; MIPS32R5EB-NEXT:    jr $ra
-; MIPS32R5EB-NEXT:    nop
 ;
 ; MIPS64R5-LABEL: ret_8_i8:
 ; MIPS64R5:       # %bb.0:
@@ -2599,29 +2285,10 @@ define <8 x i8> @ret_8_i8() {
 ;
 ; MIPS32R5EL-LABEL: ret_8_i8:
 ; MIPS32R5EL:       # %bb.0:
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EL-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
-; MIPS32R5EL-NEXT:    sw $fp, 24($sp) # 4-byte Folded Spill
-; MIPS32R5EL-NEXT:    .cfi_offset 31, -4
-; MIPS32R5EL-NEXT:    .cfi_offset 30, -8
-; MIPS32R5EL-NEXT:    move $fp, $sp
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_register 30
-; MIPS32R5EL-NEXT:    addiu $1, $zero, -16
-; MIPS32R5EL-NEXT:    and $sp, $sp, $1
 ; MIPS32R5EL-NEXT:    lui $1, %hi(gv8i8)
 ; MIPS32R5EL-NEXT:    lw $2, %lo(gv8i8)($1)
-; MIPS32R5EL-NEXT:    sw $2, 0($sp)
 ; MIPS32R5EL-NEXT:    addiu $1, $1, %lo(gv8i8)
-; MIPS32R5EL-NEXT:    lw $1, 4($1)
-; MIPS32R5EL-NEXT:    sw $1, 8($sp)
-; MIPS32R5EL-NEXT:    ld.w $w0, 0($sp)
-; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[2]
-; MIPS32R5EL-NEXT:    move $sp, $fp
-; MIPS32R5EL-NEXT:    lw $fp, 24($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EL-NEXT:    lw $3, 4($1)
 ; MIPS32R5EL-NEXT:    jr $ra
 ; MIPS32R5EL-NEXT:    nop
   %1 = load <8 x i8>, ptr @gv8i8
@@ -2738,29 +2405,10 @@ define <4 x i16> @ret_4_i16() {
 ;
 ; MIPS32R5EB-LABEL: ret_4_i16:
 ; MIPS32R5EB:       # %bb.0:
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EB-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
-; MIPS32R5EB-NEXT:    sw $fp, 24($sp) # 4-byte Folded Spill
-; MIPS32R5EB-NEXT:    .cfi_offset 31, -4
-; MIPS32R5EB-NEXT:    .cfi_offset 30, -8
-; MIPS32R5EB-NEXT:    move $fp, $sp
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
-; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
-; MIPS32R5EB-NEXT:    and $sp, $sp, $1
 ; MIPS32R5EB-NEXT:    lui $1, %hi(gv4i16)
 ; MIPS32R5EB-NEXT:    lw $2, %lo(gv4i16)($1)
-; MIPS32R5EB-NEXT:    sw $2, 4($sp)
 ; MIPS32R5EB-NEXT:    addiu $1, $1, %lo(gv4i16)
-; MIPS32R5EB-NEXT:    lw $1, 4($1)
-; MIPS32R5EB-NEXT:    sw $1, 12($sp)
-; MIPS32R5EB-NEXT:    ld.w $w0, 0($sp)
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[3]
-; MIPS32R5EB-NEXT:    move $sp, $fp
-; MIPS32R5EB-NEXT:    lw $fp, 24($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EB-NEXT:    lw $3, 4($1)
 ; MIPS32R5EB-NEXT:    jr $ra
 ; MIPS32R5EB-NEXT:    nop
 ;
@@ -2776,29 +2424,10 @@ define <4 x i16> @ret_4_i16() {
 ;
 ; MIPS32R5EL-LABEL: ret_4_i16:
 ; MIPS32R5EL:       # %bb.0:
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EL-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
-; MIPS32R5EL-NEXT:    sw $fp, 24($sp) # 4-byte Folded Spill
-; MIPS32R5EL-NEXT:    .cfi_offset 31, -4
-; MIPS32R5EL-NEXT:    .cfi_offset 30, -8
-; MIPS32R5EL-NEXT:    move $fp, $sp
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_register 30
-; MIPS32R5EL-NEXT:    addiu $1, $zero, -16
-; MIPS32R5EL-NEXT:    and $sp, $sp, $1
 ; MIPS32R5EL-NEXT:    lui $1, %hi(gv4i16)
 ; MIPS32R5EL-NEXT:    lw $2, %lo(gv4i16)($1)
-; MIPS32R5EL-NEXT:    sw $2, 0($sp)
 ; MIPS32R5EL-NEXT:    addiu $1, $1, %lo(gv4i16)
-; MIPS32R5EL-NEXT:    lw $1, 4($1)
-; MIPS32R5EL-NEXT:    sw $1, 8($sp)
-; MIPS32R5EL-NEXT:    ld.w $w0, 0($sp)
-; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[2]
-; MIPS32R5EL-NEXT:    move $sp, $fp
-; MIPS32R5EL-NEXT:    lw $fp, 24($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EL-NEXT:    lw $3, 4($1)
 ; MIPS32R5EL-NEXT:    jr $ra
 ; MIPS32R5EL-NEXT:    nop
   %1 = load <4 x i16>, ptr @gv4i16
@@ -2877,29 +2506,10 @@ define <2 x i32> @ret_2_i32() {
 ;
 ; MIPS32R5EB-LABEL: ret_2_i32:
 ; MIPS32R5EB:       # %bb.0:
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EB-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
-; MIPS32R5EB-NEXT:    sw $fp, 24($sp) # 4-byte Folded Spill
-; MIPS32R5EB-NEXT:    .cfi_offset 31, -4
-; MIPS32R5EB-NEXT:    .cfi_offset 30, -8
-; MIPS32R5EB-NEXT:    move $fp, $sp
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_register 30
-; MIPS32R5EB-NEXT:    addiu $1, $zero, -16
-; MIPS32R5EB-NEXT:    and $sp, $sp, $1
 ; MIPS32R5EB-NEXT:    lui $1, %hi(gv2i32)
 ; MIPS32R5EB-NEXT:    lw $2, %lo(gv2i32)($1)
-; MIPS32R5EB-NEXT:    sw $2, 4($sp)
 ; MIPS32R5EB-NEXT:    addiu $1, $1, %lo(gv2i32)
-; MIPS32R5EB-NEXT:    lw $1, 4($1)
-; MIPS32R5EB-NEXT:    sw $1, 12($sp)
-; MIPS32R5EB-NEXT:    ld.w $w0, 0($sp)
-; MIPS32R5EB-NEXT:    copy_s.w $2, $w0[1]
-; MIPS32R5EB-NEXT:    copy_s.w $3, $w0[3]
-; MIPS32R5EB-NEXT:    move $sp, $fp
-; MIPS32R5EB-NEXT:    lw $fp, 24($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EB-NEXT:    lw $3, 4($1)
 ; MIPS32R5EB-NEXT:    jr $ra
 ; MIPS32R5EB-NEXT:    nop
 ;
@@ -2915,29 +2525,10 @@ define <2 x i32> @ret_2_i32() {
 ;
 ; MIPS32R5EL-LABEL: ret_2_i32:
 ; MIPS32R5EL:       # %bb.0:
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EL-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
-; MIPS32R5EL-NEXT:    sw $fp, 24($sp) # 4-byte Folded Spill
-; MIPS32R5EL-NEXT:    .cfi_offset 31, -4
-; MIPS32R5EL-NEXT:    .cfi_offset 30, -8
-; MIPS32R5EL-NEXT:    move $fp, $sp
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_register 30
-; MIPS32R5EL-NEXT:    addiu $1, $zero, -16
-; MIPS32R5EL-NEXT:    and $sp, $sp, $1
 ; MIPS32R5EL-NEXT:    lui $1, %hi(gv2i32)
 ; MIPS32R5EL-NEXT:    lw $2, %lo(gv2i32)($1)
-; MIPS32R5EL-NEXT:    sw $2, 0($sp)
 ; MIPS32R5EL-NEXT:    addiu $1, $1, %lo(gv2i32)
-; MIPS32R5EL-NEXT:    lw $1, 4($1)
-; MIPS32R5EL-NEXT:    sw $1, 8($sp)
-; MIPS32R5EL-NEXT:    ld.w $w0, 0($sp)
-; MIPS32R5EL-NEXT:    copy_s.w $2, $w0[0]
-; MIPS32R5EL-NEXT:    copy_s.w $3, $w0[2]
-; MIPS32R5EL-NEXT:    move $sp, $fp
-; MIPS32R5EL-NEXT:    lw $fp, 24($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EL-NEXT:    lw $3, 4($1)
 ; MIPS32R5EL-NEXT:    jr $ra
 ; MIPS32R5EL-NEXT:    nop
   %1 = load <2 x i32>, ptr @gv2i32
@@ -3424,9 +3015,9 @@ define void @call_i8_4() {
 ;
 ; MIPS32R5EB-LABEL: call_i8_4:
 ; MIPS32R5EB:       # %bb.0: # %entry
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EB-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, -24
+; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 24
+; MIPS32R5EB-NEXT:    sw $ra, 20($sp) # 4-byte Folded Spill
 ; MIPS32R5EB-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EB-NEXT:    lui $1, 1543
 ; MIPS32R5EB-NEXT:    ori $4, $1, 2314
@@ -3436,17 +3027,17 @@ define void @call_i8_4() {
 ; MIPS32R5EB-NEXT:    nop
 ; MIPS32R5EB-NEXT:    lui $1, %hi(gv4i8)
 ; MIPS32R5EB-NEXT:    sw $2, %lo(gv4i8)($1)
-; MIPS32R5EB-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EB-NEXT:    lw $ra, 20($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, 24
 ; MIPS32R5EB-NEXT:    jr $ra
 ; MIPS32R5EB-NEXT:    nop
 ;
 ; MIPS64R5EB-LABEL: call_i8_4:
 ; MIPS64R5EB:       # %bb.0: # %entry
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EB-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EB-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EB-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EB-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EB-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EB-NEXT:    lui $1, %hi(%neg(%gp_rel(call_i8_4)))
@@ -3461,9 +3052,9 @@ define void @call_i8_4() {
 ; MIPS64R5EB-NEXT:    nop
 ; MIPS64R5EB-NEXT:    ld $1, %got_disp(gv4i8)($gp)
 ; MIPS64R5EB-NEXT:    sw $2, 0($1)
-; MIPS64R5EB-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EB-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EB-NEXT:    jr $ra
 ; MIPS64R5EB-NEXT:    nop
 ;
@@ -3512,9 +3103,9 @@ define void @call_i8_4() {
 ;
 ; MIPS32R5EL-LABEL: call_i8_4:
 ; MIPS32R5EL:       # %bb.0: # %entry
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EL-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, -24
+; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 24
+; MIPS32R5EL-NEXT:    sw $ra, 20($sp) # 4-byte Folded Spill
 ; MIPS32R5EL-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EL-NEXT:    lui $1, 2569
 ; MIPS32R5EL-NEXT:    ori $4, $1, 1798
@@ -3523,17 +3114,17 @@ define void @call_i8_4() {
 ; MIPS32R5EL-NEXT:    nop
 ; MIPS32R5EL-NEXT:    lui $1, %hi(gv4i8)
 ; MIPS32R5EL-NEXT:    sw $2, %lo(gv4i8)($1)
-; MIPS32R5EL-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EL-NEXT:    lw $ra, 20($sp) # 4-byte Folded Reload
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, 24
 ; MIPS32R5EL-NEXT:    jr $ra
 ; MIPS32R5EL-NEXT:    nop
 ;
 ; MIPS64R5EL-LABEL: call_i8_4:
 ; MIPS64R5EL:       # %bb.0: # %entry
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EL-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EL-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EL-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EL-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EL-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EL-NEXT:    lui $1, %hi(%neg(%gp_rel(call_i8_4)))
@@ -3547,9 +3138,9 @@ define void @call_i8_4() {
 ; MIPS64R5EL-NEXT:    nop
 ; MIPS64R5EL-NEXT:    ld $1, %got_disp(gv4i8)($gp)
 ; MIPS64R5EL-NEXT:    sw $2, 0($1)
-; MIPS64R5EL-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EL-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EL-NEXT:    jr $ra
 ; MIPS64R5EL-NEXT:    nop
 entry:
@@ -3641,10 +3232,10 @@ define void @call_i8_8() {
 ;
 ; MIPS64R5EB-LABEL: call_i8_8:
 ; MIPS64R5EB:       # %bb.0: # %entry
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EB-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EB-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EB-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EB-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EB-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EB-NEXT:    lui $1, %hi(%neg(%gp_rel(call_i8_8)))
@@ -3667,9 +3258,9 @@ define void @call_i8_8() {
 ; MIPS64R5EB-NEXT:    nop
 ; MIPS64R5EB-NEXT:    ld $1, %got_disp(gv8i8)($gp)
 ; MIPS64R5EB-NEXT:    sd $2, 0($1)
-; MIPS64R5EB-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EB-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EB-NEXT:    jr $ra
 ; MIPS64R5EB-NEXT:    nop
 ;
@@ -3748,10 +3339,10 @@ define void @call_i8_8() {
 ;
 ; MIPS64R5EL-LABEL: call_i8_8:
 ; MIPS64R5EL:       # %bb.0: # %entry
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EL-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EL-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EL-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EL-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EL-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EL-NEXT:    lui $1, %hi(%neg(%gp_rel(call_i8_8)))
@@ -3769,9 +3360,9 @@ define void @call_i8_8() {
 ; MIPS64R5EL-NEXT:    nop
 ; MIPS64R5EL-NEXT:    ld $1, %got_disp(gv8i8)($gp)
 ; MIPS64R5EL-NEXT:    sd $2, 0($1)
-; MIPS64R5EL-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EL-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EL-NEXT:    jr $ra
 ; MIPS64R5EL-NEXT:    nop
 entry:
@@ -4059,9 +3650,9 @@ define void @calli16_2() {
 ;
 ; MIPS32R5EB-LABEL: calli16_2:
 ; MIPS32R5EB:       # %bb.0: # %entry
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EB-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, -24
+; MIPS32R5EB-NEXT:    .cfi_def_cfa_offset 24
+; MIPS32R5EB-NEXT:    sw $ra, 20($sp) # 4-byte Folded Spill
 ; MIPS32R5EB-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EB-NEXT:    lui $1, 6
 ; MIPS32R5EB-NEXT:    ori $4, $1, 7
@@ -4071,17 +3662,17 @@ define void @calli16_2() {
 ; MIPS32R5EB-NEXT:    nop
 ; MIPS32R5EB-NEXT:    lui $1, %hi(gv2i16)
 ; MIPS32R5EB-NEXT:    sw $2, %lo(gv2i16)($1)
-; MIPS32R5EB-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EB-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EB-NEXT:    lw $ra, 20($sp) # 4-byte Folded Reload
+; MIPS32R5EB-NEXT:    addiu $sp, $sp, 24
 ; MIPS32R5EB-NEXT:    jr $ra
 ; MIPS32R5EB-NEXT:    nop
 ;
 ; MIPS64R5EB-LABEL: calli16_2:
 ; MIPS64R5EB:       # %bb.0: # %entry
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EB-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EB-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EB-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EB-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EB-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EB-NEXT:    lui $1, %hi(%neg(%gp_rel(calli16_2)))
@@ -4096,9 +3687,9 @@ define void @calli16_2() {
 ; MIPS64R5EB-NEXT:    nop
 ; MIPS64R5EB-NEXT:    ld $1, %got_disp(gv2i16)($gp)
 ; MIPS64R5EB-NEXT:    sw $2, 0($1)
-; MIPS64R5EB-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EB-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EB-NEXT:    jr $ra
 ; MIPS64R5EB-NEXT:    nop
 ;
@@ -4149,9 +3740,9 @@ define void @calli16_2() {
 ;
 ; MIPS32R5EL-LABEL: calli16_2:
 ; MIPS32R5EL:       # %bb.0: # %entry
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, -32
-; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS32R5EL-NEXT:    sw $ra, 28($sp) # 4-byte Folded Spill
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, -24
+; MIPS32R5EL-NEXT:    .cfi_def_cfa_offset 24
+; MIPS32R5EL-NEXT:    sw $ra, 20($sp) # 4-byte Folded Spill
 ; MIPS32R5EL-NEXT:    .cfi_offset 31, -4
 ; MIPS32R5EL-NEXT:    lui $1, 7
 ; MIPS32R5EL-NEXT:    ori $4, $1, 6
@@ -4161,17 +3752,17 @@ define void @calli16_2() {
 ; MIPS32R5EL-NEXT:    nop
 ; MIPS32R5EL-NEXT:    lui $1, %hi(gv2i16)
 ; MIPS32R5EL-NEXT:    sw $2, %lo(gv2i16)($1)
-; MIPS32R5EL-NEXT:    lw $ra, 28($sp) # 4-byte Folded Reload
-; MIPS32R5EL-NEXT:    addiu $sp, $sp, 32
+; MIPS32R5EL-NEXT:    lw $ra, 20($sp) # 4-byte Folded Reload
+; MIPS32R5EL-NEXT:    addiu $sp, $sp, 24
 ; MIPS32R5EL-NEXT:    jr $ra
 ; MIPS32R5EL-NEXT:    nop
 ;
 ; MIPS64R5EL-LABEL: calli16_2:
 ; MIPS64R5EL:       # %bb.0: # %entry
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EL-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EL-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EL-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EL-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EL-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EL-NEXT:    lui $1, %hi(%neg(%gp_rel(calli16_2)))
@@ -4186,9 +3777,9 @@ define void @calli16_2() {
 ; MIPS64R5EL-NEXT:    nop
 ; MIPS64R5EL-NEXT:    ld $1, %got_disp(gv2i16)($gp)
 ; MIPS64R5EL-NEXT:    sw $2, 0($1)
-; MIPS64R5EL-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EL-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EL-NEXT:    jr $ra
 ; MIPS64R5EL-NEXT:    nop
 entry:
@@ -4282,10 +3873,10 @@ define void @calli16_4() {
 ;
 ; MIPS64R5EB-LABEL: calli16_4:
 ; MIPS64R5EB:       # %bb.0: # %entry
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EB-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EB-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EB-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EB-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EB-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EB-NEXT:    lui $1, %hi(%neg(%gp_rel(calli16_4)))
@@ -4308,9 +3899,9 @@ define void @calli16_4() {
 ; MIPS64R5EB-NEXT:    nop
 ; MIPS64R5EB-NEXT:    ld $1, %got_disp(gv4i16)($gp)
 ; MIPS64R5EB-NEXT:    sd $2, 0($1)
-; MIPS64R5EB-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EB-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EB-NEXT:    jr $ra
 ; MIPS64R5EB-NEXT:    nop
 ;
@@ -4398,10 +3989,10 @@ define void @calli16_4() {
 ;
 ; MIPS64R5EL-LABEL: calli16_4:
 ; MIPS64R5EL:       # %bb.0: # %entry
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EL-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EL-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EL-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EL-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EL-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EL-NEXT:    lui $1, %hi(%neg(%gp_rel(calli16_4)))
@@ -4424,9 +4015,9 @@ define void @calli16_4() {
 ; MIPS64R5EL-NEXT:    nop
 ; MIPS64R5EL-NEXT:    ld $1, %got_disp(gv4i16)($gp)
 ; MIPS64R5EL-NEXT:    sd $2, 0($1)
-; MIPS64R5EL-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EL-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EL-NEXT:    jr $ra
 ; MIPS64R5EL-NEXT:    nop
 entry:
@@ -4807,10 +4398,10 @@ define void @calli32_2() {
 ;
 ; MIPS64R5EB-LABEL: calli32_2:
 ; MIPS64R5EB:       # %bb.0: # %entry
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EB-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EB-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EB-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EB-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EB-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EB-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EB-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EB-NEXT:    lui $1, %hi(%neg(%gp_rel(calli32_2)))
@@ -4826,9 +4417,9 @@ define void @calli32_2() {
 ; MIPS64R5EB-NEXT:    nop
 ; MIPS64R5EB-NEXT:    ld $1, %got_disp(gv2i32)($gp)
 ; MIPS64R5EB-NEXT:    sd $2, 0($1)
-; MIPS64R5EB-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EB-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EB-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EB-NEXT:    jr $ra
 ; MIPS64R5EB-NEXT:    nop
 ;
@@ -4862,10 +4453,10 @@ define void @calli32_2() {
 ;
 ; MIPS64R5EL-LABEL: calli32_2:
 ; MIPS64R5EL:       # %bb.0: # %entry
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -32
-; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 32
-; MIPS64R5EL-NEXT:    sd $ra, 24($sp) # 8-byte Folded Spill
-; MIPS64R5EL-NEXT:    sd $gp, 16($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, -16
+; MIPS64R5EL-NEXT:    .cfi_def_cfa_offset 16
+; MIPS64R5EL-NEXT:    sd $ra, 8($sp) # 8-byte Folded Spill
+; MIPS64R5EL-NEXT:    sd $gp, 0($sp) # 8-byte Folded Spill
 ; MIPS64R5EL-NEXT:    .cfi_offset 31, -8
 ; MIPS64R5EL-NEXT:    .cfi_offset 28, -16
 ; MIPS64R5EL-NEXT:    lui $1, %hi(%neg(%gp_rel(calli32_2)))
@@ -4882,9 +4473,9 @@ define void @calli32_2() {
 ; MIPS64R5EL-NEXT:    nop
 ; MIPS64R5EL-NEXT:    ld $1, %got_disp(gv2i32)($gp)
 ; MIPS64R5EL-NEXT:    sd $2, 0($1)
-; MIPS64R5EL-NEXT:    ld $gp, 16($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    ld $ra, 24($sp) # 8-byte Folded Reload
-; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 32
+; MIPS64R5EL-NEXT:    ld $gp, 0($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    ld $ra, 8($sp) # 8-byte Folded Reload
+; MIPS64R5EL-NEXT:    daddiu $sp, $sp, 16
 ; MIPS64R5EL-NEXT:    jr $ra
 ; MIPS64R5EL-NEXT:    nop
 entry:
diff --git a/llvm/test/CodeGen/Mips/llvm-ir/sdiv-freebsd.ll b/llvm/test/CodeGen/Mips/llvm-ir/sdiv-freebsd.ll
new file mode 100644
index 0000000000000..03ada2803cf74
--- /dev/null
+++ b/llvm/test/CodeGen/Mips/llvm-ir/sdiv-freebsd.ll
@@ -0,0 +1,50 @@
+; RUN: llc --mtriple=mips-unknown-freebsd -mcpu=mips2 -filetype=asm < %s -mcpu=mips2 | FileCheck %s -check-prefixes=MIPS2
+;
+; Created from the following test case (PR121463) with
+; clang -cc1 -triple mips-unknown-freebsd -target-cpu mips2 -O2 -emit-llvm test.c -o test.ll
+; int l2arc_feed_secs, l2arc_feed_min_ms, l2arc_write_interval_wrote, l2arc_write_interval_next;
+; void l2arc_write_interval() {
+;   int interval = 0;
+;   if (l2arc_write_interval_wrote)
+;     interval = l2arc_feed_min_ms / l2arc_feed_secs;
+;   l2arc_write_interval_next = interval;
+; }
+
+@l2arc_write_interval_wrote = local_unnamed_addr global i32 0, align 4
+@l2arc_feed_min_ms = local_unnamed_addr global i32 0, align 4
+@l2arc_feed_secs = local_unnamed_addr global i32 0, align 4
+@l2arc_write_interval_next = local_unnamed_addr global i32 0, align 4
+
+define dso_local void @l2arc_write_interval() local_unnamed_addr #0 {
+; MIPS2-LABEL: l2arc_write_interval:
+; MIPS2:       # %bb.0: # %entry
+; MIPS2-NEXT:    lui $1, %hi(l2arc_write_interval_wrote)
+; MIPS2-NEXT:    lw $1, %lo(l2arc_write_interval_wrote)($1)
+; MIPS2-NEXT:    beqz $1, $BB0_2
+; MIPS2-NEXT:    nop
+; MIPS2-NEXT:  # %bb.1: # %if.then
+; MIPS2-NEXT:    lui $1, %hi(l2arc_feed_secs)
+; MIPS2-NEXT:    lw $1, %lo(l2arc_feed_secs)($1)
+; MIPS2-NEXT:    lui $2, %hi(l2arc_feed_min_ms)
+; MIPS2-NEXT:    lw $2, %lo(l2arc_feed_min_ms)($2)
+; MIPS2-NEXT:    div $zero, $2, $1
+; MIPS2-NEXT:    teq $1, $zero, 7
+; MIPS2-NEXT:    mflo $2
+; MIPS2-NEXT:    j $BB0_3
+; MIPS2-NEXT:    nop
+entry:
+  %0 = load i32, ptr @l2arc_write_interval_wrote, align 4
+  %tobool.not = icmp eq i32 %0, 0
+  br i1 %tobool.not, label %if.end, label %if.then
+
+if.then:                                          ; preds = %entry
+  %1 = load i32, ptr @l2arc_feed_min_ms, align 4
+  %2 = load i32, ptr @l2arc_feed_secs, align 4
+  %div = sdiv i32 %1, %2
+  br label %if.end
+
+if.end:                                           ; preds = %if.then, %entry
+  %interval.0 = phi i32 [ %div, %if.then ], [ 0, %entry ]
+  store i32 %interval.0, ptr @l2arc_write_interval_next, align 4
+  ret void
+}
diff --git a/llvm/test/CodeGen/Mips/msa/basic_operations.ll b/llvm/test/CodeGen/Mips/msa/basic_operations.ll
index 820259d7c7bc2..4fc3f57aa002d 100644
--- a/llvm/test/CodeGen/Mips/msa/basic_operations.ll
+++ b/llvm/test/CodeGen/Mips/msa/basic_operations.ll
@@ -2066,46 +2066,38 @@ define void @insert_v2i64_vidx(i64 signext %a) nounwind {
   ret void
 }
 
-; TODO: What code should be emitted?
-define void @truncstore() nounwind {
-; O32-LABEL: truncstore:
+; After legalizing shorter vectors with legal element sizes, this test is
+; no longer called truncstore.
+define void @store_i8_32bit() nounwind {
+; O32-LABEL: store_i8_32bit:
 ; O32:       # %bb.0:
 ; O32-NEXT:    lui $2, %hi(_gp_disp)
 ; O32-NEXT:    addiu $2, $2, %lo(_gp_disp)
 ; O32-NEXT:    addu $1, $2, $25
 ; O32-NEXT:    lw $1, %got(v4i8)($1)
-; O32-NEXT:    addiu $2, $zero, 255
-; O32-NEXT:    sb $2, 3($1)
-; O32-NEXT:    sb $2, 2($1)
-; O32-NEXT:    sb $2, 1($1)
+; O32-NEXT:    addiu $2, $zero, -1
 ; O32-NEXT:    jr $ra
-; O32-NEXT:    sb $2, 0($1)
+; O32-NEXT:    sw $2, 0($1)
 ;
-; N32-LABEL: truncstore:
+; N32-LABEL: store_i8_32bit:
 ; N32:       # %bb.0:
-; N32-NEXT:    lui $1, %hi(%neg(%gp_rel(truncstore)))
+; N32-NEXT:    lui $1, %hi(%neg(%gp_rel(store_i8_32bit)))
 ; N32-NEXT:    addu $1, $1, $25
-; N32-NEXT:    addiu $1, $1, %lo(%neg(%gp_rel(truncstore)))
+; N32-NEXT:    addiu $1, $1, %lo(%neg(%gp_rel(store_i8_32bit)))
 ; N32-NEXT:    lw $1, %got_disp(v4i8)($1)
-; N32-NEXT:    addiu $2, $zero, 255
-; N32-NEXT:    sb $2, 3($1)
-; N32-NEXT:    sb $2, 2($1)
-; N32-NEXT:    sb $2, 1($1)
+; N32-NEXT:    addiu $2, $zero, -1
 ; N32-NEXT:    jr $ra
-; N32-NEXT:    sb $2, 0($1)
+; N32-NEXT:    sw $2, 0($1)
 ;
-; N64-LABEL: truncstore:
+; N64-LABEL: store_i8_32bit:
 ; N64:       # %bb.0:
-; N64-NEXT:    lui $1, %hi(%neg(%gp_rel(truncstore)))
+; N64-NEXT:    lui $1, %hi(%neg(%gp_rel(store_i8_32bit)))
 ; N64-NEXT:    daddu $1, $1, $25
-; N64-NEXT:    daddiu $1, $1, %lo(%neg(%gp_rel(truncstore)))
+; N64-NEXT:    daddiu $1, $1, %lo(%neg(%gp_rel(store_i8_32bit)))
 ; N64-NEXT:    ld $1, %got_disp(v4i8)($1)
-; N64-NEXT:    addiu $2, $zero, 255
-; N64-NEXT:    sb $2, 3($1)
-; N64-NEXT:    sb $2, 2($1)
-; N64-NEXT:    sb $2, 1($1)
+; N64-NEXT:    addiu $2, $zero, -1
 ; N64-NEXT:    jr $ra
-; N64-NEXT:    sb $2, 0($1)
+; N64-NEXT:    sw $2, 0($1)
   store volatile <4 x i8> <i8 -1, i8 -1, i8 -1, i8 -1>, ptr @v4i8
   ret void
 }
diff --git a/llvm/test/CodeGen/NVPTX/cp-async-bulk.ll b/llvm/test/CodeGen/NVPTX/cp-async-bulk.ll
index aefd18a0632a0..cbb53df4a49b0 100644
--- a/llvm/test/CodeGen/NVPTX/cp-async-bulk.ll
+++ b/llvm/test/CodeGen/NVPTX/cp-async-bulk.ll
@@ -9,6 +9,7 @@ target triple = "nvptx64-nvidia-cuda"
 declare void @llvm.nvvm.cp.async.bulk.global.to.shared.cluster(ptr addrspace(3), ptr addrspace(3), ptr addrspace(1), i32, i16, i64, i1, i1)
 declare void @llvm.nvvm.cp.async.bulk.shared.cta.to.global(ptr addrspace(1), ptr addrspace(3), i32, i64, i1)
 declare void @llvm.nvvm.cp.async.bulk.shared.cta.to.cluster(ptr addrspace(3), ptr addrspace(3), ptr addrspace(3), i32)
+declare void @llvm.nvvm.cp.async.bulk.prefetch.L2(ptr addrspace(1), i32, i64, i1)
 
 define void @cp_async_bulk_g2s(ptr addrspace(1) %src, ptr addrspace(3) %bar, ptr addrspace(3) %dst, i32 %size, i16 %mc, i64 %ch) {
 ; CHECK-PTX64-LABEL: cp_async_bulk_g2s(
@@ -116,3 +117,21 @@ define void @cp_async_bulk_cta_to_cluster(ptr addrspace(3) %src, ptr addrspace(3
   tail call void @llvm.nvvm.cp.async.bulk.shared.cta.to.cluster(ptr addrspace(3) %dst, ptr addrspace(3) %bar, ptr addrspace(3) %src, i32 %size)
   ret void
 }
+
+define void @cp_async_bulk_prefetch(ptr addrspace(1) %src, i32 %size, i64 %ch) {
+; CHECK-PTX64-LABEL: cp_async_bulk_prefetch(
+; CHECK-PTX64:       {
+; CHECK-PTX64-NEXT:    .reg .b32 %r<2>;
+; CHECK-PTX64-NEXT:    .reg .b64 %rd<3>;
+; CHECK-PTX64-EMPTY:
+; CHECK-PTX64-NEXT:  // %bb.0:
+; CHECK-PTX64-NEXT:    ld.param.u64 %rd1, [cp_async_bulk_prefetch_param_0];
+; CHECK-PTX64-NEXT:    ld.param.u32 %r1, [cp_async_bulk_prefetch_param_1];
+; CHECK-PTX64-NEXT:    ld.param.u64 %rd2, [cp_async_bulk_prefetch_param_2];
+; CHECK-PTX64-NEXT:    cp.async.bulk.prefetch.L2.global.L2::cache_hint [%rd1], %r1, %rd2;
+; CHECK-PTX64-NEXT:    cp.async.bulk.prefetch.L2.global [%rd1], %r1;
+; CHECK-PTX64-NEXT:    ret;
+  tail call void @llvm.nvvm.cp.async.bulk.prefetch.L2(ptr addrspace(1) %src, i32 %size, i64 %ch, i1 1)
+  tail call void @llvm.nvvm.cp.async.bulk.prefetch.L2(ptr addrspace(1) %src, i32 %size, i64 0, i1 0)
+  ret void
+}
diff --git a/llvm/test/CodeGen/NVPTX/griddepcontrol.ll b/llvm/test/CodeGen/NVPTX/griddepcontrol.ll
new file mode 100644
index 0000000000000..fe15b3fe4afbd
--- /dev/null
+++ b/llvm/test/CodeGen/NVPTX/griddepcontrol.ll
@@ -0,0 +1,17 @@
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
+; RUN: llc < %s -mcpu=sm_90 -march=nvptx64 | FileCheck %s
+; RUN: %if ptxas-11.8 %{ llc < %s -mcpu=sm_90 -march=nvptx64 | %ptxas-verify %}
+
+define void @griddepcontrol() {
+; CHECK-LABEL: griddepcontrol(
+; CHECK:       {
+; CHECK-EMPTY:
+; CHECK-EMPTY:
+; CHECK-NEXT:  // %bb.0:
+; CHECK-NEXT:    griddepcontrol.launch_dependents;
+; CHECK-NEXT:    griddepcontrol.wait;
+; CHECK-NEXT:    ret;
+  call void @llvm.nvvm.griddepcontrol.launch.dependents()
+  call void @llvm.nvvm.griddepcontrol.wait()
+  ret void
+}
diff --git a/llvm/test/CodeGen/NVPTX/sm-version.ll b/llvm/test/CodeGen/NVPTX/sm-version.ll
index 0e37d6e4b0d87..ce9a1b1b161dc 100644
--- a/llvm/test/CodeGen/NVPTX/sm-version.ll
+++ b/llvm/test/CodeGen/NVPTX/sm-version.ll
@@ -16,6 +16,12 @@
 ; RUN: llc < %s -mtriple=nvptx -mcpu=sm_86 | FileCheck %s --check-prefix=SM86
 ; RUN: llc < %s -mtriple=nvptx -mcpu=sm_90 | FileCheck %s --check-prefix=SM90
 ; RUN: llc < %s -mtriple=nvptx -mcpu=sm_90a | FileCheck %s --check-prefix=SM90a
+; RUN: llc < %s -mtriple=nvptx -mcpu=sm_100 | FileCheck %s --check-prefix=SM100
+; RUN: llc < %s -mtriple=nvptx -mcpu=sm_100a | FileCheck %s --check-prefix=SM100a
+; RUN: llc < %s -mtriple=nvptx -mcpu=sm_101 | FileCheck %s --check-prefix=SM101
+; RUN: llc < %s -mtriple=nvptx -mcpu=sm_101a | FileCheck %s --check-prefix=SM101a
+; RUN: llc < %s -mtriple=nvptx -mcpu=sm_120 | FileCheck %s --check-prefix=SM120
+; RUN: llc < %s -mtriple=nvptx -mcpu=sm_120a | FileCheck %s --check-prefix=SM120a
 
 ; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_20 | FileCheck %s --check-prefix=SM20
 ; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_21 | FileCheck %s --check-prefix=SM21
@@ -35,6 +41,12 @@
 ; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_86 | FileCheck %s --check-prefix=SM86
 ; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_90 | FileCheck %s --check-prefix=SM90
 ; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_90a | FileCheck %s --check-prefix=SM90a
+; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_100 | FileCheck %s --check-prefix=SM100
+; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_100a | FileCheck %s --check-prefix=SM100a
+; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_101 | FileCheck %s --check-prefix=SM101
+; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_101a | FileCheck %s --check-prefix=SM101a
+; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_120 | FileCheck %s --check-prefix=SM120
+; RUN: llc < %s -mtriple=nvptx64 -mcpu=sm_120a | FileCheck %s --check-prefix=SM120a
 
 ; SM20: .version 3.2
 ; SM21: .version 3.2
@@ -54,6 +66,12 @@
 ; SM86: .version 7.1
 ; SM90: .version 7.8
 ; SM90a: .version 8.0
+; SM100: .version 8.6
+; SM100a: .version 8.6
+; SM101: .version 8.6
+; SM101a: .version 8.6
+; SM120: .version 8.7
+; SM120a: .version 8.7
 
 ; SM20: .target sm_20
 ; SM21: .target sm_21
@@ -73,3 +91,9 @@
 ; SM86: .target sm_86
 ; SM90: .target sm_90
 ; SM90a: .target sm_90a
+; SM100: .target sm_100
+; SM100a: .target sm_100a
+; SM101: .target sm_101
+; SM101a: .target sm_101a
+; SM120: .target sm_120
+; SM120a: .target sm_120a
diff --git a/llvm/test/CodeGen/RISCV/rv32-inline-asm-pairs.ll b/llvm/test/CodeGen/RISCV/rv32-inline-asm-pairs.ll
index 04a5d268aebff..f14fe2665835e 100644
--- a/llvm/test/CodeGen/RISCV/rv32-inline-asm-pairs.ll
+++ b/llvm/test/CodeGen/RISCV/rv32-inline-asm-pairs.ll
@@ -71,3 +71,73 @@ entry:
   %9 = load i64, ptr %3, align 8
   ret i64 %9
 }
+
+define i64 @test_cR_wide_scalar_simple(i64 noundef %0) nounwind {
+; CHECK-LABEL: test_cR_wide_scalar_simple:
+; CHECK:       # %bb.0: # %entry
+; CHECK-NEXT:    #APP
+; CHECK-NEXT:    # a2 <- a0
+; CHECK-NEXT:    #NO_APP
+; CHECK-NEXT:    mv a0, a2
+; CHECK-NEXT:    mv a1, a3
+; CHECK-NEXT:    ret
+entry:
+  %1 = call i64 asm sideeffect "/* $0 <- $1 */", "=&^cR,^cR"(i64 %0)
+  ret i64 %1
+}
+
+define i32 @test_cR_wide_scalar_with_ops(i32 noundef %0) nounwind {
+; CHECK-LABEL: test_cR_wide_scalar_with_ops:
+; CHECK:       # %bb.0: # %entry
+; CHECK-NEXT:    mv a1, a0
+; CHECK-NEXT:    #APP
+; CHECK-NEXT:    # a2 <- a0
+; CHECK-NEXT:    #NO_APP
+; CHECK-NEXT:    or a0, a2, a3
+; CHECK-NEXT:    ret
+entry:
+  %1 = zext i32 %0 to i64
+  %2 = shl i64 %1, 32
+  %3 = or i64 %1, %2
+  %4 = call i64 asm sideeffect "/* $0 <- $1 */", "=&^cR,^cR"(i64 %3)
+  %5 = trunc i64 %4 to i32
+  %6 = lshr i64 %4, 32
+  %7 = trunc i64 %6 to i32
+  %8 = or i32 %5, %7
+  ret i32 %8
+}
+
+define i64 @test_cR_wide_scalar_inout(ptr %0, i64 noundef %1) nounwind {
+; CHECK-LABEL: test_cR_wide_scalar_inout:
+; CHECK:       # %bb.0: # %entry
+; CHECK-NEXT:    addi sp, sp, -16
+; CHECK-NEXT:    mv a3, a2
+; CHECK-NEXT:    sw a0, 12(sp)
+; CHECK-NEXT:    mv a2, a1
+; CHECK-NEXT:    sw a1, 0(sp)
+; CHECK-NEXT:    sw a3, 4(sp)
+; CHECK-NEXT:    #APP
+; CHECK-NEXT:    # a0; a2
+; CHECK-NEXT:    #NO_APP
+; CHECK-NEXT:    sw a0, 12(sp)
+; CHECK-NEXT:    sw a2, 0(sp)
+; CHECK-NEXT:    sw a3, 4(sp)
+; CHECK-NEXT:    mv a0, a2
+; CHECK-NEXT:    mv a1, a3
+; CHECK-NEXT:    addi sp, sp, 16
+; CHECK-NEXT:    ret
+entry:
+  %2 = alloca ptr, align 4
+  %3 = alloca i64, align 8
+  store ptr %0, ptr %2, align 4
+  store i64 %1, ptr %3, align 8
+  %4 = load ptr, ptr %2, align 4
+  %5 = load i64, ptr %3, align 8
+  %6 = call { ptr, i64 } asm sideeffect "/* $0; $1 */", "=r,=^cR,0,1"(ptr %4, i64 %5)
+  %7 = extractvalue { ptr, i64} %6, 0
+  %8 = extractvalue { ptr, i64 } %6, 1
+  store ptr %7, ptr %2, align 4
+  store i64 %8, ptr %3, align 8
+  %9 = load i64, ptr %3, align 8
+  ret i64 %9
+}
diff --git a/llvm/test/CodeGen/RISCV/rv64-inline-asm-pairs.ll b/llvm/test/CodeGen/RISCV/rv64-inline-asm-pairs.ll
index 41f353d0781ae..ac455b7fac882 100644
--- a/llvm/test/CodeGen/RISCV/rv64-inline-asm-pairs.ll
+++ b/llvm/test/CodeGen/RISCV/rv64-inline-asm-pairs.ll
@@ -71,3 +71,73 @@ entry:
   %9 = load i128, ptr %3, align 16
   ret i128 %9
 }
+
+define i128 @test_cR_wide_scalar_simple(i128 noundef %0) nounwind {
+; CHECK-LABEL: test_cR_wide_scalar_simple:
+; CHECK:       # %bb.0: # %entry
+; CHECK-NEXT:    #APP
+; CHECK-NEXT:    # a2 <- a0
+; CHECK-NEXT:    #NO_APP
+; CHECK-NEXT:    mv a0, a2
+; CHECK-NEXT:    mv a1, a3
+; CHECK-NEXT:    ret
+entry:
+  %1 = call i128 asm sideeffect "/* $0 <- $1 */", "=&^cR,^cR"(i128 %0)
+  ret i128 %1
+}
+
+define i64 @test_cR_wide_scalar_with_ops(i64 noundef %0) nounwind {
+; CHECK-LABEL: test_cR_wide_scalar_with_ops:
+; CHECK:       # %bb.0: # %entry
+; CHECK-NEXT:    mv a1, a0
+; CHECK-NEXT:    #APP
+; CHECK-NEXT:    # a2 <- a0
+; CHECK-NEXT:    #NO_APP
+; CHECK-NEXT:    or a0, a2, a3
+; CHECK-NEXT:    ret
+entry:
+  %1 = zext i64 %0 to i128
+  %2 = shl i128 %1, 64
+  %3 = or i128 %1, %2
+  %4 = call i128 asm sideeffect "/* $0 <- $1 */", "=&^cR,^cR"(i128 %3)
+  %5 = trunc i128 %4 to i64
+  %6 = lshr i128 %4, 64
+  %7 = trunc i128 %6 to i64
+  %8 = or i64 %5, %7
+  ret i64 %8
+}
+
+define i128 @test_cR_wide_scalar_inout(ptr %0, i128 noundef %1) nounwind {
+; CHECK-LABEL: test_cR_wide_scalar_inout:
+; CHECK:       # %bb.0: # %entry
+; CHECK-NEXT:    addi sp, sp, -32
+; CHECK-NEXT:    mv a3, a2
+; CHECK-NEXT:    sd a0, 24(sp)
+; CHECK-NEXT:    mv a2, a1
+; CHECK-NEXT:    sd a1, 0(sp)
+; CHECK-NEXT:    sd a3, 8(sp)
+; CHECK-NEXT:    #APP
+; CHECK-NEXT:    # a0; a2
+; CHECK-NEXT:    #NO_APP
+; CHECK-NEXT:    sd a0, 24(sp)
+; CHECK-NEXT:    sd a2, 0(sp)
+; CHECK-NEXT:    sd a3, 8(sp)
+; CHECK-NEXT:    mv a0, a2
+; CHECK-NEXT:    mv a1, a3
+; CHECK-NEXT:    addi sp, sp, 32
+; CHECK-NEXT:    ret
+entry:
+  %2 = alloca ptr, align 8
+  %3 = alloca i128, align 16
+  store ptr %0, ptr %2, align 8
+  store i128 %1, ptr %3, align 16
+  %4 = load ptr, ptr %2, align 8
+  %5 = load i128, ptr %3, align 16
+  %6 = call { ptr, i128 } asm sideeffect "/* $0; $1 */", "=r,=^cR,0,1"(ptr %4, i128 %5)
+  %7 = extractvalue { ptr, i128} %6, 0
+  %8 = extractvalue { ptr, i128 } %6, 1
+  store ptr %7, ptr %2, align 8
+  store i128 %8, ptr %3, align 16
+  %9 = load i128, ptr %3, align 16
+  ret i128 %9
+}
diff --git a/llvm/test/CodeGen/RISCV/rvv/fixed-vectors-deinterleave-load.ll b/llvm/test/CodeGen/RISCV/rvv/fixed-vectors-deinterleave-load.ll
index ede25d2c9bb07..b4634dbf5a5e8 100644
--- a/llvm/test/CodeGen/RISCV/rvv/fixed-vectors-deinterleave-load.ll
+++ b/llvm/test/CodeGen/RISCV/rvv/fixed-vectors-deinterleave-load.ll
@@ -40,8 +40,12 @@ define {<16 x i1>, <16 x i1>} @vector_deinterleave_load_v16i1_v32i1(ptr %p) {
 ; CHECK-NEXT:    vmsne.vi v8, v8, 0
 ; CHECK-NEXT:    ret
   %vec = load <32 x i1>, ptr %p
-  %retval = call {<16 x i1>, <16 x i1>} @llvm.vector.deinterleave2.v32i1(<32 x i1> %vec)
-  ret {<16 x i1>, <16 x i1>} %retval
+  %deinterleaved.results = call {<16 x i1>, <16 x i1>} @llvm.vector.deinterleave2.v32i1(<32 x i1> %vec)
+  %t0 = extractvalue { <16 x i1>, <16 x i1> } %deinterleaved.results, 0
+  %t1 = extractvalue { <16 x i1>, <16 x i1> } %deinterleaved.results, 1
+  %res0 = insertvalue { <16 x i1>, <16 x i1> } undef, <16 x i1> %t0, 0
+  %res1 = insertvalue { <16 x i1>, <16 x i1> } %res0, <16 x i1> %t1, 1
+  ret {<16 x i1>, <16 x i1>} %res1
 }
 
 define {<16 x i8>, <16 x i8>} @vector_deinterleave_load_v16i8_v32i8(ptr %p) {
@@ -51,8 +55,12 @@ define {<16 x i8>, <16 x i8>} @vector_deinterleave_load_v16i8_v32i8(ptr %p) {
 ; CHECK-NEXT:    vlseg2e8.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <32 x i8>, ptr %p
-  %retval = call {<16 x i8>, <16 x i8>} @llvm.vector.deinterleave2.v32i8(<32 x i8> %vec)
-  ret {<16 x i8>, <16 x i8>} %retval
+  %deinterleaved.results = call {<16 x i8>, <16 x i8>} @llvm.vector.deinterleave2.v32i8(<32 x i8> %vec)
+  %t0 = extractvalue { <16 x i8>, <16 x i8> } %deinterleaved.results, 0
+  %t1 = extractvalue { <16 x i8>, <16 x i8> } %deinterleaved.results, 1
+  %res0 = insertvalue { <16 x i8>, <16 x i8> } undef, <16 x i8> %t0, 0
+  %res1 = insertvalue { <16 x i8>, <16 x i8> } %res0, <16 x i8> %t1, 1
+  ret {<16 x i8>, <16 x i8>} %res1
 }
 
 ; Shouldn't be lowered to vlseg because it's unaligned
@@ -67,8 +75,12 @@ define {<8 x i16>, <8 x i16>} @vector_deinterleave_load_v8i16_v16i16_align1(ptr
 ; CHECK-NEXT:    vnsrl.wi v9, v10, 16
 ; CHECK-NEXT:    ret
   %vec = load <16 x i16>, ptr %p, align 1
-  %retval = call {<8 x i16>, <8 x i16>} @llvm.vector.deinterleave2.v16i16(<16 x i16> %vec)
-  ret {<8 x i16>, <8 x i16>} %retval
+  %deinterleaved.results = call {<8 x i16>, <8 x i16>} @llvm.vector.deinterleave2.v16i16(<16 x i16> %vec)
+  %t0 = extractvalue { <8 x i16>, <8 x i16> } %deinterleaved.results, 0
+  %t1 = extractvalue { <8 x i16>, <8 x i16> } %deinterleaved.results, 1
+  %res0 = insertvalue { <8 x i16>, <8 x i16> } undef, <8 x i16> %t0, 0
+  %res1 = insertvalue { <8 x i16>, <8 x i16> } %res0, <8 x i16> %t1, 1
+  ret {<8 x i16>, <8 x i16>} %res1
 }
 
 define {<8 x i16>, <8 x i16>} @vector_deinterleave_load_v8i16_v16i16(ptr %p) {
@@ -78,8 +90,12 @@ define {<8 x i16>, <8 x i16>} @vector_deinterleave_load_v8i16_v16i16(ptr %p) {
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <16 x i16>, ptr %p
-  %retval = call {<8 x i16>, <8 x i16>} @llvm.vector.deinterleave2.v16i16(<16 x i16> %vec)
-  ret {<8 x i16>, <8 x i16>} %retval
+  %deinterleaved.results = call {<8 x i16>, <8 x i16>} @llvm.vector.deinterleave2.v16i16(<16 x i16> %vec)
+  %t0 = extractvalue { <8 x i16>, <8 x i16> } %deinterleaved.results, 0
+  %t1 = extractvalue { <8 x i16>, <8 x i16> } %deinterleaved.results, 1
+  %res0 = insertvalue { <8 x i16>, <8 x i16> } undef, <8 x i16> %t0, 0
+  %res1 = insertvalue { <8 x i16>, <8 x i16> } %res0, <8 x i16> %t1, 1
+  ret {<8 x i16>, <8 x i16>} %res1
 }
 
 define {<4 x i32>, <4 x i32>} @vector_deinterleave_load_v4i32_vv8i32(ptr %p) {
@@ -89,8 +105,12 @@ define {<4 x i32>, <4 x i32>} @vector_deinterleave_load_v4i32_vv8i32(ptr %p) {
 ; CHECK-NEXT:    vlseg2e32.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <8 x i32>, ptr %p
-  %retval = call {<4 x i32>, <4 x i32>} @llvm.vector.deinterleave2.v8i32(<8 x i32> %vec)
-  ret {<4 x i32>, <4 x i32>} %retval
+  %deinterleaved.results = call {<4 x i32>, <4 x i32>} @llvm.vector.deinterleave2.v8i32(<8 x i32> %vec)
+  %t0 = extractvalue { <4 x i32>, <4 x i32> } %deinterleaved.results, 0
+  %t1 = extractvalue { <4 x i32>, <4 x i32> } %deinterleaved.results, 1
+  %res0 = insertvalue { <4 x i32>, <4 x i32> } undef, <4 x i32> %t0, 0
+  %res1 = insertvalue { <4 x i32>, <4 x i32> } %res0, <4 x i32> %t1, 1
+  ret {<4 x i32>, <4 x i32>} %res1
 }
 
 define {<2 x i64>, <2 x i64>} @vector_deinterleave_load_v2i64_v4i64(ptr %p) {
@@ -100,16 +120,14 @@ define {<2 x i64>, <2 x i64>} @vector_deinterleave_load_v2i64_v4i64(ptr %p) {
 ; CHECK-NEXT:    vlseg2e64.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <4 x i64>, ptr %p
-  %retval = call {<2 x i64>, <2 x i64>} @llvm.vector.deinterleave2.v4i64(<4 x i64> %vec)
-  ret {<2 x i64>, <2 x i64>} %retval
+  %deinterleaved.results = call {<2 x i64>, <2 x i64>} @llvm.vector.deinterleave2.v4i64(<4 x i64> %vec)
+  %t0 = extractvalue { <2 x i64>, <2 x i64> } %deinterleaved.results, 0
+  %t1 = extractvalue { <2 x i64>, <2 x i64> } %deinterleaved.results, 1
+  %res0 = insertvalue { <2 x i64>, <2 x i64> } undef, <2 x i64> %t0, 0
+  %res1 = insertvalue { <2 x i64>, <2 x i64> } %res0, <2 x i64> %t1, 1
+  ret {<2 x i64>, <2 x i64>} %res1
 }
 
-declare {<16 x i1>, <16 x i1>} @llvm.vector.deinterleave2.v32i1(<32 x i1>)
-declare {<16 x i8>, <16 x i8>} @llvm.vector.deinterleave2.v32i8(<32 x i8>)
-declare {<8 x i16>, <8 x i16>} @llvm.vector.deinterleave2.v16i16(<16 x i16>)
-declare {<4 x i32>, <4 x i32>} @llvm.vector.deinterleave2.v8i32(<8 x i32>)
-declare {<2 x i64>, <2 x i64>} @llvm.vector.deinterleave2.v4i64(<4 x i64>)
-
 ; Floats
 
 define {<2 x bfloat>, <2 x bfloat>} @vector_deinterleave_load_v2bf16_v4bf16(ptr %p) {
@@ -119,8 +137,12 @@ define {<2 x bfloat>, <2 x bfloat>} @vector_deinterleave_load_v2bf16_v4bf16(ptr
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <4 x bfloat>, ptr %p
-  %retval = call {<2 x bfloat>, <2 x bfloat>} @llvm.vector.deinterleave2.v4bf16(<4 x bfloat> %vec)
-  ret {<2 x bfloat>, <2 x bfloat>} %retval
+  %deinterleaved.results = call {<2 x bfloat>, <2 x bfloat>} @llvm.vector.deinterleave2.v4bf16(<4 x bfloat> %vec)
+  %t0 = extractvalue { <2 x bfloat>, <2 x bfloat> } %deinterleaved.results, 0
+  %t1 = extractvalue { <2 x bfloat>, <2 x bfloat> } %deinterleaved.results, 1
+  %res0 = insertvalue { <2 x bfloat>, <2 x bfloat> } undef, <2 x bfloat> %t0, 0
+  %res1 = insertvalue { <2 x bfloat>, <2 x bfloat> } %res0, <2 x bfloat> %t1, 1
+  ret {<2 x bfloat>, <2 x bfloat>} %res1
 }
 
 define {<4 x bfloat>, <4 x bfloat>} @vector_deinterleave_load_v4bf16_v8bf16(ptr %p) {
@@ -130,8 +152,12 @@ define {<4 x bfloat>, <4 x bfloat>} @vector_deinterleave_load_v4bf16_v8bf16(ptr
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <8 x bfloat>, ptr %p
-  %retval = call {<4 x bfloat>, <4 x bfloat>} @llvm.vector.deinterleave2.v8bf16(<8 x bfloat> %vec)
-  ret {<4 x bfloat>, <4 x bfloat>} %retval
+  %deinterleaved.results = call {<4 x bfloat>, <4 x bfloat>} @llvm.vector.deinterleave2.v8bf16(<8 x bfloat> %vec)
+  %t0 = extractvalue { <4 x bfloat>, <4 x bfloat> } %deinterleaved.results, 0
+  %t1 = extractvalue { <4 x bfloat>, <4 x bfloat> } %deinterleaved.results, 1
+  %res0 = insertvalue { <4 x bfloat>, <4 x bfloat> } undef, <4 x bfloat> %t0, 0
+  %res1 = insertvalue { <4 x bfloat>, <4 x bfloat> } %res0, <4 x bfloat> %t1, 1
+  ret {<4 x bfloat>, <4 x bfloat>} %res1
 }
 
 define {<2 x half>, <2 x half>} @vector_deinterleave_load_v2f16_v4f16(ptr %p) {
@@ -141,8 +167,12 @@ define {<2 x half>, <2 x half>} @vector_deinterleave_load_v2f16_v4f16(ptr %p) {
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <4 x half>, ptr %p
-  %retval = call {<2 x half>, <2 x half>} @llvm.vector.deinterleave2.v4f16(<4 x half> %vec)
-  ret {<2 x half>, <2 x half>} %retval
+  %deinterleaved.results = call {<2 x half>, <2 x half>} @llvm.vector.deinterleave2.v4f16(<4 x half> %vec)
+  %t0 = extractvalue { <2 x half>, <2 x half> } %deinterleaved.results, 0
+  %t1 = extractvalue { <2 x half>, <2 x half> } %deinterleaved.results, 1
+  %res0 = insertvalue { <2 x half>, <2 x half> } undef, <2 x half> %t0, 0
+  %res1 = insertvalue { <2 x half>, <2 x half> } %res0, <2 x half> %t1, 1
+  ret {<2 x half>, <2 x half>} %res1
 }
 
 define {<4 x half>, <4 x half>} @vector_deinterleave_load_v4f16_v8f16(ptr %p) {
@@ -152,8 +182,12 @@ define {<4 x half>, <4 x half>} @vector_deinterleave_load_v4f16_v8f16(ptr %p) {
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <8 x half>, ptr %p
-  %retval = call {<4 x half>, <4 x half>} @llvm.vector.deinterleave2.v8f16(<8 x half> %vec)
-  ret {<4 x half>, <4 x half>} %retval
+  %deinterleaved.results = call {<4 x half>, <4 x half>} @llvm.vector.deinterleave2.v8f16(<8 x half> %vec)
+  %t0 = extractvalue { <4 x half>, <4 x half> } %deinterleaved.results, 0
+  %t1 = extractvalue { <4 x half>, <4 x half> } %deinterleaved.results, 1
+  %res0 = insertvalue { <4 x half>, <4 x half> } undef, <4 x half> %t0, 0
+  %res1 = insertvalue { <4 x half>, <4 x half> } %res0, <4 x half> %t1, 1
+  ret {<4 x half>, <4 x half>} %res1
 }
 
 define {<2 x float>, <2 x float>} @vector_deinterleave_load_v2f32_v4f32(ptr %p) {
@@ -163,8 +197,12 @@ define {<2 x float>, <2 x float>} @vector_deinterleave_load_v2f32_v4f32(ptr %p)
 ; CHECK-NEXT:    vlseg2e32.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <4 x float>, ptr %p
-  %retval = call {<2 x float>, <2 x float>} @llvm.vector.deinterleave2.v4f32(<4 x float> %vec)
-  ret {<2 x float>, <2 x float>} %retval
+  %deinterleaved.results = call {<2 x float>, <2 x float>} @llvm.vector.deinterleave2.v4f32(<4 x float> %vec)
+  %t0 = extractvalue { <2 x float>, <2 x float> } %deinterleaved.results, 0
+  %t1 = extractvalue { <2 x float>, <2 x float> } %deinterleaved.results, 1
+  %res0 = insertvalue { <2 x float>, <2 x float> } undef, <2 x float> %t0, 0
+  %res1 = insertvalue { <2 x float>, <2 x float> } %res0, <2 x float> %t1, 1
+  ret {<2 x float>, <2 x float>} %res1
 }
 
 define {<8 x bfloat>, <8 x bfloat>} @vector_deinterleave_load_v8bf16_v16bf16(ptr %p) {
@@ -174,8 +212,12 @@ define {<8 x bfloat>, <8 x bfloat>} @vector_deinterleave_load_v8bf16_v16bf16(ptr
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <16 x bfloat>, ptr %p
-  %retval = call {<8 x bfloat>, <8 x bfloat>} @llvm.vector.deinterleave2.v16bf16(<16 x bfloat> %vec)
-  ret {<8 x bfloat>, <8 x bfloat>} %retval
+  %deinterleaved.results = call {<8 x bfloat>, <8 x bfloat>} @llvm.vector.deinterleave2.v16bf16(<16 x bfloat> %vec)
+  %t0 = extractvalue { <8 x bfloat>, <8 x bfloat> } %deinterleaved.results, 0
+  %t1 = extractvalue { <8 x bfloat>, <8 x bfloat> } %deinterleaved.results, 1
+  %res0 = insertvalue { <8 x bfloat>, <8 x bfloat> } undef, <8 x bfloat> %t0, 0
+  %res1 = insertvalue { <8 x bfloat>, <8 x bfloat> } %res0, <8 x bfloat> %t1, 1
+  ret {<8 x bfloat>, <8 x bfloat>} %res1
 }
 
 define {<8 x half>, <8 x half>} @vector_deinterleave_load_v8f16_v16f16(ptr %p) {
@@ -185,8 +227,12 @@ define {<8 x half>, <8 x half>} @vector_deinterleave_load_v8f16_v16f16(ptr %p) {
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <16 x half>, ptr %p
-  %retval = call {<8 x half>, <8 x half>} @llvm.vector.deinterleave2.v16f16(<16 x half> %vec)
-  ret {<8 x half>, <8 x half>} %retval
+  %deinterleaved.results = call {<8 x half>, <8 x half>} @llvm.vector.deinterleave2.v16f16(<16 x half> %vec)
+  %t0 = extractvalue { <8 x half>, <8 x half> } %deinterleaved.results, 0
+  %t1 = extractvalue { <8 x half>, <8 x half> } %deinterleaved.results, 1
+  %res0 = insertvalue { <8 x half>, <8 x half> } undef, <8 x half> %t0, 0
+  %res1 = insertvalue { <8 x half>, <8 x half> } %res0, <8 x half> %t1, 1
+  ret {<8 x half>, <8 x half>} %res1
 }
 
 define {<4 x float>, <4 x float>} @vector_deinterleave_load_v4f32_v8f32(ptr %p) {
@@ -196,8 +242,12 @@ define {<4 x float>, <4 x float>} @vector_deinterleave_load_v4f32_v8f32(ptr %p)
 ; CHECK-NEXT:    vlseg2e32.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <8 x float>, ptr %p
-  %retval = call {<4 x float>, <4 x float>} @llvm.vector.deinterleave2.v8f32(<8 x float> %vec)
-  ret  {<4 x float>, <4 x float>} %retval
+  %deinterleaved.results = call {<4 x float>, <4 x float>} @llvm.vector.deinterleave2.v8f32(<8 x float> %vec)
+  %t0 = extractvalue { <4 x float>, <4 x float> } %deinterleaved.results, 0
+  %t1 = extractvalue { <4 x float>, <4 x float> } %deinterleaved.results, 1
+  %res0 = insertvalue { <4 x float>, <4 x float> } undef, <4 x float> %t0, 0
+  %res1 = insertvalue { <4 x float>, <4 x float> } %res0, <4 x float> %t1, 1
+  ret {<4 x float>, <4 x float>} %res1
 }
 
 define {<2 x double>, <2 x double>} @vector_deinterleave_load_v2f64_v4f64(ptr %p) {
@@ -207,13 +257,75 @@ define {<2 x double>, <2 x double>} @vector_deinterleave_load_v2f64_v4f64(ptr %p
 ; CHECK-NEXT:    vlseg2e64.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <4 x double>, ptr %p
-  %retval = call {<2 x double>, <2 x double>} @llvm.vector.deinterleave2.v4f64(<4 x double> %vec)
-  ret {<2 x double>, <2 x double>} %retval
+  %deinterleaved.results = call {<2 x double>, <2 x double>} @llvm.vector.deinterleave2.v4f64(<4 x double> %vec)
+  %t0 = extractvalue { <2 x double>, <2 x double> } %deinterleaved.results, 0
+  %t1 = extractvalue { <2 x double>, <2 x double> } %deinterleaved.results, 1
+  %res0 = insertvalue { <2 x double>, <2 x double> } undef, <2 x double> %t0, 0
+  %res1 = insertvalue { <2 x double>, <2 x double> } %res0, <2 x double> %t1, 1
+  ret {<2 x double>, <2 x double>} %res1
+}
+
+define { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } @vector_deinterleave_load_factor4(ptr %p) {
+; CHECK-LABEL: vector_deinterleave_load_factor4:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    vsetivli zero, 8, e8, mf2, ta, ma
+; CHECK-NEXT:    vlseg4e8.v v8, (a0)
+; CHECK-NEXT:    ret
+  %vec = load <32 x i8>, ptr %p
+  %d0 = call {<16 x i8>, <16 x i8>} @llvm.vector.deinterleave2.v32i8(<32 x i8> %vec)
+  %d0.0 = extractvalue { <16 x i8>, <16 x i8> } %d0, 0
+  %d0.1 = extractvalue { <16 x i8>, <16 x i8> } %d0, 1
+  %d1 = call {<8 x i8>, <8 x i8>} @llvm.vector.deinterleave2.v16i8(<16 x i8> %d0.0)
+  %t0 = extractvalue { <8 x i8>, <8 x i8> } %d1, 0
+  %t2 = extractvalue { <8 x i8>, <8 x i8> } %d1, 1
+  %d2 = call {<8 x i8>, <8 x i8>} @llvm.vector.deinterleave2.v16i8(<16 x i8> %d0.1)
+  %t1 = extractvalue { <8 x i8>, <8 x i8> } %d2, 0
+  %t3 = extractvalue { <8 x i8>, <8 x i8> } %d2, 1
+
+  %res0 = insertvalue { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } undef, <8 x i8> %t0, 0
+  %res1 = insertvalue { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } %res0, <8 x i8> %t1, 1
+  %res2 = insertvalue { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } %res1, <8 x i8> %t2, 2
+  %res3 = insertvalue { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } %res2, <8 x i8> %t3, 3
+  ret { <8 x i8>, <8 x i8>, <8 x i8>, <8 x i8> } %res3
 }
 
-declare {<2 x half>,<2 x half>} @llvm.vector.deinterleave2.v4f16(<4 x half>)
-declare {<4 x half>, <4 x half>} @llvm.vector.deinterleave2.v8f16(<8 x half>)
-declare {<2 x float>, <2 x float>} @llvm.vector.deinterleave2.v4f32(<4 x float>)
-declare {<8 x half>, <8 x half>} @llvm.vector.deinterleave2.v16f16(<16 x half>)
-declare {<4 x float>, <4 x float>} @llvm.vector.deinterleave2.v8f32(<8 x float>)
-declare {<2 x double>, <2 x double>} @llvm.vector.deinterleave2.v4f64(<4 x double>)
+define {<2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>} @vector_deinterleave_load_factor8(ptr %ptr) {
+; CHECK-LABEL: vector_deinterleave_load_factor8:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    vsetivli zero, 2, e32, mf2, ta, ma
+; CHECK-NEXT:    vlseg8e32.v v8, (a0)
+; CHECK-NEXT:    ret
+  %vec = load <16 x i32>, ptr %ptr
+  %d0 = call { <8 x i32>, <8 x i32> } @llvm.vector.deinterleave2.v16i32(<16 x i32> %vec)
+  %d0.0 = extractvalue { <8 x i32>, <8 x i32> } %d0, 0
+  %d0.1 = extractvalue { <8 x i32>, <8 x i32> } %d0, 1
+  %d1 = call { <4 x i32>, <4 x i32> } @llvm.vector.deinterleave2.v8i32(<8 x i32> %d0.0)
+  %d1.0 = extractvalue { <4 x i32>, <4 x i32> } %d1, 0
+  %d1.1 = extractvalue { <4 x i32>, <4 x i32> } %d1, 1
+  %d2 = call { <4 x i32>, <4 x i32> } @llvm.vector.deinterleave2.v8i32(<8 x i32> %d0.1)
+  %d2.0 = extractvalue { <4 x i32>, <4 x i32> } %d2, 0
+  %d2.1 = extractvalue { <4 x i32>, <4 x i32> } %d2, 1
+
+  %d3 = call { <2 x i32>, <2 x i32> } @llvm.vector.deinterleave2.v4i32(<4 x i32> %d1.0)
+  %t0 = extractvalue { <2 x i32>, <2 x i32> } %d3, 0
+  %t4 = extractvalue { <2 x i32>, <2 x i32> } %d3, 1
+  %d4 = call { <2 x i32>, <2 x i32> } @llvm.vector.deinterleave2.v4i32(<4 x i32> %d1.1)
+  %t2 = extractvalue { <2 x i32>, <2 x i32> } %d4, 0
+  %t6 = extractvalue { <2 x i32>, <2 x i32> } %d4, 1
+  %d5 = call { <2 x i32>, <2 x i32> } @llvm.vector.deinterleave2.v4i32(<4 x i32> %d2.0)
+  %t1 = extractvalue { <2 x i32>, <2 x i32> } %d5, 0
+  %t5 = extractvalue { <2 x i32>, <2 x i32> } %d5, 1
+  %d6 = call { <2 x i32>, <2 x i32> } @llvm.vector.deinterleave2.v4i32(<4 x i32> %d2.1)
+  %t3 = extractvalue { <2 x i32>, <2 x i32> } %d6, 0
+  %t7 = extractvalue { <2 x i32>, <2 x i32> } %d6, 1
+
+  %res0 = insertvalue { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } undef, <2 x i32> %t0, 0
+  %res1 = insertvalue { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } %res0, <2 x i32> %t1, 1
+  %res2 = insertvalue { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } %res1, <2 x i32> %t2, 2
+  %res3 = insertvalue { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } %res2, <2 x i32> %t3, 3
+  %res4 = insertvalue { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } %res3, <2 x i32> %t4, 4
+  %res5 = insertvalue { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } %res4, <2 x i32> %t5, 5
+  %res6 = insertvalue { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } %res5, <2 x i32> %t6, 6
+  %res7 = insertvalue { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } %res6, <2 x i32> %t7, 7
+  ret { <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32>, <2 x i32> } %res7
+}
diff --git a/llvm/test/CodeGen/RISCV/rvv/fixed-vectors-interleave-store.ll b/llvm/test/CodeGen/RISCV/rvv/fixed-vectors-interleave-store.ll
index 123e224364795..26c3db6131034 100644
--- a/llvm/test/CodeGen/RISCV/rvv/fixed-vectors-interleave-store.ll
+++ b/llvm/test/CodeGen/RISCV/rvv/fixed-vectors-interleave-store.ll
@@ -80,11 +80,6 @@ define void @vector_interleave_store_v4i64_v2i64(<2 x i64> %a, <2 x i64> %b, ptr
   ret void
 }
 
-declare <32 x i1> @llvm.vector.interleave2.v32i1(<16 x i1>, <16 x i1>)
-declare <16 x i16> @llvm.vector.interleave2.v16i16(<8 x i16>, <8 x i16>)
-declare <8 x i32> @llvm.vector.interleave2.v8i32(<4 x i32>, <4 x i32>)
-declare <4 x i64> @llvm.vector.interleave2.v4i64(<2 x i64>, <2 x i64>)
-
 ; Floats
 
 define void @vector_interleave_store_v4bf16_v2bf16(<2 x bfloat> %a, <2 x bfloat> %b, ptr %p) {
@@ -186,10 +181,34 @@ define void @vector_interleave_store_v4f64_v2f64(<2 x double> %a, <2 x double> %
   ret void
 }
 
+define void @vector_interleave_store_factor4(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c, <4 x i32> %d, ptr %p) {
+; CHECK-LABEL: vector_interleave_store_factor4:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    vsetivli zero, 4, e32, m1, ta, ma
+; CHECK-NEXT:    vsseg4e32.v v8, (a0)
+; CHECK-NEXT:    ret
+  %v0 = call <8 x i32> @llvm.vector.interleave2.v8i32(<4 x i32> %a, <4 x i32> %c)
+  %v1 = call <8 x i32> @llvm.vector.interleave2.v8i32(<4 x i32> %b, <4 x i32> %d)
+  %v2 = call <16 x i32> @llvm.vector.interleave2.v16i32(<8 x i32> %v0, <8 x i32> %v1)
+  store <16 x i32> %v2, ptr %p
+  ret void
+}
 
-declare <4 x half> @llvm.vector.interleave2.v4f16(<2 x half>, <2 x half>)
-declare <8 x half> @llvm.vector.interleave2.v8f16(<4 x half>, <4 x half>)
-declare <4 x float> @llvm.vector.interleave2.v4f32(<2 x float>, <2 x float>)
-declare <16 x half> @llvm.vector.interleave2.v16f16(<8 x half>, <8 x half>)
-declare <8 x float> @llvm.vector.interleave2.v8f32(<4 x float>, <4 x float>)
-declare <4 x double> @llvm.vector.interleave2.v4f64(<2 x double>, <2 x double>)
+define void @vector_interleave_store_factor8(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c, <4 x i32> %d, <4 x i32> %e, <4 x i32> %f, <4 x i32> %g, <4 x i32> %h, ptr %p) {
+; CHECK-LABEL: vector_interleave_store_factor8:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    vsetivli zero, 4, e32, m1, ta, ma
+; CHECK-NEXT:    vsseg8e32.v v8, (a0)
+; CHECK-NEXT:    ret
+  %v0 = call <8 x i32> @llvm.vector.interleave2.v8i32(<4 x i32> %a, <4 x i32> %e)
+  %v1 = call <8 x i32> @llvm.vector.interleave2.v8i32(<4 x i32> %c, <4 x i32> %g)
+  %v2 = call <16 x i32> @llvm.vector.interleave2.v16i32(<8 x i32> %v0, <8 x i32> %v1)
+
+  %v3 = call <8 x i32> @llvm.vector.interleave2.v8i32(<4 x i32> %b, <4 x i32> %f)
+  %v4 = call <8 x i32> @llvm.vector.interleave2.v8i32(<4 x i32> %d, <4 x i32> %h)
+  %v5 = call <16 x i32> @llvm.vector.interleave2.v16i32(<8 x i32> %v3, <8 x i32> %v4)
+
+  %v6 = call <32 x i32> @llvm.vector.interleave2.v32i32(<16 x i32> %v2, <16 x i32> %v5)
+  store <32 x i32> %v6, ptr %p
+  ret void
+}
diff --git a/llvm/test/CodeGen/RISCV/rvv/vector-deinterleave-load.ll b/llvm/test/CodeGen/RISCV/rvv/vector-deinterleave-load.ll
index 34f0f9d9598c9..14f306da21dba 100644
--- a/llvm/test/CodeGen/RISCV/rvv/vector-deinterleave-load.ll
+++ b/llvm/test/CodeGen/RISCV/rvv/vector-deinterleave-load.ll
@@ -26,8 +26,12 @@ define {<vscale x 16 x i1>, <vscale x 16 x i1>} @vector_deinterleave_load_nxv16i
 ; CHECK-NEXT:    vmsne.vi v8, v10, 0
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 32 x i1>, ptr %p
-  %retval = call {<vscale x 16 x i1>, <vscale x 16 x i1>} @llvm.vector.deinterleave2.nxv32i1(<vscale x 32 x i1> %vec)
-  ret {<vscale x 16 x i1>, <vscale x 16 x i1>} %retval
+  %deinterleaved.results = call {<vscale x 16 x i1>, <vscale x 16 x i1>} @llvm.vector.deinterleave2.nxv32i1(<vscale x 32 x i1> %vec)
+  %t0 = extractvalue { <vscale x 16 x i1>, <vscale x 16 x i1> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 16 x i1>, <vscale x 16 x i1> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 16 x i1>, <vscale x 16 x i1> } undef, <vscale x 16 x i1> %t0, 0
+  %res1 = insertvalue { <vscale x 16 x i1>, <vscale x 16 x i1> } %res0, <vscale x 16 x i1> %t1, 1
+  ret {<vscale x 16 x i1>, <vscale x 16 x i1>} %res1
 }
 
 define {<vscale x 16 x i8>, <vscale x 16 x i8>} @vector_deinterleave_load_nxv16i8_nxv32i8(ptr %p) {
@@ -37,8 +41,12 @@ define {<vscale x 16 x i8>, <vscale x 16 x i8>} @vector_deinterleave_load_nxv16i
 ; CHECK-NEXT:    vlseg2e8.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 32 x i8>, ptr %p
-  %retval = call {<vscale x 16 x i8>, <vscale x 16 x i8>} @llvm.vector.deinterleave2.nxv32i8(<vscale x 32 x i8> %vec)
-  ret {<vscale x 16 x i8>, <vscale x 16 x i8>} %retval
+  %deinterleaved.results = call {<vscale x 16 x i8>, <vscale x 16 x i8>} @llvm.vector.deinterleave2.nxv32i8(<vscale x 32 x i8> %vec)
+  %t0 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } undef, <vscale x 16 x i8> %t0, 0
+  %res1 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %res0, <vscale x 16 x i8> %t1, 1
+  ret {<vscale x 16 x i8>, <vscale x 16 x i8>} %res1
 }
 
 ; Shouldn't be lowered to vlseg because it's unaligned
@@ -51,8 +59,12 @@ define {<vscale x 8 x i16>, <vscale x 8 x i16>} @vector_deinterleave_load_nxv8i1
 ; CHECK-NEXT:    vnsrl.wi v10, v12, 16
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 16 x i16>, ptr %p, align 1
-  %retval = call {<vscale x 8 x i16>, <vscale x 8 x i16>} @llvm.vector.deinterleave2.nxv16i16(<vscale x 16 x i16> %vec)
-  ret {<vscale x 8 x i16>, <vscale x 8 x i16>} %retval
+  %deinterleaved.results = call {<vscale x 8 x i16>, <vscale x 8 x i16>} @llvm.vector.deinterleave2.nxv16i16(<vscale x 16 x i16> %vec)
+  %t0 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } undef, <vscale x 8 x i16> %t0, 0
+  %res1 = insertvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %res0, <vscale x 8 x i16> %t1, 1
+  ret {<vscale x 8 x i16>, <vscale x 8 x i16>} %res1
 }
 
 define {<vscale x 8 x i16>, <vscale x 8 x i16>} @vector_deinterleave_load_nxv8i16_nxv16i16(ptr %p) {
@@ -62,8 +74,12 @@ define {<vscale x 8 x i16>, <vscale x 8 x i16>} @vector_deinterleave_load_nxv8i1
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 16 x i16>, ptr %p
-  %retval = call {<vscale x 8 x i16>, <vscale x 8 x i16>} @llvm.vector.deinterleave2.nxv16i16(<vscale x 16 x i16> %vec)
-  ret {<vscale x 8 x i16>, <vscale x 8 x i16>} %retval
+  %deinterleaved.results = call {<vscale x 8 x i16>, <vscale x 8 x i16>} @llvm.vector.deinterleave2.nxv16i16(<vscale x 16 x i16> %vec)
+  %t0 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } undef, <vscale x 8 x i16> %t0, 0
+  %res1 = insertvalue { <vscale x 8 x i16>, <vscale x 8 x i16> } %res0, <vscale x 8 x i16> %t1, 1
+  ret {<vscale x 8 x i16>, <vscale x 8 x i16>} %res1
 }
 
 define {<vscale x 4 x i32>, <vscale x 4 x i32>} @vector_deinterleave_load_nxv4i32_nxvv8i32(ptr %p) {
@@ -73,8 +89,12 @@ define {<vscale x 4 x i32>, <vscale x 4 x i32>} @vector_deinterleave_load_nxv4i3
 ; CHECK-NEXT:    vlseg2e32.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 8 x i32>, ptr %p
-  %retval = call {<vscale x 4 x i32>, <vscale x 4 x i32>} @llvm.vector.deinterleave2.nxv8i32(<vscale x 8 x i32> %vec)
-  ret {<vscale x 4 x i32>, <vscale x 4 x i32>} %retval
+  %deinterleaved.results = call {<vscale x 4 x i32>, <vscale x 4 x i32>} @llvm.vector.deinterleave2.nxv8i32(<vscale x 8 x i32> %vec)
+  %t0 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } undef, <vscale x 4 x i32> %t0, 0
+  %res1 = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %res0, <vscale x 4 x i32> %t1, 1
+  ret {<vscale x 4 x i32>, <vscale x 4 x i32>} %res1
 }
 
 define {<vscale x 2 x i64>, <vscale x 2 x i64>} @vector_deinterleave_load_nxv2i64_nxv4i64(ptr %p) {
@@ -84,8 +104,12 @@ define {<vscale x 2 x i64>, <vscale x 2 x i64>} @vector_deinterleave_load_nxv2i6
 ; CHECK-NEXT:    vlseg2e64.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 4 x i64>, ptr %p
-  %retval = call {<vscale x 2 x i64>, <vscale x 2 x i64>} @llvm.vector.deinterleave2.nxv4i64(<vscale x 4 x i64> %vec)
-  ret {<vscale x 2 x i64>, <vscale x 2 x i64>} %retval
+  %deinterleaved.results = call {<vscale x 2 x i64>, <vscale x 2 x i64>} @llvm.vector.deinterleave2.nxv4i64(<vscale x 4 x i64> %vec)
+  %t0 = extractvalue { <vscale x 2 x i64>, <vscale x 2 x i64> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 2 x i64>, <vscale x 2 x i64> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 2 x i64>, <vscale x 2 x i64> } undef, <vscale x 2 x i64> %t0, 0
+  %res1 = insertvalue { <vscale x 2 x i64>, <vscale x 2 x i64> } %res0, <vscale x 2 x i64> %t1, 1
+  ret {<vscale x 2 x i64>, <vscale x 2 x i64>} %res1
 }
 
 define {<vscale x 4 x i64>, <vscale x 4 x i64>} @vector_deinterleave_load_nxv4i64_nxv8i64(ptr %p) {
@@ -95,8 +119,12 @@ define {<vscale x 4 x i64>, <vscale x 4 x i64>} @vector_deinterleave_load_nxv4i6
 ; CHECK-NEXT:    vlseg2e64.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 8 x i64>, ptr %p
-  %retval = call {<vscale x 4 x i64>, <vscale x 4 x i64>} @llvm.vector.deinterleave2.nxv8i64(<vscale x 8 x i64> %vec)
-  ret {<vscale x 4 x i64>, <vscale x 4 x i64>} %retval
+  %deinterleaved.results = call {<vscale x 4 x i64>, <vscale x 4 x i64>} @llvm.vector.deinterleave2.nxv8i64(<vscale x 8 x i64> %vec)
+  %t0 = extractvalue { <vscale x 4 x i64>, <vscale x 4 x i64> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 4 x i64>, <vscale x 4 x i64> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 4 x i64>, <vscale x 4 x i64> } undef, <vscale x 4 x i64> %t0, 0
+  %res1 = insertvalue { <vscale x 4 x i64>, <vscale x 4 x i64> } %res0, <vscale x 4 x i64> %t1, 1
+  ret {<vscale x 4 x i64>, <vscale x 4 x i64>} %res1
 }
 
 ; This shouldn't be lowered to a vlseg because EMUL * NFIELDS >= 8
@@ -150,18 +178,14 @@ define {<vscale x 8 x i64>, <vscale x 8 x i64>} @vector_deinterleave_load_nxv8i6
 ; CHECK-NEXT:    .cfi_def_cfa_offset 0
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 16 x i64>, ptr %p
-  %retval = call {<vscale x 8 x i64>, <vscale x 8 x i64>} @llvm.vector.deinterleave2.nxv16i64(<vscale x 16 x i64> %vec)
-  ret {<vscale x 8 x i64>, <vscale x 8 x i64>} %retval
+  %deinterleaved.results = call {<vscale x 8 x i64>, <vscale x 8 x i64>} @llvm.vector.deinterleave2.nxv16i64(<vscale x 16 x i64> %vec)
+  %t0 = extractvalue { <vscale x 8 x i64>, <vscale x 8 x i64> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 8 x i64>, <vscale x 8 x i64> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 8 x i64>, <vscale x 8 x i64> } undef, <vscale x 8 x i64> %t0, 0
+  %res1 = insertvalue { <vscale x 8 x i64>, <vscale x 8 x i64> } %res0, <vscale x 8 x i64> %t1, 1
+  ret {<vscale x 8 x i64>, <vscale x 8 x i64>} %res1
 }
 
-declare {<vscale x 16 x i1>, <vscale x 16 x i1>} @llvm.vector.deinterleave2.nxv32i1(<vscale x 32 x i1>)
-declare {<vscale x 16 x i8>, <vscale x 16 x i8>} @llvm.vector.deinterleave2.nxv32i8(<vscale x 32 x i8>)
-declare {<vscale x 8 x i16>, <vscale x 8 x i16>} @llvm.vector.deinterleave2.nxv16i16(<vscale x 16 x i16>)
-declare {<vscale x 4 x i32>, <vscale x 4 x i32>} @llvm.vector.deinterleave2.nxv8i32(<vscale x 8 x i32>)
-declare {<vscale x 2 x i64>, <vscale x 2 x i64>} @llvm.vector.deinterleave2.nxv4i64(<vscale x 4 x i64>)
-declare {<vscale x 4 x i64>, <vscale x 4 x i64>} @llvm.vector.deinterleave2.nxv8i64(<vscale x 8 x i64>)
-declare {<vscale x 8 x i64>, <vscale x 8 x i64>} @llvm.vector.deinterleave2.nxv16i64(<vscale x 16 x i64>)
-
 ; Floats
 
 define {<vscale x 2 x bfloat>, <vscale x 2 x bfloat>} @vector_deinterleave_load_nxv2bf16_nxv4bf16(ptr %p) {
@@ -171,8 +195,12 @@ define {<vscale x 2 x bfloat>, <vscale x 2 x bfloat>} @vector_deinterleave_load_
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 4 x bfloat>, ptr %p
-  %retval = call {<vscale x 2 x bfloat>, <vscale x 2 x bfloat>} @llvm.vector.deinterleave2.nxv4bf16(<vscale x 4 x bfloat> %vec)
-  ret {<vscale x 2 x bfloat>, <vscale x 2 x bfloat>} %retval
+  %deinterleaved.results = call {<vscale x 2 x bfloat>, <vscale x 2 x bfloat>} @llvm.vector.deinterleave2.nxv4bf16(<vscale x 4 x bfloat> %vec)
+  %t0 = extractvalue { <vscale x 2 x bfloat>, <vscale x 2 x bfloat> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 2 x bfloat>, <vscale x 2 x bfloat> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 2 x bfloat>, <vscale x 2 x bfloat> } undef, <vscale x 2 x bfloat> %t0, 0
+  %res1 = insertvalue { <vscale x 2 x bfloat>, <vscale x 2 x bfloat> } %res0, <vscale x 2 x bfloat> %t1, 1
+  ret {<vscale x 2 x bfloat>, <vscale x 2 x bfloat>} %res1
 }
 
 define {<vscale x 4 x bfloat>, <vscale x 4 x bfloat>} @vector_deinterleave_load_nxv4bf16_nxv8bf16(ptr %p) {
@@ -182,8 +210,12 @@ define {<vscale x 4 x bfloat>, <vscale x 4 x bfloat>} @vector_deinterleave_load_
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 8 x bfloat>, ptr %p
-  %retval = call {<vscale x 4 x bfloat>, <vscale x 4 x bfloat>} @llvm.vector.deinterleave2.nxv8bf16(<vscale x 8 x bfloat> %vec)
-  ret {<vscale x 4 x bfloat>, <vscale x 4 x bfloat>} %retval
+  %deinterleaved.results = call {<vscale x 4 x bfloat>, <vscale x 4 x bfloat>} @llvm.vector.deinterleave2.nxv8bf16(<vscale x 8 x bfloat> %vec)
+  %t0 = extractvalue { <vscale x 4 x bfloat>, <vscale x 4 x bfloat> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 4 x bfloat>, <vscale x 4 x bfloat> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 4 x bfloat>, <vscale x 4 x bfloat> } undef, <vscale x 4 x bfloat> %t0, 0
+  %res1 = insertvalue { <vscale x 4 x bfloat>, <vscale x 4 x bfloat> } %res0, <vscale x 4 x bfloat> %t1, 1
+  ret {<vscale x 4 x bfloat>, <vscale x 4 x bfloat>} %res1
 }
 
 define {<vscale x 2 x half>, <vscale x 2 x half>} @vector_deinterleave_load_nxv2f16_nxv4f16(ptr %p) {
@@ -193,8 +225,12 @@ define {<vscale x 2 x half>, <vscale x 2 x half>} @vector_deinterleave_load_nxv2
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 4 x half>, ptr %p
-  %retval = call {<vscale x 2 x half>, <vscale x 2 x half>} @llvm.vector.deinterleave2.nxv4f16(<vscale x 4 x half> %vec)
-  ret {<vscale x 2 x half>, <vscale x 2 x half>} %retval
+  %deinterleaved.results = call {<vscale x 2 x half>, <vscale x 2 x half>} @llvm.vector.deinterleave2.nxv4f16(<vscale x 4 x half> %vec)
+  %t0 = extractvalue { <vscale x 2 x half>, <vscale x 2 x half> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 2 x half>, <vscale x 2 x half> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 2 x half>, <vscale x 2 x half> } undef, <vscale x 2 x half> %t0, 0
+  %res1 = insertvalue { <vscale x 2 x half>, <vscale x 2 x half> } %res0, <vscale x 2 x half> %t1, 1
+  ret {<vscale x 2 x half>, <vscale x 2 x half>} %res1
 }
 
 define {<vscale x 4 x half>, <vscale x 4 x half>} @vector_deinterleave_load_nxv4f16_nxv8f16(ptr %p) {
@@ -204,8 +240,12 @@ define {<vscale x 4 x half>, <vscale x 4 x half>} @vector_deinterleave_load_nxv4
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 8 x half>, ptr %p
-  %retval = call {<vscale x 4 x half>, <vscale x 4 x half>} @llvm.vector.deinterleave2.nxv8f16(<vscale x 8 x half> %vec)
-  ret {<vscale x 4 x half>, <vscale x 4 x half>} %retval
+  %deinterleaved.results = call {<vscale x 4 x half>, <vscale x 4 x half>} @llvm.vector.deinterleave2.nxv8f16(<vscale x 8 x half> %vec)
+  %t0 = extractvalue { <vscale x 4 x half>, <vscale x 4 x half> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 4 x half>, <vscale x 4 x half> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 4 x half>, <vscale x 4 x half> } undef, <vscale x 4 x half> %t0, 0
+  %res1 = insertvalue { <vscale x 4 x half>, <vscale x 4 x half> } %res0, <vscale x 4 x half> %t1, 1
+  ret {<vscale x 4 x half>, <vscale x 4 x half>} %res1
 }
 
 define {<vscale x 2 x float>, <vscale x 2 x float>} @vector_deinterleave_load_nxv2f32_nxv4f32(ptr %p) {
@@ -215,8 +255,12 @@ define {<vscale x 2 x float>, <vscale x 2 x float>} @vector_deinterleave_load_nx
 ; CHECK-NEXT:    vlseg2e32.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 4 x float>, ptr %p
-  %retval = call {<vscale x 2 x float>, <vscale x 2 x float>} @llvm.vector.deinterleave2.nxv4f32(<vscale x 4 x float> %vec)
-  ret {<vscale x 2 x float>, <vscale x 2 x float>} %retval
+  %deinterleaved.results = call {<vscale x 2 x float>, <vscale x 2 x float>} @llvm.vector.deinterleave2.nxv4f32(<vscale x 4 x float> %vec)
+  %t0 = extractvalue { <vscale x 2 x float>, <vscale x 2 x float> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 2 x float>, <vscale x 2 x float> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 2 x float>, <vscale x 2 x float> } undef, <vscale x 2 x float> %t0, 0
+  %res1 = insertvalue { <vscale x 2 x float>, <vscale x 2 x float> } %res0, <vscale x 2 x float> %t1, 1
+  ret {<vscale x 2 x float>, <vscale x 2 x float>} %res1
 }
 
 define {<vscale x 8 x bfloat>, <vscale x 8 x bfloat>} @vector_deinterleave_load_nxv8bf16_nxv16bf16(ptr %p) {
@@ -226,8 +270,12 @@ define {<vscale x 8 x bfloat>, <vscale x 8 x bfloat>} @vector_deinterleave_load_
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 16 x bfloat>, ptr %p
-  %retval = call {<vscale x 8 x bfloat>, <vscale x 8 x bfloat>} @llvm.vector.deinterleave2.nxv16bf16(<vscale x 16 x bfloat> %vec)
-  ret {<vscale x 8 x bfloat>, <vscale x 8 x bfloat>} %retval
+  %deinterleaved.results = call {<vscale x 8 x bfloat>, <vscale x 8 x bfloat>} @llvm.vector.deinterleave2.nxv16bf16(<vscale x 16 x bfloat> %vec)
+  %t0 = extractvalue { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } undef, <vscale x 8 x bfloat> %t0, 0
+  %res1 = insertvalue { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } %res0, <vscale x 8 x bfloat> %t1, 1
+  ret {<vscale x 8 x bfloat>, <vscale x 8 x bfloat>} %res1
 }
 
 define {<vscale x 8 x half>, <vscale x 8 x half>} @vector_deinterleave_load_nxv8f16_nxv16f16(ptr %p) {
@@ -237,8 +285,12 @@ define {<vscale x 8 x half>, <vscale x 8 x half>} @vector_deinterleave_load_nxv8
 ; CHECK-NEXT:    vlseg2e16.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 16 x half>, ptr %p
-  %retval = call {<vscale x 8 x half>, <vscale x 8 x half>} @llvm.vector.deinterleave2.nxv16f16(<vscale x 16 x half> %vec)
-  ret {<vscale x 8 x half>, <vscale x 8 x half>} %retval
+  %deinterleaved.results = call {<vscale x 8 x half>, <vscale x 8 x half>} @llvm.vector.deinterleave2.nxv16f16(<vscale x 16 x half> %vec)
+  %t0 = extractvalue { <vscale x 8 x half>, <vscale x 8 x half> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 8 x half>, <vscale x 8 x half> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 8 x half>, <vscale x 8 x half> } undef, <vscale x 8 x half> %t0, 0
+  %res1 = insertvalue { <vscale x 8 x half>, <vscale x 8 x half> } %res0, <vscale x 8 x half> %t1, 1
+  ret {<vscale x 8 x half>, <vscale x 8 x half>} %res1
 }
 
 define {<vscale x 4 x float>, <vscale x 4 x float>} @vector_deinterleave_load_nxv4f32_nxv8f32(ptr %p) {
@@ -248,8 +300,12 @@ define {<vscale x 4 x float>, <vscale x 4 x float>} @vector_deinterleave_load_nx
 ; CHECK-NEXT:    vlseg2e32.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 8 x float>, ptr %p
-  %retval = call {<vscale x 4 x float>, <vscale x 4 x float>} @llvm.vector.deinterleave2.nxv8f32(<vscale x 8 x float> %vec)
-  ret  {<vscale x 4 x float>, <vscale x 4 x float>} %retval
+  %deinterleaved.results = call {<vscale x 4 x float>, <vscale x 4 x float>} @llvm.vector.deinterleave2.nxv8f32(<vscale x 8 x float> %vec)
+  %t0 = extractvalue { <vscale x 4 x float>, <vscale x 4 x float> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 4 x float>, <vscale x 4 x float> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 4 x float>, <vscale x 4 x float> } undef, <vscale x 4 x float> %t0, 0
+  %res1 = insertvalue { <vscale x 4 x float>, <vscale x 4 x float> } %res0, <vscale x 4 x float> %t1, 1
+  ret {<vscale x 4 x float>, <vscale x 4 x float>} %res1
 }
 
 define {<vscale x 2 x double>, <vscale x 2 x double>} @vector_deinterleave_load_nxv2f64_nxv4f64(ptr %p) {
@@ -259,8 +315,12 @@ define {<vscale x 2 x double>, <vscale x 2 x double>} @vector_deinterleave_load_
 ; CHECK-NEXT:    vlseg2e64.v v8, (a0)
 ; CHECK-NEXT:    ret
   %vec = load <vscale x 4 x double>, ptr %p
-  %retval = call {<vscale x 2 x double>, <vscale x 2 x double>} @llvm.vector.deinterleave2.nxv4f64(<vscale x 4 x double> %vec)
-  ret {<vscale x 2 x double>, <vscale x 2 x double>} %retval
+  %deinterleaved.results = call {<vscale x 2 x double>, <vscale x 2 x double>} @llvm.vector.deinterleave2.nxv4f64(<vscale x 4 x double> %vec)
+  %t0 = extractvalue { <vscale x 2 x double>, <vscale x 2 x double> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 2 x double>, <vscale x 2 x double> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 2 x double>, <vscale x 2 x double> } undef, <vscale x 2 x double> %t0, 0
+  %res1 = insertvalue { <vscale x 2 x double>, <vscale x 2 x double> } %res0, <vscale x 2 x double> %t1, 1
+  ret {<vscale x 2 x double>, <vscale x 2 x double>} %res1
 }
 
 define {<vscale x 2 x ptr>, <vscale x 2 x ptr>} @vector_deinterleave_load_nxv2p0_nxv4p0(ptr %p) {
@@ -276,14 +336,75 @@ define {<vscale x 2 x ptr>, <vscale x 2 x ptr>} @vector_deinterleave_load_nxv2p0
 ; RV64-NEXT:    vlseg2e64.v v8, (a0)
 ; RV64-NEXT:    ret
   %vec = load <vscale x 4 x ptr>, ptr %p
-  %retval = call {<vscale x 2 x ptr>, <vscale x 2 x ptr>} @llvm.vector.deinterleave2.nxv4p0(<vscale x 4 x ptr> %vec)
-  ret {<vscale x 2 x ptr>, <vscale x 2 x ptr>} %retval
+  %deinterleaved.results = call {<vscale x 2 x ptr>, <vscale x 2 x ptr>} @llvm.vector.deinterleave2.nxv4p0(<vscale x 4 x ptr> %vec)
+  %t0 = extractvalue { <vscale x 2 x ptr>, <vscale x 2 x ptr> } %deinterleaved.results, 0
+  %t1 = extractvalue { <vscale x 2 x ptr>, <vscale x 2 x ptr> } %deinterleaved.results, 1
+  %res0 = insertvalue { <vscale x 2 x ptr>, <vscale x 2 x ptr> } undef, <vscale x 2 x ptr> %t0, 0
+  %res1 = insertvalue { <vscale x 2 x ptr>, <vscale x 2 x ptr> } %res0, <vscale x 2 x ptr> %t1, 1
+  ret {<vscale x 2 x ptr>, <vscale x 2 x ptr>} %res1
+}
+
+define { <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8> } @vector_deinterleave_load_factor4(ptr %p) {
+; CHECK-LABEL: vector_deinterleave_load_factor4:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    vsetvli a1, zero, e8, m1, ta, ma
+; CHECK-NEXT:    vlseg4e8.v v8, (a0)
+; CHECK-NEXT:    ret
+  %vec = load <vscale x 32 x i8>, ptr %p
+  %d0 = call {<vscale x 16 x i8>, <vscale x 16 x i8>} @llvm.vector.deinterleave2.nxv32i8(<vscale x 32 x i8> %vec)
+  %d0.0 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %d0, 0
+  %d0.1 = extractvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } %d0, 1
+  %d1 = call {<vscale x 8 x i8>, <vscale x 8 x i8>} @llvm.vector.deinterleave2.nxv16i8(<vscale x 16 x i8> %d0.0)
+  %t0 = extractvalue { <vscale x 8 x i8>, <vscale x 8 x i8> } %d1, 0
+  %t2 = extractvalue { <vscale x 8 x i8>, <vscale x 8 x i8> } %d1, 1
+  %d2 = call {<vscale x 8 x i8>, <vscale x 8 x i8>} @llvm.vector.deinterleave2.nxv16i8(<vscale x 16 x i8> %d0.1)
+  %t1 = extractvalue { <vscale x 8 x i8>, <vscale x 8 x i8> } %d2, 0
+  %t3 = extractvalue { <vscale x 8 x i8>, <vscale x 8 x i8> } %d2, 1
+
+  %res0 = insertvalue { <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8> } undef, <vscale x 8 x i8> %t0, 0
+  %res1 = insertvalue { <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8> } %res0, <vscale x 8 x i8> %t1, 1
+  %res2 = insertvalue { <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8> } %res1, <vscale x 8 x i8> %t2, 2
+  %res3 = insertvalue { <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8> } %res2, <vscale x 8 x i8> %t3, 3
+  ret { <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8>, <vscale x 8 x i8> } %res3
 }
 
-declare {<vscale x 2 x half>,<vscale x 2 x half>} @llvm.vector.deinterleave2.nxv4f16(<vscale x 4 x half>)
-declare {<vscale x 4 x half>, <vscale x 4 x half>} @llvm.vector.deinterleave2.nxv8f16(<vscale x 8 x half>)
-declare {<vscale x 2 x float>, <vscale x 2 x float>} @llvm.vector.deinterleave2.nxv4f32(<vscale x 4 x float>)
-declare {<vscale x 8 x half>, <vscale x 8 x half>} @llvm.vector.deinterleave2.nxv16f16(<vscale x 16 x half>)
-declare {<vscale x 4 x float>, <vscale x 4 x float>} @llvm.vector.deinterleave2.nxv8f32(<vscale x 8 x float>)
-declare {<vscale x 2 x double>, <vscale x 2 x double>} @llvm.vector.deinterleave2.nxv4f64(<vscale x 4 x double>)
-declare {<vscale x 2 x ptr>, <vscale x 2 x ptr>} @llvm.vector.deinterleave2.nxv4p0(<vscale x 4 x ptr>)
+define {<vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>} @vector_deinterleave_load_factor8(ptr %ptr) {
+; CHECK-LABEL: vector_deinterleave_load_factor8:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    vsetvli a1, zero, e32, m1, ta, ma
+; CHECK-NEXT:    vlseg8e32.v v8, (a0)
+; CHECK-NEXT:    ret
+  %vec = load <vscale x 16 x i32>, ptr %ptr
+  %d0 = call { <vscale x 8 x i32>, <vscale x 8 x i32> } @llvm.vector.deinterleave2.nxv16i32(<vscale x 16 x i32> %vec)
+  %d0.0 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %d0, 0
+  %d0.1 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %d0, 1
+  %d1 = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.vector.deinterleave2.nxv8i32(<vscale x 8 x i32> %d0.0)
+  %d1.0 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d1, 0
+  %d1.1 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d1, 1
+  %d2 = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.vector.deinterleave2.nxv8i32(<vscale x 8 x i32> %d0.1)
+  %d2.0 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d2, 0
+  %d2.1 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d2, 1
+
+  %d3 = call { <vscale x 2 x i32>, <vscale x 2 x i32> } @llvm.vector.deinterleave2.nxv4i32(<vscale x 4 x i32> %d1.0)
+  %t0 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d3, 0
+  %t4 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d3, 1
+  %d4 = call { <vscale x 2 x i32>, <vscale x 2 x i32> } @llvm.vector.deinterleave2.nxv4i32(<vscale x 4 x i32> %d1.1)
+  %t2 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d4, 0
+  %t6 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d4, 1
+  %d5 = call { <vscale x 2 x i32>, <vscale x 2 x i32> } @llvm.vector.deinterleave2.nxv4i32(<vscale x 4 x i32> %d2.0)
+  %t1 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d5, 0
+  %t5 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d5, 1
+  %d6 = call { <vscale x 2 x i32>, <vscale x 2 x i32> } @llvm.vector.deinterleave2.nxv4i32(<vscale x 4 x i32> %d2.1)
+  %t3 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d6, 0
+  %t7 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d6, 1
+
+  %res0 = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } undef, <vscale x 2 x i32> %t0, 0
+  %res1 = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } %res0, <vscale x 2 x i32> %t1, 1
+  %res2 = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } %res1, <vscale x 2 x i32> %t2, 2
+  %res3 = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } %res2, <vscale x 2 x i32> %t3, 3
+  %res4 = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } %res3, <vscale x 2 x i32> %t4, 4
+  %res5 = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } %res4, <vscale x 2 x i32> %t5, 5
+  %res6 = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } %res5, <vscale x 2 x i32> %t6, 6
+  %res7 = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } %res6, <vscale x 2 x i32> %t7, 7
+  ret { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } %res7
+}
diff --git a/llvm/test/CodeGen/RISCV/rvv/vector-interleave-store.ll b/llvm/test/CodeGen/RISCV/rvv/vector-interleave-store.ll
index 9b78f31d399d9..8f6365d35f885 100644
--- a/llvm/test/CodeGen/RISCV/rvv/vector-interleave-store.ll
+++ b/llvm/test/CodeGen/RISCV/rvv/vector-interleave-store.ll
@@ -121,13 +121,6 @@ define void @vector_interleave_store_nxv16i64_nxv8i64(<vscale x 8 x i64> %a, <vs
   ret void
 }
 
-declare <vscale x 32 x i1> @llvm.vector.interleave2.nxv32i1(<vscale x 16 x i1>, <vscale x 16 x i1>)
-declare <vscale x 16 x i16> @llvm.vector.interleave2.nxv16i16(<vscale x 8 x i16>, <vscale x 8 x i16>)
-declare <vscale x 8 x i32> @llvm.vector.interleave2.nxv8i32(<vscale x 4 x i32>, <vscale x 4 x i32>)
-declare <vscale x 4 x i64> @llvm.vector.interleave2.nxv4i64(<vscale x 2 x i64>, <vscale x 2 x i64>)
-declare <vscale x 8 x i64> @llvm.vector.interleave2.nxv8i64(<vscale x 4 x i64>, <vscale x 4 x i64>)
-declare <vscale x 16 x i64> @llvm.vector.interleave2.nxv16i64(<vscale x 8 x i64>, <vscale x 8 x i64>)
-
 ; Floats
 
 define void @vector_interleave_store_nxv4bf16_nxv2bf16(<vscale x 2 x bfloat> %a, <vscale x 2 x bfloat> %b, ptr %p) {
@@ -246,10 +239,34 @@ define void @vector_interleave_store_nxv4p0_nxv2p0(<vscale x 2 x ptr> %a, <vscal
   ret void
 }
 
-declare <vscale x 4 x half> @llvm.vector.interleave2.nxv4f16(<vscale x 2 x half>, <vscale x 2 x half>)
-declare <vscale x 8 x half> @llvm.vector.interleave2.nxv8f16(<vscale x 4 x half>, <vscale x 4 x half>)
-declare <vscale x 4 x float> @llvm.vector.interleave2.nxv4f32(<vscale x 2 x float>, <vscale x 2 x float>)
-declare <vscale x 16 x half> @llvm.vector.interleave2.nxv16f16(<vscale x 8 x half>, <vscale x 8 x half>)
-declare <vscale x 8 x float> @llvm.vector.interleave2.nxv8f32(<vscale x 4 x float>, <vscale x 4 x float>)
-declare <vscale x 4 x double> @llvm.vector.interleave2.nxv4f64(<vscale x 2 x double>, <vscale x 2 x double>)
-declare <vscale x 4 x ptr> @llvm.vector.interleave2.nxv4p0(<vscale x 2 x ptr>, <vscale x 2 x ptr>)
+define void @vector_interleave_store_factor4(<vscale x 4 x i32> %a, <vscale x 4 x i32> %b, <vscale x 4 x i32> %c, <vscale x 4 x i32> %d, ptr %p) {
+; CHECK-LABEL: vector_interleave_store_factor4:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; CHECK-NEXT:    vsseg4e32.v v8, (a0)
+; CHECK-NEXT:    ret
+  %v0 = call <vscale x 8 x i32> @llvm.vector.interleave2.nxv8i32(<vscale x 4 x i32> %a, <vscale x 4 x i32> %c)
+  %v1 = call <vscale x 8 x i32> @llvm.vector.interleave2.nxv8i32(<vscale x 4 x i32> %b, <vscale x 4 x i32> %d)
+  %v2 = call <vscale x 16 x i32> @llvm.vector.interleave2.nxv16i32(<vscale x 8 x i32> %v0, <vscale x 8 x i32> %v1)
+  store <vscale x 16 x i32> %v2, ptr %p
+  ret void
+}
+
+define void @vector_interleave_store_factor8(<vscale x 2 x i32> %a, <vscale x 2 x i32> %b, <vscale x 2 x i32> %c, <vscale x 2 x i32> %d, <vscale x 2 x i32> %e, <vscale x 2 x i32> %f, <vscale x 2 x i32> %g, <vscale x 2 x i32> %h, ptr %p) {
+; CHECK-LABEL: vector_interleave_store_factor8:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    vsetvli a1, zero, e32, m1, ta, ma
+; CHECK-NEXT:    vsseg8e32.v v8, (a0)
+; CHECK-NEXT:    ret
+  %v0 = call <vscale x 4 x i32> @llvm.vector.interleave2.nxv4i32(<vscale x 2 x i32> %a, <vscale x 2 x i32> %e)
+  %v1 = call <vscale x 4 x i32> @llvm.vector.interleave2.nxv4i32(<vscale x 2 x i32> %c, <vscale x 2 x i32> %g)
+  %v2 = call <vscale x 8 x i32> @llvm.vector.interleave2.nxv8i32(<vscale x 4 x i32> %v0, <vscale x 4 x i32> %v1)
+
+  %v3 = call <vscale x 4 x i32> @llvm.vector.interleave2.nxv4i32(<vscale x 2 x i32> %b, <vscale x 2 x i32> %f)
+  %v4 = call <vscale x 4 x i32> @llvm.vector.interleave2.nxv4i32(<vscale x 2 x i32> %d, <vscale x 2 x i32> %h)
+  %v5 = call <vscale x 8 x i32> @llvm.vector.interleave2.nxv8i32(<vscale x 4 x i32> %v3, <vscale x 4 x i32> %v4)
+
+  %v6 = call <vscale x 16 x i32> @llvm.vector.interleave2.nxv16i32(<vscale x 8 x i32> %v2, <vscale x 8 x i32> %v5)
+  store <vscale x 16 x i32> %v6, ptr %p
+  ret void
+}
diff --git a/llvm/test/CodeGen/RISCV/rvv/vl-opt-instrs.ll b/llvm/test/CodeGen/RISCV/rvv/vl-opt-instrs.ll
index ce94e1c193645..163166c1df743 100644
--- a/llvm/test/CodeGen/RISCV/rvv/vl-opt-instrs.ll
+++ b/llvm/test/CodeGen/RISCV/rvv/vl-opt-instrs.ll
@@ -2946,8 +2946,8 @@ define <vscale x 4 x float> @vfadd_vv(<vscale x 4 x float> %a, <vscale x 4 x flo
   ret <vscale x 4 x float> %2
 }
 
-define <vscale x 4 x float> @vfadd_vx(<vscale x 4 x float> %a, float %b, iXLen %vl) {
-; NOVLOPT-LABEL: vfadd_vx:
+define <vscale x 4 x float> @vfadd_vf(<vscale x 4 x float> %a, float %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfadd_vf:
 ; NOVLOPT:       # %bb.0:
 ; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
 ; NOVLOPT-NEXT:    vfadd.vf v10, v8, fa0
@@ -2955,7 +2955,7 @@ define <vscale x 4 x float> @vfadd_vx(<vscale x 4 x float> %a, float %b, iXLen %
 ; NOVLOPT-NEXT:    vfadd.vv v8, v10, v8
 ; NOVLOPT-NEXT:    ret
 ;
-; VLOPT-LABEL: vfadd_vx:
+; VLOPT-LABEL: vfadd_vf:
 ; VLOPT:       # %bb.0:
 ; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
 ; VLOPT-NEXT:    vfadd.vf v10, v8, fa0
@@ -2986,8 +2986,8 @@ define <vscale x 4 x float> @vfsub_vv(<vscale x 4 x float> %a, <vscale x 4 x flo
   ret <vscale x 4 x float> %2
 }
 
-define <vscale x 4 x float> @vfsub_vx(<vscale x 4 x float> %a, float %b, iXLen %vl) {
-; NOVLOPT-LABEL: vfsub_vx:
+define <vscale x 4 x float> @vfsub_vf(<vscale x 4 x float> %a, float %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfsub_vf:
 ; NOVLOPT:       # %bb.0:
 ; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
 ; NOVLOPT-NEXT:    vfsub.vf v10, v8, fa0
@@ -2995,7 +2995,7 @@ define <vscale x 4 x float> @vfsub_vx(<vscale x 4 x float> %a, float %b, iXLen %
 ; NOVLOPT-NEXT:    vfadd.vv v8, v10, v8
 ; NOVLOPT-NEXT:    ret
 ;
-; VLOPT-LABEL: vfsub_vx:
+; VLOPT-LABEL: vfsub_vf:
 ; VLOPT:       # %bb.0:
 ; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
 ; VLOPT-NEXT:    vfsub.vf v10, v8, fa0
@@ -3006,8 +3006,8 @@ define <vscale x 4 x float> @vfsub_vx(<vscale x 4 x float> %a, float %b, iXLen %
   ret <vscale x 4 x float> %2
 }
 
-define <vscale x 4 x float> @vfrsub_vx(<vscale x 4 x float> %a, float %b, iXLen %vl) {
-; NOVLOPT-LABEL: vfrsub_vx:
+define <vscale x 4 x float> @vfrsub_vf(<vscale x 4 x float> %a, float %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfrsub_vf:
 ; NOVLOPT:       # %bb.0:
 ; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
 ; NOVLOPT-NEXT:    vfrsub.vf v10, v8, fa0
@@ -3015,7 +3015,7 @@ define <vscale x 4 x float> @vfrsub_vx(<vscale x 4 x float> %a, float %b, iXLen
 ; NOVLOPT-NEXT:    vfadd.vv v8, v10, v8
 ; NOVLOPT-NEXT:    ret
 ;
-; VLOPT-LABEL: vfrsub_vx:
+; VLOPT-LABEL: vfrsub_vf:
 ; VLOPT:       # %bb.0:
 ; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
 ; VLOPT-NEXT:    vfrsub.vf v10, v8, fa0
@@ -3089,8 +3089,8 @@ define <vscale x 4 x double> @vfwsub_vv(<vscale x 4 x float> %a, <vscale x 4 x f
   ret <vscale x 4 x double> %2
 }
 
-define <vscale x 4 x double> @vfwsub_vx(<vscale x 4 x float> %a, float %b, iXLen %vl) {
-; NOVLOPT-LABEL: vfwsub_vx:
+define <vscale x 4 x double> @vfwsub_vf(<vscale x 4 x float> %a, float %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfwsub_vf:
 ; NOVLOPT:       # %bb.0:
 ; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
 ; NOVLOPT-NEXT:    vfwsub.vf v12, v8, fa0
@@ -3098,7 +3098,7 @@ define <vscale x 4 x double> @vfwsub_vx(<vscale x 4 x float> %a, float %b, iXLen
 ; NOVLOPT-NEXT:    vfadd.vv v8, v12, v12
 ; NOVLOPT-NEXT:    ret
 ;
-; VLOPT-LABEL: vfwsub_vx:
+; VLOPT-LABEL: vfwsub_vf:
 ; VLOPT:       # %bb.0:
 ; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
 ; VLOPT-NEXT:    vfwsub.vf v12, v8, fa0
@@ -3831,3 +3831,203 @@ define <vscale x 4 x i32> @vasubu_vx(<vscale x 4 x i32> %a, i32 %b, iXLen %vl) {
   %2 = call <vscale x 4 x i32> @llvm.riscv.vadd.nxv4i32.nxv4i32(<vscale x 4 x i32> poison, <vscale x 4 x i32> %1, <vscale x 4 x i32> %a, iXLen %vl)
   ret <vscale x 4 x i32> %2
 }
+
+define <vscale x 4 x float> @vfmax_vv(<vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfmax_vv:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfmax.vv v8, v8, v10
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v8, v10
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfmax_vv:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfmax.vv v8, v8, v10
+; VLOPT-NEXT:    vfadd.vv v8, v8, v10
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfmax.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %b, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
+
+define <vscale x 4 x float> @vfmax_vf(<vscale x 4 x float> %a, float %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfmax_vf:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfmax.vf v10, v8, fa0
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v10, v8
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfmax_vf:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfmax.vf v10, v8, fa0
+; VLOPT-NEXT:    vfadd.vv v8, v10, v8
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfmax.nxv4f32.f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, float %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %a, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
+
+define <vscale x 4 x float> @vfmin_vv(<vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfmin_vv:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfmin.vv v8, v8, v10
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v8, v10
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfmin_vv:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfmin.vv v8, v8, v10
+; VLOPT-NEXT:    vfadd.vv v8, v8, v10
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfmin.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %b, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
+
+define <vscale x 4 x float> @vfmin_vf(<vscale x 4 x float> %a, float %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfmin_vf:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfmin.vf v10, v8, fa0
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v10, v8
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfmin_vf:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfmin.vf v10, v8, fa0
+; VLOPT-NEXT:    vfadd.vv v8, v10, v8
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfmin.nxv4f32.f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, float %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %a, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
+
+define <vscale x 4 x float> @vfsgnj_vv(<vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfsgnj_vv:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfsgnj.vv v8, v8, v10
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v8, v10
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfsgnj_vv:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfsgnj.vv v8, v8, v10
+; VLOPT-NEXT:    vfadd.vv v8, v8, v10
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfsgnj.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %b, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
+
+define <vscale x 4 x float> @vfsgnj_vf(<vscale x 4 x float> %a, float %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfsgnj_vf:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfsgnj.vf v10, v8, fa0
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v10, v8
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfsgnj_vf:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfsgnj.vf v10, v8, fa0
+; VLOPT-NEXT:    vfadd.vv v8, v10, v8
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfsgnj.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, float %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %a, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
+
+define <vscale x 4 x float> @vfsgnjn_vv(<vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfsgnjn_vv:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfsgnjn.vv v8, v8, v10
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v8, v10
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfsgnjn_vv:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfsgnjn.vv v8, v8, v10
+; VLOPT-NEXT:    vfadd.vv v8, v8, v10
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfsgnjn.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %b, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
+
+define <vscale x 4 x float> @vfsgnjn_vf(<vscale x 4 x float> %a, float %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfsgnjn_vf:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfsgnjn.vf v10, v8, fa0
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v10, v8
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfsgnjn_vf:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfsgnjn.vf v10, v8, fa0
+; VLOPT-NEXT:    vfadd.vv v8, v10, v8
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfsgnjn.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, float %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %a, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
+
+define <vscale x 4 x float> @vfsgnjx_vv(<vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfsgnjx_vv:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfsgnjx.vv v8, v8, v10
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v8, v10
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfsgnjx_vv:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfsgnjx.vv v8, v8, v10
+; VLOPT-NEXT:    vfadd.vv v8, v8, v10
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfsgnjx.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, <vscale x 4 x float> %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %b, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
+
+define <vscale x 4 x float> @vfsgnjx_vf(<vscale x 4 x float> %a, float %b, iXLen %vl) {
+; NOVLOPT-LABEL: vfsgnjx_vf:
+; NOVLOPT:       # %bb.0:
+; NOVLOPT-NEXT:    vsetvli a1, zero, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfsgnjx.vf v10, v8, fa0
+; NOVLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; NOVLOPT-NEXT:    vfadd.vv v8, v10, v8
+; NOVLOPT-NEXT:    ret
+;
+; VLOPT-LABEL: vfsgnjx_vf:
+; VLOPT:       # %bb.0:
+; VLOPT-NEXT:    vsetvli zero, a0, e32, m2, ta, ma
+; VLOPT-NEXT:    vfsgnjx.vf v10, v8, fa0
+; VLOPT-NEXT:    vfadd.vv v8, v10, v8
+; VLOPT-NEXT:    ret
+  %1 = call <vscale x 4 x float> @llvm.riscv.vfsgnjx.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %a, float %b, iXLen -1)
+  %2 = call <vscale x 4 x float> @llvm.riscv.vfadd.nxv4f32.nxv4f32(<vscale x 4 x float> poison, <vscale x 4 x float> %1, <vscale x 4 x float> %a, iXLen 7, iXLen %vl)
+  ret <vscale x 4 x float> %2
+}
diff --git a/llvm/test/CodeGen/RISCV/rvv/vmv-copy.mir b/llvm/test/CodeGen/RISCV/rvv/vmv-copy.mir
index f7d5004e11752..fad2b1b325a48 100644
--- a/llvm/test/CodeGen/RISCV/rvv/vmv-copy.mir
+++ b/llvm/test/CodeGen/RISCV/rvv/vmv-copy.mir
@@ -280,6 +280,38 @@ body:             |
     $v24_v25_v26_v27_v28_v29_v30_v31 = COPY killed $v8_v9_v10_v11_v12_v13_v14_v15
 ...
 ---
+name: copy_sifive_custom_macc
+tracksRegLiveness: true
+body:             |
+  bb.0:
+    liveins: $x2, $x10, $v8, $v13, $v4m4, $v16m4
+    ; CHECK-LABEL: name: copy_sifive_custom_macc
+    ; CHECK: liveins: $x2, $x10, $v8, $v13, $v4m4, $v16m4
+    ; CHECK-NEXT: {{  $}}
+    ; CHECK-NEXT: $x0 = PseudoVSETVLI $x10, 66 /* e8, m4, ta, mu */, implicit-def $vl, implicit-def $vtype
+    ; CHECK-NEXT: early-clobber $v4m4 = PseudoVQMACCUS_2x8x2_M4 renamable $v4m4, killed renamable $v13, killed renamable $v16m4, $noreg, 3 /* e8 */, 1 /* ta, mu */, implicit $vl, implicit $vtype
+    ; CHECK-NEXT: $v16m4 = PseudoVMV_V_V_M4 undef $v16m4, $v4m4, $noreg, 3 /* e8 */, 0 /* tu, mu */, implicit $vl, implicit $vtype
+    $x0 = PseudoVSETVLI  $x10, 66, implicit-def $vl, implicit-def $vtype
+    early-clobber $v4m4 = PseudoVQMACCUS_2x8x2_M4 renamable $v4m4, killed renamable $v13, killed renamable $v16m4, $noreg, 3, 1, implicit $vl, implicit $vtype
+    $v16m4 = COPY renamable $v4m4
+...
+---
+name: copy_sifive_custom_macc1
+tracksRegLiveness: true
+body:             |
+  bb.0:
+    liveins: $x2, $x10, $v8, $v13, $v4m4, $v16m2
+    ; CHECK-LABEL: name: copy_sifive_custom_macc1
+    ; CHECK: liveins: $x2, $x10, $v8, $v13, $v4m4, $v16m2
+    ; CHECK-NEXT: {{  $}}
+    ; CHECK-NEXT: $x0 = PseudoVSETVLI $x10, 65 /* e8, m2, ta, mu */, implicit-def $vl, implicit-def $vtype
+    ; CHECK-NEXT: early-clobber $v4m4 = PseudoVQMACCUS_4x8x4_M2 renamable $v4m4, killed renamable $v13, killed renamable $v16m2, $noreg, 3 /* e8 */, 1 /* ta, mu */, implicit $vl, implicit $vtype
+    ; CHECK-NEXT: $v16m4 = VMV4R_V $v4m4, implicit $vtype
+    $x0 = PseudoVSETVLI  $x10, 65, implicit-def $vl, implicit-def $vtype
+    early-clobber $v4m4 = PseudoVQMACCUS_4x8x4_M2 renamable $v4m4, killed renamable $v13, killed renamable $v16m2, $noreg, 3, 1, implicit $vl, implicit $vtype
+    $v16m4 = COPY renamable $v4m4
+...
+---
 name: copy_narrow_copies_in_between
 tracksRegLiveness: true
 body:             |
diff --git a/llvm/test/CodeGen/RISCV/xaluo.ll b/llvm/test/CodeGen/RISCV/xaluo.ll
index c0cbbb3ff9389..a30593d7d7afb 100644
--- a/llvm/test/CodeGen/RISCV/xaluo.ll
+++ b/llvm/test/CodeGen/RISCV/xaluo.ll
@@ -1315,65 +1315,37 @@ entry:
 define zeroext i1 @smulo.i64(i64 %v1, i64 %v2, ptr %res) {
 ; RV32-LABEL: smulo.i64:
 ; RV32:       # %bb.0: # %entry
-; RV32-NEXT:    addi sp, sp, -16
-; RV32-NEXT:    .cfi_def_cfa_offset 16
-; RV32-NEXT:    sw s0, 12(sp) # 4-byte Folded Spill
-; RV32-NEXT:    sw s1, 8(sp) # 4-byte Folded Spill
-; RV32-NEXT:    .cfi_offset s0, -4
-; RV32-NEXT:    .cfi_offset s1, -8
-; RV32-NEXT:    mulhu a6, a0, a2
-; RV32-NEXT:    mul a7, a1, a2
-; RV32-NEXT:    mulhu t0, a1, a2
-; RV32-NEXT:    mul t1, a0, a3
-; RV32-NEXT:    mulhu t2, a0, a3
-; RV32-NEXT:    mul a5, a1, a3
-; RV32-NEXT:    srai t3, a1, 31
-; RV32-NEXT:    srai t4, a3, 31
-; RV32-NEXT:    mulhu t5, a1, a3
-; RV32-NEXT:    mul t6, a0, a2
-; RV32-NEXT:    add a6, a7, a6
-; RV32-NEXT:    mul s0, a2, t3
-; RV32-NEXT:    mul s1, t4, a0
-; RV32-NEXT:    mulhu a2, a2, t3
-; RV32-NEXT:    mul a3, a3, t3
-; RV32-NEXT:    mul a1, t4, a1
-; RV32-NEXT:    mulhu a0, t4, a0
-; RV32-NEXT:    sltu a7, a6, a7
-; RV32-NEXT:    add a6, t1, a6
-; RV32-NEXT:    add t3, s1, s0
-; RV32-NEXT:    add a2, a2, s0
+; RV32-NEXT:    mulhu a5, a0, a2
+; RV32-NEXT:    mul a6, a1, a2
+; RV32-NEXT:    mulhsu a7, a1, a2
+; RV32-NEXT:    mul t0, a3, a0
+; RV32-NEXT:    mulh t1, a1, a3
+; RV32-NEXT:    mul a1, a1, a3
+; RV32-NEXT:    mulhsu a3, a3, a0
+; RV32-NEXT:    mul a2, a0, a2
+; RV32-NEXT:    add a5, a6, a5
+; RV32-NEXT:    sltu a0, a5, a6
+; RV32-NEXT:    add a5, t0, a5
+; RV32-NEXT:    add a0, a7, a0
+; RV32-NEXT:    sltu a6, a5, t0
+; RV32-NEXT:    srai a7, a5, 31
+; RV32-NEXT:    add a3, a3, a6
+; RV32-NEXT:    srai a6, a0, 31
+; RV32-NEXT:    add t0, a0, a3
+; RV32-NEXT:    srai a3, a3, 31
+; RV32-NEXT:    sltu a0, t0, a0
+; RV32-NEXT:    add a3, a6, a3
+; RV32-NEXT:    add t0, a1, t0
+; RV32-NEXT:    add a0, a3, a0
+; RV32-NEXT:    sltu a1, t0, a1
+; RV32-NEXT:    xor a3, t0, a7
+; RV32-NEXT:    add a0, t1, a0
 ; RV32-NEXT:    add a0, a0, a1
-; RV32-NEXT:    add a7, t0, a7
-; RV32-NEXT:    sltu a1, a6, t1
-; RV32-NEXT:    add a2, a2, a3
-; RV32-NEXT:    add a0, a0, s1
-; RV32-NEXT:    sltu a3, t3, s1
-; RV32-NEXT:    srai t0, a6, 31
-; RV32-NEXT:    add a1, t2, a1
-; RV32-NEXT:    add a0, a0, a2
-; RV32-NEXT:    add a1, a7, a1
-; RV32-NEXT:    add a0, a0, a3
-; RV32-NEXT:    add a2, a5, a1
-; RV32-NEXT:    sltu a1, a1, a7
-; RV32-NEXT:    add t3, a2, t3
-; RV32-NEXT:    sltu a3, a2, a5
-; RV32-NEXT:    add a1, t5, a1
-; RV32-NEXT:    sltu a2, t3, a2
-; RV32-NEXT:    add a1, a1, a3
-; RV32-NEXT:    xor a3, t3, t0
-; RV32-NEXT:    add a0, a1, a0
-; RV32-NEXT:    add a0, a0, a2
-; RV32-NEXT:    xor a0, a0, t0
+; RV32-NEXT:    xor a0, a0, a7
 ; RV32-NEXT:    or a0, a3, a0
 ; RV32-NEXT:    snez a0, a0
-; RV32-NEXT:    sw t6, 0(a4)
-; RV32-NEXT:    sw a6, 4(a4)
-; RV32-NEXT:    lw s0, 12(sp) # 4-byte Folded Reload
-; RV32-NEXT:    lw s1, 8(sp) # 4-byte Folded Reload
-; RV32-NEXT:    .cfi_restore s0
-; RV32-NEXT:    .cfi_restore s1
-; RV32-NEXT:    addi sp, sp, 16
-; RV32-NEXT:    .cfi_def_cfa_offset 0
+; RV32-NEXT:    sw a2, 0(a4)
+; RV32-NEXT:    sw a5, 4(a4)
 ; RV32-NEXT:    ret
 ;
 ; RV64-LABEL: smulo.i64:
@@ -1388,65 +1360,37 @@ define zeroext i1 @smulo.i64(i64 %v1, i64 %v2, ptr %res) {
 ;
 ; RV32ZBA-LABEL: smulo.i64:
 ; RV32ZBA:       # %bb.0: # %entry
-; RV32ZBA-NEXT:    addi sp, sp, -16
-; RV32ZBA-NEXT:    .cfi_def_cfa_offset 16
-; RV32ZBA-NEXT:    sw s0, 12(sp) # 4-byte Folded Spill
-; RV32ZBA-NEXT:    sw s1, 8(sp) # 4-byte Folded Spill
-; RV32ZBA-NEXT:    .cfi_offset s0, -4
-; RV32ZBA-NEXT:    .cfi_offset s1, -8
-; RV32ZBA-NEXT:    mulhu a6, a0, a2
-; RV32ZBA-NEXT:    mul a7, a1, a2
-; RV32ZBA-NEXT:    mulhu t0, a1, a2
-; RV32ZBA-NEXT:    mul t1, a0, a3
-; RV32ZBA-NEXT:    mulhu t2, a0, a3
-; RV32ZBA-NEXT:    mul a5, a1, a3
-; RV32ZBA-NEXT:    srai t3, a1, 31
-; RV32ZBA-NEXT:    srai t4, a3, 31
-; RV32ZBA-NEXT:    mulhu t5, a1, a3
-; RV32ZBA-NEXT:    mul t6, a0, a2
-; RV32ZBA-NEXT:    add a6, a7, a6
-; RV32ZBA-NEXT:    mul s0, a2, t3
-; RV32ZBA-NEXT:    mul s1, t4, a0
-; RV32ZBA-NEXT:    mulhu a2, a2, t3
-; RV32ZBA-NEXT:    mul a3, a3, t3
-; RV32ZBA-NEXT:    mul a1, t4, a1
-; RV32ZBA-NEXT:    mulhu a0, t4, a0
-; RV32ZBA-NEXT:    sltu a7, a6, a7
-; RV32ZBA-NEXT:    add a6, t1, a6
-; RV32ZBA-NEXT:    add t3, s1, s0
-; RV32ZBA-NEXT:    add a2, a2, s0
+; RV32ZBA-NEXT:    mulhu a5, a0, a2
+; RV32ZBA-NEXT:    mul a6, a1, a2
+; RV32ZBA-NEXT:    mulhsu a7, a1, a2
+; RV32ZBA-NEXT:    mul t0, a3, a0
+; RV32ZBA-NEXT:    mulh t1, a1, a3
+; RV32ZBA-NEXT:    mul a1, a1, a3
+; RV32ZBA-NEXT:    mulhsu a3, a3, a0
+; RV32ZBA-NEXT:    mul a2, a0, a2
+; RV32ZBA-NEXT:    add a5, a6, a5
+; RV32ZBA-NEXT:    sltu a0, a5, a6
+; RV32ZBA-NEXT:    add a5, t0, a5
+; RV32ZBA-NEXT:    add a0, a7, a0
+; RV32ZBA-NEXT:    sltu a6, a5, t0
+; RV32ZBA-NEXT:    srai a7, a5, 31
+; RV32ZBA-NEXT:    add a3, a3, a6
+; RV32ZBA-NEXT:    srai a6, a0, 31
+; RV32ZBA-NEXT:    add t0, a0, a3
+; RV32ZBA-NEXT:    srai a3, a3, 31
+; RV32ZBA-NEXT:    sltu a0, t0, a0
+; RV32ZBA-NEXT:    add a3, a6, a3
+; RV32ZBA-NEXT:    add t0, a1, t0
+; RV32ZBA-NEXT:    add a0, a3, a0
+; RV32ZBA-NEXT:    sltu a1, t0, a1
+; RV32ZBA-NEXT:    xor a3, t0, a7
+; RV32ZBA-NEXT:    add a0, t1, a0
 ; RV32ZBA-NEXT:    add a0, a0, a1
-; RV32ZBA-NEXT:    add a7, t0, a7
-; RV32ZBA-NEXT:    sltu a1, a6, t1
-; RV32ZBA-NEXT:    add a2, a2, a3
-; RV32ZBA-NEXT:    add a0, a0, s1
-; RV32ZBA-NEXT:    sltu a3, t3, s1
-; RV32ZBA-NEXT:    srai t0, a6, 31
-; RV32ZBA-NEXT:    add a1, t2, a1
-; RV32ZBA-NEXT:    add a0, a0, a2
-; RV32ZBA-NEXT:    add a1, a7, a1
-; RV32ZBA-NEXT:    add a0, a0, a3
-; RV32ZBA-NEXT:    add a2, a5, a1
-; RV32ZBA-NEXT:    sltu a1, a1, a7
-; RV32ZBA-NEXT:    add t3, a2, t3
-; RV32ZBA-NEXT:    sltu a3, a2, a5
-; RV32ZBA-NEXT:    add a1, t5, a1
-; RV32ZBA-NEXT:    sltu a2, t3, a2
-; RV32ZBA-NEXT:    add a1, a1, a3
-; RV32ZBA-NEXT:    xor a3, t3, t0
-; RV32ZBA-NEXT:    add a0, a1, a0
-; RV32ZBA-NEXT:    add a0, a0, a2
-; RV32ZBA-NEXT:    xor a0, a0, t0
+; RV32ZBA-NEXT:    xor a0, a0, a7
 ; RV32ZBA-NEXT:    or a0, a3, a0
 ; RV32ZBA-NEXT:    snez a0, a0
-; RV32ZBA-NEXT:    sw t6, 0(a4)
-; RV32ZBA-NEXT:    sw a6, 4(a4)
-; RV32ZBA-NEXT:    lw s0, 12(sp) # 4-byte Folded Reload
-; RV32ZBA-NEXT:    lw s1, 8(sp) # 4-byte Folded Reload
-; RV32ZBA-NEXT:    .cfi_restore s0
-; RV32ZBA-NEXT:    .cfi_restore s1
-; RV32ZBA-NEXT:    addi sp, sp, 16
-; RV32ZBA-NEXT:    .cfi_def_cfa_offset 0
+; RV32ZBA-NEXT:    sw a2, 0(a4)
+; RV32ZBA-NEXT:    sw a5, 4(a4)
 ; RV32ZBA-NEXT:    ret
 ;
 ; RV64ZBA-LABEL: smulo.i64:
@@ -1461,65 +1405,37 @@ define zeroext i1 @smulo.i64(i64 %v1, i64 %v2, ptr %res) {
 ;
 ; RV32ZICOND-LABEL: smulo.i64:
 ; RV32ZICOND:       # %bb.0: # %entry
-; RV32ZICOND-NEXT:    addi sp, sp, -16
-; RV32ZICOND-NEXT:    .cfi_def_cfa_offset 16
-; RV32ZICOND-NEXT:    sw s0, 12(sp) # 4-byte Folded Spill
-; RV32ZICOND-NEXT:    sw s1, 8(sp) # 4-byte Folded Spill
-; RV32ZICOND-NEXT:    .cfi_offset s0, -4
-; RV32ZICOND-NEXT:    .cfi_offset s1, -8
-; RV32ZICOND-NEXT:    mulhu a6, a0, a2
-; RV32ZICOND-NEXT:    mul a7, a1, a2
-; RV32ZICOND-NEXT:    mulhu t0, a1, a2
-; RV32ZICOND-NEXT:    mul t1, a0, a3
-; RV32ZICOND-NEXT:    mulhu t2, a0, a3
-; RV32ZICOND-NEXT:    mul a5, a1, a3
-; RV32ZICOND-NEXT:    srai t3, a1, 31
-; RV32ZICOND-NEXT:    srai t4, a3, 31
-; RV32ZICOND-NEXT:    mulhu t5, a1, a3
-; RV32ZICOND-NEXT:    mul t6, a0, a2
-; RV32ZICOND-NEXT:    add a6, a7, a6
-; RV32ZICOND-NEXT:    mul s0, a2, t3
-; RV32ZICOND-NEXT:    mul s1, t4, a0
-; RV32ZICOND-NEXT:    mulhu a2, a2, t3
-; RV32ZICOND-NEXT:    mul a3, a3, t3
-; RV32ZICOND-NEXT:    mul a1, t4, a1
-; RV32ZICOND-NEXT:    mulhu a0, t4, a0
-; RV32ZICOND-NEXT:    sltu a7, a6, a7
-; RV32ZICOND-NEXT:    add a6, t1, a6
-; RV32ZICOND-NEXT:    add t3, s1, s0
-; RV32ZICOND-NEXT:    add a2, a2, s0
+; RV32ZICOND-NEXT:    mulhu a5, a0, a2
+; RV32ZICOND-NEXT:    mul a6, a1, a2
+; RV32ZICOND-NEXT:    mulhsu a7, a1, a2
+; RV32ZICOND-NEXT:    mul t0, a3, a0
+; RV32ZICOND-NEXT:    mulh t1, a1, a3
+; RV32ZICOND-NEXT:    mul a1, a1, a3
+; RV32ZICOND-NEXT:    mulhsu a3, a3, a0
+; RV32ZICOND-NEXT:    mul a2, a0, a2
+; RV32ZICOND-NEXT:    add a5, a6, a5
+; RV32ZICOND-NEXT:    sltu a0, a5, a6
+; RV32ZICOND-NEXT:    add a5, t0, a5
+; RV32ZICOND-NEXT:    add a0, a7, a0
+; RV32ZICOND-NEXT:    sltu a6, a5, t0
+; RV32ZICOND-NEXT:    srai a7, a5, 31
+; RV32ZICOND-NEXT:    add a3, a3, a6
+; RV32ZICOND-NEXT:    srai a6, a0, 31
+; RV32ZICOND-NEXT:    add t0, a0, a3
+; RV32ZICOND-NEXT:    srai a3, a3, 31
+; RV32ZICOND-NEXT:    sltu a0, t0, a0
+; RV32ZICOND-NEXT:    add a3, a6, a3
+; RV32ZICOND-NEXT:    add t0, a1, t0
+; RV32ZICOND-NEXT:    add a0, a3, a0
+; RV32ZICOND-NEXT:    sltu a1, t0, a1
+; RV32ZICOND-NEXT:    xor a3, t0, a7
+; RV32ZICOND-NEXT:    add a0, t1, a0
 ; RV32ZICOND-NEXT:    add a0, a0, a1
-; RV32ZICOND-NEXT:    add a7, t0, a7
-; RV32ZICOND-NEXT:    sltu a1, a6, t1
-; RV32ZICOND-NEXT:    add a2, a2, a3
-; RV32ZICOND-NEXT:    add a0, a0, s1
-; RV32ZICOND-NEXT:    sltu a3, t3, s1
-; RV32ZICOND-NEXT:    srai t0, a6, 31
-; RV32ZICOND-NEXT:    add a1, t2, a1
-; RV32ZICOND-NEXT:    add a0, a0, a2
-; RV32ZICOND-NEXT:    add a1, a7, a1
-; RV32ZICOND-NEXT:    add a0, a0, a3
-; RV32ZICOND-NEXT:    add a2, a5, a1
-; RV32ZICOND-NEXT:    sltu a1, a1, a7
-; RV32ZICOND-NEXT:    add t3, a2, t3
-; RV32ZICOND-NEXT:    sltu a3, a2, a5
-; RV32ZICOND-NEXT:    add a1, t5, a1
-; RV32ZICOND-NEXT:    sltu a2, t3, a2
-; RV32ZICOND-NEXT:    add a1, a1, a3
-; RV32ZICOND-NEXT:    xor a3, t3, t0
-; RV32ZICOND-NEXT:    add a0, a1, a0
-; RV32ZICOND-NEXT:    add a0, a0, a2
-; RV32ZICOND-NEXT:    xor a0, a0, t0
+; RV32ZICOND-NEXT:    xor a0, a0, a7
 ; RV32ZICOND-NEXT:    or a0, a3, a0
 ; RV32ZICOND-NEXT:    snez a0, a0
-; RV32ZICOND-NEXT:    sw t6, 0(a4)
-; RV32ZICOND-NEXT:    sw a6, 4(a4)
-; RV32ZICOND-NEXT:    lw s0, 12(sp) # 4-byte Folded Reload
-; RV32ZICOND-NEXT:    lw s1, 8(sp) # 4-byte Folded Reload
-; RV32ZICOND-NEXT:    .cfi_restore s0
-; RV32ZICOND-NEXT:    .cfi_restore s1
-; RV32ZICOND-NEXT:    addi sp, sp, 16
-; RV32ZICOND-NEXT:    .cfi_def_cfa_offset 0
+; RV32ZICOND-NEXT:    sw a2, 0(a4)
+; RV32ZICOND-NEXT:    sw a5, 4(a4)
 ; RV32ZICOND-NEXT:    ret
 ;
 ; RV64ZICOND-LABEL: smulo.i64:
@@ -1543,26 +1459,21 @@ define zeroext i1 @smulo2.i64(i64 %v1, ptr %res) {
 ; RV32-LABEL: smulo2.i64:
 ; RV32:       # %bb.0: # %entry
 ; RV32-NEXT:    li a3, 13
-; RV32-NEXT:    srai a4, a1, 31
-; RV32-NEXT:    mulhu a5, a0, a3
-; RV32-NEXT:    mul a6, a1, a3
-; RV32-NEXT:    mulhu a1, a1, a3
-; RV32-NEXT:    mul a7, a4, a3
-; RV32-NEXT:    mulh a4, a4, a3
+; RV32-NEXT:    mulhu a4, a0, a3
+; RV32-NEXT:    mul a5, a1, a3
+; RV32-NEXT:    mulh a1, a1, a3
 ; RV32-NEXT:    mul a3, a0, a3
-; RV32-NEXT:    add a5, a6, a5
-; RV32-NEXT:    sltu a0, a5, a6
-; RV32-NEXT:    srai a6, a5, 31
+; RV32-NEXT:    add a4, a5, a4
+; RV32-NEXT:    sltu a0, a4, a5
+; RV32-NEXT:    srai a5, a4, 31
 ; RV32-NEXT:    add a0, a1, a0
-; RV32-NEXT:    add a7, a0, a7
-; RV32-NEXT:    xor a1, a7, a6
-; RV32-NEXT:    sltu a0, a7, a0
-; RV32-NEXT:    add a0, a4, a0
-; RV32-NEXT:    xor a0, a0, a6
+; RV32-NEXT:    xor a1, a0, a5
+; RV32-NEXT:    srai a0, a0, 31
+; RV32-NEXT:    xor a0, a0, a5
 ; RV32-NEXT:    or a0, a1, a0
 ; RV32-NEXT:    snez a0, a0
 ; RV32-NEXT:    sw a3, 0(a2)
-; RV32-NEXT:    sw a5, 4(a2)
+; RV32-NEXT:    sw a4, 4(a2)
 ; RV32-NEXT:    ret
 ;
 ; RV64-LABEL: smulo2.i64:
@@ -1580,28 +1491,22 @@ define zeroext i1 @smulo2.i64(i64 %v1, ptr %res) {
 ; RV32ZBA:       # %bb.0: # %entry
 ; RV32ZBA-NEXT:    li a3, 13
 ; RV32ZBA-NEXT:    sh1add a4, a1, a1
-; RV32ZBA-NEXT:    srai a5, a1, 31
-; RV32ZBA-NEXT:    sh1add a6, a0, a0
-; RV32ZBA-NEXT:    mulhu a7, a0, a3
+; RV32ZBA-NEXT:    sh1add a5, a0, a0
 ; RV32ZBA-NEXT:    sh2add a4, a4, a1
-; RV32ZBA-NEXT:    mulhu a1, a1, a3
-; RV32ZBA-NEXT:    sh1add t0, a5, a5
-; RV32ZBA-NEXT:    mulh a3, a5, a3
-; RV32ZBA-NEXT:    sh2add a6, a6, a0
-; RV32ZBA-NEXT:    add a7, a4, a7
-; RV32ZBA-NEXT:    sh2add a0, t0, a5
-; RV32ZBA-NEXT:    sltu a4, a7, a4
-; RV32ZBA-NEXT:    srai a5, a7, 31
-; RV32ZBA-NEXT:    add a1, a1, a4
+; RV32ZBA-NEXT:    mulh a1, a1, a3
+; RV32ZBA-NEXT:    mulhu a3, a0, a3
+; RV32ZBA-NEXT:    sh2add a5, a5, a0
+; RV32ZBA-NEXT:    add a3, a4, a3
+; RV32ZBA-NEXT:    sltu a0, a3, a4
+; RV32ZBA-NEXT:    srai a4, a3, 31
 ; RV32ZBA-NEXT:    add a0, a1, a0
-; RV32ZBA-NEXT:    xor a4, a0, a5
-; RV32ZBA-NEXT:    sltu a0, a0, a1
-; RV32ZBA-NEXT:    add a0, a3, a0
-; RV32ZBA-NEXT:    xor a0, a0, a5
-; RV32ZBA-NEXT:    or a0, a4, a0
+; RV32ZBA-NEXT:    xor a1, a0, a4
+; RV32ZBA-NEXT:    srai a0, a0, 31
+; RV32ZBA-NEXT:    xor a0, a0, a4
+; RV32ZBA-NEXT:    or a0, a1, a0
 ; RV32ZBA-NEXT:    snez a0, a0
-; RV32ZBA-NEXT:    sw a6, 0(a2)
-; RV32ZBA-NEXT:    sw a7, 4(a2)
+; RV32ZBA-NEXT:    sw a5, 0(a2)
+; RV32ZBA-NEXT:    sw a3, 4(a2)
 ; RV32ZBA-NEXT:    ret
 ;
 ; RV64ZBA-LABEL: smulo2.i64:
@@ -1619,26 +1524,21 @@ define zeroext i1 @smulo2.i64(i64 %v1, ptr %res) {
 ; RV32ZICOND-LABEL: smulo2.i64:
 ; RV32ZICOND:       # %bb.0: # %entry
 ; RV32ZICOND-NEXT:    li a3, 13
-; RV32ZICOND-NEXT:    srai a4, a1, 31
-; RV32ZICOND-NEXT:    mulhu a5, a0, a3
-; RV32ZICOND-NEXT:    mul a6, a1, a3
-; RV32ZICOND-NEXT:    mulhu a1, a1, a3
-; RV32ZICOND-NEXT:    mul a7, a4, a3
-; RV32ZICOND-NEXT:    mulh a4, a4, a3
+; RV32ZICOND-NEXT:    mulhu a4, a0, a3
+; RV32ZICOND-NEXT:    mul a5, a1, a3
+; RV32ZICOND-NEXT:    mulh a1, a1, a3
 ; RV32ZICOND-NEXT:    mul a3, a0, a3
-; RV32ZICOND-NEXT:    add a5, a6, a5
-; RV32ZICOND-NEXT:    sltu a0, a5, a6
-; RV32ZICOND-NEXT:    srai a6, a5, 31
+; RV32ZICOND-NEXT:    add a4, a5, a4
+; RV32ZICOND-NEXT:    sltu a0, a4, a5
+; RV32ZICOND-NEXT:    srai a5, a4, 31
 ; RV32ZICOND-NEXT:    add a0, a1, a0
-; RV32ZICOND-NEXT:    add a7, a0, a7
-; RV32ZICOND-NEXT:    xor a1, a7, a6
-; RV32ZICOND-NEXT:    sltu a0, a7, a0
-; RV32ZICOND-NEXT:    add a0, a4, a0
-; RV32ZICOND-NEXT:    xor a0, a0, a6
+; RV32ZICOND-NEXT:    xor a1, a0, a5
+; RV32ZICOND-NEXT:    srai a0, a0, 31
+; RV32ZICOND-NEXT:    xor a0, a0, a5
 ; RV32ZICOND-NEXT:    or a0, a1, a0
 ; RV32ZICOND-NEXT:    snez a0, a0
 ; RV32ZICOND-NEXT:    sw a3, 0(a2)
-; RV32ZICOND-NEXT:    sw a5, 4(a2)
+; RV32ZICOND-NEXT:    sw a4, 4(a2)
 ; RV32ZICOND-NEXT:    ret
 ;
 ; RV64ZICOND-LABEL: smulo2.i64:
@@ -3319,62 +3219,38 @@ entry:
 define i64 @smulo.select.i64(i64 %v1, i64 %v2) {
 ; RV32-LABEL: smulo.select.i64:
 ; RV32:       # %bb.0: # %entry
-; RV32-NEXT:    addi sp, sp, -16
-; RV32-NEXT:    .cfi_def_cfa_offset 16
-; RV32-NEXT:    sw s0, 12(sp) # 4-byte Folded Spill
-; RV32-NEXT:    .cfi_offset s0, -4
 ; RV32-NEXT:    mulhu a4, a0, a2
 ; RV32-NEXT:    mul a5, a1, a2
-; RV32-NEXT:    mulhu a6, a1, a2
-; RV32-NEXT:    mul a7, a0, a3
-; RV32-NEXT:    mulhu t0, a0, a3
-; RV32-NEXT:    mul t1, a1, a3
-; RV32-NEXT:    srai t2, a1, 31
-; RV32-NEXT:    srai t3, a3, 31
-; RV32-NEXT:    mulhu t4, a1, a3
+; RV32-NEXT:    mulhsu a6, a1, a2
+; RV32-NEXT:    mul a7, a3, a0
+; RV32-NEXT:    mulhsu t0, a3, a0
 ; RV32-NEXT:    add a4, a5, a4
-; RV32-NEXT:    mul t5, a2, t2
-; RV32-NEXT:    mul t6, t3, a0
-; RV32-NEXT:    mul s0, t3, a1
-; RV32-NEXT:    mulhu t3, t3, a0
-; RV32-NEXT:    add t3, t3, s0
-; RV32-NEXT:    mulhu s0, a2, t2
-; RV32-NEXT:    mul t2, a3, t2
 ; RV32-NEXT:    sltu a5, a4, a5
 ; RV32-NEXT:    add a4, a7, a4
-; RV32-NEXT:    add s0, s0, t5
-; RV32-NEXT:    add t5, t6, t5
 ; RV32-NEXT:    add a5, a6, a5
 ; RV32-NEXT:    sltu a6, a4, a7
-; RV32-NEXT:    add t2, s0, t2
-; RV32-NEXT:    add t3, t3, t6
-; RV32-NEXT:    sltu a7, t5, t6
-; RV32-NEXT:    srai a4, a4, 31
 ; RV32-NEXT:    add a6, t0, a6
-; RV32-NEXT:    add t2, t3, t2
+; RV32-NEXT:    srai a7, a5, 31
+; RV32-NEXT:    srai t0, a6, 31
+; RV32-NEXT:    add a7, a7, t0
+; RV32-NEXT:    mulh t0, a1, a3
 ; RV32-NEXT:    add a6, a5, a6
-; RV32-NEXT:    add a7, t2, a7
-; RV32-NEXT:    add t0, t1, a6
 ; RV32-NEXT:    sltu a5, a6, a5
-; RV32-NEXT:    add t5, t0, t5
-; RV32-NEXT:    sltu a6, t0, t1
-; RV32-NEXT:    add a5, t4, a5
-; RV32-NEXT:    sltu t0, t5, t0
-; RV32-NEXT:    add a5, a5, a6
+; RV32-NEXT:    add a5, a7, a5
+; RV32-NEXT:    mul a7, a1, a3
+; RV32-NEXT:    srai a4, a4, 31
+; RV32-NEXT:    add a6, a7, a6
+; RV32-NEXT:    sltu a7, a6, a7
+; RV32-NEXT:    add a5, t0, a5
 ; RV32-NEXT:    add a5, a5, a7
-; RV32-NEXT:    add a5, a5, t0
 ; RV32-NEXT:    xor a5, a5, a4
-; RV32-NEXT:    xor a4, t5, a4
+; RV32-NEXT:    xor a4, a6, a4
 ; RV32-NEXT:    or a4, a4, a5
 ; RV32-NEXT:    bnez a4, .LBB46_2
 ; RV32-NEXT:  # %bb.1: # %entry
 ; RV32-NEXT:    mv a0, a2
 ; RV32-NEXT:    mv a1, a3
 ; RV32-NEXT:  .LBB46_2: # %entry
-; RV32-NEXT:    lw s0, 12(sp) # 4-byte Folded Reload
-; RV32-NEXT:    .cfi_restore s0
-; RV32-NEXT:    addi sp, sp, 16
-; RV32-NEXT:    .cfi_def_cfa_offset 0
 ; RV32-NEXT:    ret
 ;
 ; RV64-LABEL: smulo.select.i64:
@@ -3390,62 +3266,38 @@ define i64 @smulo.select.i64(i64 %v1, i64 %v2) {
 ;
 ; RV32ZBA-LABEL: smulo.select.i64:
 ; RV32ZBA:       # %bb.0: # %entry
-; RV32ZBA-NEXT:    addi sp, sp, -16
-; RV32ZBA-NEXT:    .cfi_def_cfa_offset 16
-; RV32ZBA-NEXT:    sw s0, 12(sp) # 4-byte Folded Spill
-; RV32ZBA-NEXT:    .cfi_offset s0, -4
 ; RV32ZBA-NEXT:    mulhu a4, a0, a2
 ; RV32ZBA-NEXT:    mul a5, a1, a2
-; RV32ZBA-NEXT:    mulhu a6, a1, a2
-; RV32ZBA-NEXT:    mul a7, a0, a3
-; RV32ZBA-NEXT:    mulhu t0, a0, a3
-; RV32ZBA-NEXT:    mul t1, a1, a3
-; RV32ZBA-NEXT:    srai t2, a1, 31
-; RV32ZBA-NEXT:    srai t3, a3, 31
-; RV32ZBA-NEXT:    mulhu t4, a1, a3
+; RV32ZBA-NEXT:    mulhsu a6, a1, a2
+; RV32ZBA-NEXT:    mul a7, a3, a0
+; RV32ZBA-NEXT:    mulhsu t0, a3, a0
 ; RV32ZBA-NEXT:    add a4, a5, a4
-; RV32ZBA-NEXT:    mul t5, a2, t2
-; RV32ZBA-NEXT:    mul t6, t3, a0
-; RV32ZBA-NEXT:    mul s0, t3, a1
-; RV32ZBA-NEXT:    mulhu t3, t3, a0
-; RV32ZBA-NEXT:    add t3, t3, s0
-; RV32ZBA-NEXT:    mulhu s0, a2, t2
-; RV32ZBA-NEXT:    mul t2, a3, t2
 ; RV32ZBA-NEXT:    sltu a5, a4, a5
 ; RV32ZBA-NEXT:    add a4, a7, a4
-; RV32ZBA-NEXT:    add s0, s0, t5
-; RV32ZBA-NEXT:    add t5, t6, t5
 ; RV32ZBA-NEXT:    add a5, a6, a5
 ; RV32ZBA-NEXT:    sltu a6, a4, a7
-; RV32ZBA-NEXT:    add t2, s0, t2
-; RV32ZBA-NEXT:    add t3, t3, t6
-; RV32ZBA-NEXT:    sltu a7, t5, t6
-; RV32ZBA-NEXT:    srai a4, a4, 31
 ; RV32ZBA-NEXT:    add a6, t0, a6
-; RV32ZBA-NEXT:    add t2, t3, t2
+; RV32ZBA-NEXT:    srai a7, a5, 31
+; RV32ZBA-NEXT:    srai t0, a6, 31
+; RV32ZBA-NEXT:    add a7, a7, t0
+; RV32ZBA-NEXT:    mulh t0, a1, a3
 ; RV32ZBA-NEXT:    add a6, a5, a6
-; RV32ZBA-NEXT:    add a7, t2, a7
-; RV32ZBA-NEXT:    add t0, t1, a6
 ; RV32ZBA-NEXT:    sltu a5, a6, a5
-; RV32ZBA-NEXT:    add t5, t0, t5
-; RV32ZBA-NEXT:    sltu a6, t0, t1
-; RV32ZBA-NEXT:    add a5, t4, a5
-; RV32ZBA-NEXT:    sltu t0, t5, t0
-; RV32ZBA-NEXT:    add a5, a5, a6
+; RV32ZBA-NEXT:    add a5, a7, a5
+; RV32ZBA-NEXT:    mul a7, a1, a3
+; RV32ZBA-NEXT:    srai a4, a4, 31
+; RV32ZBA-NEXT:    add a6, a7, a6
+; RV32ZBA-NEXT:    sltu a7, a6, a7
+; RV32ZBA-NEXT:    add a5, t0, a5
 ; RV32ZBA-NEXT:    add a5, a5, a7
-; RV32ZBA-NEXT:    add a5, a5, t0
 ; RV32ZBA-NEXT:    xor a5, a5, a4
-; RV32ZBA-NEXT:    xor a4, t5, a4
+; RV32ZBA-NEXT:    xor a4, a6, a4
 ; RV32ZBA-NEXT:    or a4, a4, a5
 ; RV32ZBA-NEXT:    bnez a4, .LBB46_2
 ; RV32ZBA-NEXT:  # %bb.1: # %entry
 ; RV32ZBA-NEXT:    mv a0, a2
 ; RV32ZBA-NEXT:    mv a1, a3
 ; RV32ZBA-NEXT:  .LBB46_2: # %entry
-; RV32ZBA-NEXT:    lw s0, 12(sp) # 4-byte Folded Reload
-; RV32ZBA-NEXT:    .cfi_restore s0
-; RV32ZBA-NEXT:    addi sp, sp, 16
-; RV32ZBA-NEXT:    .cfi_def_cfa_offset 0
 ; RV32ZBA-NEXT:    ret
 ;
 ; RV64ZBA-LABEL: smulo.select.i64:
@@ -3461,51 +3313,31 @@ define i64 @smulo.select.i64(i64 %v1, i64 %v2) {
 ;
 ; RV32ZICOND-LABEL: smulo.select.i64:
 ; RV32ZICOND:       # %bb.0: # %entry
-; RV32ZICOND-NEXT:    addi sp, sp, -16
-; RV32ZICOND-NEXT:    .cfi_def_cfa_offset 16
-; RV32ZICOND-NEXT:    sw s0, 12(sp) # 4-byte Folded Spill
-; RV32ZICOND-NEXT:    .cfi_offset s0, -4
 ; RV32ZICOND-NEXT:    mulhu a4, a0, a2
 ; RV32ZICOND-NEXT:    mul a5, a1, a2
-; RV32ZICOND-NEXT:    mulhu a6, a1, a2
-; RV32ZICOND-NEXT:    mul a7, a0, a3
-; RV32ZICOND-NEXT:    mulhu t0, a0, a3
-; RV32ZICOND-NEXT:    mul t1, a1, a3
-; RV32ZICOND-NEXT:    srai t2, a1, 31
-; RV32ZICOND-NEXT:    srai t3, a3, 31
-; RV32ZICOND-NEXT:    mulhu t4, a1, a3
+; RV32ZICOND-NEXT:    mulhsu a6, a1, a2
+; RV32ZICOND-NEXT:    mul a7, a3, a0
+; RV32ZICOND-NEXT:    mulhsu t0, a3, a0
 ; RV32ZICOND-NEXT:    add a4, a5, a4
-; RV32ZICOND-NEXT:    mul t5, a2, t2
-; RV32ZICOND-NEXT:    mul t6, t3, a0
-; RV32ZICOND-NEXT:    mul s0, t3, a1
-; RV32ZICOND-NEXT:    mulhu t3, t3, a0
-; RV32ZICOND-NEXT:    add t3, t3, s0
-; RV32ZICOND-NEXT:    mulhu s0, a2, t2
-; RV32ZICOND-NEXT:    mul t2, a3, t2
 ; RV32ZICOND-NEXT:    sltu a5, a4, a5
 ; RV32ZICOND-NEXT:    add a4, a7, a4
-; RV32ZICOND-NEXT:    add s0, s0, t5
-; RV32ZICOND-NEXT:    add t5, t6, t5
 ; RV32ZICOND-NEXT:    add a5, a6, a5
 ; RV32ZICOND-NEXT:    sltu a6, a4, a7
-; RV32ZICOND-NEXT:    add t2, s0, t2
-; RV32ZICOND-NEXT:    add t3, t3, t6
-; RV32ZICOND-NEXT:    sltu a7, t5, t6
-; RV32ZICOND-NEXT:    srai a4, a4, 31
 ; RV32ZICOND-NEXT:    add a6, t0, a6
-; RV32ZICOND-NEXT:    add t2, t3, t2
+; RV32ZICOND-NEXT:    srai a7, a5, 31
+; RV32ZICOND-NEXT:    srai t0, a6, 31
+; RV32ZICOND-NEXT:    add a7, a7, t0
+; RV32ZICOND-NEXT:    mulh t0, a1, a3
 ; RV32ZICOND-NEXT:    add a6, a5, a6
-; RV32ZICOND-NEXT:    add a7, t2, a7
-; RV32ZICOND-NEXT:    add t0, t1, a6
 ; RV32ZICOND-NEXT:    sltu a5, a6, a5
-; RV32ZICOND-NEXT:    add t5, t0, t5
-; RV32ZICOND-NEXT:    sltu a6, t0, t1
-; RV32ZICOND-NEXT:    add a5, t4, a5
-; RV32ZICOND-NEXT:    sltu t0, t5, t0
-; RV32ZICOND-NEXT:    add a5, a5, a6
-; RV32ZICOND-NEXT:    xor a6, t5, a4
+; RV32ZICOND-NEXT:    add a5, a7, a5
+; RV32ZICOND-NEXT:    mul a7, a1, a3
+; RV32ZICOND-NEXT:    srai a4, a4, 31
+; RV32ZICOND-NEXT:    add a6, a7, a6
+; RV32ZICOND-NEXT:    sltu a7, a6, a7
+; RV32ZICOND-NEXT:    xor a6, a6, a4
+; RV32ZICOND-NEXT:    add a5, t0, a5
 ; RV32ZICOND-NEXT:    add a5, a5, a7
-; RV32ZICOND-NEXT:    add a5, a5, t0
 ; RV32ZICOND-NEXT:    xor a4, a5, a4
 ; RV32ZICOND-NEXT:    or a4, a6, a4
 ; RV32ZICOND-NEXT:    czero.nez a2, a2, a4
@@ -3514,10 +3346,6 @@ define i64 @smulo.select.i64(i64 %v1, i64 %v2) {
 ; RV32ZICOND-NEXT:    czero.eqz a1, a1, a4
 ; RV32ZICOND-NEXT:    or a0, a0, a2
 ; RV32ZICOND-NEXT:    or a1, a1, a3
-; RV32ZICOND-NEXT:    lw s0, 12(sp) # 4-byte Folded Reload
-; RV32ZICOND-NEXT:    .cfi_restore s0
-; RV32ZICOND-NEXT:    addi sp, sp, 16
-; RV32ZICOND-NEXT:    .cfi_def_cfa_offset 0
 ; RV32ZICOND-NEXT:    ret
 ;
 ; RV64ZICOND-LABEL: smulo.select.i64:
@@ -3542,47 +3370,31 @@ define i1 @smulo.not.i64(i64 %v1, i64 %v2) {
 ; RV32:       # %bb.0: # %entry
 ; RV32-NEXT:    mulhu a4, a0, a2
 ; RV32-NEXT:    mul a5, a1, a2
-; RV32-NEXT:    mulhu a6, a1, a2
-; RV32-NEXT:    mul a7, a0, a3
-; RV32-NEXT:    mulhu t0, a0, a3
-; RV32-NEXT:    mul t1, a1, a3
-; RV32-NEXT:    srai t2, a1, 31
-; RV32-NEXT:    srai t3, a3, 31
-; RV32-NEXT:    mulhu t4, a1, a3
+; RV32-NEXT:    mulhsu a2, a1, a2
+; RV32-NEXT:    mul a6, a3, a0
+; RV32-NEXT:    mulhsu a0, a3, a0
+; RV32-NEXT:    mulh a7, a1, a3
+; RV32-NEXT:    mul a1, a1, a3
 ; RV32-NEXT:    add a4, a5, a4
-; RV32-NEXT:    mul t5, a2, t2
-; RV32-NEXT:    mul t6, t3, a0
-; RV32-NEXT:    mulhu a2, a2, t2
-; RV32-NEXT:    mul a3, a3, t2
-; RV32-NEXT:    mul a1, t3, a1
-; RV32-NEXT:    mulhu a0, t3, a0
-; RV32-NEXT:    sltu a5, a4, a5
-; RV32-NEXT:    add a4, a7, a4
-; RV32-NEXT:    add t2, t6, t5
-; RV32-NEXT:    add a2, a2, t5
-; RV32-NEXT:    add a0, a0, a1
-; RV32-NEXT:    add a5, a6, a5
-; RV32-NEXT:    sltu a1, a4, a7
+; RV32-NEXT:    sltu a3, a4, a5
+; RV32-NEXT:    add a4, a6, a4
 ; RV32-NEXT:    add a2, a2, a3
-; RV32-NEXT:    add a0, a0, t6
-; RV32-NEXT:    sltu a3, t2, t6
+; RV32-NEXT:    sltu a3, a4, a6
 ; RV32-NEXT:    srai a4, a4, 31
-; RV32-NEXT:    add a1, t0, a1
-; RV32-NEXT:    add a0, a0, a2
-; RV32-NEXT:    add a1, a5, a1
 ; RV32-NEXT:    add a0, a0, a3
-; RV32-NEXT:    add a2, t1, a1
-; RV32-NEXT:    sltu a1, a1, a5
-; RV32-NEXT:    add t2, a2, t2
-; RV32-NEXT:    sltu a3, a2, t1
-; RV32-NEXT:    add a1, t4, a1
-; RV32-NEXT:    sltu a2, t2, a2
-; RV32-NEXT:    add a1, a1, a3
-; RV32-NEXT:    add a0, a1, a0
+; RV32-NEXT:    srai a3, a2, 31
+; RV32-NEXT:    add a5, a2, a0
+; RV32-NEXT:    srai a0, a0, 31
+; RV32-NEXT:    sltu a2, a5, a2
+; RV32-NEXT:    add a0, a3, a0
+; RV32-NEXT:    add a5, a1, a5
 ; RV32-NEXT:    add a0, a0, a2
+; RV32-NEXT:    sltu a1, a5, a1
+; RV32-NEXT:    add a0, a7, a0
+; RV32-NEXT:    add a0, a0, a1
 ; RV32-NEXT:    xor a0, a0, a4
-; RV32-NEXT:    xor a1, t2, a4
-; RV32-NEXT:    or a0, a1, a0
+; RV32-NEXT:    xor a4, a5, a4
+; RV32-NEXT:    or a0, a4, a0
 ; RV32-NEXT:    seqz a0, a0
 ; RV32-NEXT:    ret
 ;
@@ -3599,47 +3411,31 @@ define i1 @smulo.not.i64(i64 %v1, i64 %v2) {
 ; RV32ZBA:       # %bb.0: # %entry
 ; RV32ZBA-NEXT:    mulhu a4, a0, a2
 ; RV32ZBA-NEXT:    mul a5, a1, a2
-; RV32ZBA-NEXT:    mulhu a6, a1, a2
-; RV32ZBA-NEXT:    mul a7, a0, a3
-; RV32ZBA-NEXT:    mulhu t0, a0, a3
-; RV32ZBA-NEXT:    mul t1, a1, a3
-; RV32ZBA-NEXT:    srai t2, a1, 31
-; RV32ZBA-NEXT:    srai t3, a3, 31
-; RV32ZBA-NEXT:    mulhu t4, a1, a3
+; RV32ZBA-NEXT:    mulhsu a2, a1, a2
+; RV32ZBA-NEXT:    mul a6, a3, a0
+; RV32ZBA-NEXT:    mulhsu a0, a3, a0
+; RV32ZBA-NEXT:    mulh a7, a1, a3
+; RV32ZBA-NEXT:    mul a1, a1, a3
 ; RV32ZBA-NEXT:    add a4, a5, a4
-; RV32ZBA-NEXT:    mul t5, a2, t2
-; RV32ZBA-NEXT:    mul t6, t3, a0
-; RV32ZBA-NEXT:    mulhu a2, a2, t2
-; RV32ZBA-NEXT:    mul a3, a3, t2
-; RV32ZBA-NEXT:    mul a1, t3, a1
-; RV32ZBA-NEXT:    mulhu a0, t3, a0
-; RV32ZBA-NEXT:    sltu a5, a4, a5
-; RV32ZBA-NEXT:    add a4, a7, a4
-; RV32ZBA-NEXT:    add t2, t6, t5
-; RV32ZBA-NEXT:    add a2, a2, t5
-; RV32ZBA-NEXT:    add a0, a0, a1
-; RV32ZBA-NEXT:    add a5, a6, a5
-; RV32ZBA-NEXT:    sltu a1, a4, a7
+; RV32ZBA-NEXT:    sltu a3, a4, a5
+; RV32ZBA-NEXT:    add a4, a6, a4
 ; RV32ZBA-NEXT:    add a2, a2, a3
-; RV32ZBA-NEXT:    add a0, a0, t6
-; RV32ZBA-NEXT:    sltu a3, t2, t6
+; RV32ZBA-NEXT:    sltu a3, a4, a6
 ; RV32ZBA-NEXT:    srai a4, a4, 31
-; RV32ZBA-NEXT:    add a1, t0, a1
-; RV32ZBA-NEXT:    add a0, a0, a2
-; RV32ZBA-NEXT:    add a1, a5, a1
 ; RV32ZBA-NEXT:    add a0, a0, a3
-; RV32ZBA-NEXT:    add a2, t1, a1
-; RV32ZBA-NEXT:    sltu a1, a1, a5
-; RV32ZBA-NEXT:    add t2, a2, t2
-; RV32ZBA-NEXT:    sltu a3, a2, t1
-; RV32ZBA-NEXT:    add a1, t4, a1
-; RV32ZBA-NEXT:    sltu a2, t2, a2
-; RV32ZBA-NEXT:    add a1, a1, a3
-; RV32ZBA-NEXT:    add a0, a1, a0
+; RV32ZBA-NEXT:    srai a3, a2, 31
+; RV32ZBA-NEXT:    add a5, a2, a0
+; RV32ZBA-NEXT:    srai a0, a0, 31
+; RV32ZBA-NEXT:    sltu a2, a5, a2
+; RV32ZBA-NEXT:    add a0, a3, a0
+; RV32ZBA-NEXT:    add a5, a1, a5
 ; RV32ZBA-NEXT:    add a0, a0, a2
+; RV32ZBA-NEXT:    sltu a1, a5, a1
+; RV32ZBA-NEXT:    add a0, a7, a0
+; RV32ZBA-NEXT:    add a0, a0, a1
 ; RV32ZBA-NEXT:    xor a0, a0, a4
-; RV32ZBA-NEXT:    xor a1, t2, a4
-; RV32ZBA-NEXT:    or a0, a1, a0
+; RV32ZBA-NEXT:    xor a4, a5, a4
+; RV32ZBA-NEXT:    or a0, a4, a0
 ; RV32ZBA-NEXT:    seqz a0, a0
 ; RV32ZBA-NEXT:    ret
 ;
@@ -3656,47 +3452,31 @@ define i1 @smulo.not.i64(i64 %v1, i64 %v2) {
 ; RV32ZICOND:       # %bb.0: # %entry
 ; RV32ZICOND-NEXT:    mulhu a4, a0, a2
 ; RV32ZICOND-NEXT:    mul a5, a1, a2
-; RV32ZICOND-NEXT:    mulhu a6, a1, a2
-; RV32ZICOND-NEXT:    mul a7, a0, a3
-; RV32ZICOND-NEXT:    mulhu t0, a0, a3
-; RV32ZICOND-NEXT:    mul t1, a1, a3
-; RV32ZICOND-NEXT:    srai t2, a1, 31
-; RV32ZICOND-NEXT:    srai t3, a3, 31
-; RV32ZICOND-NEXT:    mulhu t4, a1, a3
+; RV32ZICOND-NEXT:    mulhsu a2, a1, a2
+; RV32ZICOND-NEXT:    mul a6, a3, a0
+; RV32ZICOND-NEXT:    mulhsu a0, a3, a0
+; RV32ZICOND-NEXT:    mulh a7, a1, a3
+; RV32ZICOND-NEXT:    mul a1, a1, a3
 ; RV32ZICOND-NEXT:    add a4, a5, a4
-; RV32ZICOND-NEXT:    mul t5, a2, t2
-; RV32ZICOND-NEXT:    mul t6, t3, a0
-; RV32ZICOND-NEXT:    mulhu a2, a2, t2
-; RV32ZICOND-NEXT:    mul a3, a3, t2
-; RV32ZICOND-NEXT:    mul a1, t3, a1
-; RV32ZICOND-NEXT:    mulhu a0, t3, a0
-; RV32ZICOND-NEXT:    sltu a5, a4, a5
-; RV32ZICOND-NEXT:    add a4, a7, a4
-; RV32ZICOND-NEXT:    add t2, t6, t5
-; RV32ZICOND-NEXT:    add a2, a2, t5
-; RV32ZICOND-NEXT:    add a0, a0, a1
-; RV32ZICOND-NEXT:    add a5, a6, a5
-; RV32ZICOND-NEXT:    sltu a1, a4, a7
+; RV32ZICOND-NEXT:    sltu a3, a4, a5
+; RV32ZICOND-NEXT:    add a4, a6, a4
 ; RV32ZICOND-NEXT:    add a2, a2, a3
-; RV32ZICOND-NEXT:    add a0, a0, t6
-; RV32ZICOND-NEXT:    sltu a3, t2, t6
+; RV32ZICOND-NEXT:    sltu a3, a4, a6
 ; RV32ZICOND-NEXT:    srai a4, a4, 31
-; RV32ZICOND-NEXT:    add a1, t0, a1
-; RV32ZICOND-NEXT:    add a0, a0, a2
-; RV32ZICOND-NEXT:    add a1, a5, a1
 ; RV32ZICOND-NEXT:    add a0, a0, a3
-; RV32ZICOND-NEXT:    add a2, t1, a1
-; RV32ZICOND-NEXT:    sltu a1, a1, a5
-; RV32ZICOND-NEXT:    add t2, a2, t2
-; RV32ZICOND-NEXT:    sltu a3, a2, t1
-; RV32ZICOND-NEXT:    add a1, t4, a1
-; RV32ZICOND-NEXT:    sltu a2, t2, a2
-; RV32ZICOND-NEXT:    add a1, a1, a3
-; RV32ZICOND-NEXT:    add a0, a1, a0
+; RV32ZICOND-NEXT:    srai a3, a2, 31
+; RV32ZICOND-NEXT:    add a5, a2, a0
+; RV32ZICOND-NEXT:    srai a0, a0, 31
+; RV32ZICOND-NEXT:    sltu a2, a5, a2
+; RV32ZICOND-NEXT:    add a0, a3, a0
+; RV32ZICOND-NEXT:    add a5, a1, a5
 ; RV32ZICOND-NEXT:    add a0, a0, a2
+; RV32ZICOND-NEXT:    sltu a1, a5, a1
+; RV32ZICOND-NEXT:    add a0, a7, a0
+; RV32ZICOND-NEXT:    add a0, a0, a1
 ; RV32ZICOND-NEXT:    xor a0, a0, a4
-; RV32ZICOND-NEXT:    xor a1, t2, a4
-; RV32ZICOND-NEXT:    or a0, a1, a0
+; RV32ZICOND-NEXT:    xor a4, a5, a4
+; RV32ZICOND-NEXT:    or a0, a4, a0
 ; RV32ZICOND-NEXT:    seqz a0, a0
 ; RV32ZICOND-NEXT:    ret
 ;
@@ -4879,47 +4659,31 @@ define zeroext i1 @smulo.br.i64(i64 %v1, i64 %v2) {
 ; RV32:       # %bb.0: # %entry
 ; RV32-NEXT:    mulhu a4, a0, a2
 ; RV32-NEXT:    mul a5, a1, a2
-; RV32-NEXT:    mulhu a6, a1, a2
-; RV32-NEXT:    mul a7, a0, a3
-; RV32-NEXT:    mulhu t0, a0, a3
-; RV32-NEXT:    mul t1, a1, a3
-; RV32-NEXT:    srai t2, a1, 31
-; RV32-NEXT:    srai t3, a3, 31
-; RV32-NEXT:    mulhu t4, a1, a3
+; RV32-NEXT:    mulhsu a2, a1, a2
+; RV32-NEXT:    mul a6, a3, a0
+; RV32-NEXT:    mulhsu a0, a3, a0
+; RV32-NEXT:    mulh a7, a1, a3
+; RV32-NEXT:    mul a1, a1, a3
 ; RV32-NEXT:    add a4, a5, a4
-; RV32-NEXT:    mul t5, a2, t2
-; RV32-NEXT:    mul t6, t3, a0
-; RV32-NEXT:    mulhu a2, a2, t2
-; RV32-NEXT:    mul a3, a3, t2
-; RV32-NEXT:    mul a1, t3, a1
-; RV32-NEXT:    mulhu a0, t3, a0
-; RV32-NEXT:    sltu a5, a4, a5
-; RV32-NEXT:    add a4, a7, a4
-; RV32-NEXT:    add t2, t6, t5
-; RV32-NEXT:    add a2, a2, t5
-; RV32-NEXT:    add a0, a0, a1
-; RV32-NEXT:    add a5, a6, a5
-; RV32-NEXT:    sltu a1, a4, a7
+; RV32-NEXT:    sltu a3, a4, a5
+; RV32-NEXT:    add a4, a6, a4
 ; RV32-NEXT:    add a2, a2, a3
-; RV32-NEXT:    add a0, a0, t6
-; RV32-NEXT:    sltu a3, t2, t6
+; RV32-NEXT:    sltu a3, a4, a6
 ; RV32-NEXT:    srai a4, a4, 31
-; RV32-NEXT:    add a1, t0, a1
-; RV32-NEXT:    add a0, a0, a2
-; RV32-NEXT:    add a1, a5, a1
 ; RV32-NEXT:    add a0, a0, a3
-; RV32-NEXT:    add a2, t1, a1
-; RV32-NEXT:    sltu a1, a1, a5
-; RV32-NEXT:    add t2, a2, t2
-; RV32-NEXT:    sltu a3, a2, t1
-; RV32-NEXT:    add a1, t4, a1
-; RV32-NEXT:    sltu a2, t2, a2
-; RV32-NEXT:    add a1, a1, a3
-; RV32-NEXT:    add a0, a1, a0
+; RV32-NEXT:    srai a3, a2, 31
+; RV32-NEXT:    add a5, a2, a0
+; RV32-NEXT:    srai a0, a0, 31
+; RV32-NEXT:    sltu a2, a5, a2
+; RV32-NEXT:    add a0, a3, a0
+; RV32-NEXT:    add a5, a1, a5
 ; RV32-NEXT:    add a0, a0, a2
+; RV32-NEXT:    sltu a1, a5, a1
+; RV32-NEXT:    add a0, a7, a0
+; RV32-NEXT:    add a0, a0, a1
 ; RV32-NEXT:    xor a0, a0, a4
-; RV32-NEXT:    xor a1, t2, a4
-; RV32-NEXT:    or a0, a1, a0
+; RV32-NEXT:    xor a4, a5, a4
+; RV32-NEXT:    or a0, a4, a0
 ; RV32-NEXT:    beqz a0, .LBB61_2
 ; RV32-NEXT:  # %bb.1: # %overflow
 ; RV32-NEXT:    li a0, 0
@@ -4945,47 +4709,31 @@ define zeroext i1 @smulo.br.i64(i64 %v1, i64 %v2) {
 ; RV32ZBA:       # %bb.0: # %entry
 ; RV32ZBA-NEXT:    mulhu a4, a0, a2
 ; RV32ZBA-NEXT:    mul a5, a1, a2
-; RV32ZBA-NEXT:    mulhu a6, a1, a2
-; RV32ZBA-NEXT:    mul a7, a0, a3
-; RV32ZBA-NEXT:    mulhu t0, a0, a3
-; RV32ZBA-NEXT:    mul t1, a1, a3
-; RV32ZBA-NEXT:    srai t2, a1, 31
-; RV32ZBA-NEXT:    srai t3, a3, 31
-; RV32ZBA-NEXT:    mulhu t4, a1, a3
+; RV32ZBA-NEXT:    mulhsu a2, a1, a2
+; RV32ZBA-NEXT:    mul a6, a3, a0
+; RV32ZBA-NEXT:    mulhsu a0, a3, a0
+; RV32ZBA-NEXT:    mulh a7, a1, a3
+; RV32ZBA-NEXT:    mul a1, a1, a3
 ; RV32ZBA-NEXT:    add a4, a5, a4
-; RV32ZBA-NEXT:    mul t5, a2, t2
-; RV32ZBA-NEXT:    mul t6, t3, a0
-; RV32ZBA-NEXT:    mulhu a2, a2, t2
-; RV32ZBA-NEXT:    mul a3, a3, t2
-; RV32ZBA-NEXT:    mul a1, t3, a1
-; RV32ZBA-NEXT:    mulhu a0, t3, a0
-; RV32ZBA-NEXT:    sltu a5, a4, a5
-; RV32ZBA-NEXT:    add a4, a7, a4
-; RV32ZBA-NEXT:    add t2, t6, t5
-; RV32ZBA-NEXT:    add a2, a2, t5
-; RV32ZBA-NEXT:    add a0, a0, a1
-; RV32ZBA-NEXT:    add a5, a6, a5
-; RV32ZBA-NEXT:    sltu a1, a4, a7
+; RV32ZBA-NEXT:    sltu a3, a4, a5
+; RV32ZBA-NEXT:    add a4, a6, a4
 ; RV32ZBA-NEXT:    add a2, a2, a3
-; RV32ZBA-NEXT:    add a0, a0, t6
-; RV32ZBA-NEXT:    sltu a3, t2, t6
+; RV32ZBA-NEXT:    sltu a3, a4, a6
 ; RV32ZBA-NEXT:    srai a4, a4, 31
-; RV32ZBA-NEXT:    add a1, t0, a1
-; RV32ZBA-NEXT:    add a0, a0, a2
-; RV32ZBA-NEXT:    add a1, a5, a1
 ; RV32ZBA-NEXT:    add a0, a0, a3
-; RV32ZBA-NEXT:    add a2, t1, a1
-; RV32ZBA-NEXT:    sltu a1, a1, a5
-; RV32ZBA-NEXT:    add t2, a2, t2
-; RV32ZBA-NEXT:    sltu a3, a2, t1
-; RV32ZBA-NEXT:    add a1, t4, a1
-; RV32ZBA-NEXT:    sltu a2, t2, a2
-; RV32ZBA-NEXT:    add a1, a1, a3
-; RV32ZBA-NEXT:    add a0, a1, a0
+; RV32ZBA-NEXT:    srai a3, a2, 31
+; RV32ZBA-NEXT:    add a5, a2, a0
+; RV32ZBA-NEXT:    srai a0, a0, 31
+; RV32ZBA-NEXT:    sltu a2, a5, a2
+; RV32ZBA-NEXT:    add a0, a3, a0
+; RV32ZBA-NEXT:    add a5, a1, a5
 ; RV32ZBA-NEXT:    add a0, a0, a2
+; RV32ZBA-NEXT:    sltu a1, a5, a1
+; RV32ZBA-NEXT:    add a0, a7, a0
+; RV32ZBA-NEXT:    add a0, a0, a1
 ; RV32ZBA-NEXT:    xor a0, a0, a4
-; RV32ZBA-NEXT:    xor a1, t2, a4
-; RV32ZBA-NEXT:    or a0, a1, a0
+; RV32ZBA-NEXT:    xor a4, a5, a4
+; RV32ZBA-NEXT:    or a0, a4, a0
 ; RV32ZBA-NEXT:    beqz a0, .LBB61_2
 ; RV32ZBA-NEXT:  # %bb.1: # %overflow
 ; RV32ZBA-NEXT:    li a0, 0
@@ -5011,47 +4759,31 @@ define zeroext i1 @smulo.br.i64(i64 %v1, i64 %v2) {
 ; RV32ZICOND:       # %bb.0: # %entry
 ; RV32ZICOND-NEXT:    mulhu a4, a0, a2
 ; RV32ZICOND-NEXT:    mul a5, a1, a2
-; RV32ZICOND-NEXT:    mulhu a6, a1, a2
-; RV32ZICOND-NEXT:    mul a7, a0, a3
-; RV32ZICOND-NEXT:    mulhu t0, a0, a3
-; RV32ZICOND-NEXT:    mul t1, a1, a3
-; RV32ZICOND-NEXT:    srai t2, a1, 31
-; RV32ZICOND-NEXT:    srai t3, a3, 31
-; RV32ZICOND-NEXT:    mulhu t4, a1, a3
+; RV32ZICOND-NEXT:    mulhsu a2, a1, a2
+; RV32ZICOND-NEXT:    mul a6, a3, a0
+; RV32ZICOND-NEXT:    mulhsu a0, a3, a0
+; RV32ZICOND-NEXT:    mulh a7, a1, a3
+; RV32ZICOND-NEXT:    mul a1, a1, a3
 ; RV32ZICOND-NEXT:    add a4, a5, a4
-; RV32ZICOND-NEXT:    mul t5, a2, t2
-; RV32ZICOND-NEXT:    mul t6, t3, a0
-; RV32ZICOND-NEXT:    mulhu a2, a2, t2
-; RV32ZICOND-NEXT:    mul a3, a3, t2
-; RV32ZICOND-NEXT:    mul a1, t3, a1
-; RV32ZICOND-NEXT:    mulhu a0, t3, a0
-; RV32ZICOND-NEXT:    sltu a5, a4, a5
-; RV32ZICOND-NEXT:    add a4, a7, a4
-; RV32ZICOND-NEXT:    add t2, t6, t5
-; RV32ZICOND-NEXT:    add a2, a2, t5
-; RV32ZICOND-NEXT:    add a0, a0, a1
-; RV32ZICOND-NEXT:    add a5, a6, a5
-; RV32ZICOND-NEXT:    sltu a1, a4, a7
+; RV32ZICOND-NEXT:    sltu a3, a4, a5
+; RV32ZICOND-NEXT:    add a4, a6, a4
 ; RV32ZICOND-NEXT:    add a2, a2, a3
-; RV32ZICOND-NEXT:    add a0, a0, t6
-; RV32ZICOND-NEXT:    sltu a3, t2, t6
+; RV32ZICOND-NEXT:    sltu a3, a4, a6
 ; RV32ZICOND-NEXT:    srai a4, a4, 31
-; RV32ZICOND-NEXT:    add a1, t0, a1
-; RV32ZICOND-NEXT:    add a0, a0, a2
-; RV32ZICOND-NEXT:    add a1, a5, a1
 ; RV32ZICOND-NEXT:    add a0, a0, a3
-; RV32ZICOND-NEXT:    add a2, t1, a1
-; RV32ZICOND-NEXT:    sltu a1, a1, a5
-; RV32ZICOND-NEXT:    add t2, a2, t2
-; RV32ZICOND-NEXT:    sltu a3, a2, t1
-; RV32ZICOND-NEXT:    add a1, t4, a1
-; RV32ZICOND-NEXT:    sltu a2, t2, a2
-; RV32ZICOND-NEXT:    add a1, a1, a3
-; RV32ZICOND-NEXT:    add a0, a1, a0
+; RV32ZICOND-NEXT:    srai a3, a2, 31
+; RV32ZICOND-NEXT:    add a5, a2, a0
+; RV32ZICOND-NEXT:    srai a0, a0, 31
+; RV32ZICOND-NEXT:    sltu a2, a5, a2
+; RV32ZICOND-NEXT:    add a0, a3, a0
+; RV32ZICOND-NEXT:    add a5, a1, a5
 ; RV32ZICOND-NEXT:    add a0, a0, a2
+; RV32ZICOND-NEXT:    sltu a1, a5, a1
+; RV32ZICOND-NEXT:    add a0, a7, a0
+; RV32ZICOND-NEXT:    add a0, a0, a1
 ; RV32ZICOND-NEXT:    xor a0, a0, a4
-; RV32ZICOND-NEXT:    xor a1, t2, a4
-; RV32ZICOND-NEXT:    or a0, a1, a0
+; RV32ZICOND-NEXT:    xor a4, a5, a4
+; RV32ZICOND-NEXT:    or a0, a4, a0
 ; RV32ZICOND-NEXT:    beqz a0, .LBB61_2
 ; RV32ZICOND-NEXT:  # %bb.1: # %overflow
 ; RV32ZICOND-NEXT:    li a0, 0
@@ -5091,40 +4823,31 @@ define zeroext i1 @smulo2.br.i64(i64 %v1) {
 ; RV32-NEXT:    li a2, -13
 ; RV32-NEXT:    neg a3, a0
 ; RV32-NEXT:    li a4, -1
-; RV32-NEXT:    srai a5, a1, 31
-; RV32-NEXT:    neg a6, a1
-; RV32-NEXT:    add a7, a0, a1
-; RV32-NEXT:    mulhu t0, a0, a2
-; RV32-NEXT:    mul t1, a1, a2
-; RV32-NEXT:    mulhu t2, a1, a2
-; RV32-NEXT:    mulhu t3, a0, a4
-; RV32-NEXT:    mul t4, a5, a2
-; RV32-NEXT:    mulhu a4, a1, a4
-; RV32-NEXT:    mulh a2, a5, a2
-; RV32-NEXT:    add t0, t1, t0
-; RV32-NEXT:    sub a5, t4, a0
-; RV32-NEXT:    sub a7, t3, a7
-; RV32-NEXT:    sltu t1, t0, t1
-; RV32-NEXT:    sub a0, t0, a0
-; RV32-NEXT:    sltu t0, a5, a3
-; RV32-NEXT:    add a2, a7, a2
-; RV32-NEXT:    add t1, t2, t1
-; RV32-NEXT:    sltu a3, a0, a3
-; RV32-NEXT:    add a2, a2, t0
-; RV32-NEXT:    srai a0, a0, 31
-; RV32-NEXT:    add a3, t3, a3
-; RV32-NEXT:    add a3, t1, a3
-; RV32-NEXT:    sub a1, a3, a1
-; RV32-NEXT:    sltu a3, a3, t1
-; RV32-NEXT:    add a5, a1, a5
-; RV32-NEXT:    sltu a6, a1, a6
-; RV32-NEXT:    add a3, a4, a3
-; RV32-NEXT:    sltu a1, a5, a1
+; RV32-NEXT:    mulhu a5, a0, a2
+; RV32-NEXT:    mul a6, a1, a2
+; RV32-NEXT:    mulhsu a2, a1, a2
+; RV32-NEXT:    add a5, a6, a5
+; RV32-NEXT:    sltu a6, a5, a6
+; RV32-NEXT:    sub a5, a5, a0
+; RV32-NEXT:    mulhsu a0, a4, a0
+; RV32-NEXT:    add a2, a2, a6
+; RV32-NEXT:    sltu a3, a5, a3
+; RV32-NEXT:    add a0, a0, a3
+; RV32-NEXT:    srai a3, a2, 31
+; RV32-NEXT:    srai a6, a0, 31
 ; RV32-NEXT:    add a3, a3, a6
+; RV32-NEXT:    neg a6, a1
+; RV32-NEXT:    mulh a4, a1, a4
+; RV32-NEXT:    srai a5, a5, 31
+; RV32-NEXT:    add a0, a2, a0
+; RV32-NEXT:    sltu a2, a0, a2
+; RV32-NEXT:    sub a0, a0, a1
 ; RV32-NEXT:    add a2, a3, a2
+; RV32-NEXT:    sltu a1, a0, a6
+; RV32-NEXT:    add a2, a4, a2
 ; RV32-NEXT:    add a1, a2, a1
-; RV32-NEXT:    xor a1, a1, a0
-; RV32-NEXT:    xor a0, a5, a0
+; RV32-NEXT:    xor a1, a1, a5
+; RV32-NEXT:    xor a0, a0, a5
 ; RV32-NEXT:    or a0, a0, a1
 ; RV32-NEXT:    beqz a0, .LBB62_2
 ; RV32-NEXT:  # %bb.1: # %overflow
@@ -5153,40 +4876,31 @@ define zeroext i1 @smulo2.br.i64(i64 %v1) {
 ; RV32ZBA-NEXT:    li a2, -13
 ; RV32ZBA-NEXT:    neg a3, a0
 ; RV32ZBA-NEXT:    li a4, -1
-; RV32ZBA-NEXT:    srai a5, a1, 31
-; RV32ZBA-NEXT:    neg a6, a1
-; RV32ZBA-NEXT:    add a7, a0, a1
-; RV32ZBA-NEXT:    mulhu t0, a0, a2
-; RV32ZBA-NEXT:    mul t1, a1, a2
-; RV32ZBA-NEXT:    mulhu t2, a1, a2
-; RV32ZBA-NEXT:    mulhu t3, a0, a4
-; RV32ZBA-NEXT:    mul t4, a5, a2
-; RV32ZBA-NEXT:    mulhu a4, a1, a4
-; RV32ZBA-NEXT:    mulh a2, a5, a2
-; RV32ZBA-NEXT:    add t0, t1, t0
-; RV32ZBA-NEXT:    sub a5, t4, a0
-; RV32ZBA-NEXT:    sub a7, t3, a7
-; RV32ZBA-NEXT:    sltu t1, t0, t1
-; RV32ZBA-NEXT:    sub a0, t0, a0
-; RV32ZBA-NEXT:    sltu t0, a5, a3
-; RV32ZBA-NEXT:    add a2, a7, a2
-; RV32ZBA-NEXT:    add t1, t2, t1
-; RV32ZBA-NEXT:    sltu a3, a0, a3
-; RV32ZBA-NEXT:    add a2, a2, t0
-; RV32ZBA-NEXT:    srai a0, a0, 31
-; RV32ZBA-NEXT:    add a3, t3, a3
-; RV32ZBA-NEXT:    add a3, t1, a3
-; RV32ZBA-NEXT:    sub a1, a3, a1
-; RV32ZBA-NEXT:    sltu a3, a3, t1
-; RV32ZBA-NEXT:    add a5, a1, a5
-; RV32ZBA-NEXT:    sltu a6, a1, a6
-; RV32ZBA-NEXT:    add a3, a4, a3
-; RV32ZBA-NEXT:    sltu a1, a5, a1
+; RV32ZBA-NEXT:    mulhu a5, a0, a2
+; RV32ZBA-NEXT:    mul a6, a1, a2
+; RV32ZBA-NEXT:    mulhsu a2, a1, a2
+; RV32ZBA-NEXT:    add a5, a6, a5
+; RV32ZBA-NEXT:    sltu a6, a5, a6
+; RV32ZBA-NEXT:    sub a5, a5, a0
+; RV32ZBA-NEXT:    mulhsu a0, a4, a0
+; RV32ZBA-NEXT:    add a2, a2, a6
+; RV32ZBA-NEXT:    sltu a3, a5, a3
+; RV32ZBA-NEXT:    add a0, a0, a3
+; RV32ZBA-NEXT:    srai a3, a2, 31
+; RV32ZBA-NEXT:    srai a6, a0, 31
 ; RV32ZBA-NEXT:    add a3, a3, a6
+; RV32ZBA-NEXT:    neg a6, a1
+; RV32ZBA-NEXT:    mulh a4, a1, a4
+; RV32ZBA-NEXT:    srai a5, a5, 31
+; RV32ZBA-NEXT:    add a0, a2, a0
+; RV32ZBA-NEXT:    sltu a2, a0, a2
+; RV32ZBA-NEXT:    sub a0, a0, a1
 ; RV32ZBA-NEXT:    add a2, a3, a2
+; RV32ZBA-NEXT:    sltu a1, a0, a6
+; RV32ZBA-NEXT:    add a2, a4, a2
 ; RV32ZBA-NEXT:    add a1, a2, a1
-; RV32ZBA-NEXT:    xor a1, a1, a0
-; RV32ZBA-NEXT:    xor a0, a5, a0
+; RV32ZBA-NEXT:    xor a1, a1, a5
+; RV32ZBA-NEXT:    xor a0, a0, a5
 ; RV32ZBA-NEXT:    or a0, a0, a1
 ; RV32ZBA-NEXT:    beqz a0, .LBB62_2
 ; RV32ZBA-NEXT:  # %bb.1: # %overflow
@@ -5215,40 +4929,31 @@ define zeroext i1 @smulo2.br.i64(i64 %v1) {
 ; RV32ZICOND-NEXT:    li a2, -13
 ; RV32ZICOND-NEXT:    neg a3, a0
 ; RV32ZICOND-NEXT:    li a4, -1
-; RV32ZICOND-NEXT:    srai a5, a1, 31
-; RV32ZICOND-NEXT:    neg a6, a1
-; RV32ZICOND-NEXT:    add a7, a0, a1
-; RV32ZICOND-NEXT:    mulhu t0, a0, a2
-; RV32ZICOND-NEXT:    mul t1, a1, a2
-; RV32ZICOND-NEXT:    mulhu t2, a1, a2
-; RV32ZICOND-NEXT:    mulhu t3, a0, a4
-; RV32ZICOND-NEXT:    mul t4, a5, a2
-; RV32ZICOND-NEXT:    mulhu a4, a1, a4
-; RV32ZICOND-NEXT:    mulh a2, a5, a2
-; RV32ZICOND-NEXT:    add t0, t1, t0
-; RV32ZICOND-NEXT:    sub a5, t4, a0
-; RV32ZICOND-NEXT:    sub a7, t3, a7
-; RV32ZICOND-NEXT:    sltu t1, t0, t1
-; RV32ZICOND-NEXT:    sub a0, t0, a0
-; RV32ZICOND-NEXT:    sltu t0, a5, a3
-; RV32ZICOND-NEXT:    add a2, a7, a2
-; RV32ZICOND-NEXT:    add t1, t2, t1
-; RV32ZICOND-NEXT:    sltu a3, a0, a3
-; RV32ZICOND-NEXT:    add a2, a2, t0
-; RV32ZICOND-NEXT:    srai a0, a0, 31
-; RV32ZICOND-NEXT:    add a3, t3, a3
-; RV32ZICOND-NEXT:    add a3, t1, a3
-; RV32ZICOND-NEXT:    sub a1, a3, a1
-; RV32ZICOND-NEXT:    sltu a3, a3, t1
-; RV32ZICOND-NEXT:    add a5, a1, a5
-; RV32ZICOND-NEXT:    sltu a6, a1, a6
-; RV32ZICOND-NEXT:    add a3, a4, a3
-; RV32ZICOND-NEXT:    sltu a1, a5, a1
+; RV32ZICOND-NEXT:    mulhu a5, a0, a2
+; RV32ZICOND-NEXT:    mul a6, a1, a2
+; RV32ZICOND-NEXT:    mulhsu a2, a1, a2
+; RV32ZICOND-NEXT:    add a5, a6, a5
+; RV32ZICOND-NEXT:    sltu a6, a5, a6
+; RV32ZICOND-NEXT:    sub a5, a5, a0
+; RV32ZICOND-NEXT:    mulhsu a0, a4, a0
+; RV32ZICOND-NEXT:    add a2, a2, a6
+; RV32ZICOND-NEXT:    sltu a3, a5, a3
+; RV32ZICOND-NEXT:    add a0, a0, a3
+; RV32ZICOND-NEXT:    srai a3, a2, 31
+; RV32ZICOND-NEXT:    srai a6, a0, 31
 ; RV32ZICOND-NEXT:    add a3, a3, a6
+; RV32ZICOND-NEXT:    neg a6, a1
+; RV32ZICOND-NEXT:    mulh a4, a1, a4
+; RV32ZICOND-NEXT:    srai a5, a5, 31
+; RV32ZICOND-NEXT:    add a0, a2, a0
+; RV32ZICOND-NEXT:    sltu a2, a0, a2
+; RV32ZICOND-NEXT:    sub a0, a0, a1
 ; RV32ZICOND-NEXT:    add a2, a3, a2
+; RV32ZICOND-NEXT:    sltu a1, a0, a6
+; RV32ZICOND-NEXT:    add a2, a4, a2
 ; RV32ZICOND-NEXT:    add a1, a2, a1
-; RV32ZICOND-NEXT:    xor a1, a1, a0
-; RV32ZICOND-NEXT:    xor a0, a5, a0
+; RV32ZICOND-NEXT:    xor a1, a1, a5
+; RV32ZICOND-NEXT:    xor a0, a0, a5
 ; RV32ZICOND-NEXT:    or a0, a0, a1
 ; RV32ZICOND-NEXT:    beqz a0, .LBB62_2
 ; RV32ZICOND-NEXT:  # %bb.1: # %overflow
diff --git a/llvm/test/CodeGen/RISCV/zdinx-asm-constraint.ll b/llvm/test/CodeGen/RISCV/zdinx-asm-constraint.ll
index 81a8a8065e6b6..b7d7d4c0945b6 100644
--- a/llvm/test/CodeGen/RISCV/zdinx-asm-constraint.ll
+++ b/llvm/test/CodeGen/RISCV/zdinx-asm-constraint.ll
@@ -82,6 +82,24 @@ entry:
   ret void
 }
 
+define dso_local void @zdinx_asm_cR_inout(ptr nocapture noundef writeonly %a, double noundef %b) nounwind {
+; CHECK-LABEL: zdinx_asm_cR_inout:
+; CHECK:       # %bb.0: # %entry
+; CHECK-NEXT:    mv a3, a2
+; CHECK-NEXT:    mv a2, a1
+; CHECK-NEXT:    #APP
+; CHECK-NEXT:    fabs.d a2, a2
+; CHECK-NEXT:    #NO_APP
+; CHECK-NEXT:    sw a2, 8(a0)
+; CHECK-NEXT:    sw a3, 12(a0)
+; CHECK-NEXT:    ret
+entry:
+  %arrayidx = getelementptr inbounds double, ptr %a, i32 1
+  %0 = tail call double asm "fsgnjx.d $0, $1, $1", "=^cR,0"(double %b)
+  store double %0, ptr %arrayidx, align 8
+  ret void
+}
+
 define dso_local void @zfinx_asm(ptr nocapture noundef writeonly %a, float noundef %b, float noundef %c) nounwind {
 ; CHECK-LABEL: zfinx_asm:
 ; CHECK:       # %bb.0: # %entry
@@ -167,3 +185,29 @@ entry:
   store half %0, ptr %arrayidx, align 8
   ret void
 }
+
+define dso_local void @zdinx_asm_cR(ptr nocapture noundef writeonly %a, double noundef %b, double noundef %c) nounwind {
+; CHECK-LABEL: zdinx_asm_cR:
+; CHECK:       # %bb.0: # %entry
+; CHECK-NEXT:    addi sp, sp, -16
+; CHECK-NEXT:    sw s0, 12(sp) # 4-byte Folded Spill
+; CHECK-NEXT:    sw s1, 8(sp) # 4-byte Folded Spill
+; CHECK-NEXT:    mv a5, a4
+; CHECK-NEXT:    mv s1, a2
+; CHECK-NEXT:    mv a4, a3
+; CHECK-NEXT:    mv s0, a1
+; CHECK-NEXT:    #APP
+; CHECK-NEXT:    fsgnjx.d a2, s0, a4
+; CHECK-NEXT:    #NO_APP
+; CHECK-NEXT:    sw a2, 8(a0)
+; CHECK-NEXT:    sw a3, 12(a0)
+; CHECK-NEXT:    lw s0, 12(sp) # 4-byte Folded Reload
+; CHECK-NEXT:    lw s1, 8(sp) # 4-byte Folded Reload
+; CHECK-NEXT:    addi sp, sp, 16
+; CHECK-NEXT:    ret
+entry:
+  %arrayidx = getelementptr inbounds double, ptr %a, i32 1
+  %0 = tail call double asm "fsgnjx.d $0, $1, $2", "=^cR,^cR,^cR"(double %b, double %c)
+  store double %0, ptr %arrayidx, align 8
+  ret void
+}
diff --git a/llvm/test/CodeGen/SPARC/smulo-128-legalisation-lowering.ll b/llvm/test/CodeGen/SPARC/smulo-128-legalisation-lowering.ll
index 4d6f99abc02dc..07e4c408a3ff0 100644
--- a/llvm/test/CodeGen/SPARC/smulo-128-legalisation-lowering.ll
+++ b/llvm/test/CodeGen/SPARC/smulo-128-legalisation-lowering.ll
@@ -6,154 +6,130 @@ define { i128, i8 } @muloti_test(i128 %l, i128 %r) nounwind {
 ; SPARC-LABEL: muloti_test:
 ; SPARC:       ! %bb.0: ! %start
 ; SPARC-NEXT:    save %sp, -96, %sp
-; SPARC-NEXT:    ld [%fp+96], %l1
-; SPARC-NEXT:    mov %i3, %g4
-; SPARC-NEXT:    mov %i2, %g2
-; SPARC-NEXT:    umul %i3, %l1, %i3
+; SPARC-NEXT:    ld [%fp+96], %l2
+; SPARC-NEXT:    mov %i3, %g2
+; SPARC-NEXT:    mov %i2, %g3
+; SPARC-NEXT:    umul %i1, %l2, %l0
 ; SPARC-NEXT:    rd %y, %i2
-; SPARC-NEXT:    ld [%fp+92], %l2
-; SPARC-NEXT:    umul %g2, %l1, %g3
-; SPARC-NEXT:    rd %y, %l0
-; SPARC-NEXT:    addcc %g3, %i2, %i2
-; SPARC-NEXT:    addxcc %l0, 0, %g3
-; SPARC-NEXT:    umul %g4, %l2, %l0
+; SPARC-NEXT:    ld [%fp+92], %l1
+; SPARC-NEXT:    umul %i0, %l2, %i3
+; SPARC-NEXT:    rd %y, %g4
+; SPARC-NEXT:    addcc %i3, %i2, %i2
+; SPARC-NEXT:    addxcc %g4, 0, %i3
+; SPARC-NEXT:    umul %i1, %l1, %g4
 ; SPARC-NEXT:    rd %y, %l3
-; SPARC-NEXT:    addcc %l0, %i2, %i2
-; SPARC-NEXT:    addxcc %l3, 0, %l0
-; SPARC-NEXT:    addcc %g3, %l0, %g3
-; SPARC-NEXT:    addxcc %g0, 0, %l0
-; SPARC-NEXT:    umul %g2, %l2, %l3
-; SPARC-NEXT:    rd %y, %l4
-; SPARC-NEXT:    addcc %l3, %g3, %g3
-; SPARC-NEXT:    umul %i1, %l1, %l3
+; SPARC-NEXT:    addcc %g4, %i2, %l4
+; SPARC-NEXT:    addxcc %l3, 0, %i2
+; SPARC-NEXT:    addcc %i3, %i2, %i2
+; SPARC-NEXT:    addxcc %g0, 0, %i3
+; SPARC-NEXT:    umul %i0, %l1, %g4
+; SPARC-NEXT:    rd %y, %l3
+; SPARC-NEXT:    addcc %g4, %i2, %i2
+; SPARC-NEXT:    sra %i0, 31, %g4
+; SPARC-NEXT:    smul %l1, %g4, %l5
+; SPARC-NEXT:    umul %l2, %g4, %l6
+; SPARC-NEXT:    rd %y, %l7
+; SPARC-NEXT:    addxcc %l3, %i3, %l3
+; SPARC-NEXT:    add %l7, %l6, %i3
+; SPARC-NEXT:    add %i3, %l5, %l5
+; SPARC-NEXT:    addcc %i2, %l6, %l6
+; SPARC-NEXT:    umul %g2, %l2, %i3
+; SPARC-NEXT:    rd %y, %i2
+; SPARC-NEXT:    addxcc %l3, %l5, %l3
+; SPARC-NEXT:    umul %g3, %l2, %l2
 ; SPARC-NEXT:    rd %y, %l5
-; SPARC-NEXT:    addxcc %l4, %l0, %l0
-; SPARC-NEXT:    umul %i0, %l1, %l4
-; SPARC-NEXT:    rd %y, %l6
-; SPARC-NEXT:    addcc %l4, %l5, %l4
-; SPARC-NEXT:    addxcc %l6, 0, %l5
-; SPARC-NEXT:    umul %i1, %l2, %l6
+; SPARC-NEXT:    addcc %l2, %i2, %i2
+; SPARC-NEXT:    addxcc %l5, 0, %l2
+; SPARC-NEXT:    umul %g2, %l1, %l5
 ; SPARC-NEXT:    rd %y, %l7
-; SPARC-NEXT:    addcc %l6, %l4, %l4
-; SPARC-NEXT:    addxcc %l7, 0, %l6
-; SPARC-NEXT:    addcc %l5, %l6, %l5
-; SPARC-NEXT:    addxcc %g0, 0, %l6
-; SPARC-NEXT:    umul %i0, %l2, %l7
-; SPARC-NEXT:    rd %y, %o0
-; SPARC-NEXT:    addcc %l7, %l5, %l5
-; SPARC-NEXT:    addxcc %o0, %l6, %l6
-; SPARC-NEXT:    addcc %l3, %g3, %g3
-; SPARC-NEXT:    addxcc %l4, %l0, %l0
-; SPARC-NEXT:    addxcc %l5, 0, %l3
-; SPARC-NEXT:    umul %g4, %i5, %l4
+; SPARC-NEXT:    addcc %l5, %i2, %i2
+; SPARC-NEXT:    addxcc %l7, 0, %l5
+; SPARC-NEXT:    addcc %l2, %l5, %l2
+; SPARC-NEXT:    addxcc %g0, 0, %l5
+; SPARC-NEXT:    umul %g3, %l1, %l1
+; SPARC-NEXT:    rd %y, %l7
+; SPARC-NEXT:    addcc %l1, %l2, %l1
+; SPARC-NEXT:    addxcc %l7, %l5, %l2
+; SPARC-NEXT:    addcc %l0, %l1, %l0
+; SPARC-NEXT:    addxcc %l4, %l2, %l1
+; SPARC-NEXT:    addxcc %l6, 0, %l2
+; SPARC-NEXT:    addxcc %l3, 0, %l3
+; SPARC-NEXT:    umul %g2, %i5, %l4
 ; SPARC-NEXT:    rd %y, %l5
-; SPARC-NEXT:    addxcc %l6, 0, %l6
-; SPARC-NEXT:    umul %g2, %i5, %l7
+; SPARC-NEXT:    sra %l3, 31, %l6
+; SPARC-NEXT:    umul %g3, %i5, %l7
 ; SPARC-NEXT:    rd %y, %o0
 ; SPARC-NEXT:    addcc %l7, %l5, %l5
 ; SPARC-NEXT:    addxcc %o0, 0, %l7
-; SPARC-NEXT:    umul %g4, %i4, %o0
+; SPARC-NEXT:    umul %g2, %i4, %o0
 ; SPARC-NEXT:    rd %y, %o1
 ; SPARC-NEXT:    addcc %o0, %l5, %l5
 ; SPARC-NEXT:    addxcc %o1, 0, %o0
 ; SPARC-NEXT:    addcc %l7, %o0, %l7
 ; SPARC-NEXT:    addxcc %g0, 0, %o0
-; SPARC-NEXT:    umul %g2, %i4, %o1
-; SPARC-NEXT:    rd %y, %o2
-; SPARC-NEXT:    addcc %o1, %l7, %l7
-; SPARC-NEXT:    addxcc %o2, %o0, %o0
-; SPARC-NEXT:    addcc %l4, %g3, %g3
-; SPARC-NEXT:    addxcc %l5, %l0, %l0
-; SPARC-NEXT:    addxcc %l7, 0, %l4
-; SPARC-NEXT:    addxcc %o0, 0, %l5
-; SPARC-NEXT:    addcc %l3, %l4, %l3
-; SPARC-NEXT:    addxcc %l6, %l5, %l4
-; SPARC-NEXT:    addxcc %g0, 0, %l5
-; SPARC-NEXT:    umul %i1, %i5, %l6
-; SPARC-NEXT:    rd %y, %l7
-; SPARC-NEXT:    addxcc %g0, 0, %o0
-; SPARC-NEXT:    umul %i0, %i5, %o1
+; SPARC-NEXT:    umul %g3, %i4, %o1
 ; SPARC-NEXT:    rd %y, %o2
 ; SPARC-NEXT:    addcc %o1, %l7, %l7
-; SPARC-NEXT:    addxcc %o2, 0, %o1
-; SPARC-NEXT:    umul %i1, %i4, %o2
-; SPARC-NEXT:    rd %y, %o3
-; SPARC-NEXT:    addcc %o2, %l7, %l7
-; SPARC-NEXT:    addxcc %o3, 0, %o2
-; SPARC-NEXT:    addcc %o1, %o2, %o1
-; SPARC-NEXT:    addxcc %g0, 0, %o2
-; SPARC-NEXT:    umul %i0, %i4, %o3
-; SPARC-NEXT:    rd %y, %o4
-; SPARC-NEXT:    addcc %o3, %o1, %o1
-; SPARC-NEXT:    addxcc %o4, %o2, %o2
-; SPARC-NEXT:    addcc %l6, %l3, %l3
-; SPARC-NEXT:    addxcc %l7, %l4, %l4
-; SPARC-NEXT:    addxcc %o1, %l5, %l5
-; SPARC-NEXT:    sra %i0, 31, %l6
-; SPARC-NEXT:    smul %l6, %i4, %l7
-; SPARC-NEXT:    umul %l6, %i5, %o1
+; SPARC-NEXT:    sra %i4, 31, %o1
+; SPARC-NEXT:    smul %o1, %g3, %g3
+; SPARC-NEXT:    umul %o1, %g2, %g2
 ; SPARC-NEXT:    rd %y, %o3
-; SPARC-NEXT:    addxcc %o2, %o0, %i5
-; SPARC-NEXT:    umul %l2, %l6, %l2
-; SPARC-NEXT:    rd %y, %o0
-; SPARC-NEXT:    add %o3, %l7, %l7
-; SPARC-NEXT:    umul %l1, %l6, %l1
-; SPARC-NEXT:    rd %y, %l6
-; SPARC-NEXT:    add %l7, %o1, %l7
-; SPARC-NEXT:    add %l6, %l2, %o2
-; SPARC-NEXT:    add %o2, %l1, %o2
-; SPARC-NEXT:    addcc %l1, %o1, %o1
-; SPARC-NEXT:    addxcc %o2, %l7, %l7
-; SPARC-NEXT:    addcc %l2, %l6, %o2
-; SPARC-NEXT:    addxcc %o0, 0, %o3
-; SPARC-NEXT:    addcc %l1, %o2, %o2
-; SPARC-NEXT:    addxcc %l6, 0, %l6
-; SPARC-NEXT:    addcc %o3, %l6, %l6
-; SPARC-NEXT:    addxcc %g0, 0, %o3
-; SPARC-NEXT:    addcc %l2, %l6, %l2
-; SPARC-NEXT:    addxcc %o0, %o3, %l6
-; SPARC-NEXT:    addcc %l2, %o1, %l2
-; SPARC-NEXT:    sra %i4, 31, %i4
-; SPARC-NEXT:    umul %i4, %g4, %g4
+; SPARC-NEXT:    addxcc %o2, %o0, %o0
+; SPARC-NEXT:    add %o3, %g3, %g3
+; SPARC-NEXT:    add %g3, %g2, %g3
+; SPARC-NEXT:    addcc %l7, %g2, %l7
+; SPARC-NEXT:    addxcc %o0, %g3, %o0
+; SPARC-NEXT:    addcc %l4, %l0, %g2
+; SPARC-NEXT:    addxcc %l5, %l1, %g3
+; SPARC-NEXT:    addxcc %l7, 0, %l0
+; SPARC-NEXT:    addxcc %o0, 0, %l1
+; SPARC-NEXT:    sra %l1, 31, %l4
+; SPARC-NEXT:    addcc %l2, %l0, %l0
+; SPARC-NEXT:    addxcc %l3, %l1, %l1
+; SPARC-NEXT:    addxcc %l6, %l4, %l2
+; SPARC-NEXT:    smul %i4, %g4, %l3
+; SPARC-NEXT:    umul %i5, %g4, %g4
+; SPARC-NEXT:    rd %y, %l5
+; SPARC-NEXT:    addxcc %l6, %l4, %l4
+; SPARC-NEXT:    add %l5, %g4, %l5
+; SPARC-NEXT:    smul %o1, %i0, %l6
+; SPARC-NEXT:    umul %o1, %i1, %l7
 ; SPARC-NEXT:    rd %y, %o0
-; SPARC-NEXT:    addxcc %l6, %l7, %l6
-; SPARC-NEXT:    umul %i4, %g2, %g2
+; SPARC-NEXT:    add %l5, %l3, %l3
+; SPARC-NEXT:    add %o0, %l6, %l5
+; SPARC-NEXT:    add %l5, %l7, %l5
+; SPARC-NEXT:    addcc %l7, %g4, %g4
+; SPARC-NEXT:    umul %i1, %i5, %l6
 ; SPARC-NEXT:    rd %y, %l7
-; SPARC-NEXT:    add %o0, %g4, %o1
-; SPARC-NEXT:    smul %i0, %i4, %i0
+; SPARC-NEXT:    addxcc %l5, %l3, %l3
+; SPARC-NEXT:    umul %i0, %i5, %i5
+; SPARC-NEXT:    rd %y, %l5
+; SPARC-NEXT:    addcc %i5, %l7, %i5
+; SPARC-NEXT:    addxcc %l5, 0, %l5
 ; SPARC-NEXT:    umul %i1, %i4, %i1
+; SPARC-NEXT:    rd %y, %l7
+; SPARC-NEXT:    addcc %i1, %i5, %i1
+; SPARC-NEXT:    addxcc %l7, 0, %i5
+; SPARC-NEXT:    addcc %l5, %i5, %i5
+; SPARC-NEXT:    addxcc %g0, 0, %l5
+; SPARC-NEXT:    umul %i0, %i4, %i0
 ; SPARC-NEXT:    rd %y, %i4
-; SPARC-NEXT:    add %o1, %g2, %o1
-; SPARC-NEXT:    add %i4, %i1, %i4
-; SPARC-NEXT:    add %i4, %i0, %i0
-; SPARC-NEXT:    addcc %i1, %g4, %i1
-; SPARC-NEXT:    addxcc %i0, %o1, %i0
-; SPARC-NEXT:    addcc %g4, %o0, %i4
-; SPARC-NEXT:    addxcc %o0, 0, %o0
-; SPARC-NEXT:    addcc %g2, %i4, %i4
-; SPARC-NEXT:    addxcc %l7, 0, %o1
-; SPARC-NEXT:    addcc %o0, %o1, %o0
-; SPARC-NEXT:    addxcc %g0, 0, %o1
-; SPARC-NEXT:    addcc %g2, %o0, %g2
-; SPARC-NEXT:    addxcc %l7, %o1, %l7
-; SPARC-NEXT:    addcc %g2, %i1, %i1
-; SPARC-NEXT:    addxcc %l7, %i0, %i0
-; SPARC-NEXT:    addcc %g4, %l1, %g2
-; SPARC-NEXT:    addxcc %i4, %o2, %i4
-; SPARC-NEXT:    addxcc %i1, %l2, %i1
-; SPARC-NEXT:    addxcc %i0, %l6, %i0
-; SPARC-NEXT:    addcc %l3, %g2, %g2
-; SPARC-NEXT:    addxcc %l4, %i4, %i4
-; SPARC-NEXT:    addxcc %l5, %i1, %i1
-; SPARC-NEXT:    addxcc %i5, %i0, %i0
-; SPARC-NEXT:    sra %l0, 31, %i5
-; SPARC-NEXT:    xor %i0, %i5, %i0
-; SPARC-NEXT:    xor %i4, %i5, %i4
+; SPARC-NEXT:    addcc %i0, %i5, %i0
+; SPARC-NEXT:    addxcc %i4, %l5, %i4
+; SPARC-NEXT:    addcc %i0, %g4, %i0
+; SPARC-NEXT:    addxcc %i4, %l3, %i4
+; SPARC-NEXT:    addcc %l6, %l0, %i5
+; SPARC-NEXT:    addxcc %i1, %l1, %i1
+; SPARC-NEXT:    addxcc %i0, %l2, %i0
+; SPARC-NEXT:    addxcc %i4, %l4, %i4
+; SPARC-NEXT:    sra %g3, 31, %g4
+; SPARC-NEXT:    xor %i4, %g4, %i4
+; SPARC-NEXT:    xor %i1, %g4, %i1
+; SPARC-NEXT:    or %i1, %i4, %i1
+; SPARC-NEXT:    xor %i0, %g4, %i0
+; SPARC-NEXT:    xor %i5, %g4, %i4
 ; SPARC-NEXT:    or %i4, %i0, %i0
-; SPARC-NEXT:    xor %i1, %i5, %i1
-; SPARC-NEXT:    xor %g2, %i5, %i4
-; SPARC-NEXT:    or %i4, %i1, %i1
-; SPARC-NEXT:    or %i1, %i0, %i0
+; SPARC-NEXT:    or %i0, %i1, %i0
 ; SPARC-NEXT:    cmp %i0, 0
 ; SPARC-NEXT:    bne .LBB0_2
 ; SPARC-NEXT:    nop
@@ -163,98 +139,78 @@ define { i128, i8 } @muloti_test(i128 %l, i128 %r) nounwind {
 ; SPARC-NEXT:  .LBB0_2:
 ; SPARC-NEXT:    mov 1, %i4
 ; SPARC-NEXT:  .LBB0_3: ! %start
-; SPARC-NEXT:    mov %l0, %i0
+; SPARC-NEXT:    mov %g3, %i0
 ; SPARC-NEXT:    ret
-; SPARC-NEXT:    restore %g0, %g3, %o1
+; SPARC-NEXT:    restore %g0, %g2, %o1
 ;
 ; SPARC64-LABEL: muloti_test:
 ; SPARC64:         .register %g2, #scratch
 ; SPARC64-NEXT:    .register %g3, #scratch
 ; SPARC64-NEXT:  ! %bb.0: ! %start
 ; SPARC64-NEXT:    save %sp, -176, %sp
-; SPARC64-NEXT:    mov %i3, %i5
-; SPARC64-NEXT:    mov %i2, %i3
-; SPARC64-NEXT:    mov %i1, %i2
-; SPARC64-NEXT:    mov %i0, %i4
-; SPARC64-NEXT:    mov %g0, %o0
-; SPARC64-NEXT:    mov %i1, %o1
+; SPARC64-NEXT:    mov %i3, %i4
+; SPARC64-NEXT:    mov %i1, %i5
+; SPARC64-NEXT:    mov %i0, %l2
+; SPARC64-NEXT:    srax %i0, 63, %i3
+; SPARC64-NEXT:    mov %i3, %o0
+; SPARC64-NEXT:    mov %i0, %o1
 ; SPARC64-NEXT:    mov %g0, %o2
 ; SPARC64-NEXT:    call __multi3
-; SPARC64-NEXT:    mov %i5, %o3
-; SPARC64-NEXT:    mov %o0, %i0
-; SPARC64-NEXT:    mov %o1, %i1
+; SPARC64-NEXT:    mov %i4, %o3
+; SPARC64-NEXT:    mov %o0, %l0
+; SPARC64-NEXT:    mov %o1, %l1
 ; SPARC64-NEXT:    mov %g0, %o0
-; SPARC64-NEXT:    mov %i4, %o1
+; SPARC64-NEXT:    mov %i1, %o1
 ; SPARC64-NEXT:    mov %g0, %o2
 ; SPARC64-NEXT:    call __multi3
-; SPARC64-NEXT:    mov %i5, %o3
-; SPARC64-NEXT:    mov %g0, %g2
-; SPARC64-NEXT:    add %o1, %i0, %i0
-; SPARC64-NEXT:    cmp %i0, %o1
-; SPARC64-NEXT:    movcs %xcc, 1, %g2
-; SPARC64-NEXT:    srl %g2, 0, %g2
-; SPARC64-NEXT:    add %o0, %g2, %l0
+; SPARC64-NEXT:    mov %i4, %o3
+; SPARC64-NEXT:    mov %o1, %i1
+; SPARC64-NEXT:    mov %g0, %i0
+; SPARC64-NEXT:    add %l1, %o0, %l3
+; SPARC64-NEXT:    cmp %l3, %l1
+; SPARC64-NEXT:    movcs %xcc, 1, %i0
+; SPARC64-NEXT:    srl %i0, 0, %i0
+; SPARC64-NEXT:    add %l0, %i0, %l0
+; SPARC64-NEXT:    srax %l0, 63, %l1
+; SPARC64-NEXT:    srax %i2, 63, %i4
 ; SPARC64-NEXT:    mov %g0, %o0
-; SPARC64-NEXT:    mov %i2, %o1
-; SPARC64-NEXT:    mov %g0, %o2
+; SPARC64-NEXT:    mov %i5, %o1
+; SPARC64-NEXT:    mov %i4, %o2
 ; SPARC64-NEXT:    call __multi3
-; SPARC64-NEXT:    mov %i3, %o3
+; SPARC64-NEXT:    mov %i2, %o3
+; SPARC64-NEXT:    mov %g0, %i5
 ; SPARC64-NEXT:    mov %g0, %g2
-; SPARC64-NEXT:    mov %g0, %g3
-; SPARC64-NEXT:    add %o1, %i0, %i0
+; SPARC64-NEXT:    add %o1, %l3, %i0
 ; SPARC64-NEXT:    cmp %i0, %o1
+; SPARC64-NEXT:    movcs %xcc, 1, %i5
+; SPARC64-NEXT:    srl %i5, 0, %i5
+; SPARC64-NEXT:    add %o0, %i5, %i5
+; SPARC64-NEXT:    srax %i5, 63, %g3
+; SPARC64-NEXT:    add %l1, %g3, %g3
+; SPARC64-NEXT:    add %l0, %i5, %i5
+; SPARC64-NEXT:    cmp %i5, %l0
 ; SPARC64-NEXT:    movcs %xcc, 1, %g2
 ; SPARC64-NEXT:    srl %g2, 0, %g2
-; SPARC64-NEXT:    add %o0, %g2, %g2
-; SPARC64-NEXT:    add %l0, %g2, %l1
-; SPARC64-NEXT:    cmp %l1, %l0
-; SPARC64-NEXT:    movcs %xcc, 1, %g3
-; SPARC64-NEXT:    srl %g3, 0, %l0
-; SPARC64-NEXT:    mov %g0, %o0
-; SPARC64-NEXT:    mov %i4, %o1
-; SPARC64-NEXT:    mov %g0, %o2
-; SPARC64-NEXT:    call __multi3
-; SPARC64-NEXT:    mov %i3, %o3
-; SPARC64-NEXT:    mov %g0, %g2
-; SPARC64-NEXT:    add %o0, %l0, %g3
-; SPARC64-NEXT:    add %o1, %l1, %l1
-; SPARC64-NEXT:    cmp %l1, %o1
-; SPARC64-NEXT:    movcs %xcc, 1, %g2
-; SPARC64-NEXT:    srl %g2, 0, %g2
-; SPARC64-NEXT:    add %g3, %g2, %l2
-; SPARC64-NEXT:    srax %i4, 63, %o2
+; SPARC64-NEXT:    add %g3, %g2, %l0
 ; SPARC64-NEXT:    mov %i3, %o0
-; SPARC64-NEXT:    mov %i5, %o1
-; SPARC64-NEXT:    call __multi3
-; SPARC64-NEXT:    mov %o2, %o3
-; SPARC64-NEXT:    mov %o0, %i5
-; SPARC64-NEXT:    mov %o1, %l0
-; SPARC64-NEXT:    srax %i3, 63, %o0
-; SPARC64-NEXT:    mov %o0, %o1
+; SPARC64-NEXT:    mov %l2, %o1
 ; SPARC64-NEXT:    mov %i4, %o2
 ; SPARC64-NEXT:    call __multi3
 ; SPARC64-NEXT:    mov %i2, %o3
 ; SPARC64-NEXT:    mov %g0, %i2
 ; SPARC64-NEXT:    mov %g0, %i3
-; SPARC64-NEXT:    mov %g0, %i4
-; SPARC64-NEXT:    add %o0, %i5, %i5
-; SPARC64-NEXT:    add %o1, %l0, %g2
-; SPARC64-NEXT:    cmp %g2, %o1
+; SPARC64-NEXT:    add %o0, %l0, %i4
+; SPARC64-NEXT:    add %o1, %i5, %i5
+; SPARC64-NEXT:    cmp %i5, %o1
 ; SPARC64-NEXT:    movcs %xcc, 1, %i2
 ; SPARC64-NEXT:    srl %i2, 0, %i2
-; SPARC64-NEXT:    add %i5, %i2, %i2
-; SPARC64-NEXT:    add %l2, %i2, %i2
-; SPARC64-NEXT:    add %l1, %g2, %i5
-; SPARC64-NEXT:    cmp %i5, %l1
-; SPARC64-NEXT:    movcs %xcc, 1, %i3
-; SPARC64-NEXT:    srl %i3, 0, %i3
-; SPARC64-NEXT:    add %i2, %i3, %i2
-; SPARC64-NEXT:    srax %i0, 63, %i3
-; SPARC64-NEXT:    xor %i2, %i3, %i2
-; SPARC64-NEXT:    xor %i5, %i3, %i3
-; SPARC64-NEXT:    or %i3, %i2, %i2
-; SPARC64-NEXT:    movrnz %i2, 1, %i4
-; SPARC64-NEXT:    srl %i4, 0, %i2
+; SPARC64-NEXT:    add %i4, %i2, %i2
+; SPARC64-NEXT:    srax %i0, 63, %i4
+; SPARC64-NEXT:    xor %i2, %i4, %i2
+; SPARC64-NEXT:    xor %i5, %i4, %i4
+; SPARC64-NEXT:    or %i4, %i2, %i2
+; SPARC64-NEXT:    movrnz %i2, 1, %i3
+; SPARC64-NEXT:    srl %i3, 0, %i2
 ; SPARC64-NEXT:    ret
 ; SPARC64-NEXT:    restore
 start:
diff --git a/llvm/test/CodeGen/SystemZ/machinelicm-sunk-kill-flags.mir b/llvm/test/CodeGen/SystemZ/machinelicm-sunk-kill-flags.mir
index 43c286a830b42..f23afe52f97de 100644
--- a/llvm/test/CodeGen/SystemZ/machinelicm-sunk-kill-flags.mir
+++ b/llvm/test/CodeGen/SystemZ/machinelicm-sunk-kill-flags.mir
@@ -25,23 +25,24 @@ body:             |
   ; CHECK-NEXT:   successors: %bb.1(0x80000000)
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT:   [[LARL:%[0-9]+]]:addr64bit = LARL @b
+  ; CHECK-NEXT:   [[LA:%[0-9]+]]:gr64bit = LA killed [[LARL]], 49, $noreg
+  ; CHECK-NEXT:   [[LGHI:%[0-9]+]]:gr64bit = LGHI 7
+  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:gr64bit = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[DEF1:%[0-9]+]]:gr64bit = IMPLICIT_DEF
   ; CHECK-NEXT: {{  $}}
   ; CHECK-NEXT: bb.1:
   ; CHECK-NEXT:   successors: %bb.1(0x80000000)
   ; CHECK-NEXT: {{  $}}
-  ; CHECK-NEXT:   [[LA:%[0-9]+]]:gr64bit = LA [[LARL]], 49, $noreg
-  ; CHECK-NEXT:   [[LGHI:%[0-9]+]]:gr64bit = LGHI 7
-  ; CHECK-NEXT:   [[DEF:%[0-9]+]]:gr64bit = IMPLICIT_DEF
-  ; CHECK-NEXT:   [[DEF1:%[0-9]+]]:gr64bit = IMPLICIT_DEF
+  ; CHECK-NEXT:   [[COPY:%[0-9]+]]:gr64bit = COPY [[LA]]
   ; CHECK-NEXT:   ADJCALLSTACKDOWN 0, 0
   ; CHECK-NEXT:   $r2d = COPY [[DEF]]
-  ; CHECK-NEXT:   $r3d = COPY [[LA]]
+  ; CHECK-NEXT:   $r3d = COPY [[COPY]]
   ; CHECK-NEXT:   $r4d = COPY [[LGHI]]
   ; CHECK-NEXT:   CallBRASL &memcpy, $r2d, $r3d, $r4d, csr_systemz_elf, implicit-def dead $r14d, implicit-def dead $cc, implicit $fpc, implicit-def $r2d
   ; CHECK-NEXT:   ADJCALLSTACKUP 0, 0
   ; CHECK-NEXT:   ADJCALLSTACKDOWN 0, 0
   ; CHECK-NEXT:   $r2d = COPY [[DEF1]]
-  ; CHECK-NEXT:   $r3d = COPY [[LA]]
+  ; CHECK-NEXT:   $r3d = COPY [[COPY]]
   ; CHECK-NEXT:   $r4d = COPY [[LGHI]]
   ; CHECK-NEXT:   CallBRASL &memcpy, $r2d, $r3d, $r4d, csr_systemz_elf, implicit-def dead $r14d, implicit-def dead $cc, implicit $fpc, implicit-def $r2d
   ; CHECK-NEXT:   ADJCALLSTACKUP 0, 0
@@ -54,19 +55,20 @@ body:             |
     %2:gr64bit = LGHI 7
     %3:gr64bit = IMPLICIT_DEF
     %5:gr64bit = IMPLICIT_DEF
+    %6:gr64bit = COPY killed %0
 
   bb.1:
     successors: %bb.1(0x80000000)
 
     ADJCALLSTACKDOWN 0, 0
     $r2d = COPY %3
-    $r3d = COPY %0
+    $r3d = COPY %6
     $r4d = COPY %2
     CallBRASL &memcpy, $r2d, $r3d, $r4d, csr_systemz_elf, implicit-def dead $r14d, implicit-def dead $cc, implicit $fpc, implicit-def $r2d
     ADJCALLSTACKUP 0, 0
     ADJCALLSTACKDOWN 0, 0
     $r2d = COPY %5
-    $r3d = COPY %0
+    $r3d = COPY %6
     $r4d = COPY %2
     CallBRASL &memcpy, $r2d, $r3d, $r4d, csr_systemz_elf, implicit-def dead $r14d, implicit-def dead $cc, implicit $fpc, implicit-def $r2d
     ADJCALLSTACKUP 0, 0
diff --git a/llvm/test/CodeGen/SystemZ/pr124001.ll b/llvm/test/CodeGen/SystemZ/pr124001.ll
new file mode 100644
index 0000000000000..9cf630a55dd65
--- /dev/null
+++ b/llvm/test/CodeGen/SystemZ/pr124001.ll
@@ -0,0 +1,23 @@
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
+; RUN: llc < %s -mtriple=s390x-linux-gnu -mcpu=z13 | FileCheck %s
+
+define i64 @test(i128 %in) {
+; CHECK-LABEL: test:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    larl %r1, .LCPI0_0
+; CHECK-NEXT:    vl %v0, 0(%r2), 3
+; CHECK-NEXT:    vl %v1, 0(%r1), 3
+; CHECK-NEXT:    vaccq %v0, %v0, %v1
+; CHECK-NEXT:    vlgvg %r1, %v0, 1
+; CHECK-NEXT:    la %r2, 1(%r1)
+; CHECK-NEXT:    br %r14
+  %1 = tail call { i128, i1 } @llvm.uadd.with.overflow.i128(i128 %in, i128 1)
+  %2 = extractvalue { i128, i1 } %1, 1
+  %3 = zext i1 %2 to i64
+  %4 = add i64 %3, 1
+  ret i64 %4
+}
+
+declare { i128, i1 } @llvm.uadd.with.overflow.i128(i128, i128) #0
+
+attributes #0 = { nocallback nofree nosync nounwind speculatable willreturn memory(none) }
diff --git a/llvm/test/CodeGen/Thumb/smul_fix.ll b/llvm/test/CodeGen/Thumb/smul_fix.ll
index 52f241802b87e..4a78f83d59ce7 100644
--- a/llvm/test/CodeGen/Thumb/smul_fix.ll
+++ b/llvm/test/CodeGen/Thumb/smul_fix.ll
@@ -27,73 +27,56 @@ define i64 @func2(i64 %x, i64 %y) {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #28
-; ARM-NEXT:    sub sp, #28
-; ARM-NEXT:    str r3, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r5, r2
-; ARM-NEXT:    str r2, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    movs r6, #0
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    str r0, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r3, r6
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r0, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    str r1, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r7
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r6
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    ldr r1, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    adcs r5, r6
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    ldr r7, [sp, #8] @ 4-byte Reload
+; ARM-NEXT:    .pad #20
+; ARM-NEXT:    sub sp, #20
+; ARM-NEXT:    str r3, [sp, #16] @ 4-byte Spill
+; ARM-NEXT:    mov r7, r2
+; ARM-NEXT:    mov r2, r1
+; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
+; ARM-NEXT:    mov r5, r0
+; ARM-NEXT:    asrs r1, r1, #31
+; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    movs r4, #0
+; ARM-NEXT:    mov r0, r2
 ; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r1
-; ARM-NEXT:    ldr r1, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    adcs r4, r5
-; ARM-NEXT:    ldr r5, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    mov r6, r1
 ; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    mov r1, r4
 ; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r4
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    ldr r0, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r1
 ; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
-; ARM-NEXT:    asrs r2, r5, #31
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r3, r2
+; ARM-NEXT:    adcs r6, r4
+; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    asrs r7, r2, #31
+; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    mov r3, r7
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    asrs r0, r7, #31
-; ARM-NEXT:    mov r1, r0
-; ARM-NEXT:    ldr r2, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r4, r1
+; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r5, r0, r1
+; ARM-NEXT:    adcs r4, r6
+; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
+; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    mov r3, r7
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r1, r0
 ; ARM-NEXT:    lsls r0, r0, #30
-; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    lsrs r1, r2, #2
+; ARM-NEXT:    lsrs r1, r5, #2
 ; ARM-NEXT:    adds r1, r0, r1
-; ARM-NEXT:    lsls r0, r2, #30
-; ARM-NEXT:    ldr r2, [sp, #24] @ 4-byte Reload
+; ARM-NEXT:    lsls r0, r5, #30
+; ARM-NEXT:    ldr r2, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    lsrs r2, r2, #2
 ; ARM-NEXT:    adds r0, r0, r2
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #20
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.smul.fix.i64(i64 %x, i64 %y, i32 2)
   ret i64 %tmp
@@ -161,60 +144,45 @@ define i64 @func7(i64 %x, i64 %y) nounwind {
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    .pad #20
 ; ARM-NEXT:    sub sp, #20
-; ARM-NEXT:    str r3, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    str r3, [sp, #16] @ 4-byte Spill
 ; ARM-NEXT:    mov r7, r2
-; ARM-NEXT:    str r2, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r6, r1
-; ARM-NEXT:    str r1, [sp] @ 4-byte Spill
-; ARM-NEXT:    movs r5, #0
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
+; ARM-NEXT:    mov r2, r1
+; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    mov r5, r0
+; ARM-NEXT:    asrs r1, r1, #31
 ; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r6
-; ARM-NEXT:    mov r1, r5
+; ARM-NEXT:    movs r4, #0
+; ARM-NEXT:    mov r0, r2
 ; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    ldr r1, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    adcs r7, r5
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    ldr r6, [sp, #4] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    mov r6, r1
+; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    mov r2, r7
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r1
-; ARM-NEXT:    ldr r1, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    adcs r4, r7
-; ARM-NEXT:    ldr r7, [sp] @ 4-byte Reload
-; ARM-NEXT:    mov r0, r7
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r5, r0, r4
-; ARM-NEXT:    asrs r2, r7, #31
-; ARM-NEXT:    ldr r0, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r3, r2
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    asrs r0, r6, #31
-; ARM-NEXT:    mov r1, r0
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    adcs r6, r4
 ; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    asrs r7, r2, #31
+; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    mov r1, r4
 ; ARM-NEXT:    mov r3, r7
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    adds r1, r5, r0
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    mov r4, r1
+; ARM-NEXT:    ldr r1, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    adds r5, r0, r1
+; ARM-NEXT:    adcs r4, r6
+; ARM-NEXT:    add r2, sp, #8
+; ARM-NEXT:    ldm r2, {r0, r1, r2} @ 12-byte Folded Reload
+; ARM-NEXT:    mov r3, r7
+; ARM-NEXT:    bl __aeabi_lmul
+; ARM-NEXT:    adds r1, r0, r4
+; ARM-NEXT:    mov r0, r5
 ; ARM-NEXT:    add sp, #20
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.smul.fix.i64(i64 %x, i64 %y, i32 32)
@@ -226,78 +194,59 @@ define i64 @func8(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #28
-; ARM-NEXT:    sub sp, #28
-; ARM-NEXT:    str r3, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r1
-; ARM-NEXT:    str r1, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    movs r5, #0
-; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r7, r2
-; ARM-NEXT:    str r2, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r1, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r1
-; ARM-NEXT:    ldr r1, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    adds r7, r0, r1
-; ARM-NEXT:    adcs r4, r5
-; ARM-NEXT:    mov r0, r6
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    ldr r6, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    .pad #20
+; ARM-NEXT:    sub sp, #20
+; ARM-NEXT:    str r3, [sp, #16] @ 4-byte Spill
+; ARM-NEXT:    mov r4, r2
+; ARM-NEXT:    mov r2, r1
+; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    mov r5, r0
+; ARM-NEXT:    asrs r1, r1, #31
+; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
+; ARM-NEXT:    movs r7, #0
+; ARM-NEXT:    mov r0, r2
+; ARM-NEXT:    mov r2, r4
+; ARM-NEXT:    mov r3, r7
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r7
-; ARM-NEXT:    str r0, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    adcs r1, r5
-; ARM-NEXT:    adds r0, r4, r1
 ; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    mov r7, r5
-; ARM-NEXT:    adcs r7, r5
-; ARM-NEXT:    ldr r4, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r6, r1
+; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    mov r1, r7
+; ARM-NEXT:    mov r2, r4
+; ARM-NEXT:    mov r3, r7
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    ldr r1, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    adcs r5, r7
-; ARM-NEXT:    asrs r2, r4, #31
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r3, r2
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    mov r7, r1
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    adcs r6, r7
 ; ARM-NEXT:    asrs r0, r6, #31
-; ARM-NEXT:    mov r1, r0
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
 ; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    ldr r3, [sp, #24] @ 4-byte Reload
+; ARM-NEXT:    asrs r4, r2, #31
+; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    mov r1, r7
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r4
+; ARM-NEXT:    ldr r2, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r5, r0, r2
+; ARM-NEXT:    adcs r1, r7
+; ARM-NEXT:    asrs r7, r1, #31
+; ARM-NEXT:    adds r6, r6, r1
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    adcs r7, r0
+; ARM-NEXT:    add r2, sp, #8
+; ARM-NEXT:    ldm r2, {r0, r1, r2} @ 12-byte Folded Reload
+; ARM-NEXT:    mov r3, r4
+; ARM-NEXT:    bl __aeabi_lmul
+; ARM-NEXT:    adds r0, r0, r6
 ; ARM-NEXT:    adcs r1, r7
-; ARM-NEXT:    ldr r2, [sp, #4] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r2, r0
-; ARM-NEXT:    adcs r1, r5
 ; ARM-NEXT:    lsls r1, r1, #1
 ; ARM-NEXT:    lsrs r2, r0, #31
 ; ARM-NEXT:    adds r1, r1, r2
 ; ARM-NEXT:    lsls r0, r0, #1
-; ARM-NEXT:    ldr r2, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    lsrs r2, r2, #31
+; ARM-NEXT:    lsrs r2, r5, #31
 ; ARM-NEXT:    adds r0, r0, r2
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #20
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.smul.fix.i64(i64 %x, i64 %y, i32 63)
   ret i64 %tmp
diff --git a/llvm/test/CodeGen/Thumb/smul_fix_sat.ll b/llvm/test/CodeGen/Thumb/smul_fix_sat.ll
index 8bc39ea0370a6..24209b45e302d 100644
--- a/llvm/test/CodeGen/Thumb/smul_fix_sat.ll
+++ b/llvm/test/CodeGen/Thumb/smul_fix_sat.ll
@@ -45,75 +45,55 @@ define i64 @func2(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #36
-; ARM-NEXT:    sub sp, #36
-; ARM-NEXT:    str r3, [sp, #28] @ 4-byte Spill
-; ARM-NEXT:    mov r6, r1
-; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    .pad #28
+; ARM-NEXT:    sub sp, #28
+; ARM-NEXT:    str r3, [sp, #24] @ 4-byte Spill
+; ARM-NEXT:    mov r6, r2
+; ARM-NEXT:    mov r2, r1
+; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
+; ARM-NEXT:    mov r7, r0
+; ARM-NEXT:    asrs r1, r1, #31
+; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
 ; ARM-NEXT:    movs r4, #0
-; ARM-NEXT:    mov r5, r0
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r7, r2
-; ARM-NEXT:    str r2, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r3, r4
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r0, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    str r1, [sp, #32] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r6
-; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r2, r7
+; ARM-NEXT:    mov r0, r2
+; ARM-NEXT:    mov r2, r6
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r6, r1
-; ARM-NEXT:    ldr r1, [sp, #32] @ 4-byte Reload
-; ARM-NEXT:    adds r7, r0, r1
-; ARM-NEXT:    adcs r6, r4
-; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
+; ARM-NEXT:    mov r5, r1
+; ARM-NEXT:    mov r0, r7
 ; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    ldr r5, [sp, #28] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r5
+; ARM-NEXT:    mov r2, r6
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r7
 ; ARM-NEXT:    str r0, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    adcs r1, r4
-; ARM-NEXT:    adds r0, r6, r1
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r6, r4
-; ARM-NEXT:    adcs r6, r4
-; ARM-NEXT:    ldr r7, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    ldr r0, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r1
+; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
+; ARM-NEXT:    adcs r5, r4
+; ARM-NEXT:    asrs r0, r5, #31
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    ldr r2, [sp, #24] @ 4-byte Reload
+; ARM-NEXT:    asrs r6, r2, #31
 ; ARM-NEXT:    mov r0, r7
 ; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    str r4, [sp, #32] @ 4-byte Spill
-; ARM-NEXT:    mov r3, r4
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    adcs r5, r6
-; ARM-NEXT:    mov r4, r7
-; ARM-NEXT:    asrs r2, r7, #31
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    ldr r7, [sp, #28] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r3, r2
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    asrs r0, r7, #31
-; ARM-NEXT:    mov r1, r0
 ; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    mov r3, r4
+; ARM-NEXT:    adds r0, r0, r2
+; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
+; ARM-NEXT:    adcs r1, r4
+; ARM-NEXT:    asrs r7, r1, #31
+; ARM-NEXT:    adds r5, r5, r1
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    adcs r7, r0
+; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
+; ARM-NEXT:    ldr r2, [sp, #24] @ 4-byte Reload
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r6
-; ARM-NEXT:    ldr r2, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    adcs r1, r2
-; ARM-NEXT:    ldr r2, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adds r3, r2, r0
-; ARM-NEXT:    adcs r1, r5
+; ARM-NEXT:    adds r3, r0, r5
+; ARM-NEXT:    adcs r1, r7
 ; ARM-NEXT:    rsbs r2, r1, #0
 ; ARM-NEXT:    adcs r2, r1
 ; ARM-NEXT:    movs r0, #1
@@ -121,66 +101,67 @@ define i64 @func2(i64 %x, i64 %y) nounwind {
 ; ARM-NEXT:    mov r5, r0
 ; ARM-NEXT:    bhi .LBB1_2
 ; ARM-NEXT:  @ %bb.1:
-; ARM-NEXT:    ldr r5, [sp, #32] @ 4-byte Reload
+; ARM-NEXT:    mov r5, r4
 ; ARM-NEXT:  .LBB1_2:
 ; ARM-NEXT:    ands r2, r5
 ; ARM-NEXT:    cmp r1, #0
 ; ARM-NEXT:    mov r5, r0
 ; ARM-NEXT:    bgt .LBB1_4
 ; ARM-NEXT:  @ %bb.3:
-; ARM-NEXT:    ldr r5, [sp, #32] @ 4-byte Reload
+; ARM-NEXT:    mov r5, r4
 ; ARM-NEXT:  .LBB1_4:
 ; ARM-NEXT:    orrs r5, r2
 ; ARM-NEXT:    lsls r2, r3, #30
-; ARM-NEXT:    ldr r6, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    lsrs r4, r6, #2
-; ARM-NEXT:    adds r2, r2, r4
-; ARM-NEXT:    lsls r4, r6, #30
-; ARM-NEXT:    ldr r6, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    lsrs r6, r6, #2
-; ARM-NEXT:    adds r7, r4, r6
-; ARM-NEXT:    ldr r4, [sp, #32] @ 4-byte Reload
+; ARM-NEXT:    ldr r7, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    lsrs r6, r7, #2
+; ARM-NEXT:    adds r2, r2, r6
+; ARM-NEXT:    str r2, [sp, #24] @ 4-byte Spill
+; ARM-NEXT:    lsls r6, r7, #30
+; ARM-NEXT:    ldr r2, [sp, #20] @ 4-byte Reload
+; ARM-NEXT:    lsrs r7, r2, #2
+; ARM-NEXT:    adds r7, r6, r7
 ; ARM-NEXT:    mvns r6, r4
 ; ARM-NEXT:    cmp r5, #0
 ; ARM-NEXT:    beq .LBB1_6
 ; ARM-NEXT:  @ %bb.5:
 ; ARM-NEXT:    ldr r2, .LCPI1_0
+; ARM-NEXT:    str r2, [sp, #24] @ 4-byte Spill
 ; ARM-NEXT:  .LBB1_6:
 ; ARM-NEXT:    mov r5, r6
 ; ARM-NEXT:    bne .LBB1_8
 ; ARM-NEXT:  @ %bb.7:
 ; ARM-NEXT:    mov r5, r7
 ; ARM-NEXT:  .LBB1_8:
-; ARM-NEXT:    adds r4, r1, #1
-; ARM-NEXT:    rsbs r7, r4, #0
-; ARM-NEXT:    adcs r7, r4
-; ARM-NEXT:    mvns r4, r0
-; ARM-NEXT:    cmp r3, r4
+; ARM-NEXT:    adds r2, r1, #1
+; ARM-NEXT:    rsbs r7, r2, #0
+; ARM-NEXT:    adcs r7, r2
+; ARM-NEXT:    mvns r2, r0
+; ARM-NEXT:    cmp r3, r2
 ; ARM-NEXT:    mov r3, r0
 ; ARM-NEXT:    blo .LBB1_10
 ; ARM-NEXT:  @ %bb.9:
-; ARM-NEXT:    ldr r3, [sp, #32] @ 4-byte Reload
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:  .LBB1_10:
 ; ARM-NEXT:    ands r7, r3
 ; ARM-NEXT:    cmp r1, r6
 ; ARM-NEXT:    mov r3, r0
 ; ARM-NEXT:    blt .LBB1_12
 ; ARM-NEXT:  @ %bb.11:
-; ARM-NEXT:    ldr r3, [sp, #32] @ 4-byte Reload
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:  .LBB1_12:
 ; ARM-NEXT:    orrs r3, r7
 ; ARM-NEXT:    lsls r1, r0, #31
 ; ARM-NEXT:    cmp r3, #0
 ; ARM-NEXT:    bne .LBB1_14
 ; ARM-NEXT:  @ %bb.13:
-; ARM-NEXT:    str r5, [sp, #32] @ 4-byte Spill
+; ARM-NEXT:    mov r4, r5
 ; ARM-NEXT:  .LBB1_14:
 ; ARM-NEXT:    bne .LBB1_16
 ; ARM-NEXT:  @ %bb.15:
-; ARM-NEXT:    mov r1, r2
+; ARM-NEXT:    ldr r1, [sp, #24] @ 4-byte Reload
 ; ARM-NEXT:  .LBB1_16:
-; ARM-NEXT:    ldr r0, [sp, #32] @ 4-byte Reload
-; ARM-NEXT:    add sp, #36
+; ARM-NEXT:    mov r0, r4
+; ARM-NEXT:    add sp, #28
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
 ; ARM-NEXT:    .p2align 2
 ; ARM-NEXT:  @ %bb.17:
@@ -272,76 +253,60 @@ define i64 @func5(i64 %x, i64 %y) {
 ; ARM-NEXT:    .pad #28
 ; ARM-NEXT:    sub sp, #28
 ; ARM-NEXT:    str r3, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r2
-; ARM-NEXT:    str r2, [sp, #16] @ 4-byte Spill
+; ARM-NEXT:    str r2, [sp, #12] @ 4-byte Spill
 ; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    movs r7, #0
-; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r0, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r3, r7
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
+; ARM-NEXT:    mov r4, r0
+; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    asrs r1, r1, #31
+; ARM-NEXT:    str r1, [sp, #20] @ 4-byte Spill
+; ARM-NEXT:    movs r6, #0
 ; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r2, r4
-; ARM-NEXT:    mov r3, r7
+; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    bl __aeabi_lmul
+; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
+; ARM-NEXT:    mov r7, r1
+; ARM-NEXT:    mov r0, r4
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    ldr r2, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r1
-; ARM-NEXT:    ldr r1, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    ldr r0, [sp, #16] @ 4-byte Reload
 ; ARM-NEXT:    adds r0, r0, r1
 ; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    adcs r4, r7
-; ARM-NEXT:    mov r0, r6
-; ARM-NEXT:    mov r1, r7
+; ARM-NEXT:    adcs r7, r6
+; ARM-NEXT:    asrs r0, r7, #31
+; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
 ; ARM-NEXT:    ldr r2, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r3, r7
+; ARM-NEXT:    asrs r4, r2, #31
+; ARM-NEXT:    ldr r0, [sp, #8] @ 4-byte Reload
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    ldr r2, [sp, #12] @ 4-byte Reload
 ; ARM-NEXT:    adds r0, r0, r2
 ; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    adcs r1, r7
-; ARM-NEXT:    adds r0, r4, r1
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r6, r7
-; ARM-NEXT:    adcs r6, r7
-; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    ldr r4, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r4
-; ARM-NEXT:    mov r3, r7
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
+; ARM-NEXT:    adcs r1, r6
+; ARM-NEXT:    asrs r6, r1, #31
+; ARM-NEXT:    adds r0, r7, r1
 ; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    adcs r7, r6
-; ARM-NEXT:    asrs r2, r5, #31
 ; ARM-NEXT:    ldr r0, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    mov r6, r4
-; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r3, r2
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    str r1, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    asrs r0, r6, #31
-; ARM-NEXT:    mov r1, r0
-; ARM-NEXT:    ldr r2, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    adcs r6, r0
+; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    ldr r1, [sp, #20] @ 4-byte Reload
+; ARM-NEXT:    ldr r7, [sp, #24] @ 4-byte Reload
+; ARM-NEXT:    mov r2, r7
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    ldr r3, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    adcs r1, r2
 ; ARM-NEXT:    ldr r2, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adds r2, r2, r0
-; ARM-NEXT:    adcs r1, r7
+; ARM-NEXT:    adds r2, r0, r2
+; ARM-NEXT:    adcs r1, r6
 ; ARM-NEXT:    asrs r0, r3, #31
 ; ARM-NEXT:    eors r1, r0
 ; ARM-NEXT:    eors r2, r0
 ; ARM-NEXT:    orrs r2, r1
-; ARM-NEXT:    eors r5, r6
+; ARM-NEXT:    eors r5, r7
 ; ARM-NEXT:    asrs r0, r5, #31
 ; ARM-NEXT:    ldr r1, .LCPI4_0
 ; ARM-NEXT:    eors r1, r0
@@ -410,130 +375,112 @@ define i64 @func7(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #28
-; ARM-NEXT:    sub sp, #28
-; ARM-NEXT:    str r3, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    str r1, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    movs r6, #0
-; ARM-NEXT:    mov r7, r0
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r4, r2
-; ARM-NEXT:    str r2, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r3, r6
-; ARM-NEXT:    bl __aeabi_lmul
+; ARM-NEXT:    .pad #20
+; ARM-NEXT:    sub sp, #20
+; ARM-NEXT:    str r3, [sp, #16] @ 4-byte Spill
+; ARM-NEXT:    mov r5, r2
+; ARM-NEXT:    mov r2, r1
+; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
+; ARM-NEXT:    mov r6, r0
+; ARM-NEXT:    asrs r1, r1, #31
 ; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r2, r4
-; ARM-NEXT:    mov r3, r6
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adds r4, r0, r1
-; ARM-NEXT:    adcs r5, r6
-; ARM-NEXT:    mov r0, r7
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    ldr r7, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    movs r4, #0
+; ARM-NEXT:    mov r0, r2
+; ARM-NEXT:    mov r2, r5
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r4
 ; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    adcs r1, r6
-; ARM-NEXT:    adds r0, r5, r1
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r6
-; ARM-NEXT:    adcs r4, r6
-; ARM-NEXT:    ldr r5, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r6
-; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
+; ARM-NEXT:    mov r0, r6
+; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    mov r2, r5
+; ARM-NEXT:    mov r3, r4
+; ARM-NEXT:    bl __aeabi_lmul
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
 ; ARM-NEXT:    adcs r7, r4
-; ARM-NEXT:    asrs r2, r5, #31
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    ldr r5, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r3, r2
+; ARM-NEXT:    asrs r0, r7, #31
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    asrs r5, r2, #31
+; ARM-NEXT:    mov r0, r6
+; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    mov r3, r5
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    asrs r0, r5, #31
-; ARM-NEXT:    mov r1, r0
+; ARM-NEXT:    ldr r2, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r2
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    adcs r1, r4
+; ARM-NEXT:    asrs r6, r1, #31
+; ARM-NEXT:    adds r7, r7, r1
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    adcs r6, r0
+; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
 ; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    ldr r3, [sp, #20] @ 4-byte Reload
+; ARM-NEXT:    mov r3, r5
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    ldr r2, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    adcs r1, r2
-; ARM-NEXT:    ldr r2, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r2, r0
-; ARM-NEXT:    adcs r1, r7
+; ARM-NEXT:    adds r0, r0, r7
+; ARM-NEXT:    adcs r1, r6
 ; ARM-NEXT:    rsbs r5, r1, #0
 ; ARM-NEXT:    adcs r5, r1
 ; ARM-NEXT:    movs r2, #1
-; ARM-NEXT:    str r0, [sp, #24] @ 4-byte Spill
+; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
 ; ARM-NEXT:    cmp r0, #0
 ; ARM-NEXT:    mov r3, r2
 ; ARM-NEXT:    bge .LBB6_2
 ; ARM-NEXT:  @ %bb.1:
-; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:  .LBB6_2:
-; ARM-NEXT:    mov r4, r2
+; ARM-NEXT:    mov r6, r2
 ; ARM-NEXT:    bmi .LBB6_4
 ; ARM-NEXT:  @ %bb.3:
-; ARM-NEXT:    mov r4, r6
+; ARM-NEXT:    mov r6, r4
 ; ARM-NEXT:  .LBB6_4:
-; ARM-NEXT:    ands r5, r4
+; ARM-NEXT:    ands r5, r6
 ; ARM-NEXT:    cmp r1, #0
 ; ARM-NEXT:    mov r7, r2
 ; ARM-NEXT:    bgt .LBB6_6
 ; ARM-NEXT:  @ %bb.5:
-; ARM-NEXT:    mov r7, r6
+; ARM-NEXT:    mov r7, r4
 ; ARM-NEXT:  .LBB6_6:
 ; ARM-NEXT:    orrs r7, r5
-; ARM-NEXT:    mvns r4, r6
+; ARM-NEXT:    mvns r6, r4
 ; ARM-NEXT:    cmp r7, #0
 ; ARM-NEXT:    beq .LBB6_8
 ; ARM-NEXT:  @ %bb.7:
 ; ARM-NEXT:    ldr r0, .LCPI6_0
-; ARM-NEXT:    str r0, [sp, #24] @ 4-byte Spill
+; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
 ; ARM-NEXT:  .LBB6_8:
-; ARM-NEXT:    mov r5, r4
+; ARM-NEXT:    mov r5, r6
 ; ARM-NEXT:    bne .LBB6_10
 ; ARM-NEXT:  @ %bb.9:
-; ARM-NEXT:    ldr r5, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    ldr r5, [sp] @ 4-byte Reload
 ; ARM-NEXT:  .LBB6_10:
 ; ARM-NEXT:    adds r0, r1, #1
 ; ARM-NEXT:    rsbs r7, r0, #0
 ; ARM-NEXT:    adcs r7, r0
 ; ARM-NEXT:    ands r7, r3
-; ARM-NEXT:    cmp r1, r4
+; ARM-NEXT:    cmp r1, r6
 ; ARM-NEXT:    mov r3, r2
 ; ARM-NEXT:    blt .LBB6_12
 ; ARM-NEXT:  @ %bb.11:
-; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:  .LBB6_12:
 ; ARM-NEXT:    orrs r3, r7
 ; ARM-NEXT:    lsls r1, r2, #31
 ; ARM-NEXT:    cmp r3, #0
 ; ARM-NEXT:    bne .LBB6_14
 ; ARM-NEXT:  @ %bb.13:
-; ARM-NEXT:    mov r6, r5
+; ARM-NEXT:    mov r4, r5
 ; ARM-NEXT:  .LBB6_14:
 ; ARM-NEXT:    bne .LBB6_16
 ; ARM-NEXT:  @ %bb.15:
-; ARM-NEXT:    ldr r1, [sp, #24] @ 4-byte Reload
+; ARM-NEXT:    ldr r1, [sp, #16] @ 4-byte Reload
 ; ARM-NEXT:  .LBB6_16:
-; ARM-NEXT:    mov r0, r6
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    mov r0, r4
+; ARM-NEXT:    add sp, #20
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
 ; ARM-NEXT:    .p2align 2
 ; ARM-NEXT:  @ %bb.17:
@@ -548,82 +495,64 @@ define i64 @func8(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #28
-; ARM-NEXT:    sub sp, #28
-; ARM-NEXT:    str r3, [sp, #24] @ 4-byte Spill
+; ARM-NEXT:    .pad #20
+; ARM-NEXT:    sub sp, #20
+; ARM-NEXT:    str r3, [sp, #16] @ 4-byte Spill
 ; ARM-NEXT:    mov r5, r2
-; ARM-NEXT:    str r2, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r1
-; ARM-NEXT:    str r1, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    movs r7, #0
+; ARM-NEXT:    mov r2, r1
+; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
 ; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r3, r7
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r1, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r7
+; ARM-NEXT:    asrs r1, r1, #31
+; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    movs r4, #0
+; ARM-NEXT:    mov r0, r2
 ; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r7
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    ldr r1, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    adds r4, r0, r1
-; ARM-NEXT:    adcs r5, r7
-; ARM-NEXT:    mov r0, r6
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    ldr r6, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r7
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    adcs r1, r7
-; ARM-NEXT:    adds r0, r5, r1
 ; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r7
-; ARM-NEXT:    adcs r4, r7
-; ARM-NEXT:    ldr r5, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r7
+; ARM-NEXT:    mov r7, r1
+; ARM-NEXT:    mov r0, r6
+; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    mov r2, r5
+; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r6, r1
-; ARM-NEXT:    ldr r1, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    adds r0, r0, r1
 ; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    adcs r6, r4
-; ARM-NEXT:    asrs r2, r5, #31
-; ARM-NEXT:    ldr r0, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    ldr r4, [sp, #24] @ 4-byte Reload
+; ARM-NEXT:    adcs r7, r4
+; ARM-NEXT:    asrs r0, r7, #31
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    asrs r5, r2, #31
+; ARM-NEXT:    mov r0, r6
 ; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r3, r2
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r0
-; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    asrs r0, r4, #31
-; ARM-NEXT:    mov r1, r0
-; ARM-NEXT:    ldr r2, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    ldr r3, [sp, #20] @ 4-byte Reload
+; ARM-NEXT:    mov r3, r5
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r5
-; ARM-NEXT:    ldr r2, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adcs r1, r2
 ; ARM-NEXT:    ldr r2, [sp, #4] @ 4-byte Reload
-; ARM-NEXT:    adds r2, r2, r0
+; ARM-NEXT:    adds r0, r0, r2
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    adcs r1, r4
+; ARM-NEXT:    asrs r6, r1, #31
+; ARM-NEXT:    adds r7, r7, r1
+; ARM-NEXT:    ldr r0, [sp] @ 4-byte Reload
+; ARM-NEXT:    adcs r6, r0
+; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
+; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    bl __aeabi_lmul
+; ARM-NEXT:    adds r2, r0, r7
 ; ARM-NEXT:    adcs r1, r6
 ; ARM-NEXT:    lsls r0, r1, #1
 ; ARM-NEXT:    lsrs r3, r2, #31
 ; ARM-NEXT:    adds r0, r0, r3
 ; ARM-NEXT:    lsls r2, r2, #1
-; ARM-NEXT:    ldr r3, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    ldr r3, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    lsrs r3, r3, #31
 ; ARM-NEXT:    adds r2, r2, r3
-; ARM-NEXT:    mvns r3, r7
-; ARM-NEXT:    ldr r4, .LCPI7_1
-; ARM-NEXT:    cmp r1, r4
+; ARM-NEXT:    mvns r3, r4
+; ARM-NEXT:    ldr r5, .LCPI7_1
+; ARM-NEXT:    cmp r1, r5
 ; ARM-NEXT:    ble .LBB7_2
 ; ARM-NEXT:  @ %bb.1:
 ; ARM-NEXT:    ldr r0, .LCPI7_0
@@ -634,20 +563,20 @@ define i64 @func8(i64 %x, i64 %y) nounwind {
 ; ARM-NEXT:  .LBB7_4:
 ; ARM-NEXT:    movs r2, #1
 ; ARM-NEXT:    lsls r2, r2, #31
-; ARM-NEXT:    movs r4, #3
-; ARM-NEXT:    lsls r4, r4, #30
-; ARM-NEXT:    cmp r1, r4
+; ARM-NEXT:    movs r5, #3
+; ARM-NEXT:    lsls r5, r5, #30
+; ARM-NEXT:    cmp r1, r5
 ; ARM-NEXT:    blt .LBB7_6
 ; ARM-NEXT:  @ %bb.5:
-; ARM-NEXT:    mov r7, r3
+; ARM-NEXT:    mov r4, r3
 ; ARM-NEXT:  .LBB7_6:
 ; ARM-NEXT:    blt .LBB7_8
 ; ARM-NEXT:  @ %bb.7:
 ; ARM-NEXT:    mov r2, r0
 ; ARM-NEXT:  .LBB7_8:
-; ARM-NEXT:    mov r0, r7
+; ARM-NEXT:    mov r0, r4
 ; ARM-NEXT:    mov r1, r2
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #20
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
 ; ARM-NEXT:    .p2align 2
 ; ARM-NEXT:  @ %bb.9:
diff --git a/llvm/test/CodeGen/Thumb/umul_fix.ll b/llvm/test/CodeGen/Thumb/umul_fix.ll
index 7af5775c61d7b..deab0955d977e 100644
--- a/llvm/test/CodeGen/Thumb/umul_fix.ll
+++ b/llvm/test/CodeGen/Thumb/umul_fix.ll
@@ -27,71 +27,55 @@ define i64 @func2(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #28
-; ARM-NEXT:    sub sp, #28
-; ARM-NEXT:    str r3, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r1
-; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    movs r6, #0
+; ARM-NEXT:    .pad #20
+; ARM-NEXT:    sub sp, #20
+; ARM-NEXT:    str r3, [sp, #12] @ 4-byte Spill
+; ARM-NEXT:    mov r4, r2
+; ARM-NEXT:    mov r6, r1
+; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
 ; ARM-NEXT:    mov r5, r0
-; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r7, r2
-; ARM-NEXT:    str r2, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    movs r7, #0
+; ARM-NEXT:    mov r1, r7
+; ARM-NEXT:    mov r3, r7
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r0, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    str r1, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
+; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    mov r0, r6
+; ARM-NEXT:    mov r1, r7
+; ARM-NEXT:    mov r2, r4
+; ARM-NEXT:    mov r3, r7
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    mov r4, r1
-; ARM-NEXT:    ldr r1, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    ldr r1, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    adcs r4, r6
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    adcs r4, r7
 ; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    ldr r5, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r6
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    ldr r1, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    adcs r7, r4
-; ARM-NEXT:    ldr r4, [sp, #4] @ 4-byte Reload
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r6
-; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r6
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r7, r0, r7
-; ARM-NEXT:    ldr r0, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r5
+; ARM-NEXT:    mov r1, r7
+; ARM-NEXT:    ldr r6, [sp, #12] @ 4-byte Reload
 ; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    mov r3, r7
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r0
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    mov r5, r1
+; ARM-NEXT:    ldr r1, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r1
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    adcs r5, r4
+; ARM-NEXT:    ldr r0, [sp, #8] @ 4-byte Reload
+; ARM-NEXT:    mov r1, r7
 ; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r6
+; ARM-NEXT:    mov r3, r7
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    adds r0, r0, r5
-; ARM-NEXT:    adds r0, r7, r0
 ; ARM-NEXT:    lsls r0, r0, #30
-; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    ldr r2, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    lsrs r1, r2, #2
 ; ARM-NEXT:    adds r1, r0, r1
 ; ARM-NEXT:    lsls r0, r2, #30
-; ARM-NEXT:    ldr r2, [sp, #24] @ 4-byte Reload
+; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
 ; ARM-NEXT:    lsrs r2, r2, #2
 ; ARM-NEXT:    adds r0, r0, r2
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #20
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.umul.fix.i64(i64 %x, i64 %y, i32 2)
   ret i64 %tmp
@@ -154,63 +138,47 @@ define i64 @func7(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #20
-; ARM-NEXT:    sub sp, #20
-; ARM-NEXT:    str r3, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    str r1, [sp] @ 4-byte Spill
-; ARM-NEXT:    movs r5, #0
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r6, r2
-; ARM-NEXT:    str r2, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r7
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    .pad #12
+; ARM-NEXT:    sub sp, #12
+; ARM-NEXT:    str r3, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    mov r4, r2
+; ARM-NEXT:    mov r5, r1
+; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    mov r7, r0
+; ARM-NEXT:    movs r6, #0
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    ldr r1, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    adcs r7, r5
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    ldr r4, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    str r1, [sp] @ 4-byte Spill
+; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    mov r1, r6
 ; ARM-NEXT:    mov r2, r4
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r6, r1
-; ARM-NEXT:    ldr r1, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    mov r4, r1
+; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
 ; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    adcs r6, r7
-; ARM-NEXT:    ldr r7, [sp] @ 4-byte Reload
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    adcs r4, r6
 ; ARM-NEXT:    mov r0, r7
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r4
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r6, r0, r6
-; ARM-NEXT:    ldr r0, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    ldr r7, [sp, #8] @ 4-byte Reload
+; ARM-NEXT:    mov r2, r7
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    ldr r0, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r5, r1
+; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r1
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    adcs r5, r4
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    mov r2, r7
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    adds r1, r6, r0
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    add sp, #20
+; ARM-NEXT:    adds r1, r0, r5
+; ARM-NEXT:    ldr r0, [sp] @ 4-byte Reload
+; ARM-NEXT:    add sp, #12
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.umul.fix.i64(i64 %x, i64 %y, i32 32)
   ret i64 %tmp
@@ -221,79 +189,56 @@ define i64 @func8(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #28
-; ARM-NEXT:    sub sp, #28
-; ARM-NEXT:    str r3, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    mov r7, r2
-; ARM-NEXT:    str r2, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r1
-; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    movs r5, #0
-; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r1, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    ldr r1, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    adds r4, r0, r1
-; ARM-NEXT:    adcs r7, r5
-; ARM-NEXT:    mov r0, r6
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    ldr r6, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    .pad #12
+; ARM-NEXT:    sub sp, #12
+; ARM-NEXT:    str r3, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    mov r4, r2
+; ARM-NEXT:    mov r5, r1
+; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    mov r7, r0
+; ARM-NEXT:    movs r6, #0
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    str r0, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    adcs r1, r5
-; ARM-NEXT:    adds r0, r7, r1
-; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r5
-; ARM-NEXT:    adcs r4, r5
-; ARM-NEXT:    ldr r7, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    mov r0, r7
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    str r1, [sp] @ 4-byte Spill
+; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    mov r2, r4
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r6, r1
-; ARM-NEXT:    ldr r1, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    mov r4, r1
+; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
 ; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    adcs r6, r4
-; ARM-NEXT:    ldr r0, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    ldr r1, [sp, #24] @ 4-byte Reload
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    adcs r4, r6
+; ARM-NEXT:    mov r0, r7
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    ldr r5, [sp, #8] @ 4-byte Reload
 ; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    str r1, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r7
+; ARM-NEXT:    ldr r2, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r2
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    adcs r1, r6
+; ARM-NEXT:    adds r4, r4, r1
+; ARM-NEXT:    mov r7, r6
+; ARM-NEXT:    adcs r7, r6
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    mov r1, r6
 ; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    ldr r2, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    adcs r1, r2
-; ARM-NEXT:    ldr r2, [sp, #4] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r2, r0
-; ARM-NEXT:    adcs r1, r6
+; ARM-NEXT:    adcs r1, r7
 ; ARM-NEXT:    lsls r1, r1, #1
 ; ARM-NEXT:    lsrs r2, r0, #31
 ; ARM-NEXT:    adds r1, r1, r2
 ; ARM-NEXT:    lsls r0, r0, #1
-; ARM-NEXT:    ldr r2, [sp, #20] @ 4-byte Reload
+; ARM-NEXT:    ldr r2, [sp] @ 4-byte Reload
 ; ARM-NEXT:    lsrs r2, r2, #31
 ; ARM-NEXT:    adds r0, r0, r2
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #12
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.umul.fix.i64(i64 %x, i64 %y, i32 63)
   ret i64 %tmp
@@ -304,71 +249,46 @@ define i64 @func9(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #20
-; ARM-NEXT:    sub sp, #20
-; ARM-NEXT:    str r3, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r7, r2
-; ARM-NEXT:    str r2, [sp, #12] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r1
+; ARM-NEXT:    .pad #12
+; ARM-NEXT:    sub sp, #12
+; ARM-NEXT:    str r3, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    mov r4, r2
+; ARM-NEXT:    mov r5, r1
 ; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    movs r5, #0
-; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r7, r0
+; ARM-NEXT:    movs r6, #0
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    str r1, [sp] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r4
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r0, r5
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    mov r2, r4
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r7, r1
+; ARM-NEXT:    mov r4, r1
 ; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
-; ARM-NEXT:    adds r4, r0, r1
-; ARM-NEXT:    adcs r7, r5
-; ARM-NEXT:    mov r0, r6
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    ldr r6, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    adcs r1, r5
-; ARM-NEXT:    adds r0, r7, r1
-; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
-; ARM-NEXT:    mov r4, r5
-; ARM-NEXT:    adcs r4, r5
-; ARM-NEXT:    ldr r7, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    adds r5, r0, r1
+; ARM-NEXT:    adcs r4, r6
 ; ARM-NEXT:    mov r0, r7
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r6
-; ARM-NEXT:    mov r3, r5
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r6, r1
-; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
-; ARM-NEXT:    adcs r6, r4
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    ldr r1, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    ldr r7, [sp, #8] @ 4-byte Reload
+; ARM-NEXT:    mov r2, r7
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r4, r0
-; ARM-NEXT:    str r1, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    ldr r0, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r2, r5
-; ARM-NEXT:    mov r3, r5
+; ARM-NEXT:    adds r0, r0, r5
+; ARM-NEXT:    adcs r1, r6
+; ARM-NEXT:    adds r4, r4, r1
+; ARM-NEXT:    mov r5, r6
+; ARM-NEXT:    adcs r5, r6
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    mov r1, r6
+; ARM-NEXT:    mov r2, r7
+; ARM-NEXT:    mov r3, r6
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    adds r0, r0, r4
-; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    adcs r1, r2
-; ARM-NEXT:    ldr r2, [sp] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r2, r0
-; ARM-NEXT:    adcs r1, r6
-; ARM-NEXT:    add sp, #20
+; ARM-NEXT:    adcs r1, r5
+; ARM-NEXT:    add sp, #12
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.umul.fix.i64(i64 %x, i64 %y, i32 64)
   ret i64 %tmp
diff --git a/llvm/test/CodeGen/Thumb/umul_fix_sat.ll b/llvm/test/CodeGen/Thumb/umul_fix_sat.ll
index a43b22102c24b..f24fe933e5ad4 100644
--- a/llvm/test/CodeGen/Thumb/umul_fix_sat.ll
+++ b/llvm/test/CodeGen/Thumb/umul_fix_sat.ll
@@ -34,99 +34,72 @@ define i64 @func2(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #28
-; ARM-NEXT:    sub sp, #28
-; ARM-NEXT:    str r3, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    .pad #20
+; ARM-NEXT:    sub sp, #20
+; ARM-NEXT:    str r3, [sp, #12] @ 4-byte Spill
+; ARM-NEXT:    mov r6, r2
+; ARM-NEXT:    mov r7, r1
+; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    mov r5, r0
 ; ARM-NEXT:    movs r4, #0
-; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
 ; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r7, r2
-; ARM-NEXT:    str r2, [sp, #12] @ 4-byte Spill
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r0, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    str r1, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r4
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    ldr r1, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
 ; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    adcs r5, r4
-; ARM-NEXT:    mov r0, r6
+; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    mov r0, r7
 ; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    ldr r7, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r7
+; ARM-NEXT:    mov r2, r6
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    ldr r2, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r2
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    adcs r1, r4
-; ARM-NEXT:    adds r0, r5, r1
-; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
-; ARM-NEXT:    mov r6, r4
+; ARM-NEXT:    mov r6, r1
+; ARM-NEXT:    ldr r1, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    adds r7, r0, r1
 ; ARM-NEXT:    adcs r6, r4
-; ARM-NEXT:    ldr r5, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    mov r0, r5
 ; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r4
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
-; ARM-NEXT:    adcs r7, r6
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    ldr r1, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r4
+; ARM-NEXT:    ldr r5, [sp, #12] @ 4-byte Reload
+; ARM-NEXT:    mov r2, r5
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r1, [sp, #24] @ 4-byte Spill
+; ARM-NEXT:    adds r0, r0, r7
+; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    adcs r1, r4
+; ARM-NEXT:    adds r6, r6, r1
+; ARM-NEXT:    mov r7, r4
+; ARM-NEXT:    adcs r7, r4
 ; ARM-NEXT:    ldr r0, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r5
-; ARM-NEXT:    mov r2, r4
+; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    mov r2, r5
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    adds r0, r0, r6
-; ARM-NEXT:    ldr r2, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    adcs r1, r2
-; ARM-NEXT:    ldr r2, [sp] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r2, r0
 ; ARM-NEXT:    adcs r1, r7
-; ARM-NEXT:    lsrs r5, r0, #2
-; ARM-NEXT:    orrs r5, r1
+; ARM-NEXT:    lsrs r6, r0, #2
+; ARM-NEXT:    orrs r6, r1
 ; ARM-NEXT:    lsls r0, r0, #30
-; ARM-NEXT:    ldr r3, [sp, #16] @ 4-byte Reload
+; ARM-NEXT:    ldr r3, [sp, #4] @ 4-byte Reload
 ; ARM-NEXT:    lsrs r1, r3, #2
 ; ARM-NEXT:    adds r2, r0, r1
 ; ARM-NEXT:    lsls r0, r3, #30
-; ARM-NEXT:    ldr r1, [sp, #20] @ 4-byte Reload
+; ARM-NEXT:    ldr r1, [sp, #16] @ 4-byte Reload
 ; ARM-NEXT:    lsrs r1, r1, #2
 ; ARM-NEXT:    adds r3, r0, r1
 ; ARM-NEXT:    mvns r1, r4
-; ARM-NEXT:    cmp r5, #0
+; ARM-NEXT:    cmp r6, #0
 ; ARM-NEXT:    mov r0, r1
 ; ARM-NEXT:    beq .LBB1_3
 ; ARM-NEXT:  @ %bb.1:
 ; ARM-NEXT:    beq .LBB1_4
 ; ARM-NEXT:  .LBB1_2:
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #20
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
 ; ARM-NEXT:  .LBB1_3:
 ; ARM-NEXT:    mov r0, r3
 ; ARM-NEXT:    bne .LBB1_2
 ; ARM-NEXT:  .LBB1_4:
 ; ARM-NEXT:    mov r1, r2
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #20
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.umul.fix.sat.i64(i64 %x, i64 %y, i32 2)
   ret i64 %tmp
@@ -338,72 +311,49 @@ define i64 @func7(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #28
-; ARM-NEXT:    sub sp, #28
-; ARM-NEXT:    str r3, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    mov r7, r2
-; ARM-NEXT:    str r2, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    str r1, [sp, #12] @ 4-byte Spill
+; ARM-NEXT:    .pad #12
+; ARM-NEXT:    sub sp, #12
+; ARM-NEXT:    str r3, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    mov r5, r2
+; ARM-NEXT:    mov r6, r1
+; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    mov r7, r0
 ; ARM-NEXT:    movs r4, #0
-; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r0, [sp, #16] @ 4-byte Spill
 ; ARM-NEXT:    mov r1, r4
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r4
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adds r5, r0, r1
-; ARM-NEXT:    adcs r7, r4
+; ARM-NEXT:    str r1, [sp] @ 4-byte Spill
 ; ARM-NEXT:    mov r0, r6
 ; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    ldr r6, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r6
+; ARM-NEXT:    mov r2, r5
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r5
-; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    adcs r1, r4
-; ARM-NEXT:    adds r0, r7, r1
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    mov r5, r4
+; ARM-NEXT:    mov r5, r1
+; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r1
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
 ; ARM-NEXT:    adcs r5, r4
-; ARM-NEXT:    ldr r7, [sp, #12] @ 4-byte Reload
 ; ARM-NEXT:    mov r0, r7
 ; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    ldr r6, [sp, #8] @ 4-byte Reload
 ; ARM-NEXT:    mov r2, r6
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r6, r1
-; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #8] @ 4-byte Spill
-; ARM-NEXT:    adcs r6, r5
-; ARM-NEXT:    ldr r0, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    ldr r1, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r4
-; ARM-NEXT:    mov r3, r4
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r0
-; ARM-NEXT:    str r1, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    ldr r0, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r2, r4
+; ARM-NEXT:    ldr r2, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r2
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    adcs r1, r4
+; ARM-NEXT:    adds r5, r5, r1
+; ARM-NEXT:    mov r7, r4
+; ARM-NEXT:    adcs r7, r4
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    mov r2, r6
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    mov r2, r1
-; ARM-NEXT:    adds r0, r0, r5
-; ARM-NEXT:    ldr r1, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    adcs r2, r1
-; ARM-NEXT:    ldr r1, [sp, #8] @ 4-byte Reload
-; ARM-NEXT:    adds r3, r1, r0
-; ARM-NEXT:    adcs r2, r6
+; ARM-NEXT:    adds r3, r0, r5
+; ARM-NEXT:    adcs r2, r7
 ; ARM-NEXT:    mvns r1, r4
 ; ARM-NEXT:    cmp r2, #0
 ; ARM-NEXT:    mov r0, r1
@@ -411,14 +361,14 @@ define i64 @func7(i64 %x, i64 %y) nounwind {
 ; ARM-NEXT:  @ %bb.1:
 ; ARM-NEXT:    beq .LBB7_4
 ; ARM-NEXT:  .LBB7_2:
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #12
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
 ; ARM-NEXT:  .LBB7_3:
-; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    ldr r0, [sp] @ 4-byte Reload
 ; ARM-NEXT:    bne .LBB7_2
 ; ARM-NEXT:  .LBB7_4:
 ; ARM-NEXT:    mov r1, r3
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #12
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.umul.fix.sat.i64(i64 %x, i64 %y, i32 32)
   ret i64 %tmp
@@ -429,76 +379,53 @@ define i64 @func8(i64 %x, i64 %y) nounwind {
 ; ARM:       @ %bb.0:
 ; ARM-NEXT:    .save {r4, r5, r6, r7, lr}
 ; ARM-NEXT:    push {r4, r5, r6, r7, lr}
-; ARM-NEXT:    .pad #28
-; ARM-NEXT:    sub sp, #28
-; ARM-NEXT:    str r3, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    mov r7, r2
-; ARM-NEXT:    str r2, [sp, #16] @ 4-byte Spill
-; ARM-NEXT:    mov r5, r1
-; ARM-NEXT:    str r1, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    .pad #12
+; ARM-NEXT:    sub sp, #12
+; ARM-NEXT:    str r3, [sp, #8] @ 4-byte Spill
+; ARM-NEXT:    mov r5, r2
+; ARM-NEXT:    mov r6, r1
+; ARM-NEXT:    str r1, [sp, #4] @ 4-byte Spill
+; ARM-NEXT:    mov r7, r0
 ; ARM-NEXT:    movs r4, #0
-; ARM-NEXT:    mov r6, r0
-; ARM-NEXT:    str r0, [sp, #12] @ 4-byte Spill
 ; ARM-NEXT:    mov r1, r4
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    str r1, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    mov r0, r5
-; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    mov r2, r7
-; ARM-NEXT:    mov r3, r4
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r7, r1
-; ARM-NEXT:    ldr r1, [sp, #20] @ 4-byte Reload
-; ARM-NEXT:    adds r5, r0, r1
-; ARM-NEXT:    adcs r7, r4
+; ARM-NEXT:    str r1, [sp] @ 4-byte Spill
 ; ARM-NEXT:    mov r0, r6
 ; ARM-NEXT:    mov r1, r4
-; ARM-NEXT:    ldr r6, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r6
+; ARM-NEXT:    mov r2, r5
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    adds r0, r0, r5
-; ARM-NEXT:    str r0, [sp, #20] @ 4-byte Spill
-; ARM-NEXT:    adcs r1, r4
-; ARM-NEXT:    adds r0, r7, r1
-; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    mov r5, r4
+; ARM-NEXT:    mov r5, r1
+; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r1
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
 ; ARM-NEXT:    adcs r5, r4
-; ARM-NEXT:    ldr r7, [sp, #8] @ 4-byte Reload
 ; ARM-NEXT:    mov r0, r7
 ; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    ldr r6, [sp, #8] @ 4-byte Reload
 ; ARM-NEXT:    mov r2, r6
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r6, r1
-; ARM-NEXT:    ldr r1, [sp, #4] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r0, r1
-; ARM-NEXT:    str r0, [sp, #4] @ 4-byte Spill
-; ARM-NEXT:    adcs r6, r5
-; ARM-NEXT:    ldr r0, [sp, #16] @ 4-byte Reload
-; ARM-NEXT:    ldr r1, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    mov r2, r4
-; ARM-NEXT:    mov r3, r4
-; ARM-NEXT:    bl __aeabi_lmul
-; ARM-NEXT:    mov r5, r0
-; ARM-NEXT:    str r1, [sp, #24] @ 4-byte Spill
-; ARM-NEXT:    ldr r0, [sp, #12] @ 4-byte Reload
-; ARM-NEXT:    mov r1, r7
-; ARM-NEXT:    mov r2, r4
+; ARM-NEXT:    ldr r2, [sp] @ 4-byte Reload
+; ARM-NEXT:    adds r0, r0, r2
+; ARM-NEXT:    str r0, [sp] @ 4-byte Spill
+; ARM-NEXT:    adcs r1, r4
+; ARM-NEXT:    adds r5, r5, r1
+; ARM-NEXT:    mov r7, r4
+; ARM-NEXT:    adcs r7, r4
+; ARM-NEXT:    ldr r0, [sp, #4] @ 4-byte Reload
+; ARM-NEXT:    mov r1, r4
+; ARM-NEXT:    mov r2, r6
 ; ARM-NEXT:    mov r3, r4
 ; ARM-NEXT:    bl __aeabi_lmul
 ; ARM-NEXT:    adds r0, r0, r5
-; ARM-NEXT:    ldr r2, [sp, #24] @ 4-byte Reload
-; ARM-NEXT:    adcs r1, r2
-; ARM-NEXT:    ldr r2, [sp, #4] @ 4-byte Reload
-; ARM-NEXT:    adds r0, r2, r0
-; ARM-NEXT:    adcs r1, r6
+; ARM-NEXT:    adcs r1, r7
 ; ARM-NEXT:    lsls r1, r1, #1
 ; ARM-NEXT:    lsrs r5, r0, #31
 ; ARM-NEXT:    adds r2, r1, r5
 ; ARM-NEXT:    lsls r0, r0, #1
-; ARM-NEXT:    ldr r1, [sp, #20] @ 4-byte Reload
+; ARM-NEXT:    ldr r1, [sp] @ 4-byte Reload
 ; ARM-NEXT:    lsrs r1, r1, #31
 ; ARM-NEXT:    adds r3, r0, r1
 ; ARM-NEXT:    mvns r1, r4
@@ -508,14 +435,14 @@ define i64 @func8(i64 %x, i64 %y) nounwind {
 ; ARM-NEXT:  @ %bb.1:
 ; ARM-NEXT:    beq .LBB8_4
 ; ARM-NEXT:  .LBB8_2:
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #12
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
 ; ARM-NEXT:  .LBB8_3:
 ; ARM-NEXT:    mov r0, r3
 ; ARM-NEXT:    bne .LBB8_2
 ; ARM-NEXT:  .LBB8_4:
 ; ARM-NEXT:    mov r1, r2
-; ARM-NEXT:    add sp, #28
+; ARM-NEXT:    add sp, #12
 ; ARM-NEXT:    pop {r4, r5, r6, r7, pc}
   %tmp = call i64 @llvm.umul.fix.sat.i64(i64 %x, i64 %y, i32 63)
   ret i64 %tmp
diff --git a/llvm/test/CodeGen/X86/avx10.2-fma-commute.ll b/llvm/test/CodeGen/X86/avx10.2-fma-commute.ll
index c41e03ba637cb..ab8ac4fbd4193 100644
--- a/llvm/test/CodeGen/X86/avx10.2-fma-commute.ll
+++ b/llvm/test/CodeGen/X86/avx10.2-fma-commute.ll
@@ -4,7 +4,7 @@
 define <8 x bfloat> @fma_123_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z) {
 ; CHECK-LABEL: fma_123_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm2, %xmm1, %xmm0
+; CHECK-NEXT:    vfmadd213bf16 %xmm2, %xmm1, %xmm0
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z)
   ret <8 x bfloat> %a
@@ -13,7 +13,7 @@ define <8 x bfloat> @fma_123_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloa
 define <8 x bfloat> @fma_213_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z) {
 ; CHECK-LABEL: fma_213_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm2, %xmm1, %xmm0
+; CHECK-NEXT:    vfmadd213bf16 %xmm2, %xmm1, %xmm0
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %x, <8 x bfloat> %z)
   ret <8 x bfloat> %a
@@ -22,7 +22,7 @@ define <8 x bfloat> @fma_213_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloa
 define <8 x bfloat> @fma_231_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z) {
 ; CHECK-LABEL: fma_231_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 %xmm1, %xmm2, %xmm0
+; CHECK-NEXT:    vfmadd231bf16 %xmm1, %xmm2, %xmm0
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %z, <8 x bfloat> %x)
   ret <8 x bfloat> %a
@@ -31,7 +31,7 @@ define <8 x bfloat> @fma_231_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloa
 define <8 x bfloat> @fma_321_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z) {
 ; CHECK-LABEL: fma_321_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 %xmm1, %xmm2, %xmm0
+; CHECK-NEXT:    vfmadd231bf16 %xmm1, %xmm2, %xmm0
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %y, <8 x bfloat> %x)
   ret <8 x bfloat> %a
@@ -40,7 +40,7 @@ define <8 x bfloat> @fma_321_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloa
 define <8 x bfloat> @fma_132_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z) {
 ; CHECK-LABEL: fma_132_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm1, %xmm2, %xmm0
+; CHECK-NEXT:    vfmadd213bf16 %xmm1, %xmm2, %xmm0
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %z, <8 x bfloat> %y)
   ret <8 x bfloat> %a
@@ -49,7 +49,7 @@ define <8 x bfloat> @fma_132_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloa
 define <8 x bfloat> @fma_312_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z) {
 ; CHECK-LABEL: fma_312_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm1, %xmm2, %xmm0
+; CHECK-NEXT:    vfmadd213bf16 %xmm1, %xmm2, %xmm0
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %x, <8 x bfloat> %y)
   ret <8 x bfloat> %a
@@ -58,7 +58,7 @@ define <8 x bfloat> @fma_312_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloa
 define <8 x bfloat> @fma_load_123_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_123_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %xmm1, %xmm0
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %xmm1, %xmm0
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z)
@@ -68,7 +68,7 @@ define <8 x bfloat> @fma_load_123_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %
 define <8 x bfloat> @fma_load_213_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_213_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %xmm1, %xmm0
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %xmm1, %xmm0
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %x, <8 x bfloat> %z)
@@ -78,7 +78,7 @@ define <8 x bfloat> @fma_load_213_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %
 define <8 x bfloat> @fma_load_231_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_231_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %xmm1, %xmm0
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %xmm1, %xmm0
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %z, <8 x bfloat> %x)
@@ -88,7 +88,7 @@ define <8 x bfloat> @fma_load_231_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %
 define <8 x bfloat> @fma_load_321_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_321_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %xmm1, %xmm0
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %xmm1, %xmm0
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %y, <8 x bfloat> %x)
@@ -98,7 +98,7 @@ define <8 x bfloat> @fma_load_321_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %
 define <8 x bfloat> @fma_load_132_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_132_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %xmm1, %xmm0
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %xmm1, %xmm0
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %z, <8 x bfloat> %y)
@@ -108,7 +108,7 @@ define <8 x bfloat> @fma_load_132_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %
 define <8 x bfloat> @fma_load_312_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_312_v8bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %xmm1, %xmm0
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %xmm1, %xmm0
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %x, <8 x bfloat> %y)
@@ -119,7 +119,7 @@ define <8 x bfloat> @fma_mask_123_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_mask_123_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 %xmm1, %xmm2, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 %xmm1, %xmm2, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z)
   %b = bitcast i8 %mask to <8 x i1>
@@ -131,7 +131,7 @@ define <8 x bfloat> @fma_mask_213_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_mask_213_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm2, %xmm1, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 %xmm2, %xmm1, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %x, <8 x bfloat> %z)
   %b = bitcast i8 %mask to <8 x i1>
@@ -143,7 +143,7 @@ define <8 x bfloat> @fma_mask_231_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_mask_231_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %xmm2, %xmm1, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 %xmm2, %xmm1, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %z, <8 x bfloat> %x)
   %b = bitcast i8 %mask to <8 x i1>
@@ -155,7 +155,7 @@ define <8 x bfloat> @fma_mask_321_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_mask_321_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %xmm1, %xmm2, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 %xmm1, %xmm2, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %y, <8 x bfloat> %x)
   %b = bitcast i8 %mask to <8 x i1>
@@ -167,7 +167,7 @@ define <8 x bfloat> @fma_mask_132_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_mask_132_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 %xmm2, %xmm1, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 %xmm2, %xmm1, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %z, <8 x bfloat> %y)
   %b = bitcast i8 %mask to <8 x i1>
@@ -179,7 +179,7 @@ define <8 x bfloat> @fma_mask_312_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_mask_312_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm1, %xmm2, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 %xmm1, %xmm2, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %x, <8 x bfloat> %y)
   %b = bitcast i8 %mask to <8 x i1>
@@ -191,7 +191,7 @@ define <8 x bfloat> @fma_maskz_123_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_maskz_123_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z)
   %b = bitcast i8 %mask to <8 x i1>
@@ -203,7 +203,7 @@ define <8 x bfloat> @fma_maskz_213_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_maskz_213_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %x, <8 x bfloat> %z)
   %b = bitcast i8 %mask to <8 x i1>
@@ -215,7 +215,7 @@ define <8 x bfloat> @fma_maskz_231_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_maskz_231_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %xmm1, %xmm2, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 %xmm1, %xmm2, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %z, <8 x bfloat> %x)
   %b = bitcast i8 %mask to <8 x i1>
@@ -227,7 +227,7 @@ define <8 x bfloat> @fma_maskz_321_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_maskz_321_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %xmm1, %xmm2, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 %xmm1, %xmm2, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %y, <8 x bfloat> %x)
   %b = bitcast i8 %mask to <8 x i1>
@@ -239,7 +239,7 @@ define <8 x bfloat> @fma_maskz_132_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_maskz_132_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm1, %xmm2, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %xmm1, %xmm2, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %z, <8 x bfloat> %y)
   %b = bitcast i8 %mask to <8 x i1>
@@ -251,7 +251,7 @@ define <8 x bfloat> @fma_maskz_312_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x
 ; CHECK-LABEL: fma_maskz_312_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm1, %xmm2, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %xmm1, %xmm2, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %x, <8 x bfloat> %y)
   %b = bitcast i8 %mask to <8 x i1>
@@ -263,7 +263,7 @@ define <8 x bfloat> @fma_mask_load_123_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_mask_load_123_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %xmm1, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %xmm1, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z)
@@ -276,7 +276,7 @@ define <8 x bfloat> @fma_mask_load_213_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_mask_load_213_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %xmm1, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %xmm1, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %x, <8 x bfloat> %z)
@@ -289,7 +289,7 @@ define <8 x bfloat> @fma_mask_load_231_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_mask_load_231_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %xmm1, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %xmm1, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %z, <8 x bfloat> %x)
@@ -302,7 +302,7 @@ define <8 x bfloat> @fma_mask_load_321_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_mask_load_321_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %xmm1, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %xmm1, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %y, <8 x bfloat> %x)
@@ -315,7 +315,7 @@ define <8 x bfloat> @fma_mask_load_132_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_mask_load_132_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %xmm1, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %xmm1, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %z, <8 x bfloat> %y)
@@ -328,7 +328,7 @@ define <8 x bfloat> @fma_mask_load_312_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_mask_load_312_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %xmm1, %xmm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %xmm1, %xmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %x, <8 x bfloat> %y)
@@ -341,7 +341,7 @@ define <8 x bfloat> @fma_maskz_load_123_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_load_123_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %y, <8 x bfloat> %z)
@@ -354,7 +354,7 @@ define <8 x bfloat> @fma_maskz_load_213_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_load_213_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %x, <8 x bfloat> %z)
@@ -367,7 +367,7 @@ define <8 x bfloat> @fma_maskz_load_231_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_load_231_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %y, <8 x bfloat> %z, <8 x bfloat> %x)
@@ -380,7 +380,7 @@ define <8 x bfloat> @fma_maskz_load_321_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_load_321_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %y, <8 x bfloat> %x)
@@ -393,7 +393,7 @@ define <8 x bfloat> @fma_maskz_load_132_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_load_132_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %x, <8 x bfloat> %z, <8 x bfloat> %y)
@@ -406,7 +406,7 @@ define <8 x bfloat> @fma_maskz_load_312_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_load_312_v8bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %xmm1, %xmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <8 x bfloat>, ptr %zp
   %a = call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %z, <8 x bfloat> %x, <8 x bfloat> %y)
@@ -418,7 +418,7 @@ define <8 x bfloat> @fma_maskz_load_312_v8bf16(<8 x bfloat> %x, <8 x bfloat> %y,
 define <16 x bfloat> @fma_123_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z) {
 ; CHECK-LABEL: fma_123_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm2, %ymm1, %ymm0
+; CHECK-NEXT:    vfmadd213bf16 %ymm2, %ymm1, %ymm0
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z)
   ret <16 x bfloat> %a
@@ -427,7 +427,7 @@ define <16 x bfloat> @fma_123_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x
 define <16 x bfloat> @fma_213_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z) {
 ; CHECK-LABEL: fma_213_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm2, %ymm1, %ymm0
+; CHECK-NEXT:    vfmadd213bf16 %ymm2, %ymm1, %ymm0
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %x, <16 x bfloat> %z)
   ret <16 x bfloat> %a
@@ -436,7 +436,7 @@ define <16 x bfloat> @fma_213_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x
 define <16 x bfloat> @fma_231_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z) {
 ; CHECK-LABEL: fma_231_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 %ymm1, %ymm2, %ymm0
+; CHECK-NEXT:    vfmadd231bf16 %ymm1, %ymm2, %ymm0
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %z, <16 x bfloat> %x)
   ret <16 x bfloat> %a
@@ -445,7 +445,7 @@ define <16 x bfloat> @fma_231_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x
 define <16 x bfloat> @fma_321_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z) {
 ; CHECK-LABEL: fma_321_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 %ymm1, %ymm2, %ymm0
+; CHECK-NEXT:    vfmadd231bf16 %ymm1, %ymm2, %ymm0
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %y, <16 x bfloat> %x)
   ret <16 x bfloat> %a
@@ -454,7 +454,7 @@ define <16 x bfloat> @fma_321_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x
 define <16 x bfloat> @fma_132_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z) {
 ; CHECK-LABEL: fma_132_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm1, %ymm2, %ymm0
+; CHECK-NEXT:    vfmadd213bf16 %ymm1, %ymm2, %ymm0
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %z, <16 x bfloat> %y)
   ret <16 x bfloat> %a
@@ -463,7 +463,7 @@ define <16 x bfloat> @fma_132_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x
 define <16 x bfloat> @fma_312_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z) {
 ; CHECK-LABEL: fma_312_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm1, %ymm2, %ymm0
+; CHECK-NEXT:    vfmadd213bf16 %ymm1, %ymm2, %ymm0
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %x, <16 x bfloat> %y)
   ret <16 x bfloat> %a
@@ -472,7 +472,7 @@ define <16 x bfloat> @fma_312_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x
 define <16 x bfloat> @fma_load_123_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_123_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %ymm1, %ymm0
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %ymm1, %ymm0
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z)
@@ -482,7 +482,7 @@ define <16 x bfloat> @fma_load_123_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, p
 define <16 x bfloat> @fma_load_213_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_213_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %ymm1, %ymm0
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %ymm1, %ymm0
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %x, <16 x bfloat> %z)
@@ -492,7 +492,7 @@ define <16 x bfloat> @fma_load_213_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, p
 define <16 x bfloat> @fma_load_231_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_231_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %ymm1, %ymm0
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %ymm1, %ymm0
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %z, <16 x bfloat> %x)
@@ -502,7 +502,7 @@ define <16 x bfloat> @fma_load_231_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, p
 define <16 x bfloat> @fma_load_321_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_321_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %ymm1, %ymm0
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %ymm1, %ymm0
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %y, <16 x bfloat> %x)
@@ -512,7 +512,7 @@ define <16 x bfloat> @fma_load_321_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, p
 define <16 x bfloat> @fma_load_132_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_132_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %ymm1, %ymm0
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %ymm1, %ymm0
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %z, <16 x bfloat> %y)
@@ -522,7 +522,7 @@ define <16 x bfloat> @fma_load_132_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, p
 define <16 x bfloat> @fma_load_312_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_312_v16bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %ymm1, %ymm0
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %ymm1, %ymm0
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %x, <16 x bfloat> %y)
@@ -533,7 +533,7 @@ define <16 x bfloat> @fma_mask_123_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_123_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 %ymm1, %ymm2, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 %ymm1, %ymm2, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z)
   %b = bitcast i16 %mask to <16 x i1>
@@ -545,7 +545,7 @@ define <16 x bfloat> @fma_mask_213_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_213_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm2, %ymm1, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 %ymm2, %ymm1, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %x, <16 x bfloat> %z)
   %b = bitcast i16 %mask to <16 x i1>
@@ -557,7 +557,7 @@ define <16 x bfloat> @fma_mask_231_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_231_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %ymm2, %ymm1, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 %ymm2, %ymm1, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %z, <16 x bfloat> %x)
   %b = bitcast i16 %mask to <16 x i1>
@@ -569,7 +569,7 @@ define <16 x bfloat> @fma_mask_321_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_321_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %ymm1, %ymm2, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 %ymm1, %ymm2, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %y, <16 x bfloat> %x)
   %b = bitcast i16 %mask to <16 x i1>
@@ -581,7 +581,7 @@ define <16 x bfloat> @fma_mask_132_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_132_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 %ymm2, %ymm1, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 %ymm2, %ymm1, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %z, <16 x bfloat> %y)
   %b = bitcast i16 %mask to <16 x i1>
@@ -593,7 +593,7 @@ define <16 x bfloat> @fma_mask_312_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_312_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm1, %ymm2, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 %ymm1, %ymm2, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %x, <16 x bfloat> %y)
   %b = bitcast i16 %mask to <16 x i1>
@@ -605,7 +605,7 @@ define <16 x bfloat> @fma_maskz_123_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_123_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z)
   %b = bitcast i16 %mask to <16 x i1>
@@ -617,7 +617,7 @@ define <16 x bfloat> @fma_maskz_213_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_213_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %x, <16 x bfloat> %z)
   %b = bitcast i16 %mask to <16 x i1>
@@ -629,7 +629,7 @@ define <16 x bfloat> @fma_maskz_231_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_231_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %ymm1, %ymm2, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 %ymm1, %ymm2, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %z, <16 x bfloat> %x)
   %b = bitcast i16 %mask to <16 x i1>
@@ -641,7 +641,7 @@ define <16 x bfloat> @fma_maskz_321_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_321_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %ymm1, %ymm2, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 %ymm1, %ymm2, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %y, <16 x bfloat> %x)
   %b = bitcast i16 %mask to <16 x i1>
@@ -653,7 +653,7 @@ define <16 x bfloat> @fma_maskz_132_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_132_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm1, %ymm2, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %ymm1, %ymm2, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %z, <16 x bfloat> %y)
   %b = bitcast i16 %mask to <16 x i1>
@@ -665,7 +665,7 @@ define <16 x bfloat> @fma_maskz_312_v16bf16(<16 x bfloat> %x, <16 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_312_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm1, %ymm2, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %ymm1, %ymm2, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %x, <16 x bfloat> %y)
   %b = bitcast i16 %mask to <16 x i1>
@@ -677,7 +677,7 @@ define <16 x bfloat> @fma_mask_load_123_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_mask_load_123_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %ymm1, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %ymm1, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z)
@@ -690,7 +690,7 @@ define <16 x bfloat> @fma_mask_load_213_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_mask_load_213_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %ymm1, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %ymm1, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %x, <16 x bfloat> %z)
@@ -703,7 +703,7 @@ define <16 x bfloat> @fma_mask_load_231_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_mask_load_231_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %ymm1, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %ymm1, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %z, <16 x bfloat> %x)
@@ -716,7 +716,7 @@ define <16 x bfloat> @fma_mask_load_321_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_mask_load_321_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %ymm1, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %ymm1, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %y, <16 x bfloat> %x)
@@ -729,7 +729,7 @@ define <16 x bfloat> @fma_mask_load_132_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_mask_load_132_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %ymm1, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %ymm1, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %z, <16 x bfloat> %y)
@@ -742,7 +742,7 @@ define <16 x bfloat> @fma_mask_load_312_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_mask_load_312_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %ymm1, %ymm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %ymm1, %ymm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %x, <16 x bfloat> %y)
@@ -755,7 +755,7 @@ define <16 x bfloat> @fma_maskz_load_123_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_123_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %y, <16 x bfloat> %z)
@@ -768,7 +768,7 @@ define <16 x bfloat> @fma_maskz_load_213_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_213_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %x, <16 x bfloat> %z)
@@ -781,7 +781,7 @@ define <16 x bfloat> @fma_maskz_load_231_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_231_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %y, <16 x bfloat> %z, <16 x bfloat> %x)
@@ -794,7 +794,7 @@ define <16 x bfloat> @fma_maskz_load_321_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_321_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %y, <16 x bfloat> %x)
@@ -807,7 +807,7 @@ define <16 x bfloat> @fma_maskz_load_132_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_132_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %x, <16 x bfloat> %z, <16 x bfloat> %y)
@@ -820,7 +820,7 @@ define <16 x bfloat> @fma_maskz_load_312_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_312_v16bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %ymm1, %ymm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <16 x bfloat>, ptr %zp
   %a = call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %z, <16 x bfloat> %x, <16 x bfloat> %y)
@@ -832,7 +832,7 @@ define <16 x bfloat> @fma_maskz_load_312_v16bf16(<16 x bfloat> %x, <16 x bfloat>
 define <32 x bfloat> @fma_123_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z) {
 ; CHECK-LABEL: fma_123_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm2, %zmm1, %zmm0
+; CHECK-NEXT:    vfmadd213bf16 %zmm2, %zmm1, %zmm0
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z)
   ret <32 x bfloat> %a
@@ -841,7 +841,7 @@ define <32 x bfloat> @fma_123_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x
 define <32 x bfloat> @fma_213_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z) {
 ; CHECK-LABEL: fma_213_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm2, %zmm1, %zmm0
+; CHECK-NEXT:    vfmadd213bf16 %zmm2, %zmm1, %zmm0
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %x, <32 x bfloat> %z)
   ret <32 x bfloat> %a
@@ -850,7 +850,7 @@ define <32 x bfloat> @fma_213_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x
 define <32 x bfloat> @fma_231_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z) {
 ; CHECK-LABEL: fma_231_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 %zmm1, %zmm2, %zmm0
+; CHECK-NEXT:    vfmadd231bf16 %zmm1, %zmm2, %zmm0
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %z, <32 x bfloat> %x)
   ret <32 x bfloat> %a
@@ -859,7 +859,7 @@ define <32 x bfloat> @fma_231_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x
 define <32 x bfloat> @fma_321_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z) {
 ; CHECK-LABEL: fma_321_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 %zmm1, %zmm2, %zmm0
+; CHECK-NEXT:    vfmadd231bf16 %zmm1, %zmm2, %zmm0
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %y, <32 x bfloat> %x)
   ret <32 x bfloat> %a
@@ -868,7 +868,7 @@ define <32 x bfloat> @fma_321_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x
 define <32 x bfloat> @fma_132_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z) {
 ; CHECK-LABEL: fma_132_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm1, %zmm2, %zmm0
+; CHECK-NEXT:    vfmadd213bf16 %zmm1, %zmm2, %zmm0
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %z, <32 x bfloat> %y)
   ret <32 x bfloat> %a
@@ -877,7 +877,7 @@ define <32 x bfloat> @fma_132_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x
 define <32 x bfloat> @fma_312_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z) {
 ; CHECK-LABEL: fma_312_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm1, %zmm2, %zmm0
+; CHECK-NEXT:    vfmadd213bf16 %zmm1, %zmm2, %zmm0
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %x, <32 x bfloat> %y)
   ret <32 x bfloat> %a
@@ -886,7 +886,7 @@ define <32 x bfloat> @fma_312_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x
 define <32 x bfloat> @fma_load_123_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_123_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %zmm1, %zmm0
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %zmm1, %zmm0
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z)
@@ -896,7 +896,7 @@ define <32 x bfloat> @fma_load_123_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, p
 define <32 x bfloat> @fma_load_213_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_213_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %zmm1, %zmm0
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %zmm1, %zmm0
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %x, <32 x bfloat> %z)
@@ -906,7 +906,7 @@ define <32 x bfloat> @fma_load_213_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, p
 define <32 x bfloat> @fma_load_231_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_231_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %zmm1, %zmm0
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %zmm1, %zmm0
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %z, <32 x bfloat> %x)
@@ -916,7 +916,7 @@ define <32 x bfloat> @fma_load_231_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, p
 define <32 x bfloat> @fma_load_321_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_321_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %zmm1, %zmm0
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %zmm1, %zmm0
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %y, <32 x bfloat> %x)
@@ -926,7 +926,7 @@ define <32 x bfloat> @fma_load_321_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, p
 define <32 x bfloat> @fma_load_132_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_132_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %zmm1, %zmm0
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %zmm1, %zmm0
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %z, <32 x bfloat> %y)
@@ -936,7 +936,7 @@ define <32 x bfloat> @fma_load_132_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, p
 define <32 x bfloat> @fma_load_312_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, ptr %zp) {
 ; CHECK-LABEL: fma_load_312_v32bf16:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %zmm1, %zmm0
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %zmm1, %zmm0
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %x, <32 x bfloat> %y)
@@ -947,7 +947,7 @@ define <32 x bfloat> @fma_mask_123_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_123_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 %zmm1, %zmm2, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 %zmm1, %zmm2, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z)
   %b = bitcast i32 %mask to <32 x i1>
@@ -959,7 +959,7 @@ define <32 x bfloat> @fma_mask_213_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_213_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm2, %zmm1, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 %zmm2, %zmm1, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %x, <32 x bfloat> %z)
   %b = bitcast i32 %mask to <32 x i1>
@@ -971,7 +971,7 @@ define <32 x bfloat> @fma_mask_231_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_231_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %zmm2, %zmm1, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 %zmm2, %zmm1, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %z, <32 x bfloat> %x)
   %b = bitcast i32 %mask to <32 x i1>
@@ -983,7 +983,7 @@ define <32 x bfloat> @fma_mask_321_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_321_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %zmm1, %zmm2, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 %zmm1, %zmm2, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %y, <32 x bfloat> %x)
   %b = bitcast i32 %mask to <32 x i1>
@@ -995,7 +995,7 @@ define <32 x bfloat> @fma_mask_132_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_132_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 %zmm2, %zmm1, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 %zmm2, %zmm1, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %z, <32 x bfloat> %y)
   %b = bitcast i32 %mask to <32 x i1>
@@ -1007,7 +1007,7 @@ define <32 x bfloat> @fma_mask_312_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <
 ; CHECK-LABEL: fma_mask_312_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm1, %zmm2, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 %zmm1, %zmm2, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %x, <32 x bfloat> %y)
   %b = bitcast i32 %mask to <32 x i1>
@@ -1019,7 +1019,7 @@ define <32 x bfloat> @fma_maskz_123_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_123_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z)
   %b = bitcast i32 %mask to <32 x i1>
@@ -1031,7 +1031,7 @@ define <32 x bfloat> @fma_maskz_213_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_213_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %x, <32 x bfloat> %z)
   %b = bitcast i32 %mask to <32 x i1>
@@ -1043,7 +1043,7 @@ define <32 x bfloat> @fma_maskz_231_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_231_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %zmm1, %zmm2, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 %zmm1, %zmm2, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %z, <32 x bfloat> %x)
   %b = bitcast i32 %mask to <32 x i1>
@@ -1055,7 +1055,7 @@ define <32 x bfloat> @fma_maskz_321_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_321_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 %zmm1, %zmm2, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 %zmm1, %zmm2, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %y, <32 x bfloat> %x)
   %b = bitcast i32 %mask to <32 x i1>
@@ -1067,7 +1067,7 @@ define <32 x bfloat> @fma_maskz_132_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_132_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm1, %zmm2, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %zmm1, %zmm2, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %z, <32 x bfloat> %y)
   %b = bitcast i32 %mask to <32 x i1>
@@ -1079,7 +1079,7 @@ define <32 x bfloat> @fma_maskz_312_v32bf16(<32 x bfloat> %x, <32 x bfloat> %y,
 ; CHECK-LABEL: fma_maskz_312_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %edi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm1, %zmm2, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 %zmm1, %zmm2, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %x, <32 x bfloat> %y)
   %b = bitcast i32 %mask to <32 x i1>
@@ -1091,7 +1091,7 @@ define <32 x bfloat> @fma_mask_load_123_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_mask_load_123_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %zmm1, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %zmm1, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z)
@@ -1104,7 +1104,7 @@ define <32 x bfloat> @fma_mask_load_213_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_mask_load_213_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %zmm1, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %zmm1, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %x, <32 x bfloat> %z)
@@ -1117,7 +1117,7 @@ define <32 x bfloat> @fma_mask_load_231_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_mask_load_231_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %zmm1, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %zmm1, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %z, <32 x bfloat> %x)
@@ -1130,7 +1130,7 @@ define <32 x bfloat> @fma_mask_load_321_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_mask_load_321_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %zmm1, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %zmm1, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %y, <32 x bfloat> %x)
@@ -1143,7 +1143,7 @@ define <32 x bfloat> @fma_mask_load_132_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_mask_load_132_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %zmm1, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %zmm1, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %z, <32 x bfloat> %y)
@@ -1156,7 +1156,7 @@ define <32 x bfloat> @fma_mask_load_312_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_mask_load_312_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %zmm1, %zmm0 {%k1}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %zmm1, %zmm0 {%k1}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %x, <32 x bfloat> %y)
@@ -1169,7 +1169,7 @@ define <32 x bfloat> @fma_maskz_load_123_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_123_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %y, <32 x bfloat> %z)
@@ -1182,7 +1182,7 @@ define <32 x bfloat> @fma_maskz_load_213_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_213_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd213nepbf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd213bf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %x, <32 x bfloat> %z)
@@ -1195,7 +1195,7 @@ define <32 x bfloat> @fma_maskz_load_231_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_231_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %y, <32 x bfloat> %z, <32 x bfloat> %x)
@@ -1208,7 +1208,7 @@ define <32 x bfloat> @fma_maskz_load_321_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_321_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd231nepbf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd231bf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %y, <32 x bfloat> %x)
@@ -1221,7 +1221,7 @@ define <32 x bfloat> @fma_maskz_load_132_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_132_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %x, <32 x bfloat> %z, <32 x bfloat> %y)
@@ -1234,7 +1234,7 @@ define <32 x bfloat> @fma_maskz_load_312_v32bf16(<32 x bfloat> %x, <32 x bfloat>
 ; CHECK-LABEL: fma_maskz_load_312_v32bf16:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    kmovd %esi, %k1
-; CHECK-NEXT:    vfmadd132nepbf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
+; CHECK-NEXT:    vfmadd132bf16 (%rdi), %zmm1, %zmm0 {%k1} {z}
 ; CHECK-NEXT:    retq
   %z = load <32 x bfloat>, ptr %zp
   %a = call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %z, <32 x bfloat> %x, <32 x bfloat> %y)
diff --git a/llvm/test/CodeGen/X86/avx10_2_512bf16-arith.ll b/llvm/test/CodeGen/X86/avx10_2_512bf16-arith.ll
index 33c40ac6bb32c..1e2cf4956bd08 100644
--- a/llvm/test/CodeGen/X86/avx10_2_512bf16-arith.ll
+++ b/llvm/test/CodeGen/X86/avx10_2_512bf16-arith.ll
@@ -2,26 +2,26 @@
 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown --show-mc-encoding -mattr=+avx10.2-512 | FileCheck %s --check-prefixes=CHECK,X64
 ; RUN: llc < %s -verify-machineinstrs -mtriple=i686-unknown-unknown --show-mc-encoding -mattr=+avx10.2-512 | FileCheck %s --check-prefixes=CHECK,X86
 
-define <32 x bfloat> @test_int_x86_avx10_vaddnepbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_vaddnepbf16512:
+define <32 x bfloat> @test_int_x86_avx10_vaddbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_vaddbf16512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vaddnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x58,0xc1]
+; CHECK-NEXT:    vaddbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x58,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fadd <32 x bfloat>  %x1, %x2
   ret <32 x bfloat> %res
 }
 
-define <32 x bfloat> @test_int_x86_avx10_mask_add_nepbf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_add_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_mask_add_bf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_add_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vaddnepbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x58,0xc2]
+; X64-NEXT:    vaddbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x58,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_add_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_mask_add_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vaddnepbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x58,0xc2]
+; X86-NEXT:    vaddbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x58,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
   %res0 = fadd <32 x bfloat>  %x1, %x2
@@ -29,22 +29,22 @@ define <32 x bfloat> @test_int_x86_avx10_mask_add_nepbf16_512(<32 x bfloat> %src
   ret <32 x bfloat> %res
 }
 
-define <32 x bfloat> @test_int_x86_avx10_maskz_add_nepbf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_add_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_maskz_add_bf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_add_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vaddnepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x58,0xc2]
-; X64-NEXT:    vaddnepbf16 (%rsi), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x58,0x0e]
-; X64-NEXT:    vaddnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x58,0xc1]
+; X64-NEXT:    vaddbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x58,0xc2]
+; X64-NEXT:    vaddbf16 (%rsi), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x58,0x0e]
+; X64-NEXT:    vaddbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x58,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_add_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_maskz_add_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vaddnepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x58,0xc2]
-; X86-NEXT:    vaddnepbf16 (%eax), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x58,0x08]
-; X86-NEXT:    vaddnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x58,0xc1]
+; X86-NEXT:    vaddbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x58,0xc2]
+; X86-NEXT:    vaddbf16 (%eax), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x58,0x08]
+; X86-NEXT:    vaddbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x58,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
   %val = load <32 x bfloat>, ptr %ptr
@@ -56,26 +56,26 @@ define <32 x bfloat> @test_int_x86_avx10_maskz_add_nepbf16_512(<32 x bfloat> %sr
   ret <32 x bfloat> %res3
 }
 
-define <32 x bfloat> @test_int_x86_avx10_sub_nepbf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_sub_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_sub_bf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_sub_bf16_512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vsubnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5c,0xc1]
+; CHECK-NEXT:    vsubbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5c,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fsub <32 x bfloat> %x1, %x2
   ret <32 x bfloat> %res
 }
 
-define <32 x bfloat> @test_int_x86_avx10_mask_sub_nepbf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_sub_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_mask_sub_bf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_sub_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsubnepbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x5c,0xc2]
+; X64-NEXT:    vsubbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x5c,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_sub_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_mask_sub_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsubnepbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x5c,0xc2]
+; X86-NEXT:    vsubbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x5c,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
   %res0 = fsub <32 x bfloat> %x1, %x2
@@ -83,22 +83,22 @@ define <32 x bfloat> @test_int_x86_avx10_mask_sub_nepbf16_512(<32 x bfloat> %src
   ret <32 x bfloat> %res
 }
 
-define <32 x bfloat> @test_int_x86_avx10_maskz_sub_nepbf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_sub_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_maskz_sub_bf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_sub_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsubnepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5c,0xc2]
-; X64-NEXT:    vsubnepbf16 (%rsi), %zmm1, %zmm1 # encoding: [0x62,0xf5,0x75,0x48,0x5c,0x0e]
-; X64-NEXT:    vsubnepbf16 %zmm1, %zmm0, %zmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x49,0x5c,0xc1]
+; X64-NEXT:    vsubbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5c,0xc2]
+; X64-NEXT:    vsubbf16 (%rsi), %zmm1, %zmm1 # encoding: [0x62,0xf5,0x75,0x48,0x5c,0x0e]
+; X64-NEXT:    vsubbf16 %zmm1, %zmm0, %zmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x49,0x5c,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_sub_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_maskz_sub_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsubnepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5c,0xc2]
-; X86-NEXT:    vsubnepbf16 (%eax), %zmm1, %zmm1 # encoding: [0x62,0xf5,0x75,0x48,0x5c,0x08]
-; X86-NEXT:    vsubnepbf16 %zmm1, %zmm0, %zmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x49,0x5c,0xc1]
+; X86-NEXT:    vsubbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5c,0xc2]
+; X86-NEXT:    vsubbf16 (%eax), %zmm1, %zmm1 # encoding: [0x62,0xf5,0x75,0x48,0x5c,0x08]
+; X86-NEXT:    vsubbf16 %zmm1, %zmm0, %zmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x49,0x5c,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
   %val = load <32 x bfloat>, ptr %ptr
@@ -110,28 +110,28 @@ define <32 x bfloat> @test_int_x86_avx10_maskz_sub_nepbf16_512(<32 x bfloat> %sr
   ret <32 x bfloat> %res3
 }
 
-declare <32 x bfloat> @llvm.x86.avx10.vmulnepbf16512(<32 x bfloat>, <32 x bfloat>)
+declare <32 x bfloat> @llvm.x86.avx10.vmulbf16512(<32 x bfloat>, <32 x bfloat>)
 
-define <32 x bfloat> @test_int_x86_avx10_mul_nepbf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_mul_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_mul_bf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_mul_bf16_512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vmulnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x59,0xc1]
+; CHECK-NEXT:    vmulbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x59,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fmul <32 x bfloat> %x1, %x2
   ret <32 x bfloat> %res
 }
 
-define <32 x bfloat> @test_int_x86_avx10_mask_mul_nepbf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_mul_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_mask_mul_bf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_mul_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vmulnepbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x59,0xc2]
+; X64-NEXT:    vmulbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x59,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_mul_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_mask_mul_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vmulnepbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x59,0xc2]
+; X86-NEXT:    vmulbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x59,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
   %res0 = fmul <32 x bfloat> %x1, %x2
@@ -139,22 +139,22 @@ define <32 x bfloat> @test_int_x86_avx10_mask_mul_nepbf16_512(<32 x bfloat> %src
   ret <32 x bfloat> %res
 }
 
-define <32 x bfloat> @test_int_x86_avx10_maskz_mul_nepbf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_mul_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_maskz_mul_bf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_mul_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vmulnepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x59,0xc2]
-; X64-NEXT:    vmulnepbf16 (%rsi), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x59,0x0e]
-; X64-NEXT:    vmulnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x59,0xc1]
+; X64-NEXT:    vmulbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x59,0xc2]
+; X64-NEXT:    vmulbf16 (%rsi), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x59,0x0e]
+; X64-NEXT:    vmulbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x59,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_mul_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_maskz_mul_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vmulnepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x59,0xc2]
-; X86-NEXT:    vmulnepbf16 (%eax), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x59,0x08]
-; X86-NEXT:    vmulnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x59,0xc1]
+; X86-NEXT:    vmulbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x59,0xc2]
+; X86-NEXT:    vmulbf16 (%eax), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x59,0x08]
+; X86-NEXT:    vmulbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x59,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
   %val = load <32 x bfloat>, ptr %ptr
@@ -166,26 +166,26 @@ define <32 x bfloat> @test_int_x86_avx10_maskz_mul_nepbf16_512(<32 x bfloat> %sr
   ret <32 x bfloat> %res3
 }
 
-define <32 x bfloat> @test_int_x86_avx10_div_nepbf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_div_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_div_bf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_div_bf16_512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vdivnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5e,0xc1]
+; CHECK-NEXT:    vdivbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5e,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fdiv <32 x bfloat> %x1, %x2
   ret <32 x bfloat> %res
 }
 
-define <32 x bfloat> @test_int_x86_avx10_mask_div_nepbf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_div_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_mask_div_bf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_div_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vdivnepbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x5e,0xc2]
+; X64-NEXT:    vdivbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x5e,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_div_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_mask_div_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vdivnepbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x5e,0xc2]
+; X86-NEXT:    vdivbf16 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x49,0x5e,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
   %res0 = fdiv <32 x bfloat> %x1, %x2
@@ -193,22 +193,22 @@ define <32 x bfloat> @test_int_x86_avx10_mask_div_nepbf16_512(<32 x bfloat> %src
   ret <32 x bfloat> %res
 }
 
-define <32 x bfloat> @test_int_x86_avx10_maskz_div_nepbf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_div_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_maskz_div_bf16_512(<32 x bfloat> %src, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_div_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vdivnepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5e,0xc2]
-; X64-NEXT:    vdivnepbf16 (%rsi), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5e,0x0e]
-; X64-NEXT:    vdivnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5e,0xc1]
+; X64-NEXT:    vdivbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5e,0xc2]
+; X64-NEXT:    vdivbf16 (%rsi), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5e,0x0e]
+; X64-NEXT:    vdivbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5e,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_div_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_maskz_div_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vdivnepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5e,0xc2]
-; X86-NEXT:    vdivnepbf16 (%eax), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5e,0x08]
-; X86-NEXT:    vdivnepbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5e,0xc1]
+; X86-NEXT:    vdivbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5e,0xc2]
+; X86-NEXT:    vdivbf16 (%eax), %zmm1, %zmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xc9,0x5e,0x08]
+; X86-NEXT:    vdivbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5e,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
   %val = load <32 x bfloat>, ptr %ptr
@@ -220,10 +220,10 @@ define <32 x bfloat> @test_int_x86_avx10_maskz_div_nepbf16_512(<32 x bfloat> %sr
   ret <32 x bfloat> %res3
 }
 
-define i32 @test_int_x86_avx10_vcmppbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_vcmppbf16512:
+define i32 @test_int_x86_avx10_vcmpbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_vcmpbf16512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcmpunordpbf16 %zmm1, %zmm0, %k0 # encoding: [0x62,0xf3,0x7f,0x48,0xc2,0xc1,0x03]
+; CHECK-NEXT:    vcmpunordbf16 %zmm1, %zmm0, %k0 # encoding: [0x62,0xf3,0x7f,0x48,0xc2,0xc1,0x03]
 ; CHECK-NEXT:    kmovd %k0, %eax # encoding: [0xc5,0xfb,0x93,0xc0]
 ; CHECK-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
@@ -233,10 +233,10 @@ define i32 @test_int_x86_avx10_vcmppbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2
 }
 
 ; FIXME: _mm512_mask_cmp_p[s|h]_mask is not using {k2} but gcc does
-define i32 @test_int_x86_avx10_vcmppbf16512_mask2(<32 x bfloat> %x1, <32 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_vcmppbf16512_mask2:
+define i32 @test_int_x86_avx10_vcmpbf16512_mask2(<32 x bfloat> %x1, <32 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_vcmpbf16512_mask2:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcmpeqpbf16 %zmm1, %zmm0, %k0 # encoding: [0x62,0xf3,0x7f,0x48,0xc2,0xc1,0x00]
+; CHECK-NEXT:    vcmpeqbf16 %zmm1, %zmm0, %k0 # encoding: [0x62,0xf3,0x7f,0x48,0xc2,0xc1,0x00]
 ; CHECK-NEXT:    kmovd %k0, %eax # encoding: [0xc5,0xfb,0x93,0xc0]
 ; CHECK-NEXT:    andl $3, %eax # encoding: [0x83,0xe0,0x03]
 ; CHECK-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
@@ -247,10 +247,10 @@ define i32 @test_int_x86_avx10_vcmppbf16512_mask2(<32 x bfloat> %x1, <32 x bfloa
   ret i32 %3
 }
 
-define <32 x bfloat> @test_sqrt_nepbf16_512(<32 x bfloat> %a0) {
-; CHECK-LABEL: test_sqrt_nepbf16_512:
+define <32 x bfloat> @test_sqrt_bf16_512(<32 x bfloat> %a0) {
+; CHECK-LABEL: test_sqrt_bf16_512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vsqrtnepbf16 %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x51,0xc0]
+; CHECK-NEXT:    vsqrtbf16 %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x51,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %1 = tail call <32 x bfloat> @llvm.sqrt.v32bf16(<32 x bfloat> %a0)
   ret <32 x bfloat> %1
@@ -260,13 +260,13 @@ define <32 x bfloat> @test_mm512_mask_sqrt_pbh(<32 x bfloat> %__W, i32 %__U, <32
 ; X64-LABEL: test_mm512_mask_sqrt_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsqrtnepbf16 %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x49,0x51,0xc1]
+; X64-NEXT:    vsqrtbf16 %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x49,0x51,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_mask_sqrt_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsqrtnepbf16 %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x49,0x51,0xc1]
+; X86-NEXT:    vsqrtbf16 %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x49,0x51,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <32 x bfloat> @llvm.sqrt.v32bf16(<32 x bfloat> %__A)
@@ -279,13 +279,13 @@ define <32 x bfloat> @test_mm512_maskz_sqrt_pbh(i32 %__U, <32 x bfloat>%__A) {
 ; X64-LABEL: test_mm512_maskz_sqrt_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsqrtnepbf16 %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x51,0xc0]
+; X64-NEXT:    vsqrtbf16 %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x51,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_maskz_sqrt_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsqrtnepbf16 %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x51,0xc0]
+; X86-NEXT:    vsqrtbf16 %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x51,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <32 x bfloat> @llvm.sqrt.v32bf16(<32 x bfloat> %__A)
@@ -297,7 +297,7 @@ entry:
 define <32 x bfloat> @test_mm512_fmaddne_pbh(<32 x bfloat> %__A, <32 x bfloat> %__B, <32 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm512_fmaddne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfmadd213nepbf16 %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf6,0x74,0x48,0xa8,0xc2]
+; CHECK-NEXT:    vfmadd213bf16 %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf6,0x74,0x48,0xa8,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %0 = tail call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %__A, <32 x bfloat> %__B, <32 x bfloat> %__C)
@@ -308,13 +308,13 @@ define <32 x bfloat> @test_mm512_mask_fmaddne_pbh(<32 x bfloat> %__A, i32 %__U,
 ; X64-LABEL: test_mm512_mask_fmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmadd132nepbf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x98,0xc1]
+; X64-NEXT:    vfmadd132bf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x98,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_mask_fmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmadd132nepbf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x98,0xc1]
+; X86-NEXT:    vfmadd132bf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x98,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %__A, <32 x bfloat> %__B, <32 x bfloat> %__C)
@@ -327,14 +327,14 @@ define <32 x bfloat> @test_mm512_mask3_fmaddne_pbh(<32 x bfloat> %__A, <32 x bfl
 ; X64-LABEL: test_mm512_mask3_fmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmadd231nepbf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xb8,0xd1]
+; X64-NEXT:    vfmadd231bf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xb8,0xd1]
 ; X64-NEXT:    vmovaps %zmm2, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_mask3_fmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmadd231nepbf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xb8,0xd1]
+; X86-NEXT:    vfmadd231bf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xb8,0xd1]
 ; X86-NEXT:    vmovaps %zmm2, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -348,13 +348,13 @@ define <32 x bfloat> @test_mm512_maskz_fmaddne_pbh(i32 %__U, <32 x bfloat> %__A,
 ; X64-LABEL: test_mm512_maskz_fmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmadd213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xa8,0xc2]
+; X64-NEXT:    vfmadd213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xa8,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_maskz_fmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmadd213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xa8,0xc2]
+; X86-NEXT:    vfmadd213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xa8,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <32 x bfloat> @llvm.fma.v32bf16(<32 x bfloat> %__A, <32 x bfloat> %__B, <32 x bfloat> %__C)
@@ -366,7 +366,7 @@ entry:
 define <32 x bfloat> @test_mm512_fmsubne_pbh(<32 x bfloat> %__A, <32 x bfloat> %__B, <32 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm512_fmsubne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfmsub213nepbf16 %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf6,0x74,0x48,0xaa,0xc2]
+; CHECK-NEXT:    vfmsub213bf16 %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf6,0x74,0x48,0xaa,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %fneg.i = fneg <32 x bfloat> %__C
@@ -378,13 +378,13 @@ define <32 x bfloat> @test_mm512_mask_fmsubne_pbh(<32 x bfloat> %__A, i32 %__U,
 ; X64-LABEL: test_mm512_mask_fmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmsub132nepbf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9a,0xc1]
+; X64-NEXT:    vfmsub132bf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9a,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_mask_fmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmsub132nepbf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9a,0xc1]
+; X86-NEXT:    vfmsub132bf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9a,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <32 x bfloat> %__C
@@ -398,14 +398,14 @@ define <32 x bfloat> @test_mm512_mask3_fmsubne_pbh(<32 x bfloat> %__A, <32 x bfl
 ; X64-LABEL: test_mm512_mask3_fmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmsub231nepbf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xba,0xd1]
+; X64-NEXT:    vfmsub231bf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xba,0xd1]
 ; X64-NEXT:    vmovaps %zmm2, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_mask3_fmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmsub231nepbf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xba,0xd1]
+; X86-NEXT:    vfmsub231bf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xba,0xd1]
 ; X86-NEXT:    vmovaps %zmm2, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -420,13 +420,13 @@ define <32 x bfloat> @test_mm512_maskz_fmsubne_pbh(i32 %__U, <32 x bfloat> %__A,
 ; X64-LABEL: test_mm512_maskz_fmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmsub213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xaa,0xc2]
+; X64-NEXT:    vfmsub213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xaa,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_maskz_fmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmsub213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xaa,0xc2]
+; X86-NEXT:    vfmsub213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xaa,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <32 x bfloat> %__C
@@ -439,7 +439,7 @@ entry:
 define <32 x bfloat> @test_mm512_fnmaddne_pbh(<32 x bfloat> %__A, <32 x bfloat> %__B, <32 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm512_fnmaddne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfnmadd213nepbf16 %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf6,0x74,0x48,0xac,0xc2]
+; CHECK-NEXT:    vfnmadd213bf16 %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf6,0x74,0x48,0xac,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %fneg.i = fneg <32 x bfloat> %__B
@@ -451,13 +451,13 @@ define <32 x bfloat> @test_mm512_mask_fnmaddne_pbh(<32 x bfloat> %__A, i32 %__U,
 ; X64-LABEL: test_mm512_mask_fnmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmadd132nepbf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9c,0xc1]
+; X64-NEXT:    vfnmadd132bf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9c,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_mask_fnmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmadd132nepbf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9c,0xc1]
+; X86-NEXT:    vfnmadd132bf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9c,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <32 x bfloat> %__B
@@ -471,14 +471,14 @@ define <32 x bfloat> @test_mm512_mask3_fnmaddne_pbh(<32 x bfloat> %__A, <32 x bf
 ; X64-LABEL: test_mm512_mask3_fnmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmadd231nepbf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xbc,0xd1]
+; X64-NEXT:    vfnmadd231bf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xbc,0xd1]
 ; X64-NEXT:    vmovaps %zmm2, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_mask3_fnmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmadd231nepbf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xbc,0xd1]
+; X86-NEXT:    vfnmadd231bf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xbc,0xd1]
 ; X86-NEXT:    vmovaps %zmm2, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -493,13 +493,13 @@ define <32 x bfloat> @test_mm512_maskz_fnmaddne_pbh(i32 %__U, <32 x bfloat> %__A
 ; X64-LABEL: test_mm512_maskz_fnmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmadd213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xac,0xc2]
+; X64-NEXT:    vfnmadd213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xac,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_maskz_fnmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmadd213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xac,0xc2]
+; X86-NEXT:    vfnmadd213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xac,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <32 x bfloat> %__B
@@ -512,7 +512,7 @@ entry:
 define <32 x bfloat> @test_mm512_fnmsubne_pbh(<32 x bfloat> %__A, <32 x bfloat> %__B, <32 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm512_fnmsubne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfnmsub213nepbf16 %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf6,0x74,0x48,0xae,0xc2]
+; CHECK-NEXT:    vfnmsub213bf16 %zmm2, %zmm1, %zmm0 # encoding: [0x62,0xf6,0x74,0x48,0xae,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %fneg.i = fneg <32 x bfloat> %__B
@@ -525,13 +525,13 @@ define <32 x bfloat> @test_mm512_mask_fnmsubne_pbh(<32 x bfloat> %__A, i32 %__U,
 ; X64-LABEL: test_mm512_mask_fnmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmsub132nepbf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9e,0xc1]
+; X64-NEXT:    vfnmsub132bf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9e,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_mask_fnmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmsub132nepbf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9e,0xc1]
+; X86-NEXT:    vfnmsub132bf16 %zmm1, %zmm2, %zmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x49,0x9e,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <32 x bfloat> %__B
@@ -546,14 +546,14 @@ define <32 x bfloat> @test_mm512_mask3_fnmsubne_pbh(<32 x bfloat> %__A, <32 x bf
 ; X64-LABEL: test_mm512_mask3_fnmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmsub231nepbf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xbe,0xd1]
+; X64-NEXT:    vfnmsub231bf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xbe,0xd1]
 ; X64-NEXT:    vmovaps %zmm2, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_mask3_fnmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmsub231nepbf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xbe,0xd1]
+; X86-NEXT:    vfnmsub231bf16 %zmm1, %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0xbe,0xd1]
 ; X86-NEXT:    vmovaps %zmm2, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -569,13 +569,13 @@ define <32 x bfloat> @test_mm512_maskz_fnmsubne_pbh(i32 %__U, <32 x bfloat> %__A
 ; X64-LABEL: test_mm512_maskz_fnmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmsub213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xae,0xc2]
+; X64-NEXT:    vfnmsub213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xae,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm512_maskz_fnmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmsub213nepbf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xae,0xc2]
+; X86-NEXT:    vfnmsub213bf16 %zmm2, %zmm1, %zmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xc9,0xae,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <32 x bfloat> %__B
diff --git a/llvm/test/CodeGen/X86/avx10_2_512bf16-intrinsics.ll b/llvm/test/CodeGen/X86/avx10_2_512bf16-intrinsics.ll
index 5f2bcf0556b02..da17b995afedf 100644
--- a/llvm/test/CodeGen/X86/avx10_2_512bf16-intrinsics.ll
+++ b/llvm/test/CodeGen/X86/avx10_2_512bf16-intrinsics.ll
@@ -2,231 +2,231 @@
 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown --show-mc-encoding -mattr=+avx10.2-512 | FileCheck %s --check-prefixes=CHECK,X64
 ; RUN: llc < %s -verify-machineinstrs -mtriple=i686-unknown-unknown --show-mc-encoding -mattr=+avx10.2-512 | FileCheck %s --check-prefixes=CHECK,X86
 
-declare <32 x bfloat> @llvm.x86.avx10.vminpbf16512(<32 x bfloat>, <32 x bfloat>)
+declare <32 x bfloat> @llvm.x86.avx10.vminbf16512(<32 x bfloat>, <32 x bfloat>)
 
-define <32 x bfloat> @test_int_x86_avx10_min_nepbf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_min_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_min_bf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_min_bf16_512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vminpbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5d,0xc1]
+; CHECK-NEXT:    vminbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5d,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res0 = call <32 x bfloat> @llvm.x86.avx10.vminpbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2)
+  %res0 = call <32 x bfloat> @llvm.x86.avx10.vminbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2)
   ret <32 x bfloat> %res0
 }
 
-define <32 x bfloat> @test_int_x86_avx10_maskz_min_nepbf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk) {
-; X64-LABEL: test_int_x86_avx10_maskz_min_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_maskz_min_bf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk) {
+; X64-LABEL: test_int_x86_avx10_maskz_min_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vminpbf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x5d,0xc1]
+; X64-NEXT:    vminbf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x5d,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_min_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_maskz_min_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vminpbf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x5d,0xc1]
+; X86-NEXT:    vminbf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x5d,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
-  %res0 = call <32 x bfloat> @llvm.x86.avx10.vminpbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2)
+  %res0 = call <32 x bfloat> @llvm.x86.avx10.vminbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2)
   %res1 = select <32 x i1> %mask, <32 x bfloat> %res0, <32 x bfloat> zeroinitializer
   ret <32 x bfloat> %res1
 }
 
-declare <32 x bfloat> @llvm.x86.avx10.vmaxpbf16512(<32 x bfloat>, <32 x bfloat>)
+declare <32 x bfloat> @llvm.x86.avx10.vmaxbf16512(<32 x bfloat>, <32 x bfloat>)
 
-define <32 x bfloat> @test_int_x86_avx10_max_nepbf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_max_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_max_bf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_max_bf16_512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vmaxpbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5f,0xc1]
+; CHECK-NEXT:    vmaxbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x5f,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res0 = call <32 x bfloat> @llvm.x86.avx10.vmaxpbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2)
+  %res0 = call <32 x bfloat> @llvm.x86.avx10.vmaxbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2)
   ret <32 x bfloat> %res0
 }
 
-define <32 x bfloat> @test_int_x86_avx10_maskz_max_nepbf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk) {
-; X64-LABEL: test_int_x86_avx10_maskz_max_nepbf16_512:
+define <32 x bfloat> @test_int_x86_avx10_maskz_max_bf16_512(<32 x bfloat> %x1, <32 x bfloat> %x2, i32 %msk) {
+; X64-LABEL: test_int_x86_avx10_maskz_max_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vmaxpbf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x5f,0xc1]
+; X64-NEXT:    vmaxbf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x5f,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_max_nepbf16_512:
+; X86-LABEL: test_int_x86_avx10_maskz_max_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vmaxpbf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x5f,0xc1]
+; X86-NEXT:    vmaxbf16 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xc9,0x5f,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %msk to <32 x i1>
-  %res0 = call <32 x bfloat> @llvm.x86.avx10.vmaxpbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2)
+  %res0 = call <32 x bfloat> @llvm.x86.avx10.vmaxbf16512(<32 x bfloat> %x1, <32 x bfloat> %x2)
   %res1 = select <32 x i1> %mask, <32 x bfloat> %res0, <32 x bfloat> zeroinitializer
   ret <32 x bfloat> %res1
 }
 
-declare <32 x bfloat> @llvm.x86.avx10.mask.rsqrt.nepbf16.512(<32 x bfloat>, <32 x bfloat>, i32)
+declare <32 x bfloat> @llvm.x86.avx10.mask.rsqrt.bf16.512(<32 x bfloat>, <32 x bfloat>, i32)
 
-define <32 x bfloat> @test_rsqrt_nepbf16_512(<32 x bfloat> %a0) {
-; CHECK-LABEL: test_rsqrt_nepbf16_512:
+define <32 x bfloat> @test_rsqrt_bf16_512(<32 x bfloat> %a0) {
+; CHECK-LABEL: test_rsqrt_bf16_512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vrsqrtpbf16 %zmm0, %zmm0 # encoding: [0x62,0xf6,0x7c,0x48,0x4e,0xc0]
+; CHECK-NEXT:    vrsqrtbf16 %zmm0, %zmm0 # encoding: [0x62,0xf6,0x7c,0x48,0x4e,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <32 x bfloat> @llvm.x86.avx10.mask.rsqrt.nepbf16.512(<32 x bfloat> %a0, <32 x bfloat> zeroinitializer, i32 -1)
+  %res = call <32 x bfloat> @llvm.x86.avx10.mask.rsqrt.bf16.512(<32 x bfloat> %a0, <32 x bfloat> zeroinitializer, i32 -1)
   ret <32 x bfloat> %res
 }
 
-declare <32 x i1> @llvm.x86.avx10.fpclass.nepbf16.512(<32 x bfloat>, i32)
+declare <32 x i1> @llvm.x86.avx10.fpclass.bf16.512(<32 x bfloat>, i32)
 
-define i32 @test_int_x86_avx512_fpclass_nepbf16_512(<32 x bfloat> %x0) {
-; CHECK-LABEL: test_int_x86_avx512_fpclass_nepbf16_512:
+define i32 @test_int_x86_avx512_fpclass_bf16_512(<32 x bfloat> %x0) {
+; CHECK-LABEL: test_int_x86_avx512_fpclass_bf16_512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfpclasspbf16 $6, %zmm0, %k1 # encoding: [0x62,0xf3,0x7f,0x48,0x66,0xc8,0x06]
+; CHECK-NEXT:    vfpclassbf16 $6, %zmm0, %k1 # encoding: [0x62,0xf3,0x7f,0x48,0x66,0xc8,0x06]
 ; CHECK-NEXT:    # k1 = isPositiveZero(zmm0) | isNegativeZero(zmm0)
-; CHECK-NEXT:    vfpclasspbf16 $0, %zmm0, %k0 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x66,0xc0,0x00]
+; CHECK-NEXT:    vfpclassbf16 $0, %zmm0, %k0 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x66,0xc0,0x00]
 ; CHECK-NEXT:    # k0 {%k1} = false
 ; CHECK-NEXT:    kmovd %k0, %eax # encoding: [0xc5,0xfb,0x93,0xc0]
 ; CHECK-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <32 x i1> @llvm.x86.avx10.fpclass.nepbf16.512(<32 x bfloat> %x0, i32 0)
-  %res1 = call <32 x i1> @llvm.x86.avx10.fpclass.nepbf16.512(<32 x bfloat> %x0, i32 6)
+  %res = call <32 x i1> @llvm.x86.avx10.fpclass.bf16.512(<32 x bfloat> %x0, i32 0)
+  %res1 = call <32 x i1> @llvm.x86.avx10.fpclass.bf16.512(<32 x bfloat> %x0, i32 6)
   %1 = and <32 x i1> %res1, %res
   %2 = bitcast <32 x i1> %1 to i32
   ret i32 %2
 }
 
-declare <32 x bfloat> @llvm.x86.avx10.mask.rcp.nepbf16.512(<32 x bfloat>, <32 x bfloat>, i32)
+declare <32 x bfloat> @llvm.x86.avx10.mask.rcp.bf16.512(<32 x bfloat>, <32 x bfloat>, i32)
 
-define <32 x bfloat> @test_rcp_nepbf16_512(<32 x bfloat> %a0, <32 x bfloat> %a1, i32 %mask) {
-; X64-LABEL: test_rcp_nepbf16_512:
+define <32 x bfloat> @test_rcp_bf16_512(<32 x bfloat> %a0, <32 x bfloat> %a1, i32 %mask) {
+; X64-LABEL: test_rcp_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vrcppbf16 %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0x4c,0xc8]
+; X64-NEXT:    vrcpbf16 %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0x4c,0xc8]
 ; X64-NEXT:    vmovaps %zmm1, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_rcp_nepbf16_512:
+; X86-LABEL: test_rcp_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vrcppbf16 %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0x4c,0xc8]
+; X86-NEXT:    vrcpbf16 %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x49,0x4c,0xc8]
 ; X86-NEXT:    vmovaps %zmm1, %zmm0 # encoding: [0x62,0xf1,0x7c,0x48,0x28,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <32 x bfloat> @llvm.x86.avx10.mask.rcp.nepbf16.512(<32 x bfloat> %a0, <32 x bfloat> %a1, i32 %mask)
+  %res = call <32 x bfloat> @llvm.x86.avx10.mask.rcp.bf16.512(<32 x bfloat> %a0, <32 x bfloat> %a1, i32 %mask)
   ret <32 x bfloat> %res
 }
 
-declare <32 x bfloat> @llvm.x86.avx10.mask.reduce.nepbf16.512(<32 x bfloat>, i32, <32 x bfloat>, i32)
+declare <32 x bfloat> @llvm.x86.avx10.mask.reduce.bf16.512(<32 x bfloat>, i32, <32 x bfloat>, i32)
 
-define <32 x bfloat>@test_int_x86_avx512_mask_reduce_nepbf16_512(<32 x bfloat> %x0, <32 x bfloat> %x2, i32 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_reduce_nepbf16_512:
+define <32 x bfloat>@test_int_x86_avx512_mask_reduce_bf16_512(<32 x bfloat> %x0, <32 x bfloat> %x2, i32 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_reduce_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vreducenepbf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x56,0xc8,0x08]
-; X64-NEXT:    vreducenepbf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x56,0xc0,0x04]
-; X64-NEXT:    vaddnepbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
+; X64-NEXT:    vreducebf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x56,0xc8,0x08]
+; X64-NEXT:    vreducebf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x56,0xc0,0x04]
+; X64-NEXT:    vaddbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_reduce_nepbf16_512:
+; X86-LABEL: test_int_x86_avx512_mask_reduce_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vreducenepbf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x56,0xc8,0x08]
-; X86-NEXT:    vreducenepbf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x56,0xc0,0x04]
-; X86-NEXT:    vaddnepbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
+; X86-NEXT:    vreducebf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x56,0xc8,0x08]
+; X86-NEXT:    vreducebf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x56,0xc0,0x04]
+; X86-NEXT:    vaddbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <32 x bfloat> @llvm.x86.avx10.mask.reduce.nepbf16.512(<32 x bfloat> %x0, i32 8, <32 x bfloat> %x2, i32 %x3)
-  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.reduce.nepbf16.512(<32 x bfloat> %x0, i32 4, <32 x bfloat> %x2, i32 -1)
+  %res = call <32 x bfloat> @llvm.x86.avx10.mask.reduce.bf16.512(<32 x bfloat> %x0, i32 8, <32 x bfloat> %x2, i32 %x3)
+  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.reduce.bf16.512(<32 x bfloat> %x0, i32 4, <32 x bfloat> %x2, i32 -1)
   %res2 = fadd <32 x bfloat> %res, %res1
   ret <32 x bfloat> %res2
 }
 
-declare <32 x bfloat> @llvm.x86.avx10.mask.rndscale.nepbf16.512(<32 x bfloat>, i32, <32 x bfloat>, i32)
+declare <32 x bfloat> @llvm.x86.avx10.mask.rndscale.bf16.512(<32 x bfloat>, i32, <32 x bfloat>, i32)
 
-define <32 x bfloat>@test_int_x86_avx512_mask_rndscale_nepbf16_512(<32 x bfloat> %x0, <32 x bfloat> %x2, i32 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_rndscale_nepbf16_512:
+define <32 x bfloat>@test_int_x86_avx512_mask_rndscale_bf16_512(<32 x bfloat> %x0, <32 x bfloat> %x2, i32 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_rndscale_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vrndscalenepbf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x08,0xc8,0x08]
-; X64-NEXT:    vrndscalenepbf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x08,0xc0,0x04]
-; X64-NEXT:    vaddnepbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
+; X64-NEXT:    vrndscalebf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x08,0xc8,0x08]
+; X64-NEXT:    vrndscalebf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x08,0xc0,0x04]
+; X64-NEXT:    vaddbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_rndscale_nepbf16_512:
+; X86-LABEL: test_int_x86_avx512_mask_rndscale_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vrndscalenepbf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x08,0xc8,0x08]
-; X86-NEXT:    vrndscalenepbf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x08,0xc0,0x04]
-; X86-NEXT:    vaddnepbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
+; X86-NEXT:    vrndscalebf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x08,0xc8,0x08]
+; X86-NEXT:    vrndscalebf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x08,0xc0,0x04]
+; X86-NEXT:    vaddbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <32 x bfloat> @llvm.x86.avx10.mask.rndscale.nepbf16.512(<32 x bfloat> %x0, i32 8, <32 x bfloat> %x2, i32 %x3)
-  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.rndscale.nepbf16.512(<32 x bfloat> %x0, i32 4, <32 x bfloat> %x2, i32 -1)
+  %res = call <32 x bfloat> @llvm.x86.avx10.mask.rndscale.bf16.512(<32 x bfloat> %x0, i32 8, <32 x bfloat> %x2, i32 %x3)
+  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.rndscale.bf16.512(<32 x bfloat> %x0, i32 4, <32 x bfloat> %x2, i32 -1)
   %res2 = fadd <32 x bfloat> %res, %res1
   ret <32 x bfloat> %res2
 }
 
-declare <32 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.512(<32 x bfloat>, <32 x bfloat>, i32)
+declare <32 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.512(<32 x bfloat>, <32 x bfloat>, i32)
 
-define <32 x bfloat>@test_int_x86_avx512_mask_getexp_nepbf16_512(<32 x bfloat> %x0, <32 x bfloat> %x1, i32 %x2) {
-; X64-LABEL: test_int_x86_avx512_mask_getexp_nepbf16_512:
+define <32 x bfloat>@test_int_x86_avx512_mask_getexp_bf16_512(<32 x bfloat> %x0, <32 x bfloat> %x1, i32 %x2) {
+; X64-LABEL: test_int_x86_avx512_mask_getexp_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vgetexppbf16 %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x42,0xc0]
+; X64-NEXT:    vgetexpbf16 %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x42,0xc0]
 ; X64-NEXT:    vmovdqu16 %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf1,0xff,0x49,0x6f,0xc8]
-; X64-NEXT:    vaddnepbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
+; X64-NEXT:    vaddbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_getexp_nepbf16_512:
+; X86-LABEL: test_int_x86_avx512_mask_getexp_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vgetexppbf16 %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x42,0xc0]
+; X86-NEXT:    vgetexpbf16 %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7d,0x48,0x42,0xc0]
 ; X86-NEXT:    vmovdqu16 %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf1,0xff,0x49,0x6f,0xc8]
-; X86-NEXT:    vaddnepbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
+; X86-NEXT:    vaddbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.512(<32 x bfloat> %x0, <32 x bfloat> %x1, i32 %x2)
-  %res2 = call <32 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.512(<32 x bfloat> %x0, <32 x bfloat> zeroinitializer, i32 -1)
+  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.512(<32 x bfloat> %x0, <32 x bfloat> %x1, i32 %x2)
+  %res2 = call <32 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.512(<32 x bfloat> %x0, <32 x bfloat> zeroinitializer, i32 -1)
   %res3 = fadd <32 x bfloat> %res1, %res2
   ret <32 x bfloat> %res3
 }
 
-declare <32 x bfloat> @llvm.x86.avx10.mask.getmant.nepbf16.512(<32 x bfloat>, i32, <32 x bfloat>, i32)
+declare <32 x bfloat> @llvm.x86.avx10.mask.getmant.bf16.512(<32 x bfloat>, i32, <32 x bfloat>, i32)
 
-define <32 x bfloat>@test_int_x86_avx512_mask_getmant_nepbf16_512(<32 x bfloat> %x0, <32 x bfloat> %x2, i32 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_getmant_nepbf16_512:
+define <32 x bfloat>@test_int_x86_avx512_mask_getmant_bf16_512(<32 x bfloat> %x0, <32 x bfloat> %x2, i32 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_getmant_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vgetmantpbf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x26,0xc8,0x08]
-; X64-NEXT:    vgetmantpbf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x26,0xc0,0x04]
-; X64-NEXT:    vaddnepbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
+; X64-NEXT:    vgetmantbf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x26,0xc8,0x08]
+; X64-NEXT:    vgetmantbf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x26,0xc0,0x04]
+; X64-NEXT:    vaddbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_getmant_nepbf16_512:
+; X86-LABEL: test_int_x86_avx512_mask_getmant_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vgetmantpbf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x26,0xc8,0x08]
-; X86-NEXT:    vgetmantpbf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x26,0xc0,0x04]
-; X86-NEXT:    vaddnepbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
+; X86-NEXT:    vgetmantbf16 $8, %zmm0, %zmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x49,0x26,0xc8,0x08]
+; X86-NEXT:    vgetmantbf16 $4, %zmm0, %zmm0 # encoding: [0x62,0xf3,0x7f,0x48,0x26,0xc0,0x04]
+; X86-NEXT:    vaddbf16 %zmm0, %zmm1, %zmm0 # encoding: [0x62,0xf5,0x75,0x48,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <32 x bfloat> @llvm.x86.avx10.mask.getmant.nepbf16.512(<32 x bfloat> %x0, i32 8, <32 x bfloat> %x2, i32 %x3)
-  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.getmant.nepbf16.512(<32 x bfloat> %x0, i32 4, <32 x bfloat> %x2, i32 -1)
+  %res = call <32 x bfloat> @llvm.x86.avx10.mask.getmant.bf16.512(<32 x bfloat> %x0, i32 8, <32 x bfloat> %x2, i32 %x3)
+  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.getmant.bf16.512(<32 x bfloat> %x0, i32 4, <32 x bfloat> %x2, i32 -1)
   %res2 = fadd <32 x bfloat> %res, %res1
   ret <32 x bfloat> %res2
 }
 
-declare <32 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.512(<32 x bfloat>, <32 x bfloat>, <32 x bfloat>, i32)
+declare <32 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.512(<32 x bfloat>, <32 x bfloat>, <32 x bfloat>, i32)
 
-define <32 x bfloat>@test_int_x86_avx512_mask_scalef_nepbf16_512(<32 x bfloat> %x0, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_scalef_nepbf16_512:
+define <32 x bfloat>@test_int_x86_avx512_mask_scalef_bf16_512(<32 x bfloat> %x0, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_scalef_bf16_512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vscalefpbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf6,0x7c,0x48,0x2c,0xc1]
+; X64-NEXT:    vscalefbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf6,0x7c,0x48,0x2c,0xc1]
 ; X64-NEXT:    vmovdqu16 %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf1,0xff,0x49,0x6f,0xd0]
-; X64-NEXT:    vaddnepbf16 %zmm0, %zmm2, %zmm0 # encoding: [0x62,0xf5,0x6d,0x48,0x58,0xc0]
+; X64-NEXT:    vaddbf16 %zmm0, %zmm2, %zmm0 # encoding: [0x62,0xf5,0x6d,0x48,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_scalef_nepbf16_512:
+; X86-LABEL: test_int_x86_avx512_mask_scalef_bf16_512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vscalefpbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf6,0x7c,0x48,0x2c,0xc1]
+; X86-NEXT:    vscalefbf16 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf6,0x7c,0x48,0x2c,0xc1]
 ; X86-NEXT:    vmovdqu16 %zmm0, %zmm2 {%k1} # encoding: [0x62,0xf1,0xff,0x49,0x6f,0xd0]
-; X86-NEXT:    vaddnepbf16 %zmm0, %zmm2, %zmm0 # encoding: [0x62,0xf5,0x6d,0x48,0x58,0xc0]
+; X86-NEXT:    vaddbf16 %zmm0, %zmm2, %zmm0 # encoding: [0x62,0xf5,0x6d,0x48,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i32 %x3 to <32 x i1>
-  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.512(<32 x bfloat> %x0, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %x3)
-  %res2 = call <32 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.512(<32 x bfloat> %x0, <32 x bfloat> %x1, <32 x bfloat> zeroinitializer, i32 -1)
+  %res1 = call <32 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.512(<32 x bfloat> %x0, <32 x bfloat> %x1, <32 x bfloat> %x2, i32 %x3)
+  %res2 = call <32 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.512(<32 x bfloat> %x0, <32 x bfloat> %x1, <32 x bfloat> zeroinitializer, i32 -1)
   %res3 = fadd <32 x bfloat> %res1, %res2
   ret <32 x bfloat> %res3
 }
diff --git a/llvm/test/CodeGen/X86/avx10_2_512convert-intrinsics.ll b/llvm/test/CodeGen/X86/avx10_2_512convert-intrinsics.ll
index e755b56f30d4c..c4a904cc3bc41 100644
--- a/llvm/test/CodeGen/X86/avx10_2_512convert-intrinsics.ll
+++ b/llvm/test/CodeGen/X86/avx10_2_512convert-intrinsics.ll
@@ -258,28 +258,28 @@ define <32 x i8> @test_int_x86_avx10_maskz_vcvtbiasph2hf8s512(<64 x i8> %A, <32
   ret <32 x i8> %ret
 }
 
-define <64 x i8> @test_int_x86_avx10_vcvtne2ph2bf8512(<32 x half> %A, <32 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2bf8512:
+define <64 x i8> @test_int_x86_avx10_vcvt2ph2bf8512(<32 x half> %A, <32 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2bf8512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2bf8 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf2,0x7f,0x48,0x74,0xc1]
+; CHECK-NEXT:    vcvt2ph2bf8 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf2,0x7f,0x48,0x74,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8512(<32 x half> %A, <32 x half> %B)
+  %ret = call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8512(<32 x half> %A, <32 x half> %B)
   ret <64 x i8> %ret
 }
 
-define <8 x i64> @test_int_x86_avx10_vcvtne2ph2bf8512_mask(<8 x i64> %C, i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8512_mask:
+define <8 x i64> @test_int_x86_avx10_vcvt2ph2bf8512_mask(<8 x i64> %C, i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8512_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovq %rdi, %k1 # encoding: [0xc4,0xe1,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x74,0xc2]
+; X64-NEXT:    vcvt2ph2bf8 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x74,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8512_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8512_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovq {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x74,0xc2]
+; X86-NEXT:    vcvt2ph2bf8 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x49,0x74,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8512(<32 x half> %A, <32 x half> %B)
+  %1 = call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8512(<32 x half> %A, <32 x half> %B)
   %2 = bitcast <8 x i64> %C to <64 x i8>
   %3 = bitcast i64 %U to <64 x i1>
   %4 = select <64 x i1> %3, <64 x i8> %1, <64 x i8> %2
@@ -287,51 +287,51 @@ define <8 x i64> @test_int_x86_avx10_vcvtne2ph2bf8512_mask(<8 x i64> %C, i64 %U,
   ret <8 x i64> %5
 }
 
-define <8 x i64> @test_int_x86_avx10_vcvtne2ph2bf8512_maskz(i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8512_maskz:
+define <8 x i64> @test_int_x86_avx10_vcvt2ph2bf8512_maskz(i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8512_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovq %rdi, %k1 # encoding: [0xc4,0xe1,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x74,0xc1]
+; X64-NEXT:    vcvt2ph2bf8 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x74,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8512_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8512_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovq {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x74,0xc1]
+; X86-NEXT:    vcvt2ph2bf8 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7f,0xc9,0x74,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8512(<32 x half> %A, <32 x half> %B)
+  %1 = call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8512(<32 x half> %A, <32 x half> %B)
   %3 = bitcast i64 %U to <64 x i1>
   %4 = select <64 x i1> %3, <64 x i8> %1, <64 x i8> zeroinitializer
   %5 = bitcast <64 x i8> %4 to <8 x i64>
   ret <8 x i64> %5
 }
 
-declare <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8512(<32 x half> %A, <32 x half> %B)
+declare <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8512(<32 x half> %A, <32 x half> %B)
 
-define <64 x i8> @test_int_x86_avx10_vcvtne2ph2bf8s512(<32 x half> %A, <32 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s512:
+define <64 x i8> @test_int_x86_avx10_vcvt2ph2bf8s512(<32 x half> %A, <32 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2bf8s512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2bf8s %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7f,0x48,0x74,0xc1]
+; CHECK-NEXT:    vcvt2ph2bf8s %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7f,0x48,0x74,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s512(<32 x half> %A, <32 x half> %B)
+  %ret = call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8s512(<32 x half> %A, <32 x half> %B)
   ret <64 x i8> %ret
 }
 
-declare <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s512(<32 x half> %A, <32 x half> %B)
+declare <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8s512(<32 x half> %A, <32 x half> %B)
 
-define <8 x i64> @test_int_x86_avx10_vcvtne2ph2bf8s512_mask(<8 x i64> %C, i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s512_mask:
+define <8 x i64> @test_int_x86_avx10_vcvt2ph2bf8s512_mask(<8 x i64> %C, i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8s512_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovq %rdi, %k1 # encoding: [0xc4,0xe1,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8s %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x74,0xc2]
+; X64-NEXT:    vcvt2ph2bf8s %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x74,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s512_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8s512_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovq {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8s %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x74,0xc2]
+; X86-NEXT:    vcvt2ph2bf8s %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x74,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s512(<32 x half> %A, <32 x half> %B)
+  %1 = call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8s512(<32 x half> %A, <32 x half> %B)
   %2 = bitcast <8 x i64> %C to <64 x i8>
   %3 = bitcast i64 %U to <64 x i1>
   %4 = select <64 x i1> %3, <64 x i8> %1, <64 x i8> %2
@@ -339,47 +339,47 @@ define <8 x i64> @test_int_x86_avx10_vcvtne2ph2bf8s512_mask(<8 x i64> %C, i64 %U
   ret <8 x i64> %5
 }
 
-define <8 x i64> @test_int_x86_avx10_vcvtne2ph2bf8s512_maskz(i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s512_maskz:
+define <8 x i64> @test_int_x86_avx10_vcvt2ph2bf8s512_maskz(i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8s512_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovq %rdi, %k1 # encoding: [0xc4,0xe1,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8s %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x74,0xc1]
+; X64-NEXT:    vcvt2ph2bf8s %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x74,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s512_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8s512_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovq {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8s %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x74,0xc1]
+; X86-NEXT:    vcvt2ph2bf8s %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x74,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s512(<32 x half> %A, <32 x half> %B)
+  %1 = call <64 x i8> @llvm.x86.avx10.vcvt2ph2bf8s512(<32 x half> %A, <32 x half> %B)
   %3 = bitcast i64 %U to <64 x i1>
   %4 = select <64 x i1> %3, <64 x i8> %1, <64 x i8> zeroinitializer
   %5 = bitcast <64 x i8> %4 to <8 x i64>
   ret <8 x i64> %5
 }
 
-define <64 x i8> @test_int_x86_avx10_vcvtne2ph2hf8512(<32 x half> %A, <32 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2hf8512:
+define <64 x i8> @test_int_x86_avx10_vcvt2ph2hf8512(<32 x half> %A, <32 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2hf8512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2hf8 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7f,0x48,0x18,0xc1]
+; CHECK-NEXT:    vcvt2ph2hf8 %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7f,0x48,0x18,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8512(<32 x half> %A, <32 x half> %B)
+  %ret = call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8512(<32 x half> %A, <32 x half> %B)
   ret <64 x i8> %ret
 }
 
-define <8 x i64> @test_int_x86_avx10_vcvtne2ph2hf8512_mask(<8 x i64> %C, i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8512_mask:
+define <8 x i64> @test_int_x86_avx10_vcvt2ph2hf8512_mask(<8 x i64> %C, i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8512_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovq %rdi, %k1 # encoding: [0xc4,0xe1,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x18,0xc2]
+; X64-NEXT:    vcvt2ph2hf8 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x18,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8512_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8512_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovq {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x18,0xc2]
+; X86-NEXT:    vcvt2ph2hf8 %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x18,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8512(<32 x half> %A, <32 x half> %B)
+  %1 = call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8512(<32 x half> %A, <32 x half> %B)
   %2 = bitcast <8 x i64> %C to <64 x i8>
   %3 = bitcast i64 %U to <64 x i1>
   %4 = select <64 x i1> %3, <64 x i8> %1, <64 x i8> %2
@@ -387,49 +387,49 @@ define <8 x i64> @test_int_x86_avx10_vcvtne2ph2hf8512_mask(<8 x i64> %C, i64 %U,
   ret <8 x i64> %5
 }
 
-define <8 x i64> @test_int_x86_avx10_vcvtne2ph2hf8512_maskz(i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8512_maskz:
+define <8 x i64> @test_int_x86_avx10_vcvt2ph2hf8512_maskz(i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8512_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovq %rdi, %k1 # encoding: [0xc4,0xe1,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x18,0xc1]
+; X64-NEXT:    vcvt2ph2hf8 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x18,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8512_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8512_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovq {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x18,0xc1]
+; X86-NEXT:    vcvt2ph2hf8 %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x18,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8512(<32 x half> %A, <32 x half> %B)
+  %1 = call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8512(<32 x half> %A, <32 x half> %B)
   %3 = bitcast i64 %U to <64 x i1>
   %4 = select <64 x i1> %3, <64 x i8> %1, <64 x i8> zeroinitializer
   %5 = bitcast <64 x i8> %4 to <8 x i64>
   ret <8 x i64> %5
 }
 
-declare <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8512(<32 x half> %A, <32 x half> %B)
+declare <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8512(<32 x half> %A, <32 x half> %B)
 
-define <64 x i8> @test_int_x86_avx10_vcvtne2ph2hf8s512(<32 x half> %A, <32 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s512:
+define <64 x i8> @test_int_x86_avx10_vcvt2ph2hf8s512(<32 x half> %A, <32 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2hf8s512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2hf8s %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7f,0x48,0x1b,0xc1]
+; CHECK-NEXT:    vcvt2ph2hf8s %zmm1, %zmm0, %zmm0 # encoding: [0x62,0xf5,0x7f,0x48,0x1b,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s512(<32 x half> %A, <32 x half> %B)
+  %ret = call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8s512(<32 x half> %A, <32 x half> %B)
   ret <64 x i8> %ret
 }
 
-define <8 x i64> @test_int_x86_avx10_vcvtne2ph2hf8s512_mask(<8 x i64> %C, i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s512_mask:
+define <8 x i64> @test_int_x86_avx10_vcvt2ph2hf8s512_mask(<8 x i64> %C, i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8s512_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovq %rdi, %k1 # encoding: [0xc4,0xe1,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8s %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x1b,0xc2]
+; X64-NEXT:    vcvt2ph2hf8s %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x1b,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s512_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8s512_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovq {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8s %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x1b,0xc2]
+; X86-NEXT:    vcvt2ph2hf8s %zmm2, %zmm1, %zmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x49,0x1b,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s512(<32 x half> %A, <32 x half> %B)
+  %1 = call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8s512(<32 x half> %A, <32 x half> %B)
   %2 = bitcast <8 x i64> %C to <64 x i8>
   %3 = bitcast i64 %U to <64 x i1>
   %4 = select <64 x i1> %3, <64 x i8> %1, <64 x i8> %2
@@ -438,26 +438,26 @@ define <8 x i64> @test_int_x86_avx10_vcvtne2ph2hf8s512_mask(<8 x i64> %C, i64 %U
 }
 
 
-define <8 x i64> @test_int_x86_avx10_vcvtne2ph2hf8s512_maskz(i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s512_maskz:
+define <8 x i64> @test_int_x86_avx10_vcvt2ph2hf8s512_maskz(i64 %U, <32 x half> %A, <32 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8s512_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovq %rdi, %k1 # encoding: [0xc4,0xe1,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8s %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x1b,0xc1]
+; X64-NEXT:    vcvt2ph2hf8s %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x1b,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s512_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8s512_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovq {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8s %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x1b,0xc1]
+; X86-NEXT:    vcvt2ph2hf8s %zmm1, %zmm0, %zmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xc9,0x1b,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s512(<32 x half> %A, <32 x half> %B)
+  %1 = call <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8s512(<32 x half> %A, <32 x half> %B)
   %3 = bitcast i64 %U to <64 x i1>
   %4 = select <64 x i1> %3, <64 x i8> %1, <64 x i8> zeroinitializer
   %5 = bitcast <64 x i8> %4 to <8 x i64>
   ret <8 x i64> %5
 }
 
-declare <64 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s512(<32 x half> %A, <32 x half> %B)
+declare <64 x i8> @llvm.x86.avx10.vcvt2ph2hf8s512(<32 x half> %A, <32 x half> %B)
 
 define <32 x half> @test_int_x86_avx10_vcvthf82ph512(<32 x i8> %A) nounwind {
 ; CHECK-LABEL: test_int_x86_avx10_vcvthf82ph512:
@@ -504,174 +504,174 @@ define <32 x half> @test_int_x86_avx10_maskz_vcvthf82ph512(<32 x i8> %A, i32 %B)
   ret <32 x half> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtneph2bf8512(<32 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2bf8512:
+define <32 x i8> @test_int_x86_avx10_vcvtph2bf8512(<32 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2bf8512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2bf8 %zmm0, %ymm0 # encoding: [0x62,0xf2,0x7e,0x48,0x74,0xc0]
+; CHECK-NEXT:    vcvtph2bf8 %zmm0, %ymm0 # encoding: [0x62,0xf2,0x7e,0x48,0x74,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8512(<32 x half> %A, <32 x i8> undef, i32 -1)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8512(<32 x half> %A, <32 x i8> undef, i32 -1)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_mask_vcvtneph2bf8512(<32 x i8> %B, <32 x half> %A, i32 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8512:
+define <32 x i8> @test_int_x86_avx10_mask_vcvtph2bf8512(<32 x i8> %B, <32 x half> %A, i32 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2bf8512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x74,0xc1]
+; X64-NEXT:    vcvtph2bf8 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x74,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8512:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2bf8512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x74,0xc1]
+; X86-NEXT:    vcvtph2bf8 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x49,0x74,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8512(<32 x half> %A, <32 x i8> %B, i32 %C)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8512(<32 x half> %A, <32 x i8> %B, i32 %C)
   ret <32 x i8> %ret
 }
 
-declare <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8512(<32 x half> %A, <32 x i8> %B, i32 %C)
+declare <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8512(<32 x half> %A, <32 x i8> %B, i32 %C)
 
-define <32 x i8> @test_int_x86_avx10_maskz_vcvtneph2bf8512(<32 x half> %A, i32 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8512:
+define <32 x i8> @test_int_x86_avx10_maskz_vcvtph2bf8512(<32 x half> %A, i32 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x74,0xc0]
+; X64-NEXT:    vcvtph2bf8 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x74,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8512:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x74,0xc0]
+; X86-NEXT:    vcvtph2bf8 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xc9,0x74,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8512(<32 x half> %A, <32 x i8> zeroinitializer, i32 %B)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8512(<32 x half> %A, <32 x i8> zeroinitializer, i32 %B)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtneph2bf8s512(<32 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2bf8s512:
+define <32 x i8> @test_int_x86_avx10_vcvtph2bf8s512(<32 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2bf8s512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2bf8s %zmm0, %ymm0 # encoding: [0x62,0xf5,0x7e,0x48,0x74,0xc0]
+; CHECK-NEXT:    vcvtph2bf8s %zmm0, %ymm0 # encoding: [0x62,0xf5,0x7e,0x48,0x74,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s512(<32 x half> %A, <32 x i8> undef, i32 -1)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s512(<32 x half> %A, <32 x i8> undef, i32 -1)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_mask_vcvtneph2bf8s512(<32 x i8> %B, <32 x half> %A, i32 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8s512:
+define <32 x i8> @test_int_x86_avx10_mask_vcvtph2bf8s512(<32 x i8> %B, <32 x half> %A, i32 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2bf8s512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8s %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x74,0xc1]
+; X64-NEXT:    vcvtph2bf8s %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x74,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8s512:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2bf8s512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8s %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x74,0xc1]
+; X86-NEXT:    vcvtph2bf8s %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x74,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s512(<32 x half> %A, <32 x i8> %B, i32 %C)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s512(<32 x half> %A, <32 x i8> %B, i32 %C)
   ret <32 x i8> %ret
 }
 
-declare <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s512(<32 x half> %A, <32 x i8> %B, i32 %C)
+declare <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s512(<32 x half> %A, <32 x i8> %B, i32 %C)
 
-define <32 x i8> @test_int_x86_avx10_maskz_vcvtneph2bf8s512(<32 x half> %A, i32 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8s512:
+define <32 x i8> @test_int_x86_avx10_maskz_vcvtph2bf8s512(<32 x half> %A, i32 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8s512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8s %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x74,0xc0]
+; X64-NEXT:    vcvtph2bf8s %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x74,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8s512:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8s512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8s %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x74,0xc0]
+; X86-NEXT:    vcvtph2bf8s %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x74,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s512(<32 x half> %A, <32 x i8> zeroinitializer, i32 %B)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s512(<32 x half> %A, <32 x i8> zeroinitializer, i32 %B)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtneph2hf8512(<32 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2hf8512:
+define <32 x i8> @test_int_x86_avx10_vcvtph2hf8512(<32 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2hf8512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2hf8 %zmm0, %ymm0 # encoding: [0x62,0xf5,0x7e,0x48,0x18,0xc0]
+; CHECK-NEXT:    vcvtph2hf8 %zmm0, %ymm0 # encoding: [0x62,0xf5,0x7e,0x48,0x18,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8512(<32 x half> %A, <32 x i8> undef, i32 -1)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8512(<32 x half> %A, <32 x i8> undef, i32 -1)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_mask_vcvtneph2hf8512(<32 x i8> %B, <32 x half> %A, i32 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8512:
+define <32 x i8> @test_int_x86_avx10_mask_vcvtph2hf8512(<32 x i8> %B, <32 x half> %A, i32 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2hf8512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x18,0xc1]
+; X64-NEXT:    vcvtph2hf8 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x18,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8512:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2hf8512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x18,0xc1]
+; X86-NEXT:    vcvtph2hf8 %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x18,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8512(<32 x half> %A, <32 x i8> %B, i32 %C)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8512(<32 x half> %A, <32 x i8> %B, i32 %C)
   ret <32 x i8> %ret
 }
 
-declare <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8512(<32 x half> %A, <32 x i8> %B, i32 %C)
+declare <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8512(<32 x half> %A, <32 x i8> %B, i32 %C)
 
-define <32 x i8> @test_int_x86_avx10_maskz_vcvtneph2hf8512(<32 x half> %A, i32 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8512:
+define <32 x i8> @test_int_x86_avx10_maskz_vcvtph2hf8512(<32 x half> %A, i32 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x18,0xc0]
+; X64-NEXT:    vcvtph2hf8 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x18,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8512:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x18,0xc0]
+; X86-NEXT:    vcvtph2hf8 %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x18,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8512(<32 x half> %A, <32 x i8> zeroinitializer, i32 %B)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8512(<32 x half> %A, <32 x i8> zeroinitializer, i32 %B)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtneph2hf8s512(<32 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2hf8s512:
+define <32 x i8> @test_int_x86_avx10_vcvtph2hf8s512(<32 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2hf8s512:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2hf8s %zmm0, %ymm0 # encoding: [0x62,0xf5,0x7e,0x48,0x1b,0xc0]
+; CHECK-NEXT:    vcvtph2hf8s %zmm0, %ymm0 # encoding: [0x62,0xf5,0x7e,0x48,0x1b,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s512(<32 x half> %A, <32 x i8> undef, i32 -1)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s512(<32 x half> %A, <32 x i8> undef, i32 -1)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_mask_vcvtneph2hf8s512(<32 x i8> %B, <32 x half> %A, i32 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8s512:
+define <32 x i8> @test_int_x86_avx10_mask_vcvtph2hf8s512(<32 x i8> %B, <32 x half> %A, i32 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2hf8s512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8s %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x1b,0xc1]
+; X64-NEXT:    vcvtph2hf8s %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x1b,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8s512:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2hf8s512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8s %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x1b,0xc1]
+; X86-NEXT:    vcvtph2hf8s %zmm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x49,0x1b,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s512(<32 x half> %A, <32 x i8> %B, i32 %C)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s512(<32 x half> %A, <32 x i8> %B, i32 %C)
   ret <32 x i8> %ret
 }
 
-declare <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s512(<32 x half> %A, <32 x i8> %B, i32 %C)
+declare <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s512(<32 x half> %A, <32 x i8> %B, i32 %C)
 
-define <32 x i8> @test_int_x86_avx10_maskz_vcvtneph2hf8s512(<32 x half> %A, i32 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8s512:
+define <32 x i8> @test_int_x86_avx10_maskz_vcvtph2hf8s512(<32 x half> %A, i32 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8s512:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8s %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x1b,0xc0]
+; X64-NEXT:    vcvtph2hf8s %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x1b,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8s512:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8s512:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8s %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x1b,0xc0]
+; X86-NEXT:    vcvtph2hf8s %zmm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xc9,0x1b,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s512(<32 x half> %A, <32 x i8> zeroinitializer, i32 %B)
+  %ret = call <32 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s512(<32 x half> %A, <32 x i8> zeroinitializer, i32 %B)
   ret <32 x i8> %ret
 }
diff --git a/llvm/test/CodeGen/X86/avx10_2bf16-arith.ll b/llvm/test/CodeGen/X86/avx10_2bf16-arith.ll
index c97d27ff324bb..42831a453cb1d 100644
--- a/llvm/test/CodeGen/X86/avx10_2bf16-arith.ll
+++ b/llvm/test/CodeGen/X86/avx10_2bf16-arith.ll
@@ -2,48 +2,48 @@
 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown --show-mc-encoding -mattr=+avx10.2-256 | FileCheck %s --check-prefixes=CHECK,X64
 ; RUN: llc < %s -verify-machineinstrs -mtriple=i686-unknown-unknown --show-mc-encoding -mattr=+avx10.2-256 | FileCheck %s --check-prefixes=CHECK,X86
 
-define <16 x bfloat> @test_int_x86_avx10_add_nepbf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_add_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_add_bf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_add_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vaddnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc1]
+; CHECK-NEXT:    vaddbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fadd <16 x bfloat> %x1, %x2
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat> @test_int_x86_avx10_mask_add_nepbf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_add_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_mask_add_bf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_add_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vaddnepbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x58,0xc2]
+; X64-NEXT:    vaddbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x58,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_add_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_mask_add_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vaddnepbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x58,0xc2]
+; X86-NEXT:    vaddbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x58,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
   %res0 = fadd <16 x bfloat> %x1, %x2
   %res = select <16 x i1> %mask, <16 x bfloat> %res0, <16 x bfloat> %src
   ret <16 x bfloat> %res
 }
-define <16 x bfloat> @test_int_x86_avx10_maskz_add_nepbf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_add_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_maskz_add_bf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_add_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vaddnepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x58,0xc2]
-; X64-NEXT:    vaddnepbf16 (%rsi), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x58,0x0e]
-; X64-NEXT:    vaddnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc1]
+; X64-NEXT:    vaddbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x58,0xc2]
+; X64-NEXT:    vaddbf16 (%rsi), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x58,0x0e]
+; X64-NEXT:    vaddbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_add_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_maskz_add_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vaddnepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x58,0xc2]
-; X86-NEXT:    vaddnepbf16 (%eax), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x58,0x08]
-; X86-NEXT:    vaddnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc1]
+; X86-NEXT:    vaddbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x58,0xc2]
+; X86-NEXT:    vaddbf16 (%eax), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x58,0x08]
+; X86-NEXT:    vaddbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
   %val = load <16 x bfloat>, ptr %ptr
@@ -55,26 +55,26 @@ define <16 x bfloat> @test_int_x86_avx10_maskz_add_nepbf16_256(<16 x bfloat> %sr
   ret <16 x bfloat> %res3
 }
 
-define <8 x bfloat> @test_int_x86_avx10_add_nepbf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_add_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_add_bf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_add_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vaddnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x58,0xc1]
+; CHECK-NEXT:    vaddbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x58,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fadd <8 x bfloat> %x1, %x2
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat> @test_int_x86_avx10_mask_add_nepbf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_add_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_mask_add_bf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_add_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vaddnepbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x58,0xc2]
+; X64-NEXT:    vaddbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x58,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_add_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_mask_add_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vaddnepbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x58,0xc2]
+; X86-NEXT:    vaddbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x58,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
   %res0 = fadd <8 x bfloat> %x1, %x2
@@ -82,22 +82,22 @@ define <8 x bfloat> @test_int_x86_avx10_mask_add_nepbf16_128(<8 x bfloat> %src,
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat> @test_int_x86_avx10_maskz_add_nepbf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_add_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_maskz_add_bf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_add_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vaddnepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x58,0xc2]
-; X64-NEXT:    vaddnepbf16 (%rsi), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x58,0x0e]
-; X64-NEXT:    vaddnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x58,0xc1]
+; X64-NEXT:    vaddbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x58,0xc2]
+; X64-NEXT:    vaddbf16 (%rsi), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x58,0x0e]
+; X64-NEXT:    vaddbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x58,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_add_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_maskz_add_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vaddnepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x58,0xc2]
-; X86-NEXT:    vaddnepbf16 (%eax), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x58,0x08]
-; X86-NEXT:    vaddnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x58,0xc1]
+; X86-NEXT:    vaddbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x58,0xc2]
+; X86-NEXT:    vaddbf16 (%eax), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x58,0x08]
+; X86-NEXT:    vaddbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x58,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
   %val = load <8 x bfloat>, ptr %ptr
@@ -109,26 +109,26 @@ define <8 x bfloat> @test_int_x86_avx10_maskz_add_nepbf16_128(<8 x bfloat> %src,
   ret <8 x bfloat> %res3
 }
 
-define <16 x bfloat> @test_int_x86_avx10_sub_nepbf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_sub_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_sub_bf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_sub_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vsubnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5c,0xc1]
+; CHECK-NEXT:    vsubbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5c,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fsub <16 x bfloat> %x1, %x2
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat> @test_int_x86_avx10_mask_sub_nepbf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_sub_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_mask_sub_bf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_sub_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsubnepbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x5c,0xc2]
+; X64-NEXT:    vsubbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x5c,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_sub_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_mask_sub_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsubnepbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x5c,0xc2]
+; X86-NEXT:    vsubbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x5c,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
   %res0 = fsub <16 x bfloat> %x1, %x2
@@ -136,22 +136,22 @@ define <16 x bfloat> @test_int_x86_avx10_mask_sub_nepbf16_256(<16 x bfloat> %src
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat> @test_int_x86_avx10_maskz_sub_nepbf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_sub_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_maskz_sub_bf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_sub_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsubnepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5c,0xc2]
-; X64-NEXT:    vsubnepbf16 (%rsi), %ymm1, %ymm1 # encoding: [0x62,0xf5,0x75,0x28,0x5c,0x0e]
-; X64-NEXT:    vsubnepbf16 %ymm1, %ymm0, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x5c,0xc1]
+; X64-NEXT:    vsubbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5c,0xc2]
+; X64-NEXT:    vsubbf16 (%rsi), %ymm1, %ymm1 # encoding: [0x62,0xf5,0x75,0x28,0x5c,0x0e]
+; X64-NEXT:    vsubbf16 %ymm1, %ymm0, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x5c,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_sub_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_maskz_sub_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsubnepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5c,0xc2]
-; X86-NEXT:    vsubnepbf16 (%eax), %ymm1, %ymm1 # encoding: [0x62,0xf5,0x75,0x28,0x5c,0x08]
-; X86-NEXT:    vsubnepbf16 %ymm1, %ymm0, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x5c,0xc1]
+; X86-NEXT:    vsubbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5c,0xc2]
+; X86-NEXT:    vsubbf16 (%eax), %ymm1, %ymm1 # encoding: [0x62,0xf5,0x75,0x28,0x5c,0x08]
+; X86-NEXT:    vsubbf16 %ymm1, %ymm0, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x5c,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
   %val = load <16 x bfloat>, ptr %ptr
@@ -163,26 +163,26 @@ define <16 x bfloat> @test_int_x86_avx10_maskz_sub_nepbf16_256(<16 x bfloat> %sr
   ret <16 x bfloat> %res3
 }
 
-define <8 x bfloat> @test_int_x86_avx10_sub_nepbf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_sub_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_sub_bf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_sub_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vsubnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5c,0xc1]
+; CHECK-NEXT:    vsubbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5c,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fsub <8 x bfloat> %x1, %x2
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat> @test_int_x86_avx10_mask_sub_nepbf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_sub_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_mask_sub_bf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_sub_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsubnepbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x5c,0xc2]
+; X64-NEXT:    vsubbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x5c,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_sub_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_mask_sub_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsubnepbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x5c,0xc2]
+; X86-NEXT:    vsubbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x5c,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
   %res0 = fsub <8 x bfloat> %x1, %x2
@@ -190,22 +190,22 @@ define <8 x bfloat> @test_int_x86_avx10_mask_sub_nepbf16_128(<8 x bfloat> %src,
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat> @test_int_x86_avx10_maskz_sub_nepbf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_sub_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_maskz_sub_bf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_sub_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsubnepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5c,0xc2]
-; X64-NEXT:    vsubnepbf16 (%rsi), %xmm1, %xmm1 # encoding: [0x62,0xf5,0x75,0x08,0x5c,0x0e]
-; X64-NEXT:    vsubnepbf16 %xmm1, %xmm0, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x5c,0xc1]
+; X64-NEXT:    vsubbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5c,0xc2]
+; X64-NEXT:    vsubbf16 (%rsi), %xmm1, %xmm1 # encoding: [0x62,0xf5,0x75,0x08,0x5c,0x0e]
+; X64-NEXT:    vsubbf16 %xmm1, %xmm0, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x5c,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_sub_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_maskz_sub_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsubnepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5c,0xc2]
-; X86-NEXT:    vsubnepbf16 (%eax), %xmm1, %xmm1 # encoding: [0x62,0xf5,0x75,0x08,0x5c,0x08]
-; X86-NEXT:    vsubnepbf16 %xmm1, %xmm0, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x5c,0xc1]
+; X86-NEXT:    vsubbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5c,0xc2]
+; X86-NEXT:    vsubbf16 (%eax), %xmm1, %xmm1 # encoding: [0x62,0xf5,0x75,0x08,0x5c,0x08]
+; X86-NEXT:    vsubbf16 %xmm1, %xmm0, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x5c,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
   %val = load <8 x bfloat>, ptr %ptr
@@ -217,26 +217,26 @@ define <8 x bfloat> @test_int_x86_avx10_maskz_sub_nepbf16_128(<8 x bfloat> %src,
   ret <8 x bfloat> %res3
 }
 
-define <16 x bfloat> @test_int_x86_avx10_mul_nepbf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_mul_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_mul_bf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_mul_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vmulnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x59,0xc1]
+; CHECK-NEXT:    vmulbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x59,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fmul <16 x bfloat> %x1, %x2
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat> @test_int_x86_avx10_mask_mul_nepbf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_mul_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_mask_mul_bf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_mul_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vmulnepbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x59,0xc2]
+; X64-NEXT:    vmulbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x59,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_mul_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_mask_mul_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vmulnepbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x59,0xc2]
+; X86-NEXT:    vmulbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x59,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
   %res0 = fmul <16 x bfloat> %x1, %x2
@@ -244,22 +244,22 @@ define <16 x bfloat> @test_int_x86_avx10_mask_mul_nepbf16_256(<16 x bfloat> %src
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat> @test_int_x86_avx10_maskz_mul_nepbf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_mul_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_maskz_mul_bf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_mul_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vmulnepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x59,0xc2]
-; X64-NEXT:    vmulnepbf16 (%rsi), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x59,0x0e]
-; X64-NEXT:    vmulnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x59,0xc1]
+; X64-NEXT:    vmulbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x59,0xc2]
+; X64-NEXT:    vmulbf16 (%rsi), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x59,0x0e]
+; X64-NEXT:    vmulbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x59,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_mul_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_maskz_mul_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vmulnepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x59,0xc2]
-; X86-NEXT:    vmulnepbf16 (%eax), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x59,0x08]
-; X86-NEXT:    vmulnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x59,0xc1]
+; X86-NEXT:    vmulbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x59,0xc2]
+; X86-NEXT:    vmulbf16 (%eax), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x59,0x08]
+; X86-NEXT:    vmulbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x59,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
   %val = load <16 x bfloat>, ptr %ptr
@@ -271,26 +271,26 @@ define <16 x bfloat> @test_int_x86_avx10_maskz_mul_nepbf16_256(<16 x bfloat> %sr
   ret <16 x bfloat> %res3
 }
 
-define <8 x bfloat> @test_int_x86_avx10_mul_nepbf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_mul_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_mul_bf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_mul_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vmulnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x59,0xc1]
+; CHECK-NEXT:    vmulbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x59,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fmul <8 x bfloat> %x1, %x2
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat> @test_int_x86_avx10_mask_mul_nepbf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_mul_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_mask_mul_bf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_mul_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vmulnepbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x59,0xc2]
+; X64-NEXT:    vmulbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x59,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_mul_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_mask_mul_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vmulnepbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x59,0xc2]
+; X86-NEXT:    vmulbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x59,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
   %res0 = fmul <8 x bfloat> %x1, %x2
@@ -298,22 +298,22 @@ define <8 x bfloat> @test_int_x86_avx10_mask_mul_nepbf16_128(<8 x bfloat> %src,
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat> @test_int_x86_avx10_maskz_mul_nepbf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_mul_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_maskz_mul_bf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_mul_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vmulnepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x59,0xc2]
-; X64-NEXT:    vmulnepbf16 (%rsi), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x59,0x0e]
-; X64-NEXT:    vmulnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x59,0xc1]
+; X64-NEXT:    vmulbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x59,0xc2]
+; X64-NEXT:    vmulbf16 (%rsi), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x59,0x0e]
+; X64-NEXT:    vmulbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x59,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_mul_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_maskz_mul_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vmulnepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x59,0xc2]
-; X86-NEXT:    vmulnepbf16 (%eax), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x59,0x08]
-; X86-NEXT:    vmulnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x59,0xc1]
+; X86-NEXT:    vmulbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x59,0xc2]
+; X86-NEXT:    vmulbf16 (%eax), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x59,0x08]
+; X86-NEXT:    vmulbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x59,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
   %val = load <8 x bfloat>, ptr %ptr
@@ -325,26 +325,26 @@ define <8 x bfloat> @test_int_x86_avx10_maskz_mul_nepbf16_128(<8 x bfloat> %src,
   ret <8 x bfloat> %res3
 }
 
-define <16 x bfloat> @test_int_x86_avx10_div_nepbf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_div_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_div_bf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_div_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vdivnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5e,0xc1]
+; CHECK-NEXT:    vdivbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5e,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fdiv <16 x bfloat> %x1, %x2
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat> @test_int_x86_avx10_mask_div_nepbf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_div_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_mask_div_bf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_div_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vdivnepbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x5e,0xc2]
+; X64-NEXT:    vdivbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x5e,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_div_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_mask_div_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vdivnepbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x5e,0xc2]
+; X86-NEXT:    vdivbf16 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x75,0x29,0x5e,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
   %res0 = fdiv <16 x bfloat> %x1, %x2
@@ -353,22 +353,22 @@ define <16 x bfloat> @test_int_x86_avx10_mask_div_nepbf16_256(<16 x bfloat> %src
 }
 
 ; FIXME: assembly order is different from fp16 ones
-define <16 x bfloat> @test_int_x86_avx10_maskz_div_nepbf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_div_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_maskz_div_bf16_256(<16 x bfloat> %src, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_div_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vdivnepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5e,0xc2]
-; X64-NEXT:    vdivnepbf16 (%rsi), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5e,0x0e]
-; X64-NEXT:    vdivnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5e,0xc1]
+; X64-NEXT:    vdivbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5e,0xc2]
+; X64-NEXT:    vdivbf16 (%rsi), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5e,0x0e]
+; X64-NEXT:    vdivbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5e,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_div_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_maskz_div_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vdivnepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5e,0xc2]
-; X86-NEXT:    vdivnepbf16 (%eax), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5e,0x08]
-; X86-NEXT:    vdivnepbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5e,0xc1]
+; X86-NEXT:    vdivbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5e,0xc2]
+; X86-NEXT:    vdivbf16 (%eax), %ymm1, %ymm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0xa9,0x5e,0x08]
+; X86-NEXT:    vdivbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5e,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
   %val = load <16 x bfloat>, ptr %ptr
@@ -380,26 +380,26 @@ define <16 x bfloat> @test_int_x86_avx10_maskz_div_nepbf16_256(<16 x bfloat> %sr
   ret <16 x bfloat> %res3
 }
 
-define <8 x bfloat> @test_int_x86_avx10_div_nepbf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_div_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_div_bf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_div_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vdivnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5e,0xc1]
+; CHECK-NEXT:    vdivbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5e,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %res = fdiv <8 x bfloat> %x1, %x2
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat> @test_int_x86_avx10_mask_div_nepbf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_mask_div_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_mask_div_bf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_mask_div_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vdivnepbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x5e,0xc2]
+; X64-NEXT:    vdivbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x5e,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_div_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_mask_div_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vdivnepbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x5e,0xc2]
+; X86-NEXT:    vdivbf16 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x75,0x09,0x5e,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
   %res0 = fdiv <8 x bfloat> %x1, %x2
@@ -408,22 +408,22 @@ define <8 x bfloat> @test_int_x86_avx10_mask_div_nepbf16_128(<8 x bfloat> %src,
 }
 
 ; FIXME: assembly order is different from fp16 ones
-define <8 x bfloat> @test_int_x86_avx10_maskz_div_nepbf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
-; X64-LABEL: test_int_x86_avx10_maskz_div_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_maskz_div_bf16_128(<8 x bfloat> %src, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk, ptr %ptr) {
+; X64-LABEL: test_int_x86_avx10_maskz_div_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vdivnepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5e,0xc2]
-; X64-NEXT:    vdivnepbf16 (%rsi), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5e,0x0e]
-; X64-NEXT:    vdivnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5e,0xc1]
+; X64-NEXT:    vdivbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5e,0xc2]
+; X64-NEXT:    vdivbf16 (%rsi), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5e,0x0e]
+; X64-NEXT:    vdivbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5e,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_div_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_maskz_div_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax # encoding: [0x8b,0x44,0x24,0x08]
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vdivnepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5e,0xc2]
-; X86-NEXT:    vdivnepbf16 (%eax), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5e,0x08]
-; X86-NEXT:    vdivnepbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5e,0xc1]
+; X86-NEXT:    vdivbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5e,0xc2]
+; X86-NEXT:    vdivbf16 (%eax), %xmm1, %xmm1 {%k1} {z} # encoding: [0x62,0xf5,0x75,0x89,0x5e,0x08]
+; X86-NEXT:    vdivbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5e,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
   %val = load <8 x bfloat>, ptr %ptr
@@ -435,10 +435,10 @@ define <8 x bfloat> @test_int_x86_avx10_maskz_div_nepbf16_128(<8 x bfloat> %src,
   ret <8 x bfloat> %res3
 }
 
-define i16 @test_int_x86_avx10_vcmppbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_vcmppbf16256:
+define i16 @test_int_x86_avx10_vcmpbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_vcmpbf16256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcmpunordpbf16 %ymm1, %ymm0, %k0 # encoding: [0x62,0xf3,0x7f,0x28,0xc2,0xc1,0x03]
+; CHECK-NEXT:    vcmpunordbf16 %ymm1, %ymm0, %k0 # encoding: [0x62,0xf3,0x7f,0x28,0xc2,0xc1,0x03]
 ; CHECK-NEXT:    kmovd %k0, %eax # encoding: [0xc5,0xfb,0x93,0xc0]
 ; CHECK-NEXT:    # kill: def $ax killed $ax killed $eax
 ; CHECK-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
@@ -448,10 +448,10 @@ define i16 @test_int_x86_avx10_vcmppbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2
   ret i16 %res
 }
 
-define i16 @test_int_x86_avx10_vcmppbf16256_mask2(<16 x bfloat> %x1, <16 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_vcmppbf16256_mask2:
+define i16 @test_int_x86_avx10_vcmpbf16256_mask2(<16 x bfloat> %x1, <16 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_vcmpbf16256_mask2:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcmpeqpbf16 %ymm1, %ymm0, %k0 # encoding: [0x62,0xf3,0x7f,0x28,0xc2,0xc1,0x00]
+; CHECK-NEXT:    vcmpeqbf16 %ymm1, %ymm0, %k0 # encoding: [0x62,0xf3,0x7f,0x28,0xc2,0xc1,0x00]
 ; CHECK-NEXT:    kmovd %k0, %eax # encoding: [0xc5,0xfb,0x93,0xc0]
 ; CHECK-NEXT:    andl $3, %eax # encoding: [0x83,0xe0,0x03]
 ; CHECK-NEXT:    # kill: def $ax killed $ax killed $eax
@@ -463,10 +463,10 @@ define i16 @test_int_x86_avx10_vcmppbf16256_mask2(<16 x bfloat> %x1, <16 x bfloa
   ret i16 %3
 }
 
-define i8 @test_int_x86_avx10_vcmppbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_vcmppbf16128:
+define i8 @test_int_x86_avx10_vcmpbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_vcmpbf16128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcmpunordpbf16 %xmm1, %xmm0, %k0 # encoding: [0x62,0xf3,0x7f,0x08,0xc2,0xc1,0x03]
+; CHECK-NEXT:    vcmpunordbf16 %xmm1, %xmm0, %k0 # encoding: [0x62,0xf3,0x7f,0x08,0xc2,0xc1,0x03]
 ; CHECK-NEXT:    kmovd %k0, %eax # encoding: [0xc5,0xfb,0x93,0xc0]
 ; CHECK-NEXT:    # kill: def $al killed $al killed $eax
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
@@ -475,10 +475,10 @@ define i8 @test_int_x86_avx10_vcmppbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
   ret i8 %res
 }
 
-define i8 @test_int_x86_avx10_vcmppbf16128_mask2(<8 x bfloat> %x1, <8 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_vcmppbf16128_mask2:
+define i8 @test_int_x86_avx10_vcmpbf16128_mask2(<8 x bfloat> %x1, <8 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_vcmpbf16128_mask2:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcmpeqpbf16 %xmm1, %xmm0, %k0 # encoding: [0x62,0xf3,0x7f,0x08,0xc2,0xc1,0x00]
+; CHECK-NEXT:    vcmpeqbf16 %xmm1, %xmm0, %k0 # encoding: [0x62,0xf3,0x7f,0x08,0xc2,0xc1,0x00]
 ; CHECK-NEXT:    kmovd %k0, %eax # encoding: [0xc5,0xfb,0x93,0xc0]
 ; CHECK-NEXT:    andb $3, %al # encoding: [0x24,0x03]
 ; CHECK-NEXT:    # kill: def $al killed $al killed $eax
@@ -489,10 +489,10 @@ define i8 @test_int_x86_avx10_vcmppbf16128_mask2(<8 x bfloat> %x1, <8 x bfloat>
   ret i8 %3
 }
 
-define <16 x bfloat> @test_sqrt_nepbf16_256(<16 x bfloat> %a0) {
-; CHECK-LABEL: test_sqrt_nepbf16_256:
+define <16 x bfloat> @test_sqrt_bf16_256(<16 x bfloat> %a0) {
+; CHECK-LABEL: test_sqrt_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vsqrtnepbf16 %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x51,0xc0]
+; CHECK-NEXT:    vsqrtbf16 %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x51,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %1 = tail call <16 x bfloat> @llvm.sqrt.v16bf16(<16 x bfloat> %a0)
   ret <16 x bfloat> %1
@@ -502,13 +502,13 @@ define <16 x bfloat> @test_mm256_mask_sqrt_pbh(<16 x bfloat> %__W, i16 %__U, <16
 ; X64-LABEL: test_mm256_mask_sqrt_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsqrtnepbf16 %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x51,0xc1]
+; X64-NEXT:    vsqrtbf16 %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x51,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_mask_sqrt_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsqrtnepbf16 %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x51,0xc1]
+; X86-NEXT:    vsqrtbf16 %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x51,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <16 x bfloat> @llvm.sqrt.v16bf16(<16 x bfloat> %__A)
@@ -521,13 +521,13 @@ define <16 x bfloat> @test_mm256_maskz_sqrt_pbh(i16 %__U, <16 x bfloat>%__A) {
 ; X64-LABEL: test_mm256_maskz_sqrt_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsqrtnepbf16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x51,0xc0]
+; X64-NEXT:    vsqrtbf16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x51,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_maskz_sqrt_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsqrtnepbf16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x51,0xc0]
+; X86-NEXT:    vsqrtbf16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x51,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <16 x bfloat> @llvm.sqrt.v16bf16(<16 x bfloat> %__A)
@@ -536,10 +536,10 @@ entry:
   ret <16 x bfloat> %2
 }
 
-define <8 x bfloat> @test_sqrt_nepbf16_128(<8 x bfloat> %a0) {
-; CHECK-LABEL: test_sqrt_nepbf16_128:
+define <8 x bfloat> @test_sqrt_bf16_128(<8 x bfloat> %a0) {
+; CHECK-LABEL: test_sqrt_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vsqrtnepbf16 %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x51,0xc0]
+; CHECK-NEXT:    vsqrtbf16 %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x51,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
   %1 = tail call <8 x bfloat> @llvm.sqrt.v8bf16(<8 x bfloat> %a0)
   ret <8 x bfloat> %1
@@ -549,13 +549,13 @@ define <8 x bfloat> @test_mm_mask_sqrt_pbh(<8 x bfloat> %__W, i8 %__U, <8 x bflo
 ; X64-LABEL: test_mm_mask_sqrt_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsqrtnepbf16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x51,0xc1]
+; X64-NEXT:    vsqrtbf16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x51,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_mask_sqrt_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsqrtnepbf16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x51,0xc1]
+; X86-NEXT:    vsqrtbf16 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x51,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <8 x bfloat> @llvm.sqrt.v8bf16(<8 x bfloat> %__A)
@@ -568,13 +568,13 @@ define <8 x bfloat> @test_mm_maskz_sqrt_pbh(i8 %__U, <8 x bfloat>%__A) {
 ; X64-LABEL: test_mm_maskz_sqrt_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vsqrtnepbf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x51,0xc0]
+; X64-NEXT:    vsqrtbf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x51,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_maskz_sqrt_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vsqrtnepbf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x51,0xc0]
+; X86-NEXT:    vsqrtbf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x51,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <8 x bfloat> @llvm.sqrt.v8bf16(<8 x bfloat> %__A)
@@ -586,7 +586,7 @@ entry:
 define <16 x bfloat> @test_mm256_fmaddne_pbh(<16 x bfloat> %__A, <16 x bfloat> %__B, <16 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm256_fmaddne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfmadd213nepbf16 %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf6,0x74,0x28,0xa8,0xc2]
+; CHECK-NEXT:    vfmadd213bf16 %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf6,0x74,0x28,0xa8,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %0 = tail call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %__A, <16 x bfloat> %__B, <16 x bfloat> %__C)
@@ -597,13 +597,13 @@ define <16 x bfloat> @test_mm256_mask_fmaddne_pbh(<16 x bfloat> %__A, i16 zeroex
 ; X64-LABEL: test_mm256_mask_fmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmadd132nepbf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x98,0xc1]
+; X64-NEXT:    vfmadd132bf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x98,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_mask_fmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmadd132nepbf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x98,0xc1]
+; X86-NEXT:    vfmadd132bf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x98,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %__A, <16 x bfloat> %__B, <16 x bfloat> %__C)
@@ -616,14 +616,14 @@ define <16 x bfloat> @test_mm256_mask3_fmaddne_pbh(<16 x bfloat> %__A, <16 x bfl
 ; X64-LABEL: test_mm256_mask3_fmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmadd231nepbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xb8,0xd1]
+; X64-NEXT:    vfmadd231bf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xb8,0xd1]
 ; X64-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_mask3_fmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmadd231nepbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xb8,0xd1]
+; X86-NEXT:    vfmadd231bf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xb8,0xd1]
 ; X86-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -637,13 +637,13 @@ define <16 x bfloat> @test_mm256_maskz_fmaddne_pbh(i16 zeroext %__U, <16 x bfloa
 ; X64-LABEL: test_mm256_maskz_fmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmadd213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xa8,0xc2]
+; X64-NEXT:    vfmadd213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xa8,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_maskz_fmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmadd213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xa8,0xc2]
+; X86-NEXT:    vfmadd213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xa8,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <16 x bfloat> @llvm.fma.v16bf16(<16 x bfloat> %__A, <16 x bfloat> %__B, <16 x bfloat> %__C)
@@ -655,7 +655,7 @@ entry:
 define <16 x bfloat> @test_mm256_fmsubne_pbh(<16 x bfloat> %__A, <16 x bfloat> %__B, <16 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm256_fmsubne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfmsub213nepbf16 %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf6,0x74,0x28,0xaa,0xc2]
+; CHECK-NEXT:    vfmsub213bf16 %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf6,0x74,0x28,0xaa,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %fneg.i = fneg <16 x bfloat> %__C
@@ -667,13 +667,13 @@ define <16 x bfloat> @test_mm256_mask_fmsubne_pbh(<16 x bfloat> %__A, i16 zeroex
 ; X64-LABEL: test_mm256_mask_fmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmsub132nepbf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9a,0xc1]
+; X64-NEXT:    vfmsub132bf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9a,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_mask_fmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmsub132nepbf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9a,0xc1]
+; X86-NEXT:    vfmsub132bf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9a,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <16 x bfloat> %__C
@@ -687,14 +687,14 @@ define <16 x bfloat> @test_mm256_mask3_fmsubne_pbh(<16 x bfloat> %__A, <16 x bfl
 ; X64-LABEL: test_mm256_mask3_fmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmsub231nepbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xba,0xd1]
+; X64-NEXT:    vfmsub231bf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xba,0xd1]
 ; X64-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_mask3_fmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmsub231nepbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xba,0xd1]
+; X86-NEXT:    vfmsub231bf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xba,0xd1]
 ; X86-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -709,13 +709,13 @@ define <16 x bfloat> @test_mm256_maskz_fmsubne_pbh(i16 zeroext %__U, <16 x bfloa
 ; X64-LABEL: test_mm256_maskz_fmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmsub213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xaa,0xc2]
+; X64-NEXT:    vfmsub213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xaa,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_maskz_fmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmsub213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xaa,0xc2]
+; X86-NEXT:    vfmsub213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xaa,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <16 x bfloat> %__C
@@ -728,7 +728,7 @@ entry:
 define <16 x bfloat> @test_mm256_fnmaddne_pbh(<16 x bfloat> %__A, <16 x bfloat> %__B, <16 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm256_fnmaddne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfnmadd213nepbf16 %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf6,0x74,0x28,0xac,0xc2]
+; CHECK-NEXT:    vfnmadd213bf16 %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf6,0x74,0x28,0xac,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %fneg.i = fneg <16 x bfloat> %__B
@@ -740,13 +740,13 @@ define <16 x bfloat> @test_mm256_mask_fnmaddne_pbh(<16 x bfloat> %__A, i16 zeroe
 ; X64-LABEL: test_mm256_mask_fnmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmadd132nepbf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9c,0xc1]
+; X64-NEXT:    vfnmadd132bf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9c,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_mask_fnmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmadd132nepbf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9c,0xc1]
+; X86-NEXT:    vfnmadd132bf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9c,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <16 x bfloat> %__B
@@ -760,14 +760,14 @@ define <16 x bfloat> @test_mm256_mask3_fnmaddne_pbh(<16 x bfloat> %__A, <16 x bf
 ; X64-LABEL: test_mm256_mask3_fnmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmadd231nepbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xbc,0xd1]
+; X64-NEXT:    vfnmadd231bf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xbc,0xd1]
 ; X64-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_mask3_fnmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmadd231nepbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xbc,0xd1]
+; X86-NEXT:    vfnmadd231bf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xbc,0xd1]
 ; X86-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -782,13 +782,13 @@ define <16 x bfloat> @test_mm256_maskz_fnmaddne_pbh(i16 zeroext %__U, <16 x bflo
 ; X64-LABEL: test_mm256_maskz_fnmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmadd213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xac,0xc2]
+; X64-NEXT:    vfnmadd213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xac,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_maskz_fnmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmadd213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xac,0xc2]
+; X86-NEXT:    vfnmadd213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xac,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <16 x bfloat> %__B
@@ -801,7 +801,7 @@ entry:
 define <16 x bfloat> @test_mm256_fnmsubne_pbh(<16 x bfloat> %__A, <16 x bfloat> %__B, <16 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm256_fnmsubne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfnmsub213nepbf16 %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf6,0x74,0x28,0xae,0xc2]
+; CHECK-NEXT:    vfnmsub213bf16 %ymm2, %ymm1, %ymm0 # encoding: [0x62,0xf6,0x74,0x28,0xae,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %fneg.i = fneg <16 x bfloat> %__B
@@ -814,13 +814,13 @@ define <16 x bfloat> @test_mm256_mask_fnmsubne_pbh(<16 x bfloat> %__A, i16 zeroe
 ; X64-LABEL: test_mm256_mask_fnmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmsub132nepbf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9e,0xc1]
+; X64-NEXT:    vfnmsub132bf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9e,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_mask_fnmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmsub132nepbf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9e,0xc1]
+; X86-NEXT:    vfnmsub132bf16 %ymm1, %ymm2, %ymm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x29,0x9e,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <16 x bfloat> %__B
@@ -835,14 +835,14 @@ define <16 x bfloat> @test_mm256_mask3_fnmsubne_pbh(<16 x bfloat> %__A, <16 x bf
 ; X64-LABEL: test_mm256_mask3_fnmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmsub231nepbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xbe,0xd1]
+; X64-NEXT:    vfnmsub231bf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xbe,0xd1]
 ; X64-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_mask3_fnmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmsub231nepbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xbe,0xd1]
+; X86-NEXT:    vfnmsub231bf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0xbe,0xd1]
 ; X86-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -858,13 +858,13 @@ define <16 x bfloat> @test_mm256_maskz_fnmsubne_pbh(i16 zeroext %__U, <16 x bflo
 ; X64-LABEL: test_mm256_maskz_fnmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmsub213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xae,0xc2]
+; X64-NEXT:    vfnmsub213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xae,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm256_maskz_fnmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmsub213nepbf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xae,0xc2]
+; X86-NEXT:    vfnmsub213bf16 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0xa9,0xae,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <16 x bfloat> %__B
@@ -878,7 +878,7 @@ entry:
 define <8 x bfloat> @test_mm_fmaddne_pbh(<8 x bfloat> %__A, <8 x bfloat> %__B, <8 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm_fmaddne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfmadd213nepbf16 %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf6,0x74,0x08,0xa8,0xc2]
+; CHECK-NEXT:    vfmadd213bf16 %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf6,0x74,0x08,0xa8,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %0 = tail call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %__A, <8 x bfloat> %__B, <8 x bfloat> %__C)
@@ -889,13 +889,13 @@ define <8 x bfloat> @test_mm_mask_fmaddne_pbh(<8 x bfloat> %__A, i8 zeroext %__U
 ; X64-LABEL: test_mm_mask_fmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmadd132nepbf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x98,0xc1]
+; X64-NEXT:    vfmadd132bf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x98,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_mask_fmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmadd132nepbf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x98,0xc1]
+; X86-NEXT:    vfmadd132bf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x98,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %__A, <8 x bfloat> %__B, <8 x bfloat> %__C)
@@ -908,14 +908,14 @@ define <8 x bfloat> @test_mm_mask3_fmaddne_pbh(<8 x bfloat> %__A, <8 x bfloat> %
 ; X64-LABEL: test_mm_mask3_fmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmadd231nepbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xb8,0xd1]
+; X64-NEXT:    vfmadd231bf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xb8,0xd1]
 ; X64-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_mask3_fmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmadd231nepbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xb8,0xd1]
+; X86-NEXT:    vfmadd231bf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xb8,0xd1]
 ; X86-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -929,13 +929,13 @@ define <8 x bfloat> @test_mm_maskz_fmaddne_pbh(i8 zeroext %__U, <8 x bfloat> %__
 ; X64-LABEL: test_mm_maskz_fmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmadd213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xa8,0xc2]
+; X64-NEXT:    vfmadd213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xa8,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_maskz_fmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmadd213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xa8,0xc2]
+; X86-NEXT:    vfmadd213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xa8,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %0 = tail call <8 x bfloat> @llvm.fma.v8bf16(<8 x bfloat> %__A, <8 x bfloat> %__B, <8 x bfloat> %__C)
@@ -947,7 +947,7 @@ entry:
 define <8 x bfloat> @test_mm_fmsubne_pbh(<8 x bfloat> %__A, <8 x bfloat> %__B, <8 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm_fmsubne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfmsub213nepbf16 %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf6,0x74,0x08,0xaa,0xc2]
+; CHECK-NEXT:    vfmsub213bf16 %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf6,0x74,0x08,0xaa,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %fneg.i = fneg <8 x bfloat> %__C
@@ -959,13 +959,13 @@ define <8 x bfloat> @test_mm_mask_fmsubne_pbh(<8 x bfloat> %__A, i8 zeroext %__U
 ; X64-LABEL: test_mm_mask_fmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmsub132nepbf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9a,0xc1]
+; X64-NEXT:    vfmsub132bf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9a,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_mask_fmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmsub132nepbf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9a,0xc1]
+; X86-NEXT:    vfmsub132bf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9a,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <8 x bfloat> %__C
@@ -979,14 +979,14 @@ define <8 x bfloat> @test_mm_mask3_fmsubne_pbh(<8 x bfloat> %__A, <8 x bfloat> %
 ; X64-LABEL: test_mm_mask3_fmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmsub231nepbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xba,0xd1]
+; X64-NEXT:    vfmsub231bf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xba,0xd1]
 ; X64-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_mask3_fmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmsub231nepbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xba,0xd1]
+; X86-NEXT:    vfmsub231bf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xba,0xd1]
 ; X86-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -1001,13 +1001,13 @@ define <8 x bfloat> @test_mm_maskz_fmsubne_pbh(i8 zeroext %__U, <8 x bfloat> %__
 ; X64-LABEL: test_mm_maskz_fmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfmsub213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xaa,0xc2]
+; X64-NEXT:    vfmsub213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xaa,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_maskz_fmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfmsub213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xaa,0xc2]
+; X86-NEXT:    vfmsub213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xaa,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <8 x bfloat> %__C
@@ -1020,7 +1020,7 @@ entry:
 define <8 x bfloat> @test_mm_fnmaddne_pbh(<8 x bfloat> %__A, <8 x bfloat> %__B, <8 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm_fnmaddne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfnmadd213nepbf16 %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf6,0x74,0x08,0xac,0xc2]
+; CHECK-NEXT:    vfnmadd213bf16 %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf6,0x74,0x08,0xac,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %fneg.i = fneg <8 x bfloat> %__B
@@ -1032,13 +1032,13 @@ define <8 x bfloat> @test_mm_mask_fnmaddne_pbh(<8 x bfloat> %__A, i8 zeroext %__
 ; X64-LABEL: test_mm_mask_fnmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmadd132nepbf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9c,0xc1]
+; X64-NEXT:    vfnmadd132bf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9c,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_mask_fnmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmadd132nepbf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9c,0xc1]
+; X86-NEXT:    vfnmadd132bf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9c,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <8 x bfloat> %__B
@@ -1052,14 +1052,14 @@ define <8 x bfloat> @test_mm_mask3_fnmaddne_pbh(<8 x bfloat> %__A, <8 x bfloat>
 ; X64-LABEL: test_mm_mask3_fnmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmadd231nepbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xbc,0xd1]
+; X64-NEXT:    vfnmadd231bf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xbc,0xd1]
 ; X64-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_mask3_fnmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmadd231nepbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xbc,0xd1]
+; X86-NEXT:    vfnmadd231bf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xbc,0xd1]
 ; X86-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -1074,13 +1074,13 @@ define <8 x bfloat> @test_mm_maskz_fnmaddne_pbh(i8 zeroext %__U, <8 x bfloat> %_
 ; X64-LABEL: test_mm_maskz_fnmaddne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmadd213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xac,0xc2]
+; X64-NEXT:    vfnmadd213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xac,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_maskz_fnmaddne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmadd213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xac,0xc2]
+; X86-NEXT:    vfnmadd213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xac,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <8 x bfloat> %__B
@@ -1093,7 +1093,7 @@ entry:
 define <8 x bfloat> @test_mm_fnmsubne_pbh(<8 x bfloat> %__A, <8 x bfloat> %__B, <8 x bfloat> %__C) {
 ; CHECK-LABEL: test_mm_fnmsubne_pbh:
 ; CHECK:       # %bb.0: # %entry
-; CHECK-NEXT:    vfnmsub213nepbf16 %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf6,0x74,0x08,0xae,0xc2]
+; CHECK-NEXT:    vfnmsub213bf16 %xmm2, %xmm1, %xmm0 # encoding: [0x62,0xf6,0x74,0x08,0xae,0xc2]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
 entry:
   %fneg.i = fneg <8 x bfloat> %__B
@@ -1106,13 +1106,13 @@ define <8 x bfloat> @test_mm_mask_fnmsubne_pbh(<8 x bfloat> %__A, i8 zeroext %__
 ; X64-LABEL: test_mm_mask_fnmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmsub132nepbf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9e,0xc1]
+; X64-NEXT:    vfnmsub132bf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9e,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_mask_fnmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmsub132nepbf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9e,0xc1]
+; X86-NEXT:    vfnmsub132bf16 %xmm1, %xmm2, %xmm0 {%k1} # encoding: [0x62,0xf6,0x6c,0x09,0x9e,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <8 x bfloat> %__B
@@ -1127,14 +1127,14 @@ define <8 x bfloat> @test_mm_mask3_fnmsubne_pbh(<8 x bfloat> %__A, <8 x bfloat>
 ; X64-LABEL: test_mm_mask3_fnmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmsub231nepbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xbe,0xd1]
+; X64-NEXT:    vfnmsub231bf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xbe,0xd1]
 ; X64-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_mask3_fnmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmsub231nepbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xbe,0xd1]
+; X86-NEXT:    vfnmsub231bf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0xbe,0xd1]
 ; X86-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
@@ -1150,13 +1150,13 @@ define <8 x bfloat> @test_mm_maskz_fnmsubne_pbh(i8 zeroext %__U, <8 x bfloat> %_
 ; X64-LABEL: test_mm_maskz_fnmsubne_pbh:
 ; X64:       # %bb.0: # %entry
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vfnmsub213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xae,0xc2]
+; X64-NEXT:    vfnmsub213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xae,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: test_mm_maskz_fnmsubne_pbh:
 ; X86:       # %bb.0: # %entry
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vfnmsub213nepbf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xae,0xc2]
+; X86-NEXT:    vfnmsub213bf16 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x74,0x89,0xae,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
 entry:
   %fneg.i.i = fneg <8 x bfloat> %__B
@@ -1170,8 +1170,8 @@ entry:
 define <32 x bfloat> @addv(<32 x bfloat> %a, <32 x bfloat> %b) nounwind {
 ; X64-LABEL: addv:
 ; X64:       # %bb.0:
-; X64-NEXT:    vaddnepbf16 %ymm2, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc2]
-; X64-NEXT:    vaddnepbf16 %ymm3, %ymm1, %ymm1 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xcb]
+; X64-NEXT:    vaddbf16 %ymm2, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc2]
+; X64-NEXT:    vaddbf16 %ymm3, %ymm1, %ymm1 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xcb]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
 ; X86-LABEL: addv:
@@ -1180,8 +1180,8 @@ define <32 x bfloat> @addv(<32 x bfloat> %a, <32 x bfloat> %b) nounwind {
 ; X86-NEXT:    movl %esp, %ebp # encoding: [0x89,0xe5]
 ; X86-NEXT:    andl $-32, %esp # encoding: [0x83,0xe4,0xe0]
 ; X86-NEXT:    subl $32, %esp # encoding: [0x83,0xec,0x20]
-; X86-NEXT:    vaddnepbf16 %ymm2, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc2]
-; X86-NEXT:    vaddnepbf16 8(%ebp), %ymm1, %ymm1 # encoding: [0x62,0xf5,0x75,0x28,0x58,0x8d,0x08,0x00,0x00,0x00]
+; X86-NEXT:    vaddbf16 %ymm2, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x58,0xc2]
+; X86-NEXT:    vaddbf16 8(%ebp), %ymm1, %ymm1 # encoding: [0x62,0xf5,0x75,0x28,0x58,0x8d,0x08,0x00,0x00,0x00]
 ; X86-NEXT:    movl %ebp, %esp # encoding: [0x89,0xec]
 ; X86-NEXT:    popl %ebp # encoding: [0x5d]
 ; X86-NEXT:    retl # encoding: [0xc3]
diff --git a/llvm/test/CodeGen/X86/avx10_2bf16-intrinsics.ll b/llvm/test/CodeGen/X86/avx10_2bf16-intrinsics.ll
index 59151d4dd9609..06875dbe7cd23 100644
--- a/llvm/test/CodeGen/X86/avx10_2bf16-intrinsics.ll
+++ b/llvm/test/CodeGen/X86/avx10_2bf16-intrinsics.ll
@@ -2,139 +2,139 @@
 ; RUN: llc < %s -verify-machineinstrs -mtriple=x86_64-unknown-unknown --show-mc-encoding -mattr=+avx10.2-256 | FileCheck %s --check-prefixes=CHECK,X64
 ; RUN: llc < %s -verify-machineinstrs -mtriple=i686-unknown-unknown --show-mc-encoding -mattr=+avx10.2-256 | FileCheck %s --check-prefixes=CHECK,X86
 
-declare <16 x bfloat> @llvm.x86.avx10.vminpbf16256(<16 x bfloat>, <16 x bfloat>)
+declare <16 x bfloat> @llvm.x86.avx10.vminbf16256(<16 x bfloat>, <16 x bfloat>)
 
-define <16 x bfloat> @test_int_x86_avx10_min_nepbf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_min_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_min_bf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_min_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vminpbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5d,0xc1]
+; CHECK-NEXT:    vminbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5d,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res0 = call <16 x bfloat> @llvm.x86.avx10.vminpbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2)
+  %res0 = call <16 x bfloat> @llvm.x86.avx10.vminbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2)
   ret <16 x bfloat> %res0
 }
 
-define <16 x bfloat> @test_int_x86_avx10_maskz_min_nepbf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk) {
-; X64-LABEL: test_int_x86_avx10_maskz_min_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_maskz_min_bf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk) {
+; X64-LABEL: test_int_x86_avx10_maskz_min_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vminpbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x5d,0xc1]
+; X64-NEXT:    vminbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x5d,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_min_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_maskz_min_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vminpbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x5d,0xc1]
+; X86-NEXT:    vminbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x5d,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
-  %res0 = call <16 x bfloat> @llvm.x86.avx10.vminpbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2)
+  %res0 = call <16 x bfloat> @llvm.x86.avx10.vminbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2)
   %res1 = select <16 x i1> %mask, <16 x bfloat> %res0, <16 x bfloat> zeroinitializer
   ret <16 x bfloat> %res1
 }
 
-declare <8 x bfloat> @llvm.x86.avx10.vminpbf16128(<8 x bfloat>, <8 x bfloat>)
+declare <8 x bfloat> @llvm.x86.avx10.vminbf16128(<8 x bfloat>, <8 x bfloat>)
 
-define <8 x bfloat> @test_int_x86_avx10_min_nepbf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_min_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_min_bf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_min_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vminpbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5d,0xc1]
+; CHECK-NEXT:    vminbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5d,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res0 = call <8 x bfloat> @llvm.x86.avx10.vminpbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2)
+  %res0 = call <8 x bfloat> @llvm.x86.avx10.vminbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2)
   ret <8 x bfloat> %res0
 }
 
-define <8 x bfloat> @test_int_x86_avx10_maskz_min_nepbf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk) {
-; X64-LABEL: test_int_x86_avx10_maskz_min_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_maskz_min_bf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk) {
+; X64-LABEL: test_int_x86_avx10_maskz_min_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vminpbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x5d,0xc1]
+; X64-NEXT:    vminbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x5d,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_min_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_maskz_min_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vminpbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x5d,0xc1]
+; X86-NEXT:    vminbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x5d,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
-  %res0 = call <8 x bfloat> @llvm.x86.avx10.vminpbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2)
+  %res0 = call <8 x bfloat> @llvm.x86.avx10.vminbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2)
   %res1 = select <8 x i1> %mask, <8 x bfloat> %res0, <8 x bfloat> zeroinitializer
   ret <8 x bfloat> %res1
 }
 
-declare <16 x bfloat> @llvm.x86.avx10.vmaxpbf16256(<16 x bfloat>, <16 x bfloat>)
+declare <16 x bfloat> @llvm.x86.avx10.vmaxbf16256(<16 x bfloat>, <16 x bfloat>)
 
-define <16 x bfloat> @test_int_x86_avx10_max_nepbf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_max_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_max_bf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_max_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vmaxpbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5f,0xc1]
+; CHECK-NEXT:    vmaxbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x5f,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res0 = call <16 x bfloat> @llvm.x86.avx10.vmaxpbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2)
+  %res0 = call <16 x bfloat> @llvm.x86.avx10.vmaxbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2)
   ret <16 x bfloat> %res0
 }
 
-define <16 x bfloat> @test_int_x86_avx10_maskz_max_nepbf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk) {
-; X64-LABEL: test_int_x86_avx10_maskz_max_nepbf16_256:
+define <16 x bfloat> @test_int_x86_avx10_maskz_max_bf16_256(<16 x bfloat> %x1, <16 x bfloat> %x2, i16 %msk) {
+; X64-LABEL: test_int_x86_avx10_maskz_max_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vmaxpbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x5f,0xc1]
+; X64-NEXT:    vmaxbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x5f,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_max_nepbf16_256:
+; X86-LABEL: test_int_x86_avx10_maskz_max_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vmaxpbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x5f,0xc1]
+; X86-NEXT:    vmaxbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x5f,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %msk to <16 x i1>
-  %res0 = call <16 x bfloat> @llvm.x86.avx10.vmaxpbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2)
+  %res0 = call <16 x bfloat> @llvm.x86.avx10.vmaxbf16256(<16 x bfloat> %x1, <16 x bfloat> %x2)
   %res1 = select <16 x i1> %mask, <16 x bfloat> %res0, <16 x bfloat> zeroinitializer
   ret <16 x bfloat> %res1
 }
 
-declare <8 x bfloat> @llvm.x86.avx10.vmaxpbf16128(<8 x bfloat>, <8 x bfloat>)
+declare <8 x bfloat> @llvm.x86.avx10.vmaxbf16128(<8 x bfloat>, <8 x bfloat>)
 
-define <8 x bfloat> @test_int_x86_avx10_max_nepbf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
-; CHECK-LABEL: test_int_x86_avx10_max_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_max_bf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2) {
+; CHECK-LABEL: test_int_x86_avx10_max_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vmaxpbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5f,0xc1]
+; CHECK-NEXT:    vmaxbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x5f,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res0 = call <8 x bfloat> @llvm.x86.avx10.vmaxpbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2)
+  %res0 = call <8 x bfloat> @llvm.x86.avx10.vmaxbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2)
   ret <8 x bfloat> %res0
 }
 
-define <8 x bfloat> @test_int_x86_avx10_maskz_max_nepbf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk) {
-; X64-LABEL: test_int_x86_avx10_maskz_max_nepbf16_128:
+define <8 x bfloat> @test_int_x86_avx10_maskz_max_bf16_128(<8 x bfloat> %x1, <8 x bfloat> %x2, i8 %msk) {
+; X64-LABEL: test_int_x86_avx10_maskz_max_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vmaxpbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x5f,0xc1]
+; X64-NEXT:    vmaxbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x5f,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_max_nepbf16_128:
+; X86-LABEL: test_int_x86_avx10_maskz_max_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vmaxpbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x5f,0xc1]
+; X86-NEXT:    vmaxbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x5f,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %msk to <8 x i1>
-  %res0 = call <8 x bfloat> @llvm.x86.avx10.vmaxpbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2)
+  %res0 = call <8 x bfloat> @llvm.x86.avx10.vmaxbf16128(<8 x bfloat> %x1, <8 x bfloat> %x2)
   %res1 = select <8 x i1> %mask, <8 x bfloat> %res0, <8 x bfloat> zeroinitializer
   ret <8 x bfloat> %res1
 }
 
-declare i32 @llvm.x86.avx10.vcomsbf16eq(<8 x bfloat>, <8 x bfloat>)
-declare i32 @llvm.x86.avx10.vcomsbf16lt(<8 x bfloat>, <8 x bfloat>)
-declare i32 @llvm.x86.avx10.vcomsbf16le(<8 x bfloat>, <8 x bfloat>)
-declare i32 @llvm.x86.avx10.vcomsbf16gt(<8 x bfloat>, <8 x bfloat>)
-declare i32 @llvm.x86.avx10.vcomsbf16ge(<8 x bfloat>, <8 x bfloat>)
-declare i32 @llvm.x86.avx10.vcomsbf16neq(<8 x bfloat>, <8 x bfloat>)
+declare i32 @llvm.x86.avx10.vcomisbf16eq(<8 x bfloat>, <8 x bfloat>)
+declare i32 @llvm.x86.avx10.vcomisbf16lt(<8 x bfloat>, <8 x bfloat>)
+declare i32 @llvm.x86.avx10.vcomisbf16le(<8 x bfloat>, <8 x bfloat>)
+declare i32 @llvm.x86.avx10.vcomisbf16gt(<8 x bfloat>, <8 x bfloat>)
+declare i32 @llvm.x86.avx10.vcomisbf16ge(<8 x bfloat>, <8 x bfloat>)
+declare i32 @llvm.x86.avx10.vcomisbf16neq(<8 x bfloat>, <8 x bfloat>)
 
 define i32 @test_x86_avx10_com_nesbf16_eq(<8 x bfloat> %a0, <8 x bfloat> %a1) {
 ; CHECK-LABEL: test_x86_avx10_com_nesbf16_eq:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcomsbf16 %xmm1, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc1]
+; CHECK-NEXT:    vcomisbf16 %xmm1, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc1]
 ; CHECK-NEXT:    setnp %al # encoding: [0x0f,0x9b,0xc0]
 ; CHECK-NEXT:    sete %cl # encoding: [0x0f,0x94,0xc1]
 ; CHECK-NEXT:    andb %al, %cl # encoding: [0x20,0xc1]
 ; CHECK-NEXT:    movzbl %cl, %eax # encoding: [0x0f,0xb6,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call i32 @llvm.x86.avx10.vcomsbf16eq(<8 x bfloat> %a0, <8 x bfloat> %a1)
+  %res = call i32 @llvm.x86.avx10.vcomisbf16eq(<8 x bfloat> %a0, <8 x bfloat> %a1)
   ret i32 %res
 }
 
@@ -142,10 +142,10 @@ define i32 @test_x86_avx10_com_nesbf16_lt(<8 x bfloat> %a0, <8 x bfloat> %a1) {
 ; CHECK-LABEL: test_x86_avx10_com_nesbf16_lt:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    xorl %eax, %eax # encoding: [0x31,0xc0]
-; CHECK-NEXT:    vcomsbf16 %xmm0, %xmm1 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc8]
+; CHECK-NEXT:    vcomisbf16 %xmm0, %xmm1 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc8]
 ; CHECK-NEXT:    seta %al # encoding: [0x0f,0x97,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call i32 @llvm.x86.avx10.vcomsbf16lt(<8 x bfloat> %a0, <8 x bfloat> %a1)
+  %res = call i32 @llvm.x86.avx10.vcomisbf16lt(<8 x bfloat> %a0, <8 x bfloat> %a1)
   ret i32 %res
 }
 
@@ -153,10 +153,10 @@ define i32 @test_x86_avx10_com_nesbf16_le(<8 x bfloat> %a0, <8 x bfloat> %a1) {
 ; CHECK-LABEL: test_x86_avx10_com_nesbf16_le:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    xorl %eax, %eax # encoding: [0x31,0xc0]
-; CHECK-NEXT:    vcomsbf16 %xmm0, %xmm1 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc8]
+; CHECK-NEXT:    vcomisbf16 %xmm0, %xmm1 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc8]
 ; CHECK-NEXT:    setae %al # encoding: [0x0f,0x93,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call i32 @llvm.x86.avx10.vcomsbf16le(<8 x bfloat> %a0, <8 x bfloat> %a1)
+  %res = call i32 @llvm.x86.avx10.vcomisbf16le(<8 x bfloat> %a0, <8 x bfloat> %a1)
   ret i32 %res
 }
 
@@ -164,441 +164,441 @@ define i32 @test_x86_avx10_com_nesbf16_gt(<8 x bfloat> %a0, <8 x bfloat> %a1) {
 ; CHECK-LABEL: test_x86_avx10_com_nesbf16_gt:
 ; CHECK:       # %bb.0:
 ; CHECK-NEXT:    xorl %eax, %eax # encoding: [0x31,0xc0]
-; CHECK-NEXT:    vcomsbf16 %xmm1, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc1]
+; CHECK-NEXT:    vcomisbf16 %xmm1, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc1]
 ; CHECK-NEXT:    setae %al # encoding: [0x0f,0x93,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call i32 @llvm.x86.avx10.vcomsbf16ge(<8 x bfloat> %a0, <8 x bfloat> %a1)
+  %res = call i32 @llvm.x86.avx10.vcomisbf16ge(<8 x bfloat> %a0, <8 x bfloat> %a1)
   ret i32 %res
 }
 
 define i32 @test_x86_avx10_com_nesbf16_neq(<8 x bfloat> %a0, <8 x bfloat> %a1) {
 ; CHECK-LABEL: test_x86_avx10_com_nesbf16_neq:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcomsbf16 %xmm1, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc1]
+; CHECK-NEXT:    vcomisbf16 %xmm1, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xc1]
 ; CHECK-NEXT:    setp %al # encoding: [0x0f,0x9a,0xc0]
 ; CHECK-NEXT:    setne %cl # encoding: [0x0f,0x95,0xc1]
 ; CHECK-NEXT:    orb %al, %cl # encoding: [0x08,0xc1]
 ; CHECK-NEXT:    movzbl %cl, %eax # encoding: [0x0f,0xb6,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call i32 @llvm.x86.avx10.vcomsbf16neq(<8 x bfloat> %a0, <8 x bfloat> %a1)
+  %res = call i32 @llvm.x86.avx10.vcomisbf16neq(<8 x bfloat> %a0, <8 x bfloat> %a1)
   ret i32 %res
 }
 
-declare <8 x bfloat> @llvm.x86.avx10.mask.rsqrt.nepbf16.128(<8 x bfloat>, <8 x bfloat>, i8)
-declare <16 x bfloat> @llvm.x86.avx10.mask.rsqrt.nepbf16.256(<16 x bfloat>, <16 x bfloat>, i16)
+declare <8 x bfloat> @llvm.x86.avx10.mask.rsqrt.bf16.128(<8 x bfloat>, <8 x bfloat>, i8)
+declare <16 x bfloat> @llvm.x86.avx10.mask.rsqrt.bf16.256(<16 x bfloat>, <16 x bfloat>, i16)
 
-define <8 x bfloat> @test_rsqrt_nepbf16_128(<8 x bfloat> %a0) {
-; CHECK-LABEL: test_rsqrt_nepbf16_128:
+define <8 x bfloat> @test_rsqrt_bf16_128(<8 x bfloat> %a0) {
+; CHECK-LABEL: test_rsqrt_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vrsqrtpbf16 %xmm0, %xmm0 # encoding: [0x62,0xf6,0x7c,0x08,0x4e,0xc0]
+; CHECK-NEXT:    vrsqrtbf16 %xmm0, %xmm0 # encoding: [0x62,0xf6,0x7c,0x08,0x4e,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.rsqrt.nepbf16.128(<8 x bfloat> %a0, <8 x bfloat> zeroinitializer, i8 -1)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.rsqrt.bf16.128(<8 x bfloat> %a0, <8 x bfloat> zeroinitializer, i8 -1)
   ret <8 x bfloat> %res
 }
 
-define <16 x bfloat> @test_rsqrt_nepbf16_256(<16 x bfloat> %a0) {
-; CHECK-LABEL: test_rsqrt_nepbf16_256:
+define <16 x bfloat> @test_rsqrt_bf16_256(<16 x bfloat> %a0) {
+; CHECK-LABEL: test_rsqrt_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vrsqrtpbf16 %ymm0, %ymm0 # encoding: [0x62,0xf6,0x7c,0x28,0x4e,0xc0]
+; CHECK-NEXT:    vrsqrtbf16 %ymm0, %ymm0 # encoding: [0x62,0xf6,0x7c,0x28,0x4e,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.rsqrt.nepbf16.256(<16 x bfloat> %a0, <16 x bfloat> zeroinitializer, i16 -1)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.rsqrt.bf16.256(<16 x bfloat> %a0, <16 x bfloat> zeroinitializer, i16 -1)
   ret <16 x bfloat> %res
 }
 
-declare <8 x bfloat> @llvm.x86.avx10.mask.rcp.nepbf16.128(<8 x bfloat>, <8 x bfloat>, i8)
-declare <16 x bfloat> @llvm.x86.avx10.mask.rcp.nepbf16.256(<16 x bfloat>, <16 x bfloat>, i16)
+declare <8 x bfloat> @llvm.x86.avx10.mask.rcp.bf16.128(<8 x bfloat>, <8 x bfloat>, i8)
+declare <16 x bfloat> @llvm.x86.avx10.mask.rcp.bf16.256(<16 x bfloat>, <16 x bfloat>, i16)
 
-define <8 x bfloat> @test_rcp_nepbf16_128(<8 x bfloat> %a0, <8 x bfloat> %a1, i8 %mask) {
-; X64-LABEL: test_rcp_nepbf16_128:
+define <8 x bfloat> @test_rcp_bf16_128(<8 x bfloat> %a0, <8 x bfloat> %a1, i8 %mask) {
+; X64-LABEL: test_rcp_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vrcppbf16 %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0x4c,0xc8]
+; X64-NEXT:    vrcpbf16 %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0x4c,0xc8]
 ; X64-NEXT:    vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_rcp_nepbf16_128:
+; X86-LABEL: test_rcp_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vrcppbf16 %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0x4c,0xc8]
+; X86-NEXT:    vrcpbf16 %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0x4c,0xc8]
 ; X86-NEXT:    vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.rcp.nepbf16.128(<8 x bfloat> %a0, <8 x bfloat> %a1, i8 %mask)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.rcp.bf16.128(<8 x bfloat> %a0, <8 x bfloat> %a1, i8 %mask)
   ret <8 x bfloat> %res
 }
 
-define <16 x bfloat> @test_rcp_nepbf16_256(<16 x bfloat> %a0, <16 x bfloat> %a1, i16 %mask) {
-; X64-LABEL: test_rcp_nepbf16_256:
+define <16 x bfloat> @test_rcp_bf16_256(<16 x bfloat> %a0, <16 x bfloat> %a1, i16 %mask) {
+; X64-LABEL: test_rcp_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vrcppbf16 %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0x4c,0xc8]
+; X64-NEXT:    vrcpbf16 %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0x4c,0xc8]
 ; X64-NEXT:    vmovaps %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_rcp_nepbf16_256:
+; X86-LABEL: test_rcp_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vrcppbf16 %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0x4c,0xc8]
+; X86-NEXT:    vrcpbf16 %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0x4c,0xc8]
 ; X86-NEXT:    vmovaps %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.rcp.nepbf16.256(<16 x bfloat> %a0, <16 x bfloat> %a1, i16 %mask)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.rcp.bf16.256(<16 x bfloat> %a0, <16 x bfloat> %a1, i16 %mask)
   ret <16 x bfloat> %res
 }
 
-declare <8 x bfloat> @llvm.x86.avx10.mask.reduce.nepbf16.128(<8 x bfloat>, i32, <8 x bfloat>, i8)
-declare <16 x bfloat> @llvm.x86.avx10.mask.reduce.nepbf16.256(<16 x bfloat>, i32, <16 x bfloat>, i16)
+declare <8 x bfloat> @llvm.x86.avx10.mask.reduce.bf16.128(<8 x bfloat>, i32, <8 x bfloat>, i8)
+declare <16 x bfloat> @llvm.x86.avx10.mask.reduce.bf16.256(<16 x bfloat>, i32, <16 x bfloat>, i16)
 
-define <8 x bfloat>@test_int_x86_avx512_mask_reduce_nepbf16_128(<8 x bfloat> %x0, <8 x bfloat> %x2, i8 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_reduce_nepbf16_128:
+define <8 x bfloat>@test_int_x86_avx512_mask_reduce_bf16_128(<8 x bfloat> %x0, <8 x bfloat> %x2, i8 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_reduce_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vreducenepbf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x56,0xc8,0x08]
-; X64-NEXT:    vreducenepbf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x56,0xc0,0x04]
-; X64-NEXT:    vaddnepbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
+; X64-NEXT:    vreducebf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x56,0xc8,0x08]
+; X64-NEXT:    vreducebf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x56,0xc0,0x04]
+; X64-NEXT:    vaddbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_reduce_nepbf16_128:
+; X86-LABEL: test_int_x86_avx512_mask_reduce_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vreducenepbf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x56,0xc8,0x08]
-; X86-NEXT:    vreducenepbf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x56,0xc0,0x04]
-; X86-NEXT:    vaddnepbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
+; X86-NEXT:    vreducebf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x56,0xc8,0x08]
+; X86-NEXT:    vreducebf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x56,0xc0,0x04]
+; X86-NEXT:    vaddbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.reduce.nepbf16.128(<8 x bfloat> %x0, i32 8, <8 x bfloat> %x2, i8 %x3)
-  %res1 = call <8 x bfloat> @llvm.x86.avx10.mask.reduce.nepbf16.128(<8 x bfloat> %x0, i32 4, <8 x bfloat> %x2, i8 -1)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.reduce.bf16.128(<8 x bfloat> %x0, i32 8, <8 x bfloat> %x2, i8 %x3)
+  %res1 = call <8 x bfloat> @llvm.x86.avx10.mask.reduce.bf16.128(<8 x bfloat> %x0, i32 4, <8 x bfloat> %x2, i8 -1)
   %res2 = fadd <8 x bfloat> %res, %res1
   ret <8 x bfloat> %res2
 }
 
-define <16 x bfloat>@test_int_x86_avx512_mask_reduce_nepbf16_256(<16 x bfloat> %x0, <16 x bfloat> %x2, i16 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_reduce_nepbf16_256:
+define <16 x bfloat>@test_int_x86_avx512_mask_reduce_bf16_256(<16 x bfloat> %x0, <16 x bfloat> %x2, i16 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_reduce_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vreducenepbf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x56,0xc8,0x08]
-; X64-NEXT:    vreducenepbf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x56,0xc0,0x04]
-; X64-NEXT:    vaddnepbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
+; X64-NEXT:    vreducebf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x56,0xc8,0x08]
+; X64-NEXT:    vreducebf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x56,0xc0,0x04]
+; X64-NEXT:    vaddbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_reduce_nepbf16_256:
+; X86-LABEL: test_int_x86_avx512_mask_reduce_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vreducenepbf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x56,0xc8,0x08]
-; X86-NEXT:    vreducenepbf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x56,0xc0,0x04]
-; X86-NEXT:    vaddnepbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
+; X86-NEXT:    vreducebf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x56,0xc8,0x08]
+; X86-NEXT:    vreducebf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x56,0xc0,0x04]
+; X86-NEXT:    vaddbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.reduce.nepbf16.256(<16 x bfloat> %x0, i32 8, <16 x bfloat> %x2, i16 %x3)
-  %res1 = call <16 x bfloat> @llvm.x86.avx10.mask.reduce.nepbf16.256(<16 x bfloat> %x0, i32 4, <16 x bfloat> %x2, i16 -1)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.reduce.bf16.256(<16 x bfloat> %x0, i32 8, <16 x bfloat> %x2, i16 %x3)
+  %res1 = call <16 x bfloat> @llvm.x86.avx10.mask.reduce.bf16.256(<16 x bfloat> %x0, i32 4, <16 x bfloat> %x2, i16 -1)
   %res2 = fadd <16 x bfloat> %res, %res1
   ret <16 x bfloat> %res2
 }
 
-declare <8 x i1> @llvm.x86.avx10.fpclass.nepbf16.128(<8 x bfloat>, i32)
-declare <16 x i1> @llvm.x86.avx10.fpclass.nepbf16.256(<16 x bfloat>, i32)
+declare <8 x i1> @llvm.x86.avx10.fpclass.bf16.128(<8 x bfloat>, i32)
+declare <16 x i1> @llvm.x86.avx10.fpclass.bf16.256(<16 x bfloat>, i32)
 
-define i8 @test_int_x86_avx512_fpclass_nepbf16_128(<8 x bfloat> %x0) {
-; CHECK-LABEL: test_int_x86_avx512_fpclass_nepbf16_128:
+define i8 @test_int_x86_avx512_fpclass_bf16_128(<8 x bfloat> %x0) {
+; CHECK-LABEL: test_int_x86_avx512_fpclass_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfpclasspbf16 $2, %xmm0, %k1 # encoding: [0x62,0xf3,0x7f,0x08,0x66,0xc8,0x02]
+; CHECK-NEXT:    vfpclassbf16 $2, %xmm0, %k1 # encoding: [0x62,0xf3,0x7f,0x08,0x66,0xc8,0x02]
 ; CHECK-NEXT:    # k1 = isPositiveZero(xmm0)
-; CHECK-NEXT:    vfpclasspbf16 $4, %xmm0, %k0 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x66,0xc0,0x04]
+; CHECK-NEXT:    vfpclassbf16 $4, %xmm0, %k0 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x66,0xc0,0x04]
 ; CHECK-NEXT:    kmovd %k0, %eax # encoding: [0xc5,0xfb,0x93,0xc0]
 ; CHECK-NEXT:    # kill: def $al killed $al killed $eax
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <8 x i1> @llvm.x86.avx10.fpclass.nepbf16.128(<8 x bfloat> %x0, i32 4)
-  %res1 = call <8 x i1> @llvm.x86.avx10.fpclass.nepbf16.128(<8 x bfloat> %x0, i32 2)
+  %res = call <8 x i1> @llvm.x86.avx10.fpclass.bf16.128(<8 x bfloat> %x0, i32 4)
+  %res1 = call <8 x i1> @llvm.x86.avx10.fpclass.bf16.128(<8 x bfloat> %x0, i32 2)
   %1 = and <8 x i1> %res1, %res
   %2 = bitcast <8 x i1> %1 to i8
   ret i8 %2
 }
 
-define i16 @test_int_x86_avx512_fpclass_nepbf16_256(<16 x bfloat> %x0) {
-; CHECK-LABEL: test_int_x86_avx512_fpclass_nepbf16_256:
+define i16 @test_int_x86_avx512_fpclass_bf16_256(<16 x bfloat> %x0) {
+; CHECK-LABEL: test_int_x86_avx512_fpclass_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vfpclasspbf16 $2, %ymm0, %k1 # encoding: [0x62,0xf3,0x7f,0x28,0x66,0xc8,0x02]
+; CHECK-NEXT:    vfpclassbf16 $2, %ymm0, %k1 # encoding: [0x62,0xf3,0x7f,0x28,0x66,0xc8,0x02]
 ; CHECK-NEXT:    # k1 = isPositiveZero(ymm0)
-; CHECK-NEXT:    vfpclasspbf16 $4, %ymm0, %k0 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x66,0xc0,0x04]
+; CHECK-NEXT:    vfpclassbf16 $4, %ymm0, %k0 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x66,0xc0,0x04]
 ; CHECK-NEXT:    kmovd %k0, %eax # encoding: [0xc5,0xfb,0x93,0xc0]
 ; CHECK-NEXT:    # kill: def $ax killed $ax killed $eax
 ; CHECK-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <16 x i1> @llvm.x86.avx10.fpclass.nepbf16.256(<16 x bfloat> %x0, i32 4)
-  %res1 = call <16 x i1> @llvm.x86.avx10.fpclass.nepbf16.256(<16 x bfloat> %x0, i32 2)
+  %res = call <16 x i1> @llvm.x86.avx10.fpclass.bf16.256(<16 x bfloat> %x0, i32 4)
+  %res1 = call <16 x i1> @llvm.x86.avx10.fpclass.bf16.256(<16 x bfloat> %x0, i32 2)
   %1 = and <16 x i1> %res1, %res
   %2 = bitcast <16 x i1> %1 to i16
   ret i16 %2
 }
 
-declare <8 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.128(<8 x bfloat>, <8 x bfloat>, i8)
-declare <16 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.256(<16 x bfloat>, <16 x bfloat>, i16)
+declare <8 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.128(<8 x bfloat>, <8 x bfloat>, i8)
+declare <16 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.256(<16 x bfloat>, <16 x bfloat>, i16)
 
-define <8 x bfloat>@test_int_x86_avx512_getexp_nepbf16_128(<8 x bfloat> %x0) {
-; CHECK-LABEL: test_int_x86_avx512_getexp_nepbf16_128:
+define <8 x bfloat>@test_int_x86_avx512_getexp_bf16_128(<8 x bfloat> %x0) {
+; CHECK-LABEL: test_int_x86_avx512_getexp_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vgetexppbf16 %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x42,0xc0]
+; CHECK-NEXT:    vgetexpbf16 %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7d,0x08,0x42,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.128(<8 x bfloat> %x0, <8 x bfloat> zeroinitializer, i8 -1)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.128(<8 x bfloat> %x0, <8 x bfloat> zeroinitializer, i8 -1)
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat>@test_int_x86_avx512_mask_getexp_nepbf16_128(<8 x bfloat> %x0, <8 x bfloat> %x1, i8 %x2) {
-; X64-LABEL: test_int_x86_avx512_mask_getexp_nepbf16_128:
+define <8 x bfloat>@test_int_x86_avx512_mask_getexp_bf16_128(<8 x bfloat> %x0, <8 x bfloat> %x1, i8 %x2) {
+; X64-LABEL: test_int_x86_avx512_mask_getexp_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vgetexppbf16 %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x42,0xc8]
+; X64-NEXT:    vgetexpbf16 %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x42,0xc8]
 ; X64-NEXT:    vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_getexp_nepbf16_128:
+; X86-LABEL: test_int_x86_avx512_mask_getexp_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vgetexppbf16 %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x42,0xc8]
+; X86-NEXT:    vgetexpbf16 %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf5,0x7d,0x09,0x42,0xc8]
 ; X86-NEXT:    vmovaps %xmm1, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.128(<8 x bfloat> %x0, <8 x bfloat> %x1, i8 %x2)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.128(<8 x bfloat> %x0, <8 x bfloat> %x1, i8 %x2)
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat>@test_int_x86_avx512_maskz_getexp_nepbf16_128(<8 x bfloat> %x0, i8 %x2) {
-; X64-LABEL: test_int_x86_avx512_maskz_getexp_nepbf16_128:
+define <8 x bfloat>@test_int_x86_avx512_maskz_getexp_bf16_128(<8 x bfloat> %x0, i8 %x2) {
+; X64-LABEL: test_int_x86_avx512_maskz_getexp_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vgetexppbf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x42,0xc0]
+; X64-NEXT:    vgetexpbf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x42,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_maskz_getexp_nepbf16_128:
+; X86-LABEL: test_int_x86_avx512_maskz_getexp_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vgetexppbf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x42,0xc0]
+; X86-NEXT:    vgetexpbf16 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0x89,0x42,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.128(<8 x bfloat> %x0, <8 x bfloat> zeroinitializer, i8 %x2)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.128(<8 x bfloat> %x0, <8 x bfloat> zeroinitializer, i8 %x2)
   ret <8 x bfloat> %res
 }
 
-define <16 x bfloat>@test_int_x86_avx512_getexp_nepbf16_256(<16 x bfloat> %x0) {
-; CHECK-LABEL: test_int_x86_avx512_getexp_nepbf16_256:
+define <16 x bfloat>@test_int_x86_avx512_getexp_bf16_256(<16 x bfloat> %x0) {
+; CHECK-LABEL: test_int_x86_avx512_getexp_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vgetexppbf16 %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x42,0xc0]
+; CHECK-NEXT:    vgetexpbf16 %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7d,0x28,0x42,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.256(<16 x bfloat> %x0, <16 x bfloat> zeroinitializer, i16 -1)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.256(<16 x bfloat> %x0, <16 x bfloat> zeroinitializer, i16 -1)
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat>@test_int_x86_avx512_mask_getexp_nepbf16_256(<16 x bfloat> %x0, <16 x bfloat> %x1, i16 %x2) {
-; X64-LABEL: test_int_x86_avx512_mask_getexp_nepbf16_256:
+define <16 x bfloat>@test_int_x86_avx512_mask_getexp_bf16_256(<16 x bfloat> %x0, <16 x bfloat> %x1, i16 %x2) {
+; X64-LABEL: test_int_x86_avx512_mask_getexp_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vgetexppbf16 %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x42,0xc8]
+; X64-NEXT:    vgetexpbf16 %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x42,0xc8]
 ; X64-NEXT:    vmovaps %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_getexp_nepbf16_256:
+; X86-LABEL: test_int_x86_avx512_mask_getexp_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vgetexppbf16 %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x42,0xc8]
+; X86-NEXT:    vgetexpbf16 %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf5,0x7d,0x29,0x42,0xc8]
 ; X86-NEXT:    vmovaps %ymm1, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.256(<16 x bfloat> %x0, <16 x bfloat> %x1, i16 %x2)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.256(<16 x bfloat> %x0, <16 x bfloat> %x1, i16 %x2)
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat>@test_int_x86_avx512_maskz_getexp_nepbf16_256(<16 x bfloat> %x0, i16 %x2) {
-; X64-LABEL: test_int_x86_avx512_maskz_getexp_nepbf16_256:
+define <16 x bfloat>@test_int_x86_avx512_maskz_getexp_bf16_256(<16 x bfloat> %x0, i16 %x2) {
+; X64-LABEL: test_int_x86_avx512_maskz_getexp_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vgetexppbf16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x42,0xc0]
+; X64-NEXT:    vgetexpbf16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x42,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_maskz_getexp_nepbf16_256:
+; X86-LABEL: test_int_x86_avx512_maskz_getexp_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vgetexppbf16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x42,0xc0]
+; X86-NEXT:    vgetexpbf16 %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7d,0xa9,0x42,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.getexp.nepbf16.256(<16 x bfloat> %x0, <16 x bfloat> zeroinitializer, i16 %x2)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.getexp.bf16.256(<16 x bfloat> %x0, <16 x bfloat> zeroinitializer, i16 %x2)
   ret <16 x bfloat> %res
 }
 
-declare <8 x bfloat> @llvm.x86.avx10.mask.getmant.nepbf16.128(<8 x bfloat>, i32, <8 x bfloat>, i8)
-declare <16 x bfloat> @llvm.x86.avx10.mask.getmant.nepbf16.256(<16 x bfloat>, i32, <16 x bfloat>, i16)
+declare <8 x bfloat> @llvm.x86.avx10.mask.getmant.bf16.128(<8 x bfloat>, i32, <8 x bfloat>, i8)
+declare <16 x bfloat> @llvm.x86.avx10.mask.getmant.bf16.256(<16 x bfloat>, i32, <16 x bfloat>, i16)
 
-define <8 x bfloat>@test_int_x86_avx512_mask_getmant_nepbf16_128(<8 x bfloat> %x0, <8 x bfloat> %x2, i8 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_getmant_nepbf16_128:
+define <8 x bfloat>@test_int_x86_avx512_mask_getmant_bf16_128(<8 x bfloat> %x0, <8 x bfloat> %x2, i8 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_getmant_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vgetmantpbf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x26,0xc8,0x08]
-; X64-NEXT:    vgetmantpbf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x26,0xc0,0x04]
-; X64-NEXT:    vaddnepbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
+; X64-NEXT:    vgetmantbf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x26,0xc8,0x08]
+; X64-NEXT:    vgetmantbf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x26,0xc0,0x04]
+; X64-NEXT:    vaddbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_getmant_nepbf16_128:
+; X86-LABEL: test_int_x86_avx512_mask_getmant_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vgetmantpbf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x26,0xc8,0x08]
-; X86-NEXT:    vgetmantpbf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x26,0xc0,0x04]
-; X86-NEXT:    vaddnepbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
+; X86-NEXT:    vgetmantbf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x26,0xc8,0x08]
+; X86-NEXT:    vgetmantbf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x26,0xc0,0x04]
+; X86-NEXT:    vaddbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.getmant.nepbf16.128(<8 x bfloat> %x0, i32 8, <8 x bfloat> %x2, i8 %x3)
-  %res1 = call <8 x bfloat> @llvm.x86.avx10.mask.getmant.nepbf16.128(<8 x bfloat> %x0, i32 4, <8 x bfloat> %x2, i8 -1)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.getmant.bf16.128(<8 x bfloat> %x0, i32 8, <8 x bfloat> %x2, i8 %x3)
+  %res1 = call <8 x bfloat> @llvm.x86.avx10.mask.getmant.bf16.128(<8 x bfloat> %x0, i32 4, <8 x bfloat> %x2, i8 -1)
   %res2 = fadd <8 x bfloat> %res, %res1
   ret <8 x bfloat> %res2
 }
 
-define <16 x bfloat>@test_int_x86_avx512_mask_getmant_nepbf16_256(<16 x bfloat> %x0, <16 x bfloat> %x2, i16 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_getmant_nepbf16_256:
+define <16 x bfloat>@test_int_x86_avx512_mask_getmant_bf16_256(<16 x bfloat> %x0, <16 x bfloat> %x2, i16 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_getmant_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vgetmantpbf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x26,0xc8,0x08]
-; X64-NEXT:    vgetmantpbf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x26,0xc0,0x04]
-; X64-NEXT:    vaddnepbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
+; X64-NEXT:    vgetmantbf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x26,0xc8,0x08]
+; X64-NEXT:    vgetmantbf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x26,0xc0,0x04]
+; X64-NEXT:    vaddbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_getmant_nepbf16_256:
+; X86-LABEL: test_int_x86_avx512_mask_getmant_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vgetmantpbf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x26,0xc8,0x08]
-; X86-NEXT:    vgetmantpbf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x26,0xc0,0x04]
-; X86-NEXT:    vaddnepbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
+; X86-NEXT:    vgetmantbf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x26,0xc8,0x08]
+; X86-NEXT:    vgetmantbf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x26,0xc0,0x04]
+; X86-NEXT:    vaddbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.getmant.nepbf16.256(<16 x bfloat> %x0, i32 8, <16 x bfloat> %x2, i16 %x3)
-  %res1 = call <16 x bfloat> @llvm.x86.avx10.mask.getmant.nepbf16.256(<16 x bfloat> %x0, i32 4, <16 x bfloat> %x2, i16 -1)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.getmant.bf16.256(<16 x bfloat> %x0, i32 8, <16 x bfloat> %x2, i16 %x3)
+  %res1 = call <16 x bfloat> @llvm.x86.avx10.mask.getmant.bf16.256(<16 x bfloat> %x0, i32 4, <16 x bfloat> %x2, i16 -1)
   %res2 = fadd <16 x bfloat> %res, %res1
   ret <16 x bfloat> %res2
 }
 
-declare <8 x bfloat> @llvm.x86.avx10.mask.rndscale.nepbf16.128(<8 x bfloat>, i32, <8 x bfloat>, i8)
-declare <16 x bfloat> @llvm.x86.avx10.mask.rndscale.nepbf16.256(<16 x bfloat>, i32, <16 x bfloat>, i16)
+declare <8 x bfloat> @llvm.x86.avx10.mask.rndscale.bf16.128(<8 x bfloat>, i32, <8 x bfloat>, i8)
+declare <16 x bfloat> @llvm.x86.avx10.mask.rndscale.bf16.256(<16 x bfloat>, i32, <16 x bfloat>, i16)
 
-define <8 x bfloat>@test_int_x86_avx512_mask_rndscale_nepbf16_128(<8 x bfloat> %x0, <8 x bfloat> %x2, i8 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_rndscale_nepbf16_128:
+define <8 x bfloat>@test_int_x86_avx512_mask_rndscale_bf16_128(<8 x bfloat> %x0, <8 x bfloat> %x2, i8 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_rndscale_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vrndscalenepbf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x08,0xc8,0x08]
-; X64-NEXT:    vrndscalenepbf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x08,0xc0,0x04]
-; X64-NEXT:    vaddnepbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
+; X64-NEXT:    vrndscalebf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x08,0xc8,0x08]
+; X64-NEXT:    vrndscalebf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x08,0xc0,0x04]
+; X64-NEXT:    vaddbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_rndscale_nepbf16_128:
+; X86-LABEL: test_int_x86_avx512_mask_rndscale_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vrndscalenepbf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x08,0xc8,0x08]
-; X86-NEXT:    vrndscalenepbf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x08,0xc0,0x04]
-; X86-NEXT:    vaddnepbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
+; X86-NEXT:    vrndscalebf16 $8, %xmm0, %xmm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x09,0x08,0xc8,0x08]
+; X86-NEXT:    vrndscalebf16 $4, %xmm0, %xmm0 # encoding: [0x62,0xf3,0x7f,0x08,0x08,0xc0,0x04]
+; X86-NEXT:    vaddbf16 %xmm0, %xmm1, %xmm0 # encoding: [0x62,0xf5,0x75,0x08,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.rndscale.nepbf16.128(<8 x bfloat> %x0, i32 8, <8 x bfloat> %x2, i8 %x3)
-  %res1 = call <8 x bfloat> @llvm.x86.avx10.mask.rndscale.nepbf16.128(<8 x bfloat> %x0, i32 4, <8 x bfloat> %x2, i8 -1)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.rndscale.bf16.128(<8 x bfloat> %x0, i32 8, <8 x bfloat> %x2, i8 %x3)
+  %res1 = call <8 x bfloat> @llvm.x86.avx10.mask.rndscale.bf16.128(<8 x bfloat> %x0, i32 4, <8 x bfloat> %x2, i8 -1)
   %res2 = fadd <8 x bfloat> %res, %res1
   ret <8 x bfloat> %res2
 }
 
-define <16 x bfloat>@test_int_x86_avx512_mask_rndscale_nepbf16_256(<16 x bfloat> %x0, <16 x bfloat> %x2, i16 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_rndscale_nepbf16_256:
+define <16 x bfloat>@test_int_x86_avx512_mask_rndscale_bf16_256(<16 x bfloat> %x0, <16 x bfloat> %x2, i16 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_rndscale_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vrndscalenepbf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x08,0xc8,0x08]
-; X64-NEXT:    vrndscalenepbf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x08,0xc0,0x04]
-; X64-NEXT:    vaddnepbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
+; X64-NEXT:    vrndscalebf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x08,0xc8,0x08]
+; X64-NEXT:    vrndscalebf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x08,0xc0,0x04]
+; X64-NEXT:    vaddbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_rndscale_nepbf16_256:
+; X86-LABEL: test_int_x86_avx512_mask_rndscale_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vrndscalenepbf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x08,0xc8,0x08]
-; X86-NEXT:    vrndscalenepbf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x08,0xc0,0x04]
-; X86-NEXT:    vaddnepbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
+; X86-NEXT:    vrndscalebf16 $8, %ymm0, %ymm1 {%k1} # encoding: [0x62,0xf3,0x7f,0x29,0x08,0xc8,0x08]
+; X86-NEXT:    vrndscalebf16 $4, %ymm0, %ymm0 # encoding: [0x62,0xf3,0x7f,0x28,0x08,0xc0,0x04]
+; X86-NEXT:    vaddbf16 %ymm0, %ymm1, %ymm0 # encoding: [0x62,0xf5,0x75,0x28,0x58,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.rndscale.nepbf16.256(<16 x bfloat> %x0, i32 8, <16 x bfloat> %x2, i16 %x3)
-  %res1 = call <16 x bfloat> @llvm.x86.avx10.mask.rndscale.nepbf16.256(<16 x bfloat> %x0, i32 4, <16 x bfloat> %x2, i16 -1)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.rndscale.bf16.256(<16 x bfloat> %x0, i32 8, <16 x bfloat> %x2, i16 %x3)
+  %res1 = call <16 x bfloat> @llvm.x86.avx10.mask.rndscale.bf16.256(<16 x bfloat> %x0, i32 4, <16 x bfloat> %x2, i16 -1)
   %res2 = fadd <16 x bfloat> %res, %res1
   ret <16 x bfloat> %res2
 }
 
-declare <8 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.128(<8 x bfloat>, <8 x bfloat>, <8 x bfloat>, i8)
-declare <16 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.256(<16 x bfloat>, <16 x bfloat>, <16 x bfloat>, i16)
+declare <8 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.128(<8 x bfloat>, <8 x bfloat>, <8 x bfloat>, i8)
+declare <16 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.256(<16 x bfloat>, <16 x bfloat>, <16 x bfloat>, i16)
 
-define <8 x bfloat>@test_int_x86_avx512_scalef_nepbf16_128(<8 x bfloat> %x0, <8 x bfloat> %x1) {
-; CHECK-LABEL: test_int_x86_avx512_scalef_nepbf16_128:
+define <8 x bfloat>@test_int_x86_avx512_scalef_bf16_128(<8 x bfloat> %x0, <8 x bfloat> %x1) {
+; CHECK-LABEL: test_int_x86_avx512_scalef_bf16_128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vscalefpbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf6,0x7c,0x08,0x2c,0xc1]
+; CHECK-NEXT:    vscalefbf16 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf6,0x7c,0x08,0x2c,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.128(<8 x bfloat> %x0, <8 x bfloat> %x1, <8 x bfloat> zeroinitializer, i8 -1)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.128(<8 x bfloat> %x0, <8 x bfloat> %x1, <8 x bfloat> zeroinitializer, i8 -1)
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat>@test_int_x86_avx512_mask_scalef_nepbf16_128(<8 x bfloat> %x0, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_scalef_nepbf16_128:
+define <8 x bfloat>@test_int_x86_avx512_mask_scalef_bf16_128(<8 x bfloat> %x0, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_scalef_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vscalefpbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0x2c,0xd1]
+; X64-NEXT:    vscalefbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0x2c,0xd1]
 ; X64-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_scalef_nepbf16_128:
+; X86-LABEL: test_int_x86_avx512_mask_scalef_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vscalefpbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0x2c,0xd1]
+; X86-NEXT:    vscalefbf16 %xmm1, %xmm0, %xmm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x09,0x2c,0xd1]
 ; X86-NEXT:    vmovaps %xmm2, %xmm0 # EVEX TO VEX Compression encoding: [0xc5,0xf8,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %x3 to <8 x i1>
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.128(<8 x bfloat> %x0, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %x3)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.128(<8 x bfloat> %x0, <8 x bfloat> %x1, <8 x bfloat> %x2, i8 %x3)
   ret <8 x bfloat> %res
 }
 
-define <8 x bfloat>@test_int_x86_avx512_maskz_scalef_nepbf16_128(<8 x bfloat> %x0, <8 x bfloat> %x1, i8 %x3) {
-; X64-LABEL: test_int_x86_avx512_maskz_scalef_nepbf16_128:
+define <8 x bfloat>@test_int_x86_avx512_maskz_scalef_bf16_128(<8 x bfloat> %x0, <8 x bfloat> %x1, i8 %x3) {
+; X64-LABEL: test_int_x86_avx512_maskz_scalef_bf16_128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vscalefpbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x7c,0x89,0x2c,0xc1]
+; X64-NEXT:    vscalefbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x7c,0x89,0x2c,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_maskz_scalef_nepbf16_128:
+; X86-LABEL: test_int_x86_avx512_maskz_scalef_bf16_128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vscalefpbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x7c,0x89,0x2c,0xc1]
+; X86-NEXT:    vscalefbf16 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf6,0x7c,0x89,0x2c,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i8 %x3 to <8 x i1>
-  %res = call <8 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.128(<8 x bfloat> %x0, <8 x bfloat> %x1, <8 x bfloat> zeroinitializer, i8 %x3)
+  %res = call <8 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.128(<8 x bfloat> %x0, <8 x bfloat> %x1, <8 x bfloat> zeroinitializer, i8 %x3)
   ret <8 x bfloat> %res
 }
 
-define <16 x bfloat>@test_int_x86_avx512_scalef_nepbf16_256(<16 x bfloat> %x0, <16 x bfloat> %x1) {
-; CHECK-LABEL: test_int_x86_avx512_scalef_nepbf16_256:
+define <16 x bfloat>@test_int_x86_avx512_scalef_bf16_256(<16 x bfloat> %x0, <16 x bfloat> %x1) {
+; CHECK-LABEL: test_int_x86_avx512_scalef_bf16_256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vscalefpbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf6,0x7c,0x28,0x2c,0xc1]
+; CHECK-NEXT:    vscalefbf16 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf6,0x7c,0x28,0x2c,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.256(<16 x bfloat> %x0, <16 x bfloat> %x1, <16 x bfloat> zeroinitializer, i16 -1)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.256(<16 x bfloat> %x0, <16 x bfloat> %x1, <16 x bfloat> zeroinitializer, i16 -1)
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat>@test_int_x86_avx512_mask_scalef_nepbf16_256(<16 x bfloat> %x0, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %x3) {
-; X64-LABEL: test_int_x86_avx512_mask_scalef_nepbf16_256:
+define <16 x bfloat>@test_int_x86_avx512_mask_scalef_bf16_256(<16 x bfloat> %x0, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %x3) {
+; X64-LABEL: test_int_x86_avx512_mask_scalef_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vscalefpbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0x2c,0xd1]
+; X64-NEXT:    vscalefbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0x2c,0xd1]
 ; X64-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_mask_scalef_nepbf16_256:
+; X86-LABEL: test_int_x86_avx512_mask_scalef_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vscalefpbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0x2c,0xd1]
+; X86-NEXT:    vscalefbf16 %ymm1, %ymm0, %ymm2 {%k1} # encoding: [0x62,0xf6,0x7c,0x29,0x2c,0xd1]
 ; X86-NEXT:    vmovaps %ymm2, %ymm0 # EVEX TO VEX Compression encoding: [0xc5,0xfc,0x28,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %x3 to <16 x i1>
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.256(<16 x bfloat> %x0, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %x3)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.256(<16 x bfloat> %x0, <16 x bfloat> %x1, <16 x bfloat> %x2, i16 %x3)
   ret <16 x bfloat> %res
 }
 
-define <16 x bfloat>@test_int_x86_avx512_maskz_scalef_nepbf16_256(<16 x bfloat> %x0, <16 x bfloat> %x1, i16 %x3) {
-; X64-LABEL: test_int_x86_avx512_maskz_scalef_nepbf16_256:
+define <16 x bfloat>@test_int_x86_avx512_maskz_scalef_bf16_256(<16 x bfloat> %x0, <16 x bfloat> %x1, i16 %x3) {
+; X64-LABEL: test_int_x86_avx512_maskz_scalef_bf16_256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vscalefpbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x7c,0xa9,0x2c,0xc1]
+; X64-NEXT:    vscalefbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x7c,0xa9,0x2c,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx512_maskz_scalef_nepbf16_256:
+; X86-LABEL: test_int_x86_avx512_maskz_scalef_bf16_256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vscalefpbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x7c,0xa9,0x2c,0xc1]
+; X86-NEXT:    vscalefbf16 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf6,0x7c,0xa9,0x2c,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
   %mask = bitcast i16 %x3 to <16 x i1>
-  %res = call <16 x bfloat> @llvm.x86.avx10.mask.scalef.nepbf16.256(<16 x bfloat> %x0, <16 x bfloat> %x1, <16 x bfloat> zeroinitializer, i16 %x3)
+  %res = call <16 x bfloat> @llvm.x86.avx10.mask.scalef.bf16.256(<16 x bfloat> %x0, <16 x bfloat> %x1, <16 x bfloat> zeroinitializer, i16 %x3)
   ret <16 x bfloat> %res
 }
diff --git a/llvm/test/CodeGen/X86/avx10_2convert-intrinsics.ll b/llvm/test/CodeGen/X86/avx10_2convert-intrinsics.ll
index fc74f0b490cd8..fe2bfb7b44691 100644
--- a/llvm/test/CodeGen/X86/avx10_2convert-intrinsics.ll
+++ b/llvm/test/CodeGen/X86/avx10_2convert-intrinsics.ll
@@ -493,381 +493,381 @@ define <16 x i8> @test_int_x86_avx10_maskz_vcvtbiasph2hf8s256(<32 x i8> %A, <16
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2bf8128(<8 x half> %A, <8 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2bf8128:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2bf8128(<8 x half> %A, <8 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2bf8128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2bf8 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7f,0x08,0x74,0xc1]
+; CHECK-NEXT:    vcvt2ph2bf8 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7f,0x08,0x74,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8128(<8 x half> %A, <8 x half> %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8128(<8 x half> %A, <8 x half> %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2bf8128_mask(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8128_mask:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2bf8128_mask(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8128_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x74,0xc2]
+; X64-NEXT:    vcvt2ph2bf8 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x74,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8128_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8128_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x74,0xc2]
+; X86-NEXT:    vcvt2ph2bf8 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x77,0x09,0x74,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8128(<8 x half> %A, <8 x half> %B)
+  %1 = call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8128(<8 x half> %A, <8 x half> %B)
   %2 = bitcast i16 %U to <16 x i1>
   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %C
   ret <16 x i8> %3
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2bf8128_maskz(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8128_maskz:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2bf8128_maskz(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8128_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x77,0x89,0x74,0xc2]
+; X64-NEXT:    vcvt2ph2bf8 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x77,0x89,0x74,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8128_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8128_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x77,0x89,0x74,0xc2]
+; X86-NEXT:    vcvt2ph2bf8 %xmm2, %xmm1, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x77,0x89,0x74,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8128(<8 x half> %A, <8 x half> %B)
+  %1 = call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8128(<8 x half> %A, <8 x half> %B)
   %2 = bitcast i16 %U to <16 x i1>
   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
   ret <16 x i8> %3
 }
 
-declare <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8128(<8 x half> %A, <8 x half> %B)
+declare <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8128(<8 x half> %A, <8 x half> %B)
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2bf8256(<16 x half> %A, <16 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2bf8256:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2bf8256(<16 x half> %A, <16 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2bf8256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2bf8 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf2,0x7f,0x28,0x74,0xc1]
+; CHECK-NEXT:    vcvt2ph2bf8 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf2,0x7f,0x28,0x74,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8256(<16 x half> %A, <16 x half> %B)
+  %ret = call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8256(<16 x half> %A, <16 x half> %B)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2bf8256_mask(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8256_mask:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2bf8256_mask(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8256_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x74,0xc2]
+; X64-NEXT:    vcvt2ph2bf8 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x74,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8256_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8256_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x74,0xc2]
+; X86-NEXT:    vcvt2ph2bf8 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf2,0x77,0x29,0x74,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8256(<16 x half> %A, <16 x half> %B)
+  %1 = call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8256(<16 x half> %A, <16 x half> %B)
   %2 = bitcast i32 %U to <32 x i1>
   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %C
   ret <32 x i8> %3
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2bf8256_maskz(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8256_maskz:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2bf8256_maskz(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8256_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x77,0xa9,0x74,0xc2]
+; X64-NEXT:    vcvt2ph2bf8 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x77,0xa9,0x74,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8256_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8256_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x77,0xa9,0x74,0xc2]
+; X86-NEXT:    vcvt2ph2bf8 %ymm2, %ymm1, %ymm0 {%k1} {z} # encoding: [0x62,0xf2,0x77,0xa9,0x74,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8256(<16 x half> %A, <16 x half> %B)
+  %1 = call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8256(<16 x half> %A, <16 x half> %B)
   %2 = bitcast i32 %U to <32 x i1>
   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
   ret <32 x i8> %3
 }
 
-declare <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8256(<16 x half> %A, <16 x half> %B)
+declare <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8256(<16 x half> %A, <16 x half> %B)
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2bf8s128(<8 x half> %A, <8 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s128:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2bf8s128(<8 x half> %A, <8 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2bf8s128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2bf8s %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7f,0x08,0x74,0xc1]
+; CHECK-NEXT:    vcvt2ph2bf8s %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7f,0x08,0x74,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s128(<8 x half> %A, <8 x half> %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8s128(<8 x half> %A, <8 x half> %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2bf8s128_mask(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s128_mask:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2bf8s128_mask(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8s128_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8s %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x74,0xc2]
+; X64-NEXT:    vcvt2ph2bf8s %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x74,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s128_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8s128_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8s %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x74,0xc2]
+; X86-NEXT:    vcvt2ph2bf8s %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x74,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s128(<8 x half> %A, <8 x half> %B)
+  %1 = call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8s128(<8 x half> %A, <8 x half> %B)
   %2 = bitcast i16 %U to <16 x i1>
   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %C
   ret <16 x i8> %3
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2bf8s128_maskz(i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s128_maskz:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2bf8s128_maskz(i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8s128_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8s %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x74,0xc1]
+; X64-NEXT:    vcvt2ph2bf8s %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x74,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s128_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8s128_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8s %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x74,0xc1]
+; X86-NEXT:    vcvt2ph2bf8s %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x74,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s128(<8 x half> %A, <8 x half> %B)
+  %1 = call <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8s128(<8 x half> %A, <8 x half> %B)
   %2 = bitcast i16 %U to <16 x i1>
   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
   ret <16 x i8> %3
 }
 
-declare <16 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s128(<8 x half> %A, <8 x half> %B)
+declare <16 x i8> @llvm.x86.avx10.vcvt2ph2bf8s128(<8 x half> %A, <8 x half> %B)
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2bf8s256(<16 x half> %A, <16 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s256:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2bf8s256(<16 x half> %A, <16 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2bf8s256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2bf8s %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7f,0x28,0x74,0xc1]
+; CHECK-NEXT:    vcvt2ph2bf8s %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7f,0x28,0x74,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s256(<16 x half> %A, <16 x half> %B)
+  %ret = call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8s256(<16 x half> %A, <16 x half> %B)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2bf8s256_mask(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s256_mask:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2bf8s256_mask(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8s256_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8s %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x74,0xc2]
+; X64-NEXT:    vcvt2ph2bf8s %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x74,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s256_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8s256_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8s %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x74,0xc2]
+; X86-NEXT:    vcvt2ph2bf8s %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x74,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s256(<16 x half> %A, <16 x half> %B)
+  %1 = call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8s256(<16 x half> %A, <16 x half> %B)
   %2 = bitcast i32 %U to <32 x i1>
   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %C
   ret <32 x i8> %3
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2bf8s256_maskz(i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s256_maskz:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2bf8s256_maskz(i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2bf8s256_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2bf8s %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x74,0xc1]
+; X64-NEXT:    vcvt2ph2bf8s %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x74,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2bf8s256_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2bf8s256_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2bf8s %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x74,0xc1]
+; X86-NEXT:    vcvt2ph2bf8s %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x74,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s256(<16 x half> %A, <16 x half> %B)
+  %1 = call <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8s256(<16 x half> %A, <16 x half> %B)
   %2 = bitcast i32 %U to <32 x i1>
   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
   ret <32 x i8> %3
 }
 
-declare <32 x i8> @llvm.x86.avx10.vcvtne2ph2bf8s256(<16 x half> %A, <16 x half> %B)
+declare <32 x i8> @llvm.x86.avx10.vcvt2ph2bf8s256(<16 x half> %A, <16 x half> %B)
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2hf8128(<8 x half> %A, <8 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2hf8128:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2hf8128(<8 x half> %A, <8 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2hf8128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2hf8 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7f,0x08,0x18,0xc1]
+; CHECK-NEXT:    vcvt2ph2hf8 %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7f,0x08,0x18,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8128(<8 x half> %A, <8 x half> %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8128(<8 x half> %A, <8 x half> %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2hf8128_mask(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8128_mask:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2hf8128_mask(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8128_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x18,0xc2]
+; X64-NEXT:    vcvt2ph2hf8 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x18,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8128_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8128_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x18,0xc2]
+; X86-NEXT:    vcvt2ph2hf8 %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x18,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8128(<8 x half> %A, <8 x half> %B)
+  %1 = call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8128(<8 x half> %A, <8 x half> %B)
   %2 = bitcast i16 %U to <16 x i1>
   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %C
   ret <16 x i8> %3
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2hf8128_maskz(i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8128_maskz:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2hf8128_maskz(i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8128_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x18,0xc1]
+; X64-NEXT:    vcvt2ph2hf8 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x18,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8128_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8128_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x18,0xc1]
+; X86-NEXT:    vcvt2ph2hf8 %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x18,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8128(<8 x half> %A, <8 x half> %B)
+  %1 = call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8128(<8 x half> %A, <8 x half> %B)
   %2 = bitcast i16 %U to <16 x i1>
   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
   ret <16 x i8> %3
 }
 
-declare <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8128(<8 x half> %A, <8 x half> %B)
+declare <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8128(<8 x half> %A, <8 x half> %B)
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2hf8256(<16 x half> %A, <16 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2hf8256:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2hf8256(<16 x half> %A, <16 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2hf8256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2hf8 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7f,0x28,0x18,0xc1]
+; CHECK-NEXT:    vcvt2ph2hf8 %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7f,0x28,0x18,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8256(<16 x half> %A, <16 x half> %B)
+  %ret = call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8256(<16 x half> %A, <16 x half> %B)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2hf8256_mask(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8256_mask:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2hf8256_mask(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8256_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x18,0xc2]
+; X64-NEXT:    vcvt2ph2hf8 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x18,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8256_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8256_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x18,0xc2]
+; X86-NEXT:    vcvt2ph2hf8 %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x18,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8256(<16 x half> %A, <16 x half> %B)
+  %1 = call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8256(<16 x half> %A, <16 x half> %B)
   %2 = bitcast i32 %U to <32 x i1>
   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %C
   ret <32 x i8> %3
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2hf8256_maskz(i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8256_maskz:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2hf8256_maskz(i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8256_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x18,0xc1]
+; X64-NEXT:    vcvt2ph2hf8 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x18,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8256_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8256_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x18,0xc1]
+; X86-NEXT:    vcvt2ph2hf8 %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x18,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8256(<16 x half> %A, <16 x half> %B)
+  %1 = call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8256(<16 x half> %A, <16 x half> %B)
   %2 = bitcast i32 %U to <32 x i1>
   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
   ret <32 x i8> %3
 }
 
-declare <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8256(<16 x half> %A, <16 x half> %B)
+declare <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8256(<16 x half> %A, <16 x half> %B)
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2hf8s128(<8 x half> %A, <8 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s128:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2hf8s128(<8 x half> %A, <8 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2hf8s128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2hf8s %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7f,0x08,0x1b,0xc1]
+; CHECK-NEXT:    vcvt2ph2hf8s %xmm1, %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7f,0x08,0x1b,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s128(<8 x half> %A, <8 x half> %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8s128(<8 x half> %A, <8 x half> %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2hf8s128_mask(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s128_mask:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2hf8s128_mask(<16 x i8> %C, i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8s128_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8s %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x1b,0xc2]
+; X64-NEXT:    vcvt2ph2hf8s %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x1b,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s128_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8s128_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8s %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x1b,0xc2]
+; X86-NEXT:    vcvt2ph2hf8s %xmm2, %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x77,0x09,0x1b,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s128(<8 x half> %A, <8 x half> %B)
+  %1 = call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8s128(<8 x half> %A, <8 x half> %B)
   %2 = bitcast i16 %U to <16 x i1>
   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %C
   ret <16 x i8> %3
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtne2ph2hf8s128_maskz(i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s128_maskz:
+define <16 x i8> @test_int_x86_avx10_vcvt2ph2hf8s128_maskz(i16 %U, <8 x half> %A, <8 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8s128_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8s %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x1b,0xc1]
+; X64-NEXT:    vcvt2ph2hf8s %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x1b,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s128_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8s128_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8s %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x1b,0xc1]
+; X86-NEXT:    vcvt2ph2hf8s %xmm1, %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0x89,0x1b,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s128(<8 x half> %A, <8 x half> %B)
+  %1 = call <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8s128(<8 x half> %A, <8 x half> %B)
   %2 = bitcast i16 %U to <16 x i1>
   %3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
   ret <16 x i8> %3
 }
 
-declare <16 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s128(<8 x half> %A, <8 x half> %B)
+declare <16 x i8> @llvm.x86.avx10.vcvt2ph2hf8s128(<8 x half> %A, <8 x half> %B)
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2hf8s256(<16 x half> %A, <16 x half> %B) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s256:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2hf8s256(<16 x half> %A, <16 x half> %B) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvt2ph2hf8s256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtne2ph2hf8s %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7f,0x28,0x1b,0xc1]
+; CHECK-NEXT:    vcvt2ph2hf8s %ymm1, %ymm0, %ymm0 # encoding: [0x62,0xf5,0x7f,0x28,0x1b,0xc1]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s256(<16 x half> %A, <16 x half> %B)
+  %ret = call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8s256(<16 x half> %A, <16 x half> %B)
   ret <32 x i8> %ret
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2hf8s256_mask(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s256_mask:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2hf8s256_mask(<32 x i8> %C, i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8s256_mask:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8s %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x1b,0xc2]
+; X64-NEXT:    vcvt2ph2hf8s %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x1b,0xc2]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s256_mask:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8s256_mask:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8s %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x1b,0xc2]
+; X86-NEXT:    vcvt2ph2hf8s %ymm2, %ymm1, %ymm0 {%k1} # encoding: [0x62,0xf5,0x77,0x29,0x1b,0xc2]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s256(<16 x half> %A, <16 x half> %B)
+  %1 = call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8s256(<16 x half> %A, <16 x half> %B)
   %2 = bitcast i32 %U to <32 x i1>
   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %C
   ret <32 x i8> %3
 }
 
-define <32 x i8> @test_int_x86_avx10_vcvtne2ph2hf8s256_maskz(i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s256_maskz:
+define <32 x i8> @test_int_x86_avx10_vcvt2ph2hf8s256_maskz(i32 %U, <16 x half> %A, <16 x half> %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_vcvt2ph2hf8s256_maskz:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtne2ph2hf8s %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x1b,0xc1]
+; X64-NEXT:    vcvt2ph2hf8s %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x1b,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_vcvtne2ph2hf8s256_maskz:
+; X86-LABEL: test_int_x86_avx10_vcvt2ph2hf8s256_maskz:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovd {{[0-9]+}}(%esp), %k1 # encoding: [0xc4,0xe1,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtne2ph2hf8s %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x1b,0xc1]
+; X86-NEXT:    vcvt2ph2hf8s %ymm1, %ymm0, %ymm0 {%k1} {z} # encoding: [0x62,0xf5,0x7f,0xa9,0x1b,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %1 = call <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s256(<16 x half> %A, <16 x half> %B)
+  %1 = call <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8s256(<16 x half> %A, <16 x half> %B)
   %2 = bitcast i32 %U to <32 x i1>
   %3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
   ret <32 x i8> %3
 }
 
-declare <32 x i8> @llvm.x86.avx10.vcvtne2ph2hf8s256(<16 x half> %A, <16 x half> %B)
+declare <32 x i8> @llvm.x86.avx10.vcvt2ph2hf8s256(<16 x half> %A, <16 x half> %B)
 
 define <8 x half> @test_int_x86_avx10_vcvthf82ph128(<16 x i8> %A) nounwind {
 ; CHECK-LABEL: test_int_x86_avx10_vcvthf82ph128:
@@ -959,366 +959,366 @@ define <16 x half> @test_int_x86_avx10_maskz_vcvthf82ph256(<16 x i8> %A, i16 %B)
   ret <16 x half> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtneph2bf8128(<8 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2bf8128:
+define <16 x i8> @test_int_x86_avx10_vcvtph2bf8128(<8 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2bf8128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2bf8 %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x08,0x74,0xc0]
+; CHECK-NEXT:    vcvtph2bf8 %xmm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x08,0x74,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8128(<8 x half> %A, <16 x i8> undef, i8 -1)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8128(<8 x half> %A, <16 x i8> undef, i8 -1)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_mask_vcvtneph2bf8128(<16 x i8> %B, <8 x half> %A, i8 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8128:
+define <16 x i8> @test_int_x86_avx10_mask_vcvtph2bf8128(<16 x i8> %B, <8 x half> %A, i8 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2bf8128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x09,0x74,0xc1]
+; X64-NEXT:    vcvtph2bf8 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x09,0x74,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8128:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2bf8128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x09,0x74,0xc1]
+; X86-NEXT:    vcvtph2bf8 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x09,0x74,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8128(<8 x half> %A, <16 x i8> %B, i8 %C)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8128(<8 x half> %A, <16 x i8> %B, i8 %C)
   ret <16 x i8> %ret
 }
 
-declare <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8128(<8 x half> %A, <16 x i8> %B, i8 %C)
+declare <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8128(<8 x half> %A, <16 x i8> %B, i8 %C)
 
-define <16 x i8> @test_int_x86_avx10_maskz_vcvtneph2bf8128(<8 x half> %A, i8 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8128:
+define <16 x i8> @test_int_x86_avx10_maskz_vcvtph2bf8128(<8 x half> %A, i8 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0x89,0x74,0xc0]
+; X64-NEXT:    vcvtph2bf8 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0x89,0x74,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8128:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0x89,0x74,0xc0]
+; X86-NEXT:    vcvtph2bf8 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0x89,0x74,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8128(<8 x half> %A, <16 x i8> zeroinitializer, i8 %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8128(<8 x half> %A, <16 x i8> zeroinitializer, i8 %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtneph2bf8256(<16 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2bf8256:
+define <16 x i8> @test_int_x86_avx10_vcvtph2bf8256(<16 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2bf8256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2bf8 %ymm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x28,0x74,0xc0]
+; CHECK-NEXT:    vcvtph2bf8 %ymm0, %xmm0 # encoding: [0x62,0xf2,0x7e,0x28,0x74,0xc0]
 ; CHECK-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8256(<16 x half> %A, <16 x i8> undef, i16 -1)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8256(<16 x half> %A, <16 x i8> undef, i16 -1)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_mask_vcvtneph2bf8256(<16 x i8> %B, <16 x half> %A, i16 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8256:
+define <16 x i8> @test_int_x86_avx10_mask_vcvtph2bf8256(<16 x i8> %B, <16 x half> %A, i16 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2bf8256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x74,0xc1]
+; X64-NEXT:    vcvtph2bf8 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x74,0xc1]
 ; X64-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8256:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2bf8256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x74,0xc1]
+; X86-NEXT:    vcvtph2bf8 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf2,0x7e,0x29,0x74,0xc1]
 ; X86-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8256(<16 x half> %A, <16 x i8> %B, i16 %C)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8256(<16 x half> %A, <16 x i8> %B, i16 %C)
   ret <16 x i8> %ret
 }
 
-declare <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8256(<16 x half> %A, <16 x i8> %B, i16 %C)
+declare <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8256(<16 x half> %A, <16 x i8> %B, i16 %C)
 
-define <16 x i8> @test_int_x86_avx10_maskz_vcvtneph2bf8256(<16 x half> %A, i16 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8256:
+define <16 x i8> @test_int_x86_avx10_maskz_vcvtph2bf8256(<16 x half> %A, i16 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x74,0xc0]
+; X64-NEXT:    vcvtph2bf8 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x74,0xc0]
 ; X64-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8256:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x74,0xc0]
+; X86-NEXT:    vcvtph2bf8 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf2,0x7e,0xa9,0x74,0xc0]
 ; X86-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8256(<16 x half> %A, <16 x i8> zeroinitializer, i16 %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8256(<16 x half> %A, <16 x i8> zeroinitializer, i16 %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtneph2bf8s128(<8 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2bf8s128:
+define <16 x i8> @test_int_x86_avx10_vcvtph2bf8s128(<8 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2bf8s128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2bf8s %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x08,0x74,0xc0]
+; CHECK-NEXT:    vcvtph2bf8s %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x08,0x74,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s128(<8 x half> %A, <16 x i8> undef, i8 -1)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s128(<8 x half> %A, <16 x i8> undef, i8 -1)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_mask_vcvtneph2bf8s128(<16 x i8> %B, <8 x half> %A, i8 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8s128:
+define <16 x i8> @test_int_x86_avx10_mask_vcvtph2bf8s128(<16 x i8> %B, <8 x half> %A, i8 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2bf8s128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8s %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x74,0xc1]
+; X64-NEXT:    vcvtph2bf8s %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x74,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8s128:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2bf8s128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8s %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x74,0xc1]
+; X86-NEXT:    vcvtph2bf8s %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x74,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s128(<8 x half> %A, <16 x i8> %B, i8 %C)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s128(<8 x half> %A, <16 x i8> %B, i8 %C)
   ret <16 x i8> %ret
 }
 
-declare <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s128(<8 x half> %A, <16 x i8> %B, i8 %C)
+declare <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s128(<8 x half> %A, <16 x i8> %B, i8 %C)
 
-define <16 x i8> @test_int_x86_avx10_maskz_vcvtneph2bf8s128(<8 x half> %A, i8 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8s128:
+define <16 x i8> @test_int_x86_avx10_maskz_vcvtph2bf8s128(<8 x half> %A, i8 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8s128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8s %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x74,0xc0]
+; X64-NEXT:    vcvtph2bf8s %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x74,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8s128:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8s128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8s %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x74,0xc0]
+; X86-NEXT:    vcvtph2bf8s %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x74,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s128(<8 x half> %A, <16 x i8> zeroinitializer, i8 %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s128(<8 x half> %A, <16 x i8> zeroinitializer, i8 %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtneph2bf8s256(<16 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2bf8s256:
+define <16 x i8> @test_int_x86_avx10_vcvtph2bf8s256(<16 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2bf8s256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2bf8s %ymm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x28,0x74,0xc0]
+; CHECK-NEXT:    vcvtph2bf8s %ymm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x28,0x74,0xc0]
 ; CHECK-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s256(<16 x half> %A, <16 x i8> undef, i16 -1)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s256(<16 x half> %A, <16 x i8> undef, i16 -1)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_mask_vcvtneph2bf8s256(<16 x i8> %B, <16 x half> %A, i16 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8s256:
+define <16 x i8> @test_int_x86_avx10_mask_vcvtph2bf8s256(<16 x i8> %B, <16 x half> %A, i16 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2bf8s256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8s %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x74,0xc1]
+; X64-NEXT:    vcvtph2bf8s %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x74,0xc1]
 ; X64-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2bf8s256:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2bf8s256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8s %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x74,0xc1]
+; X86-NEXT:    vcvtph2bf8s %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x74,0xc1]
 ; X86-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s256(<16 x half> %A, <16 x i8> %B, i16 %C)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s256(<16 x half> %A, <16 x i8> %B, i16 %C)
   ret <16 x i8> %ret
 }
 
-declare <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s256(<16 x half> %A, <16 x i8> %B, i16 %C)
+declare <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s256(<16 x half> %A, <16 x i8> %B, i16 %C)
 
-define <16 x i8> @test_int_x86_avx10_maskz_vcvtneph2bf8s256(<16 x half> %A, i16 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8s256:
+define <16 x i8> @test_int_x86_avx10_maskz_vcvtph2bf8s256(<16 x half> %A, i16 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8s256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2bf8s %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x74,0xc0]
+; X64-NEXT:    vcvtph2bf8s %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x74,0xc0]
 ; X64-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2bf8s256:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2bf8s256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2bf8s %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x74,0xc0]
+; X86-NEXT:    vcvtph2bf8s %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x74,0xc0]
 ; X86-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2bf8s256(<16 x half> %A, <16 x i8> zeroinitializer, i16 %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2bf8s256(<16 x half> %A, <16 x i8> zeroinitializer, i16 %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtneph2hf8128(<8 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2hf8128:
+define <16 x i8> @test_int_x86_avx10_vcvtph2hf8128(<8 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2hf8128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2hf8 %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x08,0x18,0xc0]
+; CHECK-NEXT:    vcvtph2hf8 %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x08,0x18,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8128(<8 x half> %A, <16 x i8> undef, i8 -1)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8128(<8 x half> %A, <16 x i8> undef, i8 -1)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_mask_vcvtneph2hf8128(<16 x i8> %B, <8 x half> %A, i8 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8128:
+define <16 x i8> @test_int_x86_avx10_mask_vcvtph2hf8128(<16 x i8> %B, <8 x half> %A, i8 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2hf8128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x18,0xc1]
+; X64-NEXT:    vcvtph2hf8 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x18,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8128:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2hf8128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x18,0xc1]
+; X86-NEXT:    vcvtph2hf8 %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x18,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8128(<8 x half> %A, <16 x i8> %B, i8 %C)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8128(<8 x half> %A, <16 x i8> %B, i8 %C)
   ret <16 x i8> %ret
 }
 
-declare <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8128(<8 x half> %A, <16 x i8> %B, i8 %C)
+declare <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8128(<8 x half> %A, <16 x i8> %B, i8 %C)
 
-define <16 x i8> @test_int_x86_avx10_maskz_vcvtneph2hf8128(<8 x half> %A, i8 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8128:
+define <16 x i8> @test_int_x86_avx10_maskz_vcvtph2hf8128(<8 x half> %A, i8 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x18,0xc0]
+; X64-NEXT:    vcvtph2hf8 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x18,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8128:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x18,0xc0]
+; X86-NEXT:    vcvtph2hf8 %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x18,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8128(<8 x half> %A, <16 x i8> zeroinitializer, i8 %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8128(<8 x half> %A, <16 x i8> zeroinitializer, i8 %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtneph2hf8256(<16 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2hf8256:
+define <16 x i8> @test_int_x86_avx10_vcvtph2hf8256(<16 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2hf8256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2hf8 %ymm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x28,0x18,0xc0]
+; CHECK-NEXT:    vcvtph2hf8 %ymm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x28,0x18,0xc0]
 ; CHECK-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8256(<16 x half> %A, <16 x i8> undef, i16 -1)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8256(<16 x half> %A, <16 x i8> undef, i16 -1)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_mask_vcvtneph2hf8256(<16 x i8> %B, <16 x half> %A, i16 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8256:
+define <16 x i8> @test_int_x86_avx10_mask_vcvtph2hf8256(<16 x i8> %B, <16 x half> %A, i16 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2hf8256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x18,0xc1]
+; X64-NEXT:    vcvtph2hf8 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x18,0xc1]
 ; X64-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8256:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2hf8256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x18,0xc1]
+; X86-NEXT:    vcvtph2hf8 %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x18,0xc1]
 ; X86-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8256(<16 x half> %A, <16 x i8> %B, i16 %C)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8256(<16 x half> %A, <16 x i8> %B, i16 %C)
   ret <16 x i8> %ret
 }
 
-declare <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8256(<16 x half> %A, <16 x i8> %B, i16 %C)
+declare <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8256(<16 x half> %A, <16 x i8> %B, i16 %C)
 
-define <16 x i8> @test_int_x86_avx10_maskz_vcvtneph2hf8256(<16 x half> %A, i16 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8256:
+define <16 x i8> @test_int_x86_avx10_maskz_vcvtph2hf8256(<16 x half> %A, i16 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x18,0xc0]
+; X64-NEXT:    vcvtph2hf8 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x18,0xc0]
 ; X64-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8256:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x18,0xc0]
+; X86-NEXT:    vcvtph2hf8 %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x18,0xc0]
 ; X86-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8256(<16 x half> %A, <16 x i8> zeroinitializer, i16 %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8256(<16 x half> %A, <16 x i8> zeroinitializer, i16 %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtneph2hf8s128(<8 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2hf8s128:
+define <16 x i8> @test_int_x86_avx10_vcvtph2hf8s128(<8 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2hf8s128:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2hf8s %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x08,0x1b,0xc0]
+; CHECK-NEXT:    vcvtph2hf8s %xmm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x08,0x1b,0xc0]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s128(<8 x half> %A, <16 x i8> undef, i8 -1)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s128(<8 x half> %A, <16 x i8> undef, i8 -1)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_mask_vcvtneph2hf8s128(<16 x i8> %B, <8 x half> %A, i8 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8s128:
+define <16 x i8> @test_int_x86_avx10_mask_vcvtph2hf8s128(<16 x i8> %B, <8 x half> %A, i8 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2hf8s128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8s %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x1b,0xc1]
+; X64-NEXT:    vcvtph2hf8s %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x1b,0xc1]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8s128:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2hf8s128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8s %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x1b,0xc1]
+; X86-NEXT:    vcvtph2hf8s %xmm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x09,0x1b,0xc1]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s128(<8 x half> %A, <16 x i8> %B, i8 %C)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s128(<8 x half> %A, <16 x i8> %B, i8 %C)
   ret <16 x i8> %ret
 }
 
-declare <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s128(<8 x half> %A, <16 x i8> %B, i8 %C)
+declare <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s128(<8 x half> %A, <16 x i8> %B, i8 %C)
 
-define <16 x i8> @test_int_x86_avx10_maskz_vcvtneph2hf8s128(<8 x half> %A, i8 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8s128:
+define <16 x i8> @test_int_x86_avx10_maskz_vcvtph2hf8s128(<8 x half> %A, i8 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8s128:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8s %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x1b,0xc0]
+; X64-NEXT:    vcvtph2hf8s %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x1b,0xc0]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8s128:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8s128:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovb {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf9,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8s %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x1b,0xc0]
+; X86-NEXT:    vcvtph2hf8s %xmm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0x89,0x1b,0xc0]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s128(<8 x half> %A, <16 x i8> zeroinitializer, i8 %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s128(<8 x half> %A, <16 x i8> zeroinitializer, i8 %B)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_vcvtneph2hf8s256(<16 x half> %A) nounwind {
-; CHECK-LABEL: test_int_x86_avx10_vcvtneph2hf8s256:
+define <16 x i8> @test_int_x86_avx10_vcvtph2hf8s256(<16 x half> %A) nounwind {
+; CHECK-LABEL: test_int_x86_avx10_vcvtph2hf8s256:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    vcvtneph2hf8s %ymm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x28,0x1b,0xc0]
+; CHECK-NEXT:    vcvtph2hf8s %ymm0, %xmm0 # encoding: [0x62,0xf5,0x7e,0x28,0x1b,0xc0]
 ; CHECK-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; CHECK-NEXT:    ret{{[l|q]}} # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s256(<16 x half> %A, <16 x i8> undef, i16 -1)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s256(<16 x half> %A, <16 x i8> undef, i16 -1)
   ret <16 x i8> %ret
 }
 
-define <16 x i8> @test_int_x86_avx10_mask_vcvtneph2hf8s256(<16 x i8> %B, <16 x half> %A, i16 %C) nounwind {
-; X64-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8s256:
+define <16 x i8> @test_int_x86_avx10_mask_vcvtph2hf8s256(<16 x i8> %B, <16 x half> %A, i16 %C) nounwind {
+; X64-LABEL: test_int_x86_avx10_mask_vcvtph2hf8s256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8s %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x1b,0xc1]
+; X64-NEXT:    vcvtph2hf8s %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x1b,0xc1]
 ; X64-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_mask_vcvtneph2hf8s256:
+; X86-LABEL: test_int_x86_avx10_mask_vcvtph2hf8s256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8s %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x1b,0xc1]
+; X86-NEXT:    vcvtph2hf8s %ymm1, %xmm0 {%k1} # encoding: [0x62,0xf5,0x7e,0x29,0x1b,0xc1]
 ; X86-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s256(<16 x half> %A, <16 x i8> %B, i16 %C)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s256(<16 x half> %A, <16 x i8> %B, i16 %C)
   ret <16 x i8> %ret
 }
 
-declare <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s256(<16 x half> %A, <16 x i8> %B, i16 %C)
+declare <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s256(<16 x half> %A, <16 x i8> %B, i16 %C)
 
-define <16 x i8> @test_int_x86_avx10_maskz_vcvtneph2hf8s256(<16 x half> %A, i16 %B) nounwind {
-; X64-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8s256:
+define <16 x i8> @test_int_x86_avx10_maskz_vcvtph2hf8s256(<16 x half> %A, i16 %B) nounwind {
+; X64-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8s256:
 ; X64:       # %bb.0:
 ; X64-NEXT:    kmovd %edi, %k1 # encoding: [0xc5,0xfb,0x92,0xcf]
-; X64-NEXT:    vcvtneph2hf8s %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x1b,0xc0]
+; X64-NEXT:    vcvtph2hf8s %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x1b,0xc0]
 ; X64-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X64-NEXT:    retq # encoding: [0xc3]
 ;
-; X86-LABEL: test_int_x86_avx10_maskz_vcvtneph2hf8s256:
+; X86-LABEL: test_int_x86_avx10_maskz_vcvtph2hf8s256:
 ; X86:       # %bb.0:
 ; X86-NEXT:    kmovw {{[0-9]+}}(%esp), %k1 # encoding: [0xc5,0xf8,0x90,0x4c,0x24,0x04]
-; X86-NEXT:    vcvtneph2hf8s %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x1b,0xc0]
+; X86-NEXT:    vcvtph2hf8s %ymm0, %xmm0 {%k1} {z} # encoding: [0x62,0xf5,0x7e,0xa9,0x1b,0xc0]
 ; X86-NEXT:    vzeroupper # encoding: [0xc5,0xf8,0x77]
 ; X86-NEXT:    retl # encoding: [0xc3]
-  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtneph2hf8s256(<16 x half> %A, <16 x i8> zeroinitializer, i16 %B)
+  %ret = call <16 x i8> @llvm.x86.avx10.mask.vcvtph2hf8s256(<16 x half> %A, <16 x i8> zeroinitializer, i16 %B)
   ret <16 x i8> %ret
 }
diff --git a/llvm/test/CodeGen/X86/bit_ceil.ll b/llvm/test/CodeGen/X86/bit_ceil.ll
index 823453087f618..1f21fcac8341d 100644
--- a/llvm/test/CodeGen/X86/bit_ceil.ll
+++ b/llvm/test/CodeGen/X86/bit_ceil.ll
@@ -10,9 +10,8 @@ define i32 @bit_ceil_i32(i32 %x) {
 ; NOBMI:       # %bb.0:
 ; NOBMI-NEXT:    # kill: def $edi killed $edi def $rdi
 ; NOBMI-NEXT:    leal -1(%rdi), %eax
-; NOBMI-NEXT:    bsrl %eax, %eax
 ; NOBMI-NEXT:    movl $63, %ecx
-; NOBMI-NEXT:    cmovnel %eax, %ecx
+; NOBMI-NEXT:    bsrl %eax, %ecx
 ; NOBMI-NEXT:    xorl $31, %ecx
 ; NOBMI-NEXT:    negb %cl
 ; NOBMI-NEXT:    movl $1, %edx
@@ -47,9 +46,8 @@ define i32 @bit_ceil_i32(i32 %x) {
 define i32 @bit_ceil_i32_plus1(i32 noundef %x) {
 ; NOBMI-LABEL: bit_ceil_i32_plus1:
 ; NOBMI:       # %bb.0: # %entry
-; NOBMI-NEXT:    bsrl %edi, %eax
 ; NOBMI-NEXT:    movl $63, %ecx
-; NOBMI-NEXT:    cmovnel %eax, %ecx
+; NOBMI-NEXT:    bsrl %edi, %ecx
 ; NOBMI-NEXT:    xorl $31, %ecx
 ; NOBMI-NEXT:    negb %cl
 ; NOBMI-NEXT:    movl $1, %edx
@@ -86,9 +84,8 @@ define i64 @bit_ceil_i64(i64 %x) {
 ; NOBMI-LABEL: bit_ceil_i64:
 ; NOBMI:       # %bb.0:
 ; NOBMI-NEXT:    leaq -1(%rdi), %rax
-; NOBMI-NEXT:    bsrq %rax, %rax
 ; NOBMI-NEXT:    movl $127, %ecx
-; NOBMI-NEXT:    cmovneq %rax, %rcx
+; NOBMI-NEXT:    bsrq %rax, %rcx
 ; NOBMI-NEXT:    xorl $63, %ecx
 ; NOBMI-NEXT:    negb %cl
 ; NOBMI-NEXT:    movl $1, %edx
@@ -122,9 +119,8 @@ define i64 @bit_ceil_i64(i64 %x) {
 define i64 @bit_ceil_i64_plus1(i64 noundef %x) {
 ; NOBMI-LABEL: bit_ceil_i64_plus1:
 ; NOBMI:       # %bb.0: # %entry
-; NOBMI-NEXT:    bsrq %rdi, %rax
 ; NOBMI-NEXT:    movl $127, %ecx
-; NOBMI-NEXT:    cmovneq %rax, %rcx
+; NOBMI-NEXT:    bsrq %rdi, %rcx
 ; NOBMI-NEXT:    xorl $63, %ecx
 ; NOBMI-NEXT:    negb %cl
 ; NOBMI-NEXT:    movl $1, %edx
diff --git a/llvm/test/CodeGen/X86/combine-or.ll b/llvm/test/CodeGen/X86/combine-or.ll
index d9c6d7053be74..08262e4d34b26 100644
--- a/llvm/test/CodeGen/X86/combine-or.ll
+++ b/llvm/test/CodeGen/X86/combine-or.ll
@@ -227,9 +227,8 @@ define i64 @PR89533(<64 x i8> %a0) {
 ; SSE-NEXT:    orl %eax, %edx
 ; SSE-NEXT:    shlq $32, %rdx
 ; SSE-NEXT:    orq %rcx, %rdx
-; SSE-NEXT:    bsfq %rdx, %rcx
 ; SSE-NEXT:    movl $64, %eax
-; SSE-NEXT:    cmovneq %rcx, %rax
+; SSE-NEXT:    rep bsfq %rdx, %rax
 ; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: PR89533:
@@ -255,9 +254,8 @@ define i64 @PR89533(<64 x i8> %a0) {
 ; AVX1-NEXT:    orl %eax, %edx
 ; AVX1-NEXT:    shlq $32, %rdx
 ; AVX1-NEXT:    orq %rcx, %rdx
-; AVX1-NEXT:    bsfq %rdx, %rcx
 ; AVX1-NEXT:    movl $64, %eax
-; AVX1-NEXT:    cmovneq %rcx, %rax
+; AVX1-NEXT:    rep bsfq %rdx, %rax
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
 ;
diff --git a/llvm/test/CodeGen/X86/ctlo.ll b/llvm/test/CodeGen/X86/ctlo.ll
index 2f4fef82f1f17..fecb62fbc5aea 100644
--- a/llvm/test/CodeGen/X86/ctlo.ll
+++ b/llvm/test/CodeGen/X86/ctlo.ll
@@ -44,10 +44,9 @@ define i8 @ctlo_i8(i8 %x) {
 ; X64-LABEL: ctlo_i8:
 ; X64:       # %bb.0:
 ; X64-NEXT:    notb %dil
-; X64-NEXT:    movzbl %dil, %eax
-; X64-NEXT:    bsrl %eax, %ecx
+; X64-NEXT:    movzbl %dil, %ecx
 ; X64-NEXT:    movl $15, %eax
-; X64-NEXT:    cmovnel %ecx, %eax
+; X64-NEXT:    bsrl %ecx, %eax
 ; X64-NEXT:    xorl $7, %eax
 ; X64-NEXT:    # kill: def $al killed $al killed $eax
 ; X64-NEXT:    retq
@@ -146,9 +145,8 @@ define i16 @ctlo_i16(i16 %x) {
 ; X64-LABEL: ctlo_i16:
 ; X64:       # %bb.0:
 ; X64-NEXT:    notl %edi
-; X64-NEXT:    bsrw %di, %cx
 ; X64-NEXT:    movw $31, %ax
-; X64-NEXT:    cmovnew %cx, %ax
+; X64-NEXT:    bsrw %di, %ax
 ; X64-NEXT:    xorl $15, %eax
 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
 ; X64-NEXT:    retq
@@ -232,9 +230,8 @@ define i32 @ctlo_i32(i32 %x) {
 ; X64-LABEL: ctlo_i32:
 ; X64:       # %bb.0:
 ; X64-NEXT:    notl %edi
-; X64-NEXT:    bsrl %edi, %ecx
 ; X64-NEXT:    movl $63, %eax
-; X64-NEXT:    cmovnel %ecx, %eax
+; X64-NEXT:    bsrl %edi, %eax
 ; X64-NEXT:    xorl $31, %eax
 ; X64-NEXT:    retq
 ;
@@ -335,9 +332,8 @@ define i64 @ctlo_i64(i64 %x) {
 ; X64-LABEL: ctlo_i64:
 ; X64:       # %bb.0:
 ; X64-NEXT:    notq %rdi
-; X64-NEXT:    bsrq %rdi, %rcx
 ; X64-NEXT:    movl $127, %eax
-; X64-NEXT:    cmovneq %rcx, %rax
+; X64-NEXT:    bsrq %rdi, %rax
 ; X64-NEXT:    xorq $63, %rax
 ; X64-NEXT:    retq
 ;
diff --git a/llvm/test/CodeGen/X86/ctlz.ll b/llvm/test/CodeGen/X86/ctlz.ll
index 68defaff78d37..0eabfeae853f7 100644
--- a/llvm/test/CodeGen/X86/ctlz.ll
+++ b/llvm/test/CodeGen/X86/ctlz.ll
@@ -246,10 +246,9 @@ define i8 @ctlz_i8_zero_test(i8 %n) {
 ;
 ; X64-LABEL: ctlz_i8_zero_test:
 ; X64:       # %bb.0:
-; X64-NEXT:    movzbl %dil, %eax
-; X64-NEXT:    bsrl %eax, %ecx
+; X64-NEXT:    movzbl %dil, %ecx
 ; X64-NEXT:    movl $15, %eax
-; X64-NEXT:    cmovnel %ecx, %eax
+; X64-NEXT:    bsrl %ecx, %eax
 ; X64-NEXT:    xorl $7, %eax
 ; X64-NEXT:    # kill: def $al killed $al killed $eax
 ; X64-NEXT:    retq
@@ -317,9 +316,8 @@ define i16 @ctlz_i16_zero_test(i16 %n) {
 ;
 ; X64-LABEL: ctlz_i16_zero_test:
 ; X64:       # %bb.0:
-; X64-NEXT:    bsrw %di, %cx
 ; X64-NEXT:    movw $31, %ax
-; X64-NEXT:    cmovnew %cx, %ax
+; X64-NEXT:    bsrw %di, %ax
 ; X64-NEXT:    xorl $15, %eax
 ; X64-NEXT:    # kill: def $ax killed $ax killed $eax
 ; X64-NEXT:    retq
@@ -372,9 +370,8 @@ define i32 @ctlz_i32_zero_test(i32 %n) {
 ;
 ; X64-LABEL: ctlz_i32_zero_test:
 ; X64:       # %bb.0:
-; X64-NEXT:    bsrl %edi, %ecx
 ; X64-NEXT:    movl $63, %eax
-; X64-NEXT:    cmovnel %ecx, %eax
+; X64-NEXT:    bsrl %edi, %eax
 ; X64-NEXT:    xorl $31, %eax
 ; X64-NEXT:    retq
 ;
@@ -442,9 +439,8 @@ define i64 @ctlz_i64_zero_test(i64 %n) {
 ;
 ; X64-LABEL: ctlz_i64_zero_test:
 ; X64:       # %bb.0:
-; X64-NEXT:    bsrq %rdi, %rcx
 ; X64-NEXT:    movl $127, %eax
-; X64-NEXT:    cmovneq %rcx, %rax
+; X64-NEXT:    bsrq %rdi, %rax
 ; X64-NEXT:    xorq $63, %rax
 ; X64-NEXT:    retq
 ;
@@ -613,9 +609,8 @@ define i32 @ctlz_bsr_zero_test(i32 %n) {
 ;
 ; X64-LABEL: ctlz_bsr_zero_test:
 ; X64:       # %bb.0:
-; X64-NEXT:    bsrl %edi, %ecx
 ; X64-NEXT:    movl $63, %eax
-; X64-NEXT:    cmovnel %ecx, %eax
+; X64-NEXT:    bsrl %edi, %eax
 ; X64-NEXT:    retq
 ;
 ; X86-CLZ-LABEL: ctlz_bsr_zero_test:
@@ -983,10 +978,9 @@ define i8 @ctlz_xor7_i8_false(i8 %x) {
 ;
 ; X64-LABEL: ctlz_xor7_i8_false:
 ; X64:       # %bb.0:
-; X64-NEXT:    movzbl %dil, %eax
-; X64-NEXT:    bsrl %eax, %ecx
+; X64-NEXT:    movzbl %dil, %ecx
 ; X64-NEXT:    movl $15, %eax
-; X64-NEXT:    cmovnel %ecx, %eax
+; X64-NEXT:    bsrl %ecx, %eax
 ; X64-NEXT:    # kill: def $al killed $al killed $eax
 ; X64-NEXT:    retq
 ;
@@ -1094,9 +1088,8 @@ define i32 @ctlz_xor31_i32_false(i32 %x) {
 ;
 ; X64-LABEL: ctlz_xor31_i32_false:
 ; X64:       # %bb.0:
-; X64-NEXT:    bsrl %edi, %ecx
 ; X64-NEXT:    movl $63, %eax
-; X64-NEXT:    cmovnel %ecx, %eax
+; X64-NEXT:    bsrl %edi, %eax
 ; X64-NEXT:    retq
 ;
 ; X86-CLZ-LABEL: ctlz_xor31_i32_false:
@@ -1239,9 +1232,8 @@ define i64 @ctlz_i32_sext(i32 %x) {
 ;
 ; X64-LABEL: ctlz_i32_sext:
 ; X64:       # %bb.0:
-; X64-NEXT:    bsrl %edi, %ecx
 ; X64-NEXT:    movl $63, %eax
-; X64-NEXT:    cmovnel %ecx, %eax
+; X64-NEXT:    bsrl %edi, %eax
 ; X64-NEXT:    retq
 ;
 ; X86-CLZ-LABEL: ctlz_i32_sext:
@@ -1302,9 +1294,8 @@ define i64 @ctlz_i32_zext(i32 %x) {
 ;
 ; X64-LABEL: ctlz_i32_zext:
 ; X64:       # %bb.0:
-; X64-NEXT:    bsrl %edi, %ecx
 ; X64-NEXT:    movl $63, %eax
-; X64-NEXT:    cmovnel %ecx, %eax
+; X64-NEXT:    bsrl %edi, %eax
 ; X64-NEXT:    retq
 ;
 ; X86-CLZ-LABEL: ctlz_i32_zext:
diff --git a/llvm/test/CodeGen/X86/cttz.ll b/llvm/test/CodeGen/X86/cttz.ll
index 30e5cccfb2198..db949827af007 100644
--- a/llvm/test/CodeGen/X86/cttz.ll
+++ b/llvm/test/CodeGen/X86/cttz.ll
@@ -324,11 +324,8 @@ define i32 @cttz_i32_zero_test(i32 %n) {
 ;
 ; X64-LABEL: cttz_i32_zero_test:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
 ;
 ; X86-CLZ-LABEL: cttz_i32_zero_test:
@@ -393,9 +390,8 @@ define i64 @cttz_i64_zero_test(i64 %n) {
 ;
 ; X64-LABEL: cttz_i64_zero_test:
 ; X64:       # %bb.0:
-; X64-NEXT:    bsfq %rdi, %rcx
 ; X64-NEXT:    movl $64, %eax
-; X64-NEXT:    cmovneq %rcx, %rax
+; X64-NEXT:    rep bsfq %rdi, %rax
 ; X64-NEXT:    retq
 ;
 ; X86-CLZ-LABEL: cttz_i64_zero_test:
@@ -687,10 +683,8 @@ define i64 @cttz_i32_sext(i32 %x) {
 ;
 ; X64-LABEL: cttz_i32_sext:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
 ;
 ; X86-CLZ-LABEL: cttz_i32_sext:
@@ -744,10 +738,8 @@ define i64 @cttz_i32_zext(i32 %x) {
 ;
 ; X64-LABEL: cttz_i32_zext:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
 ;
 ; X86-CLZ-LABEL: cttz_i32_zext:
diff --git a/llvm/test/CodeGen/X86/i128-abi.ll b/llvm/test/CodeGen/X86/i128-abi.ll
index d1d6f86e08fb8..23eb6ec0322ab 100644
--- a/llvm/test/CodeGen/X86/i128-abi.ll
+++ b/llvm/test/CodeGen/X86/i128-abi.ll
@@ -19,6 +19,15 @@ define i128 @on_stack(i64 %a0, i64 %a1, i64 %a2, i64 %a3, i64 %a4, i128 %a5) {
   ret i128 %a5
 }
 
+define i128 @on_stack2(i64 %a0, i64 %a1, i64 %a2, i64 %a3, i64 %a4, i128 %a5, i128 %a6) {
+; CHECK-LABEL: on_stack2:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    movq 24(%rsp), %rax
+; CHECK-NEXT:    movq 32(%rsp), %rdx
+; CHECK-NEXT:    retq
+  ret i128 %a6
+}
+
 define i64 @trailing_arg_on_stack(i64 %a0, i64 %a1, i64 %a2, i64 %a3, i64 %a4, i128 %a5, i64 %a6) {
 ; CHECK-LABEL: trailing_arg_on_stack:
 ; CHECK:       # %bb.0:
diff --git a/llvm/test/CodeGen/X86/jump-table-partition.ll b/llvm/test/CodeGen/X86/jump-table-partition.ll
index e4f8d90baafdb..8c7e726576bce 100644
--- a/llvm/test/CodeGen/X86/jump-table-partition.ll
+++ b/llvm/test/CodeGen/X86/jump-table-partition.ll
@@ -1,8 +1,5 @@
 ; -stats requires asserts
-; requires: asserts
-
-; COM: Investigate test failure with fuchsia environment and re-enable the test.
-; UNSUPPORTED: target={{.*}}-fuchsia
+; REQUIRES: asserts
 
 ; Stop after 'finalize-isel' for simpler MIR, and lower the minimum number of
 ; jump table entries so 'switch' needs fewer cases to generate a jump table.
@@ -13,9 +10,9 @@
 ; COM: Update test to verify section suffixes when target-lowering and assembler changes are implemented.
 ; COM: Also run static-data-splitter pass with -static-data-default-hotness=cold and check data section suffix.
  
-; STAT-DAG: 2 static-data-splitter - Number of cold jump tables seen
-; STAT-DAG: 2 static-data-splitter - Number of hot jump tables seen
-; STAT-DAG: 1 static-data-splitter - Number of jump tables with unknown hotness
+; STAT: 2 static-data-splitter - Number of cold jump tables seen
+; STAT: 2 static-data-splitter - Number of hot jump tables seen
+; STAT: 1 static-data-splitter - Number of jump tables with unknown hotness
 
 ; In function @foo, the 2 switch instructions to jt0.* and jt1.* get lowered to hot jump tables,
 ; and the 2 switch instructions to jt2.* and jt3.* get lowered to cold jump tables.
diff --git a/llvm/test/CodeGen/X86/known-never-zero.ll b/llvm/test/CodeGen/X86/known-never-zero.ll
index 6c0aaeb451e14..63336ffa7c6c8 100644
--- a/llvm/test/CodeGen/X86/known-never-zero.ll
+++ b/llvm/test/CodeGen/X86/known-never-zero.ll
@@ -51,12 +51,9 @@ define i32 @or_maybe_zero(i32 %x, i32 %y) {
 ;
 ; X64-LABEL: or_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
 ; X64-NEXT:    orl %esi, %edi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
   %z = or i32 %x, %y
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -104,13 +101,11 @@ define i32 @select_maybe_zero(i1 %c, i32 %x) {
 ; X64-LABEL: select_maybe_zero:
 ; X64:       # %bb.0:
 ; X64-NEXT:    orl $1, %esi
-; X64-NEXT:    xorl %eax, %eax
+; X64-NEXT:    xorl %ecx, %ecx
 ; X64-NEXT:    testb $1, %dil
-; X64-NEXT:    cmovnel %esi, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    cmovnel %esi, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %y = or i32 %x, 1
   %z = select i1 %c, i32 %y, i32 0
@@ -201,14 +196,11 @@ define i32 @shl_maybe_zero(i32 %x, i32 %y) {
 ;
 ; X64-LABEL: shl_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $esi killed $esi def $rsi
 ; X64-NEXT:    movl %edi, %ecx
 ; X64-NEXT:    # kill: def $cl killed $cl killed $ecx
 ; X64-NEXT:    shll %cl, %esi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rsi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %esi, %eax
 ; X64-NEXT:    retq
   %z = shl nuw nsw i32 %y, %x
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -252,12 +244,10 @@ define i32 @uaddsat_maybe_zero(i32 %x, i32 %y) {
 ; X64-LABEL: uaddsat_maybe_zero:
 ; X64:       # %bb.0:
 ; X64-NEXT:    addl %esi, %edi
-; X64-NEXT:    movl $-1, %eax
-; X64-NEXT:    cmovael %edi, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $-1, %ecx
+; X64-NEXT:    cmovael %edi, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %z = call i32 @llvm.uadd.sat.i32(i32 %x, i32 %y)
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -306,13 +296,10 @@ define i32 @umax_maybe_zero(i32 %x, i32 %y) {
 ;
 ; X64-LABEL: umax_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $esi killed $esi def $rsi
 ; X64-NEXT:    cmpl %esi, %edi
 ; X64-NEXT:    cmoval %edi, %esi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rsi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %esi, %eax
 ; X64-NEXT:    retq
   %z = call i32 @llvm.umax.i32(i32 %x, i32 %y)
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -365,12 +352,10 @@ define i32 @umin_maybe_zero(i32 %x, i32 %y) {
 ; X64-LABEL: umin_maybe_zero:
 ; X64:       # %bb.0:
 ; X64-NEXT:    cmpl $54, %edi
-; X64-NEXT:    movl $54, %eax
-; X64-NEXT:    cmovbl %edi, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $54, %ecx
+; X64-NEXT:    cmovbl %edi, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %z = call i32 @llvm.umin.i32(i32 %x, i32 54)
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -479,12 +464,10 @@ define i32 @smin_maybe_zero(i32 %x, i32 %y) {
 ; X64-LABEL: smin_maybe_zero:
 ; X64:       # %bb.0:
 ; X64-NEXT:    cmpl $54, %edi
-; X64-NEXT:    movl $54, %eax
-; X64-NEXT:    cmovll %edi, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $54, %ecx
+; X64-NEXT:    cmovll %edi, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %z = call i32 @llvm.smin.i32(i32 %x, i32 54)
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -593,12 +576,10 @@ define i32 @smax_known_zero(i32 %x, i32 %y) {
 ; X64-LABEL: smax_known_zero:
 ; X64:       # %bb.0:
 ; X64-NEXT:    testl %edi, %edi
-; X64-NEXT:    movl $-1, %eax
-; X64-NEXT:    cmovnsl %edi, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $-1, %ecx
+; X64-NEXT:    cmovnsl %edi, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %z = call i32 @llvm.smax.i32(i32 %x, i32 -1)
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -646,13 +627,10 @@ define i32 @rotr_maybe_zero(i32 %x, i32 %y) {
 ; X64-LABEL: rotr_maybe_zero:
 ; X64:       # %bb.0:
 ; X64-NEXT:    movl %esi, %ecx
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
 ; X64-NEXT:    # kill: def $cl killed $cl killed $ecx
 ; X64-NEXT:    rorl %cl, %edi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
   %shr = lshr i32 %x, %y
   %sub = sub i32 32, %y
@@ -700,13 +678,10 @@ define i32 @rotr_with_fshr_maybe_zero(i32 %x, i32 %y) {
 ; X64-LABEL: rotr_with_fshr_maybe_zero:
 ; X64:       # %bb.0:
 ; X64-NEXT:    movl %esi, %ecx
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
 ; X64-NEXT:    # kill: def $cl killed $cl killed $ecx
 ; X64-NEXT:    rorl %cl, %edi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
   %z = call i32 @llvm.fshr.i32(i32 %x, i32 %x, i32 %y)
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -754,13 +729,10 @@ define i32 @rotl_maybe_zero(i32 %x, i32 %y) {
 ; X64-LABEL: rotl_maybe_zero:
 ; X64:       # %bb.0:
 ; X64-NEXT:    movl %esi, %ecx
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
 ; X64-NEXT:    # kill: def $cl killed $cl killed $ecx
 ; X64-NEXT:    roll %cl, %edi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
   %shl = shl i32 %x, %y
   %sub = sub i32 32, %y
@@ -808,13 +780,10 @@ define i32 @rotl_with_fshl_maybe_zero(i32 %x, i32 %y) {
 ; X64-LABEL: rotl_with_fshl_maybe_zero:
 ; X64:       # %bb.0:
 ; X64-NEXT:    movl %esi, %ecx
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
 ; X64-NEXT:    # kill: def $cl killed $cl killed $ecx
 ; X64-NEXT:    roll %cl, %edi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
   %z = call i32 @llvm.fshl.i32(i32 %x, i32 %x, i32 %y)
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -880,14 +849,11 @@ define i32 @sra_maybe_zero(i32 %x, i32 %y) {
 ;
 ; X64-LABEL: sra_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $esi killed $esi def $rsi
 ; X64-NEXT:    movl %edi, %ecx
 ; X64-NEXT:    # kill: def $cl killed $cl killed $ecx
 ; X64-NEXT:    sarl %cl, %esi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rsi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %esi, %eax
 ; X64-NEXT:    retq
   %z = ashr exact i32 %y, %x
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -953,14 +919,11 @@ define i32 @srl_maybe_zero(i32 %x, i32 %y) {
 ;
 ; X64-LABEL: srl_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $esi killed $esi def $rsi
 ; X64-NEXT:    movl %edi, %ecx
 ; X64-NEXT:    # kill: def $cl killed $cl killed $ecx
 ; X64-NEXT:    shrl %cl, %esi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rsi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %esi, %eax
 ; X64-NEXT:    retq
   %z = lshr exact i32 %y, %x
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -1007,11 +970,9 @@ define i32 @udiv_maybe_zero(i32 %x, i32 %y) {
 ; X64-NEXT:    movl %edi, %eax
 ; X64-NEXT:    xorl %edx, %edx
 ; X64-NEXT:    divl %esi
-; X64-NEXT:    # kill: def $eax killed $eax def $rax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %ecx
+; X64-NEXT:    rep bsfl %eax, %ecx
+; X64-NEXT:    movl %ecx, %eax
 ; X64-NEXT:    retq
   %z = udiv exact i32 %x, %y
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -1058,11 +1019,9 @@ define i32 @sdiv_maybe_zero(i32 %x, i32 %y) {
 ; X64-NEXT:    movl %edi, %eax
 ; X64-NEXT:    cltd
 ; X64-NEXT:    idivl %esi
-; X64-NEXT:    # kill: def $eax killed $eax def $rax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %ecx
+; X64-NEXT:    rep bsfl %eax, %ecx
+; X64-NEXT:    movl %ecx, %eax
 ; X64-NEXT:    retq
   %z = sdiv exact i32 %x, %y
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -1103,13 +1062,10 @@ define i32 @add_maybe_zero(i32 %xx, i32 %y) {
 ;
 ; X64-LABEL: add_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
 ; X64-NEXT:    orl $1, %edi
 ; X64-NEXT:    addl %esi, %edi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
   %x = or i32 %xx, 1
   %z = add nsw i32 %x, %y
@@ -1182,13 +1138,11 @@ define i32 @sub_maybe_zero(i32 %x) {
 ;
 ; X64-LABEL: sub_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    movl %edi, %eax
-; X64-NEXT:    orl $64, %eax
-; X64-NEXT:    subl %edi, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl %edi, %ecx
+; X64-NEXT:    orl $64, %ecx
+; X64-NEXT:    subl %edi, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %y = or i32 %x, 64
   %z = sub i32 %y, %x
@@ -1208,12 +1162,9 @@ define i32 @sub_maybe_zero2(i32 %x) {
 ;
 ; X64-LABEL: sub_maybe_zero2:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
 ; X64-NEXT:    negl %edi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
   %z = sub i32 0, %x
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -1233,13 +1184,10 @@ define i32 @mul_known_nonzero_nsw(i32 %x, i32 %yy) {
 ;
 ; X64-LABEL: mul_known_nonzero_nsw:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $esi killed $esi def $rsi
 ; X64-NEXT:    orl $256, %esi # imm = 0x100
 ; X64-NEXT:    imull %edi, %esi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rsi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %esi, %eax
 ; X64-NEXT:    retq
   %y = or i32 %yy, 256
   %z = mul nsw i32 %y, %x
@@ -1260,13 +1208,10 @@ define i32 @mul_known_nonzero_nuw(i32 %x, i32 %yy) {
 ;
 ; X64-LABEL: mul_known_nonzero_nuw:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $esi killed $esi def $rsi
 ; X64-NEXT:    orl $256, %esi # imm = 0x100
 ; X64-NEXT:    imull %edi, %esi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rsi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %esi, %eax
 ; X64-NEXT:    retq
   %y = or i32 %yy, 256
   %z = mul nuw i32 %y, %x
@@ -1286,12 +1231,9 @@ define i32 @mul_maybe_zero(i32 %x, i32 %y) {
 ;
 ; X64-LABEL: mul_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    # kill: def $edi killed $edi def $rdi
 ; X64-NEXT:    imull %esi, %edi
-; X64-NEXT:    movabsq $4294967296, %rax # imm = 0x100000000
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    rep bsfq %rax, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %edi, %eax
 ; X64-NEXT:    retq
   %z = mul nuw nsw i32 %y, %x
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -1321,11 +1263,9 @@ define i32 @bitcast_known_nonzero(<2 x i16> %xx) {
 ; X64-NEXT:    vcvttps2dq %xmm0, %xmm0
 ; X64-NEXT:    vpackusdw %xmm0, %xmm0, %xmm0
 ; X64-NEXT:    vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0 # [256,256,u,u,u,u,u,u]
-; X64-NEXT:    vmovd %xmm0, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    vmovd %xmm0, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %x = shl nuw nsw <2 x i16> <i16 256, i16 256>, %xx
   %z = bitcast <2 x i16> %x to i32
@@ -1344,11 +1284,9 @@ define i32 @bitcast_maybe_zero(<2 x i16> %x) {
 ;
 ; X64-LABEL: bitcast_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    vmovd %xmm0, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    vmovd %xmm0, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %z = bitcast <2 x i16> %x to i32
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -1365,11 +1303,9 @@ define i32 @bitcast_from_float(float %x) {
 ;
 ; X64-LABEL: bitcast_from_float:
 ; X64:       # %bb.0:
-; X64-NEXT:    vmovd %xmm0, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    vmovd %xmm0, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %z = bitcast float %x to i32
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -1412,11 +1348,9 @@ define i32 @zext_maybe_zero(i16 %x) {
 ;
 ; X64-LABEL: zext_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    movzwl %di, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movzwl %di, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %z = zext i16 %x to i32
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
@@ -1459,11 +1393,9 @@ define i32 @sext_maybe_zero(i16 %x) {
 ;
 ; X64-LABEL: sext_maybe_zero:
 ; X64:       # %bb.0:
-; X64-NEXT:    movswl %di, %eax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movswl %di, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %z = sext i16 %x to i32
   %r = call i32 @llvm.cttz.i32(i32 %z, i1 false)
diff --git a/llvm/test/CodeGen/X86/muloti.ll b/llvm/test/CodeGen/X86/muloti.ll
index 8b75c6fb68c78..e101c702e6409 100644
--- a/llvm/test/CodeGen/X86/muloti.ll
+++ b/llvm/test/CodeGen/X86/muloti.ll
@@ -13,62 +13,49 @@ define %0 @x(i64 %a.coerce0, i64 %a.coerce1, i64 %b.coerce0, i64 %b.coerce1) nou
 ; CHECK-NEXT:    .cfi_def_cfa_offset 24
 ; CHECK-NEXT:    .cfi_offset %rbx, -24
 ; CHECK-NEXT:    .cfi_offset %r14, -16
-; CHECK-NEXT:    movq %rdx, %r11
-; CHECK-NEXT:    movq %rdi, %r10
-; CHECK-NEXT:    movq %rsi, %rdx
-; CHECK-NEXT:    sarq $63, %rdx
-; CHECK-NEXT:    movq %rcx, %rdi
-; CHECK-NEXT:    imulq %rdx, %rdi
-; CHECK-NEXT:    movq %r11, %rax
+; CHECK-NEXT:    movq %rdx, %r9
+; CHECK-NEXT:    movq %rsi, %r8
+; CHECK-NEXT:    movq %rsi, %rbx
+; CHECK-NEXT:    sarq $63, %rbx
+; CHECK-NEXT:    imulq %rdx, %rbx
+; CHECK-NEXT:    movq %rdi, %rax
 ; CHECK-NEXT:    mulq %rdx
+; CHECK-NEXT:    movq %rdx, %r10
+; CHECK-NEXT:    movq %rax, %rsi
+; CHECK-NEXT:    movq %r8, %rax
+; CHECK-NEXT:    mulq %r9
 ; CHECK-NEXT:    movq %rdx, %r9
-; CHECK-NEXT:    movq %rax, %rbx
-; CHECK-NEXT:    addq %rax, %r9
-; CHECK-NEXT:    addq %rdi, %r9
-; CHECK-NEXT:    movq %rcx, %rax
-; CHECK-NEXT:    sarq $63, %rax
-; CHECK-NEXT:    movq %rax, %r14
-; CHECK-NEXT:    imulq %rsi, %r14
-; CHECK-NEXT:    mulq %r10
-; CHECK-NEXT:    movq %rax, %r8
-; CHECK-NEXT:    movq %rdx, %rdi
-; CHECK-NEXT:    addq %r14, %rdi
-; CHECK-NEXT:    addq %rax, %rdi
-; CHECK-NEXT:    addq %rbx, %r8
-; CHECK-NEXT:    adcq %r9, %rdi
-; CHECK-NEXT:    movq %r10, %rax
-; CHECK-NEXT:    mulq %r11
-; CHECK-NEXT:    movq %rdx, %rbx
-; CHECK-NEXT:    movq %rax, %r9
-; CHECK-NEXT:    movq %rsi, %rax
-; CHECK-NEXT:    mulq %r11
-; CHECK-NEXT:    movq %rdx, %r11
-; CHECK-NEXT:    movq %rax, %r14
-; CHECK-NEXT:    addq %rbx, %r14
-; CHECK-NEXT:    adcq $0, %r11
-; CHECK-NEXT:    movq %r10, %rax
+; CHECK-NEXT:    movq %rax, %r11
+; CHECK-NEXT:    addq %r10, %r11
+; CHECK-NEXT:    adcq %rbx, %r9
+; CHECK-NEXT:    movq %r9, %rbx
+; CHECK-NEXT:    sarq $63, %rbx
+; CHECK-NEXT:    movq %rcx, %r14
+; CHECK-NEXT:    sarq $63, %r14
+; CHECK-NEXT:    imulq %rdi, %r14
+; CHECK-NEXT:    movq %rdi, %rax
 ; CHECK-NEXT:    mulq %rcx
-; CHECK-NEXT:    movq %rdx, %rbx
-; CHECK-NEXT:    movq %rax, %r10
-; CHECK-NEXT:    addq %r14, %r10
-; CHECK-NEXT:    adcq %r11, %rbx
-; CHECK-NEXT:    setb %al
-; CHECK-NEXT:    movzbl %al, %r11d
-; CHECK-NEXT:    movq %rsi, %rax
-; CHECK-NEXT:    mulq %rcx
-; CHECK-NEXT:    addq %rbx, %rax
+; CHECK-NEXT:    movq %rdx, %r10
+; CHECK-NEXT:    movq %rax, %rdi
+; CHECK-NEXT:    addq %r11, %rdi
+; CHECK-NEXT:    adcq %r14, %r10
+; CHECK-NEXT:    movq %r10, %r11
+; CHECK-NEXT:    sarq $63, %r11
+; CHECK-NEXT:    addq %r9, %r10
+; CHECK-NEXT:    adcq %rbx, %r11
+; CHECK-NEXT:    movq %r8, %rax
+; CHECK-NEXT:    imulq %rcx
+; CHECK-NEXT:    addq %r10, %rax
 ; CHECK-NEXT:    adcq %r11, %rdx
-; CHECK-NEXT:    addq %r8, %rax
-; CHECK-NEXT:    adcq %rdi, %rdx
-; CHECK-NEXT:    movq %r10, %rcx
+; CHECK-NEXT:    movq %rdi, %rcx
 ; CHECK-NEXT:    sarq $63, %rcx
 ; CHECK-NEXT:    xorq %rcx, %rdx
 ; CHECK-NEXT:    xorq %rax, %rcx
 ; CHECK-NEXT:    orq %rdx, %rcx
 ; CHECK-NEXT:    jne LBB0_1
 ; CHECK-NEXT:  ## %bb.2: ## %nooverflow
-; CHECK-NEXT:    movq %r9, %rax
-; CHECK-NEXT:    movq %r10, %rdx
+; CHECK-NEXT:    movq %rsi, %rax
+; CHECK-NEXT:    movq %rdi, %rdx
 ; CHECK-NEXT:    popq %rbx
 ; CHECK-NEXT:    popq %r14
 ; CHECK-NEXT:    retq
diff --git a/llvm/test/CodeGen/X86/pr89877.ll b/llvm/test/CodeGen/X86/pr89877.ll
index 19baad26583ad..a40ad8f941278 100644
--- a/llvm/test/CodeGen/X86/pr89877.ll
+++ b/llvm/test/CodeGen/X86/pr89877.ll
@@ -20,11 +20,9 @@ define i32 @sext_known_nonzero(i16 %xx) {
 ; X64-NEXT:    movl $256, %eax # imm = 0x100
 ; X64-NEXT:    # kill: def $cl killed $cl killed $ecx
 ; X64-NEXT:    shll %cl, %eax
-; X64-NEXT:    movswq %ax, %rax
-; X64-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    rep bsfq %rcx, %rax
-; X64-NEXT:    # kill: def $eax killed $eax killed $rax
+; X64-NEXT:    movswl %ax, %ecx
+; X64-NEXT:    movl $32, %eax
+; X64-NEXT:    rep bsfl %ecx, %eax
 ; X64-NEXT:    retq
   %x = shl i16 256, %xx
   %z = sext i16 %x to i32
diff --git a/llvm/test/CodeGen/X86/pr90847.ll b/llvm/test/CodeGen/X86/pr90847.ll
index f2d43c3ed8d5b..11669f321704e 100644
--- a/llvm/test/CodeGen/X86/pr90847.ll
+++ b/llvm/test/CodeGen/X86/pr90847.ll
@@ -14,11 +14,9 @@ define i32 @PR90847(<8 x float> %x) nounwind {
 ; AVX1-NEXT:    vperm2f128 {{.*#+}} ymm2 = ymm1[2,3,0,1]
 ; AVX1-NEXT:    vminps %ymm2, %ymm1, %ymm1
 ; AVX1-NEXT:    vcmpeqps %ymm0, %ymm1, %ymm0
-; AVX1-NEXT:    vmovmskps %ymm0, %eax
-; AVX1-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; AVX1-NEXT:    orq %rax, %rcx
-; AVX1-NEXT:    rep bsfq %rcx, %rax
-; AVX1-NEXT:    # kill: def $eax killed $eax killed $rax
+; AVX1-NEXT:    vmovmskps %ymm0, %ecx
+; AVX1-NEXT:    movl $32, %eax
+; AVX1-NEXT:    rep bsfl %ecx, %eax
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
 ;
@@ -31,11 +29,9 @@ define i32 @PR90847(<8 x float> %x) nounwind {
 ; AVX2-NEXT:    vpermpd {{.*#+}} ymm2 = ymm1[2,3,0,1]
 ; AVX2-NEXT:    vminps %ymm2, %ymm1, %ymm1
 ; AVX2-NEXT:    vcmpeqps %ymm0, %ymm1, %ymm0
-; AVX2-NEXT:    vmovmskps %ymm0, %eax
-; AVX2-NEXT:    movabsq $4294967296, %rcx # imm = 0x100000000
-; AVX2-NEXT:    orq %rax, %rcx
-; AVX2-NEXT:    rep bsfq %rcx, %rax
-; AVX2-NEXT:    # kill: def $eax killed $eax killed $rax
+; AVX2-NEXT:    vmovmskps %ymm0, %ecx
+; AVX2-NEXT:    movl $32, %eax
+; AVX2-NEXT:    rep bsfl %ecx, %eax
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
 entry:
diff --git a/llvm/test/CodeGen/X86/pr92569.ll b/llvm/test/CodeGen/X86/pr92569.ll
index 0fb4ed7905287..5f306e998398f 100644
--- a/llvm/test/CodeGen/X86/pr92569.ll
+++ b/llvm/test/CodeGen/X86/pr92569.ll
@@ -4,13 +4,11 @@
 define void @PR92569(i64 %arg, <8 x i8> %arg1) {
 ; CHECK-LABEL: PR92569:
 ; CHECK:       # %bb.0:
-; CHECK-NEXT:    bsfq %rdi, %rax
-; CHECK-NEXT:    movl $64, %ecx
-; CHECK-NEXT:    cmovneq %rax, %rcx
-; CHECK-NEXT:    shrb $3, %cl
+; CHECK-NEXT:    movl $64, %eax
+; CHECK-NEXT:    rep bsfq %rdi, %rax
+; CHECK-NEXT:    shrb $3, %al
 ; CHECK-NEXT:    movaps %xmm0, -{{[0-9]+}}(%rsp)
-; CHECK-NEXT:    movzbl %cl, %eax
-; CHECK-NEXT:    andl $15, %eax
+; CHECK-NEXT:    movzbl %al, %eax
 ; CHECK-NEXT:    movzbl -24(%rsp,%rax), %eax
 ; CHECK-NEXT:    movl %eax, 0
 ; CHECK-NEXT:    retq
diff --git a/llvm/test/CodeGen/X86/scheduler-backtracking.ll b/llvm/test/CodeGen/X86/scheduler-backtracking.ll
index 6be79edbe51e1..426587a84ce17 100644
--- a/llvm/test/CodeGen/X86/scheduler-backtracking.ll
+++ b/llvm/test/CodeGen/X86/scheduler-backtracking.ll
@@ -234,16 +234,15 @@ define i256 @test2(i256 %a) nounwind {
 ; ILP-NEXT:    xorq $63, %rdx
 ; ILP-NEXT:    andq %rsi, %r11
 ; ILP-NEXT:    movl $127, %esi
-; ILP-NEXT:    bsrq %r11, %r8
-; ILP-NEXT:    cmoveq %rsi, %r8
-; ILP-NEXT:    xorq $63, %r8
-; ILP-NEXT:    addq $64, %r8
+; ILP-NEXT:    bsrq %r11, %rsi
+; ILP-NEXT:    xorq $63, %rsi
+; ILP-NEXT:    addq $64, %rsi
 ; ILP-NEXT:    testq %r10, %r10
-; ILP-NEXT:    cmovneq %rdx, %r8
-; ILP-NEXT:    subq $-128, %r8
+; ILP-NEXT:    cmovneq %rdx, %rsi
+; ILP-NEXT:    subq $-128, %rsi
 ; ILP-NEXT:    orq %rdi, %r9
-; ILP-NEXT:    cmovneq %rcx, %r8
-; ILP-NEXT:    movq %r8, (%rax)
+; ILP-NEXT:    cmovneq %rcx, %rsi
+; ILP-NEXT:    movq %rsi, (%rax)
 ; ILP-NEXT:    movq $0, 8(%rax)
 ; ILP-NEXT:    retq
 ;
@@ -274,16 +273,15 @@ define i256 @test2(i256 %a) nounwind {
 ; HYBRID-NEXT:    xorq $63, %rdx
 ; HYBRID-NEXT:    andq %rsi, %r11
 ; HYBRID-NEXT:    movl $127, %esi
-; HYBRID-NEXT:    bsrq %r11, %r8
-; HYBRID-NEXT:    cmoveq %rsi, %r8
-; HYBRID-NEXT:    xorq $63, %r8
-; HYBRID-NEXT:    addq $64, %r8
+; HYBRID-NEXT:    bsrq %r11, %rsi
+; HYBRID-NEXT:    xorq $63, %rsi
+; HYBRID-NEXT:    addq $64, %rsi
 ; HYBRID-NEXT:    testq %r10, %r10
-; HYBRID-NEXT:    cmovneq %rdx, %r8
-; HYBRID-NEXT:    subq $-128, %r8
+; HYBRID-NEXT:    cmovneq %rdx, %rsi
+; HYBRID-NEXT:    subq $-128, %rsi
 ; HYBRID-NEXT:    orq %rdi, %r9
-; HYBRID-NEXT:    cmovneq %rcx, %r8
-; HYBRID-NEXT:    movq %r8, (%rax)
+; HYBRID-NEXT:    cmovneq %rcx, %rsi
+; HYBRID-NEXT:    movq %rsi, (%rax)
 ; HYBRID-NEXT:    movq $0, 8(%rax)
 ; HYBRID-NEXT:    retq
 ;
@@ -314,16 +312,15 @@ define i256 @test2(i256 %a) nounwind {
 ; BURR-NEXT:    xorq $63, %rdx
 ; BURR-NEXT:    andq %rsi, %r11
 ; BURR-NEXT:    movl $127, %esi
-; BURR-NEXT:    bsrq %r11, %r8
-; BURR-NEXT:    cmoveq %rsi, %r8
-; BURR-NEXT:    xorq $63, %r8
-; BURR-NEXT:    addq $64, %r8
+; BURR-NEXT:    bsrq %r11, %rsi
+; BURR-NEXT:    xorq $63, %rsi
+; BURR-NEXT:    addq $64, %rsi
 ; BURR-NEXT:    testq %r10, %r10
-; BURR-NEXT:    cmovneq %rdx, %r8
-; BURR-NEXT:    subq $-128, %r8
+; BURR-NEXT:    cmovneq %rdx, %rsi
+; BURR-NEXT:    subq $-128, %rsi
 ; BURR-NEXT:    orq %rdi, %r9
-; BURR-NEXT:    cmovneq %rcx, %r8
-; BURR-NEXT:    movq %r8, (%rax)
+; BURR-NEXT:    cmovneq %rcx, %rsi
+; BURR-NEXT:    movq %rsi, (%rax)
 ; BURR-NEXT:    movq $0, 8(%rax)
 ; BURR-NEXT:    retq
 ;
@@ -351,19 +348,18 @@ define i256 @test2(i256 %a) nounwind {
 ; SRC-NEXT:    cmovneq %rcx, %rdx
 ; SRC-NEXT:    bsrq %r10, %rcx
 ; SRC-NEXT:    xorq $63, %rcx
+; SRC-NEXT:    movl $127, %esi
 ; SRC-NEXT:    bsrq %r11, %rsi
-; SRC-NEXT:    movl $127, %r8d
-; SRC-NEXT:    cmovneq %rsi, %r8
-; SRC-NEXT:    xorq $63, %r8
-; SRC-NEXT:    addq $64, %r8
+; SRC-NEXT:    xorq $63, %rsi
+; SRC-NEXT:    addq $64, %rsi
 ; SRC-NEXT:    testq %r10, %r10
-; SRC-NEXT:    cmovneq %rcx, %r8
-; SRC-NEXT:    subq $-128, %r8
+; SRC-NEXT:    cmovneq %rcx, %rsi
+; SRC-NEXT:    subq $-128, %rsi
 ; SRC-NEXT:    orq %r9, %rdi
-; SRC-NEXT:    cmovneq %rdx, %r8
+; SRC-NEXT:    cmovneq %rdx, %rsi
 ; SRC-NEXT:    xorps %xmm0, %xmm0
 ; SRC-NEXT:    movaps %xmm0, 16(%rax)
-; SRC-NEXT:    movq %r8, (%rax)
+; SRC-NEXT:    movq %rsi, (%rax)
 ; SRC-NEXT:    movq $0, 8(%rax)
 ; SRC-NEXT:    retq
 ;
@@ -372,12 +368,11 @@ define i256 @test2(i256 %a) nounwind {
 ; LIN-NEXT:    movq %rdi, %rax
 ; LIN-NEXT:    xorps %xmm0, %xmm0
 ; LIN-NEXT:    movaps %xmm0, 16(%rdi)
-; LIN-NEXT:    movq %rsi, %rdi
-; LIN-NEXT:    negq %rdi
-; LIN-NEXT:    andq %rsi, %rdi
-; LIN-NEXT:    bsrq %rdi, %rsi
 ; LIN-NEXT:    movl $127, %edi
-; LIN-NEXT:    cmovneq %rsi, %rdi
+; LIN-NEXT:    movq %rsi, %r9
+; LIN-NEXT:    negq %r9
+; LIN-NEXT:    andq %rsi, %r9
+; LIN-NEXT:    bsrq %r9, %rdi
 ; LIN-NEXT:    xorq $63, %rdi
 ; LIN-NEXT:    addq $64, %rdi
 ; LIN-NEXT:    xorl %esi, %esi
@@ -415,7 +410,6 @@ define i256 @test2(i256 %a) nounwind {
 define i256 @test3(i256 %n) nounwind {
 ; ILP-LABEL: test3:
 ; ILP:       # %bb.0:
-; ILP-NEXT:    pushq %rbx
 ; ILP-NEXT:    movq %rdi, %rax
 ; ILP-NEXT:    xorps %xmm0, %xmm0
 ; ILP-NEXT:    movaps %xmm0, 16(%rdi)
@@ -429,34 +423,32 @@ define i256 @test3(i256 %n) nounwind {
 ; ILP-NEXT:    sbbq %r8, %r9
 ; ILP-NEXT:    notq %r8
 ; ILP-NEXT:    andq %r9, %r8
-; ILP-NEXT:    bsrq %r8, %rbx
+; ILP-NEXT:    bsrq %r8, %r9
 ; ILP-NEXT:    notq %rdx
 ; ILP-NEXT:    andq %r10, %rdx
-; ILP-NEXT:    bsrq %rdx, %r9
-; ILP-NEXT:    xorq $63, %rbx
+; ILP-NEXT:    bsrq %rdx, %r10
+; ILP-NEXT:    xorq $63, %r9
 ; ILP-NEXT:    notq %rcx
 ; ILP-NEXT:    andq %r11, %rcx
-; ILP-NEXT:    bsrq %rcx, %r10
+; ILP-NEXT:    bsrq %rcx, %r11
+; ILP-NEXT:    xorq $63, %r11
+; ILP-NEXT:    orq $64, %r11
+; ILP-NEXT:    testq %r8, %r8
+; ILP-NEXT:    cmovneq %r9, %r11
 ; ILP-NEXT:    xorq $63, %r10
-; ILP-NEXT:    orq $64, %r10
 ; ILP-NEXT:    notq %rsi
-; ILP-NEXT:    testq %r8, %r8
-; ILP-NEXT:    cmovneq %rbx, %r10
-; ILP-NEXT:    xorq $63, %r9
 ; ILP-NEXT:    andq %rdi, %rsi
 ; ILP-NEXT:    movl $127, %edi
-; ILP-NEXT:    bsrq %rsi, %rsi
-; ILP-NEXT:    cmoveq %rdi, %rsi
-; ILP-NEXT:    xorq $63, %rsi
-; ILP-NEXT:    addq $64, %rsi
+; ILP-NEXT:    bsrq %rsi, %rdi
+; ILP-NEXT:    xorq $63, %rdi
+; ILP-NEXT:    addq $64, %rdi
 ; ILP-NEXT:    testq %rdx, %rdx
-; ILP-NEXT:    cmovneq %r9, %rsi
-; ILP-NEXT:    subq $-128, %rsi
+; ILP-NEXT:    cmovneq %r10, %rdi
+; ILP-NEXT:    subq $-128, %rdi
 ; ILP-NEXT:    orq %r8, %rcx
-; ILP-NEXT:    cmovneq %r10, %rsi
-; ILP-NEXT:    movq %rsi, (%rax)
+; ILP-NEXT:    cmovneq %r11, %rdi
+; ILP-NEXT:    movq %rdi, (%rax)
 ; ILP-NEXT:    movq $0, 8(%rax)
-; ILP-NEXT:    popq %rbx
 ; ILP-NEXT:    retq
 ;
 ; HYBRID-LABEL: test3:
@@ -491,16 +483,15 @@ define i256 @test3(i256 %n) nounwind {
 ; HYBRID-NEXT:    notq %rsi
 ; HYBRID-NEXT:    andq %rdi, %rsi
 ; HYBRID-NEXT:    movl $127, %edi
-; HYBRID-NEXT:    bsrq %rsi, %rsi
-; HYBRID-NEXT:    cmoveq %rdi, %rsi
-; HYBRID-NEXT:    xorq $63, %rsi
-; HYBRID-NEXT:    addq $64, %rsi
+; HYBRID-NEXT:    bsrq %rsi, %rdi
+; HYBRID-NEXT:    xorq $63, %rdi
+; HYBRID-NEXT:    addq $64, %rdi
 ; HYBRID-NEXT:    testq %rdx, %rdx
-; HYBRID-NEXT:    cmovneq %r10, %rsi
-; HYBRID-NEXT:    subq $-128, %rsi
+; HYBRID-NEXT:    cmovneq %r10, %rdi
+; HYBRID-NEXT:    subq $-128, %rdi
 ; HYBRID-NEXT:    orq %r8, %rcx
-; HYBRID-NEXT:    cmovneq %r9, %rsi
-; HYBRID-NEXT:    movq %rsi, (%rax)
+; HYBRID-NEXT:    cmovneq %r9, %rdi
+; HYBRID-NEXT:    movq %rdi, (%rax)
 ; HYBRID-NEXT:    movq $0, 8(%rax)
 ; HYBRID-NEXT:    popq %rbx
 ; HYBRID-NEXT:    retq
@@ -537,16 +528,15 @@ define i256 @test3(i256 %n) nounwind {
 ; BURR-NEXT:    notq %rsi
 ; BURR-NEXT:    andq %rdi, %rsi
 ; BURR-NEXT:    movl $127, %edi
-; BURR-NEXT:    bsrq %rsi, %rsi
-; BURR-NEXT:    cmoveq %rdi, %rsi
-; BURR-NEXT:    xorq $63, %rsi
-; BURR-NEXT:    addq $64, %rsi
+; BURR-NEXT:    bsrq %rsi, %rdi
+; BURR-NEXT:    xorq $63, %rdi
+; BURR-NEXT:    addq $64, %rdi
 ; BURR-NEXT:    testq %rdx, %rdx
-; BURR-NEXT:    cmovneq %r10, %rsi
-; BURR-NEXT:    subq $-128, %rsi
+; BURR-NEXT:    cmovneq %r10, %rdi
+; BURR-NEXT:    subq $-128, %rdi
 ; BURR-NEXT:    orq %r8, %rcx
-; BURR-NEXT:    cmovneq %r9, %rsi
-; BURR-NEXT:    movq %rsi, (%rax)
+; BURR-NEXT:    cmovneq %r9, %rdi
+; BURR-NEXT:    movq %rdi, (%rax)
 ; BURR-NEXT:    movq $0, 8(%rax)
 ; BURR-NEXT:    popq %rbx
 ; BURR-NEXT:    retq
@@ -579,9 +569,8 @@ define i256 @test3(i256 %n) nounwind {
 ; SRC-NEXT:    cmovneq %rdi, %r9
 ; SRC-NEXT:    bsrq %rdx, %rdi
 ; SRC-NEXT:    xorq $63, %rdi
-; SRC-NEXT:    bsrq %rsi, %rsi
 ; SRC-NEXT:    movl $127, %r10d
-; SRC-NEXT:    cmovneq %rsi, %r10
+; SRC-NEXT:    bsrq %rsi, %r10
 ; SRC-NEXT:    xorq $63, %r10
 ; SRC-NEXT:    addq $64, %r10
 ; SRC-NEXT:    testq %rdx, %rdx
@@ -600,13 +589,12 @@ define i256 @test3(i256 %n) nounwind {
 ; LIN-NEXT:    movq %rdi, %rax
 ; LIN-NEXT:    xorps %xmm0, %xmm0
 ; LIN-NEXT:    movaps %xmm0, 16(%rdi)
+; LIN-NEXT:    movl $127, %r9d
 ; LIN-NEXT:    movq %rsi, %rdi
 ; LIN-NEXT:    negq %rdi
 ; LIN-NEXT:    notq %rsi
 ; LIN-NEXT:    andq %rdi, %rsi
-; LIN-NEXT:    bsrq %rsi, %rsi
-; LIN-NEXT:    movl $127, %r9d
-; LIN-NEXT:    cmovneq %rsi, %r9
+; LIN-NEXT:    bsrq %rsi, %r9
 ; LIN-NEXT:    xorq $63, %r9
 ; LIN-NEXT:    addq $64, %r9
 ; LIN-NEXT:    xorl %edi, %edi
diff --git a/llvm/test/CodeGen/X86/smul-with-overflow.ll b/llvm/test/CodeGen/X86/smul-with-overflow.ll
index 42904ee0db90c..df167338268c4 100644
--- a/llvm/test/CodeGen/X86/smul-with-overflow.ll
+++ b/llvm/test/CodeGen/X86/smul-with-overflow.ll
@@ -191,609 +191,490 @@ define { i129, i1 } @smul_ovf(i129 %x, i129 %y) nounwind {
 ; X86-NEXT:    pushl %ebx
 ; X86-NEXT:    pushl %edi
 ; X86-NEXT:    pushl %esi
-; X86-NEXT:    subl $188, %esp
+; X86-NEXT:    subl $108, %esp
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    andl $1, %eax
 ; X86-NEXT:    negl %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; X86-NEXT:    andl $1, %ebp
-; X86-NEXT:    negl %ebp
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    andl $1, %eax
+; X86-NEXT:    negl %eax
 ; X86-NEXT:    movl %eax, %ecx
-; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    addl %edx, %ecx
-; X86-NEXT:    adcl $0, %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    movl %eax, %ebx
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    addl %eax, %ecx
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    addl %edx, %esi
+; X86-NEXT:    movl %esi, %edi
+; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    adcl $0, %esi
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %edx, %edi
-; X86-NEXT:    setb %bl
-; X86-NEXT:    addl %eax, %edi
-; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movzbl %bl, %esi
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    movl %edi, %ebp
+; X86-NEXT:    addl %eax, %ebp
+; X86-NEXT:    movl %eax, %edi
+; X86-NEXT:    movl %eax, (%esp) # 4-byte Spill
+; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    adcl %edx, %esi
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
-; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    setb %al
+; X86-NEXT:    addl %edi, %esi
+; X86-NEXT:    movzbl %al, %edi
+; X86-NEXT:    adcl %edx, %edi
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    adcl %edi, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %esi, %ecx
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    movl %edi, (%esp) # 4-byte Spill
 ; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    addl %edx, %ebx
-; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebp
+; X86-NEXT:    movl %ecx, %eax
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    addl %edx, %ebp
+; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    addl %eax, %ebp
+; X86-NEXT:    movl %eax, %ecx
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    addl %eax, %ebx
-; X86-NEXT:    adcl %edx, %edi
-; X86-NEXT:    setb %cl
-; X86-NEXT:    addl %eax, %edi
-; X86-NEXT:    movzbl %cl, %eax
-; X86-NEXT:    adcl %edx, %eax
-; X86-NEXT:    movl %esi, %ecx
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    addl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    adcl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    movl %ebx, %esi
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %edi, %ebp
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    movl %eax, %edx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    addl (%esp), %ebp # 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
+; X86-NEXT:    adcl %edx, %ebx
 ; X86-NEXT:    setb %al
-; X86-NEXT:    addl %ecx, %ebp
-; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %esi, %edx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movzbl %al, %eax
+; X86-NEXT:    addl %ecx, %ebx
+; X86-NEXT:    movzbl %al, %ecx
+; X86-NEXT:    adcl %edx, %ecx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
+; X86-NEXT:    addl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
+; X86-NEXT:    adcl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
+; X86-NEXT:    movl %ebx, %edx
+; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    movl %ecx, %eax
+; X86-NEXT:    adcl $0, %eax
+; X86-NEXT:    addl %esi, %edx
 ; X86-NEXT:    adcl %edi, %eax
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) # 1-byte Folded Spill
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
+; X86-NEXT:    adcl %ebp, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 1-byte Folded Reload
+; X86-NEXT:    adcl %ebx, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    movl (%esp), %esi # 4-byte Reload
+; X86-NEXT:    movl %esi, %edi
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Reload
+; X86-NEXT:    addl %ebp, %edi
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Reload
 ; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
+; X86-NEXT:    addl %ecx, %edi
+; X86-NEXT:    adcl %ebp, %ebx
+; X86-NEXT:    movl %ebx, %ebp
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) # 1-byte Folded Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Reload
+; X86-NEXT:    addl %ebx, %eax
+; X86-NEXT:    addl %ecx, %ebx
 ; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
-; X86-NEXT:    movl %edi, %eax
+; X86-NEXT:    movl %ecx, %ebx
+; X86-NEXT:    adcl %edi, %eax
+; X86-NEXT:    movl %eax, %ecx
+; X86-NEXT:    addl %esi, %ebp
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 1-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
+; X86-NEXT:    adcl %ecx, %eax
+; X86-NEXT:    addl %ebx, %edx
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Folded Reload
+; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
+; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebx, %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
 ; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    movl %eax, (%esp) # 4-byte Spill
+; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %esi, %ebx
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    addl %ebx, %esi
-; X86-NEXT:    adcl %ecx, %edi
+; X86-NEXT:    addl %edi, %esi
+; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl %ecx, %ebp
 ; X86-NEXT:    setb %cl
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    addl %edi, %eax
-; X86-NEXT:    movl %eax, (%esp) # 4-byte Spill
+; X86-NEXT:    mull %edi
+; X86-NEXT:    addl %ebp, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    movzbl %cl, %eax
 ; X86-NEXT:    adcl %eax, %edx
 ; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebx, %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %ebx, %edi
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %edi, %esi
 ; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ebp
-; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; X86-NEXT:    mull %ebp
+; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    addl %esi, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %ecx, %ebp
+; X86-NEXT:    adcl %ecx, %edi
 ; X86-NEXT:    setb %bl
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    mull %ebp
+; X86-NEXT:    movl %edx, %ebp
 ; X86-NEXT:    movl %eax, %ecx
-; X86-NEXT:    addl %ebp, %ecx
+; X86-NEXT:    addl %edi, %ecx
 ; X86-NEXT:    movzbl %bl, %eax
-; X86-NEXT:    adcl %eax, %edi
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
-; X86-NEXT:    adcl %esi, %edi
-; X86-NEXT:    adcl $0, (%esp) # 4-byte Folded Spill
+; X86-NEXT:    adcl %eax, %ebp
+; X86-NEXT:    addl (%esp), %ecx # 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
+; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
-; X86-NEXT:    mull %esi
-; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %esi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %esi
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %ebx, %ebp
-; X86-NEXT:    adcl $0, %esi
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %esi, %ebx
+; X86-NEXT:    adcl $0, %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 ; X86-NEXT:    mull %edx
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    addl %ebp, %eax
+; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    addl %ebx, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %esi, %ebx
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) # 1-byte Folded Spill
+; X86-NEXT:    adcl %edi, %esi
+; X86-NEXT:    setb (%esp) # 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %ebx, %ebp
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %esi
+; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %esi, %ebx
+; X86-NEXT:    movzbl (%esp), %eax # 1-byte Folded Reload
+; X86-NEXT:    adcl %eax, %edi
 ; X86-NEXT:    addl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    adcl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    addl (%esp), %ebp # 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
-; X86-NEXT:    setb (%esp) # 1-byte Folded Spill
+; X86-NEXT:    adcl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
+; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    adcl $0, %edi
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Folded Reload
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) # 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
 ; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %edx, %ebp
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %ebx, %edi
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %ebp, %esi
 ; X86-NEXT:    adcl $0, %ecx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    addl %edi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %ecx, %ebx
+; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    movl %eax, (%esp) # 4-byte Spill
+; X86-NEXT:    adcl %ecx, %ebp
 ; X86-NEXT:    setb %cl
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %ebx, %edi
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %ebp, %esi
 ; X86-NEXT:    movzbl %cl, %eax
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    adcl %eax, %ebx
+; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    adcl %eax, %ebp
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    addl %ebp, %ecx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
-; X86-NEXT:    adcl %esi, %edx
-; X86-NEXT:    movzbl (%esp), %eax # 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %edi
-; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    addl %ebx, %ecx
+; X86-NEXT:    movl (%esp), %edx # 4-byte Reload
+; X86-NEXT:    adcl %edi, %edx
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 1-byte Folded Reload
+; X86-NEXT:    adcl %eax, %esi
+; X86-NEXT:    adcl $0, %ebp
 ; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
 ; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Folded Reload
-; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
+; X86-NEXT:    movl %edx, (%esp) # 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
+; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
+; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
+; X86-NEXT:    adcl $0, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %eax, %ecx
-; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    sarl $31, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    addl %esi, %ecx
-; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    addl %ebx, %ecx
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %esi, %edi
-; X86-NEXT:    setb %al
-; X86-NEXT:    addl %ebp, %edi
-; X86-NEXT:    movzbl %al, %eax
-; X86-NEXT:    adcl %edx, %eax
-; X86-NEXT:    movl %eax, (%esp) # 4-byte Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    movl %eax, %edi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    movl %eax, %ecx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl %eax, %ebp
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %esi, %eax
 ; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    addl %esi, %ecx
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    addl %ebp, %ecx
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %eax, %esi
+; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl %esi, %ebx
 ; X86-NEXT:    setb %al
-; X86-NEXT:    addl %ebx, %esi
+; X86-NEXT:    addl %ebp, %ebx
 ; X86-NEXT:    movzbl %al, %eax
 ; X86-NEXT:    adcl %edx, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
-; X86-NEXT:    addl %esi, %edx
-; X86-NEXT:    movl %esi, %ecx
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
-; X86-NEXT:    adcl %eax, %esi
-; X86-NEXT:    movl %edi, %ebx
-; X86-NEXT:    adcl $0, %ebx
-; X86-NEXT:    movl (%esp), %ebp # 4-byte Reload
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    adcl $0, %eax
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    adcl %ebp, %ecx
-; X86-NEXT:    setb %bl
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
-; X86-NEXT:    movzbl %bl, %ebx
-; X86-NEXT:    adcl %edi, %ebx
-; X86-NEXT:    adcl $0, (%esp) # 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
-; X86-NEXT:    addl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
-; X86-NEXT:    adcl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    adcl $0, %ebx
-; X86-NEXT:    movl (%esp), %eax # 4-byte Reload
-; X86-NEXT:    adcl $0, %eax
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
-; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    movl %eax, (%esp) # 4-byte Spill
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) # 1-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
-; X86-NEXT:    mull {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Reload
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %edx, %ebp
-; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    addl %eax, %ebp
-; X86-NEXT:    adcl %edx, %ecx
-; X86-NEXT:    setb %bl
-; X86-NEXT:    addl %eax, %ecx
-; X86-NEXT:    movzbl %bl, %esi
-; X86-NEXT:    adcl %edx, %esi
-; X86-NEXT:    movl %eax, %edx
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    addl %ecx, %edx
-; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    adcl %esi, %eax
+; X86-NEXT:    movl %eax, %esi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %ecx, %ebx
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, %ebx
-; X86-NEXT:    movl %esi, %ecx
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    addl %edi, %edx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
-; X86-NEXT:    adcl %ebp, %edi
-; X86-NEXT:    movl %eax, %edx
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    movl %esi, %eax
-; X86-NEXT:    adcl $0, %eax
-; X86-NEXT:    addl %ebx, %edx
-; X86-NEXT:    adcl %ecx, %eax
-; X86-NEXT:    setb %cl
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Reload
-; X86-NEXT:    addl %ebx, %edx
-; X86-NEXT:    movl %ebp, %esi
-; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %ebp, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl %eax, %edi
 ; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    movzbl %cl, %eax
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    movl %eax, %ecx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
-; X86-NEXT:    adcl $0, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    addl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    adcl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
-; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    adcl (%esp), %edi # 4-byte Folded Reload
-; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %edx
+; X86-NEXT:    addl %eax, %edi
+; X86-NEXT:    movl %edx, %ecx
 ; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
-; X86-NEXT:    movl %edi, %edx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    addl %ecx, %edx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
-; X86-NEXT:    movl %esi, %ebx
-; X86-NEXT:    adcl $0, %ebx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
-; X86-NEXT:    adcl %ecx, %ebx
+; X86-NEXT:    addl %esi, %edi
+; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl %eax, %ecx
 ; X86-NEXT:    setb %al
-; X86-NEXT:    addl %edi, %ebx
+; X86-NEXT:    addl %ebp, %ecx
 ; X86-NEXT:    movzbl %al, %eax
-; X86-NEXT:    adcl %esi, %eax
-; X86-NEXT:    movl %eax, (%esp) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Reload
-; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
-; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    adcl %edx, %eax
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
-; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %esi, %edi
-; X86-NEXT:    setb %al
-; X86-NEXT:    addl %ebp, %edi
-; X86-NEXT:    movzbl %al, %esi
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
+; X86-NEXT:    addl %ecx, %edi
+; X86-NEXT:    movl %ecx, %edx
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    addl %edi, %ecx
-; X86-NEXT:    movl %edx, %eax
-; X86-NEXT:    adcl %esi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %ebx, %eax
-; X86-NEXT:    adcl $0, %eax
-; X86-NEXT:    movl (%esp), %ebp # 4-byte Reload
+; X86-NEXT:    adcl %eax, %ecx
+; X86-NEXT:    movl %ebx, %esi
+; X86-NEXT:    adcl $0, %esi
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Reload
 ; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Folded Reload
+; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
 ; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    addl %eax, %edi
-; X86-NEXT:    adcl %ebp, %esi
-; X86-NEXT:    setb %al
+; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    adcl $0, %eax
+; X86-NEXT:    addl %esi, %edx
+; X86-NEXT:    adcl %ebp, %eax
+; X86-NEXT:    setb %cl
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
+; X86-NEXT:    addl %edi, %edx
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
+; X86-NEXT:    movzbl %cl, %ecx
+; X86-NEXT:    adcl %ebx, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
+; X86-NEXT:    movl %esi, %ebx
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
+; X86-NEXT:    addl %ecx, %ebx
+; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
+; X86-NEXT:    movl %ebx, %ebp
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
+; X86-NEXT:    movl %ecx, %ebx
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) # 1-byte Folded Spill
+; X86-NEXT:    movl %edi, %ecx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
 ; X86-NEXT:    addl %ecx, %edi
-; X86-NEXT:    adcl %edx, %esi
-; X86-NEXT:    movzbl %al, %eax
-; X86-NEXT:    adcl %ebx, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, (%esp) # 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Reload
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    adcl %ecx, %edx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Folded Reload
+; X86-NEXT:    addl %esi, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl %ebp, %edi
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 1-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
+; X86-NEXT:    adcl %edi, %ecx
+; X86-NEXT:    addl %esi, %edx
+; X86-NEXT:    adcl %eax, %ebp
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
+; X86-NEXT:    addl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
+; X86-NEXT:    movl (%esp), %eax # 4-byte Reload
+; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
-; X86-NEXT:    imull {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Reload
-; X86-NEXT:    movl %edx, %ebp
-; X86-NEXT:    addl %eax, %eax
-; X86-NEXT:    adcl %edx, %ebp
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
+; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
+; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    adcl $0, %ebp
+; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    movl %ecx, %esi
+; X86-NEXT:    sarl $31, %esi
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
 ; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %ebx, %eax
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
-; X86-NEXT:    adcl %ebp, %edx
-; X86-NEXT:    addl %edi, %ebx
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
 ; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %esi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
 ; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl (%esp), %edx # 4-byte Folded Reload
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
-; X86-NEXT:    addl %edx, %eax
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
-; X86-NEXT:    addl %edi, %eax
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
-; X86-NEXT:    adcl %esi, %edx
-; X86-NEXT:    setb %al
-; X86-NEXT:    addl %edi, %edx
-; X86-NEXT:    movzbl %al, %ebp
-; X86-NEXT:    adcl %esi, %ebp
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    addl %edx, %eax
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
+; X86-NEXT:    movl %eax, %ecx
+; X86-NEXT:    adcl %esi, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    movl %eax, %ecx
+; X86-NEXT:    adcl %esi, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    movl %eax, %ecx
+; X86-NEXT:    adcl %esi, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl %eax, %esi
+; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
+; X86-NEXT:    mull {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Reload
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl %ebx, %eax
-; X86-NEXT:    adcl %ebp, %eax
-; X86-NEXT:    movl %eax, (%esp) # 4-byte Spill
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
-; X86-NEXT:    addl %edx, %eax
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    addl %ecx, %eax
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
-; X86-NEXT:    adcl %esi, %edx
-; X86-NEXT:    setb %bl
-; X86-NEXT:    addl %ecx, %edx
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %edx, %esi
 ; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    addl %eax, %esi
+; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl %edx, %ecx
+; X86-NEXT:    setb %bl
+; X86-NEXT:    addl %eax, %ecx
 ; X86-NEXT:    movzbl %bl, %ebx
-; X86-NEXT:    adcl %esi, %ebx
-; X86-NEXT:    addl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    movl %edi, %esi
-; X86-NEXT:    adcl %eax, (%esp) # 4-byte Folded Spill
+; X86-NEXT:    adcl %edx, %ebx
+; X86-NEXT:    addl %ecx, %eax
+; X86-NEXT:    movl %esi, %edi
+; X86-NEXT:    adcl %ebx, %edi
+; X86-NEXT:    movl %ecx, %ebp
+; X86-NEXT:    adcl $0, %ebp
+; X86-NEXT:    movl %ebx, %edx
 ; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl %esi, %edi
+; X86-NEXT:    movl %edi, (%esp) # 4-byte Spill
+; X86-NEXT:    movl %ecx, %esi
+; X86-NEXT:    adcl $0, %esi
 ; X86-NEXT:    movl %ebx, %edi
 ; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
+; X86-NEXT:    addl %ebp, %esi
+; X86-NEXT:    adcl %edx, %edi
+; X86-NEXT:    setb %al
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Reload
 ; X86-NEXT:    adcl %ebp, %edi
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) # 1-byte Folded Spill
-; X86-NEXT:    movl %esi, %ebp
-; X86-NEXT:    addl %esi, %edx
-; X86-NEXT:    adcl %eax, %edi
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 1-byte Folded Reload
+; X86-NEXT:    movzbl %al, %eax
 ; X86-NEXT:    adcl %ecx, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl $0, %ebx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    addl %ecx, %ebp
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    adcl $0, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
-; X86-NEXT:    adcl %esi, %eax
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    addl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    adcl %esi, %ecx
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
+; X86-NEXT:    imull {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Folded Reload
+; X86-NEXT:    addl %eax, %eax
+; X86-NEXT:    adcl %edx, %edx
+; X86-NEXT:    addl %ecx, %eax
+; X86-NEXT:    adcl %ebx, %edx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Reload
+; X86-NEXT:    addl %ebx, %ebx
+; X86-NEXT:    movl %ebp, %ecx
+; X86-NEXT:    adcl %ebp, %ecx
+; X86-NEXT:    adcl %eax, %eax
+; X86-NEXT:    adcl %edx, %edx
+; X86-NEXT:    addl %esi, %ebx
+; X86-NEXT:    adcl %edi, %ecx
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
-; X86-NEXT:    addl %edx, %esi
-; X86-NEXT:    adcl %edi, %ecx
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
-; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
-; X86-NEXT:    adcl %ebx, %edi
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
-; X86-NEXT:    movl (%esp), %ebx # 4-byte Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
-; X86-NEXT:    movl %esi, %ecx
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Folded Reload
 ; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Folded Reload
-; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp # 4-byte Folded Reload
+; X86-NEXT:    movl (%esp), %edi # 4-byte Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Folded Reload
+; X86-NEXT:    movl %edi, (%esp) # 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Folded Reload
-; X86-NEXT:    movl %ebx, (%esp) # 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
-; X86-NEXT:    movl %esi, %edi
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
-; X86-NEXT:    sarl $31, %edx
-; X86-NEXT:    xorl %edx, %ebp
-; X86-NEXT:    xorl %edx, %eax
-; X86-NEXT:    orl %ebp, %eax
-; X86-NEXT:    movl %ecx, %ebx
-; X86-NEXT:    xorl %edx, %ebx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; X86-NEXT:    xorl %edx, %ecx
-; X86-NEXT:    orl %ebx, %ecx
-; X86-NEXT:    orl %eax, %ecx
-; X86-NEXT:    movl (%esp), %ebx # 4-byte Reload
-; X86-NEXT:    xorl %edx, %ebx
-; X86-NEXT:    xorl %edx, %esi
-; X86-NEXT:    orl %ebx, %esi
-; X86-NEXT:    xorl %edx, %edi
-; X86-NEXT:    xorl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
-; X86-NEXT:    orl %edi, %edx
-; X86-NEXT:    orl %esi, %edx
-; X86-NEXT:    orl %ecx, %edx
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Folded Reload
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
-; X86-NEXT:    movl %edi, %ecx
+; X86-NEXT:    movl %edi, %ebp
+; X86-NEXT:    sarl $31, %ebp
+; X86-NEXT:    xorl %ebp, %ebx
+; X86-NEXT:    xorl %ebp, %esi
+; X86-NEXT:    orl %ebx, %esi
+; X86-NEXT:    xorl %ebp, %eax
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Reload
+; X86-NEXT:    xorl %ebp, %ebx
+; X86-NEXT:    orl %eax, %ebx
+; X86-NEXT:    orl %esi, %ebx
+; X86-NEXT:    xorl %ebp, %ecx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
+; X86-NEXT:    xorl %ebp, %eax
+; X86-NEXT:    orl %ecx, %eax
+; X86-NEXT:    xorl %ebp, %edx
+; X86-NEXT:    xorl (%esp), %ebp # 4-byte Folded Reload
+; X86-NEXT:    orl %edx, %ebp
+; X86-NEXT:    orl %eax, %ebp
+; X86-NEXT:    orl %ebx, %ebp
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
+; X86-NEXT:    movl %edx, %ecx
 ; X86-NEXT:    andl $1, %ecx
 ; X86-NEXT:    movl %ecx, %eax
 ; X86-NEXT:    negl %eax
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Reload
-; X86-NEXT:    xorl %eax, %ebx
+; X86-NEXT:    xorl %eax, %edi
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
 ; X86-NEXT:    xorl %eax, %esi
-; X86-NEXT:    orl %ebx, %esi
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx # 4-byte Reload
-; X86-NEXT:    xorl %eax, %ebx
-; X86-NEXT:    xorl %edi, %eax
-; X86-NEXT:    orl %ebx, %eax
+; X86-NEXT:    orl %edi, %esi
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 4-byte Reload
+; X86-NEXT:    xorl %eax, %edi
+; X86-NEXT:    xorl %edx, %eax
+; X86-NEXT:    orl %edi, %eax
 ; X86-NEXT:    orl %esi, %eax
-; X86-NEXT:    orl %edx, %eax
+; X86-NEXT:    orl %ebp, %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx # 4-byte Reload
 ; X86-NEXT:    movl %edx, 4(%eax)
@@ -805,7 +686,7 @@ define { i129, i1 } @smul_ovf(i129 %x, i129 %y) nounwind {
 ; X86-NEXT:    movl %edx, 12(%eax)
 ; X86-NEXT:    movb %cl, 16(%eax)
 ; X86-NEXT:    setne 32(%eax)
-; X86-NEXT:    addl $188, %esp
+; X86-NEXT:    addl $108, %esp
 ; X86-NEXT:    popl %esi
 ; X86-NEXT:    popl %edi
 ; X86-NEXT:    popl %ebx
@@ -820,178 +701,137 @@ define { i129, i1 } @smul_ovf(i129 %x, i129 %y) nounwind {
 ; X64-NEXT:    pushq %r13
 ; X64-NEXT:    pushq %r12
 ; X64-NEXT:    pushq %rbx
-; X64-NEXT:    movq %r9, %r15
-; X64-NEXT:    movq %rcx, %r9
-; X64-NEXT:    movq %rdx, %r10
-; X64-NEXT:    movq %rsi, %r12
+; X64-NEXT:    movq %rcx, %r14
+; X64-NEXT:    movq %rdx, %r15
+; X64-NEXT:    movq %rsi, %rbx
 ; X64-NEXT:    movq %rdi, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    movq {{[0-9]+}}(%rsp), %r11
-; X64-NEXT:    andl $1, %r11d
-; X64-NEXT:    negq %r11
-; X64-NEXT:    andl $1, %r9d
-; X64-NEXT:    negq %r9
-; X64-NEXT:    movq %r8, %rax
-; X64-NEXT:    mulq %r9
-; X64-NEXT:    movq %rdx, %rcx
-; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
+; X64-NEXT:    movq {{[0-9]+}}(%rsp), %r13
+; X64-NEXT:    andl $1, %r13d
+; X64-NEXT:    negq %r13
+; X64-NEXT:    andl $1, %r14d
+; X64-NEXT:    negq %r14
+; X64-NEXT:    movq %r14, %rax
+; X64-NEXT:    mulq %r8
+; X64-NEXT:    movq %rdx, %r11
 ; X64-NEXT:    movq %rax, %rdi
-; X64-NEXT:    movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    addq %rdx, %rdi
-; X64-NEXT:    adcq $0, %rcx
-; X64-NEXT:    movq %r15, %rax
+; X64-NEXT:    movq %rax, %r12
+; X64-NEXT:    addq %rdx, %r12
+; X64-NEXT:    adcq $0, %r11
+; X64-NEXT:    movq %r14, %rax
 ; X64-NEXT:    mulq %r9
-; X64-NEXT:    movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    addq %rax, %rdi
+; X64-NEXT:    addq %rax, %r12
+; X64-NEXT:    adcq %rdx, %r11
+; X64-NEXT:    setb %cl
+; X64-NEXT:    movzbl %cl, %ecx
+; X64-NEXT:    addq %rax, %r11
 ; X64-NEXT:    adcq %rdx, %rcx
-; X64-NEXT:    setb %sil
-; X64-NEXT:    movzbl %sil, %r14d
-; X64-NEXT:    addq %rax, %rcx
-; X64-NEXT:    adcq %rdx, %r14
-; X64-NEXT:    movq %r12, %rax
+; X64-NEXT:    addq %rdi, %r11
+; X64-NEXT:    adcq %r12, %rcx
+; X64-NEXT:    movq %rsi, %rax
 ; X64-NEXT:    mulq %r8
-; X64-NEXT:    movq %rdx, %rbx
+; X64-NEXT:    movq %rdx, %r10
 ; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    movq %r10, %rax
+; X64-NEXT:    movq %r15, %rax
 ; X64-NEXT:    mulq %r8
-; X64-NEXT:    movq %rdx, %r13
+; X64-NEXT:    movq %rdx, %r8
 ; X64-NEXT:    movq %rax, %rbp
-; X64-NEXT:    addq %rbx, %rbp
-; X64-NEXT:    adcq $0, %r13
-; X64-NEXT:    movq %r12, %rax
-; X64-NEXT:    mulq %r15
+; X64-NEXT:    addq %r10, %rbp
+; X64-NEXT:    adcq $0, %r8
+; X64-NEXT:    movq %rsi, %rax
+; X64-NEXT:    mulq %r9
 ; X64-NEXT:    movq %rdx, %rsi
 ; X64-NEXT:    addq %rbp, %rax
 ; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    adcq %r13, %rsi
-; X64-NEXT:    setb %r8b
-; X64-NEXT:    movq %r10, %rax
-; X64-NEXT:    mulq %r15
-; X64-NEXT:    movq %rdx, %rbx
-; X64-NEXT:    addq %rsi, %rax
-; X64-NEXT:    movzbl %r8b, %edx
-; X64-NEXT:    adcq %rdx, %rbx
-; X64-NEXT:    addq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Folded Reload
-; X64-NEXT:    movq %rax, %rsi
-; X64-NEXT:    adcq %rdi, %rbx
-; X64-NEXT:    adcq $0, %rcx
-; X64-NEXT:    adcq $0, %r14
-; X64-NEXT:    movq %r11, %rax
-; X64-NEXT:    mulq %r12
-; X64-NEXT:    movq %rdx, %r13
-; X64-NEXT:    movq %rax, %r8
-; X64-NEXT:    movq %r11, %rax
-; X64-NEXT:    mulq %r10
-; X64-NEXT:    movq %rax, %r15
-; X64-NEXT:    movq %rax, %rdi
-; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    addq %r13, %r15
-; X64-NEXT:    movq %rdx, %rbp
-; X64-NEXT:    movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    adcq $0, %rbp
-; X64-NEXT:    addq %r8, %r15
-; X64-NEXT:    adcq %r13, %rbp
+; X64-NEXT:    adcq %r8, %rsi
 ; X64-NEXT:    setb %al
-; X64-NEXT:    addq %rdi, %rbp
-; X64-NEXT:    movzbl %al, %r12d
-; X64-NEXT:    adcq %rdx, %r12
-; X64-NEXT:    addq %r8, %rsi
-; X64-NEXT:    movq %r8, %r10
-; X64-NEXT:    movq %r8, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    movq %rsi, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; X64-NEXT:    adcq %rbx, %r15
-; X64-NEXT:    adcq $0, %rbp
-; X64-NEXT:    adcq $0, %r12
-; X64-NEXT:    addq %rcx, %rbp
-; X64-NEXT:    adcq %r14, %r12
-; X64-NEXT:    setb %cl
-; X64-NEXT:    movq %r9, %rax
-; X64-NEXT:    mulq %r11
-; X64-NEXT:    movq %rax, %r8
-; X64-NEXT:    addq %rdx, %r8
-; X64-NEXT:    movq %rdx, %rbx
-; X64-NEXT:    adcq $0, %rbx
-; X64-NEXT:    addq %rax, %r8
-; X64-NEXT:    adcq %rdx, %rbx
-; X64-NEXT:    setb %r14b
-; X64-NEXT:    addq %rax, %rbx
-; X64-NEXT:    movzbl %r14b, %r14d
-; X64-NEXT:    adcq %rdx, %r14
-; X64-NEXT:    addq %rax, %rbp
+; X64-NEXT:    movzbl %al, %ebp
+; X64-NEXT:    movq %r15, %rax
+; X64-NEXT:    mulq %r9
+; X64-NEXT:    movq %rdx, %r8
+; X64-NEXT:    movq %rax, %r10
+; X64-NEXT:    addq %rsi, %r10
+; X64-NEXT:    adcq %rbp, %r8
+; X64-NEXT:    addq %rdi, %r10
 ; X64-NEXT:    adcq %r12, %r8
-; X64-NEXT:    movzbl %cl, %eax
-; X64-NEXT:    adcq %rax, %rbx
-; X64-NEXT:    adcq $0, %r14
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rsi # 8-byte Reload
-; X64-NEXT:    movq %rsi, %rdi
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
-; X64-NEXT:    addq %rax, %rdi
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rdx # 8-byte Reload
-; X64-NEXT:    movq %rdx, %rcx
+; X64-NEXT:    adcq $0, %r11
 ; X64-NEXT:    adcq $0, %rcx
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %r12 # 8-byte Reload
-; X64-NEXT:    addq %r12, %rdi
-; X64-NEXT:    adcq %rax, %rcx
-; X64-NEXT:    setb %al
-; X64-NEXT:    addq %rsi, %rcx
-; X64-NEXT:    movzbl %al, %esi
+; X64-NEXT:    movq %r13, %rax
+; X64-NEXT:    mulq %rbx
+; X64-NEXT:    movq %rdx, %rsi
+; X64-NEXT:    movq %rax, %r9
+; X64-NEXT:    movq %r15, %rax
+; X64-NEXT:    mulq %r13
+; X64-NEXT:    movq %rax, %rbx
+; X64-NEXT:    addq %rsi, %rbx
+; X64-NEXT:    movq %rdx, %r15
+; X64-NEXT:    adcq $0, %r15
+; X64-NEXT:    addq %r9, %rbx
+; X64-NEXT:    adcq %rsi, %r15
+; X64-NEXT:    setb %sil
+; X64-NEXT:    movzbl %sil, %esi
+; X64-NEXT:    addq %rax, %r15
 ; X64-NEXT:    adcq %rdx, %rsi
-; X64-NEXT:    movq %r9, %rax
-; X64-NEXT:    imulq %r11
-; X64-NEXT:    movq %r12, %r11
-; X64-NEXT:    addq %rax, %r11
-; X64-NEXT:    movq %rdi, %r12
+; X64-NEXT:    addq %r9, %r15
+; X64-NEXT:    adcq %rbx, %rsi
+; X64-NEXT:    addq %r9, %r10
+; X64-NEXT:    adcq %r8, %rbx
+; X64-NEXT:    adcq $0, %r15
+; X64-NEXT:    adcq $0, %rsi
+; X64-NEXT:    movq %rsi, %rax
+; X64-NEXT:    sarq $63, %rax
+; X64-NEXT:    movq %rcx, %rdi
+; X64-NEXT:    sarq $63, %rdi
+; X64-NEXT:    addq %r11, %r15
+; X64-NEXT:    adcq %rcx, %rsi
+; X64-NEXT:    movq %rdi, %r9
+; X64-NEXT:    adcq %rax, %r9
+; X64-NEXT:    adcq %rax, %rdi
+; X64-NEXT:    movq %r14, %rax
+; X64-NEXT:    mulq %r13
+; X64-NEXT:    movq %rax, %r8
+; X64-NEXT:    movq %rax, %rcx
+; X64-NEXT:    addq %rdx, %rcx
+; X64-NEXT:    movq %rdx, %r11
+; X64-NEXT:    adcq $0, %r11
+; X64-NEXT:    addq %rax, %rcx
+; X64-NEXT:    adcq %rdx, %r11
+; X64-NEXT:    setb %al
+; X64-NEXT:    addq %r8, %r11
+; X64-NEXT:    movzbl %al, %r12d
 ; X64-NEXT:    adcq %rdx, %r12
-; X64-NEXT:    addq %rcx, %r11
-; X64-NEXT:    adcq %rsi, %r12
-; X64-NEXT:    movq %r10, %r9
-; X64-NEXT:    addq %r13, %r9
-; X64-NEXT:    adcq $0, %r13
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rcx # 8-byte Reload
-; X64-NEXT:    addq %rcx, %r9
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rsi # 8-byte Reload
-; X64-NEXT:    adcq %rsi, %r13
-; X64-NEXT:    setb %r10b
-; X64-NEXT:    addq %rcx, %r13
-; X64-NEXT:    movzbl %r10b, %ecx
-; X64-NEXT:    adcq %rsi, %rcx
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rsi # 8-byte Reload
-; X64-NEXT:    addq %rsi, %rax
-; X64-NEXT:    adcq %r9, %rdx
-; X64-NEXT:    addq %r13, %rax
-; X64-NEXT:    adcq %rcx, %rdx
-; X64-NEXT:    addq {{[-0-9]+}}(%r{{[sb]}}p), %rsi # 8-byte Folded Reload
-; X64-NEXT:    adcq %rdi, %r9
-; X64-NEXT:    adcq %r11, %rax
+; X64-NEXT:    movq %r13, %rax
+; X64-NEXT:    imulq %r14
+; X64-NEXT:    addq %rax, %rax
+; X64-NEXT:    adcq %rdx, %rdx
+; X64-NEXT:    addq %r11, %rax
 ; X64-NEXT:    adcq %r12, %rdx
-; X64-NEXT:    addq %rbp, %rsi
-; X64-NEXT:    adcq %r8, %r9
-; X64-NEXT:    adcq %rbx, %rax
-; X64-NEXT:    adcq %r14, %rdx
-; X64-NEXT:    movq %r15, %rcx
-; X64-NEXT:    sarq $63, %rcx
-; X64-NEXT:    xorq %rcx, %rdx
-; X64-NEXT:    xorq %rcx, %r9
-; X64-NEXT:    orq %rdx, %r9
-; X64-NEXT:    xorq %rcx, %rax
-; X64-NEXT:    xorq %rsi, %rcx
-; X64-NEXT:    orq %rax, %rcx
-; X64-NEXT:    orq %r9, %rcx
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
-; X64-NEXT:    movl %eax, %esi
-; X64-NEXT:    andl $1, %esi
-; X64-NEXT:    movq %rsi, %rdx
-; X64-NEXT:    negq %rdx
-; X64-NEXT:    xorq %rdx, %r15
-; X64-NEXT:    xorq %rax, %rdx
-; X64-NEXT:    orq %r15, %rdx
-; X64-NEXT:    orq %rcx, %rdx
+; X64-NEXT:    addq %r8, %r15
+; X64-NEXT:    adcq %rsi, %rcx
+; X64-NEXT:    adcq %r9, %rax
+; X64-NEXT:    adcq %rdi, %rdx
+; X64-NEXT:    movq %rbx, %rsi
+; X64-NEXT:    sarq $63, %rsi
+; X64-NEXT:    xorq %rsi, %rax
+; X64-NEXT:    xorq %rsi, %r15
+; X64-NEXT:    orq %rax, %r15
+; X64-NEXT:    xorq %rsi, %rdx
+; X64-NEXT:    xorq %rcx, %rsi
+; X64-NEXT:    orq %rdx, %rsi
+; X64-NEXT:    orq %r15, %rsi
+; X64-NEXT:    movl %r10d, %edx
+; X64-NEXT:    andl $1, %edx
+; X64-NEXT:    movq %rdx, %rcx
+; X64-NEXT:    negq %rcx
+; X64-NEXT:    xorq %rcx, %rbx
+; X64-NEXT:    xorq %r10, %rcx
+; X64-NEXT:    orq %rbx, %rcx
+; X64-NEXT:    orq %rsi, %rcx
 ; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
 ; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rcx # 8-byte Reload
 ; X64-NEXT:    movq %rcx, 8(%rax)
 ; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rcx # 8-byte Reload
 ; X64-NEXT:    movq %rcx, (%rax)
-; X64-NEXT:    movb %sil, 16(%rax)
+; X64-NEXT:    movb %dl, 16(%rax)
 ; X64-NEXT:    setne 32(%rax)
 ; X64-NEXT:    popq %rbx
 ; X64-NEXT:    popq %r12
diff --git a/llvm/test/CodeGen/X86/smul_fix_sat.ll b/llvm/test/CodeGen/X86/smul_fix_sat.ll
index 85c966c447fad..e68b6e328b723 100644
--- a/llvm/test/CodeGen/X86/smul_fix_sat.ll
+++ b/llvm/test/CodeGen/X86/smul_fix_sat.ll
@@ -369,76 +369,63 @@ define i64 @func5(i64 %x, i64 %y) {
 ; X86-NEXT:    .cfi_def_cfa_offset 16
 ; X86-NEXT:    pushl %esi
 ; X86-NEXT:    .cfi_def_cfa_offset 20
-; X86-NEXT:    subl $12, %esp
-; X86-NEXT:    .cfi_def_cfa_offset 32
+; X86-NEXT:    subl $8, %esp
+; X86-NEXT:    .cfi_def_cfa_offset 28
 ; X86-NEXT:    .cfi_offset %esi, -20
 ; X86-NEXT:    .cfi_offset %edi, -16
 ; X86-NEXT:    .cfi_offset %ebx, -12
 ; X86-NEXT:    .cfi_offset %ebp, -8
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    movl %ecx, %edx
-; X86-NEXT:    sarl $31, %edx
-; X86-NEXT:    movl %esi, %ebx
-; X86-NEXT:    movl %esi, %ebp
-; X86-NEXT:    imull %edx, %ebx
-; X86-NEXT:    mull %edx
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %eax, %esi
-; X86-NEXT:    addl %ebx, %esi
-; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    sarl $31, %eax
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    imull %ecx, %ebp
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    addl %ebp, %ebx
-; X86-NEXT:    addl %eax, %ebx
-; X86-NEXT:    addl %edi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; X86-NEXT:    adcl %esi, %ebx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; X86-NEXT:    movl %ecx, %esi
+; X86-NEXT:    sarl $31, %esi
+; X86-NEXT:    imull %edi, %esi
 ; X86-NEXT:    mull %edi
-; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    movl %edx, %ebx
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; X86-NEXT:    movl %ecx, %eax
 ; X86-NEXT:    mull %edi
-; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    addl %eax, %esi
-; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    addl %eax, %ebx
+; X86-NEXT:    movl %ebx, (%esp) # 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-NEXT:    adcl %esi, %ebp
+; X86-NEXT:    movl %ebp, %edi
+; X86-NEXT:    sarl $31, %edi
+; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    sarl $31, %esi
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    imull %eax, %esi
 ; X86-NEXT:    mull %edx
-; X86-NEXT:    movl %edx, %ebp
-; X86-NEXT:    addl %eax, %esi
-; X86-NEXT:    adcl %edi, %ebp
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) # 1-byte Folded Spill
+; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    addl %eax, (%esp) # 4-byte Folded Spill
+; X86-NEXT:    adcl %esi, %ebx
+; X86-NEXT:    movl %ebx, %esi
+; X86-NEXT:    sarl $31, %esi
+; X86-NEXT:    addl %ebp, %ebx
+; X86-NEXT:    adcl %edi, %esi
 ; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    addl %ebp, %eax
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %edi # 1-byte Folded Reload
-; X86-NEXT:    adcl %edi, %edx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; X86-NEXT:    adcl %ebx, %edx
-; X86-NEXT:    movl %esi, %ebx
-; X86-NEXT:    sarl $31, %ebx
-; X86-NEXT:    xorl %ebx, %edx
-; X86-NEXT:    xorl %eax, %ebx
-; X86-NEXT:    xorl {{[0-9]+}}(%esp), %ecx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; X86-NEXT:    imull %ebp
+; X86-NEXT:    addl %ebx, %eax
+; X86-NEXT:    adcl %esi, %edx
+; X86-NEXT:    movl (%esp), %edi # 4-byte Reload
+; X86-NEXT:    movl %edi, %esi
+; X86-NEXT:    sarl $31, %esi
+; X86-NEXT:    xorl %esi, %edx
+; X86-NEXT:    xorl %eax, %esi
+; X86-NEXT:    xorl %ebp, %ecx
 ; X86-NEXT:    sarl $31, %ecx
-; X86-NEXT:    movl %ecx, %edi
-; X86-NEXT:    xorl $2147483647, %edi # imm = 0x7FFFFFFF
-; X86-NEXT:    orl %edx, %ebx
+; X86-NEXT:    movl %ecx, %ebx
+; X86-NEXT:    xorl $2147483647, %ebx # imm = 0x7FFFFFFF
+; X86-NEXT:    orl %edx, %esi
 ; X86-NEXT:    notl %ecx
 ; X86-NEXT:    cmovel {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Folded Reload
-; X86-NEXT:    cmovel %esi, %edi
+; X86-NEXT:    cmovel %edi, %ebx
 ; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    movl %edi, %edx
-; X86-NEXT:    addl $12, %esp
+; X86-NEXT:    movl %ebx, %edx
+; X86-NEXT:    addl $8, %esp
 ; X86-NEXT:    .cfi_def_cfa_offset 20
 ; X86-NEXT:    popl %esi
 ; X86-NEXT:    .cfi_def_cfa_offset 16
diff --git a/llvm/test/CodeGen/X86/smulo-128-legalisation-lowering.ll b/llvm/test/CodeGen/X86/smulo-128-legalisation-lowering.ll
index 15f302355784c..13596e1b18768 100644
--- a/llvm/test/CodeGen/X86/smulo-128-legalisation-lowering.ll
+++ b/llvm/test/CodeGen/X86/smulo-128-legalisation-lowering.ll
@@ -14,60 +14,47 @@ define zeroext i1 @smuloi128(i128 %v1, i128 %v2, ptr %res) {
 ; X64-NEXT:    .cfi_offset %rbx, -32
 ; X64-NEXT:    .cfi_offset %r14, -24
 ; X64-NEXT:    .cfi_offset %r15, -16
-; X64-NEXT:    movq %rdx, %rbx
-; X64-NEXT:    movq %rdi, %r11
-; X64-NEXT:    movq %rsi, %rdx
-; X64-NEXT:    sarq $63, %rdx
-; X64-NEXT:    movq %rcx, %r9
-; X64-NEXT:    imulq %rdx, %r9
-; X64-NEXT:    movq %rbx, %rax
+; X64-NEXT:    movq %rdx, %r10
+; X64-NEXT:    movq %rsi, %r9
+; X64-NEXT:    movq %rsi, %r14
+; X64-NEXT:    sarq $63, %r14
+; X64-NEXT:    imulq %rdx, %r14
+; X64-NEXT:    movq %rdi, %rax
 ; X64-NEXT:    mulq %rdx
-; X64-NEXT:    movq %rdx, %rdi
-; X64-NEXT:    movq %rax, %r14
-; X64-NEXT:    addq %rax, %rdi
-; X64-NEXT:    addq %r9, %rdi
-; X64-NEXT:    movq %rcx, %rax
-; X64-NEXT:    sarq $63, %rax
-; X64-NEXT:    movq %rax, %r15
-; X64-NEXT:    imulq %rsi, %r15
-; X64-NEXT:    mulq %r11
-; X64-NEXT:    movq %rax, %r10
-; X64-NEXT:    movq %rdx, %r9
-; X64-NEXT:    addq %r15, %r9
-; X64-NEXT:    addq %rax, %r9
-; X64-NEXT:    addq %r14, %r10
-; X64-NEXT:    adcq %rdi, %r9
-; X64-NEXT:    movq %r11, %rax
-; X64-NEXT:    mulq %rbx
-; X64-NEXT:    movq %rdx, %r14
-; X64-NEXT:    movq %rax, %rdi
-; X64-NEXT:    movq %rsi, %rax
-; X64-NEXT:    mulq %rbx
-; X64-NEXT:    movq %rdx, %rbx
-; X64-NEXT:    movq %rax, %r15
-; X64-NEXT:    addq %r14, %r15
-; X64-NEXT:    adcq $0, %rbx
-; X64-NEXT:    movq %r11, %rax
-; X64-NEXT:    mulq %rcx
-; X64-NEXT:    movq %rdx, %r14
-; X64-NEXT:    movq %rax, %r11
-; X64-NEXT:    addq %r15, %r11
-; X64-NEXT:    adcq %rbx, %r14
-; X64-NEXT:    setb %al
-; X64-NEXT:    movzbl %al, %ebx
-; X64-NEXT:    movq %rsi, %rax
+; X64-NEXT:    movq %rdx, %r11
+; X64-NEXT:    movq %rax, %rsi
+; X64-NEXT:    movq %r9, %rax
+; X64-NEXT:    mulq %r10
+; X64-NEXT:    movq %rdx, %r10
+; X64-NEXT:    movq %rax, %rbx
+; X64-NEXT:    addq %r11, %rbx
+; X64-NEXT:    adcq %r14, %r10
+; X64-NEXT:    movq %r10, %r14
+; X64-NEXT:    sarq $63, %r14
+; X64-NEXT:    movq %rcx, %r15
+; X64-NEXT:    sarq $63, %r15
+; X64-NEXT:    imulq %rdi, %r15
+; X64-NEXT:    movq %rdi, %rax
 ; X64-NEXT:    mulq %rcx
-; X64-NEXT:    addq %r14, %rax
+; X64-NEXT:    movq %rdx, %r11
+; X64-NEXT:    movq %rax, %rdi
+; X64-NEXT:    addq %rbx, %rdi
+; X64-NEXT:    adcq %r15, %r11
+; X64-NEXT:    movq %r11, %rbx
+; X64-NEXT:    sarq $63, %rbx
+; X64-NEXT:    addq %r10, %r11
+; X64-NEXT:    adcq %r14, %rbx
+; X64-NEXT:    movq %r9, %rax
+; X64-NEXT:    imulq %rcx
+; X64-NEXT:    addq %r11, %rax
 ; X64-NEXT:    adcq %rbx, %rdx
-; X64-NEXT:    addq %r10, %rax
-; X64-NEXT:    adcq %r9, %rdx
-; X64-NEXT:    movq %r11, 8(%r8)
-; X64-NEXT:    sarq $63, %r11
-; X64-NEXT:    xorq %r11, %rdx
-; X64-NEXT:    xorq %rax, %r11
-; X64-NEXT:    orq %rdx, %r11
+; X64-NEXT:    movq %rdi, 8(%r8)
+; X64-NEXT:    sarq $63, %rdi
+; X64-NEXT:    xorq %rdi, %rdx
+; X64-NEXT:    xorq %rax, %rdi
+; X64-NEXT:    orq %rdx, %rdi
 ; X64-NEXT:    setne %al
-; X64-NEXT:    movq %rdi, (%r8)
+; X64-NEXT:    movq %rsi, (%r8)
 ; X64-NEXT:    popq %rbx
 ; X64-NEXT:    popq %r14
 ; X64-NEXT:    popq %r15
@@ -83,221 +70,207 @@ define zeroext i1 @smuloi128(i128 %v1, i128 %v2, ptr %res) {
 ; X86-NEXT:    .cfi_def_cfa_offset 16
 ; X86-NEXT:    pushl %esi
 ; X86-NEXT:    .cfi_def_cfa_offset 20
-; X86-NEXT:    subl $60, %esp
-; X86-NEXT:    .cfi_def_cfa_offset 80
+; X86-NEXT:    subl $44, %esp
+; X86-NEXT:    .cfi_def_cfa_offset 64
 ; X86-NEXT:    .cfi_offset %esi, -20
 ; X86-NEXT:    .cfi_offset %edi, -16
 ; X86-NEXT:    .cfi_offset %ebx, -12
 ; X86-NEXT:    .cfi_offset %ebp, -8
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    mull %ebx
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull %ebx
-; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %esi, %ebx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    addl %ebx, %esi
-; X86-NEXT:    adcl %ecx, %edi
-; X86-NEXT:    setb %cl
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    addl %edi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movzbl %cl, %eax
-; X86-NEXT:    adcl %eax, %edx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
 ; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    mull %esi
 ; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %ecx, %eax
+; X86-NEXT:    mull %esi
 ; X86-NEXT:    movl %edx, %ecx
 ; X86-NEXT:    movl %eax, %edi
 ; X86-NEXT:    addl %ebx, %edi
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
 ; X86-NEXT:    adcl $0, %ecx
 ; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
-; X86-NEXT:    mull %ebx
+; X86-NEXT:    mull %esi
 ; X86-NEXT:    movl %edx, %ebp
 ; X86-NEXT:    addl %edi, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    adcl %ecx, %ebp
 ; X86-NEXT:    setb %cl
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    mull %esi
+; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %ebp, %esi
+; X86-NEXT:    movzbl %cl, %eax
+; X86-NEXT:    adcl %eax, %edi
+; X86-NEXT:    sarl $31, %ebx
+; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; X86-NEXT:    imull %ebx, %ebp
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ebx
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %ebp, %edi
-; X86-NEXT:    movzbl %cl, %eax
-; X86-NEXT:    adcl %eax, %ebx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
-; X86-NEXT:    adcl %esi, %ebx
-; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    addl %eax, %ecx
+; X86-NEXT:    addl %ebp, %ecx
+; X86-NEXT:    addl %eax, %esi
+; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %edi, %ecx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebx, %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %esi
-; X86-NEXT:    movl %edx, %ecx
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %esi
 ; X86-NEXT:    movl %edx, %esi
 ; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %ecx, %ebp
+; X86-NEXT:    addl %edi, %ebp
 ; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    movl %ebx, %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    addl %ebp, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %esi, %ecx
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    adcl %esi, %edi
+; X86-NEXT:    setb %bl
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    movl %esi, %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movzbl %bl, %edi
+; X86-NEXT:    adcl %edi, %edx
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    sarl $31, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %esi, %eax
+; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %ecx, %ebp
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %esi
-; X86-NEXT:    addl %edi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl $0, %ebp
+; X86-NEXT:    movl %eax, %edi
+; X86-NEXT:    addl %ebx, %edi
 ; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    mull %ebx
+; X86-NEXT:    movl %ebx, %ebp
+; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %esi, %ebx
 ; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    mull %ecx
+; X86-NEXT:    mull %ebp
 ; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    movl %eax, %ecx
+; X86-NEXT:    addl %ebx, %ecx
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
+; X86-NEXT:    adcl %eax, %edi
+; X86-NEXT:    movl %ebp, %esi
+; X86-NEXT:    sarl $31, %esi
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    imull %esi, %ebx
+; X86-NEXT:    movl %esi, %eax
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    addl %ebx, %ebp
+; X86-NEXT:    addl %eax, %ebp
+; X86-NEXT:    addl %eax, %ecx
+; X86-NEXT:    adcl %edi, %ebp
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
+; X86-NEXT:    addl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
+; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    adcl $0, %ebp
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    sarl $31, %eax
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
+; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    adcl %eax, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %edx, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
+; X86-NEXT:    imull %ecx, %ebx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %edi, %ebx
-; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    movl %eax, %edi
+; X86-NEXT:    addl %eax, %ecx
+; X86-NEXT:    addl %ebx, %ecx
+; X86-NEXT:    movl %esi, %ebx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    imull %eax, %ebx
+; X86-NEXT:    movl %esi, %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 ; X86-NEXT:    mull %edx
-; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %ecx, %edi
-; X86-NEXT:    setb %cl
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %ebx, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    addl %ebx, %esi
+; X86-NEXT:    addl %eax, %esi
 ; X86-NEXT:    addl %edi, %eax
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    movzbl %cl, %eax
-; X86-NEXT:    adcl %eax, %edx
-; X86-NEXT:    addl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %edi
-; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %ebx, %ecx
-; X86-NEXT:    sarl $31, %ecx
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %ecx, %esi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %eax, %edi
+; X86-NEXT:    addl %ecx, %edi
+; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    addl %edi, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %esi, %ebp
-; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    addl %ebx, %ebp
-; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %esi, %edi
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
-; X86-NEXT:    movl %ecx, %esi
-; X86-NEXT:    imull {{[0-9]+}}(%esp), %esi
-; X86-NEXT:    movl %ecx, %eax
+; X86-NEXT:    adcl %ebx, %ecx
+; X86-NEXT:    setb %bl
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    addl %esi, %edx
-; X86-NEXT:    addl %eax, %edx
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    adcl %ebp, %edx
+; X86-NEXT:    addl %ecx, %eax
+; X86-NEXT:    movzbl %bl, %ecx
+; X86-NEXT:    adcl %ecx, %edx
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
+; X86-NEXT:    adcl %esi, %edx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Reload
 ; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 1-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    addl %eax, %edi
-; X86-NEXT:    adcl %edx, %ecx
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    sarl $31, %eax
-; X86-NEXT:    movl %eax, %ecx
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %edx, %ebp
-; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %eax, %ebp
-; X86-NEXT:    adcl %edx, %esi
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    imull %ecx, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %eax, %ecx
-; X86-NEXT:    addl %eax, %edx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
-; X86-NEXT:    addl %ebx, %ecx
-; X86-NEXT:    adcl %ebp, %edx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    addl %ecx, %esi
-; X86-NEXT:    adcl %edx, %eax
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
-; X86-NEXT:    adcl %edi, %esi
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Reload
+; X86-NEXT:    adcl %ebp, %ebx
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
-; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Reload
+; X86-NEXT:    movl %esi, %ecx
 ; X86-NEXT:    sarl $31, %ecx
 ; X86-NEXT:    xorl %ecx, %eax
-; X86-NEXT:    xorl %ecx, %ebp
-; X86-NEXT:    orl %eax, %ebp
-; X86-NEXT:    xorl %ecx, %esi
+; X86-NEXT:    xorl %ecx, %edi
+; X86-NEXT:    orl %eax, %edi
+; X86-NEXT:    xorl %ecx, %edx
 ; X86-NEXT:    xorl %ebx, %ecx
-; X86-NEXT:    orl %esi, %ecx
-; X86-NEXT:    orl %ebp, %ecx
+; X86-NEXT:    orl %edx, %ecx
+; X86-NEXT:    orl %edi, %ecx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl %edx, 12(%eax)
+; X86-NEXT:    movl %esi, 12(%eax)
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
 ; X86-NEXT:    movl %ecx, (%eax)
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
@@ -305,7 +278,7 @@ define zeroext i1 @smuloi128(i128 %v1, i128 %v2, ptr %res) {
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
 ; X86-NEXT:    movl %ecx, 8(%eax)
 ; X86-NEXT:    setne %al
-; X86-NEXT:    addl $60, %esp
+; X86-NEXT:    addl $44, %esp
 ; X86-NEXT:    popl %esi
 ; X86-NEXT:    popl %edi
 ; X86-NEXT:    popl %ebx
@@ -339,218 +312,192 @@ define zeroext i1 @smuloi256(i256 %v1, i256 %v2, ptr %res) {
 ; X64-NEXT:    .cfi_offset %r14, -32
 ; X64-NEXT:    .cfi_offset %r15, -24
 ; X64-NEXT:    .cfi_offset %rbp, -16
-; X64-NEXT:    movq %rcx, %r13
-; X64-NEXT:    movq %rdx, %r15
+; X64-NEXT:    movq %r8, %r12
+; X64-NEXT:    movq %rcx, %rbx
+; X64-NEXT:    movq %rdx, %r8
 ; X64-NEXT:    movq %rsi, %r10
+; X64-NEXT:    movq %rdi, %r11
 ; X64-NEXT:    movq %rdx, %rax
 ; X64-NEXT:    movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    mulq %r8
-; X64-NEXT:    movq %rdx, %rcx
-; X64-NEXT:    movq %rax, %r11
-; X64-NEXT:    movq %r13, %rax
-; X64-NEXT:    movq %r13, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    mulq %r8
+; X64-NEXT:    mulq %r12
 ; X64-NEXT:    movq %rdx, %rsi
+; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
+; X64-NEXT:    movq %rcx, %rax
+; X64-NEXT:    mulq %r12
+; X64-NEXT:    movq %rdx, %rcx
 ; X64-NEXT:    movq %rax, %r14
-; X64-NEXT:    addq %rcx, %r14
-; X64-NEXT:    adcq $0, %rsi
-; X64-NEXT:    movq %r15, %rax
-; X64-NEXT:    movq %r9, %rcx
+; X64-NEXT:    addq %rsi, %r14
+; X64-NEXT:    adcq $0, %rcx
+; X64-NEXT:    movq %r8, %rax
 ; X64-NEXT:    mulq %r9
-; X64-NEXT:    movq %rdx, %r12
-; X64-NEXT:    movq %rax, %rbx
-; X64-NEXT:    addq %r14, %rbx
-; X64-NEXT:    adcq %rsi, %r12
+; X64-NEXT:    movq %rdx, %rsi
+; X64-NEXT:    movq %rax, %r13
+; X64-NEXT:    addq %r14, %r13
+; X64-NEXT:    adcq %rcx, %rsi
 ; X64-NEXT:    setb %al
-; X64-NEXT:    movzbl %al, %r9d
-; X64-NEXT:    movq %r13, %rax
+; X64-NEXT:    movzbl %al, %ecx
+; X64-NEXT:    movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
+; X64-NEXT:    movq %rbx, %rax
+; X64-NEXT:    mulq %r9
+; X64-NEXT:    movq %rdx, %r8
+; X64-NEXT:    movq %rax, %r14
+; X64-NEXT:    addq %rsi, %r14
+; X64-NEXT:    adcq %rcx, %r8
+; X64-NEXT:    movq %rbx, %rcx
+; X64-NEXT:    sarq $63, %rcx
+; X64-NEXT:    movq %r9, %rsi
+; X64-NEXT:    imulq %rcx, %rsi
+; X64-NEXT:    movq %r12, %rax
 ; X64-NEXT:    mulq %rcx
-; X64-NEXT:    movq %rcx, %r14
-; X64-NEXT:    movq %rcx, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    movq %rdx, %rcx
-; X64-NEXT:    movq %rax, %rsi
-; X64-NEXT:    addq %r12, %rsi
-; X64-NEXT:    adcq %r9, %rcx
+; X64-NEXT:    movq %rdx, %r15
+; X64-NEXT:    addq %rax, %r15
+; X64-NEXT:    addq %rsi, %r15
+; X64-NEXT:    addq %rax, %r14
+; X64-NEXT:    adcq %r8, %r15
 ; X64-NEXT:    movq %rdi, %rax
-; X64-NEXT:    mulq %r8
-; X64-NEXT:    movq %rdx, %r9
+; X64-NEXT:    mulq %r12
+; X64-NEXT:    movq %rdx, %rsi
 ; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
 ; X64-NEXT:    movq %r10, %rax
-; X64-NEXT:    mulq %r8
-; X64-NEXT:    movq %rdx, %r12
-; X64-NEXT:    movq %rax, %r13
-; X64-NEXT:    addq %r9, %r13
-; X64-NEXT:    adcq $0, %r12
-; X64-NEXT:    movq %rdi, %rax
-; X64-NEXT:    movq %rdi, %r15
-; X64-NEXT:    mulq %r14
-; X64-NEXT:    movq %rdx, %r9
-; X64-NEXT:    addq %r13, %rax
+; X64-NEXT:    mulq %r12
+; X64-NEXT:    movq %rdx, %rdi
+; X64-NEXT:    movq %rax, %r12
+; X64-NEXT:    addq %rsi, %r12
+; X64-NEXT:    adcq $0, %rdi
+; X64-NEXT:    movq %r11, %rax
+; X64-NEXT:    mulq %r9
+; X64-NEXT:    movq %rdx, %rbx
+; X64-NEXT:    addq %r12, %rax
 ; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    adcq %r12, %r9
+; X64-NEXT:    adcq %rdi, %rbx
 ; X64-NEXT:    setb %dil
 ; X64-NEXT:    movq %r10, %rax
-; X64-NEXT:    mulq %r14
-; X64-NEXT:    movq %rdx, %r13
-; X64-NEXT:    movq %rax, %rbp
-; X64-NEXT:    addq %r9, %rbp
+; X64-NEXT:    mulq %r9
+; X64-NEXT:    movq %rdx, %rbp
+; X64-NEXT:    movq %rax, %rsi
+; X64-NEXT:    addq %rbx, %rsi
+; X64-NEXT:    movq {{[0-9]+}}(%rsp), %r8
 ; X64-NEXT:    movzbl %dil, %eax
-; X64-NEXT:    adcq %rax, %r13
+; X64-NEXT:    adcq %rax, %rbp
+; X64-NEXT:    addq {{[-0-9]+}}(%r{{[sb]}}p), %rsi ## 8-byte Folded Reload
+; X64-NEXT:    adcq %r13, %rbp
+; X64-NEXT:    adcq $0, %r14
+; X64-NEXT:    adcq $0, %r15
+; X64-NEXT:    movq %r15, %r12
+; X64-NEXT:    sarq $63, %r12
+; X64-NEXT:    movq %r11, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
+; X64-NEXT:    movq %r11, %rax
+; X64-NEXT:    mulq %r8
+; X64-NEXT:    movq %rdx, %rdi
+; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
+; X64-NEXT:    movq %r10, %rax
+; X64-NEXT:    mulq %r8
+; X64-NEXT:    movq %rdx, %r13
+; X64-NEXT:    movq %rax, %r9
+; X64-NEXT:    addq %rdi, %r9
+; X64-NEXT:    adcq $0, %r13
 ; X64-NEXT:    movq {{[0-9]+}}(%rsp), %rdi
-; X64-NEXT:    addq %r11, %rbp
-; X64-NEXT:    adcq %rbx, %r13
-; X64-NEXT:    adcq $0, %rsi
-; X64-NEXT:    adcq $0, %rcx
-; X64-NEXT:    movq %r15, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    movq %r15, %rax
+; X64-NEXT:    movq %r11, %rax
 ; X64-NEXT:    mulq %rdi
-; X64-NEXT:    movq %rdx, %r9
+; X64-NEXT:    movq %rdi, %r11
+; X64-NEXT:    movq %rdx, %rdi
+; X64-NEXT:    addq %r9, %rax
 ; X64-NEXT:    movq %rax, %rbx
+; X64-NEXT:    adcq %r13, %rdi
+; X64-NEXT:    setb %r8b
 ; X64-NEXT:    movq %r10, %rax
-; X64-NEXT:    movq %r10, %r14
-; X64-NEXT:    movq %r10, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    mulq %rdi
+; X64-NEXT:    mulq %r11
+; X64-NEXT:    movq %rdx, %r9
+; X64-NEXT:    movq %rax, %r13
+; X64-NEXT:    addq %rdi, %r13
+; X64-NEXT:    movzbl %r8b, %eax
+; X64-NEXT:    adcq %rax, %r9
+; X64-NEXT:    movq %r11, %rdi
+; X64-NEXT:    movq %r11, %r8
+; X64-NEXT:    sarq $63, %rdi
+; X64-NEXT:    imulq %rdi, %r10
+; X64-NEXT:    movq %rdi, %rax
+; X64-NEXT:    mulq {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Folded Reload
 ; X64-NEXT:    movq %rdx, %r11
-; X64-NEXT:    movq %rax, %r10
-; X64-NEXT:    addq %r9, %r10
+; X64-NEXT:    addq %r10, %r11
+; X64-NEXT:    addq %rax, %r11
+; X64-NEXT:    addq %rax, %r13
+; X64-NEXT:    adcq %r9, %r11
+; X64-NEXT:    addq %rsi, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Folded Spill
+; X64-NEXT:    adcq %rbp, %rbx
+; X64-NEXT:    movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
+; X64-NEXT:    adcq $0, %r13
 ; X64-NEXT:    adcq $0, %r11
-; X64-NEXT:    movq {{[0-9]+}}(%rsp), %r12
+; X64-NEXT:    movq %r11, %rbp
+; X64-NEXT:    sarq $63, %rbp
+; X64-NEXT:    addq %r14, %r13
+; X64-NEXT:    adcq %r15, %r11
+; X64-NEXT:    movq %r12, %rax
+; X64-NEXT:    adcq %rbp, %rax
+; X64-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
+; X64-NEXT:    adcq %r12, %rbp
+; X64-NEXT:    movq %r8, %rbx
+; X64-NEXT:    imulq %rcx, %r8
+; X64-NEXT:    movq {{[0-9]+}}(%rsp), %r15
 ; X64-NEXT:    movq %r15, %rax
-; X64-NEXT:    mulq %r12
-; X64-NEXT:    movq %rdx, %rdi
-; X64-NEXT:    movq %rax, %r15
-; X64-NEXT:    addq %r10, %r15
-; X64-NEXT:    adcq %r11, %rdi
-; X64-NEXT:    setb %r10b
-; X64-NEXT:    movq %r14, %rax
-; X64-NEXT:    mulq %r12
-; X64-NEXT:    movq %rdx, %r11
+; X64-NEXT:    mulq %rcx
+; X64-NEXT:    movq %rdx, %rsi
 ; X64-NEXT:    movq %rax, %r9
-; X64-NEXT:    addq %rdi, %r9
-; X64-NEXT:    movzbl %r10b, %eax
-; X64-NEXT:    adcq %rax, %r11
-; X64-NEXT:    addq %rbp, %rbx
-; X64-NEXT:    movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    adcq %r13, %r15
-; X64-NEXT:    movq %r15, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    adcq $0, %r9
-; X64-NEXT:    adcq $0, %r11
-; X64-NEXT:    addq %rsi, %r9
-; X64-NEXT:    adcq %rcx, %r11
-; X64-NEXT:    setb %bl
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %r10 ## 8-byte Reload
-; X64-NEXT:    movq %r10, %rax
-; X64-NEXT:    movq {{[0-9]+}}(%rsp), %rsi
-; X64-NEXT:    mulq %rsi
-; X64-NEXT:    movq %rdx, %rcx
+; X64-NEXT:    addq %rax, %rsi
+; X64-NEXT:    addq %r8, %rsi
+; X64-NEXT:    movq %rdi, %rcx
+; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %r12 ## 8-byte Reload
+; X64-NEXT:    imulq %r12, %rcx
+; X64-NEXT:    movq %rdi, %rax
+; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rdi ## 8-byte Reload
+; X64-NEXT:    mulq %rdi
 ; X64-NEXT:    movq %rax, %r14
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rbp ## 8-byte Reload
-; X64-NEXT:    movq %rbp, %rax
-; X64-NEXT:    mulq %rsi
-; X64-NEXT:    movq %rdx, %rsi
-; X64-NEXT:    movq %rax, %rdi
-; X64-NEXT:    addq %rcx, %rdi
-; X64-NEXT:    adcq $0, %rsi
-; X64-NEXT:    movq %r10, %rax
-; X64-NEXT:    mulq %r12
 ; X64-NEXT:    movq %rdx, %r10
-; X64-NEXT:    addq %rdi, %rax
-; X64-NEXT:    movq %rax, %rdi
-; X64-NEXT:    adcq %rsi, %r10
-; X64-NEXT:    setb %cl
-; X64-NEXT:    movq %rbp, %rax
-; X64-NEXT:    mulq %r12
-; X64-NEXT:    movq %rdx, %r13
-; X64-NEXT:    movq %rax, %r15
-; X64-NEXT:    addq %r10, %r15
-; X64-NEXT:    movzbl %cl, %eax
-; X64-NEXT:    adcq %rax, %r13
+; X64-NEXT:    addq %rcx, %r10
+; X64-NEXT:    addq %rax, %r10
 ; X64-NEXT:    addq %r9, %r14
-; X64-NEXT:    movq %r14, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    adcq %r11, %rdi
-; X64-NEXT:    movq %rdi, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    movzbl %bl, %eax
-; X64-NEXT:    adcq %rax, %r15
-; X64-NEXT:    adcq $0, %r13
-; X64-NEXT:    movq %rbp, %rdi
-; X64-NEXT:    sarq $63, %rdi
-; X64-NEXT:    movq %r8, %rax
-; X64-NEXT:    mulq %rdi
-; X64-NEXT:    movq %rdx, %r10
-; X64-NEXT:    movq %rax, %rsi
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax ## 8-byte Reload
-; X64-NEXT:    mulq %rdi
-; X64-NEXT:    movq %rdx, %rcx
-; X64-NEXT:    movq %rax, %r14
-; X64-NEXT:    movq %rax, %r11
-; X64-NEXT:    addq %r10, %r11
-; X64-NEXT:    movq %rdx, %r9
-; X64-NEXT:    adcq $0, %r9
-; X64-NEXT:    addq %rsi, %r11
-; X64-NEXT:    movq %rsi, %rbx
-; X64-NEXT:    movq %rsi, {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Spill
-; X64-NEXT:    adcq %r10, %r9
-; X64-NEXT:    setb %sil
-; X64-NEXT:    movq %rdi, %r8
-; X64-NEXT:    imulq %r12, %r8
+; X64-NEXT:    adcq %rsi, %r10
 ; X64-NEXT:    movq %rdi, %rax
-; X64-NEXT:    mulq {{[0-9]+}}(%rsp)
-; X64-NEXT:    addq %r8, %rdx
-; X64-NEXT:    addq %rax, %rdx
-; X64-NEXT:    addq %rbx, %rax
-; X64-NEXT:    adcq %r11, %rdx
-; X64-NEXT:    addq %r14, %r9
-; X64-NEXT:    movzbl %sil, %esi
-; X64-NEXT:    adcq %rcx, %rsi
-; X64-NEXT:    addq %rax, %r9
-; X64-NEXT:    adcq %rdx, %rsi
-; X64-NEXT:    sarq $63, %r12
-; X64-NEXT:    movq %r12, %rax
-; X64-NEXT:    mulq {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Folded Reload
+; X64-NEXT:    movq %rdi, %rcx
+; X64-NEXT:    mulq %r15
 ; X64-NEXT:    movq %rdx, %rdi
-; X64-NEXT:    movq %rax, %rcx
-; X64-NEXT:    movq %rax, %r14
-; X64-NEXT:    addq %rdx, %r14
-; X64-NEXT:    adcq $0, %rdi
+; X64-NEXT:    movq %rax, %rsi
 ; X64-NEXT:    movq %r12, %rax
-; X64-NEXT:    mulq {{[-0-9]+}}(%r{{[sb]}}p) ## 8-byte Folded Reload
+; X64-NEXT:    mulq %r15
+; X64-NEXT:    movq %rdx, %r9
+; X64-NEXT:    movq %rax, %r15
+; X64-NEXT:    addq %rdi, %r15
+; X64-NEXT:    adcq $0, %r9
+; X64-NEXT:    movq %rcx, %rax
+; X64-NEXT:    mulq %rbx
 ; X64-NEXT:    movq %rdx, %r8
-; X64-NEXT:    movq %rax, %r10
-; X64-NEXT:    addq %rax, %r14
-; X64-NEXT:    adcq %rdx, %rdi
-; X64-NEXT:    setb %bl
-; X64-NEXT:    imulq %r12, %rbp
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax ## 8-byte Reload
-; X64-NEXT:    mulq %r12
-; X64-NEXT:    addq %rax, %rdx
-; X64-NEXT:    addq %rbp, %rdx
-; X64-NEXT:    addq %rcx, %rax
-; X64-NEXT:    adcq %r14, %rdx
-; X64-NEXT:    addq %r10, %rdi
-; X64-NEXT:    movzbl %bl, %r10d
-; X64-NEXT:    adcq %r8, %r10
-; X64-NEXT:    addq %rax, %rdi
-; X64-NEXT:    adcq %rdx, %r10
-; X64-NEXT:    addq {{[-0-9]+}}(%r{{[sb]}}p), %rcx ## 8-byte Folded Reload
-; X64-NEXT:    adcq %r11, %r14
-; X64-NEXT:    adcq %r9, %rdi
-; X64-NEXT:    adcq %rsi, %r10
-; X64-NEXT:    addq {{[-0-9]+}}(%r{{[sb]}}p), %rcx ## 8-byte Folded Reload
-; X64-NEXT:    adcq {{[-0-9]+}}(%r{{[sb]}}p), %r14 ## 8-byte Folded Reload
-; X64-NEXT:    adcq %r15, %rdi
-; X64-NEXT:    adcq %r13, %r10
-; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rdx ## 8-byte Reload
-; X64-NEXT:    movq %rdx, %rax
-; X64-NEXT:    sarq $63, %rax
-; X64-NEXT:    xorq %rax, %r10
-; X64-NEXT:    xorq %rax, %r14
-; X64-NEXT:    orq %r10, %r14
-; X64-NEXT:    xorq %rax, %rdi
+; X64-NEXT:    movq %rax, %rdi
+; X64-NEXT:    addq %r15, %rdi
+; X64-NEXT:    adcq %r9, %r8
+; X64-NEXT:    setb %cl
+; X64-NEXT:    movq %r12, %rax
+; X64-NEXT:    mulq %rbx
+; X64-NEXT:    addq %r8, %rax
+; X64-NEXT:    movzbl %cl, %ecx
+; X64-NEXT:    adcq %rcx, %rdx
+; X64-NEXT:    addq %r14, %rax
+; X64-NEXT:    adcq %r10, %rdx
+; X64-NEXT:    addq %r13, %rsi
+; X64-NEXT:    adcq %r11, %rdi
+; X64-NEXT:    adcq {{[-0-9]+}}(%r{{[sb]}}p), %rax ## 8-byte Folded Reload
+; X64-NEXT:    adcq %rbp, %rdx
+; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %r8 ## 8-byte Reload
+; X64-NEXT:    movq %r8, %rcx
+; X64-NEXT:    sarq $63, %rcx
 ; X64-NEXT:    xorq %rcx, %rax
-; X64-NEXT:    orq %rdi, %rax
-; X64-NEXT:    orq %r14, %rax
+; X64-NEXT:    xorq %rcx, %rsi
+; X64-NEXT:    orq %rax, %rsi
+; X64-NEXT:    xorq %rcx, %rdx
+; X64-NEXT:    xorq %rdi, %rcx
+; X64-NEXT:    orq %rdx, %rcx
+; X64-NEXT:    orq %rsi, %rcx
 ; X64-NEXT:    movq {{[0-9]+}}(%rsp), %rax
-; X64-NEXT:    movq %rdx, 24(%rax)
+; X64-NEXT:    movq %r8, 24(%rax)
 ; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rcx ## 8-byte Reload
 ; X64-NEXT:    movq %rcx, (%rax)
 ; X64-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rcx ## 8-byte Reload
@@ -576,193 +523,273 @@ define zeroext i1 @smuloi256(i256 %v1, i256 %v2, ptr %res) {
 ; X86-NEXT:    .cfi_def_cfa_offset 16
 ; X86-NEXT:    pushl %esi
 ; X86-NEXT:    .cfi_def_cfa_offset 20
-; X86-NEXT:    subl $156, %esp
-; X86-NEXT:    .cfi_def_cfa_offset 176
+; X86-NEXT:    subl $128, %esp
+; X86-NEXT:    .cfi_def_cfa_offset 148
 ; X86-NEXT:    .cfi_offset %esi, -20
 ; X86-NEXT:    .cfi_offset %edi, -16
 ; X86-NEXT:    .cfi_offset %ebx, -12
 ; X86-NEXT:    .cfi_offset %ebp, -8
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    mull %ebx
-; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    mull %esi
+; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull %ebx
-; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %esi, %ebx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    mull %ebp
+; X86-NEXT:    mull %esi
 ; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    movl %eax, (%esp) ## 4-byte Spill
-; X86-NEXT:    adcl %ecx, %esi
+; X86-NEXT:    movl %eax, %ecx
+; X86-NEXT:    addl %edi, %ecx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; X86-NEXT:    adcl $0, %esi
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    addl %ecx, %ebp
+; X86-NEXT:    adcl %esi, %ebx
 ; X86-NEXT:    setb %cl
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    mull %edi
+; X86-NEXT:    addl %ebx, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movzbl %cl, %eax
 ; X86-NEXT:    adcl %eax, %edx
 ; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    mull %esi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    addl %ebx, %esi
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    movl %ebp, %edi
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %edx, %ebp
-; X86-NEXT:    addl %esi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %ecx, %ebp
-; X86-NEXT:    setb %bl
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %edi
+; X86-NEXT:    mull %esi
+; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    movl %eax, %edi
+; X86-NEXT:    addl %ecx, %edi
+; X86-NEXT:    adcl $0, %esi
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    mull %ebx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    addl %ebp, %esi
-; X86-NEXT:    movzbl %bl, %eax
-; X86-NEXT:    adcl %eax, %ecx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
-; X86-NEXT:    adcl (%esp), %ecx ## 4-byte Folded Reload
+; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %esi, %ecx
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    movl %esi, %eax
+; X86-NEXT:    mull %ebx
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %ecx, %ebx
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
+; X86-NEXT:    adcl %eax, %edx
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
+; X86-NEXT:    adcl %ebp, %edx
+; X86-NEXT:    movl %edx, (%esp) ## 4-byte Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %esi, %eax
+; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %edi, %esi
+; X86-NEXT:    adcl $0, %ecx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edi, %ebp
+; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %ecx, %edi
+; X86-NEXT:    setb %cl
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    mull %ebp
+; X86-NEXT:    movl %ebp, %esi
+; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    addl %edi, %ebp
+; X86-NEXT:    movzbl %cl, %eax
+; X86-NEXT:    adcl %eax, %edx
+; X86-NEXT:    addl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl (%esp), %eax ## 4-byte Reload
+; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl $0, %ebp
+; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    movl %edx, (%esp) ## 4-byte Spill
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
 ; X86-NEXT:    mull %edi
-; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %edx, %ecx
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %edi
 ; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %ebx, %ebp
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %ecx, %ebx
 ; X86-NEXT:    adcl $0, %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    addl %ebp, %eax
-; X86-NEXT:    movl %eax, (%esp) ## 4-byte Spill
-; X86-NEXT:    adcl %edi, %ebx
+; X86-NEXT:    mull %esi
+; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %ebx, %esi
+; X86-NEXT:    adcl %edi, %ecx
 ; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; X86-NEXT:    movl %edi, %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ebp
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %ebx, %edi
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %ecx, %ebx
 ; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %ebp
-; X86-NEXT:    addl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl %ecx, (%esp) ## 4-byte Folded Spill
-; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
+; X86-NEXT:    adcl %eax, %edx
+; X86-NEXT:    addl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl (%esp), %esi ## 4-byte Folded Reload
+; X86-NEXT:    movl %esi, (%esp) ## 4-byte Spill
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
+; X86-NEXT:    adcl %eax, %ebx
+; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %edi, %ebp
+; X86-NEXT:    sarl $31, %ebp
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    mull %ebp
+; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    movl %eax, %ecx
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
+; X86-NEXT:    mull %ebp
+; X86-NEXT:    movl %ebp, %esi
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    addl %ecx, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %edi, %edx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %esi, %ebx
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
-; X86-NEXT:    mull %edx
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    adcl %ecx, %esi
-; X86-NEXT:    setb %cl
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
+; X86-NEXT:    movl %esi, %eax
+; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    imull {{[0-9]+}}(%esp), %esi
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    addl %esi, %eax
-; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    movzbl %cl, %eax
-; X86-NEXT:    adcl %eax, %edx
+; X86-NEXT:    addl %esi, %edx
+; X86-NEXT:    addl %eax, %edx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Reload
+; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Reload
+; X86-NEXT:    adcl %esi, %edx
+; X86-NEXT:    addl %ebp, %ecx
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 1-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    addl %eax, %ecx
+; X86-NEXT:    adcl %edx, %ebp
 ; X86-NEXT:    addl %edi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl %ebp, %ebx
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %esi
+; X86-NEXT:    adcl (%esp), %esi ## 4-byte Folded Reload
 ; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    mull %ecx
+; X86-NEXT:    adcl %ebx, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    mull %esi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %esi, %ebx
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %edi, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    mull %esi
+; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %ecx, %esi
+; X86-NEXT:    adcl $0, %edi
+; X86-NEXT:    movl %ebx, %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
 ; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %ebx, %edi
-; X86-NEXT:    adcl %ecx, %esi
+; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %edi, %ebx
 ; X86-NEXT:    setb %cl
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ebp
-; X86-NEXT:    addl %esi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    addl %ebx, %eax
+; X86-NEXT:    movl %eax, (%esp) ## 4-byte Spill
 ; X86-NEXT:    movzbl %cl, %eax
 ; X86-NEXT:    adcl %eax, %edx
 ; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
+; X86-NEXT:    movl %ecx, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %edx, %esi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
 ; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %eax, %edi
+; X86-NEXT:    addl %esi, %edi
+; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    movl %ecx, %eax
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %ebx, %esi
+; X86-NEXT:    setb %cl
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %esi, %ebx
+; X86-NEXT:    movzbl %cl, %eax
+; X86-NEXT:    adcl %eax, %ebp
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    adcl $0, (%esp) ## 4-byte Folded Spill
+; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
 ; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %edx, %ebx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
 ; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    addl %ebx, %esi
+; X86-NEXT:    addl %edi, %esi
 ; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-NEXT:    mull %edx
+; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    addl %esi, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %ecx, %ebp
-; X86-NEXT:    setb %bl
+; X86-NEXT:    adcl %ecx, %edi
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
 ; X86-NEXT:    movl %edx, %ecx
 ; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    addl %ebp, %esi
-; X86-NEXT:    movzbl %bl, %eax
+; X86-NEXT:    addl %edi, %esi
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
 ; X86-NEXT:    adcl %eax, %ecx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
-; X86-NEXT:    adcl %edi, %ecx
-; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    addl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl $0, %esi
+; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    addl (%esp), %esi ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
+; X86-NEXT:    setb (%esp) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
 ; X86-NEXT:    mull %edi
@@ -775,238 +802,261 @@ define zeroext i1 @smuloi256(i256 %v1, i256 %v2, ptr %res) {
 ; X86-NEXT:    addl %ebx, %ebp
 ; X86-NEXT:    adcl $0, %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
-; X86-NEXT:    mull %edx
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
 ; X86-NEXT:    movl %edx, %ebx
 ; X86-NEXT:    addl %ebp, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %eax, %ebp
 ; X86-NEXT:    adcl %edi, %ebx
 ; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    addl %ebx, %eax
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 1-byte Folded Reload
 ; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %ebx, %ebp
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %edi
-; X86-NEXT:    addl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl $0, %ebp
+; X86-NEXT:    adcl %ebx, %edi
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
+; X86-NEXT:    addl %esi, %edx
+; X86-NEXT:    movl %ebp, %esi
+; X86-NEXT:    adcl %ecx, %esi
+; X86-NEXT:    movzbl (%esp), %ecx ## 1-byte Folded Reload
+; X86-NEXT:    adcl %ecx, %eax
 ; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
+; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %esi, %ebx
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
-; X86-NEXT:    mull %edx
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    adcl %ecx, %esi
-; X86-NEXT:    setb %cl
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    addl %esi, %eax
-; X86-NEXT:    movzbl %cl, %ecx
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    adcl %ecx, %esi
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
-; X86-NEXT:    addl %ebp, %ecx
-; X86-NEXT:    movl %ebx, %edx
-; X86-NEXT:    adcl %edi, %edx
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 1-byte Folded Reload
-; X86-NEXT:    adcl %edi, %eax
-; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl (%esp), %esi ## 4-byte Folded Reload
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
+; X86-NEXT:    adcl $0, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    sarl $31, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
-; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; X86-NEXT:    movl %ebp, %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %esi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebx, %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
 ; X86-NEXT:    movl %eax, %edi
 ; X86-NEXT:    addl %esi, %edi
 ; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; X86-NEXT:    movl %ebx, %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    addl %edi, %esi
-; X86-NEXT:    adcl %ecx, %ebx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    mull %esi
+; X86-NEXT:    movl %esi, %ebp
+; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movl %eax, (%esp) ## 4-byte Spill
+; X86-NEXT:    adcl %ecx, %esi
 ; X86-NEXT:    setb %cl
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    movl %ebx, %eax
 ; X86-NEXT:    mull %ebp
-; X86-NEXT:    addl %ebx, %eax
+; X86-NEXT:    addl %esi, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movzbl %cl, %eax
 ; X86-NEXT:    adcl %eax, %edx
-; X86-NEXT:    movl %edx, (%esp) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebx, %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
 ; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %ebx, %edi
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %edi, %esi
 ; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
-; X86-NEXT:    mull %ebx
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    movl %ebp, %edi
+; X86-NEXT:    mull %ebp
 ; X86-NEXT:    movl %edx, %ebp
-; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    addl %esi, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    adcl %ecx, %ebp
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
+; X86-NEXT:    setb %bl
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebx
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    movl %eax, %ecx
-; X86-NEXT:    addl %ebp, %ecx
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %ebx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    adcl %esi, %ebx
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %ebp, %esi
+; X86-NEXT:    movzbl %bl, %eax
+; X86-NEXT:    adcl %eax, %ecx
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
+; X86-NEXT:    adcl (%esp), %ecx ## 4-byte Folded Reload
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl $0, (%esp) ## 4-byte Folded Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %esi
+; X86-NEXT:    mull %ebx
 ; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %esi
-; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    mull %ebx
+; X86-NEXT:    movl %edx, %ebx
 ; X86-NEXT:    movl %eax, %ebp
 ; X86-NEXT:    addl %edi, %ebp
-; X86-NEXT:    adcl $0, %esi
+; X86-NEXT:    adcl $0, %ebx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
 ; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    addl %ebp, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %esi, %edi
+; X86-NEXT:    movl %eax, (%esp) ## 4-byte Spill
+; X86-NEXT:    adcl %ebx, %edi
 ; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %edi, %ebp
+; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %edi, %ebx
 ; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %esi
-; X86-NEXT:    addl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl %eax, %ebp
+; X86-NEXT:    addl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl %ecx, (%esp) ## 4-byte Folded Spill
+; X86-NEXT:    adcl $0, %ebx
 ; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
-; X86-NEXT:    adcl (%esp), %esi ## 4-byte Folded Reload
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
 ; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    mull %esi
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %edi, %ebx
-; X86-NEXT:    adcl $0, %ecx
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
-; X86-NEXT:    mull %edx
-; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    movl %eax, (%esp) ## 4-byte Spill
-; X86-NEXT:    adcl %ecx, %edi
-; X86-NEXT:    setb %bl
+; X86-NEXT:    mull %esi
+; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    movl %eax, %edi
+; X86-NEXT:    addl %ecx, %edi
+; X86-NEXT:    adcl $0, %esi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movl %eax, %edi
+; X86-NEXT:    adcl %esi, %ecx
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    mull %esi
+; X86-NEXT:    addl %ecx, %eax
 ; X86-NEXT:    movl %eax, %ecx
-; X86-NEXT:    addl %edi, %ecx
-; X86-NEXT:    movzbl %bl, %eax
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
 ; X86-NEXT:    adcl %eax, %edx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Reload
-; X86-NEXT:    addl %ebp, %ebx
-; X86-NEXT:    movl (%esp), %edi ## 4-byte Reload
-; X86-NEXT:    adcl %esi, %edi
+; X86-NEXT:    addl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl %ebp, %edi
+; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
 ; X86-NEXT:    adcl %eax, %ecx
+; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %esi, %ebp
+; X86-NEXT:    sarl $31, %ebp
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    movl %eax, %edi
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    addl %edx, %edi
+; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    movl %edx, %ecx
+; X86-NEXT:    movl %ebp, %eax
+; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %eax, %edi
+; X86-NEXT:    adcl %edx, %ecx
+; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-NEXT:    imull %ebp, %esi
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    mull %ebp
+; X86-NEXT:    addl %eax, %edx
+; X86-NEXT:    addl %esi, %edx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Reload
+; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    adcl %edi, %edx
+; X86-NEXT:    addl %ebx, %ecx
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 1-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    addl %eax, %ecx
+; X86-NEXT:    adcl %edx, %ebp
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    addl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
+; X86-NEXT:    addl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
+; X86-NEXT:    adcl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
+; X86-NEXT:    adcl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
+; X86-NEXT:    adcl %edx, (%esp) ## 4-byte Folded Spill
 ; X86-NEXT:    adcl $0, %eax
 ; X86-NEXT:    adcl $0, %edi
 ; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    adcl $0, %edx
+; X86-NEXT:    adcl $0, %ebp
+; X86-NEXT:    movl %ebp, %edx
+; X86-NEXT:    sarl $31, %edx
 ; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
-; X86-NEXT:    movl %edi, (%esp) ## 4-byte Spill
+; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
 ; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
+; X86-NEXT:    movl %ecx, %eax
+; X86-NEXT:    adcl %edx, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %ecx, %eax
+; X86-NEXT:    adcl %edx, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %ecx, %eax
+; X86-NEXT:    adcl %edx, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    adcl %ecx, %edx
 ; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
 ; X86-NEXT:    movl %ebp, %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
 ; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %ebx, %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %esi, %edi
+; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    addl %edi, %esi
 ; X86-NEXT:    adcl $0, %ecx
 ; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    addl %edi, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    addl %esi, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %ecx, %esi
+; X86-NEXT:    adcl %ecx, %ebp
 ; X86-NEXT:    setb %cl
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    addl %esi, %eax
+; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    mull %edi
+; X86-NEXT:    addl %ebp, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movzbl %cl, %eax
 ; X86-NEXT:    adcl %eax, %edx
@@ -1024,6 +1074,7 @@ define zeroext i1 @smuloi256(i256 %v1, i256 %v2, ptr %res) {
 ; X86-NEXT:    addl %edi, %esi
 ; X86-NEXT:    adcl $0, %ecx
 ; X86-NEXT:    movl %ebx, %eax
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
 ; X86-NEXT:    mull %ebp
 ; X86-NEXT:    movl %edx, %edi
 ; X86-NEXT:    addl %esi, %eax
@@ -1033,46 +1084,46 @@ define zeroext i1 @smuloi256(i256 %v1, i256 %v2, ptr %res) {
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ebp
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    addl %edi, %esi
+; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    addl %edi, %ebp
 ; X86-NEXT:    movzbl %bl, %eax
 ; X86-NEXT:    adcl %eax, %ecx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
 ; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edi
 ; X86-NEXT:    mull %edi
-; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    movl %edx, %esi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %edi
 ; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    addl %ebx, %ebp
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %esi, %ebx
 ; X86-NEXT:    adcl $0, %edi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 ; X86-NEXT:    mull %edx
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    addl %ebp, %eax
+; X86-NEXT:    movl %edx, %esi
+; X86-NEXT:    addl %ebx, %eax
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %edi, %ebx
+; X86-NEXT:    adcl %edi, %esi
 ; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ebp
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    addl %ebx, %edi
+; X86-NEXT:    movl %edx, %edi
+; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %esi, %ebx
 ; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %ebp
-; X86-NEXT:    addl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl %eax, %edi
+; X86-NEXT:    addl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
 ; X86-NEXT:    adcl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl $0, %ebx
 ; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
 ; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
@@ -1082,15 +1133,15 @@ define zeroext i1 @smuloi256(i256 %v1, i256 %v2, ptr %res) {
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    mull %ecx
 ; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %esi, %ebx
+; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    addl %esi, %ebp
 ; X86-NEXT:    adcl $0, %ecx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %edx
 ; X86-NEXT:    mull %edx
 ; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    movl %eax, %ebx
+; X86-NEXT:    addl %ebp, %eax
+; X86-NEXT:    movl %eax, %ebp
 ; X86-NEXT:    adcl %ecx, %esi
 ; X86-NEXT:    setb %cl
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
@@ -1099,349 +1150,121 @@ define zeroext i1 @smuloi256(i256 %v1, i256 %v2, ptr %res) {
 ; X86-NEXT:    movl %eax, %esi
 ; X86-NEXT:    movzbl %cl, %eax
 ; X86-NEXT:    adcl %eax, %edx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
-; X86-NEXT:    addl %edi, %ecx
-; X86-NEXT:    adcl %ebp, %ebx
+; X86-NEXT:    addl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
+; X86-NEXT:    adcl %edi, %ebp
+; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
 ; X86-NEXT:    adcl %eax, %esi
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    addl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movl (%esp), %eax ## 4-byte Reload
-; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    adcl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
-; X86-NEXT:    adcl %eax, %ecx
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl $0, %ebx
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl $0, %esi
 ; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    adcl $0, %edx
 ; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %esi
-; X86-NEXT:    sarl $31, %esi
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %esi
-; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    movl %eax, (%esp) ## 4-byte Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Reload
+; X86-NEXT:    mull %edi
+; X86-NEXT:    movl %edx, %ebp
+; X86-NEXT:    movl %eax, %ecx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %esi
-; X86-NEXT:    movl %eax, %ebp
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %ecx, %eax
+; X86-NEXT:    mull %edi
 ; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    adcl $0, %ebx
-; X86-NEXT:    addl %edi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %ecx, %ebx
-; X86-NEXT:    setb %al
-; X86-NEXT:    addl %ebp, %ebx
-; X86-NEXT:    movzbl %al, %eax
-; X86-NEXT:    adcl %edx, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl %esi, %ecx
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    mull %esi
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ecx
-; X86-NEXT:    movl %eax, %ecx
-; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl %eax, %esi
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %esi, %eax
+; X86-NEXT:    addl %ebp, %esi
+; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    addl %ecx, %esi
 ; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %esi, %ecx
-; X86-NEXT:    movl %edx, %edi
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
 ; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %eax, %edi
-; X86-NEXT:    setb %al
-; X86-NEXT:    addl %ebp, %edi
-; X86-NEXT:    movzbl %al, %edx
-; X86-NEXT:    adcl %esi, %edx
-; X86-NEXT:    movl (%esp), %ecx ## 4-byte Reload
-; X86-NEXT:    addl %edi, %ecx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    adcl %edx, %eax
-; X86-NEXT:    movl %ebx, %ebp
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Reload
-; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl $0, %edi
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    addl %ebp, %edi
-; X86-NEXT:    adcl %esi, %edx
-; X86-NEXT:    setb %al
-; X86-NEXT:    addl (%esp), %edi ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movzbl %al, %eax
-; X86-NEXT:    adcl %ebx, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl $0, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ebp
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    addl %edx, %ebx
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    movl %ecx, %esi
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %eax, %ebx
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %edx, %ebp
+; X86-NEXT:    adcl %ebp, %ebx
 ; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-NEXT:    imull %esi, %ecx
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %esi
+; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; X86-NEXT:    imull %edi, %ebp
+; X86-NEXT:    movl %edi, %eax
+; X86-NEXT:    mull {{[0-9]+}}(%esp)
+; X86-NEXT:    addl %ebp, %edx
 ; X86-NEXT:    addl %eax, %edx
-; X86-NEXT:    addl %ecx, %edx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    adcl %ebx, %edx
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
+; X86-NEXT:    addl %ecx, %eax
+; X86-NEXT:    adcl %esi, %edx
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
 ; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 1-byte Folded Reload
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    addl %eax, %ebp
+; X86-NEXT:    addl %eax, %ebx
 ; X86-NEXT:    adcl %edx, %ecx
 ; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Reload
-; X86-NEXT:    movl %esi, %edx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    addl %eax, %edx
-; X86-NEXT:    adcl $0, %eax
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    movl %eax, %edx
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
-; X86-NEXT:    movl (%esp), %ecx ## 4-byte Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    addl %ecx, %eax
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    addl %esi, %ecx
-; X86-NEXT:    movl %ecx, %esi
-; X86-NEXT:    adcl %ebx, %eax
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 1-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    addl %esi, %edx
-; X86-NEXT:    adcl %eax, %ecx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
-; X86-NEXT:    adcl %ebp, %edx
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    addl %edi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    sarl $31, %eax
-; X86-NEXT:    movl %eax, %esi
+; X86-NEXT:    movl %esi, %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %eax, %ecx
+; X86-NEXT:    movl %edx, %ecx
 ; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %edx, %ebx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %edx, %ecx
-; X86-NEXT:    adcl $0, %ebx
+; X86-NEXT:    movl %eax, %ebp
+; X86-NEXT:    addl %edx, %ebp
+; X86-NEXT:    adcl $0, %ecx
 ; X86-NEXT:    movl %esi, %eax
 ; X86-NEXT:    mull {{[0-9]+}}(%esp)
 ; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %eax, %ecx
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %edx, %ebx
-; X86-NEXT:    setb (%esp) ## 1-byte Folded Spill
-; X86-NEXT:    addl %eax, %ebx
-; X86-NEXT:    movzbl (%esp), %ebp ## 1-byte Folded Reload
-; X86-NEXT:    adcl %edx, %ebp
-; X86-NEXT:    movl %edi, %eax
-; X86-NEXT:    addl %ebx, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    adcl %ebp, %eax
-; X86-NEXT:    movl %eax, (%esp) ## 4-byte Spill
-; X86-NEXT:    adcl $0, %ebx
-; X86-NEXT:    adcl $0, %ebp
-; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %esi, %eax
-; X86-NEXT:    movl %esi, %ecx
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %edx, %ebp
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %edx, %edi
-; X86-NEXT:    movl %edx, %esi
-; X86-NEXT:    adcl $0, %esi
-; X86-NEXT:    movl %ecx, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %eax, %edi
-; X86-NEXT:    adcl %edx, %esi
-; X86-NEXT:    setb %cl
-; X86-NEXT:    addl %eax, %esi
-; X86-NEXT:    movzbl %cl, %eax
-; X86-NEXT:    adcl %edx, %eax
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
-; X86-NEXT:    addl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Folded Spill
-; X86-NEXT:    adcl %edi, (%esp) ## 4-byte Folded Spill
-; X86-NEXT:    movl %esi, %ecx
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %eax, %edx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    adcl $0, %eax
-; X86-NEXT:    addl %ebx, %ecx
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    movl %eax, %ebx
-; X86-NEXT:    setb %al
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    movl %ecx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %edi, %ebx
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movzbl %al, %eax
-; X86-NEXT:    adcl %esi, %eax
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl $0, %edx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Reload
-; X86-NEXT:    movl %esi, %edi
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    addl %eax, %edi
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
-; X86-NEXT:    movl %ecx, %ebx
-; X86-NEXT:    adcl $0, %ebx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
-; X86-NEXT:    addl %edx, %edi
-; X86-NEXT:    movl %edi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %eax, %ebx
+; X86-NEXT:    addl %eax, %ebp
+; X86-NEXT:    adcl %edx, %ecx
 ; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    addl %eax, %ebp
-; X86-NEXT:    addl %edx, %eax
-; X86-NEXT:    adcl %edi, %ebp
-; X86-NEXT:    addl %esi, %ebx
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 1-byte Folded Reload
-; X86-NEXT:    adcl %ecx, %edx
-; X86-NEXT:    addl %eax, %ebx
-; X86-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl %ebp, %edx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    imull %esi, %eax
+; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Reload
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %edx, %ebx
+; X86-NEXT:    mull %esi
 ; X86-NEXT:    movl %eax, %esi
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    mull %ebp
-; X86-NEXT:    movl %edx, %ecx
-; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl %eax, %edi
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    addl %ebx, %edi
-; X86-NEXT:    adcl $0, %ecx
-; X86-NEXT:    addl %esi, %edi
-; X86-NEXT:    adcl %ebx, %ecx
-; X86-NEXT:    setb {{[-0-9]+}}(%e{{[sb]}}p) ## 1-byte Folded Spill
-; X86-NEXT:    movl {{[0-9]+}}(%esp), %ebx
-; X86-NEXT:    imull %ebp, %ebx
-; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    mull {{[0-9]+}}(%esp)
-; X86-NEXT:    addl %ebx, %edx
 ; X86-NEXT:    addl %eax, %edx
-; X86-NEXT:    addl %esi, %eax
-; X86-NEXT:    adcl %edi, %edx
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    addl %edi, %esi
+; X86-NEXT:    adcl %ebp, %edx
 ; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 1-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
-; X86-NEXT:    addl %eax, %ecx
-; X86-NEXT:    adcl %edx, %ebx
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Reload
-; X86-NEXT:    addl %eax, %esi
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Reload
+; X86-NEXT:    movzbl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 1-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
+; X86-NEXT:    addl %esi, %ecx
+; X86-NEXT:    adcl %edx, %eax
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
-; X86-NEXT:    movl (%esp), %eax ## 4-byte Reload
+; X86-NEXT:    adcl %ebx, %ecx
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Reload
-; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
-; X86-NEXT:    movl %esi, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
-; X86-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    movl %eax, (%esp) ## 4-byte Spill
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %esi ## 4-byte Folded Reload
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Reload
+; X86-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) ## 4-byte Spill
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Folded Reload
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Folded Reload
 ; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Folded Reload
-; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %ebx ## 4-byte Folded Reload
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ebp ## 4-byte Reload
-; X86-NEXT:    movl %ebp, %eax
-; X86-NEXT:    sarl $31, %eax
-; X86-NEXT:    xorl %eax, %edx
-; X86-NEXT:    xorl %eax, %ecx
-; X86-NEXT:    orl %edx, %ecx
-; X86-NEXT:    xorl %eax, %esi
-; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Reload
-; X86-NEXT:    xorl %eax, %edx
-; X86-NEXT:    orl %esi, %edx
+; X86-NEXT:    adcl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
+; X86-NEXT:    movl (%esp), %esi ## 4-byte Reload
+; X86-NEXT:    movl %esi, %edx
+; X86-NEXT:    sarl $31, %edx
+; X86-NEXT:    xorl %edx, %edi
+; X86-NEXT:    xorl %edx, %ebx
+; X86-NEXT:    orl %edi, %ebx
+; X86-NEXT:    xorl %edx, %ecx
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %edi ## 4-byte Reload
+; X86-NEXT:    xorl %edx, %edi
+; X86-NEXT:    orl %ecx, %edi
+; X86-NEXT:    orl %ebx, %edi
+; X86-NEXT:    xorl %edx, %ebp
+; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
+; X86-NEXT:    xorl %edx, %ecx
+; X86-NEXT:    orl %ebp, %ecx
+; X86-NEXT:    xorl %edx, %eax
+; X86-NEXT:    xorl {{[-0-9]+}}(%e{{[sb]}}p), %edx ## 4-byte Folded Reload
+; X86-NEXT:    orl %eax, %edx
 ; X86-NEXT:    orl %ecx, %edx
-; X86-NEXT:    movl (%esp), %ecx ## 4-byte Reload
-; X86-NEXT:    xorl %eax, %ecx
-; X86-NEXT:    xorl %eax, %ebx
-; X86-NEXT:    orl %ecx, %ebx
-; X86-NEXT:    xorl %eax, %edi
-; X86-NEXT:    xorl {{[-0-9]+}}(%e{{[sb]}}p), %eax ## 4-byte Folded Reload
-; X86-NEXT:    orl %edi, %eax
-; X86-NEXT:    orl %ebx, %eax
-; X86-NEXT:    orl %edx, %eax
+; X86-NEXT:    orl %edi, %edx
 ; X86-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; X86-NEXT:    movl %ebp, 28(%eax)
+; X86-NEXT:    movl %esi, 28(%eax)
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
 ; X86-NEXT:    movl %ecx, (%eax)
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
@@ -1457,7 +1280,7 @@ define zeroext i1 @smuloi256(i256 %v1, i256 %v2, ptr %res) {
 ; X86-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx ## 4-byte Reload
 ; X86-NEXT:    movl %ecx, 24(%eax)
 ; X86-NEXT:    setne %al
-; X86-NEXT:    addl $156, %esp
+; X86-NEXT:    addl $128, %esp
 ; X86-NEXT:    popl %esi
 ; X86-NEXT:    popl %edi
 ; X86-NEXT:    popl %ebx
diff --git a/llvm/test/CodeGen/X86/tail-dup-pred-succ-size.mir b/llvm/test/CodeGen/X86/tail-dup-pred-succ-size.mir
index 1d17672e2c6bd..2f1ff76fda76c 100644
--- a/llvm/test/CodeGen/X86/tail-dup-pred-succ-size.mir
+++ b/llvm/test/CodeGen/X86/tail-dup-pred-succ-size.mir
@@ -538,43 +538,47 @@ body:             |
   ; LIMIT-NEXT:   JMP64m $noreg, 8, [[SUBREG_TO_REG]], %jump-table.0, $noreg
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT: bb.2:
-  ; LIMIT-NEXT:   successors: %bb.7(0x80000000)
+  ; LIMIT-NEXT:   successors: %bb.9(0x20000000), %bb.10(0x20000000), %bb.11(0x20000000), %bb.12(0x20000000)
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT:   [[MOV32rm:%[0-9]+]]:gr32 = MOV32rm [[COPY1]], 1, $noreg, 0, $noreg
-  ; LIMIT-NEXT:   JMP_1 %bb.7
+  ; LIMIT-NEXT:   [[SHR32ri1:%[0-9]+]]:gr32 = SHR32ri [[COPY]], 2, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[AND32ri1:%[0-9]+]]:gr32 = AND32ri [[SHR32ri1]], 7, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[SUBREG_TO_REG1:%[0-9]+]]:gr64_nosp = SUBREG_TO_REG 0, [[AND32ri1]], %subreg.sub_32bit
+  ; LIMIT-NEXT:   JMP64m $noreg, 8, [[SUBREG_TO_REG1]], %jump-table.1, $noreg
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT: bb.3:
-  ; LIMIT-NEXT:   successors: %bb.7(0x80000000)
+  ; LIMIT-NEXT:   successors: %bb.9(0x20000000), %bb.10(0x20000000), %bb.11(0x20000000), %bb.12(0x20000000)
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT:   [[MOV32rm1:%[0-9]+]]:gr32 = MOV32rm [[COPY1]], 1, $noreg, 0, $noreg
-  ; LIMIT-NEXT:   [[SHR32ri1:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm1]], 1, implicit-def dead $eflags
-  ; LIMIT-NEXT:   JMP_1 %bb.7
+  ; LIMIT-NEXT:   [[SHR32ri2:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm1]], 1, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[SHR32ri3:%[0-9]+]]:gr32 = SHR32ri [[COPY]], 2, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[AND32ri2:%[0-9]+]]:gr32 = AND32ri [[SHR32ri3]], 7, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[SUBREG_TO_REG2:%[0-9]+]]:gr64_nosp = SUBREG_TO_REG 0, [[AND32ri2]], %subreg.sub_32bit
+  ; LIMIT-NEXT:   JMP64m $noreg, 8, [[SUBREG_TO_REG2]], %jump-table.1, $noreg
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT: bb.4:
-  ; LIMIT-NEXT:   successors: %bb.7(0x80000000)
+  ; LIMIT-NEXT:   successors: %bb.9(0x20000000), %bb.10(0x20000000), %bb.11(0x20000000), %bb.12(0x20000000)
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT:   [[MOV32rm2:%[0-9]+]]:gr32 = MOV32rm [[COPY1]], 1, $noreg, 0, $noreg
-  ; LIMIT-NEXT:   [[SHR32ri2:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm2]], 2, implicit-def dead $eflags
-  ; LIMIT-NEXT:   JMP_1 %bb.7
+  ; LIMIT-NEXT:   [[SHR32ri4:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm2]], 2, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[SHR32ri5:%[0-9]+]]:gr32 = SHR32ri [[COPY]], 2, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[AND32ri3:%[0-9]+]]:gr32 = AND32ri [[SHR32ri5]], 7, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[SUBREG_TO_REG3:%[0-9]+]]:gr64_nosp = SUBREG_TO_REG 0, [[AND32ri3]], %subreg.sub_32bit
+  ; LIMIT-NEXT:   JMP64m $noreg, 8, [[SUBREG_TO_REG3]], %jump-table.1, $noreg
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT: bb.5:
-  ; LIMIT-NEXT:   successors: %bb.7(0x80000000)
+  ; LIMIT-NEXT:   successors: %bb.9(0x20000000), %bb.10(0x20000000), %bb.11(0x20000000), %bb.12(0x20000000)
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT:   [[MOV32rm3:%[0-9]+]]:gr32 = MOV32rm [[COPY1]], 1, $noreg, 0, $noreg
-  ; LIMIT-NEXT:   [[SHR32ri3:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm3]], 3, implicit-def dead $eflags
-  ; LIMIT-NEXT:   JMP_1 %bb.7
+  ; LIMIT-NEXT:   [[SHR32ri6:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm3]], 3, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[SHR32ri7:%[0-9]+]]:gr32 = SHR32ri [[COPY]], 2, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[AND32ri4:%[0-9]+]]:gr32 = AND32ri [[SHR32ri7]], 7, implicit-def dead $eflags
+  ; LIMIT-NEXT:   [[SUBREG_TO_REG4:%[0-9]+]]:gr64_nosp = SUBREG_TO_REG 0, [[AND32ri4]], %subreg.sub_32bit
+  ; LIMIT-NEXT:   JMP64m $noreg, 8, [[SUBREG_TO_REG4]], %jump-table.1, $noreg
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT: bb.6:
   ; LIMIT-NEXT:   successors:
   ; LIMIT-NEXT: {{  $}}
-  ; LIMIT-NEXT: bb.7:
-  ; LIMIT-NEXT:   successors: %bb.9(0x20000000), %bb.10(0x20000000), %bb.11(0x20000000), %bb.12(0x20000000)
-  ; LIMIT-NEXT: {{  $}}
-  ; LIMIT-NEXT:   [[SHR32ri4:%[0-9]+]]:gr32 = SHR32ri [[COPY]], 2, implicit-def dead $eflags
-  ; LIMIT-NEXT:   [[AND32ri1:%[0-9]+]]:gr32 = AND32ri [[SHR32ri4]], 7, implicit-def dead $eflags
-  ; LIMIT-NEXT:   [[SUBREG_TO_REG1:%[0-9]+]]:gr64_nosp = SUBREG_TO_REG 0, killed [[AND32ri1]], %subreg.sub_32bit
-  ; LIMIT-NEXT:   JMP64m $noreg, 8, [[SUBREG_TO_REG1]], %jump-table.1, $noreg
-  ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT: bb.9:
   ; LIMIT-NEXT:   [[MOV32rm4:%[0-9]+]]:gr32 = MOV32rm [[COPY1]], 1, $noreg, 0, $noreg
   ; LIMIT-NEXT:   MOV32mr [[COPY1]], 1, $noreg, 0, $noreg, [[MOV32rm4]] :: (store (s32))
@@ -583,23 +587,23 @@ body:             |
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT: bb.10:
   ; LIMIT-NEXT:   [[MOV32rm5:%[0-9]+]]:gr32 = MOV32rm [[COPY1]], 1, $noreg, 0, $noreg
-  ; LIMIT-NEXT:   [[SHR32ri5:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm5]], 1, implicit-def dead $eflags
-  ; LIMIT-NEXT:   MOV32mr [[COPY1]], 1, $noreg, 0, $noreg, [[SHR32ri5]] :: (store (s32))
-  ; LIMIT-NEXT:   $eax = COPY [[SHR32ri5]]
+  ; LIMIT-NEXT:   [[SHR32ri8:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm5]], 1, implicit-def dead $eflags
+  ; LIMIT-NEXT:   MOV32mr [[COPY1]], 1, $noreg, 0, $noreg, [[SHR32ri8]] :: (store (s32))
+  ; LIMIT-NEXT:   $eax = COPY [[SHR32ri8]]
   ; LIMIT-NEXT:   RET 0, $eax
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT: bb.11:
   ; LIMIT-NEXT:   [[MOV32rm6:%[0-9]+]]:gr32 = MOV32rm [[COPY1]], 1, $noreg, 0, $noreg
-  ; LIMIT-NEXT:   [[SHR32ri6:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm6]], 2, implicit-def dead $eflags
-  ; LIMIT-NEXT:   MOV32mr [[COPY1]], 1, $noreg, 0, $noreg, [[SHR32ri6]] :: (store (s32))
-  ; LIMIT-NEXT:   $eax = COPY [[SHR32ri6]]
+  ; LIMIT-NEXT:   [[SHR32ri9:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm6]], 2, implicit-def dead $eflags
+  ; LIMIT-NEXT:   MOV32mr [[COPY1]], 1, $noreg, 0, $noreg, [[SHR32ri9]] :: (store (s32))
+  ; LIMIT-NEXT:   $eax = COPY [[SHR32ri9]]
   ; LIMIT-NEXT:   RET 0, $eax
   ; LIMIT-NEXT: {{  $}}
   ; LIMIT-NEXT: bb.12:
   ; LIMIT-NEXT:   [[MOV32rm7:%[0-9]+]]:gr32 = MOV32rm [[COPY1]], 1, $noreg, 0, $noreg
-  ; LIMIT-NEXT:   [[SHR32ri7:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm7]], 6, implicit-def dead $eflags
-  ; LIMIT-NEXT:   MOV32mr [[COPY1]], 1, $noreg, 0, $noreg, [[SHR32ri7]] :: (store (s32))
-  ; LIMIT-NEXT:   $eax = COPY [[SHR32ri7]]
+  ; LIMIT-NEXT:   [[SHR32ri10:%[0-9]+]]:gr32 = SHR32ri [[MOV32rm7]], 6, implicit-def dead $eflags
+  ; LIMIT-NEXT:   MOV32mr [[COPY1]], 1, $noreg, 0, $noreg, [[SHR32ri10]] :: (store (s32))
+  ; LIMIT-NEXT:   $eax = COPY [[SHR32ri10]]
   ; LIMIT-NEXT:   RET 0, $eax
   ;
   ; NOLIMIT-LABEL: name: foo_no_phis
diff --git a/llvm/test/CodeGen/X86/uadd_sat_vec.ll b/llvm/test/CodeGen/X86/uadd_sat_vec.ll
index 50c73009314a9..1ff95c876a6b1 100644
--- a/llvm/test/CodeGen/X86/uadd_sat_vec.ll
+++ b/llvm/test/CodeGen/X86/uadd_sat_vec.ll
@@ -587,7 +587,7 @@ define <2 x i32> @v2i32(<2 x i32> %x, <2 x i32> %y) nounwind {
 ; AVX512F:       # %bb.0:
 ; AVX512F-NEXT:    # kill: def $xmm1 killed $xmm1 def $zmm1
 ; AVX512F-NEXT:    vmovdqa64 %zmm1, %zmm2
-; AVX512F-NEXT:    vpternlogq $15, %zmm1, %zmm1, %zmm2
+; AVX512F-NEXT:    vpternlogq {{.*#+}} zmm2 = ~zmm2
 ; AVX512F-NEXT:    vpminud %xmm2, %xmm0, %xmm0
 ; AVX512F-NEXT:    vpaddd %xmm1, %xmm0, %xmm0
 ; AVX512F-NEXT:    vzeroupper
@@ -596,7 +596,7 @@ define <2 x i32> @v2i32(<2 x i32> %x, <2 x i32> %y) nounwind {
 ; AVX512BW-LABEL: v2i32:
 ; AVX512BW:       # %bb.0:
 ; AVX512BW-NEXT:    vmovdqa %xmm1, %xmm2
-; AVX512BW-NEXT:    vpternlogq $15, %xmm1, %xmm1, %xmm2
+; AVX512BW-NEXT:    vpternlogq {{.*#+}} xmm2 = ~xmm2
 ; AVX512BW-NEXT:    vpminud %xmm2, %xmm0, %xmm0
 ; AVX512BW-NEXT:    vpaddd %xmm1, %xmm0, %xmm0
 ; AVX512BW-NEXT:    retq
@@ -655,7 +655,7 @@ define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
 ; AVX512F:       # %bb.0:
 ; AVX512F-NEXT:    # kill: def $xmm1 killed $xmm1 def $zmm1
 ; AVX512F-NEXT:    vmovdqa64 %zmm1, %zmm2
-; AVX512F-NEXT:    vpternlogq $15, %zmm1, %zmm1, %zmm2
+; AVX512F-NEXT:    vpternlogq {{.*#+}} zmm2 = ~zmm2
 ; AVX512F-NEXT:    vpminud %xmm2, %xmm0, %xmm0
 ; AVX512F-NEXT:    vpaddd %xmm1, %xmm0, %xmm0
 ; AVX512F-NEXT:    vzeroupper
@@ -664,7 +664,7 @@ define <4 x i32> @v4i32(<4 x i32> %x, <4 x i32> %y) nounwind {
 ; AVX512BW-LABEL: v4i32:
 ; AVX512BW:       # %bb.0:
 ; AVX512BW-NEXT:    vmovdqa %xmm1, %xmm2
-; AVX512BW-NEXT:    vpternlogq $15, %xmm1, %xmm1, %xmm2
+; AVX512BW-NEXT:    vpternlogq {{.*#+}} xmm2 = ~xmm2
 ; AVX512BW-NEXT:    vpminud %xmm2, %xmm0, %xmm0
 ; AVX512BW-NEXT:    vpaddd %xmm1, %xmm0, %xmm0
 ; AVX512BW-NEXT:    retq
@@ -747,7 +747,7 @@ define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {
 ; AVX512F:       # %bb.0:
 ; AVX512F-NEXT:    # kill: def $ymm1 killed $ymm1 def $zmm1
 ; AVX512F-NEXT:    vmovdqa64 %zmm1, %zmm2
-; AVX512F-NEXT:    vpternlogq $15, %zmm1, %zmm1, %zmm2
+; AVX512F-NEXT:    vpternlogq {{.*#+}} zmm2 = ~zmm2
 ; AVX512F-NEXT:    vpminud %ymm2, %ymm0, %ymm0
 ; AVX512F-NEXT:    vpaddd %ymm1, %ymm0, %ymm0
 ; AVX512F-NEXT:    retq
@@ -755,7 +755,7 @@ define <8 x i32> @v8i32(<8 x i32> %x, <8 x i32> %y) nounwind {
 ; AVX512BW-LABEL: v8i32:
 ; AVX512BW:       # %bb.0:
 ; AVX512BW-NEXT:    vmovdqa %ymm1, %ymm2
-; AVX512BW-NEXT:    vpternlogq $15, %ymm1, %ymm1, %ymm2
+; AVX512BW-NEXT:    vpternlogq {{.*#+}} ymm2 = ~ymm2
 ; AVX512BW-NEXT:    vpminud %ymm2, %ymm0, %ymm0
 ; AVX512BW-NEXT:    vpaddd %ymm1, %ymm0, %ymm0
 ; AVX512BW-NEXT:    retq
@@ -885,7 +885,7 @@ define <16 x i32> @v16i32(<16 x i32> %x, <16 x i32> %y) nounwind {
 ; AVX512-LABEL: v16i32:
 ; AVX512:       # %bb.0:
 ; AVX512-NEXT:    vmovdqa64 %zmm1, %zmm2
-; AVX512-NEXT:    vpternlogq $15, %zmm1, %zmm1, %zmm2
+; AVX512-NEXT:    vpternlogq {{.*#+}} zmm2 = ~zmm2
 ; AVX512-NEXT:    vpminud %zmm2, %zmm0, %zmm0
 ; AVX512-NEXT:    vpaddd %zmm1, %zmm0, %zmm0
 ; AVX512-NEXT:    retq
@@ -938,7 +938,7 @@ define <2 x i64> @v2i64(<2 x i64> %x, <2 x i64> %y) nounwind {
 ; AVX512F-NEXT:    # kill: def $xmm1 killed $xmm1 def $zmm1
 ; AVX512F-NEXT:    # kill: def $xmm0 killed $xmm0 def $zmm0
 ; AVX512F-NEXT:    vmovdqa64 %zmm1, %zmm2
-; AVX512F-NEXT:    vpternlogq $15, %zmm1, %zmm1, %zmm2
+; AVX512F-NEXT:    vpternlogq {{.*#+}} zmm2 = ~zmm2
 ; AVX512F-NEXT:    vpminuq %zmm2, %zmm0, %zmm0
 ; AVX512F-NEXT:    vpaddq %xmm1, %xmm0, %xmm0
 ; AVX512F-NEXT:    vzeroupper
@@ -947,7 +947,7 @@ define <2 x i64> @v2i64(<2 x i64> %x, <2 x i64> %y) nounwind {
 ; AVX512BW-LABEL: v2i64:
 ; AVX512BW:       # %bb.0:
 ; AVX512BW-NEXT:    vmovdqa %xmm1, %xmm2
-; AVX512BW-NEXT:    vpternlogq $15, %xmm1, %xmm1, %xmm2
+; AVX512BW-NEXT:    vpternlogq {{.*#+}} xmm2 = ~xmm2
 ; AVX512BW-NEXT:    vpminuq %xmm2, %xmm0, %xmm0
 ; AVX512BW-NEXT:    vpaddq %xmm1, %xmm0, %xmm0
 ; AVX512BW-NEXT:    retq
@@ -1022,7 +1022,7 @@ define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {
 ; AVX512F-NEXT:    # kill: def $ymm1 killed $ymm1 def $zmm1
 ; AVX512F-NEXT:    # kill: def $ymm0 killed $ymm0 def $zmm0
 ; AVX512F-NEXT:    vmovdqa64 %zmm1, %zmm2
-; AVX512F-NEXT:    vpternlogq $15, %zmm1, %zmm1, %zmm2
+; AVX512F-NEXT:    vpternlogq {{.*#+}} zmm2 = ~zmm2
 ; AVX512F-NEXT:    vpminuq %zmm2, %zmm0, %zmm0
 ; AVX512F-NEXT:    vpaddq %ymm1, %ymm0, %ymm0
 ; AVX512F-NEXT:    retq
@@ -1030,7 +1030,7 @@ define <4 x i64> @v4i64(<4 x i64> %x, <4 x i64> %y) nounwind {
 ; AVX512BW-LABEL: v4i64:
 ; AVX512BW:       # %bb.0:
 ; AVX512BW-NEXT:    vmovdqa %ymm1, %ymm2
-; AVX512BW-NEXT:    vpternlogq $15, %ymm1, %ymm1, %ymm2
+; AVX512BW-NEXT:    vpternlogq {{.*#+}} ymm2 = ~ymm2
 ; AVX512BW-NEXT:    vpminuq %ymm2, %ymm0, %ymm0
 ; AVX512BW-NEXT:    vpaddq %ymm1, %ymm0, %ymm0
 ; AVX512BW-NEXT:    retq
@@ -1149,7 +1149,7 @@ define <8 x i64> @v8i64(<8 x i64> %x, <8 x i64> %y) nounwind {
 ; AVX512-LABEL: v8i64:
 ; AVX512:       # %bb.0:
 ; AVX512-NEXT:    vmovdqa64 %zmm1, %zmm2
-; AVX512-NEXT:    vpternlogq $15, %zmm1, %zmm1, %zmm2
+; AVX512-NEXT:    vpternlogq {{.*#+}} zmm2 = ~zmm2
 ; AVX512-NEXT:    vpminuq %zmm2, %zmm0, %zmm0
 ; AVX512-NEXT:    vpaddq %zmm1, %zmm0, %zmm0
 ; AVX512-NEXT:    retq
diff --git a/llvm/test/CodeGen/X86/usub_sat_vec.ll b/llvm/test/CodeGen/X86/usub_sat_vec.ll
index 73e90fe77bca2..34eb30dfebeeb 100644
--- a/llvm/test/CodeGen/X86/usub_sat_vec.ll
+++ b/llvm/test/CodeGen/X86/usub_sat_vec.ll
@@ -543,7 +543,7 @@ define <16 x i1> @v16i1(<16 x i1> %x, <16 x i1> %y) nounwind {
 ;
 ; AVX512BW-LABEL: v16i1:
 ; AVX512BW:       # %bb.0:
-; AVX512BW-NEXT:    vpternlogd $96, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm1, %xmm0
+; AVX512BW-NEXT:    vpternlogd {{.*#+}} xmm0 = xmm0 & (xmm1 ^ mem)
 ; AVX512BW-NEXT:    retq
   %z = call <16 x i1> @llvm.usub.sat.v16i1(<16 x i1> %x, <16 x i1> %y)
   ret <16 x i1> %z
diff --git a/llvm/test/CodeGen/X86/vec_smulo.ll b/llvm/test/CodeGen/X86/vec_smulo.ll
index 49cb7c707a14f..a54ff67f74755 100644
--- a/llvm/test/CodeGen/X86/vec_smulo.ll
+++ b/llvm/test/CodeGen/X86/vec_smulo.ll
@@ -3291,124 +3291,98 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; SSE2-NEXT:    pushq %r13
 ; SSE2-NEXT:    pushq %r12
 ; SSE2-NEXT:    pushq %rbx
-; SSE2-NEXT:    movq %r8, %r15
-; SSE2-NEXT:    movq %rdx, %r8
+; SSE2-NEXT:    movq %r9, %r10
+; SSE2-NEXT:    movq %rcx, %rbx
+; SSE2-NEXT:    movq %rdx, %rcx
 ; SSE2-NEXT:    movq %rsi, %r11
-; SSE2-NEXT:    movq %rdi, %r10
-; SSE2-NEXT:    movq {{[0-9]+}}(%rsp), %rdi
-; SSE2-NEXT:    movq {{[0-9]+}}(%rsp), %rbp
-; SSE2-NEXT:    movq %rsi, %rdx
-; SSE2-NEXT:    sarq $63, %rdx
-; SSE2-NEXT:    movq %r9, %rbx
-; SSE2-NEXT:    imulq %rdx, %rbx
-; SSE2-NEXT:    movq %r15, %rax
-; SSE2-NEXT:    mulq %rdx
+; SSE2-NEXT:    movq {{[0-9]+}}(%rsp), %r15
+; SSE2-NEXT:    movq {{[0-9]+}}(%rsp), %r12
+; SSE2-NEXT:    movq {{[0-9]+}}(%rsp), %r13
+; SSE2-NEXT:    movq %rsi, %rbp
+; SSE2-NEXT:    sarq $63, %rbp
+; SSE2-NEXT:    imulq %r8, %rbp
+; SSE2-NEXT:    movq %rdi, %rax
+; SSE2-NEXT:    mulq %r8
 ; SSE2-NEXT:    movq %rdx, %rsi
-; SSE2-NEXT:    movq %rax, %r12
-; SSE2-NEXT:    addq %rax, %rsi
-; SSE2-NEXT:    addq %rbx, %rsi
-; SSE2-NEXT:    movq %r9, %rax
-; SSE2-NEXT:    sarq $63, %rax
-; SSE2-NEXT:    movq %rax, %r13
-; SSE2-NEXT:    imulq %r11, %r13
-; SSE2-NEXT:    mulq %r10
+; SSE2-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
+; SSE2-NEXT:    movq %r11, %rax
+; SSE2-NEXT:    mulq %r8
+; SSE2-NEXT:    movq %rdx, %r8
 ; SSE2-NEXT:    movq %rax, %r14
-; SSE2-NEXT:    movq %rdx, %rbx
-; SSE2-NEXT:    addq %r13, %rbx
-; SSE2-NEXT:    addq %rax, %rbx
-; SSE2-NEXT:    addq %r12, %r14
-; SSE2-NEXT:    adcq %rsi, %rbx
-; SSE2-NEXT:    movq %r10, %rax
-; SSE2-NEXT:    mulq %r15
-; SSE2-NEXT:    movq %rdx, %r12
+; SSE2-NEXT:    addq %rsi, %r14
+; SSE2-NEXT:    adcq %rbp, %r8
+; SSE2-NEXT:    movq %r8, %rbp
+; SSE2-NEXT:    sarq $63, %rbp
+; SSE2-NEXT:    sarq $63, %r9
+; SSE2-NEXT:    imulq %rdi, %r9
+; SSE2-NEXT:    movq %rdi, %rax
+; SSE2-NEXT:    mulq %r10
+; SSE2-NEXT:    movq %rdx, %rdi
 ; SSE2-NEXT:    movq %rax, %rsi
+; SSE2-NEXT:    addq %r14, %rsi
+; SSE2-NEXT:    adcq %r9, %rdi
+; SSE2-NEXT:    movq %rdi, %r9
+; SSE2-NEXT:    sarq $63, %r9
+; SSE2-NEXT:    addq %r8, %rdi
+; SSE2-NEXT:    adcq %rbp, %r9
 ; SSE2-NEXT:    movq %r11, %rax
-; SSE2-NEXT:    mulq %r15
-; SSE2-NEXT:    movq %rdx, %r15
-; SSE2-NEXT:    movq %rax, %r13
-; SSE2-NEXT:    addq %r12, %r13
-; SSE2-NEXT:    adcq $0, %r15
-; SSE2-NEXT:    movq %r10, %rax
-; SSE2-NEXT:    mulq %r9
-; SSE2-NEXT:    movq %rdx, %r12
-; SSE2-NEXT:    movq %rax, %r10
-; SSE2-NEXT:    addq %r13, %r10
-; SSE2-NEXT:    adcq %r15, %r12
-; SSE2-NEXT:    setb %al
-; SSE2-NEXT:    movzbl %al, %r15d
-; SSE2-NEXT:    movq %r11, %rax
-; SSE2-NEXT:    mulq %r9
-; SSE2-NEXT:    addq %r12, %rax
-; SSE2-NEXT:    adcq %r15, %rdx
-; SSE2-NEXT:    addq %r14, %rax
-; SSE2-NEXT:    adcq %rbx, %rdx
-; SSE2-NEXT:    movq {{[0-9]+}}(%rsp), %r12
-; SSE2-NEXT:    movq %r10, 8(%r12)
+; SSE2-NEXT:    imulq %r10
+; SSE2-NEXT:    addq %rdi, %rax
+; SSE2-NEXT:    adcq %r9, %rdx
+; SSE2-NEXT:    movq %rsi, 8(%r15)
+; SSE2-NEXT:    sarq $63, %rsi
+; SSE2-NEXT:    xorq %rsi, %rdx
+; SSE2-NEXT:    xorq %rax, %rsi
+; SSE2-NEXT:    xorl %r11d, %r11d
+; SSE2-NEXT:    orq %rdx, %rsi
+; SSE2-NEXT:    setne %r11b
+; SSE2-NEXT:    movq %rbx, %r10
 ; SSE2-NEXT:    sarq $63, %r10
-; SSE2-NEXT:    xorq %r10, %rdx
-; SSE2-NEXT:    xorq %rax, %r10
-; SSE2-NEXT:    xorl %r15d, %r15d
-; SSE2-NEXT:    orq %rdx, %r10
-; SSE2-NEXT:    setne %r15b
-; SSE2-NEXT:    movq %rcx, %rdx
-; SSE2-NEXT:    sarq $63, %rdx
-; SSE2-NEXT:    movq %rbp, %r10
-; SSE2-NEXT:    imulq %rdx, %r10
-; SSE2-NEXT:    movq %rdi, %rax
-; SSE2-NEXT:    mulq %rdx
-; SSE2-NEXT:    movq %rdx, %r9
-; SSE2-NEXT:    movq %rax, %rbx
-; SSE2-NEXT:    addq %rax, %r9
-; SSE2-NEXT:    addq %r10, %r9
-; SSE2-NEXT:    movq %rbp, %rax
-; SSE2-NEXT:    sarq $63, %rax
-; SSE2-NEXT:    movq %rax, %r14
-; SSE2-NEXT:    imulq %rcx, %r14
-; SSE2-NEXT:    mulq %r8
-; SSE2-NEXT:    movq %rax, %r11
-; SSE2-NEXT:    movq %rdx, %r10
-; SSE2-NEXT:    addq %r14, %r10
-; SSE2-NEXT:    addq %rax, %r10
-; SSE2-NEXT:    addq %rbx, %r11
-; SSE2-NEXT:    adcq %r9, %r10
-; SSE2-NEXT:    movq %r8, %rax
-; SSE2-NEXT:    mulq %rdi
-; SSE2-NEXT:    movq %rdx, %rbx
-; SSE2-NEXT:    movq %rax, %r9
+; SSE2-NEXT:    imulq %r13, %r10
 ; SSE2-NEXT:    movq %rcx, %rax
-; SSE2-NEXT:    mulq %rdi
+; SSE2-NEXT:    mulq %r13
 ; SSE2-NEXT:    movq %rdx, %rdi
-; SSE2-NEXT:    movq %rax, %r14
-; SSE2-NEXT:    addq %rbx, %r14
-; SSE2-NEXT:    adcq $0, %rdi
-; SSE2-NEXT:    movq %r8, %rax
-; SSE2-NEXT:    mulq %rbp
+; SSE2-NEXT:    movq %rax, %rsi
+; SSE2-NEXT:    movq %rbx, %rax
+; SSE2-NEXT:    mulq %r13
 ; SSE2-NEXT:    movq %rdx, %r8
-; SSE2-NEXT:    movq %rax, %rbx
-; SSE2-NEXT:    addq %r14, %rbx
-; SSE2-NEXT:    adcq %rdi, %r8
-; SSE2-NEXT:    setb %al
-; SSE2-NEXT:    movzbl %al, %edi
+; SSE2-NEXT:    movq %rax, %r9
+; SSE2-NEXT:    addq %rdi, %r9
+; SSE2-NEXT:    adcq %r10, %r8
+; SSE2-NEXT:    movq %r8, %r14
+; SSE2-NEXT:    sarq $63, %r14
+; SSE2-NEXT:    movq %r12, %r13
+; SSE2-NEXT:    sarq $63, %r13
+; SSE2-NEXT:    imulq %rcx, %r13
 ; SSE2-NEXT:    movq %rcx, %rax
-; SSE2-NEXT:    mulq %rbp
-; SSE2-NEXT:    addq %r8, %rax
-; SSE2-NEXT:    adcq %rdi, %rdx
-; SSE2-NEXT:    addq %r11, %rax
-; SSE2-NEXT:    adcq %r10, %rdx
-; SSE2-NEXT:    movq %rbx, 24(%r12)
-; SSE2-NEXT:    sarq $63, %rbx
-; SSE2-NEXT:    xorq %rbx, %rdx
-; SSE2-NEXT:    xorq %rax, %rbx
+; SSE2-NEXT:    mulq %r12
+; SSE2-NEXT:    movq %rdx, %rdi
+; SSE2-NEXT:    movq %rax, %r10
+; SSE2-NEXT:    addq %r9, %r10
+; SSE2-NEXT:    adcq %r13, %rdi
+; SSE2-NEXT:    movq %rdi, %rcx
+; SSE2-NEXT:    sarq $63, %rcx
+; SSE2-NEXT:    addq %r8, %rdi
+; SSE2-NEXT:    adcq %r14, %rcx
+; SSE2-NEXT:    movq %rbx, %rax
+; SSE2-NEXT:    imulq %r12
+; SSE2-NEXT:    addq %rdi, %rax
+; SSE2-NEXT:    adcq %rcx, %rdx
+; SSE2-NEXT:    movq %r10, 24(%r15)
+; SSE2-NEXT:    sarq $63, %r10
+; SSE2-NEXT:    xorq %r10, %rdx
+; SSE2-NEXT:    xorq %rax, %r10
 ; SSE2-NEXT:    xorl %eax, %eax
-; SSE2-NEXT:    orq %rdx, %rbx
+; SSE2-NEXT:    orq %rdx, %r10
 ; SSE2-NEXT:    setne %al
 ; SSE2-NEXT:    negl %eax
 ; SSE2-NEXT:    movd %eax, %xmm1
-; SSE2-NEXT:    negl %r15d
-; SSE2-NEXT:    movd %r15d, %xmm0
+; SSE2-NEXT:    negl %r11d
+; SSE2-NEXT:    movd %r11d, %xmm0
 ; SSE2-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-; SSE2-NEXT:    movq %r9, 16(%r12)
-; SSE2-NEXT:    movq %rsi, (%r12)
+; SSE2-NEXT:    movq %rsi, 16(%r15)
+; SSE2-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
+; SSE2-NEXT:    movq %rax, (%r15)
 ; SSE2-NEXT:    popq %rbx
 ; SSE2-NEXT:    popq %r12
 ; SSE2-NEXT:    popq %r13
@@ -3425,124 +3399,98 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; SSSE3-NEXT:    pushq %r13
 ; SSSE3-NEXT:    pushq %r12
 ; SSSE3-NEXT:    pushq %rbx
-; SSSE3-NEXT:    movq %r8, %r15
-; SSSE3-NEXT:    movq %rdx, %r8
+; SSSE3-NEXT:    movq %r9, %r10
+; SSSE3-NEXT:    movq %rcx, %rbx
+; SSSE3-NEXT:    movq %rdx, %rcx
 ; SSSE3-NEXT:    movq %rsi, %r11
-; SSSE3-NEXT:    movq %rdi, %r10
-; SSSE3-NEXT:    movq {{[0-9]+}}(%rsp), %rdi
-; SSSE3-NEXT:    movq {{[0-9]+}}(%rsp), %rbp
-; SSSE3-NEXT:    movq %rsi, %rdx
-; SSSE3-NEXT:    sarq $63, %rdx
-; SSSE3-NEXT:    movq %r9, %rbx
-; SSSE3-NEXT:    imulq %rdx, %rbx
-; SSSE3-NEXT:    movq %r15, %rax
-; SSSE3-NEXT:    mulq %rdx
+; SSSE3-NEXT:    movq {{[0-9]+}}(%rsp), %r15
+; SSSE3-NEXT:    movq {{[0-9]+}}(%rsp), %r12
+; SSSE3-NEXT:    movq {{[0-9]+}}(%rsp), %r13
+; SSSE3-NEXT:    movq %rsi, %rbp
+; SSSE3-NEXT:    sarq $63, %rbp
+; SSSE3-NEXT:    imulq %r8, %rbp
+; SSSE3-NEXT:    movq %rdi, %rax
+; SSSE3-NEXT:    mulq %r8
 ; SSSE3-NEXT:    movq %rdx, %rsi
-; SSSE3-NEXT:    movq %rax, %r12
-; SSSE3-NEXT:    addq %rax, %rsi
-; SSSE3-NEXT:    addq %rbx, %rsi
-; SSSE3-NEXT:    movq %r9, %rax
-; SSSE3-NEXT:    sarq $63, %rax
-; SSSE3-NEXT:    movq %rax, %r13
-; SSSE3-NEXT:    imulq %r11, %r13
-; SSSE3-NEXT:    mulq %r10
+; SSSE3-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
+; SSSE3-NEXT:    movq %r11, %rax
+; SSSE3-NEXT:    mulq %r8
+; SSSE3-NEXT:    movq %rdx, %r8
 ; SSSE3-NEXT:    movq %rax, %r14
-; SSSE3-NEXT:    movq %rdx, %rbx
-; SSSE3-NEXT:    addq %r13, %rbx
-; SSSE3-NEXT:    addq %rax, %rbx
-; SSSE3-NEXT:    addq %r12, %r14
-; SSSE3-NEXT:    adcq %rsi, %rbx
-; SSSE3-NEXT:    movq %r10, %rax
-; SSSE3-NEXT:    mulq %r15
-; SSSE3-NEXT:    movq %rdx, %r12
+; SSSE3-NEXT:    addq %rsi, %r14
+; SSSE3-NEXT:    adcq %rbp, %r8
+; SSSE3-NEXT:    movq %r8, %rbp
+; SSSE3-NEXT:    sarq $63, %rbp
+; SSSE3-NEXT:    sarq $63, %r9
+; SSSE3-NEXT:    imulq %rdi, %r9
+; SSSE3-NEXT:    movq %rdi, %rax
+; SSSE3-NEXT:    mulq %r10
+; SSSE3-NEXT:    movq %rdx, %rdi
 ; SSSE3-NEXT:    movq %rax, %rsi
+; SSSE3-NEXT:    addq %r14, %rsi
+; SSSE3-NEXT:    adcq %r9, %rdi
+; SSSE3-NEXT:    movq %rdi, %r9
+; SSSE3-NEXT:    sarq $63, %r9
+; SSSE3-NEXT:    addq %r8, %rdi
+; SSSE3-NEXT:    adcq %rbp, %r9
 ; SSSE3-NEXT:    movq %r11, %rax
-; SSSE3-NEXT:    mulq %r15
-; SSSE3-NEXT:    movq %rdx, %r15
-; SSSE3-NEXT:    movq %rax, %r13
-; SSSE3-NEXT:    addq %r12, %r13
-; SSSE3-NEXT:    adcq $0, %r15
-; SSSE3-NEXT:    movq %r10, %rax
-; SSSE3-NEXT:    mulq %r9
-; SSSE3-NEXT:    movq %rdx, %r12
-; SSSE3-NEXT:    movq %rax, %r10
-; SSSE3-NEXT:    addq %r13, %r10
-; SSSE3-NEXT:    adcq %r15, %r12
-; SSSE3-NEXT:    setb %al
-; SSSE3-NEXT:    movzbl %al, %r15d
-; SSSE3-NEXT:    movq %r11, %rax
-; SSSE3-NEXT:    mulq %r9
-; SSSE3-NEXT:    addq %r12, %rax
-; SSSE3-NEXT:    adcq %r15, %rdx
-; SSSE3-NEXT:    addq %r14, %rax
-; SSSE3-NEXT:    adcq %rbx, %rdx
-; SSSE3-NEXT:    movq {{[0-9]+}}(%rsp), %r12
-; SSSE3-NEXT:    movq %r10, 8(%r12)
+; SSSE3-NEXT:    imulq %r10
+; SSSE3-NEXT:    addq %rdi, %rax
+; SSSE3-NEXT:    adcq %r9, %rdx
+; SSSE3-NEXT:    movq %rsi, 8(%r15)
+; SSSE3-NEXT:    sarq $63, %rsi
+; SSSE3-NEXT:    xorq %rsi, %rdx
+; SSSE3-NEXT:    xorq %rax, %rsi
+; SSSE3-NEXT:    xorl %r11d, %r11d
+; SSSE3-NEXT:    orq %rdx, %rsi
+; SSSE3-NEXT:    setne %r11b
+; SSSE3-NEXT:    movq %rbx, %r10
 ; SSSE3-NEXT:    sarq $63, %r10
-; SSSE3-NEXT:    xorq %r10, %rdx
-; SSSE3-NEXT:    xorq %rax, %r10
-; SSSE3-NEXT:    xorl %r15d, %r15d
-; SSSE3-NEXT:    orq %rdx, %r10
-; SSSE3-NEXT:    setne %r15b
-; SSSE3-NEXT:    movq %rcx, %rdx
-; SSSE3-NEXT:    sarq $63, %rdx
-; SSSE3-NEXT:    movq %rbp, %r10
-; SSSE3-NEXT:    imulq %rdx, %r10
-; SSSE3-NEXT:    movq %rdi, %rax
-; SSSE3-NEXT:    mulq %rdx
-; SSSE3-NEXT:    movq %rdx, %r9
-; SSSE3-NEXT:    movq %rax, %rbx
-; SSSE3-NEXT:    addq %rax, %r9
-; SSSE3-NEXT:    addq %r10, %r9
-; SSSE3-NEXT:    movq %rbp, %rax
-; SSSE3-NEXT:    sarq $63, %rax
-; SSSE3-NEXT:    movq %rax, %r14
-; SSSE3-NEXT:    imulq %rcx, %r14
-; SSSE3-NEXT:    mulq %r8
-; SSSE3-NEXT:    movq %rax, %r11
-; SSSE3-NEXT:    movq %rdx, %r10
-; SSSE3-NEXT:    addq %r14, %r10
-; SSSE3-NEXT:    addq %rax, %r10
-; SSSE3-NEXT:    addq %rbx, %r11
-; SSSE3-NEXT:    adcq %r9, %r10
-; SSSE3-NEXT:    movq %r8, %rax
-; SSSE3-NEXT:    mulq %rdi
-; SSSE3-NEXT:    movq %rdx, %rbx
-; SSSE3-NEXT:    movq %rax, %r9
+; SSSE3-NEXT:    imulq %r13, %r10
 ; SSSE3-NEXT:    movq %rcx, %rax
-; SSSE3-NEXT:    mulq %rdi
+; SSSE3-NEXT:    mulq %r13
 ; SSSE3-NEXT:    movq %rdx, %rdi
-; SSSE3-NEXT:    movq %rax, %r14
-; SSSE3-NEXT:    addq %rbx, %r14
-; SSSE3-NEXT:    adcq $0, %rdi
-; SSSE3-NEXT:    movq %r8, %rax
-; SSSE3-NEXT:    mulq %rbp
+; SSSE3-NEXT:    movq %rax, %rsi
+; SSSE3-NEXT:    movq %rbx, %rax
+; SSSE3-NEXT:    mulq %r13
 ; SSSE3-NEXT:    movq %rdx, %r8
-; SSSE3-NEXT:    movq %rax, %rbx
-; SSSE3-NEXT:    addq %r14, %rbx
-; SSSE3-NEXT:    adcq %rdi, %r8
-; SSSE3-NEXT:    setb %al
-; SSSE3-NEXT:    movzbl %al, %edi
+; SSSE3-NEXT:    movq %rax, %r9
+; SSSE3-NEXT:    addq %rdi, %r9
+; SSSE3-NEXT:    adcq %r10, %r8
+; SSSE3-NEXT:    movq %r8, %r14
+; SSSE3-NEXT:    sarq $63, %r14
+; SSSE3-NEXT:    movq %r12, %r13
+; SSSE3-NEXT:    sarq $63, %r13
+; SSSE3-NEXT:    imulq %rcx, %r13
 ; SSSE3-NEXT:    movq %rcx, %rax
-; SSSE3-NEXT:    mulq %rbp
-; SSSE3-NEXT:    addq %r8, %rax
-; SSSE3-NEXT:    adcq %rdi, %rdx
-; SSSE3-NEXT:    addq %r11, %rax
-; SSSE3-NEXT:    adcq %r10, %rdx
-; SSSE3-NEXT:    movq %rbx, 24(%r12)
-; SSSE3-NEXT:    sarq $63, %rbx
-; SSSE3-NEXT:    xorq %rbx, %rdx
-; SSSE3-NEXT:    xorq %rax, %rbx
+; SSSE3-NEXT:    mulq %r12
+; SSSE3-NEXT:    movq %rdx, %rdi
+; SSSE3-NEXT:    movq %rax, %r10
+; SSSE3-NEXT:    addq %r9, %r10
+; SSSE3-NEXT:    adcq %r13, %rdi
+; SSSE3-NEXT:    movq %rdi, %rcx
+; SSSE3-NEXT:    sarq $63, %rcx
+; SSSE3-NEXT:    addq %r8, %rdi
+; SSSE3-NEXT:    adcq %r14, %rcx
+; SSSE3-NEXT:    movq %rbx, %rax
+; SSSE3-NEXT:    imulq %r12
+; SSSE3-NEXT:    addq %rdi, %rax
+; SSSE3-NEXT:    adcq %rcx, %rdx
+; SSSE3-NEXT:    movq %r10, 24(%r15)
+; SSSE3-NEXT:    sarq $63, %r10
+; SSSE3-NEXT:    xorq %r10, %rdx
+; SSSE3-NEXT:    xorq %rax, %r10
 ; SSSE3-NEXT:    xorl %eax, %eax
-; SSSE3-NEXT:    orq %rdx, %rbx
+; SSSE3-NEXT:    orq %rdx, %r10
 ; SSSE3-NEXT:    setne %al
 ; SSSE3-NEXT:    negl %eax
 ; SSSE3-NEXT:    movd %eax, %xmm1
-; SSSE3-NEXT:    negl %r15d
-; SSSE3-NEXT:    movd %r15d, %xmm0
+; SSSE3-NEXT:    negl %r11d
+; SSSE3-NEXT:    movd %r11d, %xmm0
 ; SSSE3-NEXT:    punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
-; SSSE3-NEXT:    movq %r9, 16(%r12)
-; SSSE3-NEXT:    movq %rsi, (%r12)
+; SSSE3-NEXT:    movq %rsi, 16(%r15)
+; SSSE3-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
+; SSSE3-NEXT:    movq %rax, (%r15)
 ; SSSE3-NEXT:    popq %rbx
 ; SSSE3-NEXT:    popq %r12
 ; SSSE3-NEXT:    popq %r13
@@ -3559,123 +3507,97 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; SSE41-NEXT:    pushq %r13
 ; SSE41-NEXT:    pushq %r12
 ; SSE41-NEXT:    pushq %rbx
-; SSE41-NEXT:    movq %r8, %r15
-; SSE41-NEXT:    movq %rdx, %r8
+; SSE41-NEXT:    movq %r9, %r10
+; SSE41-NEXT:    movq %rcx, %rbx
+; SSE41-NEXT:    movq %rdx, %rcx
 ; SSE41-NEXT:    movq %rsi, %r11
-; SSE41-NEXT:    movq %rdi, %r10
-; SSE41-NEXT:    movq {{[0-9]+}}(%rsp), %rdi
-; SSE41-NEXT:    movq {{[0-9]+}}(%rsp), %rbp
-; SSE41-NEXT:    movq %rsi, %rdx
-; SSE41-NEXT:    sarq $63, %rdx
-; SSE41-NEXT:    movq %r9, %rbx
-; SSE41-NEXT:    imulq %rdx, %rbx
-; SSE41-NEXT:    movq %r15, %rax
-; SSE41-NEXT:    mulq %rdx
+; SSE41-NEXT:    movq {{[0-9]+}}(%rsp), %r15
+; SSE41-NEXT:    movq {{[0-9]+}}(%rsp), %r12
+; SSE41-NEXT:    movq {{[0-9]+}}(%rsp), %r13
+; SSE41-NEXT:    movq %rsi, %rbp
+; SSE41-NEXT:    sarq $63, %rbp
+; SSE41-NEXT:    imulq %r8, %rbp
+; SSE41-NEXT:    movq %rdi, %rax
+; SSE41-NEXT:    mulq %r8
 ; SSE41-NEXT:    movq %rdx, %rsi
-; SSE41-NEXT:    movq %rax, %r12
-; SSE41-NEXT:    addq %rax, %rsi
-; SSE41-NEXT:    addq %rbx, %rsi
-; SSE41-NEXT:    movq %r9, %rax
-; SSE41-NEXT:    sarq $63, %rax
-; SSE41-NEXT:    movq %rax, %r13
-; SSE41-NEXT:    imulq %r11, %r13
-; SSE41-NEXT:    mulq %r10
+; SSE41-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
+; SSE41-NEXT:    movq %r11, %rax
+; SSE41-NEXT:    mulq %r8
+; SSE41-NEXT:    movq %rdx, %r8
 ; SSE41-NEXT:    movq %rax, %r14
-; SSE41-NEXT:    movq %rdx, %rbx
-; SSE41-NEXT:    addq %r13, %rbx
-; SSE41-NEXT:    addq %rax, %rbx
-; SSE41-NEXT:    addq %r12, %r14
-; SSE41-NEXT:    adcq %rsi, %rbx
-; SSE41-NEXT:    movq %r10, %rax
-; SSE41-NEXT:    mulq %r15
-; SSE41-NEXT:    movq %rdx, %r12
+; SSE41-NEXT:    addq %rsi, %r14
+; SSE41-NEXT:    adcq %rbp, %r8
+; SSE41-NEXT:    movq %r8, %rbp
+; SSE41-NEXT:    sarq $63, %rbp
+; SSE41-NEXT:    sarq $63, %r9
+; SSE41-NEXT:    imulq %rdi, %r9
+; SSE41-NEXT:    movq %rdi, %rax
+; SSE41-NEXT:    mulq %r10
+; SSE41-NEXT:    movq %rdx, %rdi
 ; SSE41-NEXT:    movq %rax, %rsi
+; SSE41-NEXT:    addq %r14, %rsi
+; SSE41-NEXT:    adcq %r9, %rdi
+; SSE41-NEXT:    movq %rdi, %r9
+; SSE41-NEXT:    sarq $63, %r9
+; SSE41-NEXT:    addq %r8, %rdi
+; SSE41-NEXT:    adcq %rbp, %r9
 ; SSE41-NEXT:    movq %r11, %rax
-; SSE41-NEXT:    mulq %r15
-; SSE41-NEXT:    movq %rdx, %r15
-; SSE41-NEXT:    movq %rax, %r13
-; SSE41-NEXT:    addq %r12, %r13
-; SSE41-NEXT:    adcq $0, %r15
-; SSE41-NEXT:    movq %r10, %rax
-; SSE41-NEXT:    mulq %r9
-; SSE41-NEXT:    movq %rdx, %r12
-; SSE41-NEXT:    movq %rax, %r10
-; SSE41-NEXT:    addq %r13, %r10
-; SSE41-NEXT:    adcq %r15, %r12
-; SSE41-NEXT:    setb %al
-; SSE41-NEXT:    movzbl %al, %r15d
-; SSE41-NEXT:    movq %r11, %rax
-; SSE41-NEXT:    mulq %r9
-; SSE41-NEXT:    addq %r12, %rax
-; SSE41-NEXT:    adcq %r15, %rdx
-; SSE41-NEXT:    addq %r14, %rax
-; SSE41-NEXT:    adcq %rbx, %rdx
-; SSE41-NEXT:    movq {{[0-9]+}}(%rsp), %r12
-; SSE41-NEXT:    movq %r10, 8(%r12)
+; SSE41-NEXT:    imulq %r10
+; SSE41-NEXT:    addq %rdi, %rax
+; SSE41-NEXT:    adcq %r9, %rdx
+; SSE41-NEXT:    movq %rsi, 8(%r15)
+; SSE41-NEXT:    sarq $63, %rsi
+; SSE41-NEXT:    xorq %rsi, %rdx
+; SSE41-NEXT:    xorq %rax, %rsi
+; SSE41-NEXT:    xorl %r11d, %r11d
+; SSE41-NEXT:    orq %rdx, %rsi
+; SSE41-NEXT:    setne %r11b
+; SSE41-NEXT:    movq %rbx, %r10
 ; SSE41-NEXT:    sarq $63, %r10
-; SSE41-NEXT:    xorq %r10, %rdx
-; SSE41-NEXT:    xorq %rax, %r10
-; SSE41-NEXT:    xorl %r15d, %r15d
-; SSE41-NEXT:    orq %rdx, %r10
-; SSE41-NEXT:    setne %r15b
-; SSE41-NEXT:    movq %rcx, %rdx
-; SSE41-NEXT:    sarq $63, %rdx
-; SSE41-NEXT:    movq %rbp, %r10
-; SSE41-NEXT:    imulq %rdx, %r10
-; SSE41-NEXT:    movq %rdi, %rax
-; SSE41-NEXT:    mulq %rdx
-; SSE41-NEXT:    movq %rdx, %r9
-; SSE41-NEXT:    movq %rax, %rbx
-; SSE41-NEXT:    addq %rax, %r9
-; SSE41-NEXT:    addq %r10, %r9
-; SSE41-NEXT:    movq %rbp, %rax
-; SSE41-NEXT:    sarq $63, %rax
-; SSE41-NEXT:    movq %rax, %r14
-; SSE41-NEXT:    imulq %rcx, %r14
-; SSE41-NEXT:    mulq %r8
-; SSE41-NEXT:    movq %rax, %r11
-; SSE41-NEXT:    movq %rdx, %r10
-; SSE41-NEXT:    addq %r14, %r10
-; SSE41-NEXT:    addq %rax, %r10
-; SSE41-NEXT:    addq %rbx, %r11
-; SSE41-NEXT:    adcq %r9, %r10
-; SSE41-NEXT:    movq %r8, %rax
-; SSE41-NEXT:    mulq %rdi
-; SSE41-NEXT:    movq %rdx, %rbx
-; SSE41-NEXT:    movq %rax, %r9
+; SSE41-NEXT:    imulq %r13, %r10
 ; SSE41-NEXT:    movq %rcx, %rax
-; SSE41-NEXT:    mulq %rdi
+; SSE41-NEXT:    mulq %r13
 ; SSE41-NEXT:    movq %rdx, %rdi
-; SSE41-NEXT:    movq %rax, %r14
-; SSE41-NEXT:    addq %rbx, %r14
-; SSE41-NEXT:    adcq $0, %rdi
-; SSE41-NEXT:    movq %r8, %rax
-; SSE41-NEXT:    mulq %rbp
+; SSE41-NEXT:    movq %rax, %rsi
+; SSE41-NEXT:    movq %rbx, %rax
+; SSE41-NEXT:    mulq %r13
 ; SSE41-NEXT:    movq %rdx, %r8
-; SSE41-NEXT:    movq %rax, %rbx
-; SSE41-NEXT:    addq %r14, %rbx
-; SSE41-NEXT:    adcq %rdi, %r8
-; SSE41-NEXT:    setb %al
-; SSE41-NEXT:    movzbl %al, %edi
+; SSE41-NEXT:    movq %rax, %r9
+; SSE41-NEXT:    addq %rdi, %r9
+; SSE41-NEXT:    adcq %r10, %r8
+; SSE41-NEXT:    movq %r8, %r14
+; SSE41-NEXT:    sarq $63, %r14
+; SSE41-NEXT:    movq %r12, %r13
+; SSE41-NEXT:    sarq $63, %r13
+; SSE41-NEXT:    imulq %rcx, %r13
 ; SSE41-NEXT:    movq %rcx, %rax
-; SSE41-NEXT:    mulq %rbp
-; SSE41-NEXT:    addq %r8, %rax
-; SSE41-NEXT:    adcq %rdi, %rdx
-; SSE41-NEXT:    addq %r11, %rax
-; SSE41-NEXT:    adcq %r10, %rdx
-; SSE41-NEXT:    movq %rbx, 24(%r12)
-; SSE41-NEXT:    sarq $63, %rbx
-; SSE41-NEXT:    xorq %rbx, %rdx
-; SSE41-NEXT:    xorq %rax, %rbx
+; SSE41-NEXT:    mulq %r12
+; SSE41-NEXT:    movq %rdx, %rdi
+; SSE41-NEXT:    movq %rax, %r10
+; SSE41-NEXT:    addq %r9, %r10
+; SSE41-NEXT:    adcq %r13, %rdi
+; SSE41-NEXT:    movq %rdi, %rcx
+; SSE41-NEXT:    sarq $63, %rcx
+; SSE41-NEXT:    addq %r8, %rdi
+; SSE41-NEXT:    adcq %r14, %rcx
+; SSE41-NEXT:    movq %rbx, %rax
+; SSE41-NEXT:    imulq %r12
+; SSE41-NEXT:    addq %rdi, %rax
+; SSE41-NEXT:    adcq %rcx, %rdx
+; SSE41-NEXT:    movq %r10, 24(%r15)
+; SSE41-NEXT:    sarq $63, %r10
+; SSE41-NEXT:    xorq %r10, %rdx
+; SSE41-NEXT:    xorq %rax, %r10
 ; SSE41-NEXT:    xorl %eax, %eax
-; SSE41-NEXT:    orq %rdx, %rbx
+; SSE41-NEXT:    orq %rdx, %r10
 ; SSE41-NEXT:    setne %al
 ; SSE41-NEXT:    negl %eax
-; SSE41-NEXT:    negl %r15d
-; SSE41-NEXT:    movd %r15d, %xmm0
+; SSE41-NEXT:    negl %r11d
+; SSE41-NEXT:    movd %r11d, %xmm0
 ; SSE41-NEXT:    pinsrd $1, %eax, %xmm0
-; SSE41-NEXT:    movq %r9, 16(%r12)
-; SSE41-NEXT:    movq %rsi, (%r12)
+; SSE41-NEXT:    movq %rsi, 16(%r15)
+; SSE41-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
+; SSE41-NEXT:    movq %rax, (%r15)
 ; SSE41-NEXT:    popq %rbx
 ; SSE41-NEXT:    popq %r12
 ; SSE41-NEXT:    popq %r13
@@ -3692,123 +3614,97 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; AVX-NEXT:    pushq %r13
 ; AVX-NEXT:    pushq %r12
 ; AVX-NEXT:    pushq %rbx
-; AVX-NEXT:    movq %r8, %r15
-; AVX-NEXT:    movq %rdx, %r8
+; AVX-NEXT:    movq %r9, %r10
+; AVX-NEXT:    movq %rcx, %rbx
+; AVX-NEXT:    movq %rdx, %rcx
 ; AVX-NEXT:    movq %rsi, %r11
-; AVX-NEXT:    movq %rdi, %r10
-; AVX-NEXT:    movq {{[0-9]+}}(%rsp), %rdi
-; AVX-NEXT:    movq {{[0-9]+}}(%rsp), %rbp
-; AVX-NEXT:    movq %rsi, %rdx
-; AVX-NEXT:    sarq $63, %rdx
-; AVX-NEXT:    movq %r9, %rbx
-; AVX-NEXT:    imulq %rdx, %rbx
-; AVX-NEXT:    movq %r15, %rax
-; AVX-NEXT:    mulq %rdx
+; AVX-NEXT:    movq {{[0-9]+}}(%rsp), %r15
+; AVX-NEXT:    movq {{[0-9]+}}(%rsp), %r13
+; AVX-NEXT:    movq {{[0-9]+}}(%rsp), %r12
+; AVX-NEXT:    movq %rsi, %rbp
+; AVX-NEXT:    sarq $63, %rbp
+; AVX-NEXT:    imulq %r8, %rbp
+; AVX-NEXT:    movq %rdi, %rax
+; AVX-NEXT:    mulq %r8
 ; AVX-NEXT:    movq %rdx, %rsi
-; AVX-NEXT:    movq %rax, %r12
-; AVX-NEXT:    addq %rax, %rsi
-; AVX-NEXT:    addq %rbx, %rsi
-; AVX-NEXT:    movq %r9, %rax
-; AVX-NEXT:    sarq $63, %rax
-; AVX-NEXT:    movq %rax, %r13
-; AVX-NEXT:    imulq %r11, %r13
-; AVX-NEXT:    mulq %r10
+; AVX-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
+; AVX-NEXT:    movq %r11, %rax
+; AVX-NEXT:    mulq %r8
+; AVX-NEXT:    movq %rdx, %r8
 ; AVX-NEXT:    movq %rax, %r14
-; AVX-NEXT:    movq %rdx, %rbx
-; AVX-NEXT:    addq %r13, %rbx
-; AVX-NEXT:    addq %rax, %rbx
-; AVX-NEXT:    addq %r12, %r14
-; AVX-NEXT:    adcq %rsi, %rbx
-; AVX-NEXT:    movq %r10, %rax
-; AVX-NEXT:    mulq %r15
-; AVX-NEXT:    movq %rdx, %r12
+; AVX-NEXT:    addq %rsi, %r14
+; AVX-NEXT:    adcq %rbp, %r8
+; AVX-NEXT:    movq %r8, %rbp
+; AVX-NEXT:    sarq $63, %rbp
+; AVX-NEXT:    sarq $63, %r9
+; AVX-NEXT:    imulq %rdi, %r9
+; AVX-NEXT:    movq %rdi, %rax
+; AVX-NEXT:    mulq %r10
+; AVX-NEXT:    movq %rdx, %rdi
 ; AVX-NEXT:    movq %rax, %rsi
+; AVX-NEXT:    addq %r14, %rsi
+; AVX-NEXT:    adcq %r9, %rdi
+; AVX-NEXT:    movq %rdi, %r9
+; AVX-NEXT:    sarq $63, %r9
+; AVX-NEXT:    addq %r8, %rdi
+; AVX-NEXT:    adcq %rbp, %r9
 ; AVX-NEXT:    movq %r11, %rax
-; AVX-NEXT:    mulq %r15
-; AVX-NEXT:    movq %rdx, %r15
-; AVX-NEXT:    movq %rax, %r13
-; AVX-NEXT:    addq %r12, %r13
-; AVX-NEXT:    adcq $0, %r15
-; AVX-NEXT:    movq %r10, %rax
-; AVX-NEXT:    mulq %r9
-; AVX-NEXT:    movq %rdx, %r12
-; AVX-NEXT:    movq %rax, %r10
-; AVX-NEXT:    addq %r13, %r10
-; AVX-NEXT:    adcq %r15, %r12
-; AVX-NEXT:    setb %al
-; AVX-NEXT:    movzbl %al, %r15d
-; AVX-NEXT:    movq %r11, %rax
-; AVX-NEXT:    mulq %r9
-; AVX-NEXT:    addq %r12, %rax
-; AVX-NEXT:    adcq %r15, %rdx
-; AVX-NEXT:    addq %r14, %rax
-; AVX-NEXT:    adcq %rbx, %rdx
-; AVX-NEXT:    movq {{[0-9]+}}(%rsp), %r12
-; AVX-NEXT:    movq %r10, 8(%r12)
+; AVX-NEXT:    imulq %r10
+; AVX-NEXT:    addq %rdi, %rax
+; AVX-NEXT:    adcq %r9, %rdx
+; AVX-NEXT:    movq %rsi, 8(%r15)
+; AVX-NEXT:    sarq $63, %rsi
+; AVX-NEXT:    xorq %rsi, %rdx
+; AVX-NEXT:    xorq %rax, %rsi
+; AVX-NEXT:    xorl %r11d, %r11d
+; AVX-NEXT:    orq %rdx, %rsi
+; AVX-NEXT:    setne %r11b
+; AVX-NEXT:    movq %rbx, %r10
 ; AVX-NEXT:    sarq $63, %r10
-; AVX-NEXT:    xorq %r10, %rdx
-; AVX-NEXT:    xorq %rax, %r10
-; AVX-NEXT:    xorl %r15d, %r15d
-; AVX-NEXT:    orq %rdx, %r10
-; AVX-NEXT:    setne %r15b
-; AVX-NEXT:    movq %rcx, %rdx
-; AVX-NEXT:    sarq $63, %rdx
-; AVX-NEXT:    movq %rbp, %r10
-; AVX-NEXT:    imulq %rdx, %r10
-; AVX-NEXT:    movq %rdi, %rax
-; AVX-NEXT:    mulq %rdx
-; AVX-NEXT:    movq %rdx, %r9
-; AVX-NEXT:    movq %rax, %rbx
-; AVX-NEXT:    addq %rax, %r9
-; AVX-NEXT:    addq %r10, %r9
-; AVX-NEXT:    movq %rbp, %rax
-; AVX-NEXT:    sarq $63, %rax
-; AVX-NEXT:    movq %rax, %r14
-; AVX-NEXT:    imulq %rcx, %r14
-; AVX-NEXT:    mulq %r8
-; AVX-NEXT:    movq %rax, %r11
-; AVX-NEXT:    movq %rdx, %r10
-; AVX-NEXT:    addq %r14, %r10
-; AVX-NEXT:    addq %rax, %r10
-; AVX-NEXT:    addq %rbx, %r11
-; AVX-NEXT:    adcq %r9, %r10
-; AVX-NEXT:    movq %r8, %rax
-; AVX-NEXT:    mulq %rdi
-; AVX-NEXT:    movq %rdx, %rbx
-; AVX-NEXT:    movq %rax, %r9
+; AVX-NEXT:    imulq %r13, %r10
 ; AVX-NEXT:    movq %rcx, %rax
-; AVX-NEXT:    mulq %rdi
+; AVX-NEXT:    mulq %r13
 ; AVX-NEXT:    movq %rdx, %rdi
-; AVX-NEXT:    movq %rax, %r14
-; AVX-NEXT:    addq %rbx, %r14
-; AVX-NEXT:    adcq $0, %rdi
-; AVX-NEXT:    movq %r8, %rax
-; AVX-NEXT:    mulq %rbp
+; AVX-NEXT:    movq %rax, %rsi
+; AVX-NEXT:    movq %rbx, %rax
+; AVX-NEXT:    mulq %r13
 ; AVX-NEXT:    movq %rdx, %r8
-; AVX-NEXT:    movq %rax, %rbx
-; AVX-NEXT:    addq %r14, %rbx
-; AVX-NEXT:    adcq %rdi, %r8
-; AVX-NEXT:    setb %al
-; AVX-NEXT:    movzbl %al, %edi
+; AVX-NEXT:    movq %rax, %r9
+; AVX-NEXT:    addq %rdi, %r9
+; AVX-NEXT:    adcq %r10, %r8
+; AVX-NEXT:    movq %r8, %r14
+; AVX-NEXT:    sarq $63, %r14
+; AVX-NEXT:    movq %r12, %r13
+; AVX-NEXT:    sarq $63, %r13
+; AVX-NEXT:    imulq %rcx, %r13
 ; AVX-NEXT:    movq %rcx, %rax
-; AVX-NEXT:    mulq %rbp
-; AVX-NEXT:    addq %r8, %rax
-; AVX-NEXT:    adcq %rdi, %rdx
-; AVX-NEXT:    addq %r11, %rax
-; AVX-NEXT:    adcq %r10, %rdx
-; AVX-NEXT:    movq %rbx, 24(%r12)
-; AVX-NEXT:    sarq $63, %rbx
-; AVX-NEXT:    xorq %rbx, %rdx
-; AVX-NEXT:    xorq %rax, %rbx
+; AVX-NEXT:    mulq %r12
+; AVX-NEXT:    movq %rdx, %rdi
+; AVX-NEXT:    movq %rax, %r10
+; AVX-NEXT:    addq %r9, %r10
+; AVX-NEXT:    adcq %r13, %rdi
+; AVX-NEXT:    movq %rdi, %rcx
+; AVX-NEXT:    sarq $63, %rcx
+; AVX-NEXT:    addq %r8, %rdi
+; AVX-NEXT:    adcq %r14, %rcx
+; AVX-NEXT:    movq %rbx, %rax
+; AVX-NEXT:    imulq %r12
+; AVX-NEXT:    addq %rdi, %rax
+; AVX-NEXT:    adcq %rcx, %rdx
+; AVX-NEXT:    movq %r10, 24(%r15)
+; AVX-NEXT:    sarq $63, %r10
+; AVX-NEXT:    xorq %r10, %rdx
+; AVX-NEXT:    xorq %rax, %r10
 ; AVX-NEXT:    xorl %eax, %eax
-; AVX-NEXT:    orq %rdx, %rbx
+; AVX-NEXT:    orq %rdx, %r10
 ; AVX-NEXT:    setne %al
 ; AVX-NEXT:    negl %eax
-; AVX-NEXT:    negl %r15d
-; AVX-NEXT:    vmovd %r15d, %xmm0
+; AVX-NEXT:    negl %r11d
+; AVX-NEXT:    vmovd %r11d, %xmm0
 ; AVX-NEXT:    vpinsrd $1, %eax, %xmm0, %xmm0
-; AVX-NEXT:    movq %r9, 16(%r12)
-; AVX-NEXT:    movq %rsi, (%r12)
+; AVX-NEXT:    movq %rsi, 16(%r15)
+; AVX-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
+; AVX-NEXT:    movq %rax, (%r15)
 ; AVX-NEXT:    popq %rbx
 ; AVX-NEXT:    popq %r12
 ; AVX-NEXT:    popq %r13
@@ -3825,57 +3721,43 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; AVX512F-NEXT:    pushq %r13
 ; AVX512F-NEXT:    pushq %r12
 ; AVX512F-NEXT:    pushq %rbx
-; AVX512F-NEXT:    movq %r9, %rbp
 ; AVX512F-NEXT:    movq %rcx, %r11
 ; AVX512F-NEXT:    movq %rdx, %r10
-; AVX512F-NEXT:    movq %rsi, %r9
-; AVX512F-NEXT:    movq {{[0-9]+}}(%rsp), %r15
-; AVX512F-NEXT:    movq {{[0-9]+}}(%rsp), %rsi
-; AVX512F-NEXT:    sarq $63, %rcx
-; AVX512F-NEXT:    movq %rsi, %rbx
-; AVX512F-NEXT:    imulq %rcx, %rbx
-; AVX512F-NEXT:    movq %r15, %rax
-; AVX512F-NEXT:    mulq %rcx
-; AVX512F-NEXT:    movq %rdx, %rcx
-; AVX512F-NEXT:    movq %rax, %r12
-; AVX512F-NEXT:    addq %rax, %rcx
-; AVX512F-NEXT:    addq %rbx, %rcx
-; AVX512F-NEXT:    movq %rsi, %rax
-; AVX512F-NEXT:    sarq $63, %rax
-; AVX512F-NEXT:    movq %rax, %r13
-; AVX512F-NEXT:    imulq %r11, %r13
-; AVX512F-NEXT:    mulq %r10
-; AVX512F-NEXT:    movq %rax, %r14
+; AVX512F-NEXT:    movq {{[0-9]+}}(%rsp), %r12
+; AVX512F-NEXT:    movq {{[0-9]+}}(%rsp), %r14
+; AVX512F-NEXT:    movq {{[0-9]+}}(%rsp), %rcx
+; AVX512F-NEXT:    movq %r11, %rbp
+; AVX512F-NEXT:    sarq $63, %rbp
+; AVX512F-NEXT:    imulq %r14, %rbp
+; AVX512F-NEXT:    movq %rdx, %rax
+; AVX512F-NEXT:    mulq %r14
 ; AVX512F-NEXT:    movq %rdx, %rbx
-; AVX512F-NEXT:    addq %r13, %rbx
-; AVX512F-NEXT:    addq %rax, %rbx
-; AVX512F-NEXT:    addq %r12, %r14
-; AVX512F-NEXT:    adcq %rcx, %rbx
-; AVX512F-NEXT:    movq %r10, %rax
-; AVX512F-NEXT:    mulq %r15
-; AVX512F-NEXT:    movq %rdx, %r12
-; AVX512F-NEXT:    movq %rax, %rcx
+; AVX512F-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
 ; AVX512F-NEXT:    movq %r11, %rax
-; AVX512F-NEXT:    mulq %r15
-; AVX512F-NEXT:    movq %rdx, %r15
-; AVX512F-NEXT:    movq %rax, %r13
-; AVX512F-NEXT:    addq %r12, %r13
-; AVX512F-NEXT:    adcq $0, %r15
+; AVX512F-NEXT:    mulq %r14
+; AVX512F-NEXT:    movq %rdx, %r14
+; AVX512F-NEXT:    movq %rax, %r15
+; AVX512F-NEXT:    addq %rbx, %r15
+; AVX512F-NEXT:    adcq %rbp, %r14
+; AVX512F-NEXT:    movq %r14, %rbp
+; AVX512F-NEXT:    sarq $63, %rbp
+; AVX512F-NEXT:    movq %rcx, %r13
+; AVX512F-NEXT:    sarq $63, %r13
+; AVX512F-NEXT:    imulq %r10, %r13
 ; AVX512F-NEXT:    movq %r10, %rax
-; AVX512F-NEXT:    mulq %rsi
-; AVX512F-NEXT:    movq %rdx, %r12
+; AVX512F-NEXT:    mulq %rcx
+; AVX512F-NEXT:    movq %rdx, %rbx
 ; AVX512F-NEXT:    movq %rax, %r10
-; AVX512F-NEXT:    addq %r13, %r10
-; AVX512F-NEXT:    adcq %r15, %r12
-; AVX512F-NEXT:    setb %al
-; AVX512F-NEXT:    movzbl %al, %r15d
+; AVX512F-NEXT:    addq %r15, %r10
+; AVX512F-NEXT:    adcq %r13, %rbx
+; AVX512F-NEXT:    movq %rbx, %r15
+; AVX512F-NEXT:    sarq $63, %r15
+; AVX512F-NEXT:    addq %r14, %rbx
+; AVX512F-NEXT:    adcq %rbp, %r15
 ; AVX512F-NEXT:    movq %r11, %rax
-; AVX512F-NEXT:    mulq %rsi
-; AVX512F-NEXT:    addq %r12, %rax
+; AVX512F-NEXT:    imulq %rcx
+; AVX512F-NEXT:    addq %rbx, %rax
 ; AVX512F-NEXT:    adcq %r15, %rdx
-; AVX512F-NEXT:    addq %r14, %rax
-; AVX512F-NEXT:    adcq %rbx, %rdx
-; AVX512F-NEXT:    movq {{[0-9]+}}(%rsp), %r12
 ; AVX512F-NEXT:    movq %r10, 24(%r12)
 ; AVX512F-NEXT:    sarq $63, %r10
 ; AVX512F-NEXT:    xorq %r10, %rdx
@@ -3883,56 +3765,43 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; AVX512F-NEXT:    orq %rdx, %r10
 ; AVX512F-NEXT:    setne %al
 ; AVX512F-NEXT:    kmovw %eax, %k0
-; AVX512F-NEXT:    movq %r9, %rdx
-; AVX512F-NEXT:    sarq $63, %rdx
-; AVX512F-NEXT:    movq %rbp, %rsi
-; AVX512F-NEXT:    imulq %rdx, %rsi
-; AVX512F-NEXT:    movq %r8, %rax
-; AVX512F-NEXT:    mulq %rdx
-; AVX512F-NEXT:    movq %rdx, %r10
-; AVX512F-NEXT:    movq %rax, %r14
-; AVX512F-NEXT:    addq %rax, %r10
-; AVX512F-NEXT:    addq %rsi, %r10
-; AVX512F-NEXT:    movq %rbp, %rax
-; AVX512F-NEXT:    sarq $63, %rax
-; AVX512F-NEXT:    movq %rax, %rsi
-; AVX512F-NEXT:    imulq %r9, %rsi
-; AVX512F-NEXT:    mulq %rdi
-; AVX512F-NEXT:    movq %rax, %rbx
-; AVX512F-NEXT:    movq %rdx, %r11
-; AVX512F-NEXT:    addq %rsi, %r11
-; AVX512F-NEXT:    addq %rax, %r11
-; AVX512F-NEXT:    addq %r14, %rbx
-; AVX512F-NEXT:    adcq %r10, %r11
+; AVX512F-NEXT:    movq %rsi, %rcx
+; AVX512F-NEXT:    sarq $63, %rcx
+; AVX512F-NEXT:    imulq %r8, %rcx
 ; AVX512F-NEXT:    movq %rdi, %rax
 ; AVX512F-NEXT:    mulq %r8
-; AVX512F-NEXT:    movq %rdx, %r14
+; AVX512F-NEXT:    movq %rdx, %r11
 ; AVX512F-NEXT:    movq %rax, %r10
-; AVX512F-NEXT:    movq %r9, %rax
+; AVX512F-NEXT:    movq %rsi, %rax
 ; AVX512F-NEXT:    mulq %r8
 ; AVX512F-NEXT:    movq %rdx, %r8
-; AVX512F-NEXT:    movq %rax, %r15
-; AVX512F-NEXT:    addq %r14, %r15
-; AVX512F-NEXT:    adcq $0, %r8
+; AVX512F-NEXT:    movq %rax, %rbx
+; AVX512F-NEXT:    addq %r11, %rbx
+; AVX512F-NEXT:    adcq %rcx, %r8
+; AVX512F-NEXT:    movq %r8, %rcx
+; AVX512F-NEXT:    sarq $63, %rcx
+; AVX512F-NEXT:    movq %r9, %r14
+; AVX512F-NEXT:    sarq $63, %r14
+; AVX512F-NEXT:    imulq %rdi, %r14
 ; AVX512F-NEXT:    movq %rdi, %rax
-; AVX512F-NEXT:    mulq %rbp
+; AVX512F-NEXT:    mulq %r9
 ; AVX512F-NEXT:    movq %rdx, %rdi
-; AVX512F-NEXT:    movq %rax, %r14
-; AVX512F-NEXT:    addq %r15, %r14
-; AVX512F-NEXT:    adcq %r8, %rdi
-; AVX512F-NEXT:    setb %al
-; AVX512F-NEXT:    movzbl %al, %esi
-; AVX512F-NEXT:    movq %r9, %rax
-; AVX512F-NEXT:    mulq %rbp
+; AVX512F-NEXT:    movq %rax, %r11
+; AVX512F-NEXT:    addq %rbx, %r11
+; AVX512F-NEXT:    adcq %r14, %rdi
+; AVX512F-NEXT:    movq %rdi, %rbx
+; AVX512F-NEXT:    sarq $63, %rbx
+; AVX512F-NEXT:    addq %r8, %rdi
+; AVX512F-NEXT:    adcq %rcx, %rbx
+; AVX512F-NEXT:    movq %rsi, %rax
+; AVX512F-NEXT:    imulq %r9
 ; AVX512F-NEXT:    addq %rdi, %rax
-; AVX512F-NEXT:    adcq %rsi, %rdx
-; AVX512F-NEXT:    addq %rbx, %rax
-; AVX512F-NEXT:    adcq %r11, %rdx
-; AVX512F-NEXT:    movq %r14, 8(%r12)
-; AVX512F-NEXT:    sarq $63, %r14
-; AVX512F-NEXT:    xorq %r14, %rdx
-; AVX512F-NEXT:    xorq %rax, %r14
-; AVX512F-NEXT:    orq %rdx, %r14
+; AVX512F-NEXT:    adcq %rbx, %rdx
+; AVX512F-NEXT:    movq %r11, 8(%r12)
+; AVX512F-NEXT:    sarq $63, %r11
+; AVX512F-NEXT:    xorq %r11, %rdx
+; AVX512F-NEXT:    xorq %rax, %r11
+; AVX512F-NEXT:    orq %rdx, %r11
 ; AVX512F-NEXT:    setne %al
 ; AVX512F-NEXT:    andl $1, %eax
 ; AVX512F-NEXT:    kmovw %eax, %k1
@@ -3940,7 +3809,8 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; AVX512F-NEXT:    korw %k0, %k1, %k1
 ; AVX512F-NEXT:    vpcmpeqd %xmm0, %xmm0, %xmm0
 ; AVX512F-NEXT:    vmovdqa32 %xmm0, %xmm0 {%k1} {z}
-; AVX512F-NEXT:    movq %rcx, 16(%r12)
+; AVX512F-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
+; AVX512F-NEXT:    movq %rax, 16(%r12)
 ; AVX512F-NEXT:    movq %r10, (%r12)
 ; AVX512F-NEXT:    popq %rbx
 ; AVX512F-NEXT:    popq %r12
@@ -3958,57 +3828,43 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; AVX512BW-NEXT:    pushq %r13
 ; AVX512BW-NEXT:    pushq %r12
 ; AVX512BW-NEXT:    pushq %rbx
-; AVX512BW-NEXT:    movq %r9, %rbp
 ; AVX512BW-NEXT:    movq %rcx, %r11
 ; AVX512BW-NEXT:    movq %rdx, %r10
-; AVX512BW-NEXT:    movq %rsi, %r9
-; AVX512BW-NEXT:    movq {{[0-9]+}}(%rsp), %r15
-; AVX512BW-NEXT:    movq {{[0-9]+}}(%rsp), %rsi
-; AVX512BW-NEXT:    sarq $63, %rcx
-; AVX512BW-NEXT:    movq %rsi, %rbx
-; AVX512BW-NEXT:    imulq %rcx, %rbx
-; AVX512BW-NEXT:    movq %r15, %rax
-; AVX512BW-NEXT:    mulq %rcx
-; AVX512BW-NEXT:    movq %rdx, %rcx
-; AVX512BW-NEXT:    movq %rax, %r12
-; AVX512BW-NEXT:    addq %rax, %rcx
-; AVX512BW-NEXT:    addq %rbx, %rcx
-; AVX512BW-NEXT:    movq %rsi, %rax
-; AVX512BW-NEXT:    sarq $63, %rax
-; AVX512BW-NEXT:    movq %rax, %r13
-; AVX512BW-NEXT:    imulq %r11, %r13
-; AVX512BW-NEXT:    mulq %r10
-; AVX512BW-NEXT:    movq %rax, %r14
+; AVX512BW-NEXT:    movq {{[0-9]+}}(%rsp), %r12
+; AVX512BW-NEXT:    movq {{[0-9]+}}(%rsp), %r14
+; AVX512BW-NEXT:    movq {{[0-9]+}}(%rsp), %rcx
+; AVX512BW-NEXT:    movq %r11, %rbp
+; AVX512BW-NEXT:    sarq $63, %rbp
+; AVX512BW-NEXT:    imulq %r14, %rbp
+; AVX512BW-NEXT:    movq %rdx, %rax
+; AVX512BW-NEXT:    mulq %r14
 ; AVX512BW-NEXT:    movq %rdx, %rbx
-; AVX512BW-NEXT:    addq %r13, %rbx
-; AVX512BW-NEXT:    addq %rax, %rbx
-; AVX512BW-NEXT:    addq %r12, %r14
-; AVX512BW-NEXT:    adcq %rcx, %rbx
-; AVX512BW-NEXT:    movq %r10, %rax
-; AVX512BW-NEXT:    mulq %r15
-; AVX512BW-NEXT:    movq %rdx, %r12
-; AVX512BW-NEXT:    movq %rax, %rcx
+; AVX512BW-NEXT:    movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
 ; AVX512BW-NEXT:    movq %r11, %rax
-; AVX512BW-NEXT:    mulq %r15
-; AVX512BW-NEXT:    movq %rdx, %r15
-; AVX512BW-NEXT:    movq %rax, %r13
-; AVX512BW-NEXT:    addq %r12, %r13
-; AVX512BW-NEXT:    adcq $0, %r15
+; AVX512BW-NEXT:    mulq %r14
+; AVX512BW-NEXT:    movq %rdx, %r14
+; AVX512BW-NEXT:    movq %rax, %r15
+; AVX512BW-NEXT:    addq %rbx, %r15
+; AVX512BW-NEXT:    adcq %rbp, %r14
+; AVX512BW-NEXT:    movq %r14, %rbp
+; AVX512BW-NEXT:    sarq $63, %rbp
+; AVX512BW-NEXT:    movq %rcx, %r13
+; AVX512BW-NEXT:    sarq $63, %r13
+; AVX512BW-NEXT:    imulq %r10, %r13
 ; AVX512BW-NEXT:    movq %r10, %rax
-; AVX512BW-NEXT:    mulq %rsi
-; AVX512BW-NEXT:    movq %rdx, %r12
+; AVX512BW-NEXT:    mulq %rcx
+; AVX512BW-NEXT:    movq %rdx, %rbx
 ; AVX512BW-NEXT:    movq %rax, %r10
-; AVX512BW-NEXT:    addq %r13, %r10
-; AVX512BW-NEXT:    adcq %r15, %r12
-; AVX512BW-NEXT:    setb %al
-; AVX512BW-NEXT:    movzbl %al, %r15d
+; AVX512BW-NEXT:    addq %r15, %r10
+; AVX512BW-NEXT:    adcq %r13, %rbx
+; AVX512BW-NEXT:    movq %rbx, %r15
+; AVX512BW-NEXT:    sarq $63, %r15
+; AVX512BW-NEXT:    addq %r14, %rbx
+; AVX512BW-NEXT:    adcq %rbp, %r15
 ; AVX512BW-NEXT:    movq %r11, %rax
-; AVX512BW-NEXT:    mulq %rsi
-; AVX512BW-NEXT:    addq %r12, %rax
+; AVX512BW-NEXT:    imulq %rcx
+; AVX512BW-NEXT:    addq %rbx, %rax
 ; AVX512BW-NEXT:    adcq %r15, %rdx
-; AVX512BW-NEXT:    addq %r14, %rax
-; AVX512BW-NEXT:    adcq %rbx, %rdx
-; AVX512BW-NEXT:    movq {{[0-9]+}}(%rsp), %r12
 ; AVX512BW-NEXT:    movq %r10, 24(%r12)
 ; AVX512BW-NEXT:    sarq $63, %r10
 ; AVX512BW-NEXT:    xorq %r10, %rdx
@@ -4016,56 +3872,43 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; AVX512BW-NEXT:    orq %rdx, %r10
 ; AVX512BW-NEXT:    setne %al
 ; AVX512BW-NEXT:    kmovd %eax, %k0
-; AVX512BW-NEXT:    movq %r9, %rdx
-; AVX512BW-NEXT:    sarq $63, %rdx
-; AVX512BW-NEXT:    movq %rbp, %rsi
-; AVX512BW-NEXT:    imulq %rdx, %rsi
-; AVX512BW-NEXT:    movq %r8, %rax
-; AVX512BW-NEXT:    mulq %rdx
-; AVX512BW-NEXT:    movq %rdx, %r10
-; AVX512BW-NEXT:    movq %rax, %r14
-; AVX512BW-NEXT:    addq %rax, %r10
-; AVX512BW-NEXT:    addq %rsi, %r10
-; AVX512BW-NEXT:    movq %rbp, %rax
-; AVX512BW-NEXT:    sarq $63, %rax
-; AVX512BW-NEXT:    movq %rax, %rsi
-; AVX512BW-NEXT:    imulq %r9, %rsi
-; AVX512BW-NEXT:    mulq %rdi
-; AVX512BW-NEXT:    movq %rax, %rbx
-; AVX512BW-NEXT:    movq %rdx, %r11
-; AVX512BW-NEXT:    addq %rsi, %r11
-; AVX512BW-NEXT:    addq %rax, %r11
-; AVX512BW-NEXT:    addq %r14, %rbx
-; AVX512BW-NEXT:    adcq %r10, %r11
+; AVX512BW-NEXT:    movq %rsi, %rcx
+; AVX512BW-NEXT:    sarq $63, %rcx
+; AVX512BW-NEXT:    imulq %r8, %rcx
 ; AVX512BW-NEXT:    movq %rdi, %rax
 ; AVX512BW-NEXT:    mulq %r8
-; AVX512BW-NEXT:    movq %rdx, %r14
+; AVX512BW-NEXT:    movq %rdx, %r11
 ; AVX512BW-NEXT:    movq %rax, %r10
-; AVX512BW-NEXT:    movq %r9, %rax
+; AVX512BW-NEXT:    movq %rsi, %rax
 ; AVX512BW-NEXT:    mulq %r8
 ; AVX512BW-NEXT:    movq %rdx, %r8
-; AVX512BW-NEXT:    movq %rax, %r15
-; AVX512BW-NEXT:    addq %r14, %r15
-; AVX512BW-NEXT:    adcq $0, %r8
+; AVX512BW-NEXT:    movq %rax, %rbx
+; AVX512BW-NEXT:    addq %r11, %rbx
+; AVX512BW-NEXT:    adcq %rcx, %r8
+; AVX512BW-NEXT:    movq %r8, %rcx
+; AVX512BW-NEXT:    sarq $63, %rcx
+; AVX512BW-NEXT:    movq %r9, %r14
+; AVX512BW-NEXT:    sarq $63, %r14
+; AVX512BW-NEXT:    imulq %rdi, %r14
 ; AVX512BW-NEXT:    movq %rdi, %rax
-; AVX512BW-NEXT:    mulq %rbp
+; AVX512BW-NEXT:    mulq %r9
 ; AVX512BW-NEXT:    movq %rdx, %rdi
-; AVX512BW-NEXT:    movq %rax, %r14
-; AVX512BW-NEXT:    addq %r15, %r14
-; AVX512BW-NEXT:    adcq %r8, %rdi
-; AVX512BW-NEXT:    setb %al
-; AVX512BW-NEXT:    movzbl %al, %esi
-; AVX512BW-NEXT:    movq %r9, %rax
-; AVX512BW-NEXT:    mulq %rbp
+; AVX512BW-NEXT:    movq %rax, %r11
+; AVX512BW-NEXT:    addq %rbx, %r11
+; AVX512BW-NEXT:    adcq %r14, %rdi
+; AVX512BW-NEXT:    movq %rdi, %rbx
+; AVX512BW-NEXT:    sarq $63, %rbx
+; AVX512BW-NEXT:    addq %r8, %rdi
+; AVX512BW-NEXT:    adcq %rcx, %rbx
+; AVX512BW-NEXT:    movq %rsi, %rax
+; AVX512BW-NEXT:    imulq %r9
 ; AVX512BW-NEXT:    addq %rdi, %rax
-; AVX512BW-NEXT:    adcq %rsi, %rdx
-; AVX512BW-NEXT:    addq %rbx, %rax
-; AVX512BW-NEXT:    adcq %r11, %rdx
-; AVX512BW-NEXT:    movq %r14, 8(%r12)
-; AVX512BW-NEXT:    sarq $63, %r14
-; AVX512BW-NEXT:    xorq %r14, %rdx
-; AVX512BW-NEXT:    xorq %rax, %r14
-; AVX512BW-NEXT:    orq %rdx, %r14
+; AVX512BW-NEXT:    adcq %rbx, %rdx
+; AVX512BW-NEXT:    movq %r11, 8(%r12)
+; AVX512BW-NEXT:    sarq $63, %r11
+; AVX512BW-NEXT:    xorq %r11, %rdx
+; AVX512BW-NEXT:    xorq %rax, %r11
+; AVX512BW-NEXT:    orq %rdx, %r11
 ; AVX512BW-NEXT:    setne %al
 ; AVX512BW-NEXT:    andl $1, %eax
 ; AVX512BW-NEXT:    kmovw %eax, %k1
@@ -4073,7 +3916,8 @@ define <2 x i32> @smulo_v2i128(<2 x i128> %a0, <2 x i128> %a1, ptr %p2) nounwind
 ; AVX512BW-NEXT:    korw %k0, %k1, %k1
 ; AVX512BW-NEXT:    vpcmpeqd %xmm0, %xmm0, %xmm0
 ; AVX512BW-NEXT:    vmovdqa32 %xmm0, %xmm0 {%k1} {z}
-; AVX512BW-NEXT:    movq %rcx, 16(%r12)
+; AVX512BW-NEXT:    movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
+; AVX512BW-NEXT:    movq %rax, 16(%r12)
 ; AVX512BW-NEXT:    movq %r10, (%r12)
 ; AVX512BW-NEXT:    popq %rbx
 ; AVX512BW-NEXT:    popq %r12
diff --git a/llvm/test/CodeGen/X86/vector-trunc-nowrap.ll b/llvm/test/CodeGen/X86/vector-trunc-nowrap.ll
index 32c7e820c967b..2b8eedfbbdc9c 100644
--- a/llvm/test/CodeGen/X86/vector-trunc-nowrap.ll
+++ b/llvm/test/CodeGen/X86/vector-trunc-nowrap.ll
@@ -107,50 +107,28 @@ entry:
 }
 
 define <8 x i16> @trunc8i64_8i16_nsw(<8 x i64> %a) {
-; SSE2-SSSE3-LABEL: trunc8i64_8i16_nsw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
-; SSE2-SSSE3-NEXT:    pslld $16, %xmm2
-; SSE2-SSSE3-NEXT:    psrad $16, %xmm2
-; SSE2-SSSE3-NEXT:    shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
-; SSE2-SSSE3-NEXT:    pslld $16, %xmm0
-; SSE2-SSSE3-NEXT:    psrad $16, %xmm0
-; SSE2-SSSE3-NEXT:    packssdw %xmm2, %xmm0
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc8i64_8i16_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm4, %xmm4
-; SSE41-NEXT:    pblendw {{.*#+}} xmm3 = xmm3[0],xmm4[1,2,3],xmm3[4],xmm4[5,6,7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0],xmm4[1,2,3],xmm2[4],xmm4[5,6,7]
-; SSE41-NEXT:    packusdw %xmm3, %xmm2
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm4[1,2,3],xmm1[4],xmm4[5,6,7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm4[1,2,3],xmm0[4],xmm4[5,6,7]
-; SSE41-NEXT:    packusdw %xmm1, %xmm0
-; SSE41-NEXT:    packusdw %xmm2, %xmm0
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc8i64_8i16_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packssdw %xmm3, %xmm2
+; SSE-NEXT:    packssdw %xmm1, %xmm0
+; SSE-NEXT:    packssdw %xmm2, %xmm0
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc8i64_8i16_nsw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastsd {{.*#+}} ymm2 = [65535,65535,65535,65535]
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
-; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm3
-; AVX1-NEXT:    vpackusdw %xmm3, %xmm1, %xmm1
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
+; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT:    vpackssdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
-; AVX1-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
-; AVX1-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX1-NEXT:    vpackssdw %xmm2, %xmm0, %xmm0
+; AVX1-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
 ;
 ; AVX2-LABEL: trunc8i64_8i16_nsw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpxor %xmm2, %xmm2, %xmm2
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
-; AVX2-NEXT:    vpackusdw %ymm1, %ymm0, %ymm0
+; AVX2-NEXT:    vpackssdw %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
-; AVX2-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX2-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
@@ -179,23 +157,15 @@ define <8 x i16> @trunc8i64_8i16_nuw(<8 x i64> %a) {
 ;
 ; SSE41-LABEL: trunc8i64_8i16_nuw:
 ; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm4, %xmm4
-; SSE41-NEXT:    pblendw {{.*#+}} xmm3 = xmm3[0],xmm4[1,2,3],xmm3[4],xmm4[5,6,7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0],xmm4[1,2,3],xmm2[4],xmm4[5,6,7]
 ; SSE41-NEXT:    packusdw %xmm3, %xmm2
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm4[1,2,3],xmm1[4],xmm4[5,6,7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm4[1,2,3],xmm0[4],xmm4[5,6,7]
 ; SSE41-NEXT:    packusdw %xmm1, %xmm0
 ; SSE41-NEXT:    packusdw %xmm2, %xmm0
 ; SSE41-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc8i64_8i16_nuw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastsd {{.*#+}} ymm2 = [65535,65535,65535,65535]
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
-; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm3
-; AVX1-NEXT:    vpackusdw %xmm3, %xmm1, %xmm1
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
+; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
 ; AVX1-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
@@ -204,9 +174,6 @@ define <8 x i16> @trunc8i64_8i16_nuw(<8 x i64> %a) {
 ;
 ; AVX2-LABEL: trunc8i64_8i16_nuw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpxor %xmm2, %xmm2, %xmm2
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
 ; AVX2-NEXT:    vpackusdw %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
 ; AVX2-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
@@ -225,59 +192,34 @@ entry:
 }
 
 define void @trunc8i64_8i8_nsw(<8 x i64> %a) {
-; SSE2-SSSE3-LABEL: trunc8i64_8i8_nsw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm4 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm3
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm2
-; SSE2-SSSE3-NEXT:    packuswb %xmm3, %xmm2
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm2, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm0, %xmm0
-; SSE2-SSSE3-NEXT:    movq %xmm0, (%rax)
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc8i64_8i8_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbq {{.*#+}} xmm4 = [255,255]
-; SSE41-NEXT:    pand %xmm4, %xmm3
-; SSE41-NEXT:    pand %xmm4, %xmm2
-; SSE41-NEXT:    packusdw %xmm3, %xmm2
-; SSE41-NEXT:    pand %xmm4, %xmm1
-; SSE41-NEXT:    pand %xmm4, %xmm0
-; SSE41-NEXT:    packusdw %xmm1, %xmm0
-; SSE41-NEXT:    packusdw %xmm2, %xmm0
-; SSE41-NEXT:    packuswb %xmm0, %xmm0
-; SSE41-NEXT:    movq %xmm0, (%rax)
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc8i64_8i8_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packssdw %xmm3, %xmm2
+; SSE-NEXT:    packssdw %xmm1, %xmm0
+; SSE-NEXT:    packssdw %xmm2, %xmm0
+; SSE-NEXT:    packsswb %xmm0, %xmm0
+; SSE-NEXT:    movq %xmm0, (%rax)
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc8i64_8i8_nsw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastsd {{.*#+}} ymm2 = [255,255,255,255]
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
-; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm3
-; AVX1-NEXT:    vpackusdw %xmm3, %xmm1, %xmm1
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
+; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT:    vpackssdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
-; AVX1-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
-; AVX1-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
-; AVX1-NEXT:    vpackuswb %xmm0, %xmm0, %xmm0
+; AVX1-NEXT:    vpackssdw %xmm2, %xmm0, %xmm0
+; AVX1-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
+; AVX1-NEXT:    vpacksswb %xmm0, %xmm0, %xmm0
 ; AVX1-NEXT:    vmovq %xmm0, (%rax)
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
 ;
 ; AVX2-LABEL: trunc8i64_8i8_nsw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastq {{.*#+}} ymm2 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]
-; AVX2-NEXT:    vpand %ymm2, %ymm1, %ymm1
-; AVX2-NEXT:    vpand %ymm2, %ymm0, %ymm0
-; AVX2-NEXT:    vpackusdw %ymm1, %ymm0, %ymm0
+; AVX2-NEXT:    vpackssdw %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
-; AVX2-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX2-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
 ; AVX2-NEXT:    vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
-; AVX2-NEXT:    vpackuswb %xmm0, %xmm0, %xmm0
+; AVX2-NEXT:    vpacksswb %xmm0, %xmm0, %xmm0
 ; AVX2-NEXT:    vmovq %xmm0, (%rax)
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
@@ -296,12 +238,7 @@ entry:
 define void @trunc8i64_8i8_nuw(<8 x i64> %a) {
 ; SSE2-SSSE3-LABEL: trunc8i64_8i8_nuw:
 ; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm4 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm3
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm2
 ; SSE2-SSSE3-NEXT:    packuswb %xmm3, %xmm2
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm0
 ; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
 ; SSE2-SSSE3-NEXT:    packuswb %xmm2, %xmm0
 ; SSE2-SSSE3-NEXT:    packuswb %xmm0, %xmm0
@@ -310,12 +247,7 @@ define void @trunc8i64_8i8_nuw(<8 x i64> %a) {
 ;
 ; SSE41-LABEL: trunc8i64_8i8_nuw:
 ; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbq {{.*#+}} xmm4 = [255,255]
-; SSE41-NEXT:    pand %xmm4, %xmm3
-; SSE41-NEXT:    pand %xmm4, %xmm2
 ; SSE41-NEXT:    packusdw %xmm3, %xmm2
-; SSE41-NEXT:    pand %xmm4, %xmm1
-; SSE41-NEXT:    pand %xmm4, %xmm0
 ; SSE41-NEXT:    packusdw %xmm1, %xmm0
 ; SSE41-NEXT:    packusdw %xmm2, %xmm0
 ; SSE41-NEXT:    packuswb %xmm0, %xmm0
@@ -324,11 +256,8 @@ define void @trunc8i64_8i8_nuw(<8 x i64> %a) {
 ;
 ; AVX1-LABEL: trunc8i64_8i8_nuw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastsd {{.*#+}} ymm2 = [255,255,255,255]
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
-; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm3
-; AVX1-NEXT:    vpackusdw %xmm3, %xmm1, %xmm1
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
+; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
 ; AVX1-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
@@ -339,9 +268,6 @@ define void @trunc8i64_8i8_nuw(<8 x i64> %a) {
 ;
 ; AVX2-LABEL: trunc8i64_8i8_nuw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastq {{.*#+}} ymm2 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]
-; AVX2-NEXT:    vpand %ymm2, %ymm1, %ymm1
-; AVX2-NEXT:    vpand %ymm2, %ymm0, %ymm0
 ; AVX2-NEXT:    vpackusdw %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
 ; AVX2-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
@@ -363,44 +289,22 @@ entry:
 }
 
 define <8 x i16> @trunc8i32_8i16_nsw(<8 x i32> %a) {
-; SSE2-LABEL: trunc8i32_8i16_nsw:
-; SSE2:       # %bb.0: # %entry
-; SSE2-NEXT:    pslld $16, %xmm1
-; SSE2-NEXT:    psrad $16, %xmm1
-; SSE2-NEXT:    pslld $16, %xmm0
-; SSE2-NEXT:    psrad $16, %xmm0
-; SSE2-NEXT:    packssdw %xmm1, %xmm0
-; SSE2-NEXT:    retq
-;
-; SSSE3-LABEL: trunc8i32_8i16_nsw:
-; SSSE3:       # %bb.0: # %entry
-; SSSE3-NEXT:    movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-; SSSE3-NEXT:    pshufb %xmm2, %xmm1
-; SSSE3-NEXT:    pshufb %xmm2, %xmm0
-; SSSE3-NEXT:    punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
-; SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc8i32_8i16_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm2, %xmm2
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
-; SSE41-NEXT:    packusdw %xmm1, %xmm0
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc8i32_8i16_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packssdw %xmm1, %xmm0
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc8i32_8i16_nsw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm1
-; AVX1-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX1-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
 ;
 ; AVX2-LABEL: trunc8i32_8i16_nsw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
-; AVX2-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
-; AVX2-NEXT:    # kill: def $xmm0 killed $xmm0 killed $ymm0
+; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
+; AVX2-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
 ;
@@ -456,15 +360,11 @@ define <8 x i16> @trunc8i32_8i16_nuw(<8 x i32> %a) {
 ;
 ; SSE41-LABEL: trunc8i32_8i16_nuw:
 ; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm2, %xmm2
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
 ; SSE41-NEXT:    packusdw %xmm1, %xmm0
 ; SSE41-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc8i32_8i16_nuw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm1
 ; AVX1-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
 ; AVX1-NEXT:    vzeroupper
@@ -472,9 +372,8 @@ define <8 x i16> @trunc8i32_8i16_nuw(<8 x i32> %a) {
 ;
 ; AVX2-LABEL: trunc8i32_8i16_nuw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
-; AVX2-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
-; AVX2-NEXT:    # kill: def $xmm0 killed $xmm0 killed $ymm0
+; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
+; AVX2-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
 ;
@@ -511,33 +410,18 @@ entry:
 }
 
 define void @trunc8i32_8i8_nsw(<8 x i32> %a) {
-; SSE2-SSSE3-LABEL: trunc8i32_8i8_nsw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm2 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm0, %xmm0
-; SSE2-SSSE3-NEXT:    movq %xmm0, (%rax)
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc8i32_8i8_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbd {{.*#+}} xmm2 = [255,255,255,255]
-; SSE41-NEXT:    pand %xmm2, %xmm1
-; SSE41-NEXT:    pand %xmm2, %xmm0
-; SSE41-NEXT:    packusdw %xmm1, %xmm0
-; SSE41-NEXT:    packuswb %xmm0, %xmm0
-; SSE41-NEXT:    movq %xmm0, (%rax)
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc8i32_8i8_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packssdw %xmm1, %xmm0
+; SSE-NEXT:    packsswb %xmm0, %xmm0
+; SSE-NEXT:    movq %xmm0, (%rax)
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc8i32_8i8_nsw:
 ; AVX1:       # %bb.0: # %entry
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm1
-; AVX1-NEXT:    vmovd {{.*#+}} xmm2 = [0,4,8,12,0,0,0,0,0,0,0,0,0,0,0,0]
-; AVX1-NEXT:    vpshufb %xmm2, %xmm1, %xmm1
-; AVX1-NEXT:    vpshufb %xmm2, %xmm0, %xmm0
-; AVX1-NEXT:    vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+; AVX1-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
+; AVX1-NEXT:    vpacksswb %xmm0, %xmm0, %xmm0
 ; AVX1-NEXT:    vmovq %xmm0, (%rax)
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
@@ -545,10 +429,8 @@ define void @trunc8i32_8i8_nsw(<8 x i32> %a) {
 ; AVX2-LABEL: trunc8i32_8i8_nsw:
 ; AVX2:       # %bb.0: # %entry
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
-; AVX2-NEXT:    vmovd {{.*#+}} xmm2 = [0,4,8,12,0,0,0,0,0,0,0,0,0,0,0,0]
-; AVX2-NEXT:    vpshufb %xmm2, %xmm1, %xmm1
-; AVX2-NEXT:    vpshufb %xmm2, %xmm0, %xmm0
-; AVX2-NEXT:    vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+; AVX2-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
+; AVX2-NEXT:    vpacksswb %xmm0, %xmm0, %xmm0
 ; AVX2-NEXT:    vmovq %xmm0, (%rax)
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
@@ -589,9 +471,6 @@ entry:
 define void @trunc8i32_8i8_nuw(<8 x i32> %a) {
 ; SSE2-SSSE3-LABEL: trunc8i32_8i8_nuw:
 ; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm2 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm0
 ; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
 ; SSE2-SSSE3-NEXT:    packuswb %xmm0, %xmm0
 ; SSE2-SSSE3-NEXT:    movq %xmm0, (%rax)
@@ -599,9 +478,6 @@ define void @trunc8i32_8i8_nuw(<8 x i32> %a) {
 ;
 ; SSE41-LABEL: trunc8i32_8i8_nuw:
 ; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbd {{.*#+}} xmm2 = [255,255,255,255]
-; SSE41-NEXT:    pand %xmm2, %xmm1
-; SSE41-NEXT:    pand %xmm2, %xmm0
 ; SSE41-NEXT:    packusdw %xmm1, %xmm0
 ; SSE41-NEXT:    packuswb %xmm0, %xmm0
 ; SSE41-NEXT:    movq %xmm0, (%rax)
@@ -610,10 +486,8 @@ define void @trunc8i32_8i8_nuw(<8 x i32> %a) {
 ; AVX1-LABEL: trunc8i32_8i8_nuw:
 ; AVX1:       # %bb.0: # %entry
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm1
-; AVX1-NEXT:    vmovd {{.*#+}} xmm2 = [0,4,8,12,0,0,0,0,0,0,0,0,0,0,0,0]
-; AVX1-NEXT:    vpshufb %xmm2, %xmm1, %xmm1
-; AVX1-NEXT:    vpshufb %xmm2, %xmm0, %xmm0
-; AVX1-NEXT:    vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+; AVX1-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX1-NEXT:    vpackuswb %xmm0, %xmm0, %xmm0
 ; AVX1-NEXT:    vmovq %xmm0, (%rax)
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
@@ -621,10 +495,8 @@ define void @trunc8i32_8i8_nuw(<8 x i32> %a) {
 ; AVX2-LABEL: trunc8i32_8i8_nuw:
 ; AVX2:       # %bb.0: # %entry
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
-; AVX2-NEXT:    vmovd {{.*#+}} xmm2 = [0,4,8,12,0,0,0,0,0,0,0,0,0,0,0,0]
-; AVX2-NEXT:    vpshufb %xmm2, %xmm1, %xmm1
-; AVX2-NEXT:    vpshufb %xmm2, %xmm0, %xmm0
-; AVX2-NEXT:    vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
+; AVX2-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX2-NEXT:    vpackuswb %xmm0, %xmm0, %xmm0
 ; AVX2-NEXT:    vmovq %xmm0, (%rax)
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
@@ -663,57 +535,20 @@ entry:
 }
 
 define void @trunc16i32_16i16_nsw(<16 x i32> %a) {
-; SSE2-LABEL: trunc16i32_16i16_nsw:
-; SSE2:       # %bb.0: # %entry
-; SSE2-NEXT:    pslld $16, %xmm1
-; SSE2-NEXT:    psrad $16, %xmm1
-; SSE2-NEXT:    pslld $16, %xmm0
-; SSE2-NEXT:    psrad $16, %xmm0
-; SSE2-NEXT:    packssdw %xmm1, %xmm0
-; SSE2-NEXT:    pslld $16, %xmm3
-; SSE2-NEXT:    psrad $16, %xmm3
-; SSE2-NEXT:    pslld $16, %xmm2
-; SSE2-NEXT:    psrad $16, %xmm2
-; SSE2-NEXT:    packssdw %xmm3, %xmm2
-; SSE2-NEXT:    movdqu %xmm2, (%rax)
-; SSE2-NEXT:    movdqu %xmm0, (%rax)
-; SSE2-NEXT:    retq
-;
-; SSSE3-LABEL: trunc16i32_16i16_nsw:
-; SSSE3:       # %bb.0: # %entry
-; SSSE3-NEXT:    movdqa {{.*#+}} xmm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-; SSSE3-NEXT:    pshufb %xmm4, %xmm1
-; SSSE3-NEXT:    pshufb %xmm4, %xmm0
-; SSSE3-NEXT:    punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
-; SSSE3-NEXT:    pshufb %xmm4, %xmm3
-; SSSE3-NEXT:    pshufb %xmm4, %xmm2
-; SSSE3-NEXT:    punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
-; SSSE3-NEXT:    movdqu %xmm2, (%rax)
-; SSSE3-NEXT:    movdqu %xmm0, (%rax)
-; SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc16i32_16i16_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm4, %xmm4
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm4[1],xmm1[2],xmm4[3],xmm1[4],xmm4[5],xmm1[6],xmm4[7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm4[1],xmm0[2],xmm4[3],xmm0[4],xmm4[5],xmm0[6],xmm4[7]
-; SSE41-NEXT:    packusdw %xmm1, %xmm0
-; SSE41-NEXT:    pblendw {{.*#+}} xmm3 = xmm3[0],xmm4[1],xmm3[2],xmm4[3],xmm3[4],xmm4[5],xmm3[6],xmm4[7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0],xmm4[1],xmm2[2],xmm4[3],xmm2[4],xmm4[5],xmm2[6],xmm4[7]
-; SSE41-NEXT:    packusdw %xmm3, %xmm2
-; SSE41-NEXT:    movdqu %xmm2, (%rax)
-; SSE41-NEXT:    movdqu %xmm0, (%rax)
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc16i32_16i16_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packssdw %xmm1, %xmm0
+; SSE-NEXT:    packssdw %xmm3, %xmm2
+; SSE-NEXT:    movdqu %xmm2, (%rax)
+; SSE-NEXT:    movdqu %xmm0, (%rax)
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc16i32_16i16_nsw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} ymm2 = [65535,65535,65535,65535,65535,65535,65535,65535]
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
-; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm3
-; AVX1-NEXT:    vpackusdw %xmm3, %xmm0, %xmm0
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
+; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
+; AVX1-NEXT:    vpackssdw %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
-; AVX1-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
+; AVX1-NEXT:    vpackssdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vmovdqu %xmm1, (%rax)
 ; AVX1-NEXT:    vmovdqu %xmm0, (%rax)
 ; AVX1-NEXT:    vzeroupper
@@ -721,10 +556,7 @@ define void @trunc16i32_16i16_nsw(<16 x i32> %a) {
 ;
 ; AVX2-LABEL: trunc16i32_16i16_nsw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpxor %xmm2, %xmm2, %xmm2
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7],ymm1[8],ymm2[9],ymm1[10],ymm2[11],ymm1[12],ymm2[13],ymm1[14],ymm2[15]
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7],ymm0[8],ymm2[9],ymm0[10],ymm2[11],ymm0[12],ymm2[13],ymm0[14],ymm2[15]
-; AVX2-NEXT:    vpackusdw %ymm1, %ymm0, %ymm0
+; AVX2-NEXT:    vpackssdw %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
 ; AVX2-NEXT:    vmovdqu %ymm0, (%rax)
 ; AVX2-NEXT:    vzeroupper
@@ -773,12 +605,7 @@ define void @trunc16i32_16i16_nuw(<16 x i32> %a) {
 ;
 ; SSE41-LABEL: trunc16i32_16i16_nuw:
 ; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm4, %xmm4
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm4[1],xmm1[2],xmm4[3],xmm1[4],xmm4[5],xmm1[6],xmm4[7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm4[1],xmm0[2],xmm4[3],xmm0[4],xmm4[5],xmm0[6],xmm4[7]
 ; SSE41-NEXT:    packusdw %xmm1, %xmm0
-; SSE41-NEXT:    pblendw {{.*#+}} xmm3 = xmm3[0],xmm4[1],xmm3[2],xmm4[3],xmm3[4],xmm4[5],xmm3[6],xmm4[7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0],xmm4[1],xmm2[2],xmm4[3],xmm2[4],xmm4[5],xmm2[6],xmm4[7]
 ; SSE41-NEXT:    packusdw %xmm3, %xmm2
 ; SSE41-NEXT:    movdqu %xmm2, (%rax)
 ; SSE41-NEXT:    movdqu %xmm0, (%rax)
@@ -786,11 +613,8 @@ define void @trunc16i32_16i16_nuw(<16 x i32> %a) {
 ;
 ; AVX1-LABEL: trunc16i32_16i16_nuw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} ymm2 = [65535,65535,65535,65535,65535,65535,65535,65535]
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
-; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm3
-; AVX1-NEXT:    vpackusdw %xmm3, %xmm0, %xmm0
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
+; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
+; AVX1-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
 ; AVX1-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vmovdqu %xmm1, (%rax)
@@ -800,9 +624,6 @@ define void @trunc16i32_16i16_nuw(<16 x i32> %a) {
 ;
 ; AVX2-LABEL: trunc16i32_16i16_nuw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpxor %xmm2, %xmm2, %xmm2
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7],ymm1[8],ymm2[9],ymm1[10],ymm2[11],ymm1[12],ymm2[13],ymm1[14],ymm2[15]
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7],ymm0[8],ymm2[9],ymm0[10],ymm2[11],ymm0[12],ymm2[13],ymm0[14],ymm2[15]
 ; AVX2-NEXT:    vpackusdw %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
 ; AVX2-NEXT:    vmovdqu %ymm0, (%rax)
@@ -823,12 +644,7 @@ entry:
 define void @trunc16i32_16i8_nsw(<16 x i32> %a) {
 ; SSE2-SSSE3-LABEL: trunc16i32_16i8_nsw:
 ; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm3
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm2
 ; SSE2-SSSE3-NEXT:    packuswb %xmm3, %xmm2
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm0
 ; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
 ; SSE2-SSSE3-NEXT:    packuswb %xmm2, %xmm0
 ; SSE2-SSSE3-NEXT:    movdqu %xmm0, (%rax)
@@ -836,12 +652,7 @@ define void @trunc16i32_16i8_nsw(<16 x i32> %a) {
 ;
 ; SSE41-LABEL: trunc16i32_16i8_nsw:
 ; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbd {{.*#+}} xmm4 = [255,255,255,255]
-; SSE41-NEXT:    pand %xmm4, %xmm3
-; SSE41-NEXT:    pand %xmm4, %xmm2
 ; SSE41-NEXT:    packusdw %xmm3, %xmm2
-; SSE41-NEXT:    pand %xmm4, %xmm1
-; SSE41-NEXT:    pand %xmm4, %xmm0
 ; SSE41-NEXT:    packusdw %xmm1, %xmm0
 ; SSE41-NEXT:    packuswb %xmm2, %xmm0
 ; SSE41-NEXT:    movdqu %xmm0, (%rax)
@@ -849,11 +660,8 @@ define void @trunc16i32_16i8_nsw(<16 x i32> %a) {
 ;
 ; AVX1-LABEL: trunc16i32_16i8_nsw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
-; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm3
-; AVX1-NEXT:    vpackusdw %xmm3, %xmm1, %xmm1
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
+; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
 ; AVX1-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
@@ -863,9 +671,6 @@ define void @trunc16i32_16i8_nsw(<16 x i32> %a) {
 ;
 ; AVX2-LABEL: trunc16i32_16i8_nsw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastd {{.*#+}} ymm2 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-; AVX2-NEXT:    vpand %ymm2, %ymm1, %ymm1
-; AVX2-NEXT:    vpand %ymm2, %ymm0, %ymm0
 ; AVX2-NEXT:    vpackusdw %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
 ; AVX2-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
@@ -888,12 +693,7 @@ entry:
 define void @trunc16i32_16i8_nuw(<16 x i32> %a) {
 ; SSE2-SSSE3-LABEL: trunc16i32_16i8_nuw:
 ; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm3
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm2
 ; SSE2-SSSE3-NEXT:    packuswb %xmm3, %xmm2
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm0
 ; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
 ; SSE2-SSSE3-NEXT:    packuswb %xmm2, %xmm0
 ; SSE2-SSSE3-NEXT:    movdqu %xmm0, (%rax)
@@ -901,12 +701,7 @@ define void @trunc16i32_16i8_nuw(<16 x i32> %a) {
 ;
 ; SSE41-LABEL: trunc16i32_16i8_nuw:
 ; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbd {{.*#+}} xmm4 = [255,255,255,255]
-; SSE41-NEXT:    pand %xmm4, %xmm3
-; SSE41-NEXT:    pand %xmm4, %xmm2
 ; SSE41-NEXT:    packusdw %xmm3, %xmm2
-; SSE41-NEXT:    pand %xmm4, %xmm1
-; SSE41-NEXT:    pand %xmm4, %xmm0
 ; SSE41-NEXT:    packusdw %xmm1, %xmm0
 ; SSE41-NEXT:    packuswb %xmm2, %xmm0
 ; SSE41-NEXT:    movdqu %xmm0, (%rax)
@@ -914,11 +709,8 @@ define void @trunc16i32_16i8_nuw(<16 x i32> %a) {
 ;
 ; AVX1-LABEL: trunc16i32_16i8_nuw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
-; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm3
-; AVX1-NEXT:    vpackusdw %xmm3, %xmm1, %xmm1
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
+; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
 ; AVX1-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
@@ -928,9 +720,6 @@ define void @trunc16i32_16i8_nuw(<16 x i32> %a) {
 ;
 ; AVX2-LABEL: trunc16i32_16i8_nuw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastd {{.*#+}} ymm2 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
-; AVX2-NEXT:    vpand %ymm2, %ymm1, %ymm1
-; AVX2-NEXT:    vpand %ymm2, %ymm0, %ymm0
 ; AVX2-NEXT:    vpackusdw %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
 ; AVX2-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
@@ -951,38 +740,24 @@ entry:
 }
 
 define void @trunc16i16_16i8_nsw(<16 x i16> %a) {
-; SSE2-SSSE3-LABEL: trunc16i16_16i8_nsw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm2 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    movdqu %xmm0, (%rax)
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc16i16_16i8_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; SSE41-NEXT:    pand %xmm2, %xmm1
-; SSE41-NEXT:    pand %xmm2, %xmm0
-; SSE41-NEXT:    packuswb %xmm1, %xmm0
-; SSE41-NEXT:    movdqu %xmm0, (%rax)
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc16i16_16i8_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packsswb %xmm1, %xmm0
+; SSE-NEXT:    movdqu %xmm0, (%rax)
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc16i16_16i8_nsw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm1
-; AVX1-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
+; AVX1-NEXT:    vpacksswb %xmm1, %xmm0, %xmm0
 ; AVX1-NEXT:    vmovdqu %xmm0, (%rax)
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
 ;
 ; AVX2-LABEL: trunc16i16_16i8_nsw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
-; AVX2-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
+; AVX2-NEXT:    vpacksswb %xmm1, %xmm0, %xmm0
 ; AVX2-NEXT:    vmovdqu %xmm0, (%rax)
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
@@ -1021,27 +796,14 @@ entry:
 }
 
 define void @trunc16i16_16i8_nuw(<16 x i16> %a) {
-; SSE2-SSSE3-LABEL: trunc16i16_16i8_nuw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm2 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    movdqu %xmm0, (%rax)
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc16i16_16i8_nuw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; SSE41-NEXT:    pand %xmm2, %xmm1
-; SSE41-NEXT:    pand %xmm2, %xmm0
-; SSE41-NEXT:    packuswb %xmm1, %xmm0
-; SSE41-NEXT:    movdqu %xmm0, (%rax)
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc16i16_16i8_nuw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packuswb %xmm1, %xmm0
+; SSE-NEXT:    movdqu %xmm0, (%rax)
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc16i16_16i8_nuw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm1
 ; AVX1-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
 ; AVX1-NEXT:    vmovdqu %xmm0, (%rax)
@@ -1050,7 +812,6 @@ define void @trunc16i16_16i8_nuw(<16 x i16> %a) {
 ;
 ; AVX2-LABEL: trunc16i16_16i8_nuw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm1
 ; AVX2-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
 ; AVX2-NEXT:    vmovdqu %xmm0, (%rax)
@@ -1091,41 +852,20 @@ entry:
 }
 
 define void @trunc32i16_32i8_nsw(<32 x i16> %a) {
-; SSE2-SSSE3-LABEL: trunc32i16_32i8_nsw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm4 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm3
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm2
-; SSE2-SSSE3-NEXT:    packuswb %xmm3, %xmm2
-; SSE2-SSSE3-NEXT:    movdqu %xmm2, (%rax)
-; SSE2-SSSE3-NEXT:    movdqu %xmm0, (%rax)
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc32i16_32i8_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
-; SSE41-NEXT:    pand %xmm4, %xmm1
-; SSE41-NEXT:    pand %xmm4, %xmm0
-; SSE41-NEXT:    packuswb %xmm1, %xmm0
-; SSE41-NEXT:    pand %xmm4, %xmm3
-; SSE41-NEXT:    pand %xmm4, %xmm2
-; SSE41-NEXT:    packuswb %xmm3, %xmm2
-; SSE41-NEXT:    movdqu %xmm2, (%rax)
-; SSE41-NEXT:    movdqu %xmm0, (%rax)
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc32i16_32i8_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packsswb %xmm1, %xmm0
+; SSE-NEXT:    packsswb %xmm3, %xmm2
+; SSE-NEXT:    movdqu %xmm2, (%rax)
+; SSE-NEXT:    movdqu %xmm0, (%rax)
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc32i16_32i8_nsw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
-; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm3
-; AVX1-NEXT:    vpackuswb %xmm3, %xmm0, %xmm0
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
+; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
+; AVX1-NEXT:    vpacksswb %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
-; AVX1-NEXT:    vpackuswb %xmm2, %xmm1, %xmm1
+; AVX1-NEXT:    vpacksswb %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vmovdqu %xmm1, (%rax)
 ; AVX1-NEXT:    vmovdqu %xmm0, (%rax)
 ; AVX1-NEXT:    vzeroupper
@@ -1133,10 +873,7 @@ define void @trunc32i16_32i8_nsw(<32 x i16> %a) {
 ;
 ; AVX2-LABEL: trunc32i16_32i8_nsw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastw {{.*#+}} ymm2 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
-; AVX2-NEXT:    vpand %ymm2, %ymm1, %ymm1
-; AVX2-NEXT:    vpand %ymm2, %ymm0, %ymm0
-; AVX2-NEXT:    vpackuswb %ymm1, %ymm0, %ymm0
+; AVX2-NEXT:    vpacksswb %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
 ; AVX2-NEXT:    vmovdqu %ymm0, (%rax)
 ; AVX2-NEXT:    vzeroupper
@@ -1180,41 +917,20 @@ entry:
 }
 
 define void @trunc32i16_32i8_nuw(<32 x i16> %a) {
-; SSE2-SSSE3-LABEL: trunc32i16_32i8_nuw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm4 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm3
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm2
-; SSE2-SSSE3-NEXT:    packuswb %xmm3, %xmm2
-; SSE2-SSSE3-NEXT:    movdqu %xmm2, (%rax)
-; SSE2-SSSE3-NEXT:    movdqu %xmm0, (%rax)
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc32i16_32i8_nuw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
-; SSE41-NEXT:    pand %xmm4, %xmm1
-; SSE41-NEXT:    pand %xmm4, %xmm0
-; SSE41-NEXT:    packuswb %xmm1, %xmm0
-; SSE41-NEXT:    pand %xmm4, %xmm3
-; SSE41-NEXT:    pand %xmm4, %xmm2
-; SSE41-NEXT:    packuswb %xmm3, %xmm2
-; SSE41-NEXT:    movdqu %xmm2, (%rax)
-; SSE41-NEXT:    movdqu %xmm0, (%rax)
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc32i16_32i8_nuw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packsswb %xmm1, %xmm0
+; SSE-NEXT:    packsswb %xmm3, %xmm2
+; SSE-NEXT:    movdqu %xmm2, (%rax)
+; SSE-NEXT:    movdqu %xmm0, (%rax)
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc32i16_32i8_nuw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
-; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm3
-; AVX1-NEXT:    vpackuswb %xmm3, %xmm0, %xmm0
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
+; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
+; AVX1-NEXT:    vpacksswb %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
-; AVX1-NEXT:    vpackuswb %xmm2, %xmm1, %xmm1
+; AVX1-NEXT:    vpacksswb %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vmovdqu %xmm1, (%rax)
 ; AVX1-NEXT:    vmovdqu %xmm0, (%rax)
 ; AVX1-NEXT:    vzeroupper
@@ -1222,10 +938,7 @@ define void @trunc32i16_32i8_nuw(<32 x i16> %a) {
 ;
 ; AVX2-LABEL: trunc32i16_32i8_nuw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastw {{.*#+}} ymm2 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
-; AVX2-NEXT:    vpand %ymm2, %ymm1, %ymm1
-; AVX2-NEXT:    vpand %ymm2, %ymm0, %ymm0
-; AVX2-NEXT:    vpackuswb %ymm1, %ymm0, %ymm0
+; AVX2-NEXT:    vpacksswb %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
 ; AVX2-NEXT:    vmovdqu %ymm0, (%rax)
 ; AVX2-NEXT:    vzeroupper
@@ -1369,54 +1082,30 @@ entry:
 }
 
 define <8 x i16> @trunc2x4i64_8i16_nsw(<4 x i64> %a, <4 x i64> %b) {
-; SSE2-SSSE3-LABEL: trunc2x4i64_8i16_nsw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
-; SSE2-SSSE3-NEXT:    pslld $16, %xmm0
-; SSE2-SSSE3-NEXT:    psrad $16, %xmm0
-; SSE2-SSSE3-NEXT:    shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
-; SSE2-SSSE3-NEXT:    pslld $16, %xmm2
-; SSE2-SSSE3-NEXT:    psrad $16, %xmm2
-; SSE2-SSSE3-NEXT:    packssdw %xmm2, %xmm0
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc2x4i64_8i16_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm4, %xmm4
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm4[1,2,3],xmm1[4],xmm4[5,6,7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm4[1,2,3],xmm0[4],xmm4[5,6,7]
-; SSE41-NEXT:    packusdw %xmm1, %xmm0
-; SSE41-NEXT:    pblendw {{.*#+}} xmm3 = xmm3[0],xmm4[1,2,3],xmm3[4],xmm4[5,6,7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0],xmm4[1,2,3],xmm2[4],xmm4[5,6,7]
-; SSE41-NEXT:    packusdw %xmm3, %xmm2
-; SSE41-NEXT:    packusdw %xmm2, %xmm0
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc2x4i64_8i16_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packssdw %xmm1, %xmm0
+; SSE-NEXT:    packssdw %xmm3, %xmm2
+; SSE-NEXT:    packssdw %xmm2, %xmm0
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc2x4i64_8i16_nsw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
-; AVX1-NEXT:    vpxor %xmm3, %xmm3, %xmm3
-; AVX1-NEXT:    vpblendw {{.*#+}} xmm2 = xmm2[0],xmm3[1,2,3],xmm2[4],xmm3[5,6,7]
-; AVX1-NEXT:    vpblendw {{.*#+}} xmm1 = xmm1[0],xmm3[1,2,3],xmm1[4],xmm3[5,6,7]
-; AVX1-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
-; AVX1-NEXT:    vpblendw {{.*#+}} xmm2 = xmm2[0],xmm3[1,2,3],xmm2[4],xmm3[5,6,7]
-; AVX1-NEXT:    vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
-; AVX1-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
-; AVX1-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX1-NEXT:    vpackssdw %xmm2, %xmm0, %xmm0
+; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT:    vpackssdw %xmm2, %xmm1, %xmm1
+; AVX1-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
 ;
 ; AVX2-LABEL: trunc2x4i64_8i16_nsw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpxor %xmm2, %xmm2, %xmm2
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
-; AVX2-NEXT:    vextracti128 $1, %ymm1, %xmm3
-; AVX2-NEXT:    vpackusdw %xmm3, %xmm1, %xmm1
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm2
-; AVX2-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
-; AVX2-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX2-NEXT:    vpackssdw %xmm2, %xmm0, %xmm0
+; AVX2-NEXT:    vextracti128 $1, %ymm1, %xmm2
+; AVX2-NEXT:    vpackssdw %xmm2, %xmm1, %xmm1
+; AVX2-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
 ;
@@ -1476,40 +1165,27 @@ define <8 x i16> @trunc2x4i64_8i16_nuw(<4 x i64> %a, <4 x i64> %b) {
 ;
 ; SSE41-LABEL: trunc2x4i64_8i16_nuw:
 ; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm4, %xmm4
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm4[1,2,3],xmm1[4],xmm4[5,6,7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm4[1,2,3],xmm0[4],xmm4[5,6,7]
 ; SSE41-NEXT:    packusdw %xmm1, %xmm0
-; SSE41-NEXT:    pblendw {{.*#+}} xmm3 = xmm3[0],xmm4[1,2,3],xmm3[4],xmm4[5,6,7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm2 = xmm2[0],xmm4[1,2,3],xmm2[4],xmm4[5,6,7]
 ; SSE41-NEXT:    packusdw %xmm3, %xmm2
 ; SSE41-NEXT:    packusdw %xmm2, %xmm0
 ; SSE41-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc2x4i64_8i16_nuw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
-; AVX1-NEXT:    vpxor %xmm3, %xmm3, %xmm3
-; AVX1-NEXT:    vpblendw {{.*#+}} xmm2 = xmm2[0],xmm3[1,2,3],xmm2[4],xmm3[5,6,7]
-; AVX1-NEXT:    vpblendw {{.*#+}} xmm1 = xmm1[0],xmm3[1,2,3],xmm1[4],xmm3[5,6,7]
-; AVX1-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
-; AVX1-NEXT:    vpblendw {{.*#+}} xmm2 = xmm2[0],xmm3[1,2,3],xmm2[4],xmm3[5,6,7]
-; AVX1-NEXT:    vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
 ; AVX1-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
+; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
 ; AVX1-NEXT:    vzeroupper
 ; AVX1-NEXT:    retq
 ;
 ; AVX2-LABEL: trunc2x4i64_8i16_nuw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpxor %xmm2, %xmm2, %xmm2
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
-; AVX2-NEXT:    vextracti128 $1, %ymm1, %xmm3
-; AVX2-NEXT:    vpackusdw %xmm3, %xmm1, %xmm1
-; AVX2-NEXT:    vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
 ; AVX2-NEXT:    vextracti128 $1, %ymm0, %xmm2
 ; AVX2-NEXT:    vpackusdw %xmm2, %xmm0, %xmm0
+; AVX2-NEXT:    vextracti128 $1, %ymm1, %xmm2
+; AVX2-NEXT:    vpackusdw %xmm2, %xmm1, %xmm1
 ; AVX2-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
 ; AVX2-NEXT:    vzeroupper
 ; AVX2-NEXT:    retq
@@ -1643,72 +1319,20 @@ entry:
 }
 
 define <8 x i16> @trunc2x4i32_8i16_nsw(<4 x i32> %a, <4 x i32> %b) {
-; SSE2-LABEL: trunc2x4i32_8i16_nsw:
-; SSE2:       # %bb.0: # %entry
-; SSE2-NEXT:    pslld $16, %xmm1
-; SSE2-NEXT:    psrad $16, %xmm1
-; SSE2-NEXT:    pslld $16, %xmm0
-; SSE2-NEXT:    psrad $16, %xmm0
-; SSE2-NEXT:    packssdw %xmm1, %xmm0
-; SSE2-NEXT:    retq
-;
-; SSSE3-LABEL: trunc2x4i32_8i16_nsw:
-; SSSE3:       # %bb.0: # %entry
-; SSSE3-NEXT:    movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
-; SSSE3-NEXT:    pshufb %xmm2, %xmm1
-; SSSE3-NEXT:    pshufb %xmm2, %xmm0
-; SSSE3-NEXT:    punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
-; SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc2x4i32_8i16_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm2, %xmm2
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
-; SSE41-NEXT:    packusdw %xmm1, %xmm0
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc2x4i32_8i16_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packssdw %xmm1, %xmm0
+; SSE-NEXT:    retq
 ;
 ; AVX-LABEL: trunc2x4i32_8i16_nsw:
 ; AVX:       # %bb.0: # %entry
-; AVX-NEXT:    vpxor %xmm2, %xmm2, %xmm2
-; AVX-NEXT:    vpblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-; AVX-NEXT:    vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
-; AVX-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
 ; AVX-NEXT:    retq
 ;
-; AVX512F-LABEL: trunc2x4i32_8i16_nsw:
-; AVX512F:       # %bb.0: # %entry
-; AVX512F-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512F-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512F-NEXT:    vpmovdw %zmm0, %ymm0
-; AVX512F-NEXT:    # kill: def $xmm0 killed $xmm0 killed $ymm0
-; AVX512F-NEXT:    vzeroupper
-; AVX512F-NEXT:    retq
-;
-; AVX512VL-LABEL: trunc2x4i32_8i16_nsw:
-; AVX512VL:       # %bb.0: # %entry
-; AVX512VL-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512VL-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512VL-NEXT:    vpmovdw %ymm0, %xmm0
-; AVX512VL-NEXT:    vzeroupper
-; AVX512VL-NEXT:    retq
-;
-; AVX512BW-LABEL: trunc2x4i32_8i16_nsw:
-; AVX512BW:       # %bb.0: # %entry
-; AVX512BW-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512BW-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512BW-NEXT:    vpmovdw %zmm0, %ymm0
-; AVX512BW-NEXT:    # kill: def $xmm0 killed $xmm0 killed $ymm0
-; AVX512BW-NEXT:    vzeroupper
-; AVX512BW-NEXT:    retq
-;
-; AVX512BWVL-LABEL: trunc2x4i32_8i16_nsw:
-; AVX512BWVL:       # %bb.0: # %entry
-; AVX512BWVL-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512BWVL-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512BWVL-NEXT:    vpmovdw %ymm0, %xmm0
-; AVX512BWVL-NEXT:    vzeroupper
-; AVX512BWVL-NEXT:    retq
+; AVX512-LABEL: trunc2x4i32_8i16_nsw:
+; AVX512:       # %bb.0: # %entry
+; AVX512-NEXT:    vpackssdw %xmm1, %xmm0, %xmm0
+; AVX512-NEXT:    retq
 entry:
   %0 = trunc nsw <4 x i32> %a to <4 x i16>
   %1 = trunc nsw <4 x i32> %b to <4 x i16>
@@ -1736,53 +1360,18 @@ define <8 x i16> @trunc2x4i32_8i16_nuw(<4 x i32> %a, <4 x i32> %b) {
 ;
 ; SSE41-LABEL: trunc2x4i32_8i16_nuw:
 ; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pxor %xmm2, %xmm2
-; SSE41-NEXT:    pblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-; SSE41-NEXT:    pblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
 ; SSE41-NEXT:    packusdw %xmm1, %xmm0
 ; SSE41-NEXT:    retq
 ;
 ; AVX-LABEL: trunc2x4i32_8i16_nuw:
 ; AVX:       # %bb.0: # %entry
-; AVX-NEXT:    vpxor %xmm2, %xmm2, %xmm2
-; AVX-NEXT:    vpblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
-; AVX-NEXT:    vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
 ; AVX-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
 ; AVX-NEXT:    retq
 ;
-; AVX512F-LABEL: trunc2x4i32_8i16_nuw:
-; AVX512F:       # %bb.0: # %entry
-; AVX512F-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512F-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512F-NEXT:    vpmovdw %zmm0, %ymm0
-; AVX512F-NEXT:    # kill: def $xmm0 killed $xmm0 killed $ymm0
-; AVX512F-NEXT:    vzeroupper
-; AVX512F-NEXT:    retq
-;
-; AVX512VL-LABEL: trunc2x4i32_8i16_nuw:
-; AVX512VL:       # %bb.0: # %entry
-; AVX512VL-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512VL-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512VL-NEXT:    vpmovdw %ymm0, %xmm0
-; AVX512VL-NEXT:    vzeroupper
-; AVX512VL-NEXT:    retq
-;
-; AVX512BW-LABEL: trunc2x4i32_8i16_nuw:
-; AVX512BW:       # %bb.0: # %entry
-; AVX512BW-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512BW-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512BW-NEXT:    vpmovdw %zmm0, %ymm0
-; AVX512BW-NEXT:    # kill: def $xmm0 killed $xmm0 killed $ymm0
-; AVX512BW-NEXT:    vzeroupper
-; AVX512BW-NEXT:    retq
-;
-; AVX512BWVL-LABEL: trunc2x4i32_8i16_nuw:
-; AVX512BWVL:       # %bb.0: # %entry
-; AVX512BWVL-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512BWVL-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512BWVL-NEXT:    vpmovdw %ymm0, %xmm0
-; AVX512BWVL-NEXT:    vzeroupper
-; AVX512BWVL-NEXT:    retq
+; AVX512-LABEL: trunc2x4i32_8i16_nuw:
+; AVX512:       # %bb.0: # %entry
+; AVX512-NEXT:    vpackusdw %xmm1, %xmm0, %xmm0
+; AVX512-NEXT:    retq
 entry:
   %0 = trunc nuw <4 x i32> %a to <4 x i16>
   %1 = trunc nuw <4 x i32> %b to <4 x i16>
@@ -1791,48 +1380,25 @@ entry:
 }
 
 define <32 x i8> @trunc2x16i16_32i8_nsw(<16 x i16> %a, <16 x i16> %b) {
-; SSE2-SSSE3-LABEL: trunc2x16i16_32i8_nsw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm4 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm3
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm4
-; SSE2-SSSE3-NEXT:    packuswb %xmm3, %xmm4
-; SSE2-SSSE3-NEXT:    movdqa %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc2x16i16_32i8_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
-; SSE41-NEXT:    pand %xmm4, %xmm1
-; SSE41-NEXT:    pand %xmm4, %xmm0
-; SSE41-NEXT:    packuswb %xmm1, %xmm0
-; SSE41-NEXT:    pand %xmm4, %xmm3
-; SSE41-NEXT:    pand %xmm2, %xmm4
-; SSE41-NEXT:    packuswb %xmm3, %xmm4
-; SSE41-NEXT:    movdqa %xmm4, %xmm1
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc2x16i16_32i8_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packsswb %xmm1, %xmm0
+; SSE-NEXT:    packsswb %xmm3, %xmm2
+; SSE-NEXT:    movdqa %xmm2, %xmm1
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc2x16i16_32i8_nsw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
-; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm3
-; AVX1-NEXT:    vpackuswb %xmm3, %xmm0, %xmm0
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
+; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
+; AVX1-NEXT:    vpacksswb %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
-; AVX1-NEXT:    vpackuswb %xmm2, %xmm1, %xmm1
+; AVX1-NEXT:    vpacksswb %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
 ; AVX1-NEXT:    retq
 ;
 ; AVX2-LABEL: trunc2x16i16_32i8_nsw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastw {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX2-NEXT:    vpand %ymm2, %ymm0, %ymm0
-; AVX2-NEXT:    vpand %ymm2, %ymm1, %ymm1
-; AVX2-NEXT:    vpackuswb %ymm1, %ymm0, %ymm0
+; AVX2-NEXT:    vpacksswb %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
 ; AVX2-NEXT:    retq
 ;
@@ -1875,37 +1441,17 @@ entry:
 }
 
 define <32 x i8> @trunc2x16i16_32i8_nuw(<16 x i16> %a, <16 x i16> %b) {
-; SSE2-SSSE3-LABEL: trunc2x16i16_32i8_nuw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm4 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    pand %xmm4, %xmm3
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm4
-; SSE2-SSSE3-NEXT:    packuswb %xmm3, %xmm4
-; SSE2-SSSE3-NEXT:    movdqa %xmm4, %xmm1
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc2x16i16_32i8_nuw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
-; SSE41-NEXT:    pand %xmm4, %xmm1
-; SSE41-NEXT:    pand %xmm4, %xmm0
-; SSE41-NEXT:    packuswb %xmm1, %xmm0
-; SSE41-NEXT:    pand %xmm4, %xmm3
-; SSE41-NEXT:    pand %xmm2, %xmm4
-; SSE41-NEXT:    packuswb %xmm3, %xmm4
-; SSE41-NEXT:    movdqa %xmm4, %xmm1
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc2x16i16_32i8_nuw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packuswb %xmm1, %xmm0
+; SSE-NEXT:    packuswb %xmm3, %xmm2
+; SSE-NEXT:    movdqa %xmm2, %xmm1
+; SSE-NEXT:    retq
 ;
 ; AVX1-LABEL: trunc2x16i16_32i8_nuw:
 ; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX1-NEXT:    vandps %ymm2, %ymm0, %ymm0
-; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm3
-; AVX1-NEXT:    vpackuswb %xmm3, %xmm0, %xmm0
-; AVX1-NEXT:    vandps %ymm2, %ymm1, %ymm1
+; AVX1-NEXT:    vextractf128 $1, %ymm0, %xmm2
+; AVX1-NEXT:    vpackuswb %xmm2, %xmm0, %xmm0
 ; AVX1-NEXT:    vextractf128 $1, %ymm1, %xmm2
 ; AVX1-NEXT:    vpackuswb %xmm2, %xmm1, %xmm1
 ; AVX1-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
@@ -1913,9 +1459,6 @@ define <32 x i8> @trunc2x16i16_32i8_nuw(<16 x i16> %a, <16 x i16> %b) {
 ;
 ; AVX2-LABEL: trunc2x16i16_32i8_nuw:
 ; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastw {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
-; AVX2-NEXT:    vpand %ymm2, %ymm0, %ymm0
-; AVX2-NEXT:    vpand %ymm2, %ymm1, %ymm1
 ; AVX2-NEXT:    vpackuswb %ymm1, %ymm0, %ymm0
 ; AVX2-NEXT:    vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
 ; AVX2-NEXT:    retq
@@ -1959,70 +1502,20 @@ entry:
 }
 
 define <16 x i8> @trunc2x8i16_16i8_nsw(<8 x i16> %a, <8 x i16> %b) {
-; SSE2-SSSE3-LABEL: trunc2x8i16_16i8_nsw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc2x8i16_16i8_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; SSE41-NEXT:    pand %xmm2, %xmm1
-; SSE41-NEXT:    pand %xmm2, %xmm0
-; SSE41-NEXT:    packuswb %xmm1, %xmm0
-; SSE41-NEXT:    retq
-;
-; AVX1-LABEL: trunc2x8i16_16i8_nsw:
-; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; AVX1-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; AVX1-NEXT:    vpand %xmm2, %xmm0, %xmm0
-; AVX1-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
-; AVX1-NEXT:    retq
-;
-; AVX2-LABEL: trunc2x8i16_16i8_nsw:
-; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastw {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; AVX2-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; AVX2-NEXT:    vpand %xmm2, %xmm0, %xmm0
-; AVX2-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
-; AVX2-NEXT:    retq
-;
-; AVX512F-LABEL: trunc2x8i16_16i8_nsw:
-; AVX512F:       # %bb.0: # %entry
-; AVX512F-NEXT:    vpbroadcastw {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; AVX512F-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; AVX512F-NEXT:    vpand %xmm2, %xmm0, %xmm0
-; AVX512F-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
-; AVX512F-NEXT:    retq
-;
-; AVX512VL-LABEL: trunc2x8i16_16i8_nsw:
-; AVX512VL:       # %bb.0: # %entry
-; AVX512VL-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; AVX512VL-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; AVX512VL-NEXT:    vpand %xmm2, %xmm0, %xmm0
-; AVX512VL-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
-; AVX512VL-NEXT:    retq
+; SSE-LABEL: trunc2x8i16_16i8_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packsswb %xmm1, %xmm0
+; SSE-NEXT:    retq
 ;
-; AVX512BW-LABEL: trunc2x8i16_16i8_nsw:
-; AVX512BW:       # %bb.0: # %entry
-; AVX512BW-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512BW-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512BW-NEXT:    vpmovwb %zmm0, %ymm0
-; AVX512BW-NEXT:    # kill: def $xmm0 killed $xmm0 killed $ymm0
-; AVX512BW-NEXT:    vzeroupper
-; AVX512BW-NEXT:    retq
+; AVX-LABEL: trunc2x8i16_16i8_nsw:
+; AVX:       # %bb.0: # %entry
+; AVX-NEXT:    vpacksswb %xmm1, %xmm0, %xmm0
+; AVX-NEXT:    retq
 ;
-; AVX512BWVL-LABEL: trunc2x8i16_16i8_nsw:
-; AVX512BWVL:       # %bb.0: # %entry
-; AVX512BWVL-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512BWVL-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512BWVL-NEXT:    vpmovwb %ymm0, %xmm0
-; AVX512BWVL-NEXT:    vzeroupper
-; AVX512BWVL-NEXT:    retq
+; AVX512-LABEL: trunc2x8i16_16i8_nsw:
+; AVX512:       # %bb.0: # %entry
+; AVX512-NEXT:    vpacksswb %xmm1, %xmm0, %xmm0
+; AVX512-NEXT:    retq
 entry:
   %0 = trunc nsw <8 x i16> %a to <8 x i8>
   %1 = trunc nsw <8 x i16> %b to <8 x i8>
@@ -2031,70 +1524,20 @@ entry:
 }
 
 define <16 x i8> @trunc2x8i16_16i8_nuw(<8 x i16> %a, <8 x i16> %b) {
-; SSE2-SSSE3-LABEL: trunc2x8i16_16i8_nuw:
-; SSE2-SSSE3:       # %bb.0: # %entry
-; SSE2-SSSE3-NEXT:    movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm1
-; SSE2-SSSE3-NEXT:    pand %xmm2, %xmm0
-; SSE2-SSSE3-NEXT:    packuswb %xmm1, %xmm0
-; SSE2-SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc2x8i16_16i8_nuw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pmovzxbw {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; SSE41-NEXT:    pand %xmm2, %xmm1
-; SSE41-NEXT:    pand %xmm2, %xmm0
-; SSE41-NEXT:    packuswb %xmm1, %xmm0
-; SSE41-NEXT:    retq
-;
-; AVX1-LABEL: trunc2x8i16_16i8_nuw:
-; AVX1:       # %bb.0: # %entry
-; AVX1-NEXT:    vbroadcastss {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; AVX1-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; AVX1-NEXT:    vpand %xmm2, %xmm0, %xmm0
-; AVX1-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
-; AVX1-NEXT:    retq
-;
-; AVX2-LABEL: trunc2x8i16_16i8_nuw:
-; AVX2:       # %bb.0: # %entry
-; AVX2-NEXT:    vpbroadcastw {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; AVX2-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; AVX2-NEXT:    vpand %xmm2, %xmm0, %xmm0
-; AVX2-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
-; AVX2-NEXT:    retq
-;
-; AVX512F-LABEL: trunc2x8i16_16i8_nuw:
-; AVX512F:       # %bb.0: # %entry
-; AVX512F-NEXT:    vpbroadcastw {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; AVX512F-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; AVX512F-NEXT:    vpand %xmm2, %xmm0, %xmm0
-; AVX512F-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
-; AVX512F-NEXT:    retq
-;
-; AVX512VL-LABEL: trunc2x8i16_16i8_nuw:
-; AVX512VL:       # %bb.0: # %entry
-; AVX512VL-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
-; AVX512VL-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; AVX512VL-NEXT:    vpand %xmm2, %xmm0, %xmm0
-; AVX512VL-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
-; AVX512VL-NEXT:    retq
+; SSE-LABEL: trunc2x8i16_16i8_nuw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packuswb %xmm1, %xmm0
+; SSE-NEXT:    retq
 ;
-; AVX512BW-LABEL: trunc2x8i16_16i8_nuw:
-; AVX512BW:       # %bb.0: # %entry
-; AVX512BW-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512BW-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512BW-NEXT:    vpmovwb %zmm0, %ymm0
-; AVX512BW-NEXT:    # kill: def $xmm0 killed $xmm0 killed $ymm0
-; AVX512BW-NEXT:    vzeroupper
-; AVX512BW-NEXT:    retq
+; AVX-LABEL: trunc2x8i16_16i8_nuw:
+; AVX:       # %bb.0: # %entry
+; AVX-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
+; AVX-NEXT:    retq
 ;
-; AVX512BWVL-LABEL: trunc2x8i16_16i8_nuw:
-; AVX512BWVL:       # %bb.0: # %entry
-; AVX512BWVL-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; AVX512BWVL-NEXT:    vinserti128 $1, %xmm1, %ymm0, %ymm0
-; AVX512BWVL-NEXT:    vpmovwb %ymm0, %xmm0
-; AVX512BWVL-NEXT:    vzeroupper
-; AVX512BWVL-NEXT:    retq
+; AVX512-LABEL: trunc2x8i16_16i8_nuw:
+; AVX512:       # %bb.0: # %entry
+; AVX512-NEXT:    vpackuswb %xmm1, %xmm0, %xmm0
+; AVX512-NEXT:    retq
 entry:
   %0 = trunc nuw <8 x i16> %a to <8 x i8>
   %1 = trunc nuw <8 x i16> %b to <8 x i8>
@@ -2103,54 +1546,23 @@ entry:
 }
 
 define i64 @trunc8i16_i64_nsw(<8 x i16> %inval) {
-; SSE2-LABEL: trunc8i16_i64_nsw:
-; SSE2:       # %bb.0: # %entry
-; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
-; SSE2-NEXT:    packuswb %xmm0, %xmm0
-; SSE2-NEXT:    movq %xmm0, %rax
-; SSE2-NEXT:    retq
-;
-; SSSE3-LABEL: trunc8i16_i64_nsw:
-; SSSE3:       # %bb.0: # %entry
-; SSSE3-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; SSSE3-NEXT:    movq %xmm0, %rax
-; SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc8i16_i64_nsw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; SSE41-NEXT:    movq %xmm0, %rax
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc8i16_i64_nsw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packsswb %xmm0, %xmm0
+; SSE-NEXT:    movq %xmm0, %rax
+; SSE-NEXT:    retq
 ;
 ; AVX-LABEL: trunc8i16_i64_nsw:
 ; AVX:       # %bb.0: # %entry
-; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
+; AVX-NEXT:    vpacksswb %xmm0, %xmm0, %xmm0
 ; AVX-NEXT:    vmovq %xmm0, %rax
 ; AVX-NEXT:    retq
 ;
-; AVX512F-LABEL: trunc8i16_i64_nsw:
-; AVX512F:       # %bb.0: # %entry
-; AVX512F-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; AVX512F-NEXT:    vmovq %xmm0, %rax
-; AVX512F-NEXT:    retq
-;
-; AVX512VL-LABEL: trunc8i16_i64_nsw:
-; AVX512VL:       # %bb.0: # %entry
-; AVX512VL-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; AVX512VL-NEXT:    vmovq %xmm0, %rax
-; AVX512VL-NEXT:    retq
-;
-; AVX512BW-LABEL: trunc8i16_i64_nsw:
-; AVX512BW:       # %bb.0: # %entry
-; AVX512BW-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; AVX512BW-NEXT:    vmovq %xmm0, %rax
-; AVX512BW-NEXT:    retq
-;
-; AVX512BWVL-LABEL: trunc8i16_i64_nsw:
-; AVX512BWVL:       # %bb.0: # %entry
-; AVX512BWVL-NEXT:    vpmovwb %xmm0, %xmm0
-; AVX512BWVL-NEXT:    vmovq %xmm0, %rax
-; AVX512BWVL-NEXT:    retq
+; AVX512-LABEL: trunc8i16_i64_nsw:
+; AVX512:       # %bb.0: # %entry
+; AVX512-NEXT:    vpacksswb %xmm0, %xmm0, %xmm0
+; AVX512-NEXT:    vmovq %xmm0, %rax
+; AVX512-NEXT:    retq
 entry:
   %0 = trunc nsw <8 x i16> %inval to <8 x i8>
   %1 = bitcast <8 x i8> %0 to i64
@@ -2158,54 +1570,23 @@ entry:
 }
 
 define i64 @trunc8i16_i64_nuw(<8 x i16> %inval) {
-; SSE2-LABEL: trunc8i16_i64_nuw:
-; SSE2:       # %bb.0: # %entry
-; SSE2-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
-; SSE2-NEXT:    packuswb %xmm0, %xmm0
-; SSE2-NEXT:    movq %xmm0, %rax
-; SSE2-NEXT:    retq
-;
-; SSSE3-LABEL: trunc8i16_i64_nuw:
-; SSSE3:       # %bb.0: # %entry
-; SSSE3-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; SSSE3-NEXT:    movq %xmm0, %rax
-; SSSE3-NEXT:    retq
-;
-; SSE41-LABEL: trunc8i16_i64_nuw:
-; SSE41:       # %bb.0: # %entry
-; SSE41-NEXT:    pshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; SSE41-NEXT:    movq %xmm0, %rax
-; SSE41-NEXT:    retq
+; SSE-LABEL: trunc8i16_i64_nuw:
+; SSE:       # %bb.0: # %entry
+; SSE-NEXT:    packuswb %xmm0, %xmm0
+; SSE-NEXT:    movq %xmm0, %rax
+; SSE-NEXT:    retq
 ;
 ; AVX-LABEL: trunc8i16_i64_nuw:
 ; AVX:       # %bb.0: # %entry
-; AVX-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
+; AVX-NEXT:    vpackuswb %xmm0, %xmm0, %xmm0
 ; AVX-NEXT:    vmovq %xmm0, %rax
 ; AVX-NEXT:    retq
 ;
-; AVX512F-LABEL: trunc8i16_i64_nuw:
-; AVX512F:       # %bb.0: # %entry
-; AVX512F-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; AVX512F-NEXT:    vmovq %xmm0, %rax
-; AVX512F-NEXT:    retq
-;
-; AVX512VL-LABEL: trunc8i16_i64_nuw:
-; AVX512VL:       # %bb.0: # %entry
-; AVX512VL-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; AVX512VL-NEXT:    vmovq %xmm0, %rax
-; AVX512VL-NEXT:    retq
-;
-; AVX512BW-LABEL: trunc8i16_i64_nuw:
-; AVX512BW:       # %bb.0: # %entry
-; AVX512BW-NEXT:    vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
-; AVX512BW-NEXT:    vmovq %xmm0, %rax
-; AVX512BW-NEXT:    retq
-;
-; AVX512BWVL-LABEL: trunc8i16_i64_nuw:
-; AVX512BWVL:       # %bb.0: # %entry
-; AVX512BWVL-NEXT:    vpmovwb %xmm0, %xmm0
-; AVX512BWVL-NEXT:    vmovq %xmm0, %rax
-; AVX512BWVL-NEXT:    retq
+; AVX512-LABEL: trunc8i16_i64_nuw:
+; AVX512:       # %bb.0: # %entry
+; AVX512-NEXT:    vpackuswb %xmm0, %xmm0, %xmm0
+; AVX512-NEXT:    vmovq %xmm0, %rax
+; AVX512-NEXT:    retq
 entry:
   %0 = trunc nuw <8 x i16> %inval to <8 x i8>
   %1 = bitcast <8 x i8> %0 to i64
diff --git a/llvm/test/CodeGen/X86/xmulo.ll b/llvm/test/CodeGen/X86/xmulo.ll
index 2169b39b9dfa0..a076d0d762aa3 100644
--- a/llvm/test/CodeGen/X86/xmulo.ll
+++ b/llvm/test/CodeGen/X86/xmulo.ll
@@ -210,63 +210,49 @@ define zeroext i1 @smuloi64(i64 %v1, i64 %v2, ptr %res) {
 ; WIN32-NEXT:    pushl %edi
 ; WIN32-NEXT:    pushl %esi
 ; WIN32-NEXT:    subl $8, %esp
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebx
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %edi
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %edx
-; WIN32-NEXT:    movl %edx, %ecx
-; WIN32-NEXT:    movl %edx, %ebx
-; WIN32-NEXT:    sarl $31, %ecx
 ; WIN32-NEXT:    movl %edi, %esi
-; WIN32-NEXT:    imull %ecx, %esi
-; WIN32-NEXT:    mull %ecx
+; WIN32-NEXT:    sarl $31, %esi
+; WIN32-NEXT:    imull %ebx, %esi
+; WIN32-NEXT:    mull %ebx
 ; WIN32-NEXT:    movl %edx, %ecx
-; WIN32-NEXT:    movl %eax, %ebp
-; WIN32-NEXT:    addl %eax, %ecx
-; WIN32-NEXT:    addl %esi, %ecx
+; WIN32-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; WIN32-NEXT:    movl %edi, %eax
-; WIN32-NEXT:    sarl $31, %eax
-; WIN32-NEXT:    movl %eax, %edi
-; WIN32-NEXT:    imull %ebx, %edi
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebx
 ; WIN32-NEXT:    mull %ebx
-; WIN32-NEXT:    movl %edx, %esi
-; WIN32-NEXT:    addl %edi, %esi
-; WIN32-NEXT:    addl %eax, %esi
-; WIN32-NEXT:    addl %ebp, %eax
-; WIN32-NEXT:    movl %eax, (%esp) # 4-byte Spill
-; WIN32-NEXT:    adcl %ecx, %esi
-; WIN32-NEXT:    movl %ebx, %eax
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; WIN32-NEXT:    mull %ecx
-; WIN32-NEXT:    movl %edx, %ebp
-; WIN32-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull %ecx
-; WIN32-NEXT:    movl %edx, %edi
-; WIN32-NEXT:    movl %eax, %ecx
-; WIN32-NEXT:    addl %ebp, %ecx
-; WIN32-NEXT:    adcl $0, %edi
-; WIN32-NEXT:    movl %ebx, %eax
-; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
 ; WIN32-NEXT:    movl %edx, %ebx
 ; WIN32-NEXT:    movl %eax, %ebp
 ; WIN32-NEXT:    addl %ecx, %ebp
-; WIN32-NEXT:    adcl %edi, %ebx
-; WIN32-NEXT:    setb %cl
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ecx
+; WIN32-NEXT:    adcl %esi, %ebx
+; WIN32-NEXT:    movl %ebx, %edi
+; WIN32-NEXT:    sarl $31, %edi
+; WIN32-NEXT:    movl %ecx, %esi
+; WIN32-NEXT:    sarl $31, %esi
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
-; WIN32-NEXT:    addl %ebx, %eax
-; WIN32-NEXT:    movzbl %cl, %ecx
-; WIN32-NEXT:    adcl %ecx, %edx
-; WIN32-NEXT:    addl (%esp), %eax # 4-byte Folded Reload
-; WIN32-NEXT:    adcl %esi, %edx
-; WIN32-NEXT:    movl %ebp, %ecx
+; WIN32-NEXT:    imull %eax, %esi
+; WIN32-NEXT:    mull %ecx
+; WIN32-NEXT:    movl %edx, %ecx
+; WIN32-NEXT:    addl %ebp, %eax
+; WIN32-NEXT:    movl %eax, (%esp) # 4-byte Spill
+; WIN32-NEXT:    adcl %esi, %ecx
+; WIN32-NEXT:    movl %ecx, %ebp
+; WIN32-NEXT:    sarl $31, %ebp
+; WIN32-NEXT:    addl %ebx, %ecx
+; WIN32-NEXT:    adcl %edi, %ebp
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; WIN32-NEXT:    imull {{[0-9]+}}(%esp)
+; WIN32-NEXT:    addl %ecx, %eax
+; WIN32-NEXT:    adcl %ebp, %edx
+; WIN32-NEXT:    movl (%esp), %esi # 4-byte Reload
+; WIN32-NEXT:    movl %esi, %ecx
 ; WIN32-NEXT:    sarl $31, %ecx
 ; WIN32-NEXT:    xorl %ecx, %edx
 ; WIN32-NEXT:    xorl %eax, %ecx
 ; WIN32-NEXT:    orl %edx, %ecx
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    movl %ebp, 4(%eax)
+; WIN32-NEXT:    movl %esi, 4(%eax)
 ; WIN32-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
 ; WIN32-NEXT:    movl %ecx, (%eax)
 ; WIN32-NEXT:    setne %al
@@ -567,66 +553,54 @@ define i64 @smuloselecti64(i64 %v1, i64 %v2) {
 ; WIN32-NEXT:    pushl %edi
 ; WIN32-NEXT:    pushl %esi
 ; WIN32-NEXT:    pushl %eax
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %edi
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; WIN32-NEXT:    movl %ebx, %esi
+; WIN32-NEXT:    sarl $31, %esi
+; WIN32-NEXT:    imull %edi, %esi
+; WIN32-NEXT:    mull %edi
+; WIN32-NEXT:    movl %edx, %ecx
+; WIN32-NEXT:    movl %ebx, %eax
+; WIN32-NEXT:    mull %edi
+; WIN32-NEXT:    movl %edx, %ebx
+; WIN32-NEXT:    movl %eax, %ebp
+; WIN32-NEXT:    addl %ecx, %ebp
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; WIN32-NEXT:    sarl $31, %ecx
-; WIN32-NEXT:    movl %eax, %edi
-; WIN32-NEXT:    movl %eax, %ebx
-; WIN32-NEXT:    imull %ecx, %edi
-; WIN32-NEXT:    movl %ebp, %eax
-; WIN32-NEXT:    mull %ecx
-; WIN32-NEXT:    movl %edx, %esi
-; WIN32-NEXT:    movl %eax, %ecx
-; WIN32-NEXT:    addl %eax, %esi
-; WIN32-NEXT:    addl %edi, %esi
+; WIN32-NEXT:    adcl %esi, %ebx
 ; WIN32-NEXT:    movl %ebx, %eax
 ; WIN32-NEXT:    sarl $31, %eax
-; WIN32-NEXT:    movl %eax, %edi
-; WIN32-NEXT:    imull {{[0-9]+}}(%esp), %edi
-; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
-; WIN32-NEXT:    movl %edx, %ebx
-; WIN32-NEXT:    addl %edi, %ebx
-; WIN32-NEXT:    addl %eax, %ebx
-; WIN32-NEXT:    addl %ecx, %eax
 ; WIN32-NEXT:    movl %eax, (%esp) # 4-byte Spill
-; WIN32-NEXT:    adcl %esi, %ebx
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %edi
-; WIN32-NEXT:    movl %edi, %eax
-; WIN32-NEXT:    mull %ebp
-; WIN32-NEXT:    movl %edx, %esi
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull %ebp
-; WIN32-NEXT:    movl %edx, %ebp
-; WIN32-NEXT:    movl %eax, %ecx
-; WIN32-NEXT:    addl %esi, %ecx
-; WIN32-NEXT:    adcl $0, %ebp
-; WIN32-NEXT:    movl %edi, %eax
-; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
-; WIN32-NEXT:    movl %edx, %edi
-; WIN32-NEXT:    movl %eax, %esi
-; WIN32-NEXT:    addl %ecx, %esi
-; WIN32-NEXT:    adcl %ebp, %edi
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; WIN32-NEXT:    setb %cl
-; WIN32-NEXT:    movl %ebp, %eax
-; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
-; WIN32-NEXT:    addl %edi, %eax
-; WIN32-NEXT:    movzbl %cl, %ecx
-; WIN32-NEXT:    adcl %ecx, %edx
-; WIN32-NEXT:    addl (%esp), %eax # 4-byte Folded Reload
-; WIN32-NEXT:    adcl %ebx, %edx
+; WIN32-NEXT:    movl %ecx, %esi
 ; WIN32-NEXT:    sarl $31, %esi
-; WIN32-NEXT:    xorl %esi, %edx
-; WIN32-NEXT:    xorl %eax, %esi
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    orl %edx, %esi
+; WIN32-NEXT:    imull %eax, %esi
+; WIN32-NEXT:    mull %ecx
+; WIN32-NEXT:    movl %edx, %ecx
+; WIN32-NEXT:    movl %eax, %edi
+; WIN32-NEXT:    addl %ebp, %edi
+; WIN32-NEXT:    adcl %esi, %ecx
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; WIN32-NEXT:    movl %ecx, %ebp
+; WIN32-NEXT:    sarl $31, %ebp
+; WIN32-NEXT:    addl %ebx, %ecx
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebx
+; WIN32-NEXT:    adcl (%esp), %ebp # 4-byte Folded Reload
+; WIN32-NEXT:    movl %esi, %eax
+; WIN32-NEXT:    imull %ebx
+; WIN32-NEXT:    addl %ecx, %eax
+; WIN32-NEXT:    adcl %ebp, %edx
+; WIN32-NEXT:    sarl $31, %edi
+; WIN32-NEXT:    xorl %edi, %edx
+; WIN32-NEXT:    xorl %eax, %edi
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; WIN32-NEXT:    orl %edx, %edi
 ; WIN32-NEXT:    jne LBB12_2
 ; WIN32-NEXT:  # %bb.1:
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; WIN32-NEXT:    movl %ebx, %esi
 ; WIN32-NEXT:  LBB12_2:
-; WIN32-NEXT:    movl %ebp, %edx
+; WIN32-NEXT:    movl %esi, %edx
 ; WIN32-NEXT:    addl $4, %esp
 ; WIN32-NEXT:    popl %esi
 ; WIN32-NEXT:    popl %edi
@@ -984,59 +958,46 @@ define zeroext i1 @smulobri64(i64 %v1, i64 %v2) {
 ; WIN32-NEXT:    pushl %edi
 ; WIN32-NEXT:    pushl %esi
 ; WIN32-NEXT:    pushl %eax
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %edi
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %edx
-; WIN32-NEXT:    movl %edx, %ecx
-; WIN32-NEXT:    movl %edx, %ebp
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebp
+; WIN32-NEXT:    movl %ebp, %ecx
 ; WIN32-NEXT:    sarl $31, %ecx
-; WIN32-NEXT:    movl %edi, %esi
-; WIN32-NEXT:    imull %ecx, %esi
-; WIN32-NEXT:    mull %ecx
-; WIN32-NEXT:    movl %edx, %ecx
-; WIN32-NEXT:    movl %eax, %ebx
-; WIN32-NEXT:    addl %eax, %ecx
-; WIN32-NEXT:    addl %esi, %ecx
+; WIN32-NEXT:    imull %edi, %ecx
+; WIN32-NEXT:    movl %esi, %eax
+; WIN32-NEXT:    mull %edi
+; WIN32-NEXT:    movl %edx, %ebx
+; WIN32-NEXT:    movl %ebp, %eax
+; WIN32-NEXT:    mull %edi
+; WIN32-NEXT:    movl %edx, %edi
+; WIN32-NEXT:    movl %eax, %ebp
+; WIN32-NEXT:    addl %ebx, %ebp
+; WIN32-NEXT:    adcl %ecx, %edi
 ; WIN32-NEXT:    movl %edi, %eax
 ; WIN32-NEXT:    sarl $31, %eax
-; WIN32-NEXT:    movl %eax, %edi
-; WIN32-NEXT:    imull %ebp, %edi
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebp
-; WIN32-NEXT:    mull %ebp
-; WIN32-NEXT:    movl %edx, %esi
-; WIN32-NEXT:    addl %edi, %esi
-; WIN32-NEXT:    addl %eax, %esi
-; WIN32-NEXT:    addl %ebx, %eax
 ; WIN32-NEXT:    movl %eax, (%esp) # 4-byte Spill
-; WIN32-NEXT:    adcl %ecx, %esi
-; WIN32-NEXT:    movl %ebp, %eax
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; WIN32-NEXT:    mull %ecx
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; WIN32-NEXT:    movl %edx, %ecx
+; WIN32-NEXT:    sarl $31, %ecx
+; WIN32-NEXT:    imull %esi, %ecx
+; WIN32-NEXT:    movl %esi, %eax
+; WIN32-NEXT:    mull %edx
 ; WIN32-NEXT:    movl %edx, %ebx
+; WIN32-NEXT:    movl %eax, %esi
+; WIN32-NEXT:    addl %ebp, %esi
+; WIN32-NEXT:    adcl %ecx, %ebx
+; WIN32-NEXT:    movl %ebx, %ebp
+; WIN32-NEXT:    sarl $31, %ebp
+; WIN32-NEXT:    addl %edi, %ebx
+; WIN32-NEXT:    adcl (%esp), %ebp # 4-byte Folded Reload
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull %ecx
-; WIN32-NEXT:    movl %edx, %edi
-; WIN32-NEXT:    movl %eax, %ecx
-; WIN32-NEXT:    addl %ebx, %ecx
-; WIN32-NEXT:    adcl $0, %edi
-; WIN32-NEXT:    movl %ebp, %eax
-; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
-; WIN32-NEXT:    movl %edx, %ebp
-; WIN32-NEXT:    movl %eax, %ebx
-; WIN32-NEXT:    addl %ecx, %ebx
-; WIN32-NEXT:    adcl %edi, %ebp
-; WIN32-NEXT:    setb %cl
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
-; WIN32-NEXT:    addl %ebp, %eax
-; WIN32-NEXT:    movzbl %cl, %ecx
-; WIN32-NEXT:    adcl %ecx, %edx
-; WIN32-NEXT:    addl (%esp), %eax # 4-byte Folded Reload
-; WIN32-NEXT:    adcl %esi, %edx
-; WIN32-NEXT:    sarl $31, %ebx
-; WIN32-NEXT:    xorl %ebx, %edx
-; WIN32-NEXT:    xorl %eax, %ebx
-; WIN32-NEXT:    orl %edx, %ebx
+; WIN32-NEXT:    imull {{[0-9]+}}(%esp)
+; WIN32-NEXT:    addl %ebx, %eax
+; WIN32-NEXT:    adcl %ebp, %edx
+; WIN32-NEXT:    sarl $31, %esi
+; WIN32-NEXT:    xorl %esi, %edx
+; WIN32-NEXT:    xorl %eax, %esi
+; WIN32-NEXT:    orl %edx, %esi
 ; WIN32-NEXT:    jne LBB18_1
 ; WIN32-NEXT:  # %bb.3: # %continue
 ; WIN32-NEXT:    movb $1, %al
@@ -1679,73 +1640,57 @@ define zeroext i1 @smuloi64_load(ptr %ptr1, i64 %v2, ptr %res) {
 ; WIN32-NEXT:    pushl %ebx
 ; WIN32-NEXT:    pushl %edi
 ; WIN32-NEXT:    pushl %esi
-; WIN32-NEXT:    subl $20, %esp
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ecx
+; WIN32-NEXT:    subl $12, %esp
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ebx
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    movl (%eax), %ebx
-; WIN32-NEXT:    movl %ebx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; WIN32-NEXT:    movl (%eax), %ecx
 ; WIN32-NEXT:    movl 4(%eax), %ebp
+; WIN32-NEXT:    movl %ebp, %esi
+; WIN32-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; WIN32-NEXT:    sarl $31, %esi
+; WIN32-NEXT:    imull %ebx, %esi
 ; WIN32-NEXT:    movl %ecx, %eax
-; WIN32-NEXT:    movl %ecx, %edi
-; WIN32-NEXT:    sarl $31, %eax
-; WIN32-NEXT:    movl %eax, %ecx
-; WIN32-NEXT:    imull %ebp, %ecx
 ; WIN32-NEXT:    mull %ebx
-; WIN32-NEXT:    movl %eax, (%esp) # 4-byte Spill
-; WIN32-NEXT:    movl %edx, %ebx
-; WIN32-NEXT:    addl %ecx, %ebx
-; WIN32-NEXT:    movl %ebp, %ecx
-; WIN32-NEXT:    movl %ebp, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; WIN32-NEXT:    sarl $31, %ecx
-; WIN32-NEXT:    movl %edi, %esi
-; WIN32-NEXT:    imull %ecx, %esi
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull %ecx
 ; WIN32-NEXT:    movl %edx, %edi
-; WIN32-NEXT:    addl %eax, %edi
-; WIN32-NEXT:    addl %esi, %edi
-; WIN32-NEXT:    movl (%esp), %ecx # 4-byte Reload
-; WIN32-NEXT:    addl %ecx, %ebx
-; WIN32-NEXT:    addl %eax, %ecx
-; WIN32-NEXT:    movl %ecx, (%esp) # 4-byte Spill
-; WIN32-NEXT:    adcl %ebx, %edi
-; WIN32-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
-; WIN32-NEXT:    movl %ecx, %eax
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %esi
-; WIN32-NEXT:    mull %esi
-; WIN32-NEXT:    movl %edx, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; WIN32-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
 ; WIN32-NEXT:    movl %ebp, %eax
-; WIN32-NEXT:    mull %esi
+; WIN32-NEXT:    mull %ebx
 ; WIN32-NEXT:    movl %edx, %ebx
+; WIN32-NEXT:    movl %eax, %ebp
+; WIN32-NEXT:    addl %edi, %ebp
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; WIN32-NEXT:    adcl %esi, %ebx
+; WIN32-NEXT:    movl %ebx, %edi
+; WIN32-NEXT:    sarl $31, %edi
 ; WIN32-NEXT:    movl %eax, %esi
-; WIN32-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Folded Reload
-; WIN32-NEXT:    adcl $0, %ebx
+; WIN32-NEXT:    sarl $31, %esi
+; WIN32-NEXT:    imull %ecx, %esi
 ; WIN32-NEXT:    movl %ecx, %eax
 ; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
 ; WIN32-NEXT:    movl %edx, %ecx
-; WIN32-NEXT:    movl %eax, %ebp
-; WIN32-NEXT:    addl %esi, %ebp
-; WIN32-NEXT:    adcl %ebx, %ecx
-; WIN32-NEXT:    setb %bl
+; WIN32-NEXT:    addl %ebp, %eax
+; WIN32-NEXT:    movl %eax, (%esp) # 4-byte Spill
+; WIN32-NEXT:    adcl %esi, %ecx
+; WIN32-NEXT:    movl %ecx, %ebp
+; WIN32-NEXT:    sarl $31, %ebp
+; WIN32-NEXT:    addl %ebx, %ecx
+; WIN32-NEXT:    adcl %edi, %ebp
 ; WIN32-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
-; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
+; WIN32-NEXT:    imull {{[0-9]+}}(%esp)
 ; WIN32-NEXT:    addl %ecx, %eax
-; WIN32-NEXT:    movzbl %bl, %ecx
-; WIN32-NEXT:    adcl %ecx, %edx
-; WIN32-NEXT:    addl (%esp), %eax # 4-byte Folded Reload
-; WIN32-NEXT:    adcl %edi, %edx
-; WIN32-NEXT:    movl %ebp, %ecx
+; WIN32-NEXT:    adcl %ebp, %edx
+; WIN32-NEXT:    movl (%esp), %esi # 4-byte Reload
+; WIN32-NEXT:    movl %esi, %ecx
 ; WIN32-NEXT:    sarl $31, %ecx
 ; WIN32-NEXT:    xorl %ecx, %edx
 ; WIN32-NEXT:    xorl %eax, %ecx
 ; WIN32-NEXT:    orl %edx, %ecx
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    movl %ebp, 4(%eax)
+; WIN32-NEXT:    movl %esi, 4(%eax)
 ; WIN32-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
 ; WIN32-NEXT:    movl %ecx, (%eax)
 ; WIN32-NEXT:    setne %al
-; WIN32-NEXT:    addl $20, %esp
+; WIN32-NEXT:    addl $12, %esp
 ; WIN32-NEXT:    popl %esi
 ; WIN32-NEXT:    popl %edi
 ; WIN32-NEXT:    popl %ebx
@@ -1789,63 +1734,52 @@ define zeroext i1 @smuloi64_load2(i64 %v1, ptr %ptr2, ptr %res) {
 ; WIN32-NEXT:    pushl %edi
 ; WIN32-NEXT:    pushl %esi
 ; WIN32-NEXT:    subl $12, %esp
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ecx
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    movl (%eax), %ebp
-; WIN32-NEXT:    movl 4(%eax), %eax
-; WIN32-NEXT:    sarl $31, %ecx
-; WIN32-NEXT:    movl %eax, %esi
-; WIN32-NEXT:    movl %eax, %edi
-; WIN32-NEXT:    movl %eax, (%esp) # 4-byte Spill
-; WIN32-NEXT:    imull %ecx, %esi
-; WIN32-NEXT:    movl %ebp, %eax
-; WIN32-NEXT:    mull %ecx
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %edi
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %ecx
+; WIN32-NEXT:    movl (%ecx), %ebx
+; WIN32-NEXT:    movl %edi, %esi
+; WIN32-NEXT:    sarl $31, %esi
+; WIN32-NEXT:    imull %ebx, %esi
+; WIN32-NEXT:    mull %ebx
 ; WIN32-NEXT:    movl %edx, %ecx
-; WIN32-NEXT:    movl %eax, %ebx
-; WIN32-NEXT:    addl %eax, %ecx
-; WIN32-NEXT:    addl %esi, %ecx
-; WIN32-NEXT:    movl %edi, %eax
-; WIN32-NEXT:    sarl $31, %eax
-; WIN32-NEXT:    movl %eax, %edi
-; WIN32-NEXT:    imull {{[0-9]+}}(%esp), %edi
-; WIN32-NEXT:    mull {{[0-9]+}}(%esp)
-; WIN32-NEXT:    movl %edx, %esi
-; WIN32-NEXT:    addl %edi, %esi
-; WIN32-NEXT:    addl %eax, %esi
-; WIN32-NEXT:    addl %ebx, %eax
 ; WIN32-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; WIN32-NEXT:    adcl %ecx, %esi
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull %ebp
-; WIN32-NEXT:    movl %edx, %ebx
-; WIN32-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull %ebp
-; WIN32-NEXT:    movl %edx, %edi
-; WIN32-NEXT:    movl %eax, %ecx
-; WIN32-NEXT:    addl %ebx, %ecx
-; WIN32-NEXT:    adcl $0, %edi
-; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull (%esp) # 4-byte Folded Reload
+; WIN32-NEXT:    movl %edi, %eax
+; WIN32-NEXT:    mull %ebx
 ; WIN32-NEXT:    movl %edx, %ebx
 ; WIN32-NEXT:    movl %eax, %ebp
 ; WIN32-NEXT:    addl %ecx, %ebp
-; WIN32-NEXT:    adcl %edi, %ebx
-; WIN32-NEXT:    setb %cl
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    mull (%esp) # 4-byte Folded Reload
-; WIN32-NEXT:    addl %ebx, %eax
-; WIN32-NEXT:    movzbl %cl, %ecx
-; WIN32-NEXT:    adcl %ecx, %edx
-; WIN32-NEXT:    addl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Folded Reload
-; WIN32-NEXT:    adcl %esi, %edx
-; WIN32-NEXT:    movl %ebp, %ecx
+; WIN32-NEXT:    movl 4(%eax), %ecx
+; WIN32-NEXT:    movl %ecx, (%esp) # 4-byte Spill
+; WIN32-NEXT:    adcl %esi, %ebx
+; WIN32-NEXT:    movl %ebx, %edi
+; WIN32-NEXT:    sarl $31, %edi
+; WIN32-NEXT:    movl %ecx, %esi
+; WIN32-NEXT:    sarl $31, %esi
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; WIN32-NEXT:    imull %eax, %esi
+; WIN32-NEXT:    mull %ecx
+; WIN32-NEXT:    movl %edx, %ecx
+; WIN32-NEXT:    addl %ebp, %eax
+; WIN32-NEXT:    movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
+; WIN32-NEXT:    adcl %esi, %ecx
+; WIN32-NEXT:    movl %ecx, %ebp
+; WIN32-NEXT:    sarl $31, %ebp
+; WIN32-NEXT:    addl %ebx, %ecx
+; WIN32-NEXT:    adcl %edi, %ebp
+; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; WIN32-NEXT:    imull (%esp) # 4-byte Folded Reload
+; WIN32-NEXT:    addl %ecx, %eax
+; WIN32-NEXT:    adcl %ebp, %edx
+; WIN32-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %esi # 4-byte Reload
+; WIN32-NEXT:    movl %esi, %ecx
 ; WIN32-NEXT:    sarl $31, %ecx
 ; WIN32-NEXT:    xorl %ecx, %edx
 ; WIN32-NEXT:    xorl %eax, %ecx
 ; WIN32-NEXT:    orl %edx, %ecx
 ; WIN32-NEXT:    movl {{[0-9]+}}(%esp), %eax
-; WIN32-NEXT:    movl %ebp, 4(%eax)
+; WIN32-NEXT:    movl %esi, 4(%eax)
 ; WIN32-NEXT:    movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
 ; WIN32-NEXT:    movl %ecx, (%eax)
 ; WIN32-NEXT:    setne %al
diff --git a/llvm/test/DebugInfo/MIR/InstrRef/deref-spills-with-size-too-big.mir b/llvm/test/DebugInfo/MIR/InstrRef/deref-spills-with-size-too-big.mir
new file mode 100644
index 0000000000000..49b01dd24ae1d
--- /dev/null
+++ b/llvm/test/DebugInfo/MIR/InstrRef/deref-spills-with-size-too-big.mir
@@ -0,0 +1,107 @@
+# RUN: llc %s -o - -experimental-debug-variable-locations=true \
+# RUN:   -run-pass=livedebugvalues \
+# RUN: | FileCheck %s --implicit-check-not=DBG_VALUE
+# RUN: llc %s -o - -experimental-debug-variable-locations=true \
+# RUN:   -start-before=livedebugvalues -filetype=obj \
+# RUN: | llvm-dwarfdump - | FileCheck %s --check-prefix=DWARF
+#
+# LLVM can produce DIExpressions that convert from one value of arbitrary size
+# to another. This is normally fine, however that means the value for a
+# variable tracked in instruction referencing might not be the same size as the
+# variable itself.
+#
+# We typically use vector registers as shorthand for "the lower lane of the
+# vector register", for example if we have a single float we might say
+#
+#     DBG_VALUE $xmm0
+#
+# and that's reflected in DWARF too. However, instruction-referencing tries to
+# solve several size problems (see deref-spills-with-size.mir), and gets
+# confused by this shorthand. It manifests in the test sequence below: we
+# locate a variable in a vector register, spill it, then force a stack variable
+# location to be produced. InstrRefBasedLDV would like to produce a
+# DW_OP_deref_size indicating that 128 bits should be loaded for the 32 bit
+# register, but this would be wrong (and illegal DWARF as the max load size is
+# the pointer size).
+#
+# As a sticking-plaster fix: detect when we're about to emit these illegal
+# DWARF locations, and instead use DW_OP_deref_size. There's a small risk we
+# read too much or too little data, but it's better than emitting illegal DWARF.
+
+# CHECK: ![[VAR:[0-9]+]] = !DILocalVariable(name: "flannel",
+
+## Check that we're not producing DW_OP_deref_size, instead using the isIndirect
+## field of DBG_VALUEs.
+
+# CHECK: DBG_VALUE $xmm0, $noreg,
+# CHECK: DBG_VALUE $rsp, 0, ![[VAR]], !DIExpression(DW_OP_plus_uconst, 8),
+
+## Check that we produce a breg location with no further expression attached.
+
+# DWARF:      DW_TAG_variable
+# DWARF-NEXT:     DW_AT_location
+# DWARF-NEXT:         DW_OP_reg17 XMM0
+# DWARF-NEXT:         DW_OP_breg7 RSP+8)
+# DWARF-NEXT:     DW_AT_name    ("flannel")
+
+--- |
+  ; ModuleID = 'missingvar.ll'
+  source_filename = "a"
+  target datalayout = "e-m:e-p270:32:32-p271:32:32-p272:64:64-i64:64-f80:128-n8:16:32:64-S128"
+  target triple = "x86_64-unknown-linux-gnu"
+  
+  define linkonce_odr void @_ZNSt5dequeIPN4llvm4LoopESaIS2_EE13_M_insert_auxESt15_Deque_iteratorIS2_RS2_PS2_EmRKS2_() local_unnamed_addr align 2 !dbg !3 {
+  entry:
+    call void @llvm.dbg.value(metadata i32 0, metadata !8, metadata !DIExpression()), !dbg !7
+    call void @llvm.dbg.value(metadata i32 0, metadata !10, metadata !DIExpression()), !dbg !7
+    ret void
+  }
+
+  declare void @llvm.dbg.value(metadata, metadata, metadata)
+  
+  !llvm.module.flags = !{!0, !9}
+  !llvm.dbg.cu = !{!1}
+  
+  !0 = !{i32 2, !"Debug Info Version", i32 3}
+  !1 = distinct !DICompileUnit(language: DW_LANG_C_plus_plus, file: !2, producer: "beards", isOptimized: true, runtimeVersion: 4, emissionKind: FullDebug)
+  !2 = !DIFile(filename: "bees.cpp", directory: "")
+  !3 = distinct !DISubprogram(name: "nope", scope: !2, file: !2, line: 1, type: !4, spFlags: DISPFlagDefinition, unit: !1)
+  !4 = !DISubroutineType(types: !5)
+  !5 = !{!6}
+  !6 = !DIBasicType(name: "int", size: 32, encoding: DW_ATE_signed)
+  !7 = !DILocation(line: 1, scope: !3)
+  !8 = !DILocalVariable(name: "flannel", scope: !3, type: !6)
+  !9 = !{i32 2, !"Dwarf Version", i32 5}
+  !10 = !DILocalVariable(name: "shoes", scope: !3, type: !11)
+  !11 = !DIBasicType(name: "long", size: 64, encoding: DW_ATE_signed)
+
+
+...
+---
+name:            _ZNSt5dequeIPN4llvm4LoopESaIS2_EE13_M_insert_auxESt15_Deque_iteratorIS2_RS2_PS2_EmRKS2_
+alignment:       16
+tracksRegLiveness: true
+debugInstrRef: true
+liveins:
+  - { reg: '$rdi' }
+  - { reg: '$rsi' }
+  - { reg: '$rdx' }
+frameInfo:
+  stackSize:       16
+  offsetAdjustment: -16
+  maxAlignment:    16
+  maxCallFrameSize: 0
+stack:
+  - { id: 6, type: spill-slot, offset: -16, size: 16, alignment: 16 }
+machineFunctionInfo: {}
+body:             |
+  bb.0.entry:
+    liveins: $rdi, $rdx, $rsi, $rbp, $xmm0
+  
+
+    $xmm0 = XORPSrr $xmm0, $xmm0, debug-location !7
+    DBG_VALUE $xmm0, $noreg, !8, !DIExpression(), debug-location !7
+    VMOVUPSmr $rsp, 1, $noreg, 36, $noreg, $xmm0 :: (store (s128) into %stack.6)
+    $xmm0 = XORPSrr $xmm0, $xmm0, debug-location !7
+    RET64 0, debug-location !7
+...
diff --git a/llvm/test/DebugInfo/X86/set.ll b/llvm/test/DebugInfo/X86/set.ll
index 292c7c6e4a577..85ad1af53d3e6 100644
--- a/llvm/test/DebugInfo/X86/set.ll
+++ b/llvm/test/DebugInfo/X86/set.ll
@@ -109,7 +109,7 @@ attributes #1 = { nofree nosync nounwind readnone speculatable willreturn }
 !31 = !DISubroutineType(types: !32)
 !32 = !{!33, !35}
 !33 = !DIDerivedType(tag: DW_TAG_pointer_type, name: "ADDR", baseType: !34, size: 64, align: 64)
-!34 = !DICompositeType(tag: DW_TAG_class_type, name: "ADDR__HeapObject", scope: !5, file: !2, line: 22, size: 64, align: 64, elements: !7, identifier: "AJWxb1")
+!34 = !DICompositeType(tag: DW_TAG_class_type, name: "ADDR__HeapObject", scope: !5, file: !2, line: 22, size: 64, align: 64, identifier: "AJWxb1")
 !35 = !DIBasicType(name: "INTEGER", size: 64, encoding: DW_ATE_signed)
 !36 = !DILocation(line: 23, scope: !30)
 !37 = !DILocalVariable(name: "mode", arg: 1, scope: !30, file: !2, line: 22, type: !35)
diff --git a/llvm/test/ExecutionEngine/JITLink/LoongArch/ELF_relax_align.s b/llvm/test/ExecutionEngine/JITLink/LoongArch/ELF_relax_align.s
new file mode 100644
index 0000000000000..ec1aceb25b614
--- /dev/null
+++ b/llvm/test/ExecutionEngine/JITLink/LoongArch/ELF_relax_align.s
@@ -0,0 +1,95 @@
+# RUN: rm -rf %t && mkdir %t && cd %t
+
+# RUN: llvm-mc --filetype=obj --triple=loongarch32 -mattr=+relax %s -o %t.la32
+# RUN: llvm-jitlink --noexec \
+# RUN:     -slab-allocate 100Kb -slab-address 0x0 -slab-page-size 16384 \
+# RUN:     --check %s %t.la32
+
+# RUN: llvm-mc --filetype=obj --triple=loongarch64 -mattr=+relax %s -o %t.la64
+# RUN: llvm-jitlink --noexec \
+# RUN:     -slab-allocate 100Kb -slab-address 0x0 -slab-page-size 16384 \
+# RUN:     --check %s %t.la64
+
+## Test that we can handle R_LARCH_ALIGN.
+
+    .text
+
+    .globl main,align4,align8,align16,align32,alignmax12,alignmax8
+    .type  main,@function
+main:
+    bl f
+    .align 2
+align4:
+    bl f
+    .size align4, .-align4
+    .align 3
+align8:
+    bl f
+    .size align8, .-align8
+    .align 4
+align16:
+    bl f
+    .size align16, .-align16
+    .align 5
+align32:
+    bl f
+    .size align32, .-align32
+    .align 4,,12
+alignmax12:
+    bl f
+    .size alignmax12, .-alignmax12
+    .align 4,,8
+alignmax8:
+    bl f
+    .size alignmax8, .-alignmax8
+    .size main, .-main
+
+    .globl f
+f:
+    ret
+    .size f, .-f
+
+# jitlink-check: main = 0x0
+# jitlink-check: align4 = 0x4
+# jitlink-check: align8 = 0x8
+# jitlink-check: align16 = 0x10
+# jitlink-check: align32 = 0x20
+# jitlink-check: alignmax12 = 0x30
+## 3 nops (12 bytes) should be inserted to satisfy alignment.
+## But the max bytes we can insert is 8. So alignment is ignored.
+# jitlink-check: alignmax8 = 0x34
+
+## main: bl f
+# jitlink-check: (*{4}(main))[31:26] = 0x15
+# jitlink-check: decode_operand(main, 0)[27:0] = (f - main)[27:0]
+
+## align 4: bl f
+# jitlink-check: (*{4}(align4))[31:26] = 0x15
+# jitlink-check: decode_operand(align4, 0)[27:0] = (f - align4)[27:0]
+
+## align8: bl f; nop
+# jitlink-check: (*{4}(align8))[31:26] = 0x15
+# jitlink-check: decode_operand(align8, 0)[27:0] = (f - align8)[27:0]
+# jitlink-check: (*{4}(align8+4)) = 0x3400000
+
+## align16: bl f; nop; nop; nop
+# jitlink-check: (*{4}(align16))[31:26] = 0x15
+# jitlink-check: decode_operand(align16, 0)[27:0] = (f - align16)[27:0]
+# jitlink-check: (*{4}(align16+4)) = 0x3400000
+# jitlink-check: (*{4}(align16+8)) = 0x3400000
+# jitlink-check: (*{4}(align16+12)) = 0x3400000
+
+## align32: bl f; nop; nop; nop
+# jitlink-check: (*{4}(align32))[31:26] = 0x15
+# jitlink-check: decode_operand(align32, 0)[27:0] = (f - align32)[27:0]
+# jitlink-check: (*{4}(align32+4)) = 0x3400000
+# jitlink-check: (*{4}(align32+8)) = 0x3400000
+# jitlink-check: (*{4}(align32+12)) = 0x3400000
+
+## alignmax12: bl f
+# jitlink-check: (*{4}(alignmax12))[31:26] = 0x15
+# jitlink-check: decode_operand(alignmax12, 0)[27:0] = (f - alignmax12)[27:0]
+
+## alignmax8: bl f
+# jitlink-check: (*{4}(alignmax8))[31:26] = 0x15
+# jitlink-check: decode_operand(alignmax8, 0)[27:0] = (f - alignmax8)[27:0]
diff --git a/llvm/test/ExecutionEngine/JITLink/LoongArch/ELF_reloc_addsub.s b/llvm/test/ExecutionEngine/JITLink/LoongArch/ELF_reloc_addsub.s
new file mode 100644
index 0000000000000..86e3008ef4094
--- /dev/null
+++ b/llvm/test/ExecutionEngine/JITLink/LoongArch/ELF_reloc_addsub.s
@@ -0,0 +1,53 @@
+# RUN: rm -rf %t && mkdir -p %t
+# RUN: llvm-mc --triple=loongarch32 -mattr=+relax --filetype=obj \
+# RUN:     -o %t/la32_reloc_addsub.o %s
+# RUN: llvm-jitlink --noexec --check %s %t/la32_reloc_addsub.o \
+# RUN:     --slab-allocate=1Mb --slab-address=0x1000 --slab-page-size=0x4000
+# RUN: llvm-mc --triple=loongarch64 -mattr=+relax --filetype=obj \
+# RUN:     -o %t/la64_reloc_addsub.o %s
+# RUN: llvm-jitlink --noexec --check %s %t/la64_reloc_addsub.o \
+# RUN:     --slab-allocate=1Mb --slab-address=0x1000 --slab-page-size=0x4000
+
+# jitlink-check: *{8}(named_data) = 0x8
+# jitlink-check: *{4}(named_data+8) = 0x8
+# jitlink-check: *{2}(named_data+12) = 0x8
+# jitlink-check: *{1}(named_data+14) = 0x8
+# jitlink-check: *{1}(named_data+15) = 0x10
+
+# jitlink-check: *{1}(leb_data) = 0x8
+# jitlink-check: *{2}(leb_data+1) = 0x180
+# jitlink-check: *{8}(leb_data+3) = 0xfffffffffffffff8
+# jitlink-check: *{2}(leb_data+11) = 0x1ff
+# jitlink-check: *{1}(leb_data+13) = 0x7f
+# jitlink-check: *{2}(leb_data+14) = 0x181
+
+.section .alloc_data,"ax",@progbits
+.global main
+main:
+.L0:
+# Referencing named_data symbol to avoid the following relocations be
+# skipped. This macro instruction will be expand to two instructions
+# (pcalau12i + ld.w/d).
+  la.global $t0, named_data
+.L1:
+
+named_data:
+.reloc named_data+15, R_LARCH_ADD6, .L1
+.reloc named_data+15, R_LARCH_SUB6, .L0
+.dword .L1 - .L0
+.word .L1 - .L0
+.half .L1 - .L0
+.byte .L1 - .L0
+.byte 0x8
+
+.size named_data, 16
+
+leb_data:
+.uleb128 .L1 - .L0
+.uleb128 .L1 - .L0 + 120
+.uleb128 -(.L1 - .L0)
+.uleb128 leb_end - leb_data + 111
+.uleb128 leb_end - leb_data + 113
+leb_end:
+
+.size leb_data, 16
diff --git a/llvm/test/Instrumentation/MemorySanitizer/X86/avx-intrinsics-x86.ll b/llvm/test/Instrumentation/MemorySanitizer/X86/avx-intrinsics-x86.ll
index 48ecd53b40c72..7273e431a9c2a 100644
--- a/llvm/test/Instrumentation/MemorySanitizer/X86/avx-intrinsics-x86.ll
+++ b/llvm/test/Instrumentation/MemorySanitizer/X86/avx-intrinsics-x86.ll
@@ -435,10 +435,13 @@ define <4 x double> @test_x86_avx_hadd_pd_256(<4 x double> %a0, <4 x double> %a1
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <4 x i64>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <4 x i64>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <4 x i64> [[TMP1]], [[TMP2]]
-; CHECK-NEXT:    [[RES:%.*]] = call <4 x double> @llvm.x86.avx.hadd.pd.256(<4 x double> [[A0:%.*]], <4 x double> [[A1:%.*]])
+; CHECK-NEXT:    [[A0:%.*]] = bitcast <4 x i64> [[TMP1]] to <4 x double>
+; CHECK-NEXT:    [[A1:%.*]] = bitcast <4 x i64> [[TMP2]] to <4 x double>
+; CHECK-NEXT:    [[RES:%.*]] = call <4 x double> @llvm.x86.avx.hadd.pd.256(<4 x double> [[A0]], <4 x double> [[A1]])
+; CHECK-NEXT:    [[_MSPROP:%.*]] = bitcast <4 x double> [[RES]] to <4 x i64>
+; CHECK-NEXT:    [[RES1:%.*]] = call <4 x double> @llvm.x86.avx.hadd.pd.256(<4 x double> [[A2:%.*]], <4 x double> [[A3:%.*]])
 ; CHECK-NEXT:    store <4 x i64> [[_MSPROP]], ptr @__msan_retval_tls, align 8
-; CHECK-NEXT:    ret <4 x double> [[RES]]
+; CHECK-NEXT:    ret <4 x double> [[RES1]]
 ;
   %res = call <4 x double> @llvm.x86.avx.hadd.pd.256(<4 x double> %a0, <4 x double> %a1) ; <<4 x double>> [#uses=1]
   ret <4 x double> %res
@@ -451,10 +454,13 @@ define <8 x float> @test_x86_avx_hadd_ps_256(<8 x float> %a0, <8 x float> %a1) #
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <8 x i32>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <8 x i32>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <8 x i32> [[TMP1]], [[TMP2]]
-; CHECK-NEXT:    [[RES:%.*]] = call <8 x float> @llvm.x86.avx.hadd.ps.256(<8 x float> [[A0:%.*]], <8 x float> [[A1:%.*]])
+; CHECK-NEXT:    [[A0:%.*]] = bitcast <8 x i32> [[TMP1]] to <8 x float>
+; CHECK-NEXT:    [[A1:%.*]] = bitcast <8 x i32> [[TMP2]] to <8 x float>
+; CHECK-NEXT:    [[RES:%.*]] = call <8 x float> @llvm.x86.avx.hadd.ps.256(<8 x float> [[A0]], <8 x float> [[A1]])
+; CHECK-NEXT:    [[_MSPROP:%.*]] = bitcast <8 x float> [[RES]] to <8 x i32>
+; CHECK-NEXT:    [[RES1:%.*]] = call <8 x float> @llvm.x86.avx.hadd.ps.256(<8 x float> [[A2:%.*]], <8 x float> [[A3:%.*]])
 ; CHECK-NEXT:    store <8 x i32> [[_MSPROP]], ptr @__msan_retval_tls, align 8
-; CHECK-NEXT:    ret <8 x float> [[RES]]
+; CHECK-NEXT:    ret <8 x float> [[RES1]]
 ;
   %res = call <8 x float> @llvm.x86.avx.hadd.ps.256(<8 x float> %a0, <8 x float> %a1) ; <<8 x float>> [#uses=1]
   ret <8 x float> %res
@@ -467,10 +473,13 @@ define <4 x double> @test_x86_avx_hsub_pd_256(<4 x double> %a0, <4 x double> %a1
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <4 x i64>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <4 x i64>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <4 x i64> [[TMP1]], [[TMP2]]
-; CHECK-NEXT:    [[RES:%.*]] = call <4 x double> @llvm.x86.avx.hsub.pd.256(<4 x double> [[A0:%.*]], <4 x double> [[A1:%.*]])
+; CHECK-NEXT:    [[A0:%.*]] = bitcast <4 x i64> [[TMP1]] to <4 x double>
+; CHECK-NEXT:    [[A1:%.*]] = bitcast <4 x i64> [[TMP2]] to <4 x double>
+; CHECK-NEXT:    [[RES:%.*]] = call <4 x double> @llvm.x86.avx.hsub.pd.256(<4 x double> [[A0]], <4 x double> [[A1]])
+; CHECK-NEXT:    [[_MSPROP:%.*]] = bitcast <4 x double> [[RES]] to <4 x i64>
+; CHECK-NEXT:    [[RES1:%.*]] = call <4 x double> @llvm.x86.avx.hsub.pd.256(<4 x double> [[A2:%.*]], <4 x double> [[A3:%.*]])
 ; CHECK-NEXT:    store <4 x i64> [[_MSPROP]], ptr @__msan_retval_tls, align 8
-; CHECK-NEXT:    ret <4 x double> [[RES]]
+; CHECK-NEXT:    ret <4 x double> [[RES1]]
 ;
   %res = call <4 x double> @llvm.x86.avx.hsub.pd.256(<4 x double> %a0, <4 x double> %a1) ; <<4 x double>> [#uses=1]
   ret <4 x double> %res
@@ -483,10 +492,13 @@ define <8 x float> @test_x86_avx_hsub_ps_256(<8 x float> %a0, <8 x float> %a1) #
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <8 x i32>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <8 x i32>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <8 x i32> [[TMP1]], [[TMP2]]
-; CHECK-NEXT:    [[RES:%.*]] = call <8 x float> @llvm.x86.avx.hsub.ps.256(<8 x float> [[A0:%.*]], <8 x float> [[A1:%.*]])
+; CHECK-NEXT:    [[A0:%.*]] = bitcast <8 x i32> [[TMP1]] to <8 x float>
+; CHECK-NEXT:    [[A1:%.*]] = bitcast <8 x i32> [[TMP2]] to <8 x float>
+; CHECK-NEXT:    [[RES:%.*]] = call <8 x float> @llvm.x86.avx.hsub.ps.256(<8 x float> [[A0]], <8 x float> [[A1]])
+; CHECK-NEXT:    [[_MSPROP:%.*]] = bitcast <8 x float> [[RES]] to <8 x i32>
+; CHECK-NEXT:    [[RES1:%.*]] = call <8 x float> @llvm.x86.avx.hsub.ps.256(<8 x float> [[A2:%.*]], <8 x float> [[A3:%.*]])
 ; CHECK-NEXT:    store <8 x i32> [[_MSPROP]], ptr @__msan_retval_tls, align 8
-; CHECK-NEXT:    ret <8 x float> [[RES]]
+; CHECK-NEXT:    ret <8 x float> [[RES1]]
 ;
   %res = call <8 x float> @llvm.x86.avx.hsub.ps.256(<8 x float> %a0, <8 x float> %a1) ; <<8 x float>> [#uses=1]
   ret <8 x float> %res
diff --git a/llvm/test/Instrumentation/MemorySanitizer/X86/avx2-intrinsics-x86.ll b/llvm/test/Instrumentation/MemorySanitizer/X86/avx2-intrinsics-x86.ll
index 1602e85d8516d..e10062142c046 100644
--- a/llvm/test/Instrumentation/MemorySanitizer/X86/avx2-intrinsics-x86.ll
+++ b/llvm/test/Instrumentation/MemorySanitizer/X86/avx2-intrinsics-x86.ll
@@ -569,7 +569,7 @@ define <8 x i32> @test_x86_avx2_phadd_d(<8 x i32> %a0, <8 x i32> %a1) #0 {
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <8 x i32>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <8 x i32>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <8 x i32> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <8 x i32> @llvm.x86.avx2.phadd.d(<8 x i32> [[TMP1]], <8 x i32> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <8 x i32> @llvm.x86.avx2.phadd.d(<8 x i32> [[A0:%.*]], <8 x i32> [[A1:%.*]])
 ; CHECK-NEXT:    store <8 x i32> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <8 x i32> [[RES]]
@@ -585,7 +585,7 @@ define <16 x i16> @test_x86_avx2_phadd_sw(<16 x i16> %a0, <16 x i16> %a1) #0 {
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <16 x i16>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <16 x i16> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <16 x i16> @llvm.x86.avx2.phadd.sw(<16 x i16> [[TMP1]], <16 x i16> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <16 x i16> @llvm.x86.avx2.phadd.sw(<16 x i16> [[A0:%.*]], <16 x i16> [[A1:%.*]])
 ; CHECK-NEXT:    store <16 x i16> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <16 x i16> [[RES]]
@@ -601,7 +601,7 @@ define <16 x i16> @test_x86_avx2_phadd_w(<16 x i16> %a0, <16 x i16> %a1) #0 {
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <16 x i16>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <16 x i16> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <16 x i16> @llvm.x86.avx2.phadd.w(<16 x i16> [[TMP1]], <16 x i16> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <16 x i16> @llvm.x86.avx2.phadd.w(<16 x i16> [[A0:%.*]], <16 x i16> [[A1:%.*]])
 ; CHECK-NEXT:    store <16 x i16> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <16 x i16> [[RES]]
@@ -617,7 +617,7 @@ define <8 x i32> @test_x86_avx2_phsub_d(<8 x i32> %a0, <8 x i32> %a1) #0 {
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <8 x i32>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <8 x i32>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <8 x i32> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <8 x i32> @llvm.x86.avx2.phsub.d(<8 x i32> [[TMP1]], <8 x i32> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <8 x i32> @llvm.x86.avx2.phsub.d(<8 x i32> [[A0:%.*]], <8 x i32> [[A1:%.*]])
 ; CHECK-NEXT:    store <8 x i32> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <8 x i32> [[RES]]
@@ -633,7 +633,7 @@ define <16 x i16> @test_x86_avx2_phsub_sw(<16 x i16> %a0, <16 x i16> %a1) #0 {
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <16 x i16>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <16 x i16> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <16 x i16> @llvm.x86.avx2.phsub.sw(<16 x i16> [[TMP1]], <16 x i16> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <16 x i16> @llvm.x86.avx2.phsub.sw(<16 x i16> [[A0:%.*]], <16 x i16> [[A1:%.*]])
 ; CHECK-NEXT:    store <16 x i16> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <16 x i16> [[RES]]
@@ -649,7 +649,7 @@ define <16 x i16> @test_x86_avx2_phsub_w(<16 x i16> %a0, <16 x i16> %a1) #0 {
 ; CHECK-NEXT:    [[TMP1:%.*]] = load <16 x i16>, ptr @__msan_param_tls, align 8
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <16 x i16> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <16 x i16> @llvm.x86.avx2.phsub.w(<16 x i16> [[TMP1]], <16 x i16> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <16 x i16> @llvm.x86.avx2.phsub.w(<16 x i16> [[A0:%.*]], <16 x i16> [[A1:%.*]])
 ; CHECK-NEXT:    store <16 x i16> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <16 x i16> [[RES]]
diff --git a/llvm/test/Instrumentation/MemorySanitizer/X86/mmx-intrinsics.ll b/llvm/test/Instrumentation/MemorySanitizer/X86/mmx-intrinsics.ll
index 1d2e38eb5e63d..61c90d0fb80d4 100644
--- a/llvm/test/Instrumentation/MemorySanitizer/X86/mmx-intrinsics.ll
+++ b/llvm/test/Instrumentation/MemorySanitizer/X86/mmx-intrinsics.ll
@@ -21,7 +21,7 @@ define i64 @test1(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <4 x i16> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <4 x i16> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phadd.w(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phadd.w(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5:[0-9]+]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <4 x i16>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <4 x i16>
@@ -2619,7 +2619,7 @@ define void @test25(ptr %p, <1 x i64> %a) nounwind optsize ssp #0 {
 ; CHECK-NEXT:    [[TMP6:%.*]] = inttoptr i64 [[TMP5]] to ptr
 ; CHECK-NEXT:    store <1 x i64> [[TMP3]], ptr [[TMP6]], align 1
 ; CHECK-NEXT:    [[_MSCMP:%.*]] = icmp ne i64 [[TMP1]], 0
-; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP7:%.*]], label [[TMP8:%.*]], !prof [[PROF0:![0-9]+]]
+; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP7:%.*]], label [[TMP8:%.*]], !prof [[PROF1:![0-9]+]]
 ; CHECK:       7:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6:[0-9]+]]
 ; CHECK-NEXT:    unreachable
@@ -2648,7 +2648,7 @@ define i32 @test24(<1 x i64> %a) #0 {
 ; CHECK-NEXT:    [[MMX_VAR_I:%.*]] = bitcast <8 x i8> [[TMP0]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP3:%.*]] = bitcast <1 x i64> [[TMP4]] to i64
 ; CHECK-NEXT:    [[_MSCMP:%.*]] = icmp ne i64 [[TMP3]], 0
-; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP5:%.*]], label [[TMP7:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP5:%.*]], label [[TMP7:%.*]], !prof [[PROF1]]
 ; CHECK:       5:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -2689,7 +2689,7 @@ define void @test23(<1 x i64> %d, <1 x i64> %n, ptr %p) nounwind optsize ssp #0
 ; CHECK-NEXT:    [[_MSOR:%.*]] = or i1 [[_MSCMP]], [[_MSCMP1]]
 ; CHECK-NEXT:    [[_MSCMP2:%.*]] = icmp ne i64 [[TMP2]], 0
 ; CHECK-NEXT:    [[_MSOR3:%.*]] = or i1 [[_MSOR]], [[_MSCMP2]]
-; CHECK-NEXT:    br i1 [[_MSOR3]], label [[TMP11:%.*]], label [[TMP12:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSOR3]], label [[TMP11:%.*]], label [[TMP12:%.*]], !prof [[PROF1]]
 ; CHECK:       11:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -2760,7 +2760,7 @@ define i64 @test21(<1 x i64> %a) #0 {
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP9:%.*]] = bitcast <1 x i64> [[TMP10]] to i64
 ; CHECK-NEXT:    [[_MSCMP:%.*]] = icmp ne i64 [[TMP9]], 0
-; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP12:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP12:%.*]], !prof [[PROF1]]
 ; CHECK:       6:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -2794,7 +2794,7 @@ define i32 @test21_2(<1 x i64> %a) #0 {
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP9:%.*]] = bitcast <1 x i64> [[TMP10]] to i64
 ; CHECK-NEXT:    [[_MSCMP:%.*]] = icmp ne i64 [[TMP9]], 0
-; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP12:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP12:%.*]], !prof [[PROF1]]
 ; CHECK:       6:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -2864,7 +2864,7 @@ define <2 x double> @test19(<1 x i64> %a) #0 {
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <2 x i32> [[TMP0]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP3:%.*]] = bitcast <1 x i64> [[TMP5]] to i64
 ; CHECK-NEXT:    [[_MSCMP:%.*]] = icmp ne i64 [[TMP3]], 0
-; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP9:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP9:%.*]], !prof [[PROF1]]
 ; CHECK:       6:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -2890,7 +2890,7 @@ define i64 @test18(<2 x double> %a) #0 {
 ; CHECK-NEXT:    call void @llvm.donothing()
 ; CHECK-NEXT:    [[TMP5:%.*]] = bitcast <2 x i64> [[TMP4]] to i128
 ; CHECK-NEXT:    [[_MSCMP:%.*]] = icmp ne i128 [[TMP5]], 0
-; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP7:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP7:%.*]], !prof [[PROF1]]
 ; CHECK:       2:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -2920,7 +2920,7 @@ define i64 @test17(<2 x double> %a) #0 {
 ; CHECK-NEXT:    call void @llvm.donothing()
 ; CHECK-NEXT:    [[TMP5:%.*]] = bitcast <2 x i64> [[TMP4]] to i128
 ; CHECK-NEXT:    [[_MSCMP:%.*]] = icmp ne i128 [[TMP5]], 0
-; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP7:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP6:%.*]], label [[TMP7:%.*]], !prof [[PROF1]]
 ; CHECK:       2:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -2962,7 +2962,7 @@ define i64 @test16(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP12:%.*]] = bitcast <1 x i64> [[TMP5]] to i64
 ; CHECK-NEXT:    [[_MSCMP2:%.*]] = icmp ne i64 [[TMP12]], 0
 ; CHECK-NEXT:    [[_MSOR:%.*]] = or i1 [[_MSCMP]], [[_MSCMP2]]
-; CHECK-NEXT:    br i1 [[_MSOR]], label [[TMP8:%.*]], label [[TMP9:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSOR]], label [[TMP8:%.*]], label [[TMP9:%.*]], !prof [[PROF1]]
 ; CHECK:       8:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -3339,7 +3339,7 @@ define i64 @test6(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <4 x i16> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <4 x i16> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phsub.sw(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phsub.sw(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <4 x i16>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <4 x i16>
@@ -3379,7 +3379,7 @@ define i64 @test5(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <2 x i32> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <2 x i32> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <2 x i32> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phsub.d(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phsub.d(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <2 x i32>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <2 x i32>
@@ -3419,7 +3419,7 @@ define i64 @test4(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <4 x i16> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <4 x i16> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phsub.w(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phsub.w(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <4 x i16>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <4 x i16>
@@ -3459,7 +3459,7 @@ define i64 @test3(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <4 x i16> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <4 x i16> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phadd.sw(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phadd.sw(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <4 x i16>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <4 x i16>
@@ -3499,7 +3499,7 @@ define i64 @test2(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <2 x i32> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <2 x i32> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <2 x i32> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phadd.d(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phadd.d(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <2 x i32>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <2 x i32>
@@ -3537,7 +3537,7 @@ define <4 x float> @test89(<4 x float> %a, <1 x i64> %b) nounwind #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <1 x i64> [[TMP4]] to i64
 ; CHECK-NEXT:    [[_MSCMP1:%.*]] = icmp ne i64 [[TMP2]], 0
 ; CHECK-NEXT:    [[_MSOR:%.*]] = or i1 [[_MSCMP]], [[_MSCMP1]]
-; CHECK-NEXT:    br i1 [[_MSOR]], label [[TMP5:%.*]], label [[TMP6:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSOR]], label [[TMP5:%.*]], label [[TMP6:%.*]], !prof [[PROF1]]
 ; CHECK:       5:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -3580,7 +3580,7 @@ define <1 x i64> @test_mm_insert_pi16(<1 x i64> %a.coerce, i32 %d) nounwind #0 {
 ; CHECK-NEXT:    [[_MSCMP:%.*]] = icmp ne i64 [[TMP7]], 0
 ; CHECK-NEXT:    [[_MSCMP1:%.*]] = icmp ne i32 [[TMP6]], 0
 ; CHECK-NEXT:    [[_MSOR:%.*]] = or i1 [[_MSCMP]], [[_MSCMP1]]
-; CHECK-NEXT:    br i1 [[_MSOR]], label [[TMP5:%.*]], label [[TMP4:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSOR]], label [[TMP5:%.*]], label [[TMP4:%.*]], !prof [[PROF1]]
 ; CHECK:       3:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -3604,7 +3604,7 @@ define i32 @test_mm_extract_pi16(<1 x i64> %a.coerce) nounwind #0 {
 ; CHECK-NEXT:    call void @llvm.donothing()
 ; CHECK-NEXT:    [[TMP5:%.*]] = bitcast <1 x i64> [[TMP2]] to i64
 ; CHECK-NEXT:    [[_MSCMP:%.*]] = icmp ne i64 [[TMP5]], 0
-; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP4:%.*]], label [[TMP3:%.*]], !prof [[PROF0]]
+; CHECK-NEXT:    br i1 [[_MSCMP]], label [[TMP4:%.*]], label [[TMP3:%.*]], !prof [[PROF1]]
 ; CHECK:       2:
 ; CHECK-NEXT:    call void @__msan_warning_noreturn() #[[ATTR6]]
 ; CHECK-NEXT:    unreachable
@@ -3622,5 +3622,5 @@ declare i32 @llvm.x86.mmx.pextr.w(<1 x i64>, i32 immarg)
 
 attributes #0 = { sanitize_memory }
 ;.
-; CHECK: [[PROF0]] = !{!"branch_weights", i32 1, i32 1048575}
+; CHECK: [[PROF1]] = !{!"branch_weights", i32 1, i32 1048575}
 ;.
diff --git a/llvm/test/Instrumentation/MemorySanitizer/i386/avx-intrinsics-i386.ll b/llvm/test/Instrumentation/MemorySanitizer/i386/avx-intrinsics-i386.ll
index 3ac0fa2415a0f..68337d6d962db 100644
--- a/llvm/test/Instrumentation/MemorySanitizer/i386/avx-intrinsics-i386.ll
+++ b/llvm/test/Instrumentation/MemorySanitizer/i386/avx-intrinsics-i386.ll
@@ -449,10 +449,13 @@ define <4 x double> @test_x86_avx_hadd_pd_256(<4 x double> %a0, <4 x double> %a1
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <4 x i64>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <4 x i64> [[TMP1]], [[TMP2]]
-; CHECK-NEXT:    [[RES:%.*]] = call <4 x double> @llvm.x86.avx.hadd.pd.256(<4 x double> [[A0:%.*]], <4 x double> [[A1:%.*]])
+; CHECK-NEXT:    [[A0:%.*]] = bitcast <4 x i64> [[TMP1]] to <4 x double>
+; CHECK-NEXT:    [[A1:%.*]] = bitcast <4 x i64> [[TMP2]] to <4 x double>
+; CHECK-NEXT:    [[RES:%.*]] = call <4 x double> @llvm.x86.avx.hadd.pd.256(<4 x double> [[A0]], <4 x double> [[A1]])
+; CHECK-NEXT:    [[_MSPROP:%.*]] = bitcast <4 x double> [[RES]] to <4 x i64>
+; CHECK-NEXT:    [[RES1:%.*]] = call <4 x double> @llvm.x86.avx.hadd.pd.256(<4 x double> [[A2:%.*]], <4 x double> [[A3:%.*]])
 ; CHECK-NEXT:    store <4 x i64> [[_MSPROP]], ptr @__msan_retval_tls, align 8
-; CHECK-NEXT:    ret <4 x double> [[RES]]
+; CHECK-NEXT:    ret <4 x double> [[RES1]]
 ;
   %res = call <4 x double> @llvm.x86.avx.hadd.pd.256(<4 x double> %a0, <4 x double> %a1) ; <<4 x double>> [#uses=1]
   ret <4 x double> %res
@@ -466,10 +469,13 @@ define <8 x float> @test_x86_avx_hadd_ps_256(<8 x float> %a0, <8 x float> %a1) #
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <8 x i32>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <8 x i32> [[TMP1]], [[TMP2]]
-; CHECK-NEXT:    [[RES:%.*]] = call <8 x float> @llvm.x86.avx.hadd.ps.256(<8 x float> [[A0:%.*]], <8 x float> [[A1:%.*]])
+; CHECK-NEXT:    [[A0:%.*]] = bitcast <8 x i32> [[TMP1]] to <8 x float>
+; CHECK-NEXT:    [[A1:%.*]] = bitcast <8 x i32> [[TMP2]] to <8 x float>
+; CHECK-NEXT:    [[RES:%.*]] = call <8 x float> @llvm.x86.avx.hadd.ps.256(<8 x float> [[A0]], <8 x float> [[A1]])
+; CHECK-NEXT:    [[_MSPROP:%.*]] = bitcast <8 x float> [[RES]] to <8 x i32>
+; CHECK-NEXT:    [[RES1:%.*]] = call <8 x float> @llvm.x86.avx.hadd.ps.256(<8 x float> [[A2:%.*]], <8 x float> [[A3:%.*]])
 ; CHECK-NEXT:    store <8 x i32> [[_MSPROP]], ptr @__msan_retval_tls, align 8
-; CHECK-NEXT:    ret <8 x float> [[RES]]
+; CHECK-NEXT:    ret <8 x float> [[RES1]]
 ;
   %res = call <8 x float> @llvm.x86.avx.hadd.ps.256(<8 x float> %a0, <8 x float> %a1) ; <<8 x float>> [#uses=1]
   ret <8 x float> %res
@@ -483,10 +489,13 @@ define <4 x double> @test_x86_avx_hsub_pd_256(<4 x double> %a0, <4 x double> %a1
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <4 x i64>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <4 x i64> [[TMP1]], [[TMP2]]
-; CHECK-NEXT:    [[RES:%.*]] = call <4 x double> @llvm.x86.avx.hsub.pd.256(<4 x double> [[A0:%.*]], <4 x double> [[A1:%.*]])
+; CHECK-NEXT:    [[A0:%.*]] = bitcast <4 x i64> [[TMP1]] to <4 x double>
+; CHECK-NEXT:    [[A1:%.*]] = bitcast <4 x i64> [[TMP2]] to <4 x double>
+; CHECK-NEXT:    [[RES:%.*]] = call <4 x double> @llvm.x86.avx.hsub.pd.256(<4 x double> [[A0]], <4 x double> [[A1]])
+; CHECK-NEXT:    [[_MSPROP:%.*]] = bitcast <4 x double> [[RES]] to <4 x i64>
+; CHECK-NEXT:    [[RES1:%.*]] = call <4 x double> @llvm.x86.avx.hsub.pd.256(<4 x double> [[A2:%.*]], <4 x double> [[A3:%.*]])
 ; CHECK-NEXT:    store <4 x i64> [[_MSPROP]], ptr @__msan_retval_tls, align 8
-; CHECK-NEXT:    ret <4 x double> [[RES]]
+; CHECK-NEXT:    ret <4 x double> [[RES1]]
 ;
   %res = call <4 x double> @llvm.x86.avx.hsub.pd.256(<4 x double> %a0, <4 x double> %a1) ; <<4 x double>> [#uses=1]
   ret <4 x double> %res
@@ -500,10 +509,13 @@ define <8 x float> @test_x86_avx_hsub_ps_256(<8 x float> %a0, <8 x float> %a1) #
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <8 x i32>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <8 x i32> [[TMP1]], [[TMP2]]
-; CHECK-NEXT:    [[RES:%.*]] = call <8 x float> @llvm.x86.avx.hsub.ps.256(<8 x float> [[A0:%.*]], <8 x float> [[A1:%.*]])
+; CHECK-NEXT:    [[A0:%.*]] = bitcast <8 x i32> [[TMP1]] to <8 x float>
+; CHECK-NEXT:    [[A1:%.*]] = bitcast <8 x i32> [[TMP2]] to <8 x float>
+; CHECK-NEXT:    [[RES:%.*]] = call <8 x float> @llvm.x86.avx.hsub.ps.256(<8 x float> [[A0]], <8 x float> [[A1]])
+; CHECK-NEXT:    [[_MSPROP:%.*]] = bitcast <8 x float> [[RES]] to <8 x i32>
+; CHECK-NEXT:    [[RES1:%.*]] = call <8 x float> @llvm.x86.avx.hsub.ps.256(<8 x float> [[A2:%.*]], <8 x float> [[A3:%.*]])
 ; CHECK-NEXT:    store <8 x i32> [[_MSPROP]], ptr @__msan_retval_tls, align 8
-; CHECK-NEXT:    ret <8 x float> [[RES]]
+; CHECK-NEXT:    ret <8 x float> [[RES1]]
 ;
   %res = call <8 x float> @llvm.x86.avx.hsub.ps.256(<8 x float> %a0, <8 x float> %a1) ; <<8 x float>> [#uses=1]
   ret <8 x float> %res
diff --git a/llvm/test/Instrumentation/MemorySanitizer/i386/avx2-intrinsics-i386.ll b/llvm/test/Instrumentation/MemorySanitizer/i386/avx2-intrinsics-i386.ll
index d6ff88d37427f..29e2931d2ca48 100644
--- a/llvm/test/Instrumentation/MemorySanitizer/i386/avx2-intrinsics-i386.ll
+++ b/llvm/test/Instrumentation/MemorySanitizer/i386/avx2-intrinsics-i386.ll
@@ -600,7 +600,7 @@ define <8 x i32> @test_x86_avx2_phadd_d(<8 x i32> %a0, <8 x i32> %a1) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <8 x i32>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <8 x i32> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <8 x i32> @llvm.x86.avx2.phadd.d(<8 x i32> [[TMP1]], <8 x i32> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <8 x i32> @llvm.x86.avx2.phadd.d(<8 x i32> [[A0:%.*]], <8 x i32> [[A1:%.*]])
 ; CHECK-NEXT:    store <8 x i32> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <8 x i32> [[RES]]
@@ -617,7 +617,7 @@ define <16 x i16> @test_x86_avx2_phadd_sw(<16 x i16> %a0, <16 x i16> %a1) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <16 x i16> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <16 x i16> @llvm.x86.avx2.phadd.sw(<16 x i16> [[TMP1]], <16 x i16> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <16 x i16> @llvm.x86.avx2.phadd.sw(<16 x i16> [[A0:%.*]], <16 x i16> [[A1:%.*]])
 ; CHECK-NEXT:    store <16 x i16> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <16 x i16> [[RES]]
@@ -634,7 +634,7 @@ define <16 x i16> @test_x86_avx2_phadd_w(<16 x i16> %a0, <16 x i16> %a1) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <16 x i16> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <16 x i16> @llvm.x86.avx2.phadd.w(<16 x i16> [[TMP1]], <16 x i16> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <16 x i16> @llvm.x86.avx2.phadd.w(<16 x i16> [[A0:%.*]], <16 x i16> [[A1:%.*]])
 ; CHECK-NEXT:    store <16 x i16> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <16 x i16> [[RES]]
@@ -651,7 +651,7 @@ define <8 x i32> @test_x86_avx2_phsub_d(<8 x i32> %a0, <8 x i32> %a1) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <8 x i32>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <8 x i32> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <8 x i32> @llvm.x86.avx2.phsub.d(<8 x i32> [[TMP1]], <8 x i32> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <8 x i32> @llvm.x86.avx2.phsub.d(<8 x i32> [[A0:%.*]], <8 x i32> [[A1:%.*]])
 ; CHECK-NEXT:    store <8 x i32> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <8 x i32> [[RES]]
@@ -668,7 +668,7 @@ define <16 x i16> @test_x86_avx2_phsub_sw(<16 x i16> %a0, <16 x i16> %a1) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <16 x i16> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <16 x i16> @llvm.x86.avx2.phsub.sw(<16 x i16> [[TMP1]], <16 x i16> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <16 x i16> @llvm.x86.avx2.phsub.sw(<16 x i16> [[A0:%.*]], <16 x i16> [[A1:%.*]])
 ; CHECK-NEXT:    store <16 x i16> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <16 x i16> [[RES]]
@@ -685,7 +685,7 @@ define <16 x i16> @test_x86_avx2_phsub_w(<16 x i16> %a0, <16 x i16> %a1) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr inttoptr (i64 add (i64 ptrtoint (ptr @__msan_param_tls to i64), i64 32) to ptr), align 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i64, ptr @__msan_va_arg_overflow_size_tls, align 8
 ; CHECK-NEXT:    call void @llvm.donothing()
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <16 x i16> [[TMP1]], [[TMP2]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <16 x i16> @llvm.x86.avx2.phsub.w(<16 x i16> [[TMP1]], <16 x i16> [[TMP2]])
 ; CHECK-NEXT:    [[RES:%.*]] = call <16 x i16> @llvm.x86.avx2.phsub.w(<16 x i16> [[A0:%.*]], <16 x i16> [[A1:%.*]])
 ; CHECK-NEXT:    store <16 x i16> [[_MSPROP]], ptr @__msan_retval_tls, align 8
 ; CHECK-NEXT:    ret <16 x i16> [[RES]]
diff --git a/llvm/test/Instrumentation/MemorySanitizer/i386/mmx-intrinsics.ll b/llvm/test/Instrumentation/MemorySanitizer/i386/mmx-intrinsics.ll
index 74ce562be65e1..f5ef8a9837b70 100644
--- a/llvm/test/Instrumentation/MemorySanitizer/i386/mmx-intrinsics.ll
+++ b/llvm/test/Instrumentation/MemorySanitizer/i386/mmx-intrinsics.ll
@@ -22,7 +22,7 @@ define i64 @test1(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <4 x i16> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <4 x i16> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phadd.w(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phadd.w(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5:[0-9]+]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <4 x i16>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <4 x i16>
@@ -3426,7 +3426,7 @@ define i64 @test6(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <4 x i16> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <4 x i16> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phsub.sw(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phsub.sw(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <4 x i16>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <4 x i16>
@@ -3467,7 +3467,7 @@ define i64 @test5(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <2 x i32> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <2 x i32> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <2 x i32> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phsub.d(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phsub.d(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <2 x i32>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <2 x i32>
@@ -3508,7 +3508,7 @@ define i64 @test4(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <4 x i16> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <4 x i16> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phsub.w(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phsub.w(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <4 x i16>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <4 x i16>
@@ -3549,7 +3549,7 @@ define i64 @test3(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <4 x i16> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <4 x i16> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <4 x i16> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phadd.sw(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phadd.sw(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <4 x i16>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <4 x i16>
@@ -3590,7 +3590,7 @@ define i64 @test2(<1 x i64> %a, <1 x i64> %b) #0 {
 ; CHECK-NEXT:    [[TMP2:%.*]] = bitcast <2 x i32> [[TMP1]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP8:%.*]] = bitcast <2 x i32> [[TMP12]] to <1 x i64>
 ; CHECK-NEXT:    [[TMP17:%.*]] = bitcast <2 x i32> [[TMP0]] to <1 x i64>
-; CHECK-NEXT:    [[_MSPROP:%.*]] = or <1 x i64> [[TMP16]], [[TMP8]]
+; CHECK-NEXT:    [[_MSPROP:%.*]] = call <1 x i64> @llvm.x86.ssse3.phadd.d(<1 x i64> [[TMP16]], <1 x i64> [[TMP8]])
 ; CHECK-NEXT:    [[TMP18:%.*]] = tail call <1 x i64> @llvm.x86.ssse3.phadd.d(<1 x i64> [[TMP2]], <1 x i64> [[TMP17]]) #[[ATTR5]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = bitcast <1 x i64> [[_MSPROP]] to <2 x i32>
 ; CHECK-NEXT:    [[TMP19:%.*]] = bitcast <1 x i64> [[TMP18]] to <2 x i32>
diff --git a/llvm/test/MC/AMDGPU/gfx12_asm_ds.s b/llvm/test/MC/AMDGPU/gfx12_asm_ds.s
index a0e6a3a613555..34c42affdd46c 100644
--- a/llvm/test/MC/AMDGPU/gfx12_asm_ds.s
+++ b/llvm/test/MC/AMDGPU/gfx12_asm_ds.s
@@ -1910,3 +1910,15 @@ ds_swizzle_b32 v8, v2 offset:swizzle(BROADCAST,8,7)
 
 ds_swizzle_b32 v8, v2 offset:swizzle(BITMASK_PERM, "01pip")
 // GFX12: [0x07,0x09,0xd4,0xd8,0x02,0x00,0x00,0x08]
+
+ds_bpermute_fi_b32 v5, v1, v2
+// GFX12: encoding: [0x00,0x00,0x34,0xdb,0x01,0x02,0x00,0x05]
+
+ds_bpermute_fi_b32 v5, v1, v2 offset:65535
+// GFX12: encoding: [0xff,0xff,0x34,0xdb,0x01,0x02,0x00,0x05]
+
+ds_bpermute_fi_b32 v5, v1, v2 offset:0
+// GFX12: encoding: [0x00,0x00,0x34,0xdb,0x01,0x02,0x00,0x05]
+
+ds_bpermute_fi_b32 v255, v255, v255 offset:4
+// GFX12: encoding: [0x04,0x00,0x34,0xdb,0xff,0xff,0x00,0xff]
diff --git a/llvm/test/MC/Disassembler/AMDGPU/gfx12_dasm_ds.txt b/llvm/test/MC/Disassembler/AMDGPU/gfx12_dasm_ds.txt
index 080a4cab2a319..d66748135ffd4 100644
--- a/llvm/test/MC/Disassembler/AMDGPU/gfx12_dasm_ds.txt
+++ b/llvm/test/MC/Disassembler/AMDGPU/gfx12_dasm_ds.txt
@@ -3233,3 +3233,12 @@
 
 # GFX12: ds_xor_rtn_b64 v[5:6], v255, v[2:3] offset:65535 ; encoding: [0xff,0xff,0xac,0xd9,0xff,0x02,0x00,0x05]
 0xff,0xff,0xac,0xd9,0xff,0x02,0x00,0x05
+
+# GFX12: ds_bpermute_fi_b32 v5, v1, v2           ; encoding: [0x00,0x00,0x34,0xdb,0x01,0x02,0x00,0x05]
+0x00,0x00,0x34,0xdb,0x01,0x02,0x00,0x05
+
+# GFX12: ds_bpermute_fi_b32 v5, v1, v2 offset:65535 ; encoding: [0xff,0xff,0x34,0xdb,0x01,0x02,0x00,0x05]
+0xff,0xff,0x34,0xdb,0x01,0x02,0x00,0x05
+
+# GFX12: ds_bpermute_fi_b32 v255, v255, v255 offset:4 ; encoding: [0x04,0x00,0x34,0xdb,0xff,0xff,0x00,0xff]
+0x04,0x00,0x34,0xdb,0xff,0xff,0x00,0xff
diff --git a/llvm/test/MC/Disassembler/X86/avx10.2-bf16-32.txt b/llvm/test/MC/Disassembler/X86/avx10.2-bf16-32.txt
index 8cc53db077e4f..a32e55e20e6b7 100644
--- a/llvm/test/MC/Disassembler/X86/avx10.2-bf16-32.txt
+++ b/llvm/test/MC/Disassembler/X86/avx10.2-bf16-32.txt
@@ -1,3015 +1,3015 @@
 # RUN: llvm-mc --disassemble %s -triple=i386 | FileCheck %s --check-prefixes=ATT
 # RUN: llvm-mc --disassemble %s -triple=i386 --output-asm-variant=1 | FileCheck %s --check-prefixes=INTEL
 
-# ATT:   vaddnepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vaddnepbf16 ymm2, ymm3, ymm4
+# ATT:   vaddbf16 %ymm4, %ymm3, %ymm2
+# INTEL: vaddbf16 ymm2, ymm3, ymm4
 0x62,0xf5,0x65,0x28,0x58,0xd4
 
-# ATT:   vaddnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vaddnepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vaddbf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vaddbf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf5,0x65,0x2f,0x58,0xd4
 
-# ATT:   vaddnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vaddnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vaddbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vaddbf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf5,0x65,0xaf,0x58,0xd4
 
-# ATT:   vaddnepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vaddnepbf16 zmm2, zmm3, zmm4
+# ATT:   vaddbf16 %zmm4, %zmm3, %zmm2
+# INTEL: vaddbf16 zmm2, zmm3, zmm4
 0x62,0xf5,0x65,0x48,0x58,0xd4
 
-# ATT:   vaddnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vaddnepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vaddbf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vaddbf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf5,0x65,0x4f,0x58,0xd4
 
-# ATT:   vaddnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vaddnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vaddbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vaddbf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf5,0x65,0xcf,0x58,0xd4
 
-# ATT:   vaddnepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vaddnepbf16 xmm2, xmm3, xmm4
+# ATT:   vaddbf16 %xmm4, %xmm3, %xmm2
+# INTEL: vaddbf16 xmm2, xmm3, xmm4
 0x62,0xf5,0x65,0x08,0x58,0xd4
 
-# ATT:   vaddnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vaddnepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vaddbf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vaddbf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf5,0x65,0x0f,0x58,0xd4
 
-# ATT:   vaddnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vaddnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vaddbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vaddbf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf5,0x65,0x8f,0x58,0xd4
 
-# ATT:   vaddnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vaddnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vaddbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vaddbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x48,0x58,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vaddnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vaddnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vaddbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vaddbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x4f,0x58,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vaddnepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vaddnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vaddbf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vaddbf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf5,0x65,0x58,0x58,0x10
 
-# ATT:   vaddnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vaddnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vaddbf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vaddbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x65,0x48,0x58,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vaddnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vaddnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vaddbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vaddbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x65,0xcf,0x58,0x51,0x7f
 
-# ATT:   vaddnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vaddnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vaddbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vaddbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x65,0xdf,0x58,0x52,0x80
 
-# ATT:   vaddnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vaddnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vaddbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vaddbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x28,0x58,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vaddnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vaddnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vaddbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vaddbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x2f,0x58,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vaddnepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vaddnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vaddbf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vaddbf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf5,0x65,0x38,0x58,0x10
 
-# ATT:   vaddnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vaddnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vaddbf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vaddbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x65,0x28,0x58,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vaddnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vaddnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vaddbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vaddbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x65,0xaf,0x58,0x51,0x7f
 
-# ATT:   vaddnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vaddnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vaddbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vaddbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x65,0xbf,0x58,0x52,0x80
 
-# ATT:   vaddnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vaddnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vaddbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vaddbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x08,0x58,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vaddnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vaddnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vaddbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vaddbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x0f,0x58,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vaddnepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vaddnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vaddbf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vaddbf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf5,0x65,0x18,0x58,0x10
 
-# ATT:   vaddnepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vaddnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vaddbf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vaddbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x65,0x08,0x58,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vaddnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vaddnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vaddbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vaddbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x65,0x8f,0x58,0x51,0x7f
 
-# ATT:   vaddnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vaddnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vaddbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vaddbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x65,0x9f,0x58,0x52,0x80
 
-# ATT:   vcmppbf16 $123, %ymm4, %ymm3, %k5
-# INTEL: vcmppbf16 k5, ymm3, ymm4, 123
+# ATT:   vcmpbf16 $123, %ymm4, %ymm3, %k5
+# INTEL: vcmpbf16 k5, ymm3, ymm4, 123
 0x62,0xf3,0x67,0x28,0xc2,0xec,0x7b
 
-# ATT:   vcmppbf16 $123, %ymm4, %ymm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, ymm3, ymm4, 123
+# ATT:   vcmpbf16 $123, %ymm4, %ymm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, ymm3, ymm4, 123
 0x62,0xf3,0x67,0x2f,0xc2,0xec,0x7b
 
-# ATT:   vcmppbf16 $123, %xmm4, %xmm3, %k5
-# INTEL: vcmppbf16 k5, xmm3, xmm4, 123
+# ATT:   vcmpbf16 $123, %xmm4, %xmm3, %k5
+# INTEL: vcmpbf16 k5, xmm3, xmm4, 123
 0x62,0xf3,0x67,0x08,0xc2,0xec,0x7b
 
-# ATT:   vcmppbf16 $123, %xmm4, %xmm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, xmm3, xmm4, 123
+# ATT:   vcmpbf16 $123, %xmm4, %xmm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, xmm3, xmm4, 123
 0x62,0xf3,0x67,0x0f,0xc2,0xec,0x7b
 
-# ATT:   vcmppbf16 $123, %zmm4, %zmm3, %k5
-# INTEL: vcmppbf16 k5, zmm3, zmm4, 123
+# ATT:   vcmpbf16 $123, %zmm4, %zmm3, %k5
+# INTEL: vcmpbf16 k5, zmm3, zmm4, 123
 0x62,0xf3,0x67,0x48,0xc2,0xec,0x7b
 
-# ATT:   vcmppbf16 $123, %zmm4, %zmm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, zmm3, zmm4, 123
+# ATT:   vcmpbf16 $123, %zmm4, %zmm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, zmm3, zmm4, 123
 0x62,0xf3,0x67,0x4f,0xc2,0xec,0x7b
 
-# ATT:   vcmppbf16  $123, 268435456(%esp,%esi,8), %zmm3, %k5
-# INTEL: vcmppbf16 k5, zmm3, zmmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vcmpbf16  $123, 268435456(%esp,%esi,8), %zmm3, %k5
+# INTEL: vcmpbf16 k5, zmm3, zmmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x67,0x48,0xc2,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vcmppbf16  $123, 291(%edi,%eax,4), %zmm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291], 123
+# ATT:   vcmpbf16  $123, 291(%edi,%eax,4), %zmm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x67,0x4f,0xc2,0xac,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vcmppbf16  $123, (%eax){1to32}, %zmm3, %k5
-# INTEL: vcmppbf16 k5, zmm3, word ptr [eax]{1to32}, 123
+# ATT:   vcmpbf16  $123, (%eax){1to32}, %zmm3, %k5
+# INTEL: vcmpbf16 k5, zmm3, word ptr [eax]{1to32}, 123
 0x62,0xf3,0x67,0x58,0xc2,0x28,0x7b
 
-# ATT:   vcmppbf16  $123, -2048(,%ebp,2), %zmm3, %k5
-# INTEL: vcmppbf16 k5, zmm3, zmmword ptr [2*ebp - 2048], 123
+# ATT:   vcmpbf16  $123, -2048(,%ebp,2), %zmm3, %k5
+# INTEL: vcmpbf16 k5, zmm3, zmmword ptr [2*ebp - 2048], 123
 0x62,0xf3,0x67,0x48,0xc2,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vcmppbf16  $123, 8128(%ecx), %zmm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, zmm3, zmmword ptr [ecx + 8128], 123
+# ATT:   vcmpbf16  $123, 8128(%ecx), %zmm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, zmm3, zmmword ptr [ecx + 8128], 123
 0x62,0xf3,0x67,0x4f,0xc2,0x69,0x7f,0x7b
 
-# ATT:   vcmppbf16  $123, -256(%edx){1to32}, %zmm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, zmm3, word ptr [edx - 256]{1to32}, 123
+# ATT:   vcmpbf16  $123, -256(%edx){1to32}, %zmm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, zmm3, word ptr [edx - 256]{1to32}, 123
 0x62,0xf3,0x67,0x5f,0xc2,0x6a,0x80,0x7b
 
-# ATT:   vcmppbf16  $123, 268435456(%esp,%esi,8), %xmm3, %k5
-# INTEL: vcmppbf16 k5, xmm3, xmmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vcmpbf16  $123, 268435456(%esp,%esi,8), %xmm3, %k5
+# INTEL: vcmpbf16 k5, xmm3, xmmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x67,0x08,0xc2,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vcmppbf16  $123, 291(%edi,%eax,4), %xmm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291], 123
+# ATT:   vcmpbf16  $123, 291(%edi,%eax,4), %xmm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x67,0x0f,0xc2,0xac,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vcmppbf16  $123, (%eax){1to8}, %xmm3, %k5
-# INTEL: vcmppbf16 k5, xmm3, word ptr [eax]{1to8}, 123
+# ATT:   vcmpbf16  $123, (%eax){1to8}, %xmm3, %k5
+# INTEL: vcmpbf16 k5, xmm3, word ptr [eax]{1to8}, 123
 0x62,0xf3,0x67,0x18,0xc2,0x28,0x7b
 
-# ATT:   vcmppbf16  $123, -512(,%ebp,2), %xmm3, %k5
-# INTEL: vcmppbf16 k5, xmm3, xmmword ptr [2*ebp - 512], 123
+# ATT:   vcmpbf16  $123, -512(,%ebp,2), %xmm3, %k5
+# INTEL: vcmpbf16 k5, xmm3, xmmword ptr [2*ebp - 512], 123
 0x62,0xf3,0x67,0x08,0xc2,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vcmppbf16  $123, 2032(%ecx), %xmm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, xmm3, xmmword ptr [ecx + 2032], 123
+# ATT:   vcmpbf16  $123, 2032(%ecx), %xmm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, xmm3, xmmword ptr [ecx + 2032], 123
 0x62,0xf3,0x67,0x0f,0xc2,0x69,0x7f,0x7b
 
-# ATT:   vcmppbf16  $123, -256(%edx){1to8}, %xmm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, xmm3, word ptr [edx - 256]{1to8}, 123
+# ATT:   vcmpbf16  $123, -256(%edx){1to8}, %xmm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, xmm3, word ptr [edx - 256]{1to8}, 123
 0x62,0xf3,0x67,0x1f,0xc2,0x6a,0x80,0x7b
 
-# ATT:   vcmppbf16  $123, 268435456(%esp,%esi,8), %ymm3, %k5
-# INTEL: vcmppbf16 k5, ymm3, ymmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vcmpbf16  $123, 268435456(%esp,%esi,8), %ymm3, %k5
+# INTEL: vcmpbf16 k5, ymm3, ymmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x67,0x28,0xc2,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vcmppbf16  $123, 291(%edi,%eax,4), %ymm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291], 123
+# ATT:   vcmpbf16  $123, 291(%edi,%eax,4), %ymm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x67,0x2f,0xc2,0xac,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vcmppbf16  $123, (%eax){1to16}, %ymm3, %k5
-# INTEL: vcmppbf16 k5, ymm3, word ptr [eax]{1to16}, 123
+# ATT:   vcmpbf16  $123, (%eax){1to16}, %ymm3, %k5
+# INTEL: vcmpbf16 k5, ymm3, word ptr [eax]{1to16}, 123
 0x62,0xf3,0x67,0x38,0xc2,0x28,0x7b
 
-# ATT:   vcmppbf16  $123, -1024(,%ebp,2), %ymm3, %k5
-# INTEL: vcmppbf16 k5, ymm3, ymmword ptr [2*ebp - 1024], 123
+# ATT:   vcmpbf16  $123, -1024(,%ebp,2), %ymm3, %k5
+# INTEL: vcmpbf16 k5, ymm3, ymmword ptr [2*ebp - 1024], 123
 0x62,0xf3,0x67,0x28,0xc2,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vcmppbf16  $123, 4064(%ecx), %ymm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, ymm3, ymmword ptr [ecx + 4064], 123
+# ATT:   vcmpbf16  $123, 4064(%ecx), %ymm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, ymm3, ymmword ptr [ecx + 4064], 123
 0x62,0xf3,0x67,0x2f,0xc2,0x69,0x7f,0x7b
 
-# ATT:   vcmppbf16  $123, -256(%edx){1to16}, %ymm3, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, ymm3, word ptr [edx - 256]{1to16}, 123
+# ATT:   vcmpbf16  $123, -256(%edx){1to16}, %ymm3, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, ymm3, word ptr [edx - 256]{1to16}, 123
 0x62,0xf3,0x67,0x3f,0xc2,0x6a,0x80,0x7b
 
-# ATT:   vcomsbf16 %xmm3, %xmm2
-# INTEL: vcomsbf16 xmm2, xmm3
+# ATT:   vcomisbf16 %xmm3, %xmm2
+# INTEL: vcomisbf16 xmm2, xmm3
 0x62,0xf5,0x7d,0x08,0x2f,0xd3
 
-# ATT:   vcomsbf16  268435456(%esp,%esi,8), %xmm2
-# INTEL: vcomsbf16 xmm2, word ptr [esp + 8*esi + 268435456]
+# ATT:   vcomisbf16  268435456(%esp,%esi,8), %xmm2
+# INTEL: vcomisbf16 xmm2, word ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7d,0x08,0x2f,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcomsbf16  291(%edi,%eax,4), %xmm2
-# INTEL: vcomsbf16 xmm2, word ptr [edi + 4*eax + 291]
+# ATT:   vcomisbf16  291(%edi,%eax,4), %xmm2
+# INTEL: vcomisbf16 xmm2, word ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7d,0x08,0x2f,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcomsbf16  (%eax), %xmm2
-# INTEL: vcomsbf16 xmm2, word ptr [eax]
+# ATT:   vcomisbf16  (%eax), %xmm2
+# INTEL: vcomisbf16 xmm2, word ptr [eax]
 0x62,0xf5,0x7d,0x08,0x2f,0x10
 
-# ATT:   vcomsbf16  -64(,%ebp,2), %xmm2
-# INTEL: vcomsbf16 xmm2, word ptr [2*ebp - 64]
+# ATT:   vcomisbf16  -64(,%ebp,2), %xmm2
+# INTEL: vcomisbf16 xmm2, word ptr [2*ebp - 64]
 0x62,0xf5,0x7d,0x08,0x2f,0x14,0x6d,0xc0,0xff,0xff,0xff
 
-# ATT:   vcomsbf16  254(%ecx), %xmm2
-# INTEL: vcomsbf16 xmm2, word ptr [ecx + 254]
+# ATT:   vcomisbf16  254(%ecx), %xmm2
+# INTEL: vcomisbf16 xmm2, word ptr [ecx + 254]
 0x62,0xf5,0x7d,0x08,0x2f,0x51,0x7f
 
-# ATT:   vcomsbf16  -256(%edx), %xmm2
-# INTEL: vcomsbf16 xmm2, word ptr [edx - 256]
+# ATT:   vcomisbf16  -256(%edx), %xmm2
+# INTEL: vcomisbf16 xmm2, word ptr [edx - 256]
 0x62,0xf5,0x7d,0x08,0x2f,0x52,0x80
 
-# ATT:   vdivnepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vdivnepbf16 ymm2, ymm3, ymm4
+# ATT:   vdivbf16 %ymm4, %ymm3, %ymm2
+# INTEL: vdivbf16 ymm2, ymm3, ymm4
 0x62,0xf5,0x65,0x28,0x5e,0xd4
 
-# ATT:   vdivnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vdivnepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vdivbf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vdivbf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf5,0x65,0x2f,0x5e,0xd4
 
-# ATT:   vdivnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vdivnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vdivbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vdivbf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf5,0x65,0xaf,0x5e,0xd4
 
-# ATT:   vdivnepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vdivnepbf16 zmm2, zmm3, zmm4
+# ATT:   vdivbf16 %zmm4, %zmm3, %zmm2
+# INTEL: vdivbf16 zmm2, zmm3, zmm4
 0x62,0xf5,0x65,0x48,0x5e,0xd4
 
-# ATT:   vdivnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vdivnepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vdivbf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vdivbf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf5,0x65,0x4f,0x5e,0xd4
 
-# ATT:   vdivnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vdivnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vdivbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vdivbf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf5,0x65,0xcf,0x5e,0xd4
 
-# ATT:   vdivnepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vdivnepbf16 xmm2, xmm3, xmm4
+# ATT:   vdivbf16 %xmm4, %xmm3, %xmm2
+# INTEL: vdivbf16 xmm2, xmm3, xmm4
 0x62,0xf5,0x65,0x08,0x5e,0xd4
 
-# ATT:   vdivnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vdivnepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vdivbf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vdivbf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf5,0x65,0x0f,0x5e,0xd4
 
-# ATT:   vdivnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vdivnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vdivbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vdivbf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf5,0x65,0x8f,0x5e,0xd4
 
-# ATT:   vdivnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vdivnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vdivbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vdivbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x48,0x5e,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vdivnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vdivnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vdivbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vdivbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x4f,0x5e,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vdivnepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vdivnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vdivbf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vdivbf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf5,0x65,0x58,0x5e,0x10
 
-# ATT:   vdivnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vdivnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vdivbf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vdivbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x65,0x48,0x5e,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vdivnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vdivnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vdivbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vdivbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x65,0xcf,0x5e,0x51,0x7f
 
-# ATT:   vdivnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vdivnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vdivbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vdivbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x65,0xdf,0x5e,0x52,0x80
 
-# ATT:   vdivnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vdivnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vdivbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vdivbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x28,0x5e,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vdivnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vdivnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vdivbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vdivbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x2f,0x5e,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vdivnepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vdivnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vdivbf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vdivbf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf5,0x65,0x38,0x5e,0x10
 
-# ATT:   vdivnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vdivnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vdivbf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vdivbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x65,0x28,0x5e,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vdivnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vdivnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vdivbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vdivbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x65,0xaf,0x5e,0x51,0x7f
 
-# ATT:   vdivnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vdivnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vdivbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vdivbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x65,0xbf,0x5e,0x52,0x80
 
-# ATT:   vdivnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vdivnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vdivbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vdivbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x08,0x5e,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vdivnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vdivnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vdivbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vdivbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x0f,0x5e,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vdivnepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vdivnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vdivbf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vdivbf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf5,0x65,0x18,0x5e,0x10
 
-# ATT:   vdivnepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vdivnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vdivbf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vdivbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x65,0x08,0x5e,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vdivnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vdivnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vdivbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vdivbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x65,0x8f,0x5e,0x51,0x7f
 
-# ATT:   vdivnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vdivnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vdivbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vdivbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x65,0x9f,0x5e,0x52,0x80
 
-# ATT:   vfmadd132nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfmadd132nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfmadd132bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfmadd132bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0x98,0xd4
 
-# ATT:   vfmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfmadd132nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfmadd132bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0x98,0xd4
 
-# ATT:   vfmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmadd132bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0x98,0xd4
 
-# ATT:   vfmadd132nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfmadd132nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfmadd132bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfmadd132bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0x98,0xd4
 
-# ATT:   vfmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfmadd132nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfmadd132bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0x98,0xd4
 
-# ATT:   vfmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmadd132bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0x98,0xd4
 
-# ATT:   vfmadd132nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfmadd132nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfmadd132bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfmadd132bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0x98,0xd4
 
-# ATT:   vfmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfmadd132nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfmadd132bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0x98,0xd4
 
-# ATT:   vfmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmadd132bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0x98,0xd4
 
-# ATT:   vfmadd132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfmadd132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmadd132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfmadd132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0x98,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfmadd132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmadd132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfmadd132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0x98,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd132nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfmadd132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfmadd132bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfmadd132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0x98,0x10
 
-# ATT:   vfmadd132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfmadd132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfmadd132bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfmadd132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0x98,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmadd132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfmadd132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmadd132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0x98,0x51,0x7f
 
-# ATT:   vfmadd132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmadd132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfmadd132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmadd132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0x98,0x52,0x80
 
-# ATT:   vfmadd132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfmadd132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmadd132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfmadd132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0x98,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfmadd132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfmadd132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfmadd132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0x98,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd132nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfmadd132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfmadd132bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfmadd132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0x98,0x10
 
-# ATT:   vfmadd132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfmadd132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfmadd132bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfmadd132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0x98,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmadd132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfmadd132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmadd132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0x98,0x51,0x7f
 
-# ATT:   vfmadd132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmadd132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfmadd132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmadd132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0x98,0x52,0x80
 
-# ATT:   vfmadd132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfmadd132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmadd132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfmadd132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0x98,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfmadd132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmadd132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfmadd132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0x98,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd132nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfmadd132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfmadd132bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfmadd132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0x98,0x10
 
-# ATT:   vfmadd132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfmadd132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfmadd132bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfmadd132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0x98,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmadd132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfmadd132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmadd132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0x98,0x51,0x7f
 
-# ATT:   vfmadd132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmadd132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfmadd132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmadd132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0x98,0x52,0x80
 
-# ATT:   vfmadd213nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfmadd213nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfmadd213bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfmadd213bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0xa8,0xd4
 
-# ATT:   vfmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfmadd213nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfmadd213bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0xa8,0xd4
 
-# ATT:   vfmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmadd213bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0xa8,0xd4
 
-# ATT:   vfmadd213nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfmadd213nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfmadd213bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfmadd213bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0xa8,0xd4
 
-# ATT:   vfmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfmadd213nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfmadd213bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0xa8,0xd4
 
-# ATT:   vfmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmadd213bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0xa8,0xd4
 
-# ATT:   vfmadd213nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfmadd213nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfmadd213bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfmadd213bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0xa8,0xd4
 
-# ATT:   vfmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfmadd213nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfmadd213bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0xa8,0xd4
 
-# ATT:   vfmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmadd213bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0xa8,0xd4
 
-# ATT:   vfmadd213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfmadd213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmadd213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfmadd213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0xa8,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfmadd213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmadd213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfmadd213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0xa8,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd213nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfmadd213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfmadd213bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfmadd213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0xa8,0x10
 
-# ATT:   vfmadd213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfmadd213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfmadd213bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfmadd213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0xa8,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmadd213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfmadd213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmadd213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0xa8,0x51,0x7f
 
-# ATT:   vfmadd213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmadd213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfmadd213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmadd213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0xa8,0x52,0x80
 
-# ATT:   vfmadd213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfmadd213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmadd213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfmadd213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0xa8,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfmadd213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfmadd213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfmadd213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0xa8,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd213nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfmadd213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfmadd213bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfmadd213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0xa8,0x10
 
-# ATT:   vfmadd213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfmadd213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfmadd213bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfmadd213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0xa8,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmadd213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfmadd213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmadd213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0xa8,0x51,0x7f
 
-# ATT:   vfmadd213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmadd213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfmadd213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmadd213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0xa8,0x52,0x80
 
-# ATT:   vfmadd213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfmadd213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmadd213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfmadd213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0xa8,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfmadd213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmadd213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfmadd213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0xa8,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd213nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfmadd213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfmadd213bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfmadd213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0xa8,0x10
 
-# ATT:   vfmadd213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfmadd213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfmadd213bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfmadd213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0xa8,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmadd213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfmadd213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmadd213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0xa8,0x51,0x7f
 
-# ATT:   vfmadd213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmadd213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfmadd213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmadd213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0xa8,0x52,0x80
 
-# ATT:   vfmadd231nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfmadd231nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfmadd231bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfmadd231bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0xb8,0xd4
 
-# ATT:   vfmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfmadd231nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfmadd231bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0xb8,0xd4
 
-# ATT:   vfmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmadd231bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0xb8,0xd4
 
-# ATT:   vfmadd231nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfmadd231nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfmadd231bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfmadd231bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0xb8,0xd4
 
-# ATT:   vfmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfmadd231nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfmadd231bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0xb8,0xd4
 
-# ATT:   vfmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmadd231bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0xb8,0xd4
 
-# ATT:   vfmadd231nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfmadd231nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfmadd231bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfmadd231bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0xb8,0xd4
 
-# ATT:   vfmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfmadd231nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfmadd231bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0xb8,0xd4
 
-# ATT:   vfmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmadd231bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0xb8,0xd4
 
-# ATT:   vfmadd231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfmadd231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmadd231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfmadd231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0xb8,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfmadd231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmadd231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfmadd231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0xb8,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd231nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfmadd231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfmadd231bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfmadd231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0xb8,0x10
 
-# ATT:   vfmadd231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfmadd231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfmadd231bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfmadd231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0xb8,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmadd231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfmadd231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmadd231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0xb8,0x51,0x7f
 
-# ATT:   vfmadd231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmadd231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfmadd231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmadd231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0xb8,0x52,0x80
 
-# ATT:   vfmadd231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfmadd231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmadd231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfmadd231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0xb8,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfmadd231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfmadd231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfmadd231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0xb8,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd231nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfmadd231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfmadd231bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfmadd231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0xb8,0x10
 
-# ATT:   vfmadd231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfmadd231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfmadd231bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfmadd231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0xb8,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmadd231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfmadd231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmadd231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0xb8,0x51,0x7f
 
-# ATT:   vfmadd231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmadd231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfmadd231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmadd231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0xb8,0x52,0x80
 
-# ATT:   vfmadd231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfmadd231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmadd231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfmadd231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0xb8,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfmadd231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmadd231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfmadd231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0xb8,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd231nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfmadd231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfmadd231bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfmadd231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0xb8,0x10
 
-# ATT:   vfmadd231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfmadd231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfmadd231bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfmadd231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0xb8,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmadd231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfmadd231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmadd231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0xb8,0x51,0x7f
 
-# ATT:   vfmadd231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmadd231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfmadd231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmadd231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0xb8,0x52,0x80
 
-# ATT:   vfmsub132nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfmsub132nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfmsub132bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfmsub132bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0x9a,0xd4
 
-# ATT:   vfmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfmsub132nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfmsub132bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0x9a,0xd4
 
-# ATT:   vfmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmsub132bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0x9a,0xd4
 
-# ATT:   vfmsub132nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfmsub132nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfmsub132bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfmsub132bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0x9a,0xd4
 
-# ATT:   vfmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfmsub132nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfmsub132bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0x9a,0xd4
 
-# ATT:   vfmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmsub132bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0x9a,0xd4
 
-# ATT:   vfmsub132nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfmsub132nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfmsub132bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfmsub132bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0x9a,0xd4
 
-# ATT:   vfmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfmsub132nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfmsub132bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0x9a,0xd4
 
-# ATT:   vfmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmsub132bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0x9a,0xd4
 
-# ATT:   vfmsub132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfmsub132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmsub132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfmsub132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0x9a,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfmsub132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmsub132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfmsub132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0x9a,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub132nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfmsub132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfmsub132bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfmsub132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0x9a,0x10
 
-# ATT:   vfmsub132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfmsub132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfmsub132bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfmsub132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0x9a,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmsub132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfmsub132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmsub132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0x9a,0x51,0x7f
 
-# ATT:   vfmsub132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmsub132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfmsub132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmsub132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0x9a,0x52,0x80
 
-# ATT:   vfmsub132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfmsub132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmsub132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfmsub132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0x9a,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfmsub132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfmsub132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfmsub132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0x9a,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub132nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfmsub132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfmsub132bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfmsub132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0x9a,0x10
 
-# ATT:   vfmsub132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfmsub132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfmsub132bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfmsub132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0x9a,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmsub132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfmsub132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmsub132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0x9a,0x51,0x7f
 
-# ATT:   vfmsub132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmsub132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfmsub132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmsub132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0x9a,0x52,0x80
 
-# ATT:   vfmsub132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfmsub132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmsub132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfmsub132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0x9a,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfmsub132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmsub132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfmsub132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0x9a,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub132nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfmsub132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfmsub132bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfmsub132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0x9a,0x10
 
-# ATT:   vfmsub132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfmsub132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfmsub132bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfmsub132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0x9a,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmsub132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfmsub132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmsub132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0x9a,0x51,0x7f
 
-# ATT:   vfmsub132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmsub132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfmsub132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmsub132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0x9a,0x52,0x80
 
-# ATT:   vfmsub213nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfmsub213nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfmsub213bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfmsub213bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0xaa,0xd4
 
-# ATT:   vfmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfmsub213nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfmsub213bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0xaa,0xd4
 
-# ATT:   vfmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmsub213bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0xaa,0xd4
 
-# ATT:   vfmsub213nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfmsub213nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfmsub213bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfmsub213bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0xaa,0xd4
 
-# ATT:   vfmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfmsub213nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfmsub213bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0xaa,0xd4
 
-# ATT:   vfmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmsub213bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0xaa,0xd4
 
-# ATT:   vfmsub213nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfmsub213nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfmsub213bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfmsub213bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0xaa,0xd4
 
-# ATT:   vfmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfmsub213nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfmsub213bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0xaa,0xd4
 
-# ATT:   vfmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmsub213bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0xaa,0xd4
 
-# ATT:   vfmsub213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfmsub213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmsub213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfmsub213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0xaa,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfmsub213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmsub213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfmsub213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0xaa,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub213nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfmsub213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfmsub213bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfmsub213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0xaa,0x10
 
-# ATT:   vfmsub213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfmsub213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfmsub213bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfmsub213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0xaa,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmsub213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfmsub213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmsub213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0xaa,0x51,0x7f
 
-# ATT:   vfmsub213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmsub213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfmsub213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmsub213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0xaa,0x52,0x80
 
-# ATT:   vfmsub213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfmsub213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmsub213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfmsub213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0xaa,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfmsub213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfmsub213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfmsub213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0xaa,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub213nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfmsub213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfmsub213bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfmsub213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0xaa,0x10
 
-# ATT:   vfmsub213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfmsub213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfmsub213bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfmsub213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0xaa,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmsub213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfmsub213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmsub213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0xaa,0x51,0x7f
 
-# ATT:   vfmsub213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmsub213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfmsub213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmsub213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0xaa,0x52,0x80
 
-# ATT:   vfmsub213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfmsub213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmsub213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfmsub213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0xaa,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfmsub213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmsub213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfmsub213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0xaa,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub213nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfmsub213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfmsub213bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfmsub213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0xaa,0x10
 
-# ATT:   vfmsub213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfmsub213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfmsub213bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfmsub213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0xaa,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmsub213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfmsub213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmsub213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0xaa,0x51,0x7f
 
-# ATT:   vfmsub213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmsub213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfmsub213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmsub213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0xaa,0x52,0x80
 
-# ATT:   vfmsub231nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfmsub231nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfmsub231bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfmsub231bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0xba,0xd4
 
-# ATT:   vfmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfmsub231nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfmsub231bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0xba,0xd4
 
-# ATT:   vfmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmsub231bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0xba,0xd4
 
-# ATT:   vfmsub231nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfmsub231nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfmsub231bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfmsub231bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0xba,0xd4
 
-# ATT:   vfmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfmsub231nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfmsub231bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0xba,0xd4
 
-# ATT:   vfmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmsub231bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0xba,0xd4
 
-# ATT:   vfmsub231nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfmsub231nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfmsub231bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfmsub231bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0xba,0xd4
 
-# ATT:   vfmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfmsub231nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfmsub231bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0xba,0xd4
 
-# ATT:   vfmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmsub231bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0xba,0xd4
 
-# ATT:   vfmsub231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfmsub231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmsub231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfmsub231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0xba,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfmsub231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmsub231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfmsub231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0xba,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub231nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfmsub231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfmsub231bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfmsub231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0xba,0x10
 
-# ATT:   vfmsub231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfmsub231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfmsub231bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfmsub231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0xba,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmsub231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfmsub231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmsub231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0xba,0x51,0x7f
 
-# ATT:   vfmsub231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfmsub231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfmsub231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfmsub231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0xba,0x52,0x80
 
-# ATT:   vfmsub231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfmsub231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmsub231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfmsub231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0xba,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfmsub231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfmsub231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfmsub231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0xba,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub231nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfmsub231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfmsub231bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfmsub231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0xba,0x10
 
-# ATT:   vfmsub231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfmsub231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfmsub231bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfmsub231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0xba,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmsub231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfmsub231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmsub231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0xba,0x51,0x7f
 
-# ATT:   vfmsub231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfmsub231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfmsub231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfmsub231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0xba,0x52,0x80
 
-# ATT:   vfmsub231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfmsub231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfmsub231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfmsub231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0xba,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfmsub231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfmsub231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfmsub231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0xba,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub231nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfmsub231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfmsub231bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfmsub231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0xba,0x10
 
-# ATT:   vfmsub231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfmsub231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfmsub231bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfmsub231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0xba,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmsub231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfmsub231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmsub231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0xba,0x51,0x7f
 
-# ATT:   vfmsub231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfmsub231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfmsub231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfmsub231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0xba,0x52,0x80
 
-# ATT:   vfnmadd132nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfnmadd132nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfnmadd132bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfnmadd132bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0x9c,0xd4
 
-# ATT:   vfnmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfnmadd132nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfnmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfnmadd132bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0x9c,0xd4
 
-# ATT:   vfnmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfnmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmadd132bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0x9c,0xd4
 
-# ATT:   vfnmadd132nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfnmadd132nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfnmadd132bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfnmadd132bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0x9c,0xd4
 
-# ATT:   vfnmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfnmadd132nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfnmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfnmadd132bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0x9c,0xd4
 
-# ATT:   vfnmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfnmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmadd132bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0x9c,0xd4
 
-# ATT:   vfnmadd132nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfnmadd132nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfnmadd132bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfnmadd132bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0x9c,0xd4
 
-# ATT:   vfnmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfnmadd132nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfnmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfnmadd132bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0x9c,0xd4
 
-# ATT:   vfnmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfnmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmadd132bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0x9c,0xd4
 
-# ATT:   vfnmadd132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfnmadd132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmadd132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfnmadd132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0x9c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfnmadd132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmadd132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfnmadd132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0x9c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd132nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfnmadd132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfnmadd132bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfnmadd132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0x9c,0x10
 
-# ATT:   vfnmadd132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfnmadd132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfnmadd132bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfnmadd132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0x9c,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmadd132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfnmadd132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmadd132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0x9c,0x51,0x7f
 
-# ATT:   vfnmadd132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfnmadd132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmadd132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0x9c,0x52,0x80
 
-# ATT:   vfnmadd132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfnmadd132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmadd132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfnmadd132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0x9c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfnmadd132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmadd132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfnmadd132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0x9c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd132nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfnmadd132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfnmadd132bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfnmadd132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0x9c,0x10
 
-# ATT:   vfnmadd132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfnmadd132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfnmadd132bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfnmadd132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0x9c,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmadd132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfnmadd132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmadd132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0x9c,0x51,0x7f
 
-# ATT:   vfnmadd132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfnmadd132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmadd132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0x9c,0x52,0x80
 
-# ATT:   vfnmadd132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfnmadd132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmadd132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfnmadd132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0x9c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfnmadd132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmadd132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfnmadd132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0x9c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd132nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfnmadd132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfnmadd132bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfnmadd132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0x9c,0x10
 
-# ATT:   vfnmadd132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfnmadd132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfnmadd132bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfnmadd132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0x9c,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmadd132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfnmadd132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmadd132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0x9c,0x51,0x7f
 
-# ATT:   vfnmadd132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfnmadd132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmadd132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0x9c,0x52,0x80
 
-# ATT:   vfnmadd213nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfnmadd213nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfnmadd213bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfnmadd213bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0xac,0xd4
 
-# ATT:   vfnmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfnmadd213nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfnmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfnmadd213bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0xac,0xd4
 
-# ATT:   vfnmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfnmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmadd213bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0xac,0xd4
 
-# ATT:   vfnmadd213nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfnmadd213nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfnmadd213bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfnmadd213bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0xac,0xd4
 
-# ATT:   vfnmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfnmadd213nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfnmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfnmadd213bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0xac,0xd4
 
-# ATT:   vfnmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfnmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmadd213bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0xac,0xd4
 
-# ATT:   vfnmadd213nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfnmadd213nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfnmadd213bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfnmadd213bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0xac,0xd4
 
-# ATT:   vfnmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfnmadd213nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfnmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfnmadd213bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0xac,0xd4
 
-# ATT:   vfnmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfnmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmadd213bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0xac,0xd4
 
-# ATT:   vfnmadd213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfnmadd213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmadd213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfnmadd213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0xac,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfnmadd213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmadd213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfnmadd213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0xac,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd213nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfnmadd213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfnmadd213bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfnmadd213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0xac,0x10
 
-# ATT:   vfnmadd213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfnmadd213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfnmadd213bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfnmadd213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0xac,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmadd213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfnmadd213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmadd213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0xac,0x51,0x7f
 
-# ATT:   vfnmadd213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfnmadd213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmadd213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0xac,0x52,0x80
 
-# ATT:   vfnmadd213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfnmadd213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmadd213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfnmadd213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0xac,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfnmadd213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmadd213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfnmadd213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0xac,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd213nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfnmadd213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfnmadd213bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfnmadd213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0xac,0x10
 
-# ATT:   vfnmadd213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfnmadd213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfnmadd213bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfnmadd213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0xac,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmadd213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfnmadd213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmadd213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0xac,0x51,0x7f
 
-# ATT:   vfnmadd213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfnmadd213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmadd213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0xac,0x52,0x80
 
-# ATT:   vfnmadd213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfnmadd213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmadd213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfnmadd213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0xac,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfnmadd213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmadd213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfnmadd213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0xac,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd213nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfnmadd213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfnmadd213bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfnmadd213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0xac,0x10
 
-# ATT:   vfnmadd213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfnmadd213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfnmadd213bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfnmadd213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0xac,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmadd213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfnmadd213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmadd213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0xac,0x51,0x7f
 
-# ATT:   vfnmadd213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfnmadd213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmadd213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0xac,0x52,0x80
 
-# ATT:   vfnmadd231nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfnmadd231nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfnmadd231bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfnmadd231bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0xbc,0xd4
 
-# ATT:   vfnmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfnmadd231nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfnmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfnmadd231bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0xbc,0xd4
 
-# ATT:   vfnmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfnmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmadd231bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0xbc,0xd4
 
-# ATT:   vfnmadd231nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfnmadd231nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfnmadd231bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfnmadd231bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0xbc,0xd4
 
-# ATT:   vfnmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfnmadd231nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfnmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfnmadd231bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0xbc,0xd4
 
-# ATT:   vfnmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfnmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmadd231bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0xbc,0xd4
 
-# ATT:   vfnmadd231nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfnmadd231nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfnmadd231bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfnmadd231bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0xbc,0xd4
 
-# ATT:   vfnmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfnmadd231nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfnmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfnmadd231bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0xbc,0xd4
 
-# ATT:   vfnmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfnmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmadd231bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0xbc,0xd4
 
-# ATT:   vfnmadd231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfnmadd231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmadd231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfnmadd231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0xbc,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfnmadd231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmadd231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfnmadd231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0xbc,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd231nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfnmadd231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfnmadd231bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfnmadd231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0xbc,0x10
 
-# ATT:   vfnmadd231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfnmadd231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfnmadd231bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfnmadd231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0xbc,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmadd231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfnmadd231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmadd231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0xbc,0x51,0x7f
 
-# ATT:   vfnmadd231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfnmadd231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmadd231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0xbc,0x52,0x80
 
-# ATT:   vfnmadd231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfnmadd231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmadd231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfnmadd231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0xbc,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfnmadd231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmadd231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfnmadd231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0xbc,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd231nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfnmadd231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfnmadd231bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfnmadd231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0xbc,0x10
 
-# ATT:   vfnmadd231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfnmadd231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfnmadd231bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfnmadd231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0xbc,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmadd231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfnmadd231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmadd231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0xbc,0x51,0x7f
 
-# ATT:   vfnmadd231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfnmadd231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmadd231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0xbc,0x52,0x80
 
-# ATT:   vfnmadd231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfnmadd231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmadd231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfnmadd231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0xbc,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfnmadd231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmadd231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfnmadd231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0xbc,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd231nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfnmadd231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfnmadd231bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfnmadd231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0xbc,0x10
 
-# ATT:   vfnmadd231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfnmadd231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfnmadd231bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfnmadd231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0xbc,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmadd231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfnmadd231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmadd231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0xbc,0x51,0x7f
 
-# ATT:   vfnmadd231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfnmadd231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmadd231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0xbc,0x52,0x80
 
-# ATT:   vfnmsub132nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfnmsub132nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfnmsub132bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfnmsub132bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0x9e,0xd4
 
-# ATT:   vfnmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfnmsub132nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfnmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfnmsub132bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0x9e,0xd4
 
-# ATT:   vfnmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfnmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmsub132bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0x9e,0xd4
 
-# ATT:   vfnmsub132nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfnmsub132nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfnmsub132bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfnmsub132bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0x9e,0xd4
 
-# ATT:   vfnmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfnmsub132nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfnmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfnmsub132bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0x9e,0xd4
 
-# ATT:   vfnmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfnmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmsub132bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0x9e,0xd4
 
-# ATT:   vfnmsub132nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfnmsub132nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfnmsub132bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfnmsub132bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0x9e,0xd4
 
-# ATT:   vfnmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfnmsub132nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfnmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfnmsub132bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0x9e,0xd4
 
-# ATT:   vfnmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfnmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmsub132bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0x9e,0xd4
 
-# ATT:   vfnmsub132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfnmsub132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmsub132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfnmsub132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0x9e,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfnmsub132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmsub132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfnmsub132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0x9e,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub132nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfnmsub132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfnmsub132bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfnmsub132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0x9e,0x10
 
-# ATT:   vfnmsub132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfnmsub132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfnmsub132bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfnmsub132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0x9e,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmsub132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfnmsub132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmsub132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0x9e,0x51,0x7f
 
-# ATT:   vfnmsub132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfnmsub132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmsub132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0x9e,0x52,0x80
 
-# ATT:   vfnmsub132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfnmsub132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmsub132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfnmsub132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0x9e,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfnmsub132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmsub132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfnmsub132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0x9e,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub132nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfnmsub132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfnmsub132bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfnmsub132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0x9e,0x10
 
-# ATT:   vfnmsub132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfnmsub132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfnmsub132bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfnmsub132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0x9e,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmsub132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfnmsub132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmsub132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0x9e,0x51,0x7f
 
-# ATT:   vfnmsub132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfnmsub132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmsub132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0x9e,0x52,0x80
 
-# ATT:   vfnmsub132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfnmsub132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmsub132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfnmsub132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0x9e,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfnmsub132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmsub132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfnmsub132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0x9e,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub132nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfnmsub132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfnmsub132bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfnmsub132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0x9e,0x10
 
-# ATT:   vfnmsub132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfnmsub132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfnmsub132bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfnmsub132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0x9e,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmsub132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfnmsub132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmsub132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0x9e,0x51,0x7f
 
-# ATT:   vfnmsub132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfnmsub132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmsub132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0x9e,0x52,0x80
 
-# ATT:   vfnmsub213nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfnmsub213nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfnmsub213bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfnmsub213bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0xae,0xd4
 
-# ATT:   vfnmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfnmsub213nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfnmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfnmsub213bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0xae,0xd4
 
-# ATT:   vfnmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfnmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmsub213bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0xae,0xd4
 
-# ATT:   vfnmsub213nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfnmsub213nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfnmsub213bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfnmsub213bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0xae,0xd4
 
-# ATT:   vfnmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfnmsub213nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfnmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfnmsub213bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0xae,0xd4
 
-# ATT:   vfnmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfnmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmsub213bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0xae,0xd4
 
-# ATT:   vfnmsub213nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfnmsub213nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfnmsub213bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfnmsub213bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0xae,0xd4
 
-# ATT:   vfnmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfnmsub213nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfnmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfnmsub213bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0xae,0xd4
 
-# ATT:   vfnmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfnmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmsub213bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0xae,0xd4
 
-# ATT:   vfnmsub213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfnmsub213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmsub213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfnmsub213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0xae,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfnmsub213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmsub213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfnmsub213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0xae,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub213nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfnmsub213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfnmsub213bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfnmsub213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0xae,0x10
 
-# ATT:   vfnmsub213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfnmsub213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfnmsub213bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfnmsub213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0xae,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmsub213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfnmsub213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmsub213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0xae,0x51,0x7f
 
-# ATT:   vfnmsub213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfnmsub213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmsub213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0xae,0x52,0x80
 
-# ATT:   vfnmsub213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfnmsub213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmsub213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfnmsub213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0xae,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfnmsub213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmsub213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfnmsub213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0xae,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub213nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfnmsub213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfnmsub213bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfnmsub213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0xae,0x10
 
-# ATT:   vfnmsub213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfnmsub213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfnmsub213bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfnmsub213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0xae,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmsub213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfnmsub213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmsub213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0xae,0x51,0x7f
 
-# ATT:   vfnmsub213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfnmsub213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmsub213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0xae,0x52,0x80
 
-# ATT:   vfnmsub213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfnmsub213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmsub213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfnmsub213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0xae,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfnmsub213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmsub213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfnmsub213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0xae,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub213nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfnmsub213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfnmsub213bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfnmsub213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0xae,0x10
 
-# ATT:   vfnmsub213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfnmsub213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfnmsub213bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfnmsub213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0xae,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmsub213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfnmsub213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmsub213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0xae,0x51,0x7f
 
-# ATT:   vfnmsub213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfnmsub213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmsub213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0xae,0x52,0x80
 
-# ATT:   vfnmsub231nepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vfnmsub231nepbf16 ymm2, ymm3, ymm4
+# ATT:   vfnmsub231bf16 %ymm4, %ymm3, %ymm2
+# INTEL: vfnmsub231bf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0xbe,0xd4
 
-# ATT:   vfnmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vfnmsub231nepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vfnmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vfnmsub231bf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0xbe,0xd4
 
-# ATT:   vfnmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vfnmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmsub231bf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0xbe,0xd4
 
-# ATT:   vfnmsub231nepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vfnmsub231nepbf16 zmm2, zmm3, zmm4
+# ATT:   vfnmsub231bf16 %zmm4, %zmm3, %zmm2
+# INTEL: vfnmsub231bf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0xbe,0xd4
 
-# ATT:   vfnmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vfnmsub231nepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vfnmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vfnmsub231bf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0xbe,0xd4
 
-# ATT:   vfnmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vfnmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmsub231bf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0xbe,0xd4
 
-# ATT:   vfnmsub231nepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vfnmsub231nepbf16 xmm2, xmm3, xmm4
+# ATT:   vfnmsub231bf16 %xmm4, %xmm3, %xmm2
+# INTEL: vfnmsub231bf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0xbe,0xd4
 
-# ATT:   vfnmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vfnmsub231nepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vfnmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vfnmsub231bf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0xbe,0xd4
 
-# ATT:   vfnmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vfnmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmsub231bf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0xbe,0xd4
 
-# ATT:   vfnmsub231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vfnmsub231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmsub231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vfnmsub231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0xbe,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vfnmsub231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmsub231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vfnmsub231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0xbe,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub231nepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vfnmsub231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vfnmsub231bf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vfnmsub231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0xbe,0x10
 
-# ATT:   vfnmsub231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vfnmsub231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vfnmsub231bf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vfnmsub231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0xbe,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmsub231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vfnmsub231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmsub231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0xbe,0x51,0x7f
 
-# ATT:   vfnmsub231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vfnmsub231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vfnmsub231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0xbe,0x52,0x80
 
-# ATT:   vfnmsub231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vfnmsub231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmsub231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vfnmsub231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0xbe,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vfnmsub231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmsub231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vfnmsub231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0xbe,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub231nepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vfnmsub231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vfnmsub231bf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vfnmsub231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0xbe,0x10
 
-# ATT:   vfnmsub231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vfnmsub231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vfnmsub231bf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vfnmsub231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0xbe,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmsub231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vfnmsub231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmsub231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0xbe,0x51,0x7f
 
-# ATT:   vfnmsub231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vfnmsub231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vfnmsub231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0xbe,0x52,0x80
 
-# ATT:   vfnmsub231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vfnmsub231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vfnmsub231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vfnmsub231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0xbe,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vfnmsub231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vfnmsub231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vfnmsub231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0xbe,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub231nepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vfnmsub231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vfnmsub231bf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vfnmsub231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0xbe,0x10
 
-# ATT:   vfnmsub231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vfnmsub231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vfnmsub231bf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vfnmsub231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0xbe,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmsub231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vfnmsub231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmsub231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0xbe,0x51,0x7f
 
-# ATT:   vfnmsub231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vfnmsub231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vfnmsub231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0xbe,0x52,0x80
 
-# ATT:   vfpclasspbf16 $123, %zmm3, %k5
-# INTEL: vfpclasspbf16 k5, zmm3, 123
+# ATT:   vfpclassbf16 $123, %zmm3, %k5
+# INTEL: vfpclassbf16 k5, zmm3, 123
 0x62,0xf3,0x7f,0x48,0x66,0xeb,0x7b
 
-# ATT:   vfpclasspbf16 $123, %zmm3, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, zmm3, 123
+# ATT:   vfpclassbf16 $123, %zmm3, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, zmm3, 123
 0x62,0xf3,0x7f,0x4f,0x66,0xeb,0x7b
 
-# ATT:   vfpclasspbf16 $123, %ymm3, %k5
-# INTEL: vfpclasspbf16 k5, ymm3, 123
+# ATT:   vfpclassbf16 $123, %ymm3, %k5
+# INTEL: vfpclassbf16 k5, ymm3, 123
 0x62,0xf3,0x7f,0x28,0x66,0xeb,0x7b
 
-# ATT:   vfpclasspbf16 $123, %ymm3, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, ymm3, 123
+# ATT:   vfpclassbf16 $123, %ymm3, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, ymm3, 123
 0x62,0xf3,0x7f,0x2f,0x66,0xeb,0x7b
 
-# ATT:   vfpclasspbf16 $123, %xmm3, %k5
-# INTEL: vfpclasspbf16 k5, xmm3, 123
+# ATT:   vfpclassbf16 $123, %xmm3, %k5
+# INTEL: vfpclassbf16 k5, xmm3, 123
 0x62,0xf3,0x7f,0x08,0x66,0xeb,0x7b
 
-# ATT:   vfpclasspbf16 $123, %xmm3, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, xmm3, 123
+# ATT:   vfpclassbf16 $123, %xmm3, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, xmm3, 123
 0x62,0xf3,0x7f,0x0f,0x66,0xeb,0x7b
 
-# ATT:   vfpclasspbf16x  $123, 268435456(%esp,%esi,8), %k5
-# INTEL: vfpclasspbf16 k5, xmmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vfpclassbf16x  $123, 268435456(%esp,%esi,8), %k5
+# INTEL: vfpclassbf16 k5, xmmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x08,0x66,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vfpclasspbf16x  $123, 291(%edi,%eax,4), %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+# ATT:   vfpclassbf16x  $123, 291(%edi,%eax,4), %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x0f,0x66,0xac,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vfpclasspbf16  $123, (%eax){1to8}, %k5
-# INTEL: vfpclasspbf16 k5, word ptr [eax]{1to8}, 123
+# ATT:   vfpclassbf16  $123, (%eax){1to8}, %k5
+# INTEL: vfpclassbf16 k5, word ptr [eax]{1to8}, 123
 0x62,0xf3,0x7f,0x18,0x66,0x28,0x7b
 
-# ATT:   vfpclasspbf16x  $123, -512(,%ebp,2), %k5
-# INTEL: vfpclasspbf16 k5, xmmword ptr [2*ebp - 512], 123
+# ATT:   vfpclassbf16x  $123, -512(,%ebp,2), %k5
+# INTEL: vfpclassbf16 k5, xmmword ptr [2*ebp - 512], 123
 0x62,0xf3,0x7f,0x08,0x66,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vfpclasspbf16x  $123, 2032(%ecx), %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, xmmword ptr [ecx + 2032], 123
+# ATT:   vfpclassbf16x  $123, 2032(%ecx), %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, xmmword ptr [ecx + 2032], 123
 0x62,0xf3,0x7f,0x0f,0x66,0x69,0x7f,0x7b
 
-# ATT:   vfpclasspbf16  $123, -256(%edx){1to8}, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, word ptr [edx - 256]{1to8}, 123
+# ATT:   vfpclassbf16  $123, -256(%edx){1to8}, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, word ptr [edx - 256]{1to8}, 123
 0x62,0xf3,0x7f,0x1f,0x66,0x6a,0x80,0x7b
 
-# ATT:   vfpclasspbf16  $123, (%eax){1to16}, %k5
-# INTEL: vfpclasspbf16 k5, word ptr [eax]{1to16}, 123
+# ATT:   vfpclassbf16  $123, (%eax){1to16}, %k5
+# INTEL: vfpclassbf16 k5, word ptr [eax]{1to16}, 123
 0x62,0xf3,0x7f,0x38,0x66,0x28,0x7b
 
-# ATT:   vfpclasspbf16y  $123, -1024(,%ebp,2), %k5
-# INTEL: vfpclasspbf16 k5, ymmword ptr [2*ebp - 1024], 123
+# ATT:   vfpclassbf16y  $123, -1024(,%ebp,2), %k5
+# INTEL: vfpclassbf16 k5, ymmword ptr [2*ebp - 1024], 123
 0x62,0xf3,0x7f,0x28,0x66,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vfpclasspbf16y  $123, 4064(%ecx), %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, ymmword ptr [ecx + 4064], 123
+# ATT:   vfpclassbf16y  $123, 4064(%ecx), %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, ymmword ptr [ecx + 4064], 123
 0x62,0xf3,0x7f,0x2f,0x66,0x69,0x7f,0x7b
 
-# ATT:   vfpclasspbf16  $123, -256(%edx){1to16}, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, word ptr [edx - 256]{1to16}, 123
+# ATT:   vfpclassbf16  $123, -256(%edx){1to16}, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, word ptr [edx - 256]{1to16}, 123
 0x62,0xf3,0x7f,0x3f,0x66,0x6a,0x80,0x7b
 
-# ATT:   vfpclasspbf16  $123, (%eax){1to32}, %k5
-# INTEL: vfpclasspbf16 k5, word ptr [eax]{1to32}, 123
+# ATT:   vfpclassbf16  $123, (%eax){1to32}, %k5
+# INTEL: vfpclassbf16 k5, word ptr [eax]{1to32}, 123
 0x62,0xf3,0x7f,0x58,0x66,0x28,0x7b
 
-# ATT:   vfpclasspbf16z  $123, -2048(,%ebp,2), %k5
-# INTEL: vfpclasspbf16 k5, zmmword ptr [2*ebp - 2048], 123
+# ATT:   vfpclassbf16z  $123, -2048(,%ebp,2), %k5
+# INTEL: vfpclassbf16 k5, zmmword ptr [2*ebp - 2048], 123
 0x62,0xf3,0x7f,0x48,0x66,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vfpclasspbf16z  $123, 8128(%ecx), %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, zmmword ptr [ecx + 8128], 123
+# ATT:   vfpclassbf16z  $123, 8128(%ecx), %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, zmmword ptr [ecx + 8128], 123
 0x62,0xf3,0x7f,0x4f,0x66,0x69,0x7f,0x7b
 
-# ATT:   vfpclasspbf16  $123, -256(%edx){1to32}, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, word ptr [edx - 256]{1to32}, 123
+# ATT:   vfpclassbf16  $123, -256(%edx){1to32}, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, word ptr [edx - 256]{1to32}, 123
 0x62,0xf3,0x7f,0x5f,0x66,0x6a,0x80,0x7b
 
-# ATT:   vgetexppbf16 %xmm3, %xmm2
-# INTEL: vgetexppbf16 xmm2, xmm3
+# ATT:   vgetexpbf16 %xmm3, %xmm2
+# INTEL: vgetexpbf16 xmm2, xmm3
 0x62,0xf5,0x7d,0x08,0x42,0xd3
 
-# ATT:   vgetexppbf16 %xmm3, %xmm2 {%k7}
-# INTEL: vgetexppbf16 xmm2 {k7}, xmm3
+# ATT:   vgetexpbf16 %xmm3, %xmm2 {%k7}
+# INTEL: vgetexpbf16 xmm2 {k7}, xmm3
 0x62,0xf5,0x7d,0x0f,0x42,0xd3
 
-# ATT:   vgetexppbf16 %xmm3, %xmm2 {%k7} {z}
-# INTEL: vgetexppbf16 xmm2 {k7} {z}, xmm3
+# ATT:   vgetexpbf16 %xmm3, %xmm2 {%k7} {z}
+# INTEL: vgetexpbf16 xmm2 {k7} {z}, xmm3
 0x62,0xf5,0x7d,0x8f,0x42,0xd3
 
-# ATT:   vgetexppbf16 %zmm3, %zmm2
-# INTEL: vgetexppbf16 zmm2, zmm3
+# ATT:   vgetexpbf16 %zmm3, %zmm2
+# INTEL: vgetexpbf16 zmm2, zmm3
 0x62,0xf5,0x7d,0x48,0x42,0xd3
 
-# ATT:   vgetexppbf16 %zmm3, %zmm2 {%k7}
-# INTEL: vgetexppbf16 zmm2 {k7}, zmm3
+# ATT:   vgetexpbf16 %zmm3, %zmm2 {%k7}
+# INTEL: vgetexpbf16 zmm2 {k7}, zmm3
 0x62,0xf5,0x7d,0x4f,0x42,0xd3
 
-# ATT:   vgetexppbf16 %zmm3, %zmm2 {%k7} {z}
-# INTEL: vgetexppbf16 zmm2 {k7} {z}, zmm3
+# ATT:   vgetexpbf16 %zmm3, %zmm2 {%k7} {z}
+# INTEL: vgetexpbf16 zmm2 {k7} {z}, zmm3
 0x62,0xf5,0x7d,0xcf,0x42,0xd3
 
-# ATT:   vgetexppbf16 %ymm3, %ymm2
-# INTEL: vgetexppbf16 ymm2, ymm3
+# ATT:   vgetexpbf16 %ymm3, %ymm2
+# INTEL: vgetexpbf16 ymm2, ymm3
 0x62,0xf5,0x7d,0x28,0x42,0xd3
 
-# ATT:   vgetexppbf16 %ymm3, %ymm2 {%k7}
-# INTEL: vgetexppbf16 ymm2 {k7}, ymm3
+# ATT:   vgetexpbf16 %ymm3, %ymm2 {%k7}
+# INTEL: vgetexpbf16 ymm2 {k7}, ymm3
 0x62,0xf5,0x7d,0x2f,0x42,0xd3
 
-# ATT:   vgetexppbf16 %ymm3, %ymm2 {%k7} {z}
-# INTEL: vgetexppbf16 ymm2 {k7} {z}, ymm3
+# ATT:   vgetexpbf16 %ymm3, %ymm2 {%k7} {z}
+# INTEL: vgetexpbf16 ymm2 {k7} {z}, ymm3
 0x62,0xf5,0x7d,0xaf,0x42,0xd3
 
-# ATT:   vgetexppbf16  268435456(%esp,%esi,8), %xmm2
-# INTEL: vgetexppbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vgetexpbf16  268435456(%esp,%esi,8), %xmm2
+# INTEL: vgetexpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7d,0x08,0x42,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vgetexppbf16  291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vgetexppbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vgetexpbf16  291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vgetexpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7d,0x0f,0x42,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vgetexppbf16  (%eax){1to8}, %xmm2
-# INTEL: vgetexppbf16 xmm2, word ptr [eax]{1to8}
+# ATT:   vgetexpbf16  (%eax){1to8}, %xmm2
+# INTEL: vgetexpbf16 xmm2, word ptr [eax]{1to8}
 0x62,0xf5,0x7d,0x18,0x42,0x10
 
-# ATT:   vgetexppbf16  -512(,%ebp,2), %xmm2
-# INTEL: vgetexppbf16 xmm2, xmmword ptr [2*ebp - 512]
+# ATT:   vgetexpbf16  -512(,%ebp,2), %xmm2
+# INTEL: vgetexpbf16 xmm2, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x7d,0x08,0x42,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vgetexppbf16  2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vgetexppbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+# ATT:   vgetexpbf16  2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vgetexpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x7d,0x8f,0x42,0x51,0x7f
 
-# ATT:   vgetexppbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vgetexppbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+# ATT:   vgetexpbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vgetexpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x7d,0x9f,0x42,0x52,0x80
 
-# ATT:   vgetexppbf16  268435456(%esp,%esi,8), %ymm2
-# INTEL: vgetexppbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vgetexpbf16  268435456(%esp,%esi,8), %ymm2
+# INTEL: vgetexpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7d,0x28,0x42,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vgetexppbf16  291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vgetexppbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vgetexpbf16  291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vgetexpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7d,0x2f,0x42,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vgetexppbf16  (%eax){1to16}, %ymm2
-# INTEL: vgetexppbf16 ymm2, word ptr [eax]{1to16}
+# ATT:   vgetexpbf16  (%eax){1to16}, %ymm2
+# INTEL: vgetexpbf16 ymm2, word ptr [eax]{1to16}
 0x62,0xf5,0x7d,0x38,0x42,0x10
 
-# ATT:   vgetexppbf16  -1024(,%ebp,2), %ymm2
-# INTEL: vgetexppbf16 ymm2, ymmword ptr [2*ebp - 1024]
+# ATT:   vgetexpbf16  -1024(,%ebp,2), %ymm2
+# INTEL: vgetexpbf16 ymm2, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x7d,0x28,0x42,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vgetexppbf16  4064(%ecx), %ymm2 {%k7} {z}
-# INTEL: vgetexppbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+# ATT:   vgetexpbf16  4064(%ecx), %ymm2 {%k7} {z}
+# INTEL: vgetexpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x7d,0xaf,0x42,0x51,0x7f
 
-# ATT:   vgetexppbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
-# INTEL: vgetexppbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+# ATT:   vgetexpbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+# INTEL: vgetexpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x7d,0xbf,0x42,0x52,0x80
 
-# ATT:   vgetexppbf16  268435456(%esp,%esi,8), %zmm2
-# INTEL: vgetexppbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vgetexpbf16  268435456(%esp,%esi,8), %zmm2
+# INTEL: vgetexpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7d,0x48,0x42,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vgetexppbf16  291(%edi,%eax,4), %zmm2 {%k7}
-# INTEL: vgetexppbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vgetexpbf16  291(%edi,%eax,4), %zmm2 {%k7}
+# INTEL: vgetexpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7d,0x4f,0x42,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vgetexppbf16  (%eax){1to32}, %zmm2
-# INTEL: vgetexppbf16 zmm2, word ptr [eax]{1to32}
+# ATT:   vgetexpbf16  (%eax){1to32}, %zmm2
+# INTEL: vgetexpbf16 zmm2, word ptr [eax]{1to32}
 0x62,0xf5,0x7d,0x58,0x42,0x10
 
-# ATT:   vgetexppbf16  -2048(,%ebp,2), %zmm2
-# INTEL: vgetexppbf16 zmm2, zmmword ptr [2*ebp - 2048]
+# ATT:   vgetexpbf16  -2048(,%ebp,2), %zmm2
+# INTEL: vgetexpbf16 zmm2, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x7d,0x48,0x42,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vgetexppbf16  8128(%ecx), %zmm2 {%k7} {z}
-# INTEL: vgetexppbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+# ATT:   vgetexpbf16  8128(%ecx), %zmm2 {%k7} {z}
+# INTEL: vgetexpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x7d,0xcf,0x42,0x51,0x7f
 
-# ATT:   vgetexppbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
-# INTEL: vgetexppbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+# ATT:   vgetexpbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+# INTEL: vgetexpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x7d,0xdf,0x42,0x52,0x80
 
-# ATT:   vgetmantpbf16 $123, %zmm3, %zmm2
-# INTEL: vgetmantpbf16 zmm2, zmm3, 123
+# ATT:   vgetmantbf16 $123, %zmm3, %zmm2
+# INTEL: vgetmantbf16 zmm2, zmm3, 123
 0x62,0xf3,0x7f,0x48,0x26,0xd3,0x7b
 
-# ATT:   vgetmantpbf16 $123, %zmm3, %zmm2 {%k7}
-# INTEL: vgetmantpbf16 zmm2 {k7}, zmm3, 123
+# ATT:   vgetmantbf16 $123, %zmm3, %zmm2 {%k7}
+# INTEL: vgetmantbf16 zmm2 {k7}, zmm3, 123
 0x62,0xf3,0x7f,0x4f,0x26,0xd3,0x7b
 
-# ATT:   vgetmantpbf16 $123, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vgetmantpbf16 zmm2 {k7} {z}, zmm3, 123
+# ATT:   vgetmantbf16 $123, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vgetmantbf16 zmm2 {k7} {z}, zmm3, 123
 0x62,0xf3,0x7f,0xcf,0x26,0xd3,0x7b
 
-# ATT:   vgetmantpbf16 $123, %ymm3, %ymm2
-# INTEL: vgetmantpbf16 ymm2, ymm3, 123
+# ATT:   vgetmantbf16 $123, %ymm3, %ymm2
+# INTEL: vgetmantbf16 ymm2, ymm3, 123
 0x62,0xf3,0x7f,0x28,0x26,0xd3,0x7b
 
-# ATT:   vgetmantpbf16 $123, %ymm3, %ymm2 {%k7}
-# INTEL: vgetmantpbf16 ymm2 {k7}, ymm3, 123
+# ATT:   vgetmantbf16 $123, %ymm3, %ymm2 {%k7}
+# INTEL: vgetmantbf16 ymm2 {k7}, ymm3, 123
 0x62,0xf3,0x7f,0x2f,0x26,0xd3,0x7b
 
-# ATT:   vgetmantpbf16 $123, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vgetmantpbf16 ymm2 {k7} {z}, ymm3, 123
+# ATT:   vgetmantbf16 $123, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vgetmantbf16 ymm2 {k7} {z}, ymm3, 123
 0x62,0xf3,0x7f,0xaf,0x26,0xd3,0x7b
 
-# ATT:   vgetmantpbf16 $123, %xmm3, %xmm2
-# INTEL: vgetmantpbf16 xmm2, xmm3, 123
+# ATT:   vgetmantbf16 $123, %xmm3, %xmm2
+# INTEL: vgetmantbf16 xmm2, xmm3, 123
 0x62,0xf3,0x7f,0x08,0x26,0xd3,0x7b
 
-# ATT:   vgetmantpbf16 $123, %xmm3, %xmm2 {%k7}
-# INTEL: vgetmantpbf16 xmm2 {k7}, xmm3, 123
+# ATT:   vgetmantbf16 $123, %xmm3, %xmm2 {%k7}
+# INTEL: vgetmantbf16 xmm2 {k7}, xmm3, 123
 0x62,0xf3,0x7f,0x0f,0x26,0xd3,0x7b
 
-# ATT:   vgetmantpbf16 $123, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vgetmantpbf16 xmm2 {k7} {z}, xmm3, 123
+# ATT:   vgetmantbf16 $123, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vgetmantbf16 xmm2 {k7} {z}, xmm3, 123
 0x62,0xf3,0x7f,0x8f,0x26,0xd3,0x7b
 
-# ATT:   vgetmantpbf16  $123, 268435456(%esp,%esi,8), %xmm2
-# INTEL: vgetmantpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vgetmantbf16  $123, 268435456(%esp,%esi,8), %xmm2
+# INTEL: vgetmantbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x08,0x26,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vgetmantpbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vgetmantpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+# ATT:   vgetmantbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vgetmantbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x0f,0x26,0x94,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vgetmantpbf16  $123, (%eax){1to8}, %xmm2
-# INTEL: vgetmantpbf16 xmm2, word ptr [eax]{1to8}, 123
+# ATT:   vgetmantbf16  $123, (%eax){1to8}, %xmm2
+# INTEL: vgetmantbf16 xmm2, word ptr [eax]{1to8}, 123
 0x62,0xf3,0x7f,0x18,0x26,0x10,0x7b
 
-# ATT:   vgetmantpbf16  $123, -512(,%ebp,2), %xmm2
-# INTEL: vgetmantpbf16 xmm2, xmmword ptr [2*ebp - 512], 123
+# ATT:   vgetmantbf16  $123, -512(,%ebp,2), %xmm2
+# INTEL: vgetmantbf16 xmm2, xmmword ptr [2*ebp - 512], 123
 0x62,0xf3,0x7f,0x08,0x26,0x14,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vgetmantpbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vgetmantpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
+# ATT:   vgetmantbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vgetmantbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
 0x62,0xf3,0x7f,0x8f,0x26,0x51,0x7f,0x7b
 
-# ATT:   vgetmantpbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vgetmantpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
+# ATT:   vgetmantbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vgetmantbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
 0x62,0xf3,0x7f,0x9f,0x26,0x52,0x80,0x7b
 
-# ATT:   vgetmantpbf16  $123, 268435456(%esp,%esi,8), %ymm2
-# INTEL: vgetmantpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vgetmantbf16  $123, 268435456(%esp,%esi,8), %ymm2
+# INTEL: vgetmantbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x28,0x26,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vgetmantpbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vgetmantpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
+# ATT:   vgetmantbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vgetmantbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x2f,0x26,0x94,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vgetmantpbf16  $123, (%eax){1to16}, %ymm2
-# INTEL: vgetmantpbf16 ymm2, word ptr [eax]{1to16}, 123
+# ATT:   vgetmantbf16  $123, (%eax){1to16}, %ymm2
+# INTEL: vgetmantbf16 ymm2, word ptr [eax]{1to16}, 123
 0x62,0xf3,0x7f,0x38,0x26,0x10,0x7b
 
-# ATT:   vgetmantpbf16  $123, -1024(,%ebp,2), %ymm2
-# INTEL: vgetmantpbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
+# ATT:   vgetmantbf16  $123, -1024(,%ebp,2), %ymm2
+# INTEL: vgetmantbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
 0x62,0xf3,0x7f,0x28,0x26,0x14,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vgetmantpbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
-# INTEL: vgetmantpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
+# ATT:   vgetmantbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
+# INTEL: vgetmantbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
 0x62,0xf3,0x7f,0xaf,0x26,0x51,0x7f,0x7b
 
-# ATT:   vgetmantpbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
-# INTEL: vgetmantpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
+# ATT:   vgetmantbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
+# INTEL: vgetmantbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
 0x62,0xf3,0x7f,0xbf,0x26,0x52,0x80,0x7b
 
-# ATT:   vgetmantpbf16  $123, 268435456(%esp,%esi,8), %zmm2
-# INTEL: vgetmantpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vgetmantbf16  $123, 268435456(%esp,%esi,8), %zmm2
+# INTEL: vgetmantbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x48,0x26,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vgetmantpbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
-# INTEL: vgetmantpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
+# ATT:   vgetmantbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
+# INTEL: vgetmantbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x4f,0x26,0x94,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vgetmantpbf16  $123, (%eax){1to32}, %zmm2
-# INTEL: vgetmantpbf16 zmm2, word ptr [eax]{1to32}, 123
+# ATT:   vgetmantbf16  $123, (%eax){1to32}, %zmm2
+# INTEL: vgetmantbf16 zmm2, word ptr [eax]{1to32}, 123
 0x62,0xf3,0x7f,0x58,0x26,0x10,0x7b
 
-# ATT:   vgetmantpbf16  $123, -2048(,%ebp,2), %zmm2
-# INTEL: vgetmantpbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
+# ATT:   vgetmantbf16  $123, -2048(,%ebp,2), %zmm2
+# INTEL: vgetmantbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
 0x62,0xf3,0x7f,0x48,0x26,0x14,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vgetmantpbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
-# INTEL: vgetmantpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
+# ATT:   vgetmantbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
+# INTEL: vgetmantbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
 0x62,0xf3,0x7f,0xcf,0x26,0x51,0x7f,0x7b
 
-# ATT:   vgetmantpbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
-# INTEL: vgetmantpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
+# ATT:   vgetmantbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
+# INTEL: vgetmantbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
 0x62,0xf3,0x7f,0xdf,0x26,0x52,0x80,0x7b
 
-# ATT:   vmaxpbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vmaxpbf16 ymm2, ymm3, ymm4
+# ATT:   vmaxbf16 %ymm4, %ymm3, %ymm2
+# INTEL: vmaxbf16 ymm2, ymm3, ymm4
 0x62,0xf5,0x65,0x28,0x5f,0xd4
 
-# ATT:   vmaxpbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vmaxpbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vmaxbf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vmaxbf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf5,0x65,0x2f,0x5f,0xd4
 
-# ATT:   vmaxpbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vmaxpbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vmaxbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vmaxbf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf5,0x65,0xaf,0x5f,0xd4
 
-# ATT:   vmaxpbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vmaxpbf16 zmm2, zmm3, zmm4
+# ATT:   vmaxbf16 %zmm4, %zmm3, %zmm2
+# INTEL: vmaxbf16 zmm2, zmm3, zmm4
 0x62,0xf5,0x65,0x48,0x5f,0xd4
 
-# ATT:   vmaxpbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vmaxpbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vmaxbf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vmaxbf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf5,0x65,0x4f,0x5f,0xd4
 
-# ATT:   vmaxpbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vmaxpbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vmaxbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vmaxbf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf5,0x65,0xcf,0x5f,0xd4
 
-# ATT:   vmaxpbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vmaxpbf16 xmm2, xmm3, xmm4
+# ATT:   vmaxbf16 %xmm4, %xmm3, %xmm2
+# INTEL: vmaxbf16 xmm2, xmm3, xmm4
 0x62,0xf5,0x65,0x08,0x5f,0xd4
 
-# ATT:   vmaxpbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vmaxpbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vmaxbf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vmaxbf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf5,0x65,0x0f,0x5f,0xd4
 
-# ATT:   vmaxpbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vmaxpbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vmaxbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vmaxbf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf5,0x65,0x8f,0x5f,0xd4
 
-# ATT:   vmaxpbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vmaxpbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vmaxbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vmaxbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x48,0x5f,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vmaxpbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vmaxpbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vmaxbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vmaxbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x4f,0x5f,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vmaxpbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vmaxpbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vmaxbf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vmaxbf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf5,0x65,0x58,0x5f,0x10
 
-# ATT:   vmaxpbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vmaxpbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vmaxbf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vmaxbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x65,0x48,0x5f,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vmaxpbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vmaxpbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vmaxbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vmaxbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x65,0xcf,0x5f,0x51,0x7f
 
-# ATT:   vmaxpbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vmaxpbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vmaxbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vmaxbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x65,0xdf,0x5f,0x52,0x80
 
-# ATT:   vmaxpbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vmaxpbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vmaxbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vmaxbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x28,0x5f,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vmaxpbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vmaxpbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vmaxbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vmaxbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x2f,0x5f,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vmaxpbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vmaxpbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vmaxbf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vmaxbf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf5,0x65,0x38,0x5f,0x10
 
-# ATT:   vmaxpbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vmaxpbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vmaxbf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vmaxbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x65,0x28,0x5f,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vmaxpbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vmaxpbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vmaxbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vmaxbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x65,0xaf,0x5f,0x51,0x7f
 
-# ATT:   vmaxpbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vmaxpbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vmaxbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vmaxbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x65,0xbf,0x5f,0x52,0x80
 
-# ATT:   vmaxpbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vmaxpbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vmaxbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vmaxbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x08,0x5f,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vmaxpbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vmaxpbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vmaxbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vmaxbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x0f,0x5f,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vmaxpbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vmaxpbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vmaxbf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vmaxbf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf5,0x65,0x18,0x5f,0x10
 
-# ATT:   vmaxpbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vmaxpbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vmaxbf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vmaxbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x65,0x08,0x5f,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vmaxpbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vmaxpbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vmaxbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vmaxbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x65,0x8f,0x5f,0x51,0x7f
 
-# ATT:   vmaxpbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vmaxpbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vmaxbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vmaxbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x65,0x9f,0x5f,0x52,0x80
 
-# ATT:   vminpbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vminpbf16 ymm2, ymm3, ymm4
+# ATT:   vminbf16 %ymm4, %ymm3, %ymm2
+# INTEL: vminbf16 ymm2, ymm3, ymm4
 0x62,0xf5,0x65,0x28,0x5d,0xd4
 
-# ATT:   vminpbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vminpbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vminbf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vminbf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf5,0x65,0x2f,0x5d,0xd4
 
-# ATT:   vminpbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vminpbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vminbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vminbf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf5,0x65,0xaf,0x5d,0xd4
 
-# ATT:   vminpbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vminpbf16 zmm2, zmm3, zmm4
+# ATT:   vminbf16 %zmm4, %zmm3, %zmm2
+# INTEL: vminbf16 zmm2, zmm3, zmm4
 0x62,0xf5,0x65,0x48,0x5d,0xd4
 
-# ATT:   vminpbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vminpbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vminbf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vminbf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf5,0x65,0x4f,0x5d,0xd4
 
-# ATT:   vminpbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vminpbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vminbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vminbf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf5,0x65,0xcf,0x5d,0xd4
 
-# ATT:   vminpbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vminpbf16 xmm2, xmm3, xmm4
+# ATT:   vminbf16 %xmm4, %xmm3, %xmm2
+# INTEL: vminbf16 xmm2, xmm3, xmm4
 0x62,0xf5,0x65,0x08,0x5d,0xd4
 
-# ATT:   vminpbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vminpbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vminbf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vminbf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf5,0x65,0x0f,0x5d,0xd4
 
-# ATT:   vminpbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vminpbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vminbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vminbf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf5,0x65,0x8f,0x5d,0xd4
 
-# ATT:   vminpbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vminpbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vminbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vminbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x48,0x5d,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vminpbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vminpbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vminbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vminbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x4f,0x5d,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vminpbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vminpbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vminbf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vminbf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf5,0x65,0x58,0x5d,0x10
 
-# ATT:   vminpbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vminpbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vminbf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vminbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x65,0x48,0x5d,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vminpbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vminpbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vminbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vminbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x65,0xcf,0x5d,0x51,0x7f
 
-# ATT:   vminpbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vminpbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vminbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vminbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x65,0xdf,0x5d,0x52,0x80
 
-# ATT:   vminpbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vminpbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vminbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vminbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x28,0x5d,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vminpbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vminpbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vminbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vminbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x2f,0x5d,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vminpbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vminpbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vminbf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vminbf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf5,0x65,0x38,0x5d,0x10
 
-# ATT:   vminpbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vminpbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vminbf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vminbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x65,0x28,0x5d,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vminpbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vminpbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vminbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vminbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x65,0xaf,0x5d,0x51,0x7f
 
-# ATT:   vminpbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vminpbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vminbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vminbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x65,0xbf,0x5d,0x52,0x80
 
-# ATT:   vminpbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vminpbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vminbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vminbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x08,0x5d,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vminpbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vminpbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vminbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vminbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x0f,0x5d,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vminpbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vminpbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vminbf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vminbf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf5,0x65,0x18,0x5d,0x10
 
-# ATT:   vminpbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vminpbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vminbf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vminbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x65,0x08,0x5d,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vminpbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vminpbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vminbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vminbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x65,0x8f,0x5d,0x51,0x7f
 
-# ATT:   vminpbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vminpbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vminbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vminbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x65,0x9f,0x5d,0x52,0x80
 
-# ATT:   vmulnepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vmulnepbf16 ymm2, ymm3, ymm4
+# ATT:   vmulbf16 %ymm4, %ymm3, %ymm2
+# INTEL: vmulbf16 ymm2, ymm3, ymm4
 0x62,0xf5,0x65,0x28,0x59,0xd4
 
-# ATT:   vmulnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vmulnepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vmulbf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vmulbf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf5,0x65,0x2f,0x59,0xd4
 
-# ATT:   vmulnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vmulnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vmulbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vmulbf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf5,0x65,0xaf,0x59,0xd4
 
-# ATT:   vmulnepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vmulnepbf16 zmm2, zmm3, zmm4
+# ATT:   vmulbf16 %zmm4, %zmm3, %zmm2
+# INTEL: vmulbf16 zmm2, zmm3, zmm4
 0x62,0xf5,0x65,0x48,0x59,0xd4
 
-# ATT:   vmulnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vmulnepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vmulbf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vmulbf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf5,0x65,0x4f,0x59,0xd4
 
-# ATT:   vmulnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vmulnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vmulbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vmulbf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf5,0x65,0xcf,0x59,0xd4
 
-# ATT:   vmulnepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vmulnepbf16 xmm2, xmm3, xmm4
+# ATT:   vmulbf16 %xmm4, %xmm3, %xmm2
+# INTEL: vmulbf16 xmm2, xmm3, xmm4
 0x62,0xf5,0x65,0x08,0x59,0xd4
 
-# ATT:   vmulnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vmulnepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vmulbf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vmulbf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf5,0x65,0x0f,0x59,0xd4
 
-# ATT:   vmulnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vmulnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vmulbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vmulbf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf5,0x65,0x8f,0x59,0xd4
 
-# ATT:   vmulnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vmulnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vmulbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vmulbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x48,0x59,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vmulnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vmulnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vmulbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vmulbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x4f,0x59,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vmulnepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vmulnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vmulbf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vmulbf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf5,0x65,0x58,0x59,0x10
 
-# ATT:   vmulnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vmulnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vmulbf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vmulbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x65,0x48,0x59,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vmulnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vmulnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vmulbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vmulbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x65,0xcf,0x59,0x51,0x7f
 
-# ATT:   vmulnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vmulnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vmulbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vmulbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x65,0xdf,0x59,0x52,0x80
 
-# ATT:   vmulnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vmulnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vmulbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vmulbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x28,0x59,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vmulnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vmulnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vmulbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vmulbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x2f,0x59,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vmulnepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vmulnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vmulbf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vmulbf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf5,0x65,0x38,0x59,0x10
 
-# ATT:   vmulnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vmulnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vmulbf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vmulbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x65,0x28,0x59,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vmulnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vmulnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vmulbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vmulbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x65,0xaf,0x59,0x51,0x7f
 
-# ATT:   vmulnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vmulnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vmulbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vmulbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x65,0xbf,0x59,0x52,0x80
 
-# ATT:   vmulnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vmulnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vmulbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vmulbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x08,0x59,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vmulnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vmulnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vmulbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vmulbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x0f,0x59,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vmulnepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vmulnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vmulbf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vmulbf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf5,0x65,0x18,0x59,0x10
 
-# ATT:   vmulnepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vmulnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vmulbf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vmulbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x65,0x08,0x59,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vmulnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vmulnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vmulbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vmulbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x65,0x8f,0x59,0x51,0x7f
 
-# ATT:   vmulnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vmulnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vmulbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vmulbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x65,0x9f,0x59,0x52,0x80
 
-# ATT:   vrcppbf16 %xmm3, %xmm2
-# INTEL: vrcppbf16 xmm2, xmm3
+# ATT:   vrcpbf16 %xmm3, %xmm2
+# INTEL: vrcpbf16 xmm2, xmm3
 0x62,0xf6,0x7c,0x08,0x4c,0xd3
 
-# ATT:   vrcppbf16 %xmm3, %xmm2 {%k7}
-# INTEL: vrcppbf16 xmm2 {k7}, xmm3
+# ATT:   vrcpbf16 %xmm3, %xmm2 {%k7}
+# INTEL: vrcpbf16 xmm2 {k7}, xmm3
 0x62,0xf6,0x7c,0x0f,0x4c,0xd3
 
-# ATT:   vrcppbf16 %xmm3, %xmm2 {%k7} {z}
-# INTEL: vrcppbf16 xmm2 {k7} {z}, xmm3
+# ATT:   vrcpbf16 %xmm3, %xmm2 {%k7} {z}
+# INTEL: vrcpbf16 xmm2 {k7} {z}, xmm3
 0x62,0xf6,0x7c,0x8f,0x4c,0xd3
 
-# ATT:   vrcppbf16 %zmm3, %zmm2
-# INTEL: vrcppbf16 zmm2, zmm3
+# ATT:   vrcpbf16 %zmm3, %zmm2
+# INTEL: vrcpbf16 zmm2, zmm3
 0x62,0xf6,0x7c,0x48,0x4c,0xd3
 
-# ATT:   vrcppbf16 %zmm3, %zmm2 {%k7}
-# INTEL: vrcppbf16 zmm2 {k7}, zmm3
+# ATT:   vrcpbf16 %zmm3, %zmm2 {%k7}
+# INTEL: vrcpbf16 zmm2 {k7}, zmm3
 0x62,0xf6,0x7c,0x4f,0x4c,0xd3
 
-# ATT:   vrcppbf16 %zmm3, %zmm2 {%k7} {z}
-# INTEL: vrcppbf16 zmm2 {k7} {z}, zmm3
+# ATT:   vrcpbf16 %zmm3, %zmm2 {%k7} {z}
+# INTEL: vrcpbf16 zmm2 {k7} {z}, zmm3
 0x62,0xf6,0x7c,0xcf,0x4c,0xd3
 
-# ATT:   vrcppbf16 %ymm3, %ymm2
-# INTEL: vrcppbf16 ymm2, ymm3
+# ATT:   vrcpbf16 %ymm3, %ymm2
+# INTEL: vrcpbf16 ymm2, ymm3
 0x62,0xf6,0x7c,0x28,0x4c,0xd3
 
-# ATT:   vrcppbf16 %ymm3, %ymm2 {%k7}
-# INTEL: vrcppbf16 ymm2 {k7}, ymm3
+# ATT:   vrcpbf16 %ymm3, %ymm2 {%k7}
+# INTEL: vrcpbf16 ymm2 {k7}, ymm3
 0x62,0xf6,0x7c,0x2f,0x4c,0xd3
 
-# ATT:   vrcppbf16 %ymm3, %ymm2 {%k7} {z}
-# INTEL: vrcppbf16 ymm2 {k7} {z}, ymm3
+# ATT:   vrcpbf16 %ymm3, %ymm2 {%k7} {z}
+# INTEL: vrcpbf16 ymm2 {k7} {z}, ymm3
 0x62,0xf6,0x7c,0xaf,0x4c,0xd3
 
-# ATT:   vrcppbf16  268435456(%esp,%esi,8), %xmm2
-# INTEL: vrcppbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vrcpbf16  268435456(%esp,%esi,8), %xmm2
+# INTEL: vrcpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x7c,0x08,0x4c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vrcppbf16  291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vrcppbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vrcpbf16  291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vrcpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x7c,0x0f,0x4c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vrcppbf16  (%eax){1to8}, %xmm2
-# INTEL: vrcppbf16 xmm2, word ptr [eax]{1to8}
+# ATT:   vrcpbf16  (%eax){1to8}, %xmm2
+# INTEL: vrcpbf16 xmm2, word ptr [eax]{1to8}
 0x62,0xf6,0x7c,0x18,0x4c,0x10
 
-# ATT:   vrcppbf16  -512(,%ebp,2), %xmm2
-# INTEL: vrcppbf16 xmm2, xmmword ptr [2*ebp - 512]
+# ATT:   vrcpbf16  -512(,%ebp,2), %xmm2
+# INTEL: vrcpbf16 xmm2, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x7c,0x08,0x4c,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vrcppbf16  2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vrcppbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+# ATT:   vrcpbf16  2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vrcpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x7c,0x8f,0x4c,0x51,0x7f
 
-# ATT:   vrcppbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vrcppbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+# ATT:   vrcpbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vrcpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x7c,0x9f,0x4c,0x52,0x80
 
-# ATT:   vrcppbf16  268435456(%esp,%esi,8), %ymm2
-# INTEL: vrcppbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vrcpbf16  268435456(%esp,%esi,8), %ymm2
+# INTEL: vrcpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x7c,0x28,0x4c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vrcppbf16  291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vrcppbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vrcpbf16  291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vrcpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x7c,0x2f,0x4c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vrcppbf16  (%eax){1to16}, %ymm2
-# INTEL: vrcppbf16 ymm2, word ptr [eax]{1to16}
+# ATT:   vrcpbf16  (%eax){1to16}, %ymm2
+# INTEL: vrcpbf16 ymm2, word ptr [eax]{1to16}
 0x62,0xf6,0x7c,0x38,0x4c,0x10
 
-# ATT:   vrcppbf16  -1024(,%ebp,2), %ymm2
-# INTEL: vrcppbf16 ymm2, ymmword ptr [2*ebp - 1024]
+# ATT:   vrcpbf16  -1024(,%ebp,2), %ymm2
+# INTEL: vrcpbf16 ymm2, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x7c,0x28,0x4c,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vrcppbf16  4064(%ecx), %ymm2 {%k7} {z}
-# INTEL: vrcppbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+# ATT:   vrcpbf16  4064(%ecx), %ymm2 {%k7} {z}
+# INTEL: vrcpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x7c,0xaf,0x4c,0x51,0x7f
 
-# ATT:   vrcppbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
-# INTEL: vrcppbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+# ATT:   vrcpbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+# INTEL: vrcpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x7c,0xbf,0x4c,0x52,0x80
 
-# ATT:   vrcppbf16  268435456(%esp,%esi,8), %zmm2
-# INTEL: vrcppbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vrcpbf16  268435456(%esp,%esi,8), %zmm2
+# INTEL: vrcpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x7c,0x48,0x4c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vrcppbf16  291(%edi,%eax,4), %zmm2 {%k7}
-# INTEL: vrcppbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vrcpbf16  291(%edi,%eax,4), %zmm2 {%k7}
+# INTEL: vrcpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x7c,0x4f,0x4c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vrcppbf16  (%eax){1to32}, %zmm2
-# INTEL: vrcppbf16 zmm2, word ptr [eax]{1to32}
+# ATT:   vrcpbf16  (%eax){1to32}, %zmm2
+# INTEL: vrcpbf16 zmm2, word ptr [eax]{1to32}
 0x62,0xf6,0x7c,0x58,0x4c,0x10
 
-# ATT:   vrcppbf16  -2048(,%ebp,2), %zmm2
-# INTEL: vrcppbf16 zmm2, zmmword ptr [2*ebp - 2048]
+# ATT:   vrcpbf16  -2048(,%ebp,2), %zmm2
+# INTEL: vrcpbf16 zmm2, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x7c,0x48,0x4c,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vrcppbf16  8128(%ecx), %zmm2 {%k7} {z}
-# INTEL: vrcppbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+# ATT:   vrcpbf16  8128(%ecx), %zmm2 {%k7} {z}
+# INTEL: vrcpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x7c,0xcf,0x4c,0x51,0x7f
 
-# ATT:   vrcppbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
-# INTEL: vrcppbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+# ATT:   vrcpbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+# INTEL: vrcpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x7c,0xdf,0x4c,0x52,0x80
 
-# ATT:   vreducenepbf16 $123, %zmm3, %zmm2
-# INTEL: vreducenepbf16 zmm2, zmm3, 123
+# ATT:   vreducebf16 $123, %zmm3, %zmm2
+# INTEL: vreducebf16 zmm2, zmm3, 123
 0x62,0xf3,0x7f,0x48,0x56,0xd3,0x7b
 
-# ATT:   vreducenepbf16 $123, %zmm3, %zmm2 {%k7}
-# INTEL: vreducenepbf16 zmm2 {k7}, zmm3, 123
+# ATT:   vreducebf16 $123, %zmm3, %zmm2 {%k7}
+# INTEL: vreducebf16 zmm2 {k7}, zmm3, 123
 0x62,0xf3,0x7f,0x4f,0x56,0xd3,0x7b
 
-# ATT:   vreducenepbf16 $123, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vreducenepbf16 zmm2 {k7} {z}, zmm3, 123
+# ATT:   vreducebf16 $123, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vreducebf16 zmm2 {k7} {z}, zmm3, 123
 0x62,0xf3,0x7f,0xcf,0x56,0xd3,0x7b
 
-# ATT:   vreducenepbf16 $123, %ymm3, %ymm2
-# INTEL: vreducenepbf16 ymm2, ymm3, 123
+# ATT:   vreducebf16 $123, %ymm3, %ymm2
+# INTEL: vreducebf16 ymm2, ymm3, 123
 0x62,0xf3,0x7f,0x28,0x56,0xd3,0x7b
 
-# ATT:   vreducenepbf16 $123, %ymm3, %ymm2 {%k7}
-# INTEL: vreducenepbf16 ymm2 {k7}, ymm3, 123
+# ATT:   vreducebf16 $123, %ymm3, %ymm2 {%k7}
+# INTEL: vreducebf16 ymm2 {k7}, ymm3, 123
 0x62,0xf3,0x7f,0x2f,0x56,0xd3,0x7b
 
-# ATT:   vreducenepbf16 $123, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vreducenepbf16 ymm2 {k7} {z}, ymm3, 123
+# ATT:   vreducebf16 $123, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vreducebf16 ymm2 {k7} {z}, ymm3, 123
 0x62,0xf3,0x7f,0xaf,0x56,0xd3,0x7b
 
-# ATT:   vreducenepbf16 $123, %xmm3, %xmm2
-# INTEL: vreducenepbf16 xmm2, xmm3, 123
+# ATT:   vreducebf16 $123, %xmm3, %xmm2
+# INTEL: vreducebf16 xmm2, xmm3, 123
 0x62,0xf3,0x7f,0x08,0x56,0xd3,0x7b
 
-# ATT:   vreducenepbf16 $123, %xmm3, %xmm2 {%k7}
-# INTEL: vreducenepbf16 xmm2 {k7}, xmm3, 123
+# ATT:   vreducebf16 $123, %xmm3, %xmm2 {%k7}
+# INTEL: vreducebf16 xmm2 {k7}, xmm3, 123
 0x62,0xf3,0x7f,0x0f,0x56,0xd3,0x7b
 
-# ATT:   vreducenepbf16 $123, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vreducenepbf16 xmm2 {k7} {z}, xmm3, 123
+# ATT:   vreducebf16 $123, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vreducebf16 xmm2 {k7} {z}, xmm3, 123
 0x62,0xf3,0x7f,0x8f,0x56,0xd3,0x7b
 
-# ATT:   vreducenepbf16  $123, 268435456(%esp,%esi,8), %xmm2
-# INTEL: vreducenepbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vreducebf16  $123, 268435456(%esp,%esi,8), %xmm2
+# INTEL: vreducebf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x08,0x56,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vreducenepbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vreducenepbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+# ATT:   vreducebf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vreducebf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x0f,0x56,0x94,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vreducenepbf16  $123, (%eax){1to8}, %xmm2
-# INTEL: vreducenepbf16 xmm2, word ptr [eax]{1to8}, 123
+# ATT:   vreducebf16  $123, (%eax){1to8}, %xmm2
+# INTEL: vreducebf16 xmm2, word ptr [eax]{1to8}, 123
 0x62,0xf3,0x7f,0x18,0x56,0x10,0x7b
 
-# ATT:   vreducenepbf16  $123, -512(,%ebp,2), %xmm2
-# INTEL: vreducenepbf16 xmm2, xmmword ptr [2*ebp - 512], 123
+# ATT:   vreducebf16  $123, -512(,%ebp,2), %xmm2
+# INTEL: vreducebf16 xmm2, xmmword ptr [2*ebp - 512], 123
 0x62,0xf3,0x7f,0x08,0x56,0x14,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vreducenepbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vreducenepbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
+# ATT:   vreducebf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vreducebf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
 0x62,0xf3,0x7f,0x8f,0x56,0x51,0x7f,0x7b
 
-# ATT:   vreducenepbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vreducenepbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
+# ATT:   vreducebf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vreducebf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
 0x62,0xf3,0x7f,0x9f,0x56,0x52,0x80,0x7b
 
-# ATT:   vreducenepbf16  $123, 268435456(%esp,%esi,8), %ymm2
-# INTEL: vreducenepbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vreducebf16  $123, 268435456(%esp,%esi,8), %ymm2
+# INTEL: vreducebf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x28,0x56,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vreducenepbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vreducenepbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
+# ATT:   vreducebf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vreducebf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x2f,0x56,0x94,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vreducenepbf16  $123, (%eax){1to16}, %ymm2
-# INTEL: vreducenepbf16 ymm2, word ptr [eax]{1to16}, 123
+# ATT:   vreducebf16  $123, (%eax){1to16}, %ymm2
+# INTEL: vreducebf16 ymm2, word ptr [eax]{1to16}, 123
 0x62,0xf3,0x7f,0x38,0x56,0x10,0x7b
 
-# ATT:   vreducenepbf16  $123, -1024(,%ebp,2), %ymm2
-# INTEL: vreducenepbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
+# ATT:   vreducebf16  $123, -1024(,%ebp,2), %ymm2
+# INTEL: vreducebf16 ymm2, ymmword ptr [2*ebp - 1024], 123
 0x62,0xf3,0x7f,0x28,0x56,0x14,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vreducenepbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
-# INTEL: vreducenepbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
+# ATT:   vreducebf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
+# INTEL: vreducebf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
 0x62,0xf3,0x7f,0xaf,0x56,0x51,0x7f,0x7b
 
-# ATT:   vreducenepbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
-# INTEL: vreducenepbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
+# ATT:   vreducebf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
+# INTEL: vreducebf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
 0x62,0xf3,0x7f,0xbf,0x56,0x52,0x80,0x7b
 
-# ATT:   vreducenepbf16  $123, 268435456(%esp,%esi,8), %zmm2
-# INTEL: vreducenepbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vreducebf16  $123, 268435456(%esp,%esi,8), %zmm2
+# INTEL: vreducebf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x48,0x56,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vreducenepbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
-# INTEL: vreducenepbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
+# ATT:   vreducebf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
+# INTEL: vreducebf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x4f,0x56,0x94,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vreducenepbf16  $123, (%eax){1to32}, %zmm2
-# INTEL: vreducenepbf16 zmm2, word ptr [eax]{1to32}, 123
+# ATT:   vreducebf16  $123, (%eax){1to32}, %zmm2
+# INTEL: vreducebf16 zmm2, word ptr [eax]{1to32}, 123
 0x62,0xf3,0x7f,0x58,0x56,0x10,0x7b
 
-# ATT:   vreducenepbf16  $123, -2048(,%ebp,2), %zmm2
-# INTEL: vreducenepbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
+# ATT:   vreducebf16  $123, -2048(,%ebp,2), %zmm2
+# INTEL: vreducebf16 zmm2, zmmword ptr [2*ebp - 2048], 123
 0x62,0xf3,0x7f,0x48,0x56,0x14,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vreducenepbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
-# INTEL: vreducenepbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
+# ATT:   vreducebf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
+# INTEL: vreducebf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
 0x62,0xf3,0x7f,0xcf,0x56,0x51,0x7f,0x7b
 
-# ATT:   vreducenepbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
-# INTEL: vreducenepbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
+# ATT:   vreducebf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
+# INTEL: vreducebf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
 0x62,0xf3,0x7f,0xdf,0x56,0x52,0x80,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %zmm3, %zmm2
-# INTEL: vrndscalenepbf16 zmm2, zmm3, 123
+# ATT:   vrndscalebf16 $123, %zmm3, %zmm2
+# INTEL: vrndscalebf16 zmm2, zmm3, 123
 0x62,0xf3,0x7f,0x48,0x08,0xd3,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %zmm3, %zmm2 {%k7}
-# INTEL: vrndscalenepbf16 zmm2 {k7}, zmm3, 123
+# ATT:   vrndscalebf16 $123, %zmm3, %zmm2 {%k7}
+# INTEL: vrndscalebf16 zmm2 {k7}, zmm3, 123
 0x62,0xf3,0x7f,0x4f,0x08,0xd3,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vrndscalenepbf16 zmm2 {k7} {z}, zmm3, 123
+# ATT:   vrndscalebf16 $123, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vrndscalebf16 zmm2 {k7} {z}, zmm3, 123
 0x62,0xf3,0x7f,0xcf,0x08,0xd3,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %ymm3, %ymm2
-# INTEL: vrndscalenepbf16 ymm2, ymm3, 123
+# ATT:   vrndscalebf16 $123, %ymm3, %ymm2
+# INTEL: vrndscalebf16 ymm2, ymm3, 123
 0x62,0xf3,0x7f,0x28,0x08,0xd3,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %ymm3, %ymm2 {%k7}
-# INTEL: vrndscalenepbf16 ymm2 {k7}, ymm3, 123
+# ATT:   vrndscalebf16 $123, %ymm3, %ymm2 {%k7}
+# INTEL: vrndscalebf16 ymm2 {k7}, ymm3, 123
 0x62,0xf3,0x7f,0x2f,0x08,0xd3,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vrndscalenepbf16 ymm2 {k7} {z}, ymm3, 123
+# ATT:   vrndscalebf16 $123, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vrndscalebf16 ymm2 {k7} {z}, ymm3, 123
 0x62,0xf3,0x7f,0xaf,0x08,0xd3,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %xmm3, %xmm2
-# INTEL: vrndscalenepbf16 xmm2, xmm3, 123
+# ATT:   vrndscalebf16 $123, %xmm3, %xmm2
+# INTEL: vrndscalebf16 xmm2, xmm3, 123
 0x62,0xf3,0x7f,0x08,0x08,0xd3,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %xmm3, %xmm2 {%k7}
-# INTEL: vrndscalenepbf16 xmm2 {k7}, xmm3, 123
+# ATT:   vrndscalebf16 $123, %xmm3, %xmm2 {%k7}
+# INTEL: vrndscalebf16 xmm2 {k7}, xmm3, 123
 0x62,0xf3,0x7f,0x0f,0x08,0xd3,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vrndscalenepbf16 xmm2 {k7} {z}, xmm3, 123
+# ATT:   vrndscalebf16 $123, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vrndscalebf16 xmm2 {k7} {z}, xmm3, 123
 0x62,0xf3,0x7f,0x8f,0x08,0xd3,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 268435456(%esp,%esi,8), %xmm2
-# INTEL: vrndscalenepbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vrndscalebf16  $123, 268435456(%esp,%esi,8), %xmm2
+# INTEL: vrndscalebf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x08,0x08,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vrndscalenepbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+# ATT:   vrndscalebf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vrndscalebf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x0f,0x08,0x94,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vrndscalenepbf16  $123, (%eax){1to8}, %xmm2
-# INTEL: vrndscalenepbf16 xmm2, word ptr [eax]{1to8}, 123
+# ATT:   vrndscalebf16  $123, (%eax){1to8}, %xmm2
+# INTEL: vrndscalebf16 xmm2, word ptr [eax]{1to8}, 123
 0x62,0xf3,0x7f,0x18,0x08,0x10,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -512(,%ebp,2), %xmm2
-# INTEL: vrndscalenepbf16 xmm2, xmmword ptr [2*ebp - 512], 123
+# ATT:   vrndscalebf16  $123, -512(,%ebp,2), %xmm2
+# INTEL: vrndscalebf16 xmm2, xmmword ptr [2*ebp - 512], 123
 0x62,0xf3,0x7f,0x08,0x08,0x14,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vrndscalenepbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
+# ATT:   vrndscalebf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vrndscalebf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
 0x62,0xf3,0x7f,0x8f,0x08,0x51,0x7f,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vrndscalenepbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
+# ATT:   vrndscalebf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vrndscalebf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
 0x62,0xf3,0x7f,0x9f,0x08,0x52,0x80,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 268435456(%esp,%esi,8), %ymm2
-# INTEL: vrndscalenepbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vrndscalebf16  $123, 268435456(%esp,%esi,8), %ymm2
+# INTEL: vrndscalebf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x28,0x08,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vrndscalenepbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
+# ATT:   vrndscalebf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vrndscalebf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x2f,0x08,0x94,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vrndscalenepbf16  $123, (%eax){1to16}, %ymm2
-# INTEL: vrndscalenepbf16 ymm2, word ptr [eax]{1to16}, 123
+# ATT:   vrndscalebf16  $123, (%eax){1to16}, %ymm2
+# INTEL: vrndscalebf16 ymm2, word ptr [eax]{1to16}, 123
 0x62,0xf3,0x7f,0x38,0x08,0x10,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -1024(,%ebp,2), %ymm2
-# INTEL: vrndscalenepbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
+# ATT:   vrndscalebf16  $123, -1024(,%ebp,2), %ymm2
+# INTEL: vrndscalebf16 ymm2, ymmword ptr [2*ebp - 1024], 123
 0x62,0xf3,0x7f,0x28,0x08,0x14,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
-# INTEL: vrndscalenepbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
+# ATT:   vrndscalebf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
+# INTEL: vrndscalebf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
 0x62,0xf3,0x7f,0xaf,0x08,0x51,0x7f,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
-# INTEL: vrndscalenepbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
+# ATT:   vrndscalebf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
+# INTEL: vrndscalebf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
 0x62,0xf3,0x7f,0xbf,0x08,0x52,0x80,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 268435456(%esp,%esi,8), %zmm2
-# INTEL: vrndscalenepbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
+# ATT:   vrndscalebf16  $123, 268435456(%esp,%esi,8), %zmm2
+# INTEL: vrndscalebf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
 0x62,0xf3,0x7f,0x48,0x08,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
-# INTEL: vrndscalenepbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
+# ATT:   vrndscalebf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
+# INTEL: vrndscalebf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
 0x62,0xf3,0x7f,0x4f,0x08,0x94,0x87,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vrndscalenepbf16  $123, (%eax){1to32}, %zmm2
-# INTEL: vrndscalenepbf16 zmm2, word ptr [eax]{1to32}, 123
+# ATT:   vrndscalebf16  $123, (%eax){1to32}, %zmm2
+# INTEL: vrndscalebf16 zmm2, word ptr [eax]{1to32}, 123
 0x62,0xf3,0x7f,0x58,0x08,0x10,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -2048(,%ebp,2), %zmm2
-# INTEL: vrndscalenepbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
+# ATT:   vrndscalebf16  $123, -2048(,%ebp,2), %zmm2
+# INTEL: vrndscalebf16 zmm2, zmmword ptr [2*ebp - 2048], 123
 0x62,0xf3,0x7f,0x48,0x08,0x14,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
-# INTEL: vrndscalenepbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
+# ATT:   vrndscalebf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
+# INTEL: vrndscalebf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
 0x62,0xf3,0x7f,0xcf,0x08,0x51,0x7f,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
-# INTEL: vrndscalenepbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
+# ATT:   vrndscalebf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
+# INTEL: vrndscalebf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
 0x62,0xf3,0x7f,0xdf,0x08,0x52,0x80,0x7b
 
-# ATT:   vrsqrtpbf16 %xmm3, %xmm2
-# INTEL: vrsqrtpbf16 xmm2, xmm3
+# ATT:   vrsqrtbf16 %xmm3, %xmm2
+# INTEL: vrsqrtbf16 xmm2, xmm3
 0x62,0xf6,0x7c,0x08,0x4e,0xd3
 
-# ATT:   vrsqrtpbf16 %xmm3, %xmm2 {%k7}
-# INTEL: vrsqrtpbf16 xmm2 {k7}, xmm3
+# ATT:   vrsqrtbf16 %xmm3, %xmm2 {%k7}
+# INTEL: vrsqrtbf16 xmm2 {k7}, xmm3
 0x62,0xf6,0x7c,0x0f,0x4e,0xd3
 
-# ATT:   vrsqrtpbf16 %xmm3, %xmm2 {%k7} {z}
-# INTEL: vrsqrtpbf16 xmm2 {k7} {z}, xmm3
+# ATT:   vrsqrtbf16 %xmm3, %xmm2 {%k7} {z}
+# INTEL: vrsqrtbf16 xmm2 {k7} {z}, xmm3
 0x62,0xf6,0x7c,0x8f,0x4e,0xd3
 
-# ATT:   vrsqrtpbf16 %zmm3, %zmm2
-# INTEL: vrsqrtpbf16 zmm2, zmm3
+# ATT:   vrsqrtbf16 %zmm3, %zmm2
+# INTEL: vrsqrtbf16 zmm2, zmm3
 0x62,0xf6,0x7c,0x48,0x4e,0xd3
 
-# ATT:   vrsqrtpbf16 %zmm3, %zmm2 {%k7}
-# INTEL: vrsqrtpbf16 zmm2 {k7}, zmm3
+# ATT:   vrsqrtbf16 %zmm3, %zmm2 {%k7}
+# INTEL: vrsqrtbf16 zmm2 {k7}, zmm3
 0x62,0xf6,0x7c,0x4f,0x4e,0xd3
 
-# ATT:   vrsqrtpbf16 %zmm3, %zmm2 {%k7} {z}
-# INTEL: vrsqrtpbf16 zmm2 {k7} {z}, zmm3
+# ATT:   vrsqrtbf16 %zmm3, %zmm2 {%k7} {z}
+# INTEL: vrsqrtbf16 zmm2 {k7} {z}, zmm3
 0x62,0xf6,0x7c,0xcf,0x4e,0xd3
 
-# ATT:   vrsqrtpbf16 %ymm3, %ymm2
-# INTEL: vrsqrtpbf16 ymm2, ymm3
+# ATT:   vrsqrtbf16 %ymm3, %ymm2
+# INTEL: vrsqrtbf16 ymm2, ymm3
 0x62,0xf6,0x7c,0x28,0x4e,0xd3
 
-# ATT:   vrsqrtpbf16 %ymm3, %ymm2 {%k7}
-# INTEL: vrsqrtpbf16 ymm2 {k7}, ymm3
+# ATT:   vrsqrtbf16 %ymm3, %ymm2 {%k7}
+# INTEL: vrsqrtbf16 ymm2 {k7}, ymm3
 0x62,0xf6,0x7c,0x2f,0x4e,0xd3
 
-# ATT:   vrsqrtpbf16 %ymm3, %ymm2 {%k7} {z}
-# INTEL: vrsqrtpbf16 ymm2 {k7} {z}, ymm3
+# ATT:   vrsqrtbf16 %ymm3, %ymm2 {%k7} {z}
+# INTEL: vrsqrtbf16 ymm2 {k7} {z}, ymm3
 0x62,0xf6,0x7c,0xaf,0x4e,0xd3
 
-# ATT:   vrsqrtpbf16  268435456(%esp,%esi,8), %xmm2
-# INTEL: vrsqrtpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vrsqrtbf16  268435456(%esp,%esi,8), %xmm2
+# INTEL: vrsqrtbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x7c,0x08,0x4e,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vrsqrtpbf16  291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vrsqrtpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vrsqrtbf16  291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vrsqrtbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x7c,0x0f,0x4e,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vrsqrtpbf16  (%eax){1to8}, %xmm2
-# INTEL: vrsqrtpbf16 xmm2, word ptr [eax]{1to8}
+# ATT:   vrsqrtbf16  (%eax){1to8}, %xmm2
+# INTEL: vrsqrtbf16 xmm2, word ptr [eax]{1to8}
 0x62,0xf6,0x7c,0x18,0x4e,0x10
 
-# ATT:   vrsqrtpbf16  -512(,%ebp,2), %xmm2
-# INTEL: vrsqrtpbf16 xmm2, xmmword ptr [2*ebp - 512]
+# ATT:   vrsqrtbf16  -512(,%ebp,2), %xmm2
+# INTEL: vrsqrtbf16 xmm2, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x7c,0x08,0x4e,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vrsqrtpbf16  2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vrsqrtpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+# ATT:   vrsqrtbf16  2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vrsqrtbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x7c,0x8f,0x4e,0x51,0x7f
 
-# ATT:   vrsqrtpbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vrsqrtpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+# ATT:   vrsqrtbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vrsqrtbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x7c,0x9f,0x4e,0x52,0x80
 
-# ATT:   vrsqrtpbf16  268435456(%esp,%esi,8), %ymm2
-# INTEL: vrsqrtpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vrsqrtbf16  268435456(%esp,%esi,8), %ymm2
+# INTEL: vrsqrtbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x7c,0x28,0x4e,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vrsqrtpbf16  291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vrsqrtpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vrsqrtbf16  291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vrsqrtbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x7c,0x2f,0x4e,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vrsqrtpbf16  (%eax){1to16}, %ymm2
-# INTEL: vrsqrtpbf16 ymm2, word ptr [eax]{1to16}
+# ATT:   vrsqrtbf16  (%eax){1to16}, %ymm2
+# INTEL: vrsqrtbf16 ymm2, word ptr [eax]{1to16}
 0x62,0xf6,0x7c,0x38,0x4e,0x10
 
-# ATT:   vrsqrtpbf16  -1024(,%ebp,2), %ymm2
-# INTEL: vrsqrtpbf16 ymm2, ymmword ptr [2*ebp - 1024]
+# ATT:   vrsqrtbf16  -1024(,%ebp,2), %ymm2
+# INTEL: vrsqrtbf16 ymm2, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x7c,0x28,0x4e,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vrsqrtpbf16  4064(%ecx), %ymm2 {%k7} {z}
-# INTEL: vrsqrtpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+# ATT:   vrsqrtbf16  4064(%ecx), %ymm2 {%k7} {z}
+# INTEL: vrsqrtbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x7c,0xaf,0x4e,0x51,0x7f
 
-# ATT:   vrsqrtpbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
-# INTEL: vrsqrtpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+# ATT:   vrsqrtbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+# INTEL: vrsqrtbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x7c,0xbf,0x4e,0x52,0x80
 
-# ATT:   vrsqrtpbf16  268435456(%esp,%esi,8), %zmm2
-# INTEL: vrsqrtpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vrsqrtbf16  268435456(%esp,%esi,8), %zmm2
+# INTEL: vrsqrtbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x7c,0x48,0x4e,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vrsqrtpbf16  291(%edi,%eax,4), %zmm2 {%k7}
-# INTEL: vrsqrtpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vrsqrtbf16  291(%edi,%eax,4), %zmm2 {%k7}
+# INTEL: vrsqrtbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x7c,0x4f,0x4e,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vrsqrtpbf16  (%eax){1to32}, %zmm2
-# INTEL: vrsqrtpbf16 zmm2, word ptr [eax]{1to32}
+# ATT:   vrsqrtbf16  (%eax){1to32}, %zmm2
+# INTEL: vrsqrtbf16 zmm2, word ptr [eax]{1to32}
 0x62,0xf6,0x7c,0x58,0x4e,0x10
 
-# ATT:   vrsqrtpbf16  -2048(,%ebp,2), %zmm2
-# INTEL: vrsqrtpbf16 zmm2, zmmword ptr [2*ebp - 2048]
+# ATT:   vrsqrtbf16  -2048(,%ebp,2), %zmm2
+# INTEL: vrsqrtbf16 zmm2, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x7c,0x48,0x4e,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vrsqrtpbf16  8128(%ecx), %zmm2 {%k7} {z}
-# INTEL: vrsqrtpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+# ATT:   vrsqrtbf16  8128(%ecx), %zmm2 {%k7} {z}
+# INTEL: vrsqrtbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x7c,0xcf,0x4e,0x51,0x7f
 
-# ATT:   vrsqrtpbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
-# INTEL: vrsqrtpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+# ATT:   vrsqrtbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+# INTEL: vrsqrtbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x7c,0xdf,0x4e,0x52,0x80
 
-# ATT:   vscalefpbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vscalefpbf16 ymm2, ymm3, ymm4
+# ATT:   vscalefbf16 %ymm4, %ymm3, %ymm2
+# INTEL: vscalefbf16 ymm2, ymm3, ymm4
 0x62,0xf6,0x64,0x28,0x2c,0xd4
 
-# ATT:   vscalefpbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vscalefpbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vscalefbf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vscalefbf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf6,0x64,0x2f,0x2c,0xd4
 
-# ATT:   vscalefpbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vscalefpbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vscalefbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vscalefbf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf6,0x64,0xaf,0x2c,0xd4
 
-# ATT:   vscalefpbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vscalefpbf16 zmm2, zmm3, zmm4
+# ATT:   vscalefbf16 %zmm4, %zmm3, %zmm2
+# INTEL: vscalefbf16 zmm2, zmm3, zmm4
 0x62,0xf6,0x64,0x48,0x2c,0xd4
 
-# ATT:   vscalefpbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vscalefpbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vscalefbf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vscalefbf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf6,0x64,0x4f,0x2c,0xd4
 
-# ATT:   vscalefpbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vscalefpbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vscalefbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vscalefbf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf6,0x64,0xcf,0x2c,0xd4
 
-# ATT:   vscalefpbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vscalefpbf16 xmm2, xmm3, xmm4
+# ATT:   vscalefbf16 %xmm4, %xmm3, %xmm2
+# INTEL: vscalefbf16 xmm2, xmm3, xmm4
 0x62,0xf6,0x64,0x08,0x2c,0xd4
 
-# ATT:   vscalefpbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vscalefpbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vscalefbf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vscalefbf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf6,0x64,0x0f,0x2c,0xd4
 
-# ATT:   vscalefpbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vscalefpbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vscalefbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vscalefbf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf6,0x64,0x8f,0x2c,0xd4
 
-# ATT:   vscalefpbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vscalefpbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vscalefbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vscalefbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x48,0x2c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vscalefpbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vscalefpbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vscalefbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vscalefbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x4f,0x2c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vscalefpbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vscalefpbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vscalefbf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vscalefbf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf6,0x64,0x58,0x2c,0x10
 
-# ATT:   vscalefpbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vscalefpbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vscalefbf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vscalefbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf6,0x64,0x48,0x2c,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vscalefpbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vscalefpbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vscalefbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vscalefbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf6,0x64,0xcf,0x2c,0x51,0x7f
 
-# ATT:   vscalefpbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vscalefpbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vscalefbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vscalefbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf6,0x64,0xdf,0x2c,0x52,0x80
 
-# ATT:   vscalefpbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vscalefpbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vscalefbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vscalefbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x28,0x2c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vscalefpbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vscalefpbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vscalefbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vscalefbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x2f,0x2c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vscalefpbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vscalefpbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vscalefbf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vscalefbf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf6,0x64,0x38,0x2c,0x10
 
-# ATT:   vscalefpbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vscalefpbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vscalefbf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vscalefbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf6,0x64,0x28,0x2c,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vscalefpbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vscalefpbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vscalefbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vscalefbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf6,0x64,0xaf,0x2c,0x51,0x7f
 
-# ATT:   vscalefpbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vscalefpbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vscalefbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vscalefbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf6,0x64,0xbf,0x2c,0x52,0x80
 
-# ATT:   vscalefpbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vscalefpbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vscalefbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vscalefbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf6,0x64,0x08,0x2c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vscalefpbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vscalefpbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vscalefbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vscalefbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf6,0x64,0x0f,0x2c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vscalefpbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vscalefpbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vscalefbf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vscalefbf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf6,0x64,0x18,0x2c,0x10
 
-# ATT:   vscalefpbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vscalefpbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vscalefbf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vscalefbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf6,0x64,0x08,0x2c,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vscalefpbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vscalefpbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vscalefbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vscalefbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf6,0x64,0x8f,0x2c,0x51,0x7f
 
-# ATT:   vscalefpbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vscalefpbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vscalefbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vscalefbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf6,0x64,0x9f,0x2c,0x52,0x80
 
-# ATT:   vsqrtnepbf16 %xmm3, %xmm2
-# INTEL: vsqrtnepbf16 xmm2, xmm3
+# ATT:   vsqrtbf16 %xmm3, %xmm2
+# INTEL: vsqrtbf16 xmm2, xmm3
 0x62,0xf5,0x7d,0x08,0x51,0xd3
 
-# ATT:   vsqrtnepbf16 %xmm3, %xmm2 {%k7}
-# INTEL: vsqrtnepbf16 xmm2 {k7}, xmm3
+# ATT:   vsqrtbf16 %xmm3, %xmm2 {%k7}
+# INTEL: vsqrtbf16 xmm2 {k7}, xmm3
 0x62,0xf5,0x7d,0x0f,0x51,0xd3
 
-# ATT:   vsqrtnepbf16 %xmm3, %xmm2 {%k7} {z}
-# INTEL: vsqrtnepbf16 xmm2 {k7} {z}, xmm3
+# ATT:   vsqrtbf16 %xmm3, %xmm2 {%k7} {z}
+# INTEL: vsqrtbf16 xmm2 {k7} {z}, xmm3
 0x62,0xf5,0x7d,0x8f,0x51,0xd3
 
-# ATT:   vsqrtnepbf16 %zmm3, %zmm2
-# INTEL: vsqrtnepbf16 zmm2, zmm3
+# ATT:   vsqrtbf16 %zmm3, %zmm2
+# INTEL: vsqrtbf16 zmm2, zmm3
 0x62,0xf5,0x7d,0x48,0x51,0xd3
 
-# ATT:   vsqrtnepbf16 %zmm3, %zmm2 {%k7}
-# INTEL: vsqrtnepbf16 zmm2 {k7}, zmm3
+# ATT:   vsqrtbf16 %zmm3, %zmm2 {%k7}
+# INTEL: vsqrtbf16 zmm2 {k7}, zmm3
 0x62,0xf5,0x7d,0x4f,0x51,0xd3
 
-# ATT:   vsqrtnepbf16 %zmm3, %zmm2 {%k7} {z}
-# INTEL: vsqrtnepbf16 zmm2 {k7} {z}, zmm3
+# ATT:   vsqrtbf16 %zmm3, %zmm2 {%k7} {z}
+# INTEL: vsqrtbf16 zmm2 {k7} {z}, zmm3
 0x62,0xf5,0x7d,0xcf,0x51,0xd3
 
-# ATT:   vsqrtnepbf16 %ymm3, %ymm2
-# INTEL: vsqrtnepbf16 ymm2, ymm3
+# ATT:   vsqrtbf16 %ymm3, %ymm2
+# INTEL: vsqrtbf16 ymm2, ymm3
 0x62,0xf5,0x7d,0x28,0x51,0xd3
 
-# ATT:   vsqrtnepbf16 %ymm3, %ymm2 {%k7}
-# INTEL: vsqrtnepbf16 ymm2 {k7}, ymm3
+# ATT:   vsqrtbf16 %ymm3, %ymm2 {%k7}
+# INTEL: vsqrtbf16 ymm2 {k7}, ymm3
 0x62,0xf5,0x7d,0x2f,0x51,0xd3
 
-# ATT:   vsqrtnepbf16 %ymm3, %ymm2 {%k7} {z}
-# INTEL: vsqrtnepbf16 ymm2 {k7} {z}, ymm3
+# ATT:   vsqrtbf16 %ymm3, %ymm2 {%k7} {z}
+# INTEL: vsqrtbf16 ymm2 {k7} {z}, ymm3
 0x62,0xf5,0x7d,0xaf,0x51,0xd3
 
-# ATT:   vsqrtnepbf16  268435456(%esp,%esi,8), %xmm2
-# INTEL: vsqrtnepbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vsqrtbf16  268435456(%esp,%esi,8), %xmm2
+# INTEL: vsqrtbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7d,0x08,0x51,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vsqrtnepbf16  291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vsqrtnepbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vsqrtbf16  291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vsqrtbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7d,0x0f,0x51,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vsqrtnepbf16  (%eax){1to8}, %xmm2
-# INTEL: vsqrtnepbf16 xmm2, word ptr [eax]{1to8}
+# ATT:   vsqrtbf16  (%eax){1to8}, %xmm2
+# INTEL: vsqrtbf16 xmm2, word ptr [eax]{1to8}
 0x62,0xf5,0x7d,0x18,0x51,0x10
 
-# ATT:   vsqrtnepbf16  -512(,%ebp,2), %xmm2
-# INTEL: vsqrtnepbf16 xmm2, xmmword ptr [2*ebp - 512]
+# ATT:   vsqrtbf16  -512(,%ebp,2), %xmm2
+# INTEL: vsqrtbf16 xmm2, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x7d,0x08,0x51,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vsqrtnepbf16  2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vsqrtnepbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+# ATT:   vsqrtbf16  2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vsqrtbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x7d,0x8f,0x51,0x51,0x7f
 
-# ATT:   vsqrtnepbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vsqrtnepbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+# ATT:   vsqrtbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vsqrtbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x7d,0x9f,0x51,0x52,0x80
 
-# ATT:   vsqrtnepbf16  268435456(%esp,%esi,8), %ymm2
-# INTEL: vsqrtnepbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vsqrtbf16  268435456(%esp,%esi,8), %ymm2
+# INTEL: vsqrtbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7d,0x28,0x51,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vsqrtnepbf16  291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vsqrtnepbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vsqrtbf16  291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vsqrtbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7d,0x2f,0x51,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vsqrtnepbf16  (%eax){1to16}, %ymm2
-# INTEL: vsqrtnepbf16 ymm2, word ptr [eax]{1to16}
+# ATT:   vsqrtbf16  (%eax){1to16}, %ymm2
+# INTEL: vsqrtbf16 ymm2, word ptr [eax]{1to16}
 0x62,0xf5,0x7d,0x38,0x51,0x10
 
-# ATT:   vsqrtnepbf16  -1024(,%ebp,2), %ymm2
-# INTEL: vsqrtnepbf16 ymm2, ymmword ptr [2*ebp - 1024]
+# ATT:   vsqrtbf16  -1024(,%ebp,2), %ymm2
+# INTEL: vsqrtbf16 ymm2, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x7d,0x28,0x51,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vsqrtnepbf16  4064(%ecx), %ymm2 {%k7} {z}
-# INTEL: vsqrtnepbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+# ATT:   vsqrtbf16  4064(%ecx), %ymm2 {%k7} {z}
+# INTEL: vsqrtbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x7d,0xaf,0x51,0x51,0x7f
 
-# ATT:   vsqrtnepbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
-# INTEL: vsqrtnepbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+# ATT:   vsqrtbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+# INTEL: vsqrtbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x7d,0xbf,0x51,0x52,0x80
 
-# ATT:   vsqrtnepbf16  268435456(%esp,%esi,8), %zmm2
-# INTEL: vsqrtnepbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vsqrtbf16  268435456(%esp,%esi,8), %zmm2
+# INTEL: vsqrtbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7d,0x48,0x51,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vsqrtnepbf16  291(%edi,%eax,4), %zmm2 {%k7}
-# INTEL: vsqrtnepbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vsqrtbf16  291(%edi,%eax,4), %zmm2 {%k7}
+# INTEL: vsqrtbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7d,0x4f,0x51,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vsqrtnepbf16  (%eax){1to32}, %zmm2
-# INTEL: vsqrtnepbf16 zmm2, word ptr [eax]{1to32}
+# ATT:   vsqrtbf16  (%eax){1to32}, %zmm2
+# INTEL: vsqrtbf16 zmm2, word ptr [eax]{1to32}
 0x62,0xf5,0x7d,0x58,0x51,0x10
 
-# ATT:   vsqrtnepbf16  -2048(,%ebp,2), %zmm2
-# INTEL: vsqrtnepbf16 zmm2, zmmword ptr [2*ebp - 2048]
+# ATT:   vsqrtbf16  -2048(,%ebp,2), %zmm2
+# INTEL: vsqrtbf16 zmm2, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x7d,0x48,0x51,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vsqrtnepbf16  8128(%ecx), %zmm2 {%k7} {z}
-# INTEL: vsqrtnepbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+# ATT:   vsqrtbf16  8128(%ecx), %zmm2 {%k7} {z}
+# INTEL: vsqrtbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x7d,0xcf,0x51,0x51,0x7f
 
-# ATT:   vsqrtnepbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
-# INTEL: vsqrtnepbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+# ATT:   vsqrtbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+# INTEL: vsqrtbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x7d,0xdf,0x51,0x52,0x80
 
-# ATT:   vsubnepbf16 %ymm4, %ymm3, %ymm2
-# INTEL: vsubnepbf16 ymm2, ymm3, ymm4
+# ATT:   vsubbf16 %ymm4, %ymm3, %ymm2
+# INTEL: vsubbf16 ymm2, ymm3, ymm4
 0x62,0xf5,0x65,0x28,0x5c,0xd4
 
-# ATT:   vsubnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vsubnepbf16 ymm2 {k7}, ymm3, ymm4
+# ATT:   vsubbf16 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vsubbf16 ymm2 {k7}, ymm3, ymm4
 0x62,0xf5,0x65,0x2f,0x5c,0xd4
 
-# ATT:   vsubnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vsubnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vsubbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vsubbf16 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf5,0x65,0xaf,0x5c,0xd4
 
-# ATT:   vsubnepbf16 %zmm4, %zmm3, %zmm2
-# INTEL: vsubnepbf16 zmm2, zmm3, zmm4
+# ATT:   vsubbf16 %zmm4, %zmm3, %zmm2
+# INTEL: vsubbf16 zmm2, zmm3, zmm4
 0x62,0xf5,0x65,0x48,0x5c,0xd4
 
-# ATT:   vsubnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vsubnepbf16 zmm2 {k7}, zmm3, zmm4
+# ATT:   vsubbf16 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vsubbf16 zmm2 {k7}, zmm3, zmm4
 0x62,0xf5,0x65,0x4f,0x5c,0xd4
 
-# ATT:   vsubnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vsubnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vsubbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vsubbf16 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf5,0x65,0xcf,0x5c,0xd4
 
-# ATT:   vsubnepbf16 %xmm4, %xmm3, %xmm2
-# INTEL: vsubnepbf16 xmm2, xmm3, xmm4
+# ATT:   vsubbf16 %xmm4, %xmm3, %xmm2
+# INTEL: vsubbf16 xmm2, xmm3, xmm4
 0x62,0xf5,0x65,0x08,0x5c,0xd4
 
-# ATT:   vsubnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vsubnepbf16 xmm2 {k7}, xmm3, xmm4
+# ATT:   vsubbf16 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vsubbf16 xmm2 {k7}, xmm3, xmm4
 0x62,0xf5,0x65,0x0f,0x5c,0xd4
 
-# ATT:   vsubnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vsubnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vsubbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vsubbf16 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf5,0x65,0x8f,0x5c,0xd4
 
-# ATT:   vsubnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vsubnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vsubbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vsubbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x48,0x5c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vsubnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vsubnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vsubbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vsubbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x4f,0x5c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vsubnepbf16  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vsubnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vsubbf16  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vsubbf16 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf5,0x65,0x58,0x5c,0x10
 
-# ATT:   vsubnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vsubnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vsubbf16  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vsubbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x65,0x48,0x5c,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vsubnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vsubnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vsubbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vsubbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x65,0xcf,0x5c,0x51,0x7f
 
-# ATT:   vsubnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vsubnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vsubbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vsubbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x65,0xdf,0x5c,0x52,0x80
 
-# ATT:   vsubnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vsubnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vsubbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vsubbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x28,0x5c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vsubnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vsubnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vsubbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vsubbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x2f,0x5c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vsubnepbf16  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vsubnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vsubbf16  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vsubbf16 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf5,0x65,0x38,0x5c,0x10
 
-# ATT:   vsubnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vsubnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vsubbf16  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vsubbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x65,0x28,0x5c,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vsubnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vsubnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vsubbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vsubbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x65,0xaf,0x5c,0x51,0x7f
 
-# ATT:   vsubnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vsubnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vsubbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vsubbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x65,0xbf,0x5c,0x52,0x80
 
-# ATT:   vsubnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vsubnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vsubbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vsubbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x65,0x08,0x5c,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vsubnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vsubnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vsubbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vsubbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x65,0x0f,0x5c,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vsubnepbf16  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vsubnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vsubbf16  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vsubbf16 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf5,0x65,0x18,0x5c,0x10
 
-# ATT:   vsubnepbf16  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vsubnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vsubbf16  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vsubbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x65,0x08,0x5c,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vsubnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vsubnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vsubbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vsubbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x65,0x8f,0x5c,0x51,0x7f
 
-# ATT:   vsubnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vsubnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vsubbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vsubbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x65,0x9f,0x5c,0x52,0x80
 
diff --git a/llvm/test/MC/Disassembler/X86/avx10.2-bf16-64.txt b/llvm/test/MC/Disassembler/X86/avx10.2-bf16-64.txt
index 953ef8dd8a14c..1319c5cbd0362 100644
--- a/llvm/test/MC/Disassembler/X86/avx10.2-bf16-64.txt
+++ b/llvm/test/MC/Disassembler/X86/avx10.2-bf16-64.txt
@@ -1,3015 +1,3015 @@
 # RUN: llvm-mc --disassemble %s -triple=x86_64 | FileCheck %s --check-prefixes=ATT
 # RUN: llvm-mc --disassemble %s -triple=x86_64 --output-asm-variant=1 | FileCheck %s --check-prefixes=INTEL
 
-# ATT:   vaddnepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vaddnepbf16 ymm22, ymm23, ymm24
+# ATT:   vaddbf16 %ymm24, %ymm23, %ymm22
+# INTEL: vaddbf16 ymm22, ymm23, ymm24
 0x62,0x85,0x45,0x20,0x58,0xf0
 
-# ATT:   vaddnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vaddnepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vaddbf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vaddbf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x85,0x45,0x27,0x58,0xf0
 
-# ATT:   vaddnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vaddnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vaddbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vaddbf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x85,0x45,0xa7,0x58,0xf0
 
-# ATT:   vaddnepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vaddnepbf16 zmm22, zmm23, zmm24
+# ATT:   vaddbf16 %zmm24, %zmm23, %zmm22
+# INTEL: vaddbf16 zmm22, zmm23, zmm24
 0x62,0x85,0x45,0x40,0x58,0xf0
 
-# ATT:   vaddnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vaddnepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vaddbf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vaddbf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x85,0x45,0x47,0x58,0xf0
 
-# ATT:   vaddnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vaddnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vaddbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vaddbf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x85,0x45,0xc7,0x58,0xf0
 
-# ATT:   vaddnepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vaddnepbf16 xmm22, xmm23, xmm24
+# ATT:   vaddbf16 %xmm24, %xmm23, %xmm22
+# INTEL: vaddbf16 xmm22, xmm23, xmm24
 0x62,0x85,0x45,0x00,0x58,0xf0
 
-# ATT:   vaddnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vaddnepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vaddbf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vaddbf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x85,0x45,0x07,0x58,0xf0
 
-# ATT:   vaddnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vaddnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vaddbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vaddbf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x85,0x45,0x87,0x58,0xf0
 
-# ATT:   vaddnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vaddnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vaddbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vaddbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x40,0x58,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vaddnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vaddnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vaddbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vaddbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x47,0x58,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vaddnepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vaddnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vaddbf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vaddbf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe5,0x45,0x50,0x58,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vaddnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vaddnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vaddbf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vaddbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x45,0x40,0x58,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vaddnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vaddnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vaddbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vaddbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x45,0xc7,0x58,0x71,0x7f
 
-# ATT:   vaddnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vaddnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vaddbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vaddbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x45,0xd7,0x58,0x72,0x80
 
-# ATT:   vaddnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vaddnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vaddbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vaddbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x20,0x58,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vaddnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vaddnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vaddbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vaddbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x27,0x58,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vaddnepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vaddnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vaddbf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vaddbf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe5,0x45,0x30,0x58,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vaddnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vaddnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vaddbf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vaddbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x45,0x20,0x58,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vaddnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vaddnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vaddbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vaddbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x45,0xa7,0x58,0x71,0x7f
 
-# ATT:   vaddnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vaddnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vaddbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vaddbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x45,0xb7,0x58,0x72,0x80
 
-# ATT:   vaddnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vaddnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vaddbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vaddbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x00,0x58,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vaddnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vaddnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vaddbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vaddbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x07,0x58,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vaddnepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vaddnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vaddbf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vaddbf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe5,0x45,0x10,0x58,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vaddnepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vaddnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vaddbf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vaddbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x45,0x00,0x58,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vaddnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vaddnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vaddbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vaddbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x45,0x87,0x58,0x71,0x7f
 
-# ATT:   vaddnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vaddnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vaddbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vaddbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x45,0x97,0x58,0x72,0x80
 
-# ATT:   vcmppbf16 $123, %ymm24, %ymm23, %k5
-# INTEL: vcmppbf16 k5, ymm23, ymm24, 123
+# ATT:   vcmpbf16 $123, %ymm24, %ymm23, %k5
+# INTEL: vcmpbf16 k5, ymm23, ymm24, 123
 0x62,0x93,0x47,0x20,0xc2,0xe8,0x7b
 
-# ATT:   vcmppbf16 $123, %ymm24, %ymm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, ymm23, ymm24, 123
+# ATT:   vcmpbf16 $123, %ymm24, %ymm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, ymm23, ymm24, 123
 0x62,0x93,0x47,0x27,0xc2,0xe8,0x7b
 
-# ATT:   vcmppbf16 $123, %xmm24, %xmm23, %k5
-# INTEL: vcmppbf16 k5, xmm23, xmm24, 123
+# ATT:   vcmpbf16 $123, %xmm24, %xmm23, %k5
+# INTEL: vcmpbf16 k5, xmm23, xmm24, 123
 0x62,0x93,0x47,0x00,0xc2,0xe8,0x7b
 
-# ATT:   vcmppbf16 $123, %xmm24, %xmm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, xmm23, xmm24, 123
+# ATT:   vcmpbf16 $123, %xmm24, %xmm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, xmm23, xmm24, 123
 0x62,0x93,0x47,0x07,0xc2,0xe8,0x7b
 
-# ATT:   vcmppbf16 $123, %zmm24, %zmm23, %k5
-# INTEL: vcmppbf16 k5, zmm23, zmm24, 123
+# ATT:   vcmpbf16 $123, %zmm24, %zmm23, %k5
+# INTEL: vcmpbf16 k5, zmm23, zmm24, 123
 0x62,0x93,0x47,0x40,0xc2,0xe8,0x7b
 
-# ATT:   vcmppbf16 $123, %zmm24, %zmm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, zmm23, zmm24, 123
+# ATT:   vcmpbf16 $123, %zmm24, %zmm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, zmm23, zmm24, 123
 0x62,0x93,0x47,0x47,0xc2,0xe8,0x7b
 
-# ATT:   vcmppbf16  $123, 268435456(%rbp,%r14,8), %zmm23, %k5
-# INTEL: vcmppbf16 k5, zmm23, zmmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vcmpbf16  $123, 268435456(%rbp,%r14,8), %zmm23, %k5
+# INTEL: vcmpbf16 k5, zmm23, zmmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xb3,0x47,0x40,0xc2,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vcmppbf16  $123, 291(%r8,%rax,4), %zmm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vcmpbf16  $123, 291(%r8,%rax,4), %zmm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291], 123
 0x62,0xd3,0x47,0x47,0xc2,0xac,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vcmppbf16  $123, (%rip){1to32}, %zmm23, %k5
-# INTEL: vcmppbf16 k5, zmm23, word ptr [rip]{1to32}, 123
+# ATT:   vcmpbf16  $123, (%rip){1to32}, %zmm23, %k5
+# INTEL: vcmpbf16 k5, zmm23, word ptr [rip]{1to32}, 123
 0x62,0xf3,0x47,0x50,0xc2,0x2d,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vcmppbf16  $123, -2048(,%rbp,2), %zmm23, %k5
-# INTEL: vcmppbf16 k5, zmm23, zmmword ptr [2*rbp - 2048], 123
+# ATT:   vcmpbf16  $123, -2048(,%rbp,2), %zmm23, %k5
+# INTEL: vcmpbf16 k5, zmm23, zmmword ptr [2*rbp - 2048], 123
 0x62,0xf3,0x47,0x40,0xc2,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vcmppbf16  $123, 8128(%rcx), %zmm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, zmm23, zmmword ptr [rcx + 8128], 123
+# ATT:   vcmpbf16  $123, 8128(%rcx), %zmm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, zmm23, zmmword ptr [rcx + 8128], 123
 0x62,0xf3,0x47,0x47,0xc2,0x69,0x7f,0x7b
 
-# ATT:   vcmppbf16  $123, -256(%rdx){1to32}, %zmm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, zmm23, word ptr [rdx - 256]{1to32}, 123
+# ATT:   vcmpbf16  $123, -256(%rdx){1to32}, %zmm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, zmm23, word ptr [rdx - 256]{1to32}, 123
 0x62,0xf3,0x47,0x57,0xc2,0x6a,0x80,0x7b
 
-# ATT:   vcmppbf16  $123, 268435456(%rbp,%r14,8), %xmm23, %k5
-# INTEL: vcmppbf16 k5, xmm23, xmmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vcmpbf16  $123, 268435456(%rbp,%r14,8), %xmm23, %k5
+# INTEL: vcmpbf16 k5, xmm23, xmmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xb3,0x47,0x00,0xc2,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vcmppbf16  $123, 291(%r8,%rax,4), %xmm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vcmpbf16  $123, 291(%r8,%rax,4), %xmm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291], 123
 0x62,0xd3,0x47,0x07,0xc2,0xac,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vcmppbf16  $123, (%rip){1to8}, %xmm23, %k5
-# INTEL: vcmppbf16 k5, xmm23, word ptr [rip]{1to8}, 123
+# ATT:   vcmpbf16  $123, (%rip){1to8}, %xmm23, %k5
+# INTEL: vcmpbf16 k5, xmm23, word ptr [rip]{1to8}, 123
 0x62,0xf3,0x47,0x10,0xc2,0x2d,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vcmppbf16  $123, -512(,%rbp,2), %xmm23, %k5
-# INTEL: vcmppbf16 k5, xmm23, xmmword ptr [2*rbp - 512], 123
+# ATT:   vcmpbf16  $123, -512(,%rbp,2), %xmm23, %k5
+# INTEL: vcmpbf16 k5, xmm23, xmmword ptr [2*rbp - 512], 123
 0x62,0xf3,0x47,0x00,0xc2,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vcmppbf16  $123, 2032(%rcx), %xmm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, xmm23, xmmword ptr [rcx + 2032], 123
+# ATT:   vcmpbf16  $123, 2032(%rcx), %xmm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, xmm23, xmmword ptr [rcx + 2032], 123
 0x62,0xf3,0x47,0x07,0xc2,0x69,0x7f,0x7b
 
-# ATT:   vcmppbf16  $123, -256(%rdx){1to8}, %xmm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, xmm23, word ptr [rdx - 256]{1to8}, 123
+# ATT:   vcmpbf16  $123, -256(%rdx){1to8}, %xmm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, xmm23, word ptr [rdx - 256]{1to8}, 123
 0x62,0xf3,0x47,0x17,0xc2,0x6a,0x80,0x7b
 
-# ATT:   vcmppbf16  $123, 268435456(%rbp,%r14,8), %ymm23, %k5
-# INTEL: vcmppbf16 k5, ymm23, ymmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vcmpbf16  $123, 268435456(%rbp,%r14,8), %ymm23, %k5
+# INTEL: vcmpbf16 k5, ymm23, ymmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xb3,0x47,0x20,0xc2,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vcmppbf16  $123, 291(%r8,%rax,4), %ymm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vcmpbf16  $123, 291(%r8,%rax,4), %ymm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291], 123
 0x62,0xd3,0x47,0x27,0xc2,0xac,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vcmppbf16  $123, (%rip){1to16}, %ymm23, %k5
-# INTEL: vcmppbf16 k5, ymm23, word ptr [rip]{1to16}, 123
+# ATT:   vcmpbf16  $123, (%rip){1to16}, %ymm23, %k5
+# INTEL: vcmpbf16 k5, ymm23, word ptr [rip]{1to16}, 123
 0x62,0xf3,0x47,0x30,0xc2,0x2d,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vcmppbf16  $123, -1024(,%rbp,2), %ymm23, %k5
-# INTEL: vcmppbf16 k5, ymm23, ymmword ptr [2*rbp - 1024], 123
+# ATT:   vcmpbf16  $123, -1024(,%rbp,2), %ymm23, %k5
+# INTEL: vcmpbf16 k5, ymm23, ymmword ptr [2*rbp - 1024], 123
 0x62,0xf3,0x47,0x20,0xc2,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vcmppbf16  $123, 4064(%rcx), %ymm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, ymm23, ymmword ptr [rcx + 4064], 123
+# ATT:   vcmpbf16  $123, 4064(%rcx), %ymm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, ymm23, ymmword ptr [rcx + 4064], 123
 0x62,0xf3,0x47,0x27,0xc2,0x69,0x7f,0x7b
 
-# ATT:   vcmppbf16  $123, -256(%rdx){1to16}, %ymm23, %k5 {%k7}
-# INTEL: vcmppbf16 k5 {k7}, ymm23, word ptr [rdx - 256]{1to16}, 123
+# ATT:   vcmpbf16  $123, -256(%rdx){1to16}, %ymm23, %k5 {%k7}
+# INTEL: vcmpbf16 k5 {k7}, ymm23, word ptr [rdx - 256]{1to16}, 123
 0x62,0xf3,0x47,0x37,0xc2,0x6a,0x80,0x7b
 
-# ATT:   vcomsbf16 %xmm23, %xmm22
-# INTEL: vcomsbf16 xmm22, xmm23
+# ATT:   vcomisbf16 %xmm23, %xmm22
+# INTEL: vcomisbf16 xmm22, xmm23
 0x62,0xa5,0x7d,0x08,0x2f,0xf7
 
-# ATT:   vcomsbf16  268435456(%rbp,%r14,8), %xmm22
-# INTEL: vcomsbf16 xmm22, word ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcomisbf16  268435456(%rbp,%r14,8), %xmm22
+# INTEL: vcomisbf16 xmm22, word ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7d,0x08,0x2f,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcomsbf16  291(%r8,%rax,4), %xmm22
-# INTEL: vcomsbf16 xmm22, word ptr [r8 + 4*rax + 291]
+# ATT:   vcomisbf16  291(%r8,%rax,4), %xmm22
+# INTEL: vcomisbf16 xmm22, word ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7d,0x08,0x2f,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcomsbf16  (%rip), %xmm22
-# INTEL: vcomsbf16 xmm22, word ptr [rip]
+# ATT:   vcomisbf16  (%rip), %xmm22
+# INTEL: vcomisbf16 xmm22, word ptr [rip]
 0x62,0xe5,0x7d,0x08,0x2f,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcomsbf16  -64(,%rbp,2), %xmm22
-# INTEL: vcomsbf16 xmm22, word ptr [2*rbp - 64]
+# ATT:   vcomisbf16  -64(,%rbp,2), %xmm22
+# INTEL: vcomisbf16 xmm22, word ptr [2*rbp - 64]
 0x62,0xe5,0x7d,0x08,0x2f,0x34,0x6d,0xc0,0xff,0xff,0xff
 
-# ATT:   vcomsbf16  254(%rcx), %xmm22
-# INTEL: vcomsbf16 xmm22, word ptr [rcx + 254]
+# ATT:   vcomisbf16  254(%rcx), %xmm22
+# INTEL: vcomisbf16 xmm22, word ptr [rcx + 254]
 0x62,0xe5,0x7d,0x08,0x2f,0x71,0x7f
 
-# ATT:   vcomsbf16  -256(%rdx), %xmm22
-# INTEL: vcomsbf16 xmm22, word ptr [rdx - 256]
+# ATT:   vcomisbf16  -256(%rdx), %xmm22
+# INTEL: vcomisbf16 xmm22, word ptr [rdx - 256]
 0x62,0xe5,0x7d,0x08,0x2f,0x72,0x80
 
-# ATT:   vdivnepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vdivnepbf16 ymm22, ymm23, ymm24
+# ATT:   vdivbf16 %ymm24, %ymm23, %ymm22
+# INTEL: vdivbf16 ymm22, ymm23, ymm24
 0x62,0x85,0x45,0x20,0x5e,0xf0
 
-# ATT:   vdivnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vdivnepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vdivbf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vdivbf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x85,0x45,0x27,0x5e,0xf0
 
-# ATT:   vdivnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vdivnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vdivbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vdivbf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x85,0x45,0xa7,0x5e,0xf0
 
-# ATT:   vdivnepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vdivnepbf16 zmm22, zmm23, zmm24
+# ATT:   vdivbf16 %zmm24, %zmm23, %zmm22
+# INTEL: vdivbf16 zmm22, zmm23, zmm24
 0x62,0x85,0x45,0x40,0x5e,0xf0
 
-# ATT:   vdivnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vdivnepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vdivbf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vdivbf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x85,0x45,0x47,0x5e,0xf0
 
-# ATT:   vdivnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vdivnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vdivbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vdivbf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x85,0x45,0xc7,0x5e,0xf0
 
-# ATT:   vdivnepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vdivnepbf16 xmm22, xmm23, xmm24
+# ATT:   vdivbf16 %xmm24, %xmm23, %xmm22
+# INTEL: vdivbf16 xmm22, xmm23, xmm24
 0x62,0x85,0x45,0x00,0x5e,0xf0
 
-# ATT:   vdivnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vdivnepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vdivbf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vdivbf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x85,0x45,0x07,0x5e,0xf0
 
-# ATT:   vdivnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vdivnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vdivbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vdivbf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x85,0x45,0x87,0x5e,0xf0
 
-# ATT:   vdivnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vdivnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vdivbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vdivbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x40,0x5e,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vdivnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vdivnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vdivbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vdivbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x47,0x5e,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vdivnepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vdivnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vdivbf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vdivbf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe5,0x45,0x50,0x5e,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vdivnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vdivnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vdivbf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vdivbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x45,0x40,0x5e,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vdivnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vdivnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vdivbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vdivbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x45,0xc7,0x5e,0x71,0x7f
 
-# ATT:   vdivnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vdivnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vdivbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vdivbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x45,0xd7,0x5e,0x72,0x80
 
-# ATT:   vdivnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vdivnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vdivbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vdivbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x20,0x5e,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vdivnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vdivnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vdivbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vdivbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x27,0x5e,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vdivnepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vdivnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vdivbf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vdivbf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe5,0x45,0x30,0x5e,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vdivnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vdivnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vdivbf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vdivbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x45,0x20,0x5e,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vdivnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vdivnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vdivbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vdivbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x45,0xa7,0x5e,0x71,0x7f
 
-# ATT:   vdivnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vdivnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vdivbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vdivbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x45,0xb7,0x5e,0x72,0x80
 
-# ATT:   vdivnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vdivnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vdivbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vdivbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x00,0x5e,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vdivnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vdivnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vdivbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vdivbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x07,0x5e,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vdivnepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vdivnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vdivbf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vdivbf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe5,0x45,0x10,0x5e,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vdivnepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vdivnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vdivbf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vdivbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x45,0x00,0x5e,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vdivnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vdivnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vdivbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vdivbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x45,0x87,0x5e,0x71,0x7f
 
-# ATT:   vdivnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vdivnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vdivbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vdivbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x45,0x97,0x5e,0x72,0x80
 
-# ATT:   vfmadd132nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfmadd132nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfmadd132bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfmadd132bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0x98,0xf0
 
-# ATT:   vfmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfmadd132nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfmadd132bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0x98,0xf0
 
-# ATT:   vfmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmadd132bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0x98,0xf0
 
-# ATT:   vfmadd132nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfmadd132nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfmadd132bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfmadd132bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0x98,0xf0
 
-# ATT:   vfmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfmadd132nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfmadd132bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0x98,0xf0
 
-# ATT:   vfmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmadd132bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0x98,0xf0
 
-# ATT:   vfmadd132nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfmadd132nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfmadd132bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfmadd132bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0x98,0xf0
 
-# ATT:   vfmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfmadd132nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfmadd132bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0x98,0xf0
 
-# ATT:   vfmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmadd132bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0x98,0xf0
 
-# ATT:   vfmadd132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfmadd132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmadd132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfmadd132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0x98,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfmadd132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmadd132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfmadd132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0x98,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd132nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfmadd132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfmadd132bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfmadd132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0x98,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmadd132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfmadd132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfmadd132bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfmadd132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0x98,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmadd132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfmadd132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmadd132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0x98,0x71,0x7f
 
-# ATT:   vfmadd132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmadd132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfmadd132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmadd132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0x98,0x72,0x80
 
-# ATT:   vfmadd132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfmadd132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmadd132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfmadd132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0x98,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfmadd132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmadd132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfmadd132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0x98,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd132nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfmadd132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfmadd132bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfmadd132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0x98,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmadd132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfmadd132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfmadd132bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfmadd132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0x98,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmadd132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfmadd132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmadd132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0x98,0x71,0x7f
 
-# ATT:   vfmadd132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmadd132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfmadd132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmadd132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0x98,0x72,0x80
 
-# ATT:   vfmadd132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfmadd132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmadd132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfmadd132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0x98,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfmadd132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmadd132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfmadd132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0x98,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd132nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfmadd132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfmadd132bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfmadd132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0x98,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmadd132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfmadd132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfmadd132bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfmadd132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0x98,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmadd132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfmadd132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmadd132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0x98,0x71,0x7f
 
-# ATT:   vfmadd132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmadd132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfmadd132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmadd132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0x98,0x72,0x80
 
-# ATT:   vfmadd213nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfmadd213nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfmadd213bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfmadd213bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0xa8,0xf0
 
-# ATT:   vfmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfmadd213nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfmadd213bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0xa8,0xf0
 
-# ATT:   vfmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmadd213bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0xa8,0xf0
 
-# ATT:   vfmadd213nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfmadd213nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfmadd213bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfmadd213bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0xa8,0xf0
 
-# ATT:   vfmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfmadd213nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfmadd213bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0xa8,0xf0
 
-# ATT:   vfmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmadd213bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0xa8,0xf0
 
-# ATT:   vfmadd213nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfmadd213nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfmadd213bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfmadd213bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0xa8,0xf0
 
-# ATT:   vfmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfmadd213nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfmadd213bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0xa8,0xf0
 
-# ATT:   vfmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmadd213bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0xa8,0xf0
 
-# ATT:   vfmadd213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfmadd213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmadd213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfmadd213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0xa8,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfmadd213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmadd213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfmadd213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0xa8,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd213nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfmadd213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfmadd213bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfmadd213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0xa8,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmadd213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfmadd213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfmadd213bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfmadd213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0xa8,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmadd213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfmadd213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmadd213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0xa8,0x71,0x7f
 
-# ATT:   vfmadd213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmadd213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfmadd213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmadd213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0xa8,0x72,0x80
 
-# ATT:   vfmadd213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfmadd213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmadd213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfmadd213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0xa8,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfmadd213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmadd213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfmadd213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0xa8,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd213nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfmadd213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfmadd213bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfmadd213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0xa8,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmadd213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfmadd213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfmadd213bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfmadd213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0xa8,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmadd213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfmadd213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmadd213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0xa8,0x71,0x7f
 
-# ATT:   vfmadd213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmadd213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfmadd213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmadd213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0xa8,0x72,0x80
 
-# ATT:   vfmadd213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfmadd213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmadd213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfmadd213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0xa8,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfmadd213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmadd213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfmadd213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0xa8,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd213nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfmadd213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfmadd213bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfmadd213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0xa8,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmadd213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfmadd213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfmadd213bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfmadd213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0xa8,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmadd213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfmadd213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmadd213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0xa8,0x71,0x7f
 
-# ATT:   vfmadd213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmadd213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfmadd213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmadd213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0xa8,0x72,0x80
 
-# ATT:   vfmadd231nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfmadd231nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfmadd231bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfmadd231bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0xb8,0xf0
 
-# ATT:   vfmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfmadd231nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfmadd231bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0xb8,0xf0
 
-# ATT:   vfmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmadd231bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0xb8,0xf0
 
-# ATT:   vfmadd231nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfmadd231nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfmadd231bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfmadd231bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0xb8,0xf0
 
-# ATT:   vfmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfmadd231nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfmadd231bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0xb8,0xf0
 
-# ATT:   vfmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmadd231bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0xb8,0xf0
 
-# ATT:   vfmadd231nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfmadd231nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfmadd231bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfmadd231bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0xb8,0xf0
 
-# ATT:   vfmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfmadd231nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfmadd231bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0xb8,0xf0
 
-# ATT:   vfmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmadd231bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0xb8,0xf0
 
-# ATT:   vfmadd231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfmadd231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmadd231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfmadd231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0xb8,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfmadd231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmadd231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfmadd231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0xb8,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd231nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfmadd231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfmadd231bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfmadd231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0xb8,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmadd231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfmadd231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfmadd231bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfmadd231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0xb8,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmadd231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfmadd231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmadd231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0xb8,0x71,0x7f
 
-# ATT:   vfmadd231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmadd231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfmadd231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmadd231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0xb8,0x72,0x80
 
-# ATT:   vfmadd231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfmadd231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmadd231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfmadd231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0xb8,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfmadd231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmadd231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfmadd231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0xb8,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd231nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfmadd231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfmadd231bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfmadd231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0xb8,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmadd231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfmadd231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfmadd231bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfmadd231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0xb8,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmadd231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfmadd231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmadd231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0xb8,0x71,0x7f
 
-# ATT:   vfmadd231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmadd231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfmadd231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmadd231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0xb8,0x72,0x80
 
-# ATT:   vfmadd231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfmadd231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmadd231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfmadd231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0xb8,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmadd231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfmadd231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmadd231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfmadd231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0xb8,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmadd231nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfmadd231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfmadd231bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfmadd231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0xb8,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmadd231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfmadd231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfmadd231bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfmadd231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0xb8,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmadd231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfmadd231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmadd231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0xb8,0x71,0x7f
 
-# ATT:   vfmadd231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmadd231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfmadd231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmadd231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0xb8,0x72,0x80
 
-# ATT:   vfmsub132nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfmsub132nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfmsub132bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfmsub132bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0x9a,0xf0
 
-# ATT:   vfmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfmsub132nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfmsub132bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0x9a,0xf0
 
-# ATT:   vfmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmsub132bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0x9a,0xf0
 
-# ATT:   vfmsub132nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfmsub132nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfmsub132bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfmsub132bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0x9a,0xf0
 
-# ATT:   vfmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfmsub132nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfmsub132bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0x9a,0xf0
 
-# ATT:   vfmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmsub132bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0x9a,0xf0
 
-# ATT:   vfmsub132nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfmsub132nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfmsub132bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfmsub132bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0x9a,0xf0
 
-# ATT:   vfmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfmsub132nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfmsub132bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0x9a,0xf0
 
-# ATT:   vfmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmsub132bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0x9a,0xf0
 
-# ATT:   vfmsub132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfmsub132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmsub132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfmsub132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0x9a,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfmsub132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmsub132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfmsub132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0x9a,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub132nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfmsub132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfmsub132bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfmsub132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0x9a,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmsub132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfmsub132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfmsub132bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfmsub132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0x9a,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmsub132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfmsub132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmsub132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0x9a,0x71,0x7f
 
-# ATT:   vfmsub132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmsub132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfmsub132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmsub132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0x9a,0x72,0x80
 
-# ATT:   vfmsub132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfmsub132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmsub132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfmsub132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0x9a,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfmsub132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmsub132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfmsub132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0x9a,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub132nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfmsub132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfmsub132bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfmsub132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0x9a,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmsub132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfmsub132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfmsub132bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfmsub132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0x9a,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmsub132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfmsub132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmsub132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0x9a,0x71,0x7f
 
-# ATT:   vfmsub132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmsub132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfmsub132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmsub132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0x9a,0x72,0x80
 
-# ATT:   vfmsub132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfmsub132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmsub132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfmsub132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0x9a,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfmsub132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmsub132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfmsub132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0x9a,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub132nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfmsub132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfmsub132bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfmsub132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0x9a,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmsub132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfmsub132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfmsub132bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfmsub132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0x9a,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmsub132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfmsub132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmsub132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0x9a,0x71,0x7f
 
-# ATT:   vfmsub132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmsub132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfmsub132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmsub132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0x9a,0x72,0x80
 
-# ATT:   vfmsub213nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfmsub213nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfmsub213bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfmsub213bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0xaa,0xf0
 
-# ATT:   vfmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfmsub213nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfmsub213bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0xaa,0xf0
 
-# ATT:   vfmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmsub213bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0xaa,0xf0
 
-# ATT:   vfmsub213nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfmsub213nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfmsub213bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfmsub213bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0xaa,0xf0
 
-# ATT:   vfmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfmsub213nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfmsub213bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0xaa,0xf0
 
-# ATT:   vfmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmsub213bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0xaa,0xf0
 
-# ATT:   vfmsub213nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfmsub213nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfmsub213bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfmsub213bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0xaa,0xf0
 
-# ATT:   vfmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfmsub213nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfmsub213bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0xaa,0xf0
 
-# ATT:   vfmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmsub213bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0xaa,0xf0
 
-# ATT:   vfmsub213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfmsub213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmsub213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfmsub213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0xaa,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfmsub213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmsub213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfmsub213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0xaa,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub213nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfmsub213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfmsub213bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfmsub213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0xaa,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmsub213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfmsub213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfmsub213bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfmsub213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0xaa,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmsub213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfmsub213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmsub213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0xaa,0x71,0x7f
 
-# ATT:   vfmsub213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmsub213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfmsub213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmsub213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0xaa,0x72,0x80
 
-# ATT:   vfmsub213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfmsub213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmsub213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfmsub213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0xaa,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfmsub213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmsub213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfmsub213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0xaa,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub213nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfmsub213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfmsub213bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfmsub213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0xaa,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmsub213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfmsub213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfmsub213bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfmsub213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0xaa,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmsub213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfmsub213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmsub213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0xaa,0x71,0x7f
 
-# ATT:   vfmsub213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmsub213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfmsub213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmsub213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0xaa,0x72,0x80
 
-# ATT:   vfmsub213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfmsub213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmsub213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfmsub213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0xaa,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfmsub213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmsub213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfmsub213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0xaa,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub213nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfmsub213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfmsub213bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfmsub213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0xaa,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmsub213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfmsub213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfmsub213bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfmsub213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0xaa,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmsub213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfmsub213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmsub213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0xaa,0x71,0x7f
 
-# ATT:   vfmsub213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmsub213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfmsub213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmsub213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0xaa,0x72,0x80
 
-# ATT:   vfmsub231nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfmsub231nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfmsub231bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfmsub231bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0xba,0xf0
 
-# ATT:   vfmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfmsub231nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfmsub231bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0xba,0xf0
 
-# ATT:   vfmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmsub231bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0xba,0xf0
 
-# ATT:   vfmsub231nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfmsub231nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfmsub231bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfmsub231bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0xba,0xf0
 
-# ATT:   vfmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfmsub231nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfmsub231bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0xba,0xf0
 
-# ATT:   vfmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmsub231bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0xba,0xf0
 
-# ATT:   vfmsub231nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfmsub231nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfmsub231bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfmsub231bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0xba,0xf0
 
-# ATT:   vfmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfmsub231nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfmsub231bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0xba,0xf0
 
-# ATT:   vfmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmsub231bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0xba,0xf0
 
-# ATT:   vfmsub231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfmsub231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmsub231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfmsub231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0xba,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfmsub231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmsub231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfmsub231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0xba,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub231nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfmsub231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfmsub231bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfmsub231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0xba,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmsub231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfmsub231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfmsub231bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfmsub231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0xba,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfmsub231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfmsub231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmsub231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0xba,0x71,0x7f
 
-# ATT:   vfmsub231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfmsub231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfmsub231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfmsub231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0xba,0x72,0x80
 
-# ATT:   vfmsub231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfmsub231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmsub231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfmsub231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0xba,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfmsub231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmsub231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfmsub231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0xba,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub231nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfmsub231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfmsub231bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfmsub231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0xba,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmsub231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfmsub231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfmsub231bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfmsub231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0xba,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfmsub231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfmsub231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmsub231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0xba,0x71,0x7f
 
-# ATT:   vfmsub231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfmsub231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfmsub231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfmsub231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0xba,0x72,0x80
 
-# ATT:   vfmsub231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfmsub231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfmsub231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfmsub231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0xba,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfmsub231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfmsub231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfmsub231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfmsub231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0xba,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfmsub231nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfmsub231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfmsub231bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfmsub231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0xba,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfmsub231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfmsub231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfmsub231bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfmsub231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0xba,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfmsub231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfmsub231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmsub231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0xba,0x71,0x7f
 
-# ATT:   vfmsub231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfmsub231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfmsub231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfmsub231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0xba,0x72,0x80
 
-# ATT:   vfnmadd132nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfnmadd132nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfnmadd132bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfnmadd132bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0x9c,0xf0
 
-# ATT:   vfnmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfnmadd132nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfnmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfnmadd132bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0x9c,0xf0
 
-# ATT:   vfnmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfnmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmadd132bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0x9c,0xf0
 
-# ATT:   vfnmadd132nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfnmadd132nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfnmadd132bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfnmadd132bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0x9c,0xf0
 
-# ATT:   vfnmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfnmadd132nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfnmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfnmadd132bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0x9c,0xf0
 
-# ATT:   vfnmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfnmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmadd132bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0x9c,0xf0
 
-# ATT:   vfnmadd132nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfnmadd132nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfnmadd132bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfnmadd132bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0x9c,0xf0
 
-# ATT:   vfnmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfnmadd132nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfnmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfnmadd132bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0x9c,0xf0
 
-# ATT:   vfnmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfnmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmadd132bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0x9c,0xf0
 
-# ATT:   vfnmadd132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfnmadd132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmadd132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfnmadd132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0x9c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfnmadd132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmadd132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfnmadd132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0x9c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd132nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfnmadd132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfnmadd132bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfnmadd132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0x9c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmadd132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfnmadd132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfnmadd132bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfnmadd132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0x9c,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmadd132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfnmadd132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmadd132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0x9c,0x71,0x7f
 
-# ATT:   vfnmadd132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfnmadd132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmadd132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0x9c,0x72,0x80
 
-# ATT:   vfnmadd132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfnmadd132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmadd132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfnmadd132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0x9c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfnmadd132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmadd132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfnmadd132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0x9c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd132nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfnmadd132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfnmadd132bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfnmadd132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0x9c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmadd132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfnmadd132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfnmadd132bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfnmadd132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0x9c,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmadd132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfnmadd132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmadd132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0x9c,0x71,0x7f
 
-# ATT:   vfnmadd132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfnmadd132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmadd132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0x9c,0x72,0x80
 
-# ATT:   vfnmadd132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfnmadd132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmadd132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfnmadd132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0x9c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfnmadd132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmadd132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfnmadd132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0x9c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd132nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfnmadd132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfnmadd132bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfnmadd132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0x9c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmadd132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfnmadd132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfnmadd132bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfnmadd132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0x9c,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmadd132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfnmadd132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmadd132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0x9c,0x71,0x7f
 
-# ATT:   vfnmadd132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmadd132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfnmadd132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmadd132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0x9c,0x72,0x80
 
-# ATT:   vfnmadd213nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfnmadd213nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfnmadd213bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfnmadd213bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0xac,0xf0
 
-# ATT:   vfnmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfnmadd213nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfnmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfnmadd213bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0xac,0xf0
 
-# ATT:   vfnmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfnmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmadd213bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0xac,0xf0
 
-# ATT:   vfnmadd213nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfnmadd213nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfnmadd213bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfnmadd213bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0xac,0xf0
 
-# ATT:   vfnmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfnmadd213nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfnmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfnmadd213bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0xac,0xf0
 
-# ATT:   vfnmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfnmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmadd213bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0xac,0xf0
 
-# ATT:   vfnmadd213nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfnmadd213nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfnmadd213bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfnmadd213bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0xac,0xf0
 
-# ATT:   vfnmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfnmadd213nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfnmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfnmadd213bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0xac,0xf0
 
-# ATT:   vfnmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfnmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmadd213bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0xac,0xf0
 
-# ATT:   vfnmadd213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfnmadd213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmadd213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfnmadd213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0xac,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfnmadd213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmadd213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfnmadd213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0xac,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd213nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfnmadd213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfnmadd213bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfnmadd213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0xac,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmadd213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfnmadd213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfnmadd213bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfnmadd213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0xac,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmadd213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfnmadd213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmadd213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0xac,0x71,0x7f
 
-# ATT:   vfnmadd213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfnmadd213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmadd213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0xac,0x72,0x80
 
-# ATT:   vfnmadd213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfnmadd213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmadd213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfnmadd213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0xac,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfnmadd213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmadd213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfnmadd213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0xac,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd213nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfnmadd213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfnmadd213bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfnmadd213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0xac,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmadd213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfnmadd213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfnmadd213bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfnmadd213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0xac,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmadd213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfnmadd213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmadd213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0xac,0x71,0x7f
 
-# ATT:   vfnmadd213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfnmadd213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmadd213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0xac,0x72,0x80
 
-# ATT:   vfnmadd213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfnmadd213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmadd213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfnmadd213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0xac,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfnmadd213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmadd213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfnmadd213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0xac,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd213nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfnmadd213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfnmadd213bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfnmadd213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0xac,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmadd213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfnmadd213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfnmadd213bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfnmadd213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0xac,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmadd213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfnmadd213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmadd213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0xac,0x71,0x7f
 
-# ATT:   vfnmadd213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmadd213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfnmadd213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmadd213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0xac,0x72,0x80
 
-# ATT:   vfnmadd231nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfnmadd231nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfnmadd231bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfnmadd231bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0xbc,0xf0
 
-# ATT:   vfnmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfnmadd231nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfnmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfnmadd231bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0xbc,0xf0
 
-# ATT:   vfnmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfnmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmadd231bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0xbc,0xf0
 
-# ATT:   vfnmadd231nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfnmadd231nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfnmadd231bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfnmadd231bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0xbc,0xf0
 
-# ATT:   vfnmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfnmadd231nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfnmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfnmadd231bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0xbc,0xf0
 
-# ATT:   vfnmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfnmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmadd231bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0xbc,0xf0
 
-# ATT:   vfnmadd231nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfnmadd231nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfnmadd231bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfnmadd231bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0xbc,0xf0
 
-# ATT:   vfnmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfnmadd231nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfnmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfnmadd231bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0xbc,0xf0
 
-# ATT:   vfnmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfnmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmadd231bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0xbc,0xf0
 
-# ATT:   vfnmadd231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfnmadd231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmadd231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfnmadd231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0xbc,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfnmadd231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmadd231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfnmadd231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0xbc,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd231nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfnmadd231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfnmadd231bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfnmadd231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0xbc,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmadd231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfnmadd231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfnmadd231bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfnmadd231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0xbc,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmadd231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfnmadd231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmadd231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0xbc,0x71,0x7f
 
-# ATT:   vfnmadd231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfnmadd231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmadd231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0xbc,0x72,0x80
 
-# ATT:   vfnmadd231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfnmadd231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmadd231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfnmadd231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0xbc,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfnmadd231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmadd231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfnmadd231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0xbc,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd231nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfnmadd231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfnmadd231bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfnmadd231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0xbc,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmadd231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfnmadd231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfnmadd231bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfnmadd231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0xbc,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmadd231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfnmadd231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmadd231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0xbc,0x71,0x7f
 
-# ATT:   vfnmadd231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfnmadd231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmadd231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0xbc,0x72,0x80
 
-# ATT:   vfnmadd231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfnmadd231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmadd231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfnmadd231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0xbc,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmadd231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfnmadd231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmadd231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfnmadd231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0xbc,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmadd231nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfnmadd231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfnmadd231bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfnmadd231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0xbc,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmadd231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfnmadd231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfnmadd231bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfnmadd231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0xbc,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmadd231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfnmadd231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmadd231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0xbc,0x71,0x7f
 
-# ATT:   vfnmadd231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmadd231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfnmadd231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmadd231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0xbc,0x72,0x80
 
-# ATT:   vfnmsub132nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfnmsub132nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfnmsub132bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfnmsub132bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0x9e,0xf0
 
-# ATT:   vfnmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfnmsub132nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfnmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfnmsub132bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0x9e,0xf0
 
-# ATT:   vfnmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfnmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmsub132bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0x9e,0xf0
 
-# ATT:   vfnmsub132nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfnmsub132nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfnmsub132bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfnmsub132bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0x9e,0xf0
 
-# ATT:   vfnmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfnmsub132nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfnmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfnmsub132bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0x9e,0xf0
 
-# ATT:   vfnmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfnmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmsub132bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0x9e,0xf0
 
-# ATT:   vfnmsub132nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfnmsub132nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfnmsub132bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfnmsub132bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0x9e,0xf0
 
-# ATT:   vfnmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfnmsub132nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfnmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfnmsub132bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0x9e,0xf0
 
-# ATT:   vfnmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfnmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmsub132bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0x9e,0xf0
 
-# ATT:   vfnmsub132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfnmsub132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmsub132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfnmsub132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0x9e,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfnmsub132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmsub132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfnmsub132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0x9e,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub132nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfnmsub132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfnmsub132bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfnmsub132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0x9e,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmsub132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfnmsub132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfnmsub132bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfnmsub132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0x9e,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmsub132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfnmsub132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmsub132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0x9e,0x71,0x7f
 
-# ATT:   vfnmsub132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfnmsub132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmsub132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0x9e,0x72,0x80
 
-# ATT:   vfnmsub132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfnmsub132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmsub132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfnmsub132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0x9e,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfnmsub132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmsub132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfnmsub132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0x9e,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub132nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfnmsub132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfnmsub132bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfnmsub132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0x9e,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmsub132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfnmsub132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfnmsub132bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfnmsub132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0x9e,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmsub132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfnmsub132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmsub132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0x9e,0x71,0x7f
 
-# ATT:   vfnmsub132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfnmsub132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmsub132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0x9e,0x72,0x80
 
-# ATT:   vfnmsub132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfnmsub132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmsub132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfnmsub132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0x9e,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfnmsub132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmsub132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfnmsub132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0x9e,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub132nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfnmsub132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfnmsub132bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfnmsub132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0x9e,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmsub132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfnmsub132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfnmsub132bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfnmsub132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0x9e,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmsub132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfnmsub132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmsub132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0x9e,0x71,0x7f
 
-# ATT:   vfnmsub132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmsub132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfnmsub132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmsub132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0x9e,0x72,0x80
 
-# ATT:   vfnmsub213nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfnmsub213nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfnmsub213bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfnmsub213bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0xae,0xf0
 
-# ATT:   vfnmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfnmsub213nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfnmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfnmsub213bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0xae,0xf0
 
-# ATT:   vfnmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfnmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmsub213bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0xae,0xf0
 
-# ATT:   vfnmsub213nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfnmsub213nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfnmsub213bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfnmsub213bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0xae,0xf0
 
-# ATT:   vfnmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfnmsub213nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfnmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfnmsub213bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0xae,0xf0
 
-# ATT:   vfnmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfnmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmsub213bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0xae,0xf0
 
-# ATT:   vfnmsub213nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfnmsub213nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfnmsub213bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfnmsub213bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0xae,0xf0
 
-# ATT:   vfnmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfnmsub213nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfnmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfnmsub213bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0xae,0xf0
 
-# ATT:   vfnmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfnmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmsub213bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0xae,0xf0
 
-# ATT:   vfnmsub213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfnmsub213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmsub213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfnmsub213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0xae,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfnmsub213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmsub213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfnmsub213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0xae,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub213nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfnmsub213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfnmsub213bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfnmsub213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0xae,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmsub213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfnmsub213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfnmsub213bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfnmsub213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0xae,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmsub213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfnmsub213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmsub213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0xae,0x71,0x7f
 
-# ATT:   vfnmsub213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfnmsub213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmsub213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0xae,0x72,0x80
 
-# ATT:   vfnmsub213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfnmsub213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmsub213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfnmsub213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0xae,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfnmsub213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmsub213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfnmsub213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0xae,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub213nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfnmsub213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfnmsub213bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfnmsub213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0xae,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmsub213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfnmsub213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfnmsub213bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfnmsub213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0xae,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmsub213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfnmsub213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmsub213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0xae,0x71,0x7f
 
-# ATT:   vfnmsub213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfnmsub213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmsub213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0xae,0x72,0x80
 
-# ATT:   vfnmsub213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfnmsub213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmsub213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfnmsub213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0xae,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfnmsub213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmsub213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfnmsub213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0xae,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub213nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfnmsub213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfnmsub213bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfnmsub213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0xae,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmsub213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfnmsub213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfnmsub213bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfnmsub213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0xae,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmsub213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfnmsub213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmsub213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0xae,0x71,0x7f
 
-# ATT:   vfnmsub213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmsub213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfnmsub213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmsub213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0xae,0x72,0x80
 
-# ATT:   vfnmsub231nepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vfnmsub231nepbf16 ymm22, ymm23, ymm24
+# ATT:   vfnmsub231bf16 %ymm24, %ymm23, %ymm22
+# INTEL: vfnmsub231bf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0xbe,0xf0
 
-# ATT:   vfnmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vfnmsub231nepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vfnmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vfnmsub231bf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0xbe,0xf0
 
-# ATT:   vfnmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vfnmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmsub231bf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0xbe,0xf0
 
-# ATT:   vfnmsub231nepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vfnmsub231nepbf16 zmm22, zmm23, zmm24
+# ATT:   vfnmsub231bf16 %zmm24, %zmm23, %zmm22
+# INTEL: vfnmsub231bf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0xbe,0xf0
 
-# ATT:   vfnmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vfnmsub231nepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vfnmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vfnmsub231bf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0xbe,0xf0
 
-# ATT:   vfnmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vfnmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmsub231bf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0xbe,0xf0
 
-# ATT:   vfnmsub231nepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vfnmsub231nepbf16 xmm22, xmm23, xmm24
+# ATT:   vfnmsub231bf16 %xmm24, %xmm23, %xmm22
+# INTEL: vfnmsub231bf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0xbe,0xf0
 
-# ATT:   vfnmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vfnmsub231nepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vfnmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vfnmsub231bf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0xbe,0xf0
 
-# ATT:   vfnmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vfnmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmsub231bf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0xbe,0xf0
 
-# ATT:   vfnmsub231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vfnmsub231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmsub231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vfnmsub231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0xbe,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vfnmsub231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmsub231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vfnmsub231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0xbe,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub231nepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vfnmsub231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vfnmsub231bf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vfnmsub231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0xbe,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmsub231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vfnmsub231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vfnmsub231bf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vfnmsub231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0xbe,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vfnmsub231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vfnmsub231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmsub231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0xbe,0x71,0x7f
 
-# ATT:   vfnmsub231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vfnmsub231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vfnmsub231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0xbe,0x72,0x80
 
-# ATT:   vfnmsub231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vfnmsub231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmsub231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vfnmsub231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0xbe,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vfnmsub231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmsub231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vfnmsub231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0xbe,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub231nepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vfnmsub231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vfnmsub231bf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vfnmsub231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0xbe,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmsub231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vfnmsub231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vfnmsub231bf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vfnmsub231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0xbe,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vfnmsub231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vfnmsub231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmsub231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0xbe,0x71,0x7f
 
-# ATT:   vfnmsub231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vfnmsub231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vfnmsub231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0xbe,0x72,0x80
 
-# ATT:   vfnmsub231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vfnmsub231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vfnmsub231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vfnmsub231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0xbe,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vfnmsub231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vfnmsub231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vfnmsub231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vfnmsub231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0xbe,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vfnmsub231nepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vfnmsub231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vfnmsub231bf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vfnmsub231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0xbe,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vfnmsub231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vfnmsub231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vfnmsub231bf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vfnmsub231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0xbe,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vfnmsub231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vfnmsub231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmsub231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0xbe,0x71,0x7f
 
-# ATT:   vfnmsub231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vfnmsub231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vfnmsub231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vfnmsub231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0xbe,0x72,0x80
 
-# ATT:   vfpclasspbf16 $123, %zmm23, %k5
-# INTEL: vfpclasspbf16 k5, zmm23, 123
+# ATT:   vfpclassbf16 $123, %zmm23, %k5
+# INTEL: vfpclassbf16 k5, zmm23, 123
 0x62,0xb3,0x7f,0x48,0x66,0xef,0x7b
 
-# ATT:   vfpclasspbf16 $123, %zmm23, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, zmm23, 123
+# ATT:   vfpclassbf16 $123, %zmm23, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, zmm23, 123
 0x62,0xb3,0x7f,0x4f,0x66,0xef,0x7b
 
-# ATT:   vfpclasspbf16 $123, %ymm23, %k5
-# INTEL: vfpclasspbf16 k5, ymm23, 123
+# ATT:   vfpclassbf16 $123, %ymm23, %k5
+# INTEL: vfpclassbf16 k5, ymm23, 123
 0x62,0xb3,0x7f,0x28,0x66,0xef,0x7b
 
-# ATT:   vfpclasspbf16 $123, %ymm23, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, ymm23, 123
+# ATT:   vfpclassbf16 $123, %ymm23, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, ymm23, 123
 0x62,0xb3,0x7f,0x2f,0x66,0xef,0x7b
 
-# ATT:   vfpclasspbf16 $123, %xmm23, %k5
-# INTEL: vfpclasspbf16 k5, xmm23, 123
+# ATT:   vfpclassbf16 $123, %xmm23, %k5
+# INTEL: vfpclassbf16 k5, xmm23, 123
 0x62,0xb3,0x7f,0x08,0x66,0xef,0x7b
 
-# ATT:   vfpclasspbf16 $123, %xmm23, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, xmm23, 123
+# ATT:   vfpclassbf16 $123, %xmm23, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, xmm23, 123
 0x62,0xb3,0x7f,0x0f,0x66,0xef,0x7b
 
-# ATT:   vfpclasspbf16x  $123, 268435456(%rbp,%r14,8), %k5
-# INTEL: vfpclasspbf16 k5, xmmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vfpclassbf16x  $123, 268435456(%rbp,%r14,8), %k5
+# INTEL: vfpclassbf16 k5, xmmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xb3,0x7f,0x08,0x66,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vfpclasspbf16x  $123, 291(%r8,%rax,4), %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vfpclassbf16x  $123, 291(%r8,%rax,4), %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 0x62,0xd3,0x7f,0x0f,0x66,0xac,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vfpclasspbf16  $123, (%rip){1to8}, %k5
-# INTEL: vfpclasspbf16 k5, word ptr [rip]{1to8}, 123
+# ATT:   vfpclassbf16  $123, (%rip){1to8}, %k5
+# INTEL: vfpclassbf16 k5, word ptr [rip]{1to8}, 123
 0x62,0xf3,0x7f,0x18,0x66,0x2d,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vfpclasspbf16x  $123, -512(,%rbp,2), %k5
-# INTEL: vfpclasspbf16 k5, xmmword ptr [2*rbp - 512], 123
+# ATT:   vfpclassbf16x  $123, -512(,%rbp,2), %k5
+# INTEL: vfpclassbf16 k5, xmmword ptr [2*rbp - 512], 123
 0x62,0xf3,0x7f,0x08,0x66,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vfpclasspbf16x  $123, 2032(%rcx), %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, xmmword ptr [rcx + 2032], 123
+# ATT:   vfpclassbf16x  $123, 2032(%rcx), %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, xmmword ptr [rcx + 2032], 123
 0x62,0xf3,0x7f,0x0f,0x66,0x69,0x7f,0x7b
 
-# ATT:   vfpclasspbf16  $123, -256(%rdx){1to8}, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, word ptr [rdx - 256]{1to8}, 123
+# ATT:   vfpclassbf16  $123, -256(%rdx){1to8}, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, word ptr [rdx - 256]{1to8}, 123
 0x62,0xf3,0x7f,0x1f,0x66,0x6a,0x80,0x7b
 
-# ATT:   vfpclasspbf16  $123, (%rip){1to16}, %k5
-# INTEL: vfpclasspbf16 k5, word ptr [rip]{1to16}, 123
+# ATT:   vfpclassbf16  $123, (%rip){1to16}, %k5
+# INTEL: vfpclassbf16 k5, word ptr [rip]{1to16}, 123
 0x62,0xf3,0x7f,0x38,0x66,0x2d,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vfpclasspbf16y  $123, -1024(,%rbp,2), %k5
-# INTEL: vfpclasspbf16 k5, ymmword ptr [2*rbp - 1024], 123
+# ATT:   vfpclassbf16y  $123, -1024(,%rbp,2), %k5
+# INTEL: vfpclassbf16 k5, ymmword ptr [2*rbp - 1024], 123
 0x62,0xf3,0x7f,0x28,0x66,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vfpclasspbf16y  $123, 4064(%rcx), %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, ymmword ptr [rcx + 4064], 123
+# ATT:   vfpclassbf16y  $123, 4064(%rcx), %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, ymmword ptr [rcx + 4064], 123
 0x62,0xf3,0x7f,0x2f,0x66,0x69,0x7f,0x7b
 
-# ATT:   vfpclasspbf16  $123, -256(%rdx){1to16}, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, word ptr [rdx - 256]{1to16}, 123
+# ATT:   vfpclassbf16  $123, -256(%rdx){1to16}, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, word ptr [rdx - 256]{1to16}, 123
 0x62,0xf3,0x7f,0x3f,0x66,0x6a,0x80,0x7b
 
-# ATT:   vfpclasspbf16  $123, (%rip){1to32}, %k5
-# INTEL: vfpclasspbf16 k5, word ptr [rip]{1to32}, 123
+# ATT:   vfpclassbf16  $123, (%rip){1to32}, %k5
+# INTEL: vfpclassbf16 k5, word ptr [rip]{1to32}, 123
 0x62,0xf3,0x7f,0x58,0x66,0x2d,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vfpclasspbf16z  $123, -2048(,%rbp,2), %k5
-# INTEL: vfpclasspbf16 k5, zmmword ptr [2*rbp - 2048], 123
+# ATT:   vfpclassbf16z  $123, -2048(,%rbp,2), %k5
+# INTEL: vfpclassbf16 k5, zmmword ptr [2*rbp - 2048], 123
 0x62,0xf3,0x7f,0x48,0x66,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vfpclasspbf16z  $123, 8128(%rcx), %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, zmmword ptr [rcx + 8128], 123
+# ATT:   vfpclassbf16z  $123, 8128(%rcx), %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, zmmword ptr [rcx + 8128], 123
 0x62,0xf3,0x7f,0x4f,0x66,0x69,0x7f,0x7b
 
-# ATT:   vfpclasspbf16  $123, -256(%rdx){1to32}, %k5 {%k7}
-# INTEL: vfpclasspbf16 k5 {k7}, word ptr [rdx - 256]{1to32}, 123
+# ATT:   vfpclassbf16  $123, -256(%rdx){1to32}, %k5 {%k7}
+# INTEL: vfpclassbf16 k5 {k7}, word ptr [rdx - 256]{1to32}, 123
 0x62,0xf3,0x7f,0x5f,0x66,0x6a,0x80,0x7b
 
-# ATT:   vgetexppbf16 %xmm23, %xmm22
-# INTEL: vgetexppbf16 xmm22, xmm23
+# ATT:   vgetexpbf16 %xmm23, %xmm22
+# INTEL: vgetexpbf16 xmm22, xmm23
 0x62,0xa5,0x7d,0x08,0x42,0xf7
 
-# ATT:   vgetexppbf16 %xmm23, %xmm22 {%k7}
-# INTEL: vgetexppbf16 xmm22 {k7}, xmm23
+# ATT:   vgetexpbf16 %xmm23, %xmm22 {%k7}
+# INTEL: vgetexpbf16 xmm22 {k7}, xmm23
 0x62,0xa5,0x7d,0x0f,0x42,0xf7
 
-# ATT:   vgetexppbf16 %xmm23, %xmm22 {%k7} {z}
-# INTEL: vgetexppbf16 xmm22 {k7} {z}, xmm23
+# ATT:   vgetexpbf16 %xmm23, %xmm22 {%k7} {z}
+# INTEL: vgetexpbf16 xmm22 {k7} {z}, xmm23
 0x62,0xa5,0x7d,0x8f,0x42,0xf7
 
-# ATT:   vgetexppbf16 %zmm23, %zmm22
-# INTEL: vgetexppbf16 zmm22, zmm23
+# ATT:   vgetexpbf16 %zmm23, %zmm22
+# INTEL: vgetexpbf16 zmm22, zmm23
 0x62,0xa5,0x7d,0x48,0x42,0xf7
 
-# ATT:   vgetexppbf16 %zmm23, %zmm22 {%k7}
-# INTEL: vgetexppbf16 zmm22 {k7}, zmm23
+# ATT:   vgetexpbf16 %zmm23, %zmm22 {%k7}
+# INTEL: vgetexpbf16 zmm22 {k7}, zmm23
 0x62,0xa5,0x7d,0x4f,0x42,0xf7
 
-# ATT:   vgetexppbf16 %zmm23, %zmm22 {%k7} {z}
-# INTEL: vgetexppbf16 zmm22 {k7} {z}, zmm23
+# ATT:   vgetexpbf16 %zmm23, %zmm22 {%k7} {z}
+# INTEL: vgetexpbf16 zmm22 {k7} {z}, zmm23
 0x62,0xa5,0x7d,0xcf,0x42,0xf7
 
-# ATT:   vgetexppbf16 %ymm23, %ymm22
-# INTEL: vgetexppbf16 ymm22, ymm23
+# ATT:   vgetexpbf16 %ymm23, %ymm22
+# INTEL: vgetexpbf16 ymm22, ymm23
 0x62,0xa5,0x7d,0x28,0x42,0xf7
 
-# ATT:   vgetexppbf16 %ymm23, %ymm22 {%k7}
-# INTEL: vgetexppbf16 ymm22 {k7}, ymm23
+# ATT:   vgetexpbf16 %ymm23, %ymm22 {%k7}
+# INTEL: vgetexpbf16 ymm22 {k7}, ymm23
 0x62,0xa5,0x7d,0x2f,0x42,0xf7
 
-# ATT:   vgetexppbf16 %ymm23, %ymm22 {%k7} {z}
-# INTEL: vgetexppbf16 ymm22 {k7} {z}, ymm23
+# ATT:   vgetexpbf16 %ymm23, %ymm22 {%k7} {z}
+# INTEL: vgetexpbf16 ymm22 {k7} {z}, ymm23
 0x62,0xa5,0x7d,0xaf,0x42,0xf7
 
-# ATT:   vgetexppbf16  268435456(%rbp,%r14,8), %xmm22
-# INTEL: vgetexppbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vgetexpbf16  268435456(%rbp,%r14,8), %xmm22
+# INTEL: vgetexpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7d,0x08,0x42,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vgetexppbf16  291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vgetexppbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vgetexpbf16  291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vgetexpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7d,0x0f,0x42,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vgetexppbf16  (%rip){1to8}, %xmm22
-# INTEL: vgetexppbf16 xmm22, word ptr [rip]{1to8}
+# ATT:   vgetexpbf16  (%rip){1to8}, %xmm22
+# INTEL: vgetexpbf16 xmm22, word ptr [rip]{1to8}
 0x62,0xe5,0x7d,0x18,0x42,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vgetexppbf16  -512(,%rbp,2), %xmm22
-# INTEL: vgetexppbf16 xmm22, xmmword ptr [2*rbp - 512]
+# ATT:   vgetexpbf16  -512(,%rbp,2), %xmm22
+# INTEL: vgetexpbf16 xmm22, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x7d,0x08,0x42,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vgetexppbf16  2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vgetexppbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+# ATT:   vgetexpbf16  2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vgetexpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x7d,0x8f,0x42,0x71,0x7f
 
-# ATT:   vgetexppbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vgetexppbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+# ATT:   vgetexpbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vgetexpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x7d,0x9f,0x42,0x72,0x80
 
-# ATT:   vgetexppbf16  268435456(%rbp,%r14,8), %ymm22
-# INTEL: vgetexppbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vgetexpbf16  268435456(%rbp,%r14,8), %ymm22
+# INTEL: vgetexpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7d,0x28,0x42,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vgetexppbf16  291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vgetexppbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vgetexpbf16  291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vgetexpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7d,0x2f,0x42,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vgetexppbf16  (%rip){1to16}, %ymm22
-# INTEL: vgetexppbf16 ymm22, word ptr [rip]{1to16}
+# ATT:   vgetexpbf16  (%rip){1to16}, %ymm22
+# INTEL: vgetexpbf16 ymm22, word ptr [rip]{1to16}
 0x62,0xe5,0x7d,0x38,0x42,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vgetexppbf16  -1024(,%rbp,2), %ymm22
-# INTEL: vgetexppbf16 ymm22, ymmword ptr [2*rbp - 1024]
+# ATT:   vgetexpbf16  -1024(,%rbp,2), %ymm22
+# INTEL: vgetexpbf16 ymm22, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x7d,0x28,0x42,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vgetexppbf16  4064(%rcx), %ymm22 {%k7} {z}
-# INTEL: vgetexppbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+# ATT:   vgetexpbf16  4064(%rcx), %ymm22 {%k7} {z}
+# INTEL: vgetexpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x7d,0xaf,0x42,0x71,0x7f
 
-# ATT:   vgetexppbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
-# INTEL: vgetexppbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+# ATT:   vgetexpbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+# INTEL: vgetexpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x7d,0xbf,0x42,0x72,0x80
 
-# ATT:   vgetexppbf16  268435456(%rbp,%r14,8), %zmm22
-# INTEL: vgetexppbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vgetexpbf16  268435456(%rbp,%r14,8), %zmm22
+# INTEL: vgetexpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7d,0x48,0x42,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vgetexppbf16  291(%r8,%rax,4), %zmm22 {%k7}
-# INTEL: vgetexppbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vgetexpbf16  291(%r8,%rax,4), %zmm22 {%k7}
+# INTEL: vgetexpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7d,0x4f,0x42,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vgetexppbf16  (%rip){1to32}, %zmm22
-# INTEL: vgetexppbf16 zmm22, word ptr [rip]{1to32}
+# ATT:   vgetexpbf16  (%rip){1to32}, %zmm22
+# INTEL: vgetexpbf16 zmm22, word ptr [rip]{1to32}
 0x62,0xe5,0x7d,0x58,0x42,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vgetexppbf16  -2048(,%rbp,2), %zmm22
-# INTEL: vgetexppbf16 zmm22, zmmword ptr [2*rbp - 2048]
+# ATT:   vgetexpbf16  -2048(,%rbp,2), %zmm22
+# INTEL: vgetexpbf16 zmm22, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x7d,0x48,0x42,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vgetexppbf16  8128(%rcx), %zmm22 {%k7} {z}
-# INTEL: vgetexppbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+# ATT:   vgetexpbf16  8128(%rcx), %zmm22 {%k7} {z}
+# INTEL: vgetexpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x7d,0xcf,0x42,0x71,0x7f
 
-# ATT:   vgetexppbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
-# INTEL: vgetexppbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+# ATT:   vgetexpbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+# INTEL: vgetexpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x7d,0xdf,0x42,0x72,0x80
 
-# ATT:   vgetmantpbf16 $123, %zmm23, %zmm22
-# INTEL: vgetmantpbf16 zmm22, zmm23, 123
+# ATT:   vgetmantbf16 $123, %zmm23, %zmm22
+# INTEL: vgetmantbf16 zmm22, zmm23, 123
 0x62,0xa3,0x7f,0x48,0x26,0xf7,0x7b
 
-# ATT:   vgetmantpbf16 $123, %zmm23, %zmm22 {%k7}
-# INTEL: vgetmantpbf16 zmm22 {k7}, zmm23, 123
+# ATT:   vgetmantbf16 $123, %zmm23, %zmm22 {%k7}
+# INTEL: vgetmantbf16 zmm22 {k7}, zmm23, 123
 0x62,0xa3,0x7f,0x4f,0x26,0xf7,0x7b
 
-# ATT:   vgetmantpbf16 $123, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vgetmantpbf16 zmm22 {k7} {z}, zmm23, 123
+# ATT:   vgetmantbf16 $123, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vgetmantbf16 zmm22 {k7} {z}, zmm23, 123
 0x62,0xa3,0x7f,0xcf,0x26,0xf7,0x7b
 
-# ATT:   vgetmantpbf16 $123, %ymm23, %ymm22
-# INTEL: vgetmantpbf16 ymm22, ymm23, 123
+# ATT:   vgetmantbf16 $123, %ymm23, %ymm22
+# INTEL: vgetmantbf16 ymm22, ymm23, 123
 0x62,0xa3,0x7f,0x28,0x26,0xf7,0x7b
 
-# ATT:   vgetmantpbf16 $123, %ymm23, %ymm22 {%k7}
-# INTEL: vgetmantpbf16 ymm22 {k7}, ymm23, 123
+# ATT:   vgetmantbf16 $123, %ymm23, %ymm22 {%k7}
+# INTEL: vgetmantbf16 ymm22 {k7}, ymm23, 123
 0x62,0xa3,0x7f,0x2f,0x26,0xf7,0x7b
 
-# ATT:   vgetmantpbf16 $123, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vgetmantpbf16 ymm22 {k7} {z}, ymm23, 123
+# ATT:   vgetmantbf16 $123, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vgetmantbf16 ymm22 {k7} {z}, ymm23, 123
 0x62,0xa3,0x7f,0xaf,0x26,0xf7,0x7b
 
-# ATT:   vgetmantpbf16 $123, %xmm23, %xmm22
-# INTEL: vgetmantpbf16 xmm22, xmm23, 123
+# ATT:   vgetmantbf16 $123, %xmm23, %xmm22
+# INTEL: vgetmantbf16 xmm22, xmm23, 123
 0x62,0xa3,0x7f,0x08,0x26,0xf7,0x7b
 
-# ATT:   vgetmantpbf16 $123, %xmm23, %xmm22 {%k7}
-# INTEL: vgetmantpbf16 xmm22 {k7}, xmm23, 123
+# ATT:   vgetmantbf16 $123, %xmm23, %xmm22 {%k7}
+# INTEL: vgetmantbf16 xmm22 {k7}, xmm23, 123
 0x62,0xa3,0x7f,0x0f,0x26,0xf7,0x7b
 
-# ATT:   vgetmantpbf16 $123, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vgetmantpbf16 xmm22 {k7} {z}, xmm23, 123
+# ATT:   vgetmantbf16 $123, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vgetmantbf16 xmm22 {k7} {z}, xmm23, 123
 0x62,0xa3,0x7f,0x8f,0x26,0xf7,0x7b
 
-# ATT:   vgetmantpbf16  $123, 268435456(%rbp,%r14,8), %xmm22
-# INTEL: vgetmantpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vgetmantbf16  $123, 268435456(%rbp,%r14,8), %xmm22
+# INTEL: vgetmantbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xa3,0x7f,0x08,0x26,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vgetmantpbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vgetmantpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vgetmantbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vgetmantbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 0x62,0xc3,0x7f,0x0f,0x26,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vgetmantpbf16  $123, (%rip){1to8}, %xmm22
-# INTEL: vgetmantpbf16 xmm22, word ptr [rip]{1to8}, 123
+# ATT:   vgetmantbf16  $123, (%rip){1to8}, %xmm22
+# INTEL: vgetmantbf16 xmm22, word ptr [rip]{1to8}, 123
 0x62,0xe3,0x7f,0x18,0x26,0x35,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vgetmantpbf16  $123, -512(,%rbp,2), %xmm22
-# INTEL: vgetmantpbf16 xmm22, xmmword ptr [2*rbp - 512], 123
+# ATT:   vgetmantbf16  $123, -512(,%rbp,2), %xmm22
+# INTEL: vgetmantbf16 xmm22, xmmword ptr [2*rbp - 512], 123
 0x62,0xe3,0x7f,0x08,0x26,0x34,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vgetmantpbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vgetmantpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
+# ATT:   vgetmantbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vgetmantbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
 0x62,0xe3,0x7f,0x8f,0x26,0x71,0x7f,0x7b
 
-# ATT:   vgetmantpbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vgetmantpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
+# ATT:   vgetmantbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vgetmantbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
 0x62,0xe3,0x7f,0x9f,0x26,0x72,0x80,0x7b
 
-# ATT:   vgetmantpbf16  $123, 268435456(%rbp,%r14,8), %ymm22
-# INTEL: vgetmantpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vgetmantbf16  $123, 268435456(%rbp,%r14,8), %ymm22
+# INTEL: vgetmantbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xa3,0x7f,0x28,0x26,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vgetmantpbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vgetmantpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vgetmantbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vgetmantbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
 0x62,0xc3,0x7f,0x2f,0x26,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vgetmantpbf16  $123, (%rip){1to16}, %ymm22
-# INTEL: vgetmantpbf16 ymm22, word ptr [rip]{1to16}, 123
+# ATT:   vgetmantbf16  $123, (%rip){1to16}, %ymm22
+# INTEL: vgetmantbf16 ymm22, word ptr [rip]{1to16}, 123
 0x62,0xe3,0x7f,0x38,0x26,0x35,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vgetmantpbf16  $123, -1024(,%rbp,2), %ymm22
-# INTEL: vgetmantpbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
+# ATT:   vgetmantbf16  $123, -1024(,%rbp,2), %ymm22
+# INTEL: vgetmantbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
 0x62,0xe3,0x7f,0x28,0x26,0x34,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vgetmantpbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
-# INTEL: vgetmantpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
+# ATT:   vgetmantbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
+# INTEL: vgetmantbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
 0x62,0xe3,0x7f,0xaf,0x26,0x71,0x7f,0x7b
 
-# ATT:   vgetmantpbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
-# INTEL: vgetmantpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
+# ATT:   vgetmantbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
+# INTEL: vgetmantbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
 0x62,0xe3,0x7f,0xbf,0x26,0x72,0x80,0x7b
 
-# ATT:   vgetmantpbf16  $123, 268435456(%rbp,%r14,8), %zmm22
-# INTEL: vgetmantpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vgetmantbf16  $123, 268435456(%rbp,%r14,8), %zmm22
+# INTEL: vgetmantbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xa3,0x7f,0x48,0x26,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vgetmantpbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
-# INTEL: vgetmantpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vgetmantbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
+# INTEL: vgetmantbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
 0x62,0xc3,0x7f,0x4f,0x26,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vgetmantpbf16  $123, (%rip){1to32}, %zmm22
-# INTEL: vgetmantpbf16 zmm22, word ptr [rip]{1to32}, 123
+# ATT:   vgetmantbf16  $123, (%rip){1to32}, %zmm22
+# INTEL: vgetmantbf16 zmm22, word ptr [rip]{1to32}, 123
 0x62,0xe3,0x7f,0x58,0x26,0x35,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vgetmantpbf16  $123, -2048(,%rbp,2), %zmm22
-# INTEL: vgetmantpbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
+# ATT:   vgetmantbf16  $123, -2048(,%rbp,2), %zmm22
+# INTEL: vgetmantbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
 0x62,0xe3,0x7f,0x48,0x26,0x34,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vgetmantpbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
-# INTEL: vgetmantpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
+# ATT:   vgetmantbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
+# INTEL: vgetmantbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
 0x62,0xe3,0x7f,0xcf,0x26,0x71,0x7f,0x7b
 
-# ATT:   vgetmantpbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
-# INTEL: vgetmantpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
+# ATT:   vgetmantbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
+# INTEL: vgetmantbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
 0x62,0xe3,0x7f,0xdf,0x26,0x72,0x80,0x7b
 
-# ATT:   vmaxpbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vmaxpbf16 ymm22, ymm23, ymm24
+# ATT:   vmaxbf16 %ymm24, %ymm23, %ymm22
+# INTEL: vmaxbf16 ymm22, ymm23, ymm24
 0x62,0x85,0x45,0x20,0x5f,0xf0
 
-# ATT:   vmaxpbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vmaxpbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vmaxbf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vmaxbf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x85,0x45,0x27,0x5f,0xf0
 
-# ATT:   vmaxpbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vmaxpbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vmaxbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vmaxbf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x85,0x45,0xa7,0x5f,0xf0
 
-# ATT:   vmaxpbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vmaxpbf16 zmm22, zmm23, zmm24
+# ATT:   vmaxbf16 %zmm24, %zmm23, %zmm22
+# INTEL: vmaxbf16 zmm22, zmm23, zmm24
 0x62,0x85,0x45,0x40,0x5f,0xf0
 
-# ATT:   vmaxpbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vmaxpbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vmaxbf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vmaxbf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x85,0x45,0x47,0x5f,0xf0
 
-# ATT:   vmaxpbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vmaxpbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vmaxbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vmaxbf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x85,0x45,0xc7,0x5f,0xf0
 
-# ATT:   vmaxpbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vmaxpbf16 xmm22, xmm23, xmm24
+# ATT:   vmaxbf16 %xmm24, %xmm23, %xmm22
+# INTEL: vmaxbf16 xmm22, xmm23, xmm24
 0x62,0x85,0x45,0x00,0x5f,0xf0
 
-# ATT:   vmaxpbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vmaxpbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vmaxbf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vmaxbf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x85,0x45,0x07,0x5f,0xf0
 
-# ATT:   vmaxpbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vmaxpbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vmaxbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vmaxbf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x85,0x45,0x87,0x5f,0xf0
 
-# ATT:   vmaxpbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vmaxpbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vmaxbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vmaxbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x40,0x5f,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vmaxpbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vmaxpbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vmaxbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vmaxbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x47,0x5f,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vmaxpbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vmaxpbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vmaxbf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vmaxbf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe5,0x45,0x50,0x5f,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vmaxpbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vmaxpbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vmaxbf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vmaxbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x45,0x40,0x5f,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vmaxpbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vmaxpbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vmaxbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vmaxbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x45,0xc7,0x5f,0x71,0x7f
 
-# ATT:   vmaxpbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vmaxpbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vmaxbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vmaxbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x45,0xd7,0x5f,0x72,0x80
 
-# ATT:   vmaxpbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vmaxpbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vmaxbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vmaxbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x20,0x5f,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vmaxpbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vmaxpbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vmaxbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vmaxbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x27,0x5f,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vmaxpbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vmaxpbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vmaxbf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vmaxbf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe5,0x45,0x30,0x5f,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vmaxpbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vmaxpbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vmaxbf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vmaxbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x45,0x20,0x5f,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vmaxpbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vmaxpbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vmaxbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vmaxbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x45,0xa7,0x5f,0x71,0x7f
 
-# ATT:   vmaxpbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vmaxpbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vmaxbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vmaxbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x45,0xb7,0x5f,0x72,0x80
 
-# ATT:   vmaxpbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vmaxpbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vmaxbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vmaxbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x00,0x5f,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vmaxpbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vmaxpbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vmaxbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vmaxbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x07,0x5f,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vmaxpbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vmaxpbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vmaxbf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vmaxbf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe5,0x45,0x10,0x5f,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vmaxpbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vmaxpbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vmaxbf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vmaxbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x45,0x00,0x5f,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vmaxpbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vmaxpbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vmaxbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vmaxbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x45,0x87,0x5f,0x71,0x7f
 
-# ATT:   vmaxpbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vmaxpbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vmaxbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vmaxbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x45,0x97,0x5f,0x72,0x80
 
-# ATT:   vminpbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vminpbf16 ymm22, ymm23, ymm24
+# ATT:   vminbf16 %ymm24, %ymm23, %ymm22
+# INTEL: vminbf16 ymm22, ymm23, ymm24
 0x62,0x85,0x45,0x20,0x5d,0xf0
 
-# ATT:   vminpbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vminpbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vminbf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vminbf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x85,0x45,0x27,0x5d,0xf0
 
-# ATT:   vminpbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vminpbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vminbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vminbf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x85,0x45,0xa7,0x5d,0xf0
 
-# ATT:   vminpbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vminpbf16 zmm22, zmm23, zmm24
+# ATT:   vminbf16 %zmm24, %zmm23, %zmm22
+# INTEL: vminbf16 zmm22, zmm23, zmm24
 0x62,0x85,0x45,0x40,0x5d,0xf0
 
-# ATT:   vminpbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vminpbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vminbf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vminbf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x85,0x45,0x47,0x5d,0xf0
 
-# ATT:   vminpbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vminpbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vminbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vminbf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x85,0x45,0xc7,0x5d,0xf0
 
-# ATT:   vminpbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vminpbf16 xmm22, xmm23, xmm24
+# ATT:   vminbf16 %xmm24, %xmm23, %xmm22
+# INTEL: vminbf16 xmm22, xmm23, xmm24
 0x62,0x85,0x45,0x00,0x5d,0xf0
 
-# ATT:   vminpbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vminpbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vminbf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vminbf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x85,0x45,0x07,0x5d,0xf0
 
-# ATT:   vminpbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vminpbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vminbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vminbf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x85,0x45,0x87,0x5d,0xf0
 
-# ATT:   vminpbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vminpbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vminbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vminbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x40,0x5d,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vminpbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vminpbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vminbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vminbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x47,0x5d,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vminpbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vminpbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vminbf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vminbf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe5,0x45,0x50,0x5d,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vminpbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vminpbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vminbf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vminbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x45,0x40,0x5d,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vminpbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vminpbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vminbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vminbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x45,0xc7,0x5d,0x71,0x7f
 
-# ATT:   vminpbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vminpbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vminbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vminbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x45,0xd7,0x5d,0x72,0x80
 
-# ATT:   vminpbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vminpbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vminbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vminbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x20,0x5d,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vminpbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vminpbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vminbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vminbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x27,0x5d,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vminpbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vminpbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vminbf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vminbf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe5,0x45,0x30,0x5d,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vminpbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vminpbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vminbf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vminbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x45,0x20,0x5d,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vminpbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vminpbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vminbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vminbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x45,0xa7,0x5d,0x71,0x7f
 
-# ATT:   vminpbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vminpbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vminbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vminbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x45,0xb7,0x5d,0x72,0x80
 
-# ATT:   vminpbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vminpbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vminbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vminbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x00,0x5d,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vminpbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vminpbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vminbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vminbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x07,0x5d,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vminpbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vminpbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vminbf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vminbf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe5,0x45,0x10,0x5d,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vminpbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vminpbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vminbf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vminbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x45,0x00,0x5d,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vminpbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vminpbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vminbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vminbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x45,0x87,0x5d,0x71,0x7f
 
-# ATT:   vminpbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vminpbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vminbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vminbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x45,0x97,0x5d,0x72,0x80
 
-# ATT:   vmulnepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vmulnepbf16 ymm22, ymm23, ymm24
+# ATT:   vmulbf16 %ymm24, %ymm23, %ymm22
+# INTEL: vmulbf16 ymm22, ymm23, ymm24
 0x62,0x85,0x45,0x20,0x59,0xf0
 
-# ATT:   vmulnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vmulnepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vmulbf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vmulbf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x85,0x45,0x27,0x59,0xf0
 
-# ATT:   vmulnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vmulnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vmulbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vmulbf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x85,0x45,0xa7,0x59,0xf0
 
-# ATT:   vmulnepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vmulnepbf16 zmm22, zmm23, zmm24
+# ATT:   vmulbf16 %zmm24, %zmm23, %zmm22
+# INTEL: vmulbf16 zmm22, zmm23, zmm24
 0x62,0x85,0x45,0x40,0x59,0xf0
 
-# ATT:   vmulnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vmulnepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vmulbf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vmulbf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x85,0x45,0x47,0x59,0xf0
 
-# ATT:   vmulnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vmulnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vmulbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vmulbf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x85,0x45,0xc7,0x59,0xf0
 
-# ATT:   vmulnepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vmulnepbf16 xmm22, xmm23, xmm24
+# ATT:   vmulbf16 %xmm24, %xmm23, %xmm22
+# INTEL: vmulbf16 xmm22, xmm23, xmm24
 0x62,0x85,0x45,0x00,0x59,0xf0
 
-# ATT:   vmulnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vmulnepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vmulbf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vmulbf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x85,0x45,0x07,0x59,0xf0
 
-# ATT:   vmulnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vmulnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vmulbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vmulbf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x85,0x45,0x87,0x59,0xf0
 
-# ATT:   vmulnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vmulnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vmulbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vmulbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x40,0x59,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vmulnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vmulnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vmulbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vmulbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x47,0x59,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vmulnepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vmulnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vmulbf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vmulbf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe5,0x45,0x50,0x59,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vmulnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vmulnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vmulbf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vmulbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x45,0x40,0x59,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vmulnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vmulnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vmulbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vmulbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x45,0xc7,0x59,0x71,0x7f
 
-# ATT:   vmulnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vmulnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vmulbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vmulbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x45,0xd7,0x59,0x72,0x80
 
-# ATT:   vmulnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vmulnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vmulbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vmulbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x20,0x59,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vmulnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vmulnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vmulbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vmulbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x27,0x59,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vmulnepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vmulnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vmulbf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vmulbf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe5,0x45,0x30,0x59,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vmulnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vmulnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vmulbf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vmulbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x45,0x20,0x59,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vmulnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vmulnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vmulbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vmulbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x45,0xa7,0x59,0x71,0x7f
 
-# ATT:   vmulnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vmulnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vmulbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vmulbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x45,0xb7,0x59,0x72,0x80
 
-# ATT:   vmulnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vmulnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vmulbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vmulbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x00,0x59,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vmulnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vmulnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vmulbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vmulbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x07,0x59,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vmulnepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vmulnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vmulbf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vmulbf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe5,0x45,0x10,0x59,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vmulnepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vmulnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vmulbf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vmulbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x45,0x00,0x59,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vmulnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vmulnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vmulbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vmulbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x45,0x87,0x59,0x71,0x7f
 
-# ATT:   vmulnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vmulnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vmulbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vmulbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x45,0x97,0x59,0x72,0x80
 
-# ATT:   vrcppbf16 %xmm23, %xmm22
-# INTEL: vrcppbf16 xmm22, xmm23
+# ATT:   vrcpbf16 %xmm23, %xmm22
+# INTEL: vrcpbf16 xmm22, xmm23
 0x62,0xa6,0x7c,0x08,0x4c,0xf7
 
-# ATT:   vrcppbf16 %xmm23, %xmm22 {%k7}
-# INTEL: vrcppbf16 xmm22 {k7}, xmm23
+# ATT:   vrcpbf16 %xmm23, %xmm22 {%k7}
+# INTEL: vrcpbf16 xmm22 {k7}, xmm23
 0x62,0xa6,0x7c,0x0f,0x4c,0xf7
 
-# ATT:   vrcppbf16 %xmm23, %xmm22 {%k7} {z}
-# INTEL: vrcppbf16 xmm22 {k7} {z}, xmm23
+# ATT:   vrcpbf16 %xmm23, %xmm22 {%k7} {z}
+# INTEL: vrcpbf16 xmm22 {k7} {z}, xmm23
 0x62,0xa6,0x7c,0x8f,0x4c,0xf7
 
-# ATT:   vrcppbf16 %zmm23, %zmm22
-# INTEL: vrcppbf16 zmm22, zmm23
+# ATT:   vrcpbf16 %zmm23, %zmm22
+# INTEL: vrcpbf16 zmm22, zmm23
 0x62,0xa6,0x7c,0x48,0x4c,0xf7
 
-# ATT:   vrcppbf16 %zmm23, %zmm22 {%k7}
-# INTEL: vrcppbf16 zmm22 {k7}, zmm23
+# ATT:   vrcpbf16 %zmm23, %zmm22 {%k7}
+# INTEL: vrcpbf16 zmm22 {k7}, zmm23
 0x62,0xa6,0x7c,0x4f,0x4c,0xf7
 
-# ATT:   vrcppbf16 %zmm23, %zmm22 {%k7} {z}
-# INTEL: vrcppbf16 zmm22 {k7} {z}, zmm23
+# ATT:   vrcpbf16 %zmm23, %zmm22 {%k7} {z}
+# INTEL: vrcpbf16 zmm22 {k7} {z}, zmm23
 0x62,0xa6,0x7c,0xcf,0x4c,0xf7
 
-# ATT:   vrcppbf16 %ymm23, %ymm22
-# INTEL: vrcppbf16 ymm22, ymm23
+# ATT:   vrcpbf16 %ymm23, %ymm22
+# INTEL: vrcpbf16 ymm22, ymm23
 0x62,0xa6,0x7c,0x28,0x4c,0xf7
 
-# ATT:   vrcppbf16 %ymm23, %ymm22 {%k7}
-# INTEL: vrcppbf16 ymm22 {k7}, ymm23
+# ATT:   vrcpbf16 %ymm23, %ymm22 {%k7}
+# INTEL: vrcpbf16 ymm22 {k7}, ymm23
 0x62,0xa6,0x7c,0x2f,0x4c,0xf7
 
-# ATT:   vrcppbf16 %ymm23, %ymm22 {%k7} {z}
-# INTEL: vrcppbf16 ymm22 {k7} {z}, ymm23
+# ATT:   vrcpbf16 %ymm23, %ymm22 {%k7} {z}
+# INTEL: vrcpbf16 ymm22 {k7} {z}, ymm23
 0x62,0xa6,0x7c,0xaf,0x4c,0xf7
 
-# ATT:   vrcppbf16  268435456(%rbp,%r14,8), %xmm22
-# INTEL: vrcppbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vrcpbf16  268435456(%rbp,%r14,8), %xmm22
+# INTEL: vrcpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x7c,0x08,0x4c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vrcppbf16  291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vrcppbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vrcpbf16  291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vrcpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x7c,0x0f,0x4c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vrcppbf16  (%rip){1to8}, %xmm22
-# INTEL: vrcppbf16 xmm22, word ptr [rip]{1to8}
+# ATT:   vrcpbf16  (%rip){1to8}, %xmm22
+# INTEL: vrcpbf16 xmm22, word ptr [rip]{1to8}
 0x62,0xe6,0x7c,0x18,0x4c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vrcppbf16  -512(,%rbp,2), %xmm22
-# INTEL: vrcppbf16 xmm22, xmmword ptr [2*rbp - 512]
+# ATT:   vrcpbf16  -512(,%rbp,2), %xmm22
+# INTEL: vrcpbf16 xmm22, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x7c,0x08,0x4c,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vrcppbf16  2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vrcppbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+# ATT:   vrcpbf16  2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vrcpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x7c,0x8f,0x4c,0x71,0x7f
 
-# ATT:   vrcppbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vrcppbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+# ATT:   vrcpbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vrcpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x7c,0x9f,0x4c,0x72,0x80
 
-# ATT:   vrcppbf16  268435456(%rbp,%r14,8), %ymm22
-# INTEL: vrcppbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vrcpbf16  268435456(%rbp,%r14,8), %ymm22
+# INTEL: vrcpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x7c,0x28,0x4c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vrcppbf16  291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vrcppbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vrcpbf16  291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vrcpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x7c,0x2f,0x4c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vrcppbf16  (%rip){1to16}, %ymm22
-# INTEL: vrcppbf16 ymm22, word ptr [rip]{1to16}
+# ATT:   vrcpbf16  (%rip){1to16}, %ymm22
+# INTEL: vrcpbf16 ymm22, word ptr [rip]{1to16}
 0x62,0xe6,0x7c,0x38,0x4c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vrcppbf16  -1024(,%rbp,2), %ymm22
-# INTEL: vrcppbf16 ymm22, ymmword ptr [2*rbp - 1024]
+# ATT:   vrcpbf16  -1024(,%rbp,2), %ymm22
+# INTEL: vrcpbf16 ymm22, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x7c,0x28,0x4c,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vrcppbf16  4064(%rcx), %ymm22 {%k7} {z}
-# INTEL: vrcppbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+# ATT:   vrcpbf16  4064(%rcx), %ymm22 {%k7} {z}
+# INTEL: vrcpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x7c,0xaf,0x4c,0x71,0x7f
 
-# ATT:   vrcppbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
-# INTEL: vrcppbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+# ATT:   vrcpbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+# INTEL: vrcpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x7c,0xbf,0x4c,0x72,0x80
 
-# ATT:   vrcppbf16  268435456(%rbp,%r14,8), %zmm22
-# INTEL: vrcppbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vrcpbf16  268435456(%rbp,%r14,8), %zmm22
+# INTEL: vrcpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x7c,0x48,0x4c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vrcppbf16  291(%r8,%rax,4), %zmm22 {%k7}
-# INTEL: vrcppbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vrcpbf16  291(%r8,%rax,4), %zmm22 {%k7}
+# INTEL: vrcpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x7c,0x4f,0x4c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vrcppbf16  (%rip){1to32}, %zmm22
-# INTEL: vrcppbf16 zmm22, word ptr [rip]{1to32}
+# ATT:   vrcpbf16  (%rip){1to32}, %zmm22
+# INTEL: vrcpbf16 zmm22, word ptr [rip]{1to32}
 0x62,0xe6,0x7c,0x58,0x4c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vrcppbf16  -2048(,%rbp,2), %zmm22
-# INTEL: vrcppbf16 zmm22, zmmword ptr [2*rbp - 2048]
+# ATT:   vrcpbf16  -2048(,%rbp,2), %zmm22
+# INTEL: vrcpbf16 zmm22, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x7c,0x48,0x4c,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vrcppbf16  8128(%rcx), %zmm22 {%k7} {z}
-# INTEL: vrcppbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+# ATT:   vrcpbf16  8128(%rcx), %zmm22 {%k7} {z}
+# INTEL: vrcpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x7c,0xcf,0x4c,0x71,0x7f
 
-# ATT:   vrcppbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
-# INTEL: vrcppbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+# ATT:   vrcpbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+# INTEL: vrcpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x7c,0xdf,0x4c,0x72,0x80
 
-# ATT:   vreducenepbf16 $123, %zmm23, %zmm22
-# INTEL: vreducenepbf16 zmm22, zmm23, 123
+# ATT:   vreducebf16 $123, %zmm23, %zmm22
+# INTEL: vreducebf16 zmm22, zmm23, 123
 0x62,0xa3,0x7f,0x48,0x56,0xf7,0x7b
 
-# ATT:   vreducenepbf16 $123, %zmm23, %zmm22 {%k7}
-# INTEL: vreducenepbf16 zmm22 {k7}, zmm23, 123
+# ATT:   vreducebf16 $123, %zmm23, %zmm22 {%k7}
+# INTEL: vreducebf16 zmm22 {k7}, zmm23, 123
 0x62,0xa3,0x7f,0x4f,0x56,0xf7,0x7b
 
-# ATT:   vreducenepbf16 $123, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vreducenepbf16 zmm22 {k7} {z}, zmm23, 123
+# ATT:   vreducebf16 $123, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vreducebf16 zmm22 {k7} {z}, zmm23, 123
 0x62,0xa3,0x7f,0xcf,0x56,0xf7,0x7b
 
-# ATT:   vreducenepbf16 $123, %ymm23, %ymm22
-# INTEL: vreducenepbf16 ymm22, ymm23, 123
+# ATT:   vreducebf16 $123, %ymm23, %ymm22
+# INTEL: vreducebf16 ymm22, ymm23, 123
 0x62,0xa3,0x7f,0x28,0x56,0xf7,0x7b
 
-# ATT:   vreducenepbf16 $123, %ymm23, %ymm22 {%k7}
-# INTEL: vreducenepbf16 ymm22 {k7}, ymm23, 123
+# ATT:   vreducebf16 $123, %ymm23, %ymm22 {%k7}
+# INTEL: vreducebf16 ymm22 {k7}, ymm23, 123
 0x62,0xa3,0x7f,0x2f,0x56,0xf7,0x7b
 
-# ATT:   vreducenepbf16 $123, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vreducenepbf16 ymm22 {k7} {z}, ymm23, 123
+# ATT:   vreducebf16 $123, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vreducebf16 ymm22 {k7} {z}, ymm23, 123
 0x62,0xa3,0x7f,0xaf,0x56,0xf7,0x7b
 
-# ATT:   vreducenepbf16 $123, %xmm23, %xmm22
-# INTEL: vreducenepbf16 xmm22, xmm23, 123
+# ATT:   vreducebf16 $123, %xmm23, %xmm22
+# INTEL: vreducebf16 xmm22, xmm23, 123
 0x62,0xa3,0x7f,0x08,0x56,0xf7,0x7b
 
-# ATT:   vreducenepbf16 $123, %xmm23, %xmm22 {%k7}
-# INTEL: vreducenepbf16 xmm22 {k7}, xmm23, 123
+# ATT:   vreducebf16 $123, %xmm23, %xmm22 {%k7}
+# INTEL: vreducebf16 xmm22 {k7}, xmm23, 123
 0x62,0xa3,0x7f,0x0f,0x56,0xf7,0x7b
 
-# ATT:   vreducenepbf16 $123, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vreducenepbf16 xmm22 {k7} {z}, xmm23, 123
+# ATT:   vreducebf16 $123, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vreducebf16 xmm22 {k7} {z}, xmm23, 123
 0x62,0xa3,0x7f,0x8f,0x56,0xf7,0x7b
 
-# ATT:   vreducenepbf16  $123, 268435456(%rbp,%r14,8), %xmm22
-# INTEL: vreducenepbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vreducebf16  $123, 268435456(%rbp,%r14,8), %xmm22
+# INTEL: vreducebf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xa3,0x7f,0x08,0x56,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vreducenepbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vreducenepbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vreducebf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vreducebf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 0x62,0xc3,0x7f,0x0f,0x56,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vreducenepbf16  $123, (%rip){1to8}, %xmm22
-# INTEL: vreducenepbf16 xmm22, word ptr [rip]{1to8}, 123
+# ATT:   vreducebf16  $123, (%rip){1to8}, %xmm22
+# INTEL: vreducebf16 xmm22, word ptr [rip]{1to8}, 123
 0x62,0xe3,0x7f,0x18,0x56,0x35,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vreducenepbf16  $123, -512(,%rbp,2), %xmm22
-# INTEL: vreducenepbf16 xmm22, xmmword ptr [2*rbp - 512], 123
+# ATT:   vreducebf16  $123, -512(,%rbp,2), %xmm22
+# INTEL: vreducebf16 xmm22, xmmword ptr [2*rbp - 512], 123
 0x62,0xe3,0x7f,0x08,0x56,0x34,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vreducenepbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vreducenepbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
+# ATT:   vreducebf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vreducebf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
 0x62,0xe3,0x7f,0x8f,0x56,0x71,0x7f,0x7b
 
-# ATT:   vreducenepbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vreducenepbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
+# ATT:   vreducebf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vreducebf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
 0x62,0xe3,0x7f,0x9f,0x56,0x72,0x80,0x7b
 
-# ATT:   vreducenepbf16  $123, 268435456(%rbp,%r14,8), %ymm22
-# INTEL: vreducenepbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vreducebf16  $123, 268435456(%rbp,%r14,8), %ymm22
+# INTEL: vreducebf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xa3,0x7f,0x28,0x56,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vreducenepbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vreducenepbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vreducebf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vreducebf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
 0x62,0xc3,0x7f,0x2f,0x56,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vreducenepbf16  $123, (%rip){1to16}, %ymm22
-# INTEL: vreducenepbf16 ymm22, word ptr [rip]{1to16}, 123
+# ATT:   vreducebf16  $123, (%rip){1to16}, %ymm22
+# INTEL: vreducebf16 ymm22, word ptr [rip]{1to16}, 123
 0x62,0xe3,0x7f,0x38,0x56,0x35,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vreducenepbf16  $123, -1024(,%rbp,2), %ymm22
-# INTEL: vreducenepbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
+# ATT:   vreducebf16  $123, -1024(,%rbp,2), %ymm22
+# INTEL: vreducebf16 ymm22, ymmword ptr [2*rbp - 1024], 123
 0x62,0xe3,0x7f,0x28,0x56,0x34,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vreducenepbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
-# INTEL: vreducenepbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
+# ATT:   vreducebf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
+# INTEL: vreducebf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
 0x62,0xe3,0x7f,0xaf,0x56,0x71,0x7f,0x7b
 
-# ATT:   vreducenepbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
-# INTEL: vreducenepbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
+# ATT:   vreducebf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
+# INTEL: vreducebf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
 0x62,0xe3,0x7f,0xbf,0x56,0x72,0x80,0x7b
 
-# ATT:   vreducenepbf16  $123, 268435456(%rbp,%r14,8), %zmm22
-# INTEL: vreducenepbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vreducebf16  $123, 268435456(%rbp,%r14,8), %zmm22
+# INTEL: vreducebf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xa3,0x7f,0x48,0x56,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vreducenepbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
-# INTEL: vreducenepbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vreducebf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
+# INTEL: vreducebf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
 0x62,0xc3,0x7f,0x4f,0x56,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vreducenepbf16  $123, (%rip){1to32}, %zmm22
-# INTEL: vreducenepbf16 zmm22, word ptr [rip]{1to32}, 123
+# ATT:   vreducebf16  $123, (%rip){1to32}, %zmm22
+# INTEL: vreducebf16 zmm22, word ptr [rip]{1to32}, 123
 0x62,0xe3,0x7f,0x58,0x56,0x35,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vreducenepbf16  $123, -2048(,%rbp,2), %zmm22
-# INTEL: vreducenepbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
+# ATT:   vreducebf16  $123, -2048(,%rbp,2), %zmm22
+# INTEL: vreducebf16 zmm22, zmmword ptr [2*rbp - 2048], 123
 0x62,0xe3,0x7f,0x48,0x56,0x34,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vreducenepbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
-# INTEL: vreducenepbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
+# ATT:   vreducebf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
+# INTEL: vreducebf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
 0x62,0xe3,0x7f,0xcf,0x56,0x71,0x7f,0x7b
 
-# ATT:   vreducenepbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
-# INTEL: vreducenepbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
+# ATT:   vreducebf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
+# INTEL: vreducebf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
 0x62,0xe3,0x7f,0xdf,0x56,0x72,0x80,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %zmm23, %zmm22
-# INTEL: vrndscalenepbf16 zmm22, zmm23, 123
+# ATT:   vrndscalebf16 $123, %zmm23, %zmm22
+# INTEL: vrndscalebf16 zmm22, zmm23, 123
 0x62,0xa3,0x7f,0x48,0x08,0xf7,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %zmm23, %zmm22 {%k7}
-# INTEL: vrndscalenepbf16 zmm22 {k7}, zmm23, 123
+# ATT:   vrndscalebf16 $123, %zmm23, %zmm22 {%k7}
+# INTEL: vrndscalebf16 zmm22 {k7}, zmm23, 123
 0x62,0xa3,0x7f,0x4f,0x08,0xf7,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vrndscalenepbf16 zmm22 {k7} {z}, zmm23, 123
+# ATT:   vrndscalebf16 $123, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vrndscalebf16 zmm22 {k7} {z}, zmm23, 123
 0x62,0xa3,0x7f,0xcf,0x08,0xf7,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %ymm23, %ymm22
-# INTEL: vrndscalenepbf16 ymm22, ymm23, 123
+# ATT:   vrndscalebf16 $123, %ymm23, %ymm22
+# INTEL: vrndscalebf16 ymm22, ymm23, 123
 0x62,0xa3,0x7f,0x28,0x08,0xf7,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %ymm23, %ymm22 {%k7}
-# INTEL: vrndscalenepbf16 ymm22 {k7}, ymm23, 123
+# ATT:   vrndscalebf16 $123, %ymm23, %ymm22 {%k7}
+# INTEL: vrndscalebf16 ymm22 {k7}, ymm23, 123
 0x62,0xa3,0x7f,0x2f,0x08,0xf7,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vrndscalenepbf16 ymm22 {k7} {z}, ymm23, 123
+# ATT:   vrndscalebf16 $123, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vrndscalebf16 ymm22 {k7} {z}, ymm23, 123
 0x62,0xa3,0x7f,0xaf,0x08,0xf7,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %xmm23, %xmm22
-# INTEL: vrndscalenepbf16 xmm22, xmm23, 123
+# ATT:   vrndscalebf16 $123, %xmm23, %xmm22
+# INTEL: vrndscalebf16 xmm22, xmm23, 123
 0x62,0xa3,0x7f,0x08,0x08,0xf7,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %xmm23, %xmm22 {%k7}
-# INTEL: vrndscalenepbf16 xmm22 {k7}, xmm23, 123
+# ATT:   vrndscalebf16 $123, %xmm23, %xmm22 {%k7}
+# INTEL: vrndscalebf16 xmm22 {k7}, xmm23, 123
 0x62,0xa3,0x7f,0x0f,0x08,0xf7,0x7b
 
-# ATT:   vrndscalenepbf16 $123, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vrndscalenepbf16 xmm22 {k7} {z}, xmm23, 123
+# ATT:   vrndscalebf16 $123, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vrndscalebf16 xmm22 {k7} {z}, xmm23, 123
 0x62,0xa3,0x7f,0x8f,0x08,0xf7,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 268435456(%rbp,%r14,8), %xmm22
-# INTEL: vrndscalenepbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vrndscalebf16  $123, 268435456(%rbp,%r14,8), %xmm22
+# INTEL: vrndscalebf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xa3,0x7f,0x08,0x08,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vrndscalenepbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vrndscalebf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vrndscalebf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 0x62,0xc3,0x7f,0x0f,0x08,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vrndscalenepbf16  $123, (%rip){1to8}, %xmm22
-# INTEL: vrndscalenepbf16 xmm22, word ptr [rip]{1to8}, 123
+# ATT:   vrndscalebf16  $123, (%rip){1to8}, %xmm22
+# INTEL: vrndscalebf16 xmm22, word ptr [rip]{1to8}, 123
 0x62,0xe3,0x7f,0x18,0x08,0x35,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -512(,%rbp,2), %xmm22
-# INTEL: vrndscalenepbf16 xmm22, xmmword ptr [2*rbp - 512], 123
+# ATT:   vrndscalebf16  $123, -512(,%rbp,2), %xmm22
+# INTEL: vrndscalebf16 xmm22, xmmword ptr [2*rbp - 512], 123
 0x62,0xe3,0x7f,0x08,0x08,0x34,0x6d,0x00,0xfe,0xff,0xff,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vrndscalenepbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
+# ATT:   vrndscalebf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vrndscalebf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
 0x62,0xe3,0x7f,0x8f,0x08,0x71,0x7f,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vrndscalenepbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
+# ATT:   vrndscalebf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vrndscalebf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
 0x62,0xe3,0x7f,0x9f,0x08,0x72,0x80,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 268435456(%rbp,%r14,8), %ymm22
-# INTEL: vrndscalenepbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vrndscalebf16  $123, 268435456(%rbp,%r14,8), %ymm22
+# INTEL: vrndscalebf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xa3,0x7f,0x28,0x08,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vrndscalenepbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vrndscalebf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vrndscalebf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
 0x62,0xc3,0x7f,0x2f,0x08,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vrndscalenepbf16  $123, (%rip){1to16}, %ymm22
-# INTEL: vrndscalenepbf16 ymm22, word ptr [rip]{1to16}, 123
+# ATT:   vrndscalebf16  $123, (%rip){1to16}, %ymm22
+# INTEL: vrndscalebf16 ymm22, word ptr [rip]{1to16}, 123
 0x62,0xe3,0x7f,0x38,0x08,0x35,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -1024(,%rbp,2), %ymm22
-# INTEL: vrndscalenepbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
+# ATT:   vrndscalebf16  $123, -1024(,%rbp,2), %ymm22
+# INTEL: vrndscalebf16 ymm22, ymmword ptr [2*rbp - 1024], 123
 0x62,0xe3,0x7f,0x28,0x08,0x34,0x6d,0x00,0xfc,0xff,0xff,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
-# INTEL: vrndscalenepbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
+# ATT:   vrndscalebf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
+# INTEL: vrndscalebf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
 0x62,0xe3,0x7f,0xaf,0x08,0x71,0x7f,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
-# INTEL: vrndscalenepbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
+# ATT:   vrndscalebf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
+# INTEL: vrndscalebf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
 0x62,0xe3,0x7f,0xbf,0x08,0x72,0x80,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 268435456(%rbp,%r14,8), %zmm22
-# INTEL: vrndscalenepbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
+# ATT:   vrndscalebf16  $123, 268435456(%rbp,%r14,8), %zmm22
+# INTEL: vrndscalebf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
 0x62,0xa3,0x7f,0x48,0x08,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
-# INTEL: vrndscalenepbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
+# ATT:   vrndscalebf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
+# INTEL: vrndscalebf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
 0x62,0xc3,0x7f,0x4f,0x08,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b
 
-# ATT:   vrndscalenepbf16  $123, (%rip){1to32}, %zmm22
-# INTEL: vrndscalenepbf16 zmm22, word ptr [rip]{1to32}, 123
+# ATT:   vrndscalebf16  $123, (%rip){1to32}, %zmm22
+# INTEL: vrndscalebf16 zmm22, word ptr [rip]{1to32}, 123
 0x62,0xe3,0x7f,0x58,0x08,0x35,0x00,0x00,0x00,0x00,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -2048(,%rbp,2), %zmm22
-# INTEL: vrndscalenepbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
+# ATT:   vrndscalebf16  $123, -2048(,%rbp,2), %zmm22
+# INTEL: vrndscalebf16 zmm22, zmmword ptr [2*rbp - 2048], 123
 0x62,0xe3,0x7f,0x48,0x08,0x34,0x6d,0x00,0xf8,0xff,0xff,0x7b
 
-# ATT:   vrndscalenepbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
-# INTEL: vrndscalenepbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
+# ATT:   vrndscalebf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
+# INTEL: vrndscalebf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
 0x62,0xe3,0x7f,0xcf,0x08,0x71,0x7f,0x7b
 
-# ATT:   vrndscalenepbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
-# INTEL: vrndscalenepbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
+# ATT:   vrndscalebf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
+# INTEL: vrndscalebf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
 0x62,0xe3,0x7f,0xdf,0x08,0x72,0x80,0x7b
 
-# ATT:   vrsqrtpbf16 %xmm23, %xmm22
-# INTEL: vrsqrtpbf16 xmm22, xmm23
+# ATT:   vrsqrtbf16 %xmm23, %xmm22
+# INTEL: vrsqrtbf16 xmm22, xmm23
 0x62,0xa6,0x7c,0x08,0x4e,0xf7
 
-# ATT:   vrsqrtpbf16 %xmm23, %xmm22 {%k7}
-# INTEL: vrsqrtpbf16 xmm22 {k7}, xmm23
+# ATT:   vrsqrtbf16 %xmm23, %xmm22 {%k7}
+# INTEL: vrsqrtbf16 xmm22 {k7}, xmm23
 0x62,0xa6,0x7c,0x0f,0x4e,0xf7
 
-# ATT:   vrsqrtpbf16 %xmm23, %xmm22 {%k7} {z}
-# INTEL: vrsqrtpbf16 xmm22 {k7} {z}, xmm23
+# ATT:   vrsqrtbf16 %xmm23, %xmm22 {%k7} {z}
+# INTEL: vrsqrtbf16 xmm22 {k7} {z}, xmm23
 0x62,0xa6,0x7c,0x8f,0x4e,0xf7
 
-# ATT:   vrsqrtpbf16 %zmm23, %zmm22
-# INTEL: vrsqrtpbf16 zmm22, zmm23
+# ATT:   vrsqrtbf16 %zmm23, %zmm22
+# INTEL: vrsqrtbf16 zmm22, zmm23
 0x62,0xa6,0x7c,0x48,0x4e,0xf7
 
-# ATT:   vrsqrtpbf16 %zmm23, %zmm22 {%k7}
-# INTEL: vrsqrtpbf16 zmm22 {k7}, zmm23
+# ATT:   vrsqrtbf16 %zmm23, %zmm22 {%k7}
+# INTEL: vrsqrtbf16 zmm22 {k7}, zmm23
 0x62,0xa6,0x7c,0x4f,0x4e,0xf7
 
-# ATT:   vrsqrtpbf16 %zmm23, %zmm22 {%k7} {z}
-# INTEL: vrsqrtpbf16 zmm22 {k7} {z}, zmm23
+# ATT:   vrsqrtbf16 %zmm23, %zmm22 {%k7} {z}
+# INTEL: vrsqrtbf16 zmm22 {k7} {z}, zmm23
 0x62,0xa6,0x7c,0xcf,0x4e,0xf7
 
-# ATT:   vrsqrtpbf16 %ymm23, %ymm22
-# INTEL: vrsqrtpbf16 ymm22, ymm23
+# ATT:   vrsqrtbf16 %ymm23, %ymm22
+# INTEL: vrsqrtbf16 ymm22, ymm23
 0x62,0xa6,0x7c,0x28,0x4e,0xf7
 
-# ATT:   vrsqrtpbf16 %ymm23, %ymm22 {%k7}
-# INTEL: vrsqrtpbf16 ymm22 {k7}, ymm23
+# ATT:   vrsqrtbf16 %ymm23, %ymm22 {%k7}
+# INTEL: vrsqrtbf16 ymm22 {k7}, ymm23
 0x62,0xa6,0x7c,0x2f,0x4e,0xf7
 
-# ATT:   vrsqrtpbf16 %ymm23, %ymm22 {%k7} {z}
-# INTEL: vrsqrtpbf16 ymm22 {k7} {z}, ymm23
+# ATT:   vrsqrtbf16 %ymm23, %ymm22 {%k7} {z}
+# INTEL: vrsqrtbf16 ymm22 {k7} {z}, ymm23
 0x62,0xa6,0x7c,0xaf,0x4e,0xf7
 
-# ATT:   vrsqrtpbf16  268435456(%rbp,%r14,8), %xmm22
-# INTEL: vrsqrtpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vrsqrtbf16  268435456(%rbp,%r14,8), %xmm22
+# INTEL: vrsqrtbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x7c,0x08,0x4e,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vrsqrtpbf16  291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vrsqrtpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vrsqrtbf16  291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vrsqrtbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x7c,0x0f,0x4e,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vrsqrtpbf16  (%rip){1to8}, %xmm22
-# INTEL: vrsqrtpbf16 xmm22, word ptr [rip]{1to8}
+# ATT:   vrsqrtbf16  (%rip){1to8}, %xmm22
+# INTEL: vrsqrtbf16 xmm22, word ptr [rip]{1to8}
 0x62,0xe6,0x7c,0x18,0x4e,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vrsqrtpbf16  -512(,%rbp,2), %xmm22
-# INTEL: vrsqrtpbf16 xmm22, xmmword ptr [2*rbp - 512]
+# ATT:   vrsqrtbf16  -512(,%rbp,2), %xmm22
+# INTEL: vrsqrtbf16 xmm22, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x7c,0x08,0x4e,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vrsqrtpbf16  2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vrsqrtpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+# ATT:   vrsqrtbf16  2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vrsqrtbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x7c,0x8f,0x4e,0x71,0x7f
 
-# ATT:   vrsqrtpbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vrsqrtpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+# ATT:   vrsqrtbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vrsqrtbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x7c,0x9f,0x4e,0x72,0x80
 
-# ATT:   vrsqrtpbf16  268435456(%rbp,%r14,8), %ymm22
-# INTEL: vrsqrtpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vrsqrtbf16  268435456(%rbp,%r14,8), %ymm22
+# INTEL: vrsqrtbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x7c,0x28,0x4e,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vrsqrtpbf16  291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vrsqrtpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vrsqrtbf16  291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vrsqrtbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x7c,0x2f,0x4e,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vrsqrtpbf16  (%rip){1to16}, %ymm22
-# INTEL: vrsqrtpbf16 ymm22, word ptr [rip]{1to16}
+# ATT:   vrsqrtbf16  (%rip){1to16}, %ymm22
+# INTEL: vrsqrtbf16 ymm22, word ptr [rip]{1to16}
 0x62,0xe6,0x7c,0x38,0x4e,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vrsqrtpbf16  -1024(,%rbp,2), %ymm22
-# INTEL: vrsqrtpbf16 ymm22, ymmword ptr [2*rbp - 1024]
+# ATT:   vrsqrtbf16  -1024(,%rbp,2), %ymm22
+# INTEL: vrsqrtbf16 ymm22, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x7c,0x28,0x4e,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vrsqrtpbf16  4064(%rcx), %ymm22 {%k7} {z}
-# INTEL: vrsqrtpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+# ATT:   vrsqrtbf16  4064(%rcx), %ymm22 {%k7} {z}
+# INTEL: vrsqrtbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x7c,0xaf,0x4e,0x71,0x7f
 
-# ATT:   vrsqrtpbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
-# INTEL: vrsqrtpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+# ATT:   vrsqrtbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+# INTEL: vrsqrtbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x7c,0xbf,0x4e,0x72,0x80
 
-# ATT:   vrsqrtpbf16  268435456(%rbp,%r14,8), %zmm22
-# INTEL: vrsqrtpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vrsqrtbf16  268435456(%rbp,%r14,8), %zmm22
+# INTEL: vrsqrtbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x7c,0x48,0x4e,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vrsqrtpbf16  291(%r8,%rax,4), %zmm22 {%k7}
-# INTEL: vrsqrtpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vrsqrtbf16  291(%r8,%rax,4), %zmm22 {%k7}
+# INTEL: vrsqrtbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x7c,0x4f,0x4e,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vrsqrtpbf16  (%rip){1to32}, %zmm22
-# INTEL: vrsqrtpbf16 zmm22, word ptr [rip]{1to32}
+# ATT:   vrsqrtbf16  (%rip){1to32}, %zmm22
+# INTEL: vrsqrtbf16 zmm22, word ptr [rip]{1to32}
 0x62,0xe6,0x7c,0x58,0x4e,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vrsqrtpbf16  -2048(,%rbp,2), %zmm22
-# INTEL: vrsqrtpbf16 zmm22, zmmword ptr [2*rbp - 2048]
+# ATT:   vrsqrtbf16  -2048(,%rbp,2), %zmm22
+# INTEL: vrsqrtbf16 zmm22, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x7c,0x48,0x4e,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vrsqrtpbf16  8128(%rcx), %zmm22 {%k7} {z}
-# INTEL: vrsqrtpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+# ATT:   vrsqrtbf16  8128(%rcx), %zmm22 {%k7} {z}
+# INTEL: vrsqrtbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x7c,0xcf,0x4e,0x71,0x7f
 
-# ATT:   vrsqrtpbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
-# INTEL: vrsqrtpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+# ATT:   vrsqrtbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+# INTEL: vrsqrtbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x7c,0xdf,0x4e,0x72,0x80
 
-# ATT:   vscalefpbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vscalefpbf16 ymm22, ymm23, ymm24
+# ATT:   vscalefbf16 %ymm24, %ymm23, %ymm22
+# INTEL: vscalefbf16 ymm22, ymm23, ymm24
 0x62,0x86,0x44,0x20,0x2c,0xf0
 
-# ATT:   vscalefpbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vscalefpbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vscalefbf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vscalefbf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x86,0x44,0x27,0x2c,0xf0
 
-# ATT:   vscalefpbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vscalefpbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vscalefbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vscalefbf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x86,0x44,0xa7,0x2c,0xf0
 
-# ATT:   vscalefpbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vscalefpbf16 zmm22, zmm23, zmm24
+# ATT:   vscalefbf16 %zmm24, %zmm23, %zmm22
+# INTEL: vscalefbf16 zmm22, zmm23, zmm24
 0x62,0x86,0x44,0x40,0x2c,0xf0
 
-# ATT:   vscalefpbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vscalefpbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vscalefbf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vscalefbf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x86,0x44,0x47,0x2c,0xf0
 
-# ATT:   vscalefpbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vscalefpbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vscalefbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vscalefbf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x86,0x44,0xc7,0x2c,0xf0
 
-# ATT:   vscalefpbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vscalefpbf16 xmm22, xmm23, xmm24
+# ATT:   vscalefbf16 %xmm24, %xmm23, %xmm22
+# INTEL: vscalefbf16 xmm22, xmm23, xmm24
 0x62,0x86,0x44,0x00,0x2c,0xf0
 
-# ATT:   vscalefpbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vscalefpbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vscalefbf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vscalefbf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x86,0x44,0x07,0x2c,0xf0
 
-# ATT:   vscalefpbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vscalefpbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vscalefbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vscalefbf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x86,0x44,0x87,0x2c,0xf0
 
-# ATT:   vscalefpbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vscalefpbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vscalefbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vscalefbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x40,0x2c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vscalefpbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vscalefpbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vscalefbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vscalefbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x47,0x2c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vscalefpbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vscalefpbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vscalefbf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vscalefbf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe6,0x44,0x50,0x2c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vscalefpbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vscalefpbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vscalefbf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vscalefbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe6,0x44,0x40,0x2c,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vscalefpbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vscalefpbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vscalefbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vscalefbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe6,0x44,0xc7,0x2c,0x71,0x7f
 
-# ATT:   vscalefpbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vscalefpbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vscalefbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vscalefbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe6,0x44,0xd7,0x2c,0x72,0x80
 
-# ATT:   vscalefpbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vscalefpbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vscalefbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vscalefbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x20,0x2c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vscalefpbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vscalefpbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vscalefbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vscalefbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x27,0x2c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vscalefpbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vscalefpbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vscalefbf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vscalefbf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe6,0x44,0x30,0x2c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vscalefpbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vscalefpbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vscalefbf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vscalefbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe6,0x44,0x20,0x2c,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vscalefpbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vscalefpbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vscalefbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vscalefbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe6,0x44,0xa7,0x2c,0x71,0x7f
 
-# ATT:   vscalefpbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vscalefpbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vscalefbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vscalefbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe6,0x44,0xb7,0x2c,0x72,0x80
 
-# ATT:   vscalefpbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vscalefpbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vscalefbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vscalefbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa6,0x44,0x00,0x2c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vscalefpbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vscalefpbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vscalefbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vscalefbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc6,0x44,0x07,0x2c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vscalefpbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vscalefpbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vscalefbf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vscalefbf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe6,0x44,0x10,0x2c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vscalefpbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vscalefpbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vscalefbf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vscalefbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe6,0x44,0x00,0x2c,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vscalefpbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vscalefpbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vscalefbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vscalefbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe6,0x44,0x87,0x2c,0x71,0x7f
 
-# ATT:   vscalefpbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vscalefpbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vscalefbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vscalefbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe6,0x44,0x97,0x2c,0x72,0x80
 
-# ATT:   vsqrtnepbf16 %xmm23, %xmm22
-# INTEL: vsqrtnepbf16 xmm22, xmm23
+# ATT:   vsqrtbf16 %xmm23, %xmm22
+# INTEL: vsqrtbf16 xmm22, xmm23
 0x62,0xa5,0x7d,0x08,0x51,0xf7
 
-# ATT:   vsqrtnepbf16 %xmm23, %xmm22 {%k7}
-# INTEL: vsqrtnepbf16 xmm22 {k7}, xmm23
+# ATT:   vsqrtbf16 %xmm23, %xmm22 {%k7}
+# INTEL: vsqrtbf16 xmm22 {k7}, xmm23
 0x62,0xa5,0x7d,0x0f,0x51,0xf7
 
-# ATT:   vsqrtnepbf16 %xmm23, %xmm22 {%k7} {z}
-# INTEL: vsqrtnepbf16 xmm22 {k7} {z}, xmm23
+# ATT:   vsqrtbf16 %xmm23, %xmm22 {%k7} {z}
+# INTEL: vsqrtbf16 xmm22 {k7} {z}, xmm23
 0x62,0xa5,0x7d,0x8f,0x51,0xf7
 
-# ATT:   vsqrtnepbf16 %zmm23, %zmm22
-# INTEL: vsqrtnepbf16 zmm22, zmm23
+# ATT:   vsqrtbf16 %zmm23, %zmm22
+# INTEL: vsqrtbf16 zmm22, zmm23
 0x62,0xa5,0x7d,0x48,0x51,0xf7
 
-# ATT:   vsqrtnepbf16 %zmm23, %zmm22 {%k7}
-# INTEL: vsqrtnepbf16 zmm22 {k7}, zmm23
+# ATT:   vsqrtbf16 %zmm23, %zmm22 {%k7}
+# INTEL: vsqrtbf16 zmm22 {k7}, zmm23
 0x62,0xa5,0x7d,0x4f,0x51,0xf7
 
-# ATT:   vsqrtnepbf16 %zmm23, %zmm22 {%k7} {z}
-# INTEL: vsqrtnepbf16 zmm22 {k7} {z}, zmm23
+# ATT:   vsqrtbf16 %zmm23, %zmm22 {%k7} {z}
+# INTEL: vsqrtbf16 zmm22 {k7} {z}, zmm23
 0x62,0xa5,0x7d,0xcf,0x51,0xf7
 
-# ATT:   vsqrtnepbf16 %ymm23, %ymm22
-# INTEL: vsqrtnepbf16 ymm22, ymm23
+# ATT:   vsqrtbf16 %ymm23, %ymm22
+# INTEL: vsqrtbf16 ymm22, ymm23
 0x62,0xa5,0x7d,0x28,0x51,0xf7
 
-# ATT:   vsqrtnepbf16 %ymm23, %ymm22 {%k7}
-# INTEL: vsqrtnepbf16 ymm22 {k7}, ymm23
+# ATT:   vsqrtbf16 %ymm23, %ymm22 {%k7}
+# INTEL: vsqrtbf16 ymm22 {k7}, ymm23
 0x62,0xa5,0x7d,0x2f,0x51,0xf7
 
-# ATT:   vsqrtnepbf16 %ymm23, %ymm22 {%k7} {z}
-# INTEL: vsqrtnepbf16 ymm22 {k7} {z}, ymm23
+# ATT:   vsqrtbf16 %ymm23, %ymm22 {%k7} {z}
+# INTEL: vsqrtbf16 ymm22 {k7} {z}, ymm23
 0x62,0xa5,0x7d,0xaf,0x51,0xf7
 
-# ATT:   vsqrtnepbf16  268435456(%rbp,%r14,8), %xmm22
-# INTEL: vsqrtnepbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vsqrtbf16  268435456(%rbp,%r14,8), %xmm22
+# INTEL: vsqrtbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7d,0x08,0x51,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vsqrtnepbf16  291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vsqrtnepbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vsqrtbf16  291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vsqrtbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7d,0x0f,0x51,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vsqrtnepbf16  (%rip){1to8}, %xmm22
-# INTEL: vsqrtnepbf16 xmm22, word ptr [rip]{1to8}
+# ATT:   vsqrtbf16  (%rip){1to8}, %xmm22
+# INTEL: vsqrtbf16 xmm22, word ptr [rip]{1to8}
 0x62,0xe5,0x7d,0x18,0x51,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vsqrtnepbf16  -512(,%rbp,2), %xmm22
-# INTEL: vsqrtnepbf16 xmm22, xmmword ptr [2*rbp - 512]
+# ATT:   vsqrtbf16  -512(,%rbp,2), %xmm22
+# INTEL: vsqrtbf16 xmm22, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x7d,0x08,0x51,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vsqrtnepbf16  2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vsqrtnepbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+# ATT:   vsqrtbf16  2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vsqrtbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x7d,0x8f,0x51,0x71,0x7f
 
-# ATT:   vsqrtnepbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vsqrtnepbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+# ATT:   vsqrtbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vsqrtbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x7d,0x9f,0x51,0x72,0x80
 
-# ATT:   vsqrtnepbf16  268435456(%rbp,%r14,8), %ymm22
-# INTEL: vsqrtnepbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vsqrtbf16  268435456(%rbp,%r14,8), %ymm22
+# INTEL: vsqrtbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7d,0x28,0x51,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vsqrtnepbf16  291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vsqrtnepbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vsqrtbf16  291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vsqrtbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7d,0x2f,0x51,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vsqrtnepbf16  (%rip){1to16}, %ymm22
-# INTEL: vsqrtnepbf16 ymm22, word ptr [rip]{1to16}
+# ATT:   vsqrtbf16  (%rip){1to16}, %ymm22
+# INTEL: vsqrtbf16 ymm22, word ptr [rip]{1to16}
 0x62,0xe5,0x7d,0x38,0x51,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vsqrtnepbf16  -1024(,%rbp,2), %ymm22
-# INTEL: vsqrtnepbf16 ymm22, ymmword ptr [2*rbp - 1024]
+# ATT:   vsqrtbf16  -1024(,%rbp,2), %ymm22
+# INTEL: vsqrtbf16 ymm22, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x7d,0x28,0x51,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vsqrtnepbf16  4064(%rcx), %ymm22 {%k7} {z}
-# INTEL: vsqrtnepbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+# ATT:   vsqrtbf16  4064(%rcx), %ymm22 {%k7} {z}
+# INTEL: vsqrtbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x7d,0xaf,0x51,0x71,0x7f
 
-# ATT:   vsqrtnepbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
-# INTEL: vsqrtnepbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+# ATT:   vsqrtbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+# INTEL: vsqrtbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x7d,0xbf,0x51,0x72,0x80
 
-# ATT:   vsqrtnepbf16  268435456(%rbp,%r14,8), %zmm22
-# INTEL: vsqrtnepbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vsqrtbf16  268435456(%rbp,%r14,8), %zmm22
+# INTEL: vsqrtbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7d,0x48,0x51,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vsqrtnepbf16  291(%r8,%rax,4), %zmm22 {%k7}
-# INTEL: vsqrtnepbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vsqrtbf16  291(%r8,%rax,4), %zmm22 {%k7}
+# INTEL: vsqrtbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7d,0x4f,0x51,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vsqrtnepbf16  (%rip){1to32}, %zmm22
-# INTEL: vsqrtnepbf16 zmm22, word ptr [rip]{1to32}
+# ATT:   vsqrtbf16  (%rip){1to32}, %zmm22
+# INTEL: vsqrtbf16 zmm22, word ptr [rip]{1to32}
 0x62,0xe5,0x7d,0x58,0x51,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vsqrtnepbf16  -2048(,%rbp,2), %zmm22
-# INTEL: vsqrtnepbf16 zmm22, zmmword ptr [2*rbp - 2048]
+# ATT:   vsqrtbf16  -2048(,%rbp,2), %zmm22
+# INTEL: vsqrtbf16 zmm22, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x7d,0x48,0x51,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vsqrtnepbf16  8128(%rcx), %zmm22 {%k7} {z}
-# INTEL: vsqrtnepbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+# ATT:   vsqrtbf16  8128(%rcx), %zmm22 {%k7} {z}
+# INTEL: vsqrtbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x7d,0xcf,0x51,0x71,0x7f
 
-# ATT:   vsqrtnepbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
-# INTEL: vsqrtnepbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+# ATT:   vsqrtbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+# INTEL: vsqrtbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x7d,0xdf,0x51,0x72,0x80
 
-# ATT:   vsubnepbf16 %ymm24, %ymm23, %ymm22
-# INTEL: vsubnepbf16 ymm22, ymm23, ymm24
+# ATT:   vsubbf16 %ymm24, %ymm23, %ymm22
+# INTEL: vsubbf16 ymm22, ymm23, ymm24
 0x62,0x85,0x45,0x20,0x5c,0xf0
 
-# ATT:   vsubnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vsubnepbf16 ymm22 {k7}, ymm23, ymm24
+# ATT:   vsubbf16 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vsubbf16 ymm22 {k7}, ymm23, ymm24
 0x62,0x85,0x45,0x27,0x5c,0xf0
 
-# ATT:   vsubnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vsubnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vsubbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vsubbf16 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x85,0x45,0xa7,0x5c,0xf0
 
-# ATT:   vsubnepbf16 %zmm24, %zmm23, %zmm22
-# INTEL: vsubnepbf16 zmm22, zmm23, zmm24
+# ATT:   vsubbf16 %zmm24, %zmm23, %zmm22
+# INTEL: vsubbf16 zmm22, zmm23, zmm24
 0x62,0x85,0x45,0x40,0x5c,0xf0
 
-# ATT:   vsubnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vsubnepbf16 zmm22 {k7}, zmm23, zmm24
+# ATT:   vsubbf16 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vsubbf16 zmm22 {k7}, zmm23, zmm24
 0x62,0x85,0x45,0x47,0x5c,0xf0
 
-# ATT:   vsubnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vsubnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vsubbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vsubbf16 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x85,0x45,0xc7,0x5c,0xf0
 
-# ATT:   vsubnepbf16 %xmm24, %xmm23, %xmm22
-# INTEL: vsubnepbf16 xmm22, xmm23, xmm24
+# ATT:   vsubbf16 %xmm24, %xmm23, %xmm22
+# INTEL: vsubbf16 xmm22, xmm23, xmm24
 0x62,0x85,0x45,0x00,0x5c,0xf0
 
-# ATT:   vsubnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vsubnepbf16 xmm22 {k7}, xmm23, xmm24
+# ATT:   vsubbf16 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vsubbf16 xmm22 {k7}, xmm23, xmm24
 0x62,0x85,0x45,0x07,0x5c,0xf0
 
-# ATT:   vsubnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vsubnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vsubbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vsubbf16 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x85,0x45,0x87,0x5c,0xf0
 
-# ATT:   vsubnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vsubnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vsubbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vsubbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x40,0x5c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vsubnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vsubnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vsubbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vsubbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x47,0x5c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vsubnepbf16  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vsubnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vsubbf16  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vsubbf16 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe5,0x45,0x50,0x5c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vsubnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vsubnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vsubbf16  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vsubbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x45,0x40,0x5c,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vsubnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vsubnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vsubbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vsubbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x45,0xc7,0x5c,0x71,0x7f
 
-# ATT:   vsubnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vsubnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vsubbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vsubbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x45,0xd7,0x5c,0x72,0x80
 
-# ATT:   vsubnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vsubnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vsubbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vsubbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x20,0x5c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vsubnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vsubnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vsubbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vsubbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x27,0x5c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vsubnepbf16  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vsubnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vsubbf16  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vsubbf16 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe5,0x45,0x30,0x5c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vsubnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vsubnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vsubbf16  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vsubbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x45,0x20,0x5c,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vsubnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vsubnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vsubbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vsubbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x45,0xa7,0x5c,0x71,0x7f
 
-# ATT:   vsubnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vsubnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vsubbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vsubbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x45,0xb7,0x5c,0x72,0x80
 
-# ATT:   vsubnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vsubnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vsubbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vsubbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x45,0x00,0x5c,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vsubnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vsubnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vsubbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vsubbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x45,0x07,0x5c,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vsubnepbf16  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vsubnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vsubbf16  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vsubbf16 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe5,0x45,0x10,0x5c,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vsubnepbf16  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vsubnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vsubbf16  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vsubbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x45,0x00,0x5c,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vsubnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vsubnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vsubbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vsubbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x45,0x87,0x5c,0x71,0x7f
 
-# ATT:   vsubnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vsubnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vsubbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vsubbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x45,0x97,0x5c,0x72,0x80
 
diff --git a/llvm/test/MC/Disassembler/X86/avx10.2convert-32.txt b/llvm/test/MC/Disassembler/X86/avx10.2convert-32.txt
index 71506201cffe8..3b66fa1da5275 100644
--- a/llvm/test/MC/Disassembler/X86/avx10.2convert-32.txt
+++ b/llvm/test/MC/Disassembler/X86/avx10.2convert-32.txt
@@ -657,835 +657,835 @@
 # INTEL: vcvthf82ph zmm2 {k7} {z}, ymmword ptr [edx - 4096]
 0x62,0xf5,0x7f,0xcf,0x1e,0x52,0x80
 
-# ATT:   vcvtne2ph2bf8 %ymm4, %ymm3, %ymm2
-# INTEL: vcvtne2ph2bf8 ymm2, ymm3, ymm4
+# ATT:   vcvt2ph2bf8 %ymm4, %ymm3, %ymm2
+# INTEL: vcvt2ph2bf8 ymm2, ymm3, ymm4
 0x62,0xf2,0x67,0x28,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vcvtne2ph2bf8 ymm2 {k7}, ymm3, ymm4
+# ATT:   vcvt2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vcvt2ph2bf8 ymm2 {k7}, ymm3, ymm4
 0x62,0xf2,0x67,0x2f,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vcvt2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf2,0x67,0xaf,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8 %zmm4, %zmm3, %zmm2
-# INTEL: vcvtne2ph2bf8 zmm2, zmm3, zmm4
+# ATT:   vcvt2ph2bf8 %zmm4, %zmm3, %zmm2
+# INTEL: vcvt2ph2bf8 zmm2, zmm3, zmm4
 0x62,0xf2,0x67,0x48,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vcvtne2ph2bf8 zmm2 {k7}, zmm3, zmm4
+# ATT:   vcvt2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vcvt2ph2bf8 zmm2 {k7}, zmm3, zmm4
 0x62,0xf2,0x67,0x4f,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vcvt2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf2,0x67,0xcf,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8 %xmm4, %xmm3, %xmm2
-# INTEL: vcvtne2ph2bf8 xmm2, xmm3, xmm4
+# ATT:   vcvt2ph2bf8 %xmm4, %xmm3, %xmm2
+# INTEL: vcvt2ph2bf8 xmm2, xmm3, xmm4
 0x62,0xf2,0x67,0x08,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vcvtne2ph2bf8 xmm2 {k7}, xmm3, xmm4
+# ATT:   vcvt2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vcvt2ph2bf8 xmm2 {k7}, xmm3, xmm4
 0x62,0xf2,0x67,0x0f,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vcvt2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf2,0x67,0x8f,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vcvtne2ph2bf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2bf8  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vcvt2ph2bf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf2,0x67,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vcvtne2ph2bf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2bf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vcvt2ph2bf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf2,0x67,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vcvtne2ph2bf8 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vcvt2ph2bf8  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vcvt2ph2bf8 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf2,0x67,0x58,0x74,0x10
 
-# ATT:   vcvtne2ph2bf8  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vcvtne2ph2bf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vcvt2ph2bf8  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vcvt2ph2bf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf2,0x67,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vcvt2ph2bf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf2,0x67,0xcf,0x74,0x51,0x7f
 
-# ATT:   vcvtne2ph2bf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vcvt2ph2bf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf2,0x67,0xdf,0x74,0x52,0x80
 
-# ATT:   vcvtne2ph2bf8  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vcvtne2ph2bf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2bf8  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vcvt2ph2bf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf2,0x67,0x28,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vcvtne2ph2bf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2bf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vcvt2ph2bf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf2,0x67,0x2f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vcvtne2ph2bf8 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vcvt2ph2bf8  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vcvt2ph2bf8 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf2,0x67,0x38,0x74,0x10
 
-# ATT:   vcvtne2ph2bf8  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vcvtne2ph2bf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vcvt2ph2bf8  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vcvt2ph2bf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf2,0x67,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vcvt2ph2bf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf2,0x67,0xaf,0x74,0x51,0x7f
 
-# ATT:   vcvtne2ph2bf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vcvt2ph2bf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf2,0x67,0xbf,0x74,0x52,0x80
 
-# ATT:   vcvtne2ph2bf8  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vcvtne2ph2bf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2bf8  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vcvt2ph2bf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf2,0x67,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vcvtne2ph2bf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2bf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vcvt2ph2bf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf2,0x67,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vcvtne2ph2bf8 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vcvt2ph2bf8  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vcvt2ph2bf8 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf2,0x67,0x18,0x74,0x10
 
-# ATT:   vcvtne2ph2bf8  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vcvtne2ph2bf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vcvt2ph2bf8  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vcvt2ph2bf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf2,0x67,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vcvt2ph2bf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf2,0x67,0x8f,0x74,0x51,0x7f
 
-# ATT:   vcvtne2ph2bf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vcvt2ph2bf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf2,0x67,0x9f,0x74,0x52,0x80
 
-# ATT:   vcvtne2ph2bf8s %ymm4, %ymm3, %ymm2
-# INTEL: vcvtne2ph2bf8s ymm2, ymm3, ymm4
+# ATT:   vcvt2ph2bf8s %ymm4, %ymm3, %ymm2
+# INTEL: vcvt2ph2bf8s ymm2, ymm3, ymm4
 0x62,0xf5,0x67,0x28,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vcvtne2ph2bf8s ymm2 {k7}, ymm3, ymm4
+# ATT:   vcvt2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vcvt2ph2bf8s ymm2 {k7}, ymm3, ymm4
 0x62,0xf5,0x67,0x2f,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vcvt2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8s ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf5,0x67,0xaf,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8s %zmm4, %zmm3, %zmm2
-# INTEL: vcvtne2ph2bf8s zmm2, zmm3, zmm4
+# ATT:   vcvt2ph2bf8s %zmm4, %zmm3, %zmm2
+# INTEL: vcvt2ph2bf8s zmm2, zmm3, zmm4
 0x62,0xf5,0x67,0x48,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vcvtne2ph2bf8s zmm2 {k7}, zmm3, zmm4
+# ATT:   vcvt2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vcvt2ph2bf8s zmm2 {k7}, zmm3, zmm4
 0x62,0xf5,0x67,0x4f,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vcvt2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8s zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf5,0x67,0xcf,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8s %xmm4, %xmm3, %xmm2
-# INTEL: vcvtne2ph2bf8s xmm2, xmm3, xmm4
+# ATT:   vcvt2ph2bf8s %xmm4, %xmm3, %xmm2
+# INTEL: vcvt2ph2bf8s xmm2, xmm3, xmm4
 0x62,0xf5,0x67,0x08,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vcvtne2ph2bf8s xmm2 {k7}, xmm3, xmm4
+# ATT:   vcvt2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vcvt2ph2bf8s xmm2 {k7}, xmm3, xmm4
 0x62,0xf5,0x67,0x0f,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vcvt2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8s xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf5,0x67,0x8f,0x74,0xd4
 
-# ATT:   vcvtne2ph2bf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vcvtne2ph2bf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2bf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vcvt2ph2bf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x67,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vcvtne2ph2bf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2bf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vcvt2ph2bf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x67,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8s  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vcvtne2ph2bf8s zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vcvt2ph2bf8s  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vcvt2ph2bf8s zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf5,0x67,0x58,0x74,0x10
 
-# ATT:   vcvtne2ph2bf8s  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vcvtne2ph2bf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vcvt2ph2bf8s  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vcvt2ph2bf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x67,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vcvt2ph2bf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x67,0xcf,0x74,0x51,0x7f
 
-# ATT:   vcvtne2ph2bf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vcvt2ph2bf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x67,0xdf,0x74,0x52,0x80
 
-# ATT:   vcvtne2ph2bf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vcvtne2ph2bf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2bf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vcvt2ph2bf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x67,0x28,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vcvtne2ph2bf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2bf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vcvt2ph2bf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x67,0x2f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8s  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vcvtne2ph2bf8s ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vcvt2ph2bf8s  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vcvt2ph2bf8s ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf5,0x67,0x38,0x74,0x10
 
-# ATT:   vcvtne2ph2bf8s  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vcvtne2ph2bf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vcvt2ph2bf8s  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vcvt2ph2bf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x67,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vcvt2ph2bf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x67,0xaf,0x74,0x51,0x7f
 
-# ATT:   vcvtne2ph2bf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vcvt2ph2bf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x67,0xbf,0x74,0x52,0x80
 
-# ATT:   vcvtne2ph2bf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vcvtne2ph2bf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2bf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vcvt2ph2bf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x67,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vcvtne2ph2bf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2bf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vcvt2ph2bf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x67,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8s  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vcvtne2ph2bf8s xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vcvt2ph2bf8s  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vcvt2ph2bf8s xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf5,0x67,0x18,0x74,0x10
 
-# ATT:   vcvtne2ph2bf8s  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vcvtne2ph2bf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vcvt2ph2bf8s  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vcvt2ph2bf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x67,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vcvt2ph2bf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x67,0x8f,0x74,0x51,0x7f
 
-# ATT:   vcvtne2ph2bf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vcvt2ph2bf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2bf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x67,0x9f,0x74,0x52,0x80
 
-# ATT:   vcvtne2ph2hf8 %ymm4, %ymm3, %ymm2
-# INTEL: vcvtne2ph2hf8 ymm2, ymm3, ymm4
+# ATT:   vcvt2ph2hf8 %ymm4, %ymm3, %ymm2
+# INTEL: vcvt2ph2hf8 ymm2, ymm3, ymm4
 0x62,0xf5,0x67,0x28,0x18,0xd4
 
-# ATT:   vcvtne2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vcvtne2ph2hf8 ymm2 {k7}, ymm3, ymm4
+# ATT:   vcvt2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vcvt2ph2hf8 ymm2 {k7}, ymm3, ymm4
 0x62,0xf5,0x67,0x2f,0x18,0xd4
 
-# ATT:   vcvtne2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vcvt2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8 ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf5,0x67,0xaf,0x18,0xd4
 
-# ATT:   vcvtne2ph2hf8 %zmm4, %zmm3, %zmm2
-# INTEL: vcvtne2ph2hf8 zmm2, zmm3, zmm4
+# ATT:   vcvt2ph2hf8 %zmm4, %zmm3, %zmm2
+# INTEL: vcvt2ph2hf8 zmm2, zmm3, zmm4
 0x62,0xf5,0x67,0x48,0x18,0xd4
 
-# ATT:   vcvtne2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vcvtne2ph2hf8 zmm2 {k7}, zmm3, zmm4
+# ATT:   vcvt2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vcvt2ph2hf8 zmm2 {k7}, zmm3, zmm4
 0x62,0xf5,0x67,0x4f,0x18,0xd4
 
-# ATT:   vcvtne2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vcvt2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8 zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf5,0x67,0xcf,0x18,0xd4
 
-# ATT:   vcvtne2ph2hf8 %xmm4, %xmm3, %xmm2
-# INTEL: vcvtne2ph2hf8 xmm2, xmm3, xmm4
+# ATT:   vcvt2ph2hf8 %xmm4, %xmm3, %xmm2
+# INTEL: vcvt2ph2hf8 xmm2, xmm3, xmm4
 0x62,0xf5,0x67,0x08,0x18,0xd4
 
-# ATT:   vcvtne2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vcvtne2ph2hf8 xmm2 {k7}, xmm3, xmm4
+# ATT:   vcvt2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vcvt2ph2hf8 xmm2 {k7}, xmm3, xmm4
 0x62,0xf5,0x67,0x0f,0x18,0xd4
 
-# ATT:   vcvtne2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vcvt2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8 xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf5,0x67,0x8f,0x18,0xd4
 
-# ATT:   vcvtne2ph2hf8  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vcvtne2ph2hf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2hf8  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vcvt2ph2hf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x67,0x48,0x18,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vcvtne2ph2hf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2hf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vcvt2ph2hf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x67,0x4f,0x18,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vcvtne2ph2hf8 zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vcvt2ph2hf8  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vcvt2ph2hf8 zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf5,0x67,0x58,0x18,0x10
 
-# ATT:   vcvtne2ph2hf8  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vcvtne2ph2hf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vcvt2ph2hf8  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vcvt2ph2hf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x67,0x48,0x18,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vcvt2ph2hf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x67,0xcf,0x18,0x51,0x7f
 
-# ATT:   vcvtne2ph2hf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vcvt2ph2hf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x67,0xdf,0x18,0x52,0x80
 
-# ATT:   vcvtne2ph2hf8  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vcvtne2ph2hf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2hf8  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vcvt2ph2hf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x67,0x28,0x18,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vcvtne2ph2hf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2hf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vcvt2ph2hf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x67,0x2f,0x18,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vcvtne2ph2hf8 ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vcvt2ph2hf8  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vcvt2ph2hf8 ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf5,0x67,0x38,0x18,0x10
 
-# ATT:   vcvtne2ph2hf8  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vcvtne2ph2hf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vcvt2ph2hf8  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vcvt2ph2hf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x67,0x28,0x18,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vcvt2ph2hf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x67,0xaf,0x18,0x51,0x7f
 
-# ATT:   vcvtne2ph2hf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vcvt2ph2hf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x67,0xbf,0x18,0x52,0x80
 
-# ATT:   vcvtne2ph2hf8  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vcvtne2ph2hf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2hf8  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vcvt2ph2hf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x67,0x08,0x18,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vcvtne2ph2hf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2hf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vcvt2ph2hf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x67,0x0f,0x18,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vcvtne2ph2hf8 xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vcvt2ph2hf8  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vcvt2ph2hf8 xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf5,0x67,0x18,0x18,0x10
 
-# ATT:   vcvtne2ph2hf8  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vcvtne2ph2hf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vcvt2ph2hf8  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vcvt2ph2hf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x67,0x08,0x18,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vcvt2ph2hf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x67,0x8f,0x18,0x51,0x7f
 
-# ATT:   vcvtne2ph2hf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vcvt2ph2hf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x67,0x9f,0x18,0x52,0x80
 
-# ATT:   vcvtne2ph2hf8s %ymm4, %ymm3, %ymm2
-# INTEL: vcvtne2ph2hf8s ymm2, ymm3, ymm4
+# ATT:   vcvt2ph2hf8s %ymm4, %ymm3, %ymm2
+# INTEL: vcvt2ph2hf8s ymm2, ymm3, ymm4
 0x62,0xf5,0x67,0x28,0x1b,0xd4
 
-# ATT:   vcvtne2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7}
-# INTEL: vcvtne2ph2hf8s ymm2 {k7}, ymm3, ymm4
+# ATT:   vcvt2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7}
+# INTEL: vcvt2ph2hf8s ymm2 {k7}, ymm3, ymm4
 0x62,0xf5,0x67,0x2f,0x1b,0xd4
 
-# ATT:   vcvtne2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s ymm2 {k7} {z}, ymm3, ymm4
+# ATT:   vcvt2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8s ymm2 {k7} {z}, ymm3, ymm4
 0x62,0xf5,0x67,0xaf,0x1b,0xd4
 
-# ATT:   vcvtne2ph2hf8s %zmm4, %zmm3, %zmm2
-# INTEL: vcvtne2ph2hf8s zmm2, zmm3, zmm4
+# ATT:   vcvt2ph2hf8s %zmm4, %zmm3, %zmm2
+# INTEL: vcvt2ph2hf8s zmm2, zmm3, zmm4
 0x62,0xf5,0x67,0x48,0x1b,0xd4
 
-# ATT:   vcvtne2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7}
-# INTEL: vcvtne2ph2hf8s zmm2 {k7}, zmm3, zmm4
+# ATT:   vcvt2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7}
+# INTEL: vcvt2ph2hf8s zmm2 {k7}, zmm3, zmm4
 0x62,0xf5,0x67,0x4f,0x1b,0xd4
 
-# ATT:   vcvtne2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s zmm2 {k7} {z}, zmm3, zmm4
+# ATT:   vcvt2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8s zmm2 {k7} {z}, zmm3, zmm4
 0x62,0xf5,0x67,0xcf,0x1b,0xd4
 
-# ATT:   vcvtne2ph2hf8s %xmm4, %xmm3, %xmm2
-# INTEL: vcvtne2ph2hf8s xmm2, xmm3, xmm4
+# ATT:   vcvt2ph2hf8s %xmm4, %xmm3, %xmm2
+# INTEL: vcvt2ph2hf8s xmm2, xmm3, xmm4
 0x62,0xf5,0x67,0x08,0x1b,0xd4
 
-# ATT:   vcvtne2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7}
-# INTEL: vcvtne2ph2hf8s xmm2 {k7}, xmm3, xmm4
+# ATT:   vcvt2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7}
+# INTEL: vcvt2ph2hf8s xmm2 {k7}, xmm3, xmm4
 0x62,0xf5,0x67,0x0f,0x1b,0xd4
 
-# ATT:   vcvtne2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s xmm2 {k7} {z}, xmm3, xmm4
+# ATT:   vcvt2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8s xmm2 {k7} {z}, xmm3, xmm4
 0x62,0xf5,0x67,0x8f,0x1b,0xd4
 
-# ATT:   vcvtne2ph2hf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
-# INTEL: vcvtne2ph2hf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2hf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
+# INTEL: vcvt2ph2hf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x67,0x48,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
-# INTEL: vcvtne2ph2hf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2hf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+# INTEL: vcvt2ph2hf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x67,0x4f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8s  (%eax){1to32}, %zmm3, %zmm2
-# INTEL: vcvtne2ph2hf8s zmm2, zmm3, word ptr [eax]{1to32}
+# ATT:   vcvt2ph2hf8s  (%eax){1to32}, %zmm3, %zmm2
+# INTEL: vcvt2ph2hf8s zmm2, zmm3, word ptr [eax]{1to32}
 0x62,0xf5,0x67,0x58,0x1b,0x10
 
-# ATT:   vcvtne2ph2hf8s  -2048(,%ebp,2), %zmm3, %zmm2
-# INTEL: vcvtne2ph2hf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+# ATT:   vcvt2ph2hf8s  -2048(,%ebp,2), %zmm3, %zmm2
+# INTEL: vcvt2ph2hf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x67,0x48,0x1b,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+# ATT:   vcvt2ph2hf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x67,0xcf,0x1b,0x51,0x7f
 
-# ATT:   vcvtne2ph2hf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+# ATT:   vcvt2ph2hf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x67,0xdf,0x1b,0x52,0x80
 
-# ATT:   vcvtne2ph2hf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
-# INTEL: vcvtne2ph2hf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2hf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
+# INTEL: vcvt2ph2hf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x67,0x28,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
-# INTEL: vcvtne2ph2hf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2hf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+# INTEL: vcvt2ph2hf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x67,0x2f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8s  (%eax){1to16}, %ymm3, %ymm2
-# INTEL: vcvtne2ph2hf8s ymm2, ymm3, word ptr [eax]{1to16}
+# ATT:   vcvt2ph2hf8s  (%eax){1to16}, %ymm3, %ymm2
+# INTEL: vcvt2ph2hf8s ymm2, ymm3, word ptr [eax]{1to16}
 0x62,0xf5,0x67,0x38,0x1b,0x10
 
-# ATT:   vcvtne2ph2hf8s  -1024(,%ebp,2), %ymm3, %ymm2
-# INTEL: vcvtne2ph2hf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+# ATT:   vcvt2ph2hf8s  -1024(,%ebp,2), %ymm3, %ymm2
+# INTEL: vcvt2ph2hf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x67,0x28,0x1b,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+# ATT:   vcvt2ph2hf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x67,0xaf,0x1b,0x51,0x7f
 
-# ATT:   vcvtne2ph2hf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+# ATT:   vcvt2ph2hf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x67,0xbf,0x1b,0x52,0x80
 
-# ATT:   vcvtne2ph2hf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
-# INTEL: vcvtne2ph2hf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvt2ph2hf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
+# INTEL: vcvt2ph2hf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x67,0x08,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
-# INTEL: vcvtne2ph2hf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvt2ph2hf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+# INTEL: vcvt2ph2hf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x67,0x0f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8s  (%eax){1to8}, %xmm3, %xmm2
-# INTEL: vcvtne2ph2hf8s xmm2, xmm3, word ptr [eax]{1to8}
+# ATT:   vcvt2ph2hf8s  (%eax){1to8}, %xmm3, %xmm2
+# INTEL: vcvt2ph2hf8s xmm2, xmm3, word ptr [eax]{1to8}
 0x62,0xf5,0x67,0x18,0x1b,0x10
 
-# ATT:   vcvtne2ph2hf8s  -512(,%ebp,2), %xmm3, %xmm2
-# INTEL: vcvtne2ph2hf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
+# ATT:   vcvt2ph2hf8s  -512(,%ebp,2), %xmm3, %xmm2
+# INTEL: vcvt2ph2hf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x67,0x08,0x1b,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+# ATT:   vcvt2ph2hf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x67,0x8f,0x1b,0x51,0x7f
 
-# ATT:   vcvtne2ph2hf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+# ATT:   vcvt2ph2hf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvt2ph2hf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x67,0x9f,0x1b,0x52,0x80
 
-# ATT:   vcvtneph2bf8 %xmm3, %xmm2
-# INTEL: vcvtneph2bf8 xmm2, xmm3
+# ATT:   vcvtph2bf8 %xmm3, %xmm2
+# INTEL: vcvtph2bf8 xmm2, xmm3
 0x62,0xf2,0x7e,0x08,0x74,0xd3
 
-# ATT:   vcvtneph2bf8 %xmm3, %xmm2 {%k7}
-# INTEL: vcvtneph2bf8 xmm2 {k7}, xmm3
+# ATT:   vcvtph2bf8 %xmm3, %xmm2 {%k7}
+# INTEL: vcvtph2bf8 xmm2 {k7}, xmm3
 0x62,0xf2,0x7e,0x0f,0x74,0xd3
 
-# ATT:   vcvtneph2bf8 %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm2 {k7} {z}, xmm3
+# ATT:   vcvtph2bf8 %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm2 {k7} {z}, xmm3
 0x62,0xf2,0x7e,0x8f,0x74,0xd3
 
-# ATT:   vcvtneph2bf8 %zmm3, %ymm2
-# INTEL: vcvtneph2bf8 ymm2, zmm3
+# ATT:   vcvtph2bf8 %zmm3, %ymm2
+# INTEL: vcvtph2bf8 ymm2, zmm3
 0x62,0xf2,0x7e,0x48,0x74,0xd3
 
-# ATT:   vcvtneph2bf8 %zmm3, %ymm2 {%k7}
-# INTEL: vcvtneph2bf8 ymm2 {k7}, zmm3
+# ATT:   vcvtph2bf8 %zmm3, %ymm2 {%k7}
+# INTEL: vcvtph2bf8 ymm2 {k7}, zmm3
 0x62,0xf2,0x7e,0x4f,0x74,0xd3
 
-# ATT:   vcvtneph2bf8 %zmm3, %ymm2 {%k7} {z}
-# INTEL: vcvtneph2bf8 ymm2 {k7} {z}, zmm3
+# ATT:   vcvtph2bf8 %zmm3, %ymm2 {%k7} {z}
+# INTEL: vcvtph2bf8 ymm2 {k7} {z}, zmm3
 0x62,0xf2,0x7e,0xcf,0x74,0xd3
 
-# ATT:   vcvtneph2bf8 %ymm3, %xmm2
-# INTEL: vcvtneph2bf8 xmm2, ymm3
+# ATT:   vcvtph2bf8 %ymm3, %xmm2
+# INTEL: vcvtph2bf8 xmm2, ymm3
 0x62,0xf2,0x7e,0x28,0x74,0xd3
 
-# ATT:   vcvtneph2bf8 %ymm3, %xmm2 {%k7}
-# INTEL: vcvtneph2bf8 xmm2 {k7}, ymm3
+# ATT:   vcvtph2bf8 %ymm3, %xmm2 {%k7}
+# INTEL: vcvtph2bf8 xmm2 {k7}, ymm3
 0x62,0xf2,0x7e,0x2f,0x74,0xd3
 
-# ATT:   vcvtneph2bf8 %ymm3, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm2 {k7} {z}, ymm3
+# ATT:   vcvtph2bf8 %ymm3, %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm2 {k7} {z}, ymm3
 0x62,0xf2,0x7e,0xaf,0x74,0xd3
 
-# ATT:   vcvtneph2bf8x  268435456(%esp,%esi,8), %xmm2
-# INTEL: vcvtneph2bf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvtph2bf8x  268435456(%esp,%esi,8), %xmm2
+# INTEL: vcvtph2bf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf2,0x7e,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2bf8x  291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vcvtneph2bf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvtph2bf8x  291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vcvtph2bf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf2,0x7e,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2bf8  (%eax){1to8}, %xmm2
-# INTEL: vcvtneph2bf8 xmm2, word ptr [eax]{1to8}
+# ATT:   vcvtph2bf8  (%eax){1to8}, %xmm2
+# INTEL: vcvtph2bf8 xmm2, word ptr [eax]{1to8}
 0x62,0xf2,0x7e,0x18,0x74,0x10
 
-# ATT:   vcvtneph2bf8x  -512(,%ebp,2), %xmm2
-# INTEL: vcvtneph2bf8 xmm2, xmmword ptr [2*ebp - 512]
+# ATT:   vcvtph2bf8x  -512(,%ebp,2), %xmm2
+# INTEL: vcvtph2bf8 xmm2, xmmword ptr [2*ebp - 512]
 0x62,0xf2,0x7e,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtneph2bf8x  2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+# ATT:   vcvtph2bf8x  2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 0x62,0xf2,0x7e,0x8f,0x74,0x51,0x7f
 
-# ATT:   vcvtneph2bf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+# ATT:   vcvtph2bf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 0x62,0xf2,0x7e,0x9f,0x74,0x52,0x80
 
-# ATT:   vcvtneph2bf8  (%eax){1to16}, %xmm2
-# INTEL: vcvtneph2bf8 xmm2, word ptr [eax]{1to16}
+# ATT:   vcvtph2bf8  (%eax){1to16}, %xmm2
+# INTEL: vcvtph2bf8 xmm2, word ptr [eax]{1to16}
 0x62,0xf2,0x7e,0x38,0x74,0x10
 
-# ATT:   vcvtneph2bf8y  -1024(,%ebp,2), %xmm2
-# INTEL: vcvtneph2bf8 xmm2, ymmword ptr [2*ebp - 1024]
+# ATT:   vcvtph2bf8y  -1024(,%ebp,2), %xmm2
+# INTEL: vcvtph2bf8 xmm2, ymmword ptr [2*ebp - 1024]
 0x62,0xf2,0x7e,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtneph2bf8y  4064(%ecx), %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+# ATT:   vcvtph2bf8y  4064(%ecx), %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 0x62,0xf2,0x7e,0xaf,0x74,0x51,0x7f
 
-# ATT:   vcvtneph2bf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+# ATT:   vcvtph2bf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 0x62,0xf2,0x7e,0xbf,0x74,0x52,0x80
 
-# ATT:   vcvtneph2bf8  268435456(%esp,%esi,8), %ymm2
-# INTEL: vcvtneph2bf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvtph2bf8  268435456(%esp,%esi,8), %ymm2
+# INTEL: vcvtph2bf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf2,0x7e,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2bf8  291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vcvtneph2bf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvtph2bf8  291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vcvtph2bf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf2,0x7e,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2bf8  (%eax){1to32}, %ymm2
-# INTEL: vcvtneph2bf8 ymm2, word ptr [eax]{1to32}
+# ATT:   vcvtph2bf8  (%eax){1to32}, %ymm2
+# INTEL: vcvtph2bf8 ymm2, word ptr [eax]{1to32}
 0x62,0xf2,0x7e,0x58,0x74,0x10
 
-# ATT:   vcvtneph2bf8  -2048(,%ebp,2), %ymm2
-# INTEL: vcvtneph2bf8 ymm2, zmmword ptr [2*ebp - 2048]
+# ATT:   vcvtph2bf8  -2048(,%ebp,2), %ymm2
+# INTEL: vcvtph2bf8 ymm2, zmmword ptr [2*ebp - 2048]
 0x62,0xf2,0x7e,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtneph2bf8  8128(%ecx), %ymm2 {%k7} {z}
-# INTEL: vcvtneph2bf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+# ATT:   vcvtph2bf8  8128(%ecx), %ymm2 {%k7} {z}
+# INTEL: vcvtph2bf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 0x62,0xf2,0x7e,0xcf,0x74,0x51,0x7f
 
-# ATT:   vcvtneph2bf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
-# INTEL: vcvtneph2bf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+# ATT:   vcvtph2bf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
+# INTEL: vcvtph2bf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 0x62,0xf2,0x7e,0xdf,0x74,0x52,0x80
 
-# ATT:   vcvtneph2bf8s %xmm3, %xmm2
-# INTEL: vcvtneph2bf8s xmm2, xmm3
+# ATT:   vcvtph2bf8s %xmm3, %xmm2
+# INTEL: vcvtph2bf8s xmm2, xmm3
 0x62,0xf5,0x7e,0x08,0x74,0xd3
 
-# ATT:   vcvtneph2bf8s %xmm3, %xmm2 {%k7}
-# INTEL: vcvtneph2bf8s xmm2 {k7}, xmm3
+# ATT:   vcvtph2bf8s %xmm3, %xmm2 {%k7}
+# INTEL: vcvtph2bf8s xmm2 {k7}, xmm3
 0x62,0xf5,0x7e,0x0f,0x74,0xd3
 
-# ATT:   vcvtneph2bf8s %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm2 {k7} {z}, xmm3
+# ATT:   vcvtph2bf8s %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm2 {k7} {z}, xmm3
 0x62,0xf5,0x7e,0x8f,0x74,0xd3
 
-# ATT:   vcvtneph2bf8s %zmm3, %ymm2
-# INTEL: vcvtneph2bf8s ymm2, zmm3
+# ATT:   vcvtph2bf8s %zmm3, %ymm2
+# INTEL: vcvtph2bf8s ymm2, zmm3
 0x62,0xf5,0x7e,0x48,0x74,0xd3
 
-# ATT:   vcvtneph2bf8s %zmm3, %ymm2 {%k7}
-# INTEL: vcvtneph2bf8s ymm2 {k7}, zmm3
+# ATT:   vcvtph2bf8s %zmm3, %ymm2 {%k7}
+# INTEL: vcvtph2bf8s ymm2 {k7}, zmm3
 0x62,0xf5,0x7e,0x4f,0x74,0xd3
 
-# ATT:   vcvtneph2bf8s %zmm3, %ymm2 {%k7} {z}
-# INTEL: vcvtneph2bf8s ymm2 {k7} {z}, zmm3
+# ATT:   vcvtph2bf8s %zmm3, %ymm2 {%k7} {z}
+# INTEL: vcvtph2bf8s ymm2 {k7} {z}, zmm3
 0x62,0xf5,0x7e,0xcf,0x74,0xd3
 
-# ATT:   vcvtneph2bf8s %ymm3, %xmm2
-# INTEL: vcvtneph2bf8s xmm2, ymm3
+# ATT:   vcvtph2bf8s %ymm3, %xmm2
+# INTEL: vcvtph2bf8s xmm2, ymm3
 0x62,0xf5,0x7e,0x28,0x74,0xd3
 
-# ATT:   vcvtneph2bf8s %ymm3, %xmm2 {%k7}
-# INTEL: vcvtneph2bf8s xmm2 {k7}, ymm3
+# ATT:   vcvtph2bf8s %ymm3, %xmm2 {%k7}
+# INTEL: vcvtph2bf8s xmm2 {k7}, ymm3
 0x62,0xf5,0x7e,0x2f,0x74,0xd3
 
-# ATT:   vcvtneph2bf8s %ymm3, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm2 {k7} {z}, ymm3
+# ATT:   vcvtph2bf8s %ymm3, %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm2 {k7} {z}, ymm3
 0x62,0xf5,0x7e,0xaf,0x74,0xd3
 
-# ATT:   vcvtneph2bf8sx  268435456(%esp,%esi,8), %xmm2
-# INTEL: vcvtneph2bf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvtph2bf8sx  268435456(%esp,%esi,8), %xmm2
+# INTEL: vcvtph2bf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7e,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2bf8sx  291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vcvtneph2bf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvtph2bf8sx  291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vcvtph2bf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7e,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2bf8s  (%eax){1to8}, %xmm2
-# INTEL: vcvtneph2bf8s xmm2, word ptr [eax]{1to8}
+# ATT:   vcvtph2bf8s  (%eax){1to8}, %xmm2
+# INTEL: vcvtph2bf8s xmm2, word ptr [eax]{1to8}
 0x62,0xf5,0x7e,0x18,0x74,0x10
 
-# ATT:   vcvtneph2bf8sx  -512(,%ebp,2), %xmm2
-# INTEL: vcvtneph2bf8s xmm2, xmmword ptr [2*ebp - 512]
+# ATT:   vcvtph2bf8sx  -512(,%ebp,2), %xmm2
+# INTEL: vcvtph2bf8s xmm2, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x7e,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtneph2bf8sx  2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+# ATT:   vcvtph2bf8sx  2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x7e,0x8f,0x74,0x51,0x7f
 
-# ATT:   vcvtneph2bf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+# ATT:   vcvtph2bf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x7e,0x9f,0x74,0x52,0x80
 
-# ATT:   vcvtneph2bf8s  (%eax){1to16}, %xmm2
-# INTEL: vcvtneph2bf8s xmm2, word ptr [eax]{1to16}
+# ATT:   vcvtph2bf8s  (%eax){1to16}, %xmm2
+# INTEL: vcvtph2bf8s xmm2, word ptr [eax]{1to16}
 0x62,0xf5,0x7e,0x38,0x74,0x10
 
-# ATT:   vcvtneph2bf8sy  -1024(,%ebp,2), %xmm2
-# INTEL: vcvtneph2bf8s xmm2, ymmword ptr [2*ebp - 1024]
+# ATT:   vcvtph2bf8sy  -1024(,%ebp,2), %xmm2
+# INTEL: vcvtph2bf8s xmm2, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x7e,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtneph2bf8sy  4064(%ecx), %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+# ATT:   vcvtph2bf8sy  4064(%ecx), %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x7e,0xaf,0x74,0x51,0x7f
 
-# ATT:   vcvtneph2bf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+# ATT:   vcvtph2bf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x7e,0xbf,0x74,0x52,0x80
 
-# ATT:   vcvtneph2bf8s  268435456(%esp,%esi,8), %ymm2
-# INTEL: vcvtneph2bf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvtph2bf8s  268435456(%esp,%esi,8), %ymm2
+# INTEL: vcvtph2bf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7e,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2bf8s  291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vcvtneph2bf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvtph2bf8s  291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vcvtph2bf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7e,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2bf8s  (%eax){1to32}, %ymm2
-# INTEL: vcvtneph2bf8s ymm2, word ptr [eax]{1to32}
+# ATT:   vcvtph2bf8s  (%eax){1to32}, %ymm2
+# INTEL: vcvtph2bf8s ymm2, word ptr [eax]{1to32}
 0x62,0xf5,0x7e,0x58,0x74,0x10
 
-# ATT:   vcvtneph2bf8s  -2048(,%ebp,2), %ymm2
-# INTEL: vcvtneph2bf8s ymm2, zmmword ptr [2*ebp - 2048]
+# ATT:   vcvtph2bf8s  -2048(,%ebp,2), %ymm2
+# INTEL: vcvtph2bf8s ymm2, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x7e,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtneph2bf8s  8128(%ecx), %ymm2 {%k7} {z}
-# INTEL: vcvtneph2bf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+# ATT:   vcvtph2bf8s  8128(%ecx), %ymm2 {%k7} {z}
+# INTEL: vcvtph2bf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x7e,0xcf,0x74,0x51,0x7f
 
-# ATT:   vcvtneph2bf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
-# INTEL: vcvtneph2bf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+# ATT:   vcvtph2bf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
+# INTEL: vcvtph2bf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x7e,0xdf,0x74,0x52,0x80
 
-# ATT:   vcvtneph2hf8 %xmm3, %xmm2
-# INTEL: vcvtneph2hf8 xmm2, xmm3
+# ATT:   vcvtph2hf8 %xmm3, %xmm2
+# INTEL: vcvtph2hf8 xmm2, xmm3
 0x62,0xf5,0x7e,0x08,0x18,0xd3
 
-# ATT:   vcvtneph2hf8 %xmm3, %xmm2 {%k7}
-# INTEL: vcvtneph2hf8 xmm2 {k7}, xmm3
+# ATT:   vcvtph2hf8 %xmm3, %xmm2 {%k7}
+# INTEL: vcvtph2hf8 xmm2 {k7}, xmm3
 0x62,0xf5,0x7e,0x0f,0x18,0xd3
 
-# ATT:   vcvtneph2hf8 %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm2 {k7} {z}, xmm3
+# ATT:   vcvtph2hf8 %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm2 {k7} {z}, xmm3
 0x62,0xf5,0x7e,0x8f,0x18,0xd3
 
-# ATT:   vcvtneph2hf8 %zmm3, %ymm2
-# INTEL: vcvtneph2hf8 ymm2, zmm3
+# ATT:   vcvtph2hf8 %zmm3, %ymm2
+# INTEL: vcvtph2hf8 ymm2, zmm3
 0x62,0xf5,0x7e,0x48,0x18,0xd3
 
-# ATT:   vcvtneph2hf8 %zmm3, %ymm2 {%k7}
-# INTEL: vcvtneph2hf8 ymm2 {k7}, zmm3
+# ATT:   vcvtph2hf8 %zmm3, %ymm2 {%k7}
+# INTEL: vcvtph2hf8 ymm2 {k7}, zmm3
 0x62,0xf5,0x7e,0x4f,0x18,0xd3
 
-# ATT:   vcvtneph2hf8 %zmm3, %ymm2 {%k7} {z}
-# INTEL: vcvtneph2hf8 ymm2 {k7} {z}, zmm3
+# ATT:   vcvtph2hf8 %zmm3, %ymm2 {%k7} {z}
+# INTEL: vcvtph2hf8 ymm2 {k7} {z}, zmm3
 0x62,0xf5,0x7e,0xcf,0x18,0xd3
 
-# ATT:   vcvtneph2hf8 %ymm3, %xmm2
-# INTEL: vcvtneph2hf8 xmm2, ymm3
+# ATT:   vcvtph2hf8 %ymm3, %xmm2
+# INTEL: vcvtph2hf8 xmm2, ymm3
 0x62,0xf5,0x7e,0x28,0x18,0xd3
 
-# ATT:   vcvtneph2hf8 %ymm3, %xmm2 {%k7}
-# INTEL: vcvtneph2hf8 xmm2 {k7}, ymm3
+# ATT:   vcvtph2hf8 %ymm3, %xmm2 {%k7}
+# INTEL: vcvtph2hf8 xmm2 {k7}, ymm3
 0x62,0xf5,0x7e,0x2f,0x18,0xd3
 
-# ATT:   vcvtneph2hf8 %ymm3, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm2 {k7} {z}, ymm3
+# ATT:   vcvtph2hf8 %ymm3, %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm2 {k7} {z}, ymm3
 0x62,0xf5,0x7e,0xaf,0x18,0xd3
 
-# ATT:   vcvtneph2hf8x  268435456(%esp,%esi,8), %xmm2
-# INTEL: vcvtneph2hf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvtph2hf8x  268435456(%esp,%esi,8), %xmm2
+# INTEL: vcvtph2hf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7e,0x08,0x18,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2hf8x  291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vcvtneph2hf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvtph2hf8x  291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vcvtph2hf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7e,0x0f,0x18,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2hf8  (%eax){1to8}, %xmm2
-# INTEL: vcvtneph2hf8 xmm2, word ptr [eax]{1to8}
+# ATT:   vcvtph2hf8  (%eax){1to8}, %xmm2
+# INTEL: vcvtph2hf8 xmm2, word ptr [eax]{1to8}
 0x62,0xf5,0x7e,0x18,0x18,0x10
 
-# ATT:   vcvtneph2hf8x  -512(,%ebp,2), %xmm2
-# INTEL: vcvtneph2hf8 xmm2, xmmword ptr [2*ebp - 512]
+# ATT:   vcvtph2hf8x  -512(,%ebp,2), %xmm2
+# INTEL: vcvtph2hf8 xmm2, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x7e,0x08,0x18,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtneph2hf8x  2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+# ATT:   vcvtph2hf8x  2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x7e,0x8f,0x18,0x51,0x7f
 
-# ATT:   vcvtneph2hf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+# ATT:   vcvtph2hf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x7e,0x9f,0x18,0x52,0x80
 
-# ATT:   vcvtneph2hf8  (%eax){1to16}, %xmm2
-# INTEL: vcvtneph2hf8 xmm2, word ptr [eax]{1to16}
+# ATT:   vcvtph2hf8  (%eax){1to16}, %xmm2
+# INTEL: vcvtph2hf8 xmm2, word ptr [eax]{1to16}
 0x62,0xf5,0x7e,0x38,0x18,0x10
 
-# ATT:   vcvtneph2hf8y  -1024(,%ebp,2), %xmm2
-# INTEL: vcvtneph2hf8 xmm2, ymmword ptr [2*ebp - 1024]
+# ATT:   vcvtph2hf8y  -1024(,%ebp,2), %xmm2
+# INTEL: vcvtph2hf8 xmm2, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x7e,0x28,0x18,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtneph2hf8y  4064(%ecx), %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+# ATT:   vcvtph2hf8y  4064(%ecx), %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x7e,0xaf,0x18,0x51,0x7f
 
-# ATT:   vcvtneph2hf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+# ATT:   vcvtph2hf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x7e,0xbf,0x18,0x52,0x80
 
-# ATT:   vcvtneph2hf8  268435456(%esp,%esi,8), %ymm2
-# INTEL: vcvtneph2hf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvtph2hf8  268435456(%esp,%esi,8), %ymm2
+# INTEL: vcvtph2hf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7e,0x48,0x18,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2hf8  291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vcvtneph2hf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvtph2hf8  291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vcvtph2hf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7e,0x4f,0x18,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2hf8  (%eax){1to32}, %ymm2
-# INTEL: vcvtneph2hf8 ymm2, word ptr [eax]{1to32}
+# ATT:   vcvtph2hf8  (%eax){1to32}, %ymm2
+# INTEL: vcvtph2hf8 ymm2, word ptr [eax]{1to32}
 0x62,0xf5,0x7e,0x58,0x18,0x10
 
-# ATT:   vcvtneph2hf8  -2048(,%ebp,2), %ymm2
-# INTEL: vcvtneph2hf8 ymm2, zmmword ptr [2*ebp - 2048]
+# ATT:   vcvtph2hf8  -2048(,%ebp,2), %ymm2
+# INTEL: vcvtph2hf8 ymm2, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x7e,0x48,0x18,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtneph2hf8  8128(%ecx), %ymm2 {%k7} {z}
-# INTEL: vcvtneph2hf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+# ATT:   vcvtph2hf8  8128(%ecx), %ymm2 {%k7} {z}
+# INTEL: vcvtph2hf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x7e,0xcf,0x18,0x51,0x7f
 
-# ATT:   vcvtneph2hf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
-# INTEL: vcvtneph2hf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+# ATT:   vcvtph2hf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
+# INTEL: vcvtph2hf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x7e,0xdf,0x18,0x52,0x80
 
-# ATT:   vcvtneph2hf8s %xmm3, %xmm2
-# INTEL: vcvtneph2hf8s xmm2, xmm3
+# ATT:   vcvtph2hf8s %xmm3, %xmm2
+# INTEL: vcvtph2hf8s xmm2, xmm3
 0x62,0xf5,0x7e,0x08,0x1b,0xd3
 
-# ATT:   vcvtneph2hf8s %xmm3, %xmm2 {%k7}
-# INTEL: vcvtneph2hf8s xmm2 {k7}, xmm3
+# ATT:   vcvtph2hf8s %xmm3, %xmm2 {%k7}
+# INTEL: vcvtph2hf8s xmm2 {k7}, xmm3
 0x62,0xf5,0x7e,0x0f,0x1b,0xd3
 
-# ATT:   vcvtneph2hf8s %xmm3, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm2 {k7} {z}, xmm3
+# ATT:   vcvtph2hf8s %xmm3, %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm2 {k7} {z}, xmm3
 0x62,0xf5,0x7e,0x8f,0x1b,0xd3
 
-# ATT:   vcvtneph2hf8s %zmm3, %ymm2
-# INTEL: vcvtneph2hf8s ymm2, zmm3
+# ATT:   vcvtph2hf8s %zmm3, %ymm2
+# INTEL: vcvtph2hf8s ymm2, zmm3
 0x62,0xf5,0x7e,0x48,0x1b,0xd3
 
-# ATT:   vcvtneph2hf8s %zmm3, %ymm2 {%k7}
-# INTEL: vcvtneph2hf8s ymm2 {k7}, zmm3
+# ATT:   vcvtph2hf8s %zmm3, %ymm2 {%k7}
+# INTEL: vcvtph2hf8s ymm2 {k7}, zmm3
 0x62,0xf5,0x7e,0x4f,0x1b,0xd3
 
-# ATT:   vcvtneph2hf8s %zmm3, %ymm2 {%k7} {z}
-# INTEL: vcvtneph2hf8s ymm2 {k7} {z}, zmm3
+# ATT:   vcvtph2hf8s %zmm3, %ymm2 {%k7} {z}
+# INTEL: vcvtph2hf8s ymm2 {k7} {z}, zmm3
 0x62,0xf5,0x7e,0xcf,0x1b,0xd3
 
-# ATT:   vcvtneph2hf8s %ymm3, %xmm2
-# INTEL: vcvtneph2hf8s xmm2, ymm3
+# ATT:   vcvtph2hf8s %ymm3, %xmm2
+# INTEL: vcvtph2hf8s xmm2, ymm3
 0x62,0xf5,0x7e,0x28,0x1b,0xd3
 
-# ATT:   vcvtneph2hf8s %ymm3, %xmm2 {%k7}
-# INTEL: vcvtneph2hf8s xmm2 {k7}, ymm3
+# ATT:   vcvtph2hf8s %ymm3, %xmm2 {%k7}
+# INTEL: vcvtph2hf8s xmm2 {k7}, ymm3
 0x62,0xf5,0x7e,0x2f,0x1b,0xd3
 
-# ATT:   vcvtneph2hf8s %ymm3, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm2 {k7} {z}, ymm3
+# ATT:   vcvtph2hf8s %ymm3, %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm2 {k7} {z}, ymm3
 0x62,0xf5,0x7e,0xaf,0x1b,0xd3
 
-# ATT:   vcvtneph2hf8sx  268435456(%esp,%esi,8), %xmm2
-# INTEL: vcvtneph2hf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvtph2hf8sx  268435456(%esp,%esi,8), %xmm2
+# INTEL: vcvtph2hf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7e,0x08,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2hf8sx  291(%edi,%eax,4), %xmm2 {%k7}
-# INTEL: vcvtneph2hf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvtph2hf8sx  291(%edi,%eax,4), %xmm2 {%k7}
+# INTEL: vcvtph2hf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7e,0x0f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2hf8s  (%eax){1to8}, %xmm2
-# INTEL: vcvtneph2hf8s xmm2, word ptr [eax]{1to8}
+# ATT:   vcvtph2hf8s  (%eax){1to8}, %xmm2
+# INTEL: vcvtph2hf8s xmm2, word ptr [eax]{1to8}
 0x62,0xf5,0x7e,0x18,0x1b,0x10
 
-# ATT:   vcvtneph2hf8sx  -512(,%ebp,2), %xmm2
-# INTEL: vcvtneph2hf8s xmm2, xmmword ptr [2*ebp - 512]
+# ATT:   vcvtph2hf8sx  -512(,%ebp,2), %xmm2
+# INTEL: vcvtph2hf8s xmm2, xmmword ptr [2*ebp - 512]
 0x62,0xf5,0x7e,0x08,0x1b,0x14,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtneph2hf8sx  2032(%ecx), %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+# ATT:   vcvtph2hf8sx  2032(%ecx), %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 0x62,0xf5,0x7e,0x8f,0x1b,0x51,0x7f
 
-# ATT:   vcvtneph2hf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+# ATT:   vcvtph2hf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 0x62,0xf5,0x7e,0x9f,0x1b,0x52,0x80
 
-# ATT:   vcvtneph2hf8s  (%eax){1to16}, %xmm2
-# INTEL: vcvtneph2hf8s xmm2, word ptr [eax]{1to16}
+# ATT:   vcvtph2hf8s  (%eax){1to16}, %xmm2
+# INTEL: vcvtph2hf8s xmm2, word ptr [eax]{1to16}
 0x62,0xf5,0x7e,0x38,0x1b,0x10
 
-# ATT:   vcvtneph2hf8sy  -1024(,%ebp,2), %xmm2
-# INTEL: vcvtneph2hf8s xmm2, ymmword ptr [2*ebp - 1024]
+# ATT:   vcvtph2hf8sy  -1024(,%ebp,2), %xmm2
+# INTEL: vcvtph2hf8s xmm2, ymmword ptr [2*ebp - 1024]
 0x62,0xf5,0x7e,0x28,0x1b,0x14,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtneph2hf8sy  4064(%ecx), %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+# ATT:   vcvtph2hf8sy  4064(%ecx), %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 0x62,0xf5,0x7e,0xaf,0x1b,0x51,0x7f
 
-# ATT:   vcvtneph2hf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+# ATT:   vcvtph2hf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 0x62,0xf5,0x7e,0xbf,0x1b,0x52,0x80
 
-# ATT:   vcvtneph2hf8s  268435456(%esp,%esi,8), %ymm2
-# INTEL: vcvtneph2hf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
+# ATT:   vcvtph2hf8s  268435456(%esp,%esi,8), %ymm2
+# INTEL: vcvtph2hf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
 0x62,0xf5,0x7e,0x48,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2hf8s  291(%edi,%eax,4), %ymm2 {%k7}
-# INTEL: vcvtneph2hf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+# ATT:   vcvtph2hf8s  291(%edi,%eax,4), %ymm2 {%k7}
+# INTEL: vcvtph2hf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 0x62,0xf5,0x7e,0x4f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2hf8s  (%eax){1to32}, %ymm2
-# INTEL: vcvtneph2hf8s ymm2, word ptr [eax]{1to32}
+# ATT:   vcvtph2hf8s  (%eax){1to32}, %ymm2
+# INTEL: vcvtph2hf8s ymm2, word ptr [eax]{1to32}
 0x62,0xf5,0x7e,0x58,0x1b,0x10
 
-# ATT:   vcvtneph2hf8s  -2048(,%ebp,2), %ymm2
-# INTEL: vcvtneph2hf8s ymm2, zmmword ptr [2*ebp - 2048]
+# ATT:   vcvtph2hf8s  -2048(,%ebp,2), %ymm2
+# INTEL: vcvtph2hf8s ymm2, zmmword ptr [2*ebp - 2048]
 0x62,0xf5,0x7e,0x48,0x1b,0x14,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtneph2hf8s  8128(%ecx), %ymm2 {%k7} {z}
-# INTEL: vcvtneph2hf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+# ATT:   vcvtph2hf8s  8128(%ecx), %ymm2 {%k7} {z}
+# INTEL: vcvtph2hf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 0x62,0xf5,0x7e,0xcf,0x1b,0x51,0x7f
 
-# ATT:   vcvtneph2hf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
-# INTEL: vcvtneph2hf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+# ATT:   vcvtph2hf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
+# INTEL: vcvtph2hf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 0x62,0xf5,0x7e,0xdf,0x1b,0x52,0x80
 
diff --git a/llvm/test/MC/Disassembler/X86/avx10.2convert-64.txt b/llvm/test/MC/Disassembler/X86/avx10.2convert-64.txt
index 82bf09c49e926..611a584df87cf 100644
--- a/llvm/test/MC/Disassembler/X86/avx10.2convert-64.txt
+++ b/llvm/test/MC/Disassembler/X86/avx10.2convert-64.txt
@@ -657,835 +657,835 @@
 # INTEL: vcvthf82ph zmm22 {k7} {z}, ymmword ptr [rdx - 4096]
 0x62,0xe5,0x7f,0xcf,0x1e,0x72,0x80
 
-# ATT:   vcvtne2ph2bf8 %ymm24, %ymm23, %ymm22
-# INTEL: vcvtne2ph2bf8 ymm22, ymm23, ymm24
+# ATT:   vcvt2ph2bf8 %ymm24, %ymm23, %ymm22
+# INTEL: vcvt2ph2bf8 ymm22, ymm23, ymm24
 0x62,0x82,0x47,0x20,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vcvtne2ph2bf8 ymm22 {k7}, ymm23, ymm24
+# ATT:   vcvt2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vcvt2ph2bf8 ymm22 {k7}, ymm23, ymm24
 0x62,0x82,0x47,0x27,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vcvt2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x82,0x47,0xa7,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8 %zmm24, %zmm23, %zmm22
-# INTEL: vcvtne2ph2bf8 zmm22, zmm23, zmm24
+# ATT:   vcvt2ph2bf8 %zmm24, %zmm23, %zmm22
+# INTEL: vcvt2ph2bf8 zmm22, zmm23, zmm24
 0x62,0x82,0x47,0x40,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vcvtne2ph2bf8 zmm22 {k7}, zmm23, zmm24
+# ATT:   vcvt2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vcvt2ph2bf8 zmm22 {k7}, zmm23, zmm24
 0x62,0x82,0x47,0x47,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vcvt2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x82,0x47,0xc7,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8 %xmm24, %xmm23, %xmm22
-# INTEL: vcvtne2ph2bf8 xmm22, xmm23, xmm24
+# ATT:   vcvt2ph2bf8 %xmm24, %xmm23, %xmm22
+# INTEL: vcvt2ph2bf8 xmm22, xmm23, xmm24
 0x62,0x82,0x47,0x00,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vcvtne2ph2bf8 xmm22 {k7}, xmm23, xmm24
+# ATT:   vcvt2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vcvt2ph2bf8 xmm22 {k7}, xmm23, xmm24
 0x62,0x82,0x47,0x07,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vcvt2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x82,0x47,0x87,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vcvtne2ph2bf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2bf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vcvt2ph2bf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa2,0x47,0x40,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vcvtne2ph2bf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2bf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vcvt2ph2bf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc2,0x47,0x47,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vcvtne2ph2bf8 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vcvt2ph2bf8  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vcvt2ph2bf8 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe2,0x47,0x50,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vcvtne2ph2bf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vcvt2ph2bf8  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vcvt2ph2bf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe2,0x47,0x40,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vcvt2ph2bf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe2,0x47,0xc7,0x74,0x71,0x7f
 
-# ATT:   vcvtne2ph2bf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vcvt2ph2bf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe2,0x47,0xd7,0x74,0x72,0x80
 
-# ATT:   vcvtne2ph2bf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vcvtne2ph2bf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2bf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vcvt2ph2bf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa2,0x47,0x20,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vcvtne2ph2bf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2bf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vcvt2ph2bf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc2,0x47,0x27,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vcvtne2ph2bf8 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vcvt2ph2bf8  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vcvt2ph2bf8 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe2,0x47,0x30,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vcvtne2ph2bf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vcvt2ph2bf8  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vcvt2ph2bf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe2,0x47,0x20,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vcvt2ph2bf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe2,0x47,0xa7,0x74,0x71,0x7f
 
-# ATT:   vcvtne2ph2bf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vcvt2ph2bf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe2,0x47,0xb7,0x74,0x72,0x80
 
-# ATT:   vcvtne2ph2bf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vcvtne2ph2bf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2bf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vcvt2ph2bf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa2,0x47,0x00,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vcvtne2ph2bf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2bf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vcvt2ph2bf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc2,0x47,0x07,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vcvtne2ph2bf8 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vcvt2ph2bf8  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vcvt2ph2bf8 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe2,0x47,0x10,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vcvtne2ph2bf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vcvt2ph2bf8  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vcvt2ph2bf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe2,0x47,0x00,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vcvt2ph2bf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe2,0x47,0x87,0x74,0x71,0x7f
 
-# ATT:   vcvtne2ph2bf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vcvt2ph2bf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe2,0x47,0x97,0x74,0x72,0x80
 
-# ATT:   vcvtne2ph2bf8s %ymm24, %ymm23, %ymm22
-# INTEL: vcvtne2ph2bf8s ymm22, ymm23, ymm24
+# ATT:   vcvt2ph2bf8s %ymm24, %ymm23, %ymm22
+# INTEL: vcvt2ph2bf8s ymm22, ymm23, ymm24
 0x62,0x85,0x47,0x20,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vcvtne2ph2bf8s ymm22 {k7}, ymm23, ymm24
+# ATT:   vcvt2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vcvt2ph2bf8s ymm22 {k7}, ymm23, ymm24
 0x62,0x85,0x47,0x27,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vcvt2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8s ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x85,0x47,0xa7,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8s %zmm24, %zmm23, %zmm22
-# INTEL: vcvtne2ph2bf8s zmm22, zmm23, zmm24
+# ATT:   vcvt2ph2bf8s %zmm24, %zmm23, %zmm22
+# INTEL: vcvt2ph2bf8s zmm22, zmm23, zmm24
 0x62,0x85,0x47,0x40,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vcvtne2ph2bf8s zmm22 {k7}, zmm23, zmm24
+# ATT:   vcvt2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vcvt2ph2bf8s zmm22 {k7}, zmm23, zmm24
 0x62,0x85,0x47,0x47,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vcvt2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8s zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x85,0x47,0xc7,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8s %xmm24, %xmm23, %xmm22
-# INTEL: vcvtne2ph2bf8s xmm22, xmm23, xmm24
+# ATT:   vcvt2ph2bf8s %xmm24, %xmm23, %xmm22
+# INTEL: vcvt2ph2bf8s xmm22, xmm23, xmm24
 0x62,0x85,0x47,0x00,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vcvtne2ph2bf8s xmm22 {k7}, xmm23, xmm24
+# ATT:   vcvt2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vcvt2ph2bf8s xmm22 {k7}, xmm23, xmm24
 0x62,0x85,0x47,0x07,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vcvt2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8s xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x85,0x47,0x87,0x74,0xf0
 
-# ATT:   vcvtne2ph2bf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vcvtne2ph2bf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2bf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vcvt2ph2bf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x47,0x40,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vcvtne2ph2bf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2bf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vcvt2ph2bf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x47,0x47,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8s  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vcvtne2ph2bf8s zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vcvt2ph2bf8s  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vcvt2ph2bf8s zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe5,0x47,0x50,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8s  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vcvtne2ph2bf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vcvt2ph2bf8s  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vcvt2ph2bf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x47,0x40,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vcvt2ph2bf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x47,0xc7,0x74,0x71,0x7f
 
-# ATT:   vcvtne2ph2bf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vcvt2ph2bf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x47,0xd7,0x74,0x72,0x80
 
-# ATT:   vcvtne2ph2bf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vcvtne2ph2bf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2bf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vcvt2ph2bf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x47,0x20,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vcvtne2ph2bf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2bf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vcvt2ph2bf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x47,0x27,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8s  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vcvtne2ph2bf8s ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vcvt2ph2bf8s  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vcvt2ph2bf8s ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe5,0x47,0x30,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8s  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vcvtne2ph2bf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vcvt2ph2bf8s  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vcvt2ph2bf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x47,0x20,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vcvt2ph2bf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x47,0xa7,0x74,0x71,0x7f
 
-# ATT:   vcvtne2ph2bf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vcvt2ph2bf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x47,0xb7,0x74,0x72,0x80
 
-# ATT:   vcvtne2ph2bf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vcvtne2ph2bf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2bf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vcvt2ph2bf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x47,0x00,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2bf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vcvtne2ph2bf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2bf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vcvt2ph2bf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x47,0x07,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8s  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vcvtne2ph2bf8s xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vcvt2ph2bf8s  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vcvt2ph2bf8s xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe5,0x47,0x10,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2bf8s  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vcvtne2ph2bf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vcvt2ph2bf8s  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vcvt2ph2bf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x47,0x00,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtne2ph2bf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vcvt2ph2bf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x47,0x87,0x74,0x71,0x7f
 
-# ATT:   vcvtne2ph2bf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2bf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vcvt2ph2bf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2bf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x47,0x97,0x74,0x72,0x80
 
-# ATT:   vcvtne2ph2hf8 %ymm24, %ymm23, %ymm22
-# INTEL: vcvtne2ph2hf8 ymm22, ymm23, ymm24
+# ATT:   vcvt2ph2hf8 %ymm24, %ymm23, %ymm22
+# INTEL: vcvt2ph2hf8 ymm22, ymm23, ymm24
 0x62,0x85,0x47,0x20,0x18,0xf0
 
-# ATT:   vcvtne2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vcvtne2ph2hf8 ymm22 {k7}, ymm23, ymm24
+# ATT:   vcvt2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vcvt2ph2hf8 ymm22 {k7}, ymm23, ymm24
 0x62,0x85,0x47,0x27,0x18,0xf0
 
-# ATT:   vcvtne2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vcvt2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8 ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x85,0x47,0xa7,0x18,0xf0
 
-# ATT:   vcvtne2ph2hf8 %zmm24, %zmm23, %zmm22
-# INTEL: vcvtne2ph2hf8 zmm22, zmm23, zmm24
+# ATT:   vcvt2ph2hf8 %zmm24, %zmm23, %zmm22
+# INTEL: vcvt2ph2hf8 zmm22, zmm23, zmm24
 0x62,0x85,0x47,0x40,0x18,0xf0
 
-# ATT:   vcvtne2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vcvtne2ph2hf8 zmm22 {k7}, zmm23, zmm24
+# ATT:   vcvt2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vcvt2ph2hf8 zmm22 {k7}, zmm23, zmm24
 0x62,0x85,0x47,0x47,0x18,0xf0
 
-# ATT:   vcvtne2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vcvt2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8 zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x85,0x47,0xc7,0x18,0xf0
 
-# ATT:   vcvtne2ph2hf8 %xmm24, %xmm23, %xmm22
-# INTEL: vcvtne2ph2hf8 xmm22, xmm23, xmm24
+# ATT:   vcvt2ph2hf8 %xmm24, %xmm23, %xmm22
+# INTEL: vcvt2ph2hf8 xmm22, xmm23, xmm24
 0x62,0x85,0x47,0x00,0x18,0xf0
 
-# ATT:   vcvtne2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vcvtne2ph2hf8 xmm22 {k7}, xmm23, xmm24
+# ATT:   vcvt2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vcvt2ph2hf8 xmm22 {k7}, xmm23, xmm24
 0x62,0x85,0x47,0x07,0x18,0xf0
 
-# ATT:   vcvtne2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vcvt2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8 xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x85,0x47,0x87,0x18,0xf0
 
-# ATT:   vcvtne2ph2hf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vcvtne2ph2hf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2hf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vcvt2ph2hf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x47,0x40,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vcvtne2ph2hf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2hf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vcvt2ph2hf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x47,0x47,0x18,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vcvtne2ph2hf8 zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vcvt2ph2hf8  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vcvt2ph2hf8 zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe5,0x47,0x50,0x18,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vcvtne2ph2hf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vcvt2ph2hf8  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vcvt2ph2hf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x47,0x40,0x18,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vcvt2ph2hf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x47,0xc7,0x18,0x71,0x7f
 
-# ATT:   vcvtne2ph2hf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vcvt2ph2hf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x47,0xd7,0x18,0x72,0x80
 
-# ATT:   vcvtne2ph2hf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vcvtne2ph2hf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2hf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vcvt2ph2hf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x47,0x20,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vcvtne2ph2hf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2hf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vcvt2ph2hf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x47,0x27,0x18,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vcvtne2ph2hf8 ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vcvt2ph2hf8  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vcvt2ph2hf8 ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe5,0x47,0x30,0x18,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vcvtne2ph2hf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vcvt2ph2hf8  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vcvt2ph2hf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x47,0x20,0x18,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vcvt2ph2hf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x47,0xa7,0x18,0x71,0x7f
 
-# ATT:   vcvtne2ph2hf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vcvt2ph2hf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x47,0xb7,0x18,0x72,0x80
 
-# ATT:   vcvtne2ph2hf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vcvtne2ph2hf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2hf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vcvt2ph2hf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x47,0x00,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vcvtne2ph2hf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2hf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vcvt2ph2hf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x47,0x07,0x18,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vcvtne2ph2hf8 xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vcvt2ph2hf8  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vcvt2ph2hf8 xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe5,0x47,0x10,0x18,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vcvtne2ph2hf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vcvt2ph2hf8  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vcvt2ph2hf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x47,0x00,0x18,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vcvt2ph2hf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x47,0x87,0x18,0x71,0x7f
 
-# ATT:   vcvtne2ph2hf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vcvt2ph2hf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x47,0x97,0x18,0x72,0x80
 
-# ATT:   vcvtne2ph2hf8s %ymm24, %ymm23, %ymm22
-# INTEL: vcvtne2ph2hf8s ymm22, ymm23, ymm24
+# ATT:   vcvt2ph2hf8s %ymm24, %ymm23, %ymm22
+# INTEL: vcvt2ph2hf8s ymm22, ymm23, ymm24
 0x62,0x85,0x47,0x20,0x1b,0xf0
 
-# ATT:   vcvtne2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7}
-# INTEL: vcvtne2ph2hf8s ymm22 {k7}, ymm23, ymm24
+# ATT:   vcvt2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7}
+# INTEL: vcvt2ph2hf8s ymm22 {k7}, ymm23, ymm24
 0x62,0x85,0x47,0x27,0x1b,0xf0
 
-# ATT:   vcvtne2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s ymm22 {k7} {z}, ymm23, ymm24
+# ATT:   vcvt2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8s ymm22 {k7} {z}, ymm23, ymm24
 0x62,0x85,0x47,0xa7,0x1b,0xf0
 
-# ATT:   vcvtne2ph2hf8s %zmm24, %zmm23, %zmm22
-# INTEL: vcvtne2ph2hf8s zmm22, zmm23, zmm24
+# ATT:   vcvt2ph2hf8s %zmm24, %zmm23, %zmm22
+# INTEL: vcvt2ph2hf8s zmm22, zmm23, zmm24
 0x62,0x85,0x47,0x40,0x1b,0xf0
 
-# ATT:   vcvtne2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7}
-# INTEL: vcvtne2ph2hf8s zmm22 {k7}, zmm23, zmm24
+# ATT:   vcvt2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7}
+# INTEL: vcvt2ph2hf8s zmm22 {k7}, zmm23, zmm24
 0x62,0x85,0x47,0x47,0x1b,0xf0
 
-# ATT:   vcvtne2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s zmm22 {k7} {z}, zmm23, zmm24
+# ATT:   vcvt2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8s zmm22 {k7} {z}, zmm23, zmm24
 0x62,0x85,0x47,0xc7,0x1b,0xf0
 
-# ATT:   vcvtne2ph2hf8s %xmm24, %xmm23, %xmm22
-# INTEL: vcvtne2ph2hf8s xmm22, xmm23, xmm24
+# ATT:   vcvt2ph2hf8s %xmm24, %xmm23, %xmm22
+# INTEL: vcvt2ph2hf8s xmm22, xmm23, xmm24
 0x62,0x85,0x47,0x00,0x1b,0xf0
 
-# ATT:   vcvtne2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7}
-# INTEL: vcvtne2ph2hf8s xmm22 {k7}, xmm23, xmm24
+# ATT:   vcvt2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7}
+# INTEL: vcvt2ph2hf8s xmm22 {k7}, xmm23, xmm24
 0x62,0x85,0x47,0x07,0x1b,0xf0
 
-# ATT:   vcvtne2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s xmm22 {k7} {z}, xmm23, xmm24
+# ATT:   vcvt2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8s xmm22 {k7} {z}, xmm23, xmm24
 0x62,0x85,0x47,0x87,0x1b,0xf0
 
-# ATT:   vcvtne2ph2hf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
-# INTEL: vcvtne2ph2hf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2hf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
+# INTEL: vcvt2ph2hf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x47,0x40,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
-# INTEL: vcvtne2ph2hf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2hf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+# INTEL: vcvt2ph2hf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x47,0x47,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8s  (%rip){1to32}, %zmm23, %zmm22
-# INTEL: vcvtne2ph2hf8s zmm22, zmm23, word ptr [rip]{1to32}
+# ATT:   vcvt2ph2hf8s  (%rip){1to32}, %zmm23, %zmm22
+# INTEL: vcvt2ph2hf8s zmm22, zmm23, word ptr [rip]{1to32}
 0x62,0xe5,0x47,0x50,0x1b,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8s  -2048(,%rbp,2), %zmm23, %zmm22
-# INTEL: vcvtne2ph2hf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+# ATT:   vcvt2ph2hf8s  -2048(,%rbp,2), %zmm23, %zmm22
+# INTEL: vcvt2ph2hf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x47,0x40,0x1b,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+# ATT:   vcvt2ph2hf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x47,0xc7,0x1b,0x71,0x7f
 
-# ATT:   vcvtne2ph2hf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+# ATT:   vcvt2ph2hf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x47,0xd7,0x1b,0x72,0x80
 
-# ATT:   vcvtne2ph2hf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
-# INTEL: vcvtne2ph2hf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2hf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
+# INTEL: vcvt2ph2hf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x47,0x20,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
-# INTEL: vcvtne2ph2hf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2hf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+# INTEL: vcvt2ph2hf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x47,0x27,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8s  (%rip){1to16}, %ymm23, %ymm22
-# INTEL: vcvtne2ph2hf8s ymm22, ymm23, word ptr [rip]{1to16}
+# ATT:   vcvt2ph2hf8s  (%rip){1to16}, %ymm23, %ymm22
+# INTEL: vcvt2ph2hf8s ymm22, ymm23, word ptr [rip]{1to16}
 0x62,0xe5,0x47,0x30,0x1b,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8s  -1024(,%rbp,2), %ymm23, %ymm22
-# INTEL: vcvtne2ph2hf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+# ATT:   vcvt2ph2hf8s  -1024(,%rbp,2), %ymm23, %ymm22
+# INTEL: vcvt2ph2hf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x47,0x20,0x1b,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+# ATT:   vcvt2ph2hf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x47,0xa7,0x1b,0x71,0x7f
 
-# ATT:   vcvtne2ph2hf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+# ATT:   vcvt2ph2hf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x47,0xb7,0x1b,0x72,0x80
 
-# ATT:   vcvtne2ph2hf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
-# INTEL: vcvtne2ph2hf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvt2ph2hf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
+# INTEL: vcvt2ph2hf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x47,0x00,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtne2ph2hf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
-# INTEL: vcvtne2ph2hf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvt2ph2hf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+# INTEL: vcvt2ph2hf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x47,0x07,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8s  (%rip){1to8}, %xmm23, %xmm22
-# INTEL: vcvtne2ph2hf8s xmm22, xmm23, word ptr [rip]{1to8}
+# ATT:   vcvt2ph2hf8s  (%rip){1to8}, %xmm23, %xmm22
+# INTEL: vcvt2ph2hf8s xmm22, xmm23, word ptr [rip]{1to8}
 0x62,0xe5,0x47,0x10,0x1b,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtne2ph2hf8s  -512(,%rbp,2), %xmm23, %xmm22
-# INTEL: vcvtne2ph2hf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
+# ATT:   vcvt2ph2hf8s  -512(,%rbp,2), %xmm23, %xmm22
+# INTEL: vcvt2ph2hf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x47,0x00,0x1b,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtne2ph2hf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+# ATT:   vcvt2ph2hf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x47,0x87,0x1b,0x71,0x7f
 
-# ATT:   vcvtne2ph2hf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtne2ph2hf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+# ATT:   vcvt2ph2hf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvt2ph2hf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x47,0x97,0x1b,0x72,0x80
 
-# ATT:   vcvtneph2bf8 %xmm23, %xmm22
-# INTEL: vcvtneph2bf8 xmm22, xmm23
+# ATT:   vcvtph2bf8 %xmm23, %xmm22
+# INTEL: vcvtph2bf8 xmm22, xmm23
 0x62,0xa2,0x7e,0x08,0x74,0xf7
 
-# ATT:   vcvtneph2bf8 %xmm23, %xmm22 {%k7}
-# INTEL: vcvtneph2bf8 xmm22 {k7}, xmm23
+# ATT:   vcvtph2bf8 %xmm23, %xmm22 {%k7}
+# INTEL: vcvtph2bf8 xmm22 {k7}, xmm23
 0x62,0xa2,0x7e,0x0f,0x74,0xf7
 
-# ATT:   vcvtneph2bf8 %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm22 {k7} {z}, xmm23
+# ATT:   vcvtph2bf8 %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm22 {k7} {z}, xmm23
 0x62,0xa2,0x7e,0x8f,0x74,0xf7
 
-# ATT:   vcvtneph2bf8 %zmm23, %ymm22
-# INTEL: vcvtneph2bf8 ymm22, zmm23
+# ATT:   vcvtph2bf8 %zmm23, %ymm22
+# INTEL: vcvtph2bf8 ymm22, zmm23
 0x62,0xa2,0x7e,0x48,0x74,0xf7
 
-# ATT:   vcvtneph2bf8 %zmm23, %ymm22 {%k7}
-# INTEL: vcvtneph2bf8 ymm22 {k7}, zmm23
+# ATT:   vcvtph2bf8 %zmm23, %ymm22 {%k7}
+# INTEL: vcvtph2bf8 ymm22 {k7}, zmm23
 0x62,0xa2,0x7e,0x4f,0x74,0xf7
 
-# ATT:   vcvtneph2bf8 %zmm23, %ymm22 {%k7} {z}
-# INTEL: vcvtneph2bf8 ymm22 {k7} {z}, zmm23
+# ATT:   vcvtph2bf8 %zmm23, %ymm22 {%k7} {z}
+# INTEL: vcvtph2bf8 ymm22 {k7} {z}, zmm23
 0x62,0xa2,0x7e,0xcf,0x74,0xf7
 
-# ATT:   vcvtneph2bf8 %ymm23, %xmm22
-# INTEL: vcvtneph2bf8 xmm22, ymm23
+# ATT:   vcvtph2bf8 %ymm23, %xmm22
+# INTEL: vcvtph2bf8 xmm22, ymm23
 0x62,0xa2,0x7e,0x28,0x74,0xf7
 
-# ATT:   vcvtneph2bf8 %ymm23, %xmm22 {%k7}
-# INTEL: vcvtneph2bf8 xmm22 {k7}, ymm23
+# ATT:   vcvtph2bf8 %ymm23, %xmm22 {%k7}
+# INTEL: vcvtph2bf8 xmm22 {k7}, ymm23
 0x62,0xa2,0x7e,0x2f,0x74,0xf7
 
-# ATT:   vcvtneph2bf8 %ymm23, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm22 {k7} {z}, ymm23
+# ATT:   vcvtph2bf8 %ymm23, %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm22 {k7} {z}, ymm23
 0x62,0xa2,0x7e,0xaf,0x74,0xf7
 
-# ATT:   vcvtneph2bf8x  268435456(%rbp,%r14,8), %xmm22
-# INTEL: vcvtneph2bf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvtph2bf8x  268435456(%rbp,%r14,8), %xmm22
+# INTEL: vcvtph2bf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa2,0x7e,0x08,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2bf8x  291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vcvtneph2bf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvtph2bf8x  291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vcvtph2bf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc2,0x7e,0x0f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2bf8  (%rip){1to8}, %xmm22
-# INTEL: vcvtneph2bf8 xmm22, word ptr [rip]{1to8}
+# ATT:   vcvtph2bf8  (%rip){1to8}, %xmm22
+# INTEL: vcvtph2bf8 xmm22, word ptr [rip]{1to8}
 0x62,0xe2,0x7e,0x18,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2bf8x  -512(,%rbp,2), %xmm22
-# INTEL: vcvtneph2bf8 xmm22, xmmword ptr [2*rbp - 512]
+# ATT:   vcvtph2bf8x  -512(,%rbp,2), %xmm22
+# INTEL: vcvtph2bf8 xmm22, xmmword ptr [2*rbp - 512]
 0x62,0xe2,0x7e,0x08,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtneph2bf8x  2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+# ATT:   vcvtph2bf8x  2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 0x62,0xe2,0x7e,0x8f,0x74,0x71,0x7f
 
-# ATT:   vcvtneph2bf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+# ATT:   vcvtph2bf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 0x62,0xe2,0x7e,0x9f,0x74,0x72,0x80
 
-# ATT:   vcvtneph2bf8  (%rip){1to16}, %xmm22
-# INTEL: vcvtneph2bf8 xmm22, word ptr [rip]{1to16}
+# ATT:   vcvtph2bf8  (%rip){1to16}, %xmm22
+# INTEL: vcvtph2bf8 xmm22, word ptr [rip]{1to16}
 0x62,0xe2,0x7e,0x38,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2bf8y  -1024(,%rbp,2), %xmm22
-# INTEL: vcvtneph2bf8 xmm22, ymmword ptr [2*rbp - 1024]
+# ATT:   vcvtph2bf8y  -1024(,%rbp,2), %xmm22
+# INTEL: vcvtph2bf8 xmm22, ymmword ptr [2*rbp - 1024]
 0x62,0xe2,0x7e,0x28,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtneph2bf8y  4064(%rcx), %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+# ATT:   vcvtph2bf8y  4064(%rcx), %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 0x62,0xe2,0x7e,0xaf,0x74,0x71,0x7f
 
-# ATT:   vcvtneph2bf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+# ATT:   vcvtph2bf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 0x62,0xe2,0x7e,0xbf,0x74,0x72,0x80
 
-# ATT:   vcvtneph2bf8  268435456(%rbp,%r14,8), %ymm22
-# INTEL: vcvtneph2bf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvtph2bf8  268435456(%rbp,%r14,8), %ymm22
+# INTEL: vcvtph2bf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa2,0x7e,0x48,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2bf8  291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vcvtneph2bf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvtph2bf8  291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vcvtph2bf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc2,0x7e,0x4f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2bf8  (%rip){1to32}, %ymm22
-# INTEL: vcvtneph2bf8 ymm22, word ptr [rip]{1to32}
+# ATT:   vcvtph2bf8  (%rip){1to32}, %ymm22
+# INTEL: vcvtph2bf8 ymm22, word ptr [rip]{1to32}
 0x62,0xe2,0x7e,0x58,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2bf8  -2048(,%rbp,2), %ymm22
-# INTEL: vcvtneph2bf8 ymm22, zmmword ptr [2*rbp - 2048]
+# ATT:   vcvtph2bf8  -2048(,%rbp,2), %ymm22
+# INTEL: vcvtph2bf8 ymm22, zmmword ptr [2*rbp - 2048]
 0x62,0xe2,0x7e,0x48,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtneph2bf8  8128(%rcx), %ymm22 {%k7} {z}
-# INTEL: vcvtneph2bf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+# ATT:   vcvtph2bf8  8128(%rcx), %ymm22 {%k7} {z}
+# INTEL: vcvtph2bf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 0x62,0xe2,0x7e,0xcf,0x74,0x71,0x7f
 
-# ATT:   vcvtneph2bf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
-# INTEL: vcvtneph2bf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+# ATT:   vcvtph2bf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+# INTEL: vcvtph2bf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 0x62,0xe2,0x7e,0xdf,0x74,0x72,0x80
 
-# ATT:   vcvtneph2bf8s %xmm23, %xmm22
-# INTEL: vcvtneph2bf8s xmm22, xmm23
+# ATT:   vcvtph2bf8s %xmm23, %xmm22
+# INTEL: vcvtph2bf8s xmm22, xmm23
 0x62,0xa5,0x7e,0x08,0x74,0xf7
 
-# ATT:   vcvtneph2bf8s %xmm23, %xmm22 {%k7}
-# INTEL: vcvtneph2bf8s xmm22 {k7}, xmm23
+# ATT:   vcvtph2bf8s %xmm23, %xmm22 {%k7}
+# INTEL: vcvtph2bf8s xmm22 {k7}, xmm23
 0x62,0xa5,0x7e,0x0f,0x74,0xf7
 
-# ATT:   vcvtneph2bf8s %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm22 {k7} {z}, xmm23
+# ATT:   vcvtph2bf8s %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm22 {k7} {z}, xmm23
 0x62,0xa5,0x7e,0x8f,0x74,0xf7
 
-# ATT:   vcvtneph2bf8s %zmm23, %ymm22
-# INTEL: vcvtneph2bf8s ymm22, zmm23
+# ATT:   vcvtph2bf8s %zmm23, %ymm22
+# INTEL: vcvtph2bf8s ymm22, zmm23
 0x62,0xa5,0x7e,0x48,0x74,0xf7
 
-# ATT:   vcvtneph2bf8s %zmm23, %ymm22 {%k7}
-# INTEL: vcvtneph2bf8s ymm22 {k7}, zmm23
+# ATT:   vcvtph2bf8s %zmm23, %ymm22 {%k7}
+# INTEL: vcvtph2bf8s ymm22 {k7}, zmm23
 0x62,0xa5,0x7e,0x4f,0x74,0xf7
 
-# ATT:   vcvtneph2bf8s %zmm23, %ymm22 {%k7} {z}
-# INTEL: vcvtneph2bf8s ymm22 {k7} {z}, zmm23
+# ATT:   vcvtph2bf8s %zmm23, %ymm22 {%k7} {z}
+# INTEL: vcvtph2bf8s ymm22 {k7} {z}, zmm23
 0x62,0xa5,0x7e,0xcf,0x74,0xf7
 
-# ATT:   vcvtneph2bf8s %ymm23, %xmm22
-# INTEL: vcvtneph2bf8s xmm22, ymm23
+# ATT:   vcvtph2bf8s %ymm23, %xmm22
+# INTEL: vcvtph2bf8s xmm22, ymm23
 0x62,0xa5,0x7e,0x28,0x74,0xf7
 
-# ATT:   vcvtneph2bf8s %ymm23, %xmm22 {%k7}
-# INTEL: vcvtneph2bf8s xmm22 {k7}, ymm23
+# ATT:   vcvtph2bf8s %ymm23, %xmm22 {%k7}
+# INTEL: vcvtph2bf8s xmm22 {k7}, ymm23
 0x62,0xa5,0x7e,0x2f,0x74,0xf7
 
-# ATT:   vcvtneph2bf8s %ymm23, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm22 {k7} {z}, ymm23
+# ATT:   vcvtph2bf8s %ymm23, %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm22 {k7} {z}, ymm23
 0x62,0xa5,0x7e,0xaf,0x74,0xf7
 
-# ATT:   vcvtneph2bf8sx  268435456(%rbp,%r14,8), %xmm22
-# INTEL: vcvtneph2bf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvtph2bf8sx  268435456(%rbp,%r14,8), %xmm22
+# INTEL: vcvtph2bf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7e,0x08,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2bf8sx  291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vcvtneph2bf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvtph2bf8sx  291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vcvtph2bf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7e,0x0f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2bf8s  (%rip){1to8}, %xmm22
-# INTEL: vcvtneph2bf8s xmm22, word ptr [rip]{1to8}
+# ATT:   vcvtph2bf8s  (%rip){1to8}, %xmm22
+# INTEL: vcvtph2bf8s xmm22, word ptr [rip]{1to8}
 0x62,0xe5,0x7e,0x18,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2bf8sx  -512(,%rbp,2), %xmm22
-# INTEL: vcvtneph2bf8s xmm22, xmmword ptr [2*rbp - 512]
+# ATT:   vcvtph2bf8sx  -512(,%rbp,2), %xmm22
+# INTEL: vcvtph2bf8s xmm22, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x7e,0x08,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtneph2bf8sx  2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+# ATT:   vcvtph2bf8sx  2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x7e,0x8f,0x74,0x71,0x7f
 
-# ATT:   vcvtneph2bf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+# ATT:   vcvtph2bf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x7e,0x9f,0x74,0x72,0x80
 
-# ATT:   vcvtneph2bf8s  (%rip){1to16}, %xmm22
-# INTEL: vcvtneph2bf8s xmm22, word ptr [rip]{1to16}
+# ATT:   vcvtph2bf8s  (%rip){1to16}, %xmm22
+# INTEL: vcvtph2bf8s xmm22, word ptr [rip]{1to16}
 0x62,0xe5,0x7e,0x38,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2bf8sy  -1024(,%rbp,2), %xmm22
-# INTEL: vcvtneph2bf8s xmm22, ymmword ptr [2*rbp - 1024]
+# ATT:   vcvtph2bf8sy  -1024(,%rbp,2), %xmm22
+# INTEL: vcvtph2bf8s xmm22, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x7e,0x28,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtneph2bf8sy  4064(%rcx), %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+# ATT:   vcvtph2bf8sy  4064(%rcx), %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x7e,0xaf,0x74,0x71,0x7f
 
-# ATT:   vcvtneph2bf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+# ATT:   vcvtph2bf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+# INTEL: vcvtph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x7e,0xbf,0x74,0x72,0x80
 
-# ATT:   vcvtneph2bf8s  268435456(%rbp,%r14,8), %ymm22
-# INTEL: vcvtneph2bf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvtph2bf8s  268435456(%rbp,%r14,8), %ymm22
+# INTEL: vcvtph2bf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7e,0x48,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2bf8s  291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vcvtneph2bf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvtph2bf8s  291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vcvtph2bf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7e,0x4f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2bf8s  (%rip){1to32}, %ymm22
-# INTEL: vcvtneph2bf8s ymm22, word ptr [rip]{1to32}
+# ATT:   vcvtph2bf8s  (%rip){1to32}, %ymm22
+# INTEL: vcvtph2bf8s ymm22, word ptr [rip]{1to32}
 0x62,0xe5,0x7e,0x58,0x74,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2bf8s  -2048(,%rbp,2), %ymm22
-# INTEL: vcvtneph2bf8s ymm22, zmmword ptr [2*rbp - 2048]
+# ATT:   vcvtph2bf8s  -2048(,%rbp,2), %ymm22
+# INTEL: vcvtph2bf8s ymm22, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x7e,0x48,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtneph2bf8s  8128(%rcx), %ymm22 {%k7} {z}
-# INTEL: vcvtneph2bf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+# ATT:   vcvtph2bf8s  8128(%rcx), %ymm22 {%k7} {z}
+# INTEL: vcvtph2bf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x7e,0xcf,0x74,0x71,0x7f
 
-# ATT:   vcvtneph2bf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
-# INTEL: vcvtneph2bf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+# ATT:   vcvtph2bf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+# INTEL: vcvtph2bf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x7e,0xdf,0x74,0x72,0x80
 
-# ATT:   vcvtneph2hf8 %xmm23, %xmm22
-# INTEL: vcvtneph2hf8 xmm22, xmm23
+# ATT:   vcvtph2hf8 %xmm23, %xmm22
+# INTEL: vcvtph2hf8 xmm22, xmm23
 0x62,0xa5,0x7e,0x08,0x18,0xf7
 
-# ATT:   vcvtneph2hf8 %xmm23, %xmm22 {%k7}
-# INTEL: vcvtneph2hf8 xmm22 {k7}, xmm23
+# ATT:   vcvtph2hf8 %xmm23, %xmm22 {%k7}
+# INTEL: vcvtph2hf8 xmm22 {k7}, xmm23
 0x62,0xa5,0x7e,0x0f,0x18,0xf7
 
-# ATT:   vcvtneph2hf8 %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm22 {k7} {z}, xmm23
+# ATT:   vcvtph2hf8 %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm22 {k7} {z}, xmm23
 0x62,0xa5,0x7e,0x8f,0x18,0xf7
 
-# ATT:   vcvtneph2hf8 %zmm23, %ymm22
-# INTEL: vcvtneph2hf8 ymm22, zmm23
+# ATT:   vcvtph2hf8 %zmm23, %ymm22
+# INTEL: vcvtph2hf8 ymm22, zmm23
 0x62,0xa5,0x7e,0x48,0x18,0xf7
 
-# ATT:   vcvtneph2hf8 %zmm23, %ymm22 {%k7}
-# INTEL: vcvtneph2hf8 ymm22 {k7}, zmm23
+# ATT:   vcvtph2hf8 %zmm23, %ymm22 {%k7}
+# INTEL: vcvtph2hf8 ymm22 {k7}, zmm23
 0x62,0xa5,0x7e,0x4f,0x18,0xf7
 
-# ATT:   vcvtneph2hf8 %zmm23, %ymm22 {%k7} {z}
-# INTEL: vcvtneph2hf8 ymm22 {k7} {z}, zmm23
+# ATT:   vcvtph2hf8 %zmm23, %ymm22 {%k7} {z}
+# INTEL: vcvtph2hf8 ymm22 {k7} {z}, zmm23
 0x62,0xa5,0x7e,0xcf,0x18,0xf7
 
-# ATT:   vcvtneph2hf8 %ymm23, %xmm22
-# INTEL: vcvtneph2hf8 xmm22, ymm23
+# ATT:   vcvtph2hf8 %ymm23, %xmm22
+# INTEL: vcvtph2hf8 xmm22, ymm23
 0x62,0xa5,0x7e,0x28,0x18,0xf7
 
-# ATT:   vcvtneph2hf8 %ymm23, %xmm22 {%k7}
-# INTEL: vcvtneph2hf8 xmm22 {k7}, ymm23
+# ATT:   vcvtph2hf8 %ymm23, %xmm22 {%k7}
+# INTEL: vcvtph2hf8 xmm22 {k7}, ymm23
 0x62,0xa5,0x7e,0x2f,0x18,0xf7
 
-# ATT:   vcvtneph2hf8 %ymm23, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm22 {k7} {z}, ymm23
+# ATT:   vcvtph2hf8 %ymm23, %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm22 {k7} {z}, ymm23
 0x62,0xa5,0x7e,0xaf,0x18,0xf7
 
-# ATT:   vcvtneph2hf8x  268435456(%rbp,%r14,8), %xmm22
-# INTEL: vcvtneph2hf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvtph2hf8x  268435456(%rbp,%r14,8), %xmm22
+# INTEL: vcvtph2hf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7e,0x08,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2hf8x  291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vcvtneph2hf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvtph2hf8x  291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vcvtph2hf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7e,0x0f,0x18,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2hf8  (%rip){1to8}, %xmm22
-# INTEL: vcvtneph2hf8 xmm22, word ptr [rip]{1to8}
+# ATT:   vcvtph2hf8  (%rip){1to8}, %xmm22
+# INTEL: vcvtph2hf8 xmm22, word ptr [rip]{1to8}
 0x62,0xe5,0x7e,0x18,0x18,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2hf8x  -512(,%rbp,2), %xmm22
-# INTEL: vcvtneph2hf8 xmm22, xmmword ptr [2*rbp - 512]
+# ATT:   vcvtph2hf8x  -512(,%rbp,2), %xmm22
+# INTEL: vcvtph2hf8 xmm22, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x7e,0x08,0x18,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtneph2hf8x  2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+# ATT:   vcvtph2hf8x  2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x7e,0x8f,0x18,0x71,0x7f
 
-# ATT:   vcvtneph2hf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+# ATT:   vcvtph2hf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x7e,0x9f,0x18,0x72,0x80
 
-# ATT:   vcvtneph2hf8  (%rip){1to16}, %xmm22
-# INTEL: vcvtneph2hf8 xmm22, word ptr [rip]{1to16}
+# ATT:   vcvtph2hf8  (%rip){1to16}, %xmm22
+# INTEL: vcvtph2hf8 xmm22, word ptr [rip]{1to16}
 0x62,0xe5,0x7e,0x38,0x18,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2hf8y  -1024(,%rbp,2), %xmm22
-# INTEL: vcvtneph2hf8 xmm22, ymmword ptr [2*rbp - 1024]
+# ATT:   vcvtph2hf8y  -1024(,%rbp,2), %xmm22
+# INTEL: vcvtph2hf8 xmm22, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x7e,0x28,0x18,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtneph2hf8y  4064(%rcx), %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+# ATT:   vcvtph2hf8y  4064(%rcx), %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x7e,0xaf,0x18,0x71,0x7f
 
-# ATT:   vcvtneph2hf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+# ATT:   vcvtph2hf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x7e,0xbf,0x18,0x72,0x80
 
-# ATT:   vcvtneph2hf8  268435456(%rbp,%r14,8), %ymm22
-# INTEL: vcvtneph2hf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvtph2hf8  268435456(%rbp,%r14,8), %ymm22
+# INTEL: vcvtph2hf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7e,0x48,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2hf8  291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vcvtneph2hf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvtph2hf8  291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vcvtph2hf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7e,0x4f,0x18,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2hf8  (%rip){1to32}, %ymm22
-# INTEL: vcvtneph2hf8 ymm22, word ptr [rip]{1to32}
+# ATT:   vcvtph2hf8  (%rip){1to32}, %ymm22
+# INTEL: vcvtph2hf8 ymm22, word ptr [rip]{1to32}
 0x62,0xe5,0x7e,0x58,0x18,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2hf8  -2048(,%rbp,2), %ymm22
-# INTEL: vcvtneph2hf8 ymm22, zmmword ptr [2*rbp - 2048]
+# ATT:   vcvtph2hf8  -2048(,%rbp,2), %ymm22
+# INTEL: vcvtph2hf8 ymm22, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x7e,0x48,0x18,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtneph2hf8  8128(%rcx), %ymm22 {%k7} {z}
-# INTEL: vcvtneph2hf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+# ATT:   vcvtph2hf8  8128(%rcx), %ymm22 {%k7} {z}
+# INTEL: vcvtph2hf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x7e,0xcf,0x18,0x71,0x7f
 
-# ATT:   vcvtneph2hf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
-# INTEL: vcvtneph2hf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+# ATT:   vcvtph2hf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+# INTEL: vcvtph2hf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x7e,0xdf,0x18,0x72,0x80
 
-# ATT:   vcvtneph2hf8s %xmm23, %xmm22
-# INTEL: vcvtneph2hf8s xmm22, xmm23
+# ATT:   vcvtph2hf8s %xmm23, %xmm22
+# INTEL: vcvtph2hf8s xmm22, xmm23
 0x62,0xa5,0x7e,0x08,0x1b,0xf7
 
-# ATT:   vcvtneph2hf8s %xmm23, %xmm22 {%k7}
-# INTEL: vcvtneph2hf8s xmm22 {k7}, xmm23
+# ATT:   vcvtph2hf8s %xmm23, %xmm22 {%k7}
+# INTEL: vcvtph2hf8s xmm22 {k7}, xmm23
 0x62,0xa5,0x7e,0x0f,0x1b,0xf7
 
-# ATT:   vcvtneph2hf8s %xmm23, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm22 {k7} {z}, xmm23
+# ATT:   vcvtph2hf8s %xmm23, %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm22 {k7} {z}, xmm23
 0x62,0xa5,0x7e,0x8f,0x1b,0xf7
 
-# ATT:   vcvtneph2hf8s %zmm23, %ymm22
-# INTEL: vcvtneph2hf8s ymm22, zmm23
+# ATT:   vcvtph2hf8s %zmm23, %ymm22
+# INTEL: vcvtph2hf8s ymm22, zmm23
 0x62,0xa5,0x7e,0x48,0x1b,0xf7
 
-# ATT:   vcvtneph2hf8s %zmm23, %ymm22 {%k7}
-# INTEL: vcvtneph2hf8s ymm22 {k7}, zmm23
+# ATT:   vcvtph2hf8s %zmm23, %ymm22 {%k7}
+# INTEL: vcvtph2hf8s ymm22 {k7}, zmm23
 0x62,0xa5,0x7e,0x4f,0x1b,0xf7
 
-# ATT:   vcvtneph2hf8s %zmm23, %ymm22 {%k7} {z}
-# INTEL: vcvtneph2hf8s ymm22 {k7} {z}, zmm23
+# ATT:   vcvtph2hf8s %zmm23, %ymm22 {%k7} {z}
+# INTEL: vcvtph2hf8s ymm22 {k7} {z}, zmm23
 0x62,0xa5,0x7e,0xcf,0x1b,0xf7
 
-# ATT:   vcvtneph2hf8s %ymm23, %xmm22
-# INTEL: vcvtneph2hf8s xmm22, ymm23
+# ATT:   vcvtph2hf8s %ymm23, %xmm22
+# INTEL: vcvtph2hf8s xmm22, ymm23
 0x62,0xa5,0x7e,0x28,0x1b,0xf7
 
-# ATT:   vcvtneph2hf8s %ymm23, %xmm22 {%k7}
-# INTEL: vcvtneph2hf8s xmm22 {k7}, ymm23
+# ATT:   vcvtph2hf8s %ymm23, %xmm22 {%k7}
+# INTEL: vcvtph2hf8s xmm22 {k7}, ymm23
 0x62,0xa5,0x7e,0x2f,0x1b,0xf7
 
-# ATT:   vcvtneph2hf8s %ymm23, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm22 {k7} {z}, ymm23
+# ATT:   vcvtph2hf8s %ymm23, %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm22 {k7} {z}, ymm23
 0x62,0xa5,0x7e,0xaf,0x1b,0xf7
 
-# ATT:   vcvtneph2hf8sx  268435456(%rbp,%r14,8), %xmm22
-# INTEL: vcvtneph2hf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvtph2hf8sx  268435456(%rbp,%r14,8), %xmm22
+# INTEL: vcvtph2hf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7e,0x08,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2hf8sx  291(%r8,%rax,4), %xmm22 {%k7}
-# INTEL: vcvtneph2hf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvtph2hf8sx  291(%r8,%rax,4), %xmm22 {%k7}
+# INTEL: vcvtph2hf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7e,0x0f,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2hf8s  (%rip){1to8}, %xmm22
-# INTEL: vcvtneph2hf8s xmm22, word ptr [rip]{1to8}
+# ATT:   vcvtph2hf8s  (%rip){1to8}, %xmm22
+# INTEL: vcvtph2hf8s xmm22, word ptr [rip]{1to8}
 0x62,0xe5,0x7e,0x18,0x1b,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2hf8sx  -512(,%rbp,2), %xmm22
-# INTEL: vcvtneph2hf8s xmm22, xmmword ptr [2*rbp - 512]
+# ATT:   vcvtph2hf8sx  -512(,%rbp,2), %xmm22
+# INTEL: vcvtph2hf8s xmm22, xmmword ptr [2*rbp - 512]
 0x62,0xe5,0x7e,0x08,0x1b,0x34,0x6d,0x00,0xfe,0xff,0xff
 
-# ATT:   vcvtneph2hf8sx  2032(%rcx), %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+# ATT:   vcvtph2hf8sx  2032(%rcx), %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 0x62,0xe5,0x7e,0x8f,0x1b,0x71,0x7f
 
-# ATT:   vcvtneph2hf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+# ATT:   vcvtph2hf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 0x62,0xe5,0x7e,0x9f,0x1b,0x72,0x80
 
-# ATT:   vcvtneph2hf8s  (%rip){1to16}, %xmm22
-# INTEL: vcvtneph2hf8s xmm22, word ptr [rip]{1to16}
+# ATT:   vcvtph2hf8s  (%rip){1to16}, %xmm22
+# INTEL: vcvtph2hf8s xmm22, word ptr [rip]{1to16}
 0x62,0xe5,0x7e,0x38,0x1b,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2hf8sy  -1024(,%rbp,2), %xmm22
-# INTEL: vcvtneph2hf8s xmm22, ymmword ptr [2*rbp - 1024]
+# ATT:   vcvtph2hf8sy  -1024(,%rbp,2), %xmm22
+# INTEL: vcvtph2hf8s xmm22, ymmword ptr [2*rbp - 1024]
 0x62,0xe5,0x7e,0x28,0x1b,0x34,0x6d,0x00,0xfc,0xff,0xff
 
-# ATT:   vcvtneph2hf8sy  4064(%rcx), %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+# ATT:   vcvtph2hf8sy  4064(%rcx), %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 0x62,0xe5,0x7e,0xaf,0x1b,0x71,0x7f
 
-# ATT:   vcvtneph2hf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
-# INTEL: vcvtneph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+# ATT:   vcvtph2hf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+# INTEL: vcvtph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 0x62,0xe5,0x7e,0xbf,0x1b,0x72,0x80
 
-# ATT:   vcvtneph2hf8s  268435456(%rbp,%r14,8), %ymm22
-# INTEL: vcvtneph2hf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+# ATT:   vcvtph2hf8s  268435456(%rbp,%r14,8), %ymm22
+# INTEL: vcvtph2hf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 0x62,0xa5,0x7e,0x48,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10
 
-# ATT:   vcvtneph2hf8s  291(%r8,%rax,4), %ymm22 {%k7}
-# INTEL: vcvtneph2hf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+# ATT:   vcvtph2hf8s  291(%r8,%rax,4), %ymm22 {%k7}
+# INTEL: vcvtph2hf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 0x62,0xc5,0x7e,0x4f,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00
 
-# ATT:   vcvtneph2hf8s  (%rip){1to32}, %ymm22
-# INTEL: vcvtneph2hf8s ymm22, word ptr [rip]{1to32}
+# ATT:   vcvtph2hf8s  (%rip){1to32}, %ymm22
+# INTEL: vcvtph2hf8s ymm22, word ptr [rip]{1to32}
 0x62,0xe5,0x7e,0x58,0x1b,0x35,0x00,0x00,0x00,0x00
 
-# ATT:   vcvtneph2hf8s  -2048(,%rbp,2), %ymm22
-# INTEL: vcvtneph2hf8s ymm22, zmmword ptr [2*rbp - 2048]
+# ATT:   vcvtph2hf8s  -2048(,%rbp,2), %ymm22
+# INTEL: vcvtph2hf8s ymm22, zmmword ptr [2*rbp - 2048]
 0x62,0xe5,0x7e,0x48,0x1b,0x34,0x6d,0x00,0xf8,0xff,0xff
 
-# ATT:   vcvtneph2hf8s  8128(%rcx), %ymm22 {%k7} {z}
-# INTEL: vcvtneph2hf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+# ATT:   vcvtph2hf8s  8128(%rcx), %ymm22 {%k7} {z}
+# INTEL: vcvtph2hf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 0x62,0xe5,0x7e,0xcf,0x1b,0x71,0x7f
 
-# ATT:   vcvtneph2hf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
-# INTEL: vcvtneph2hf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+# ATT:   vcvtph2hf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+# INTEL: vcvtph2hf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 0x62,0xe5,0x7e,0xdf,0x1b,0x72,0x80
 
diff --git a/llvm/test/MC/RISCV/rvv/xsfvfwmacc-invalid.s b/llvm/test/MC/RISCV/rvv/xsfvfwmacc-invalid.s
new file mode 100644
index 0000000000000..452778613adf6
--- /dev/null
+++ b/llvm/test/MC/RISCV/rvv/xsfvfwmacc-invalid.s
@@ -0,0 +1,10 @@
+# RUN: not llvm-mc -triple=riscv64 -show-encoding -mattr=+v,+xsfvfwmaccqqq %s 2>&1 \
+# RUN:        | FileCheck %s --check-prefixes=CHECK-ERROR
+
+sf.vfwmacc.4x4x4 v8, v8, v20
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vfwmacc.4x4x4 v8, v8, v20{{$}}
+
+sf.vfwmacc.4x4x4 v8, v4, v8
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vfwmacc.4x4x4 v8, v4, v8{{$}}
diff --git a/llvm/test/MC/RISCV/rvv/xsfvqmacc-invalid.s b/llvm/test/MC/RISCV/rvv/xsfvqmacc-invalid.s
new file mode 100644
index 0000000000000..a7cbfbcb1f365
--- /dev/null
+++ b/llvm/test/MC/RISCV/rvv/xsfvqmacc-invalid.s
@@ -0,0 +1,50 @@
+# RUN: not llvm-mc -triple=riscv64 -show-encoding -mattr=+v,+xsfvqmaccqoq,+xsfvqmaccdod %s 2>&1 \
+# RUN:        | FileCheck %s --check-prefix=CHECK-ERROR
+
+sf.vqmaccu.2x8x2 v8, v8, v20
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmaccu.2x8x2 v8, v8, v20
+
+sf.vqmacc.2x8x2 v8, v8, v20
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmacc.2x8x2 v8, v8, v20
+
+sf.vqmaccus.2x8x2 v8, v8, v20
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmaccus.2x8x2 v8, v8, v20
+
+sf.vqmaccsu.2x8x2 v8, v8, v20
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmaccsu.2x8x2 v8, v8, v20
+
+sf.vqmaccu.4x8x4 v8, v8, v20
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmaccu.4x8x4 v8, v8, v20
+
+sf.vqmacc.4x8x4 v8, v8, v20
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmacc.4x8x4 v8, v8, v20
+
+sf.vqmaccus.4x8x4 v8, v8, v20
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmaccus.4x8x4 v8, v8, v20
+
+sf.vqmaccsu.4x8x4 v8, v8, v20
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmaccsu.4x8x4 v8, v8, v20
+
+sf.vqmaccu.4x8x4 v8, v4, v8
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmaccu.4x8x4 v8, v4, v8
+
+sf.vqmacc.4x8x4 v8, v4, v8
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmacc.4x8x4 v8, v4, v8
+
+sf.vqmaccus.4x8x4 v8, v4, v8
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmaccus.4x8x4 v8, v4, v8
+
+sf.vqmaccsu.4x8x4 v8, v4, v8
+# CHECK-ERROR: the destination vector register group cannot overlap the source vector register group{{$}}
+# CHECK-ERROR-LABEL: sf.vqmaccsu.4x8x4 v8, v4, v8
diff --git a/llvm/test/MC/X86/avx10.2-bf16-32-att.s b/llvm/test/MC/X86/avx10.2-bf16-32-att.s
index 9f62743177c9b..e1e82623d838c 100644
--- a/llvm/test/MC/X86/avx10.2-bf16-32-att.s
+++ b/llvm/test/MC/X86/avx10.2-bf16-32-att.s
@@ -1,3014 +1,3014 @@
 // RUN: llvm-mc -triple i386 --show-encoding %s | FileCheck %s
 
-// CHECK: vaddnepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vaddbf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x58,0xd4]
-          vaddnepbf16 %ymm4, %ymm3, %ymm2
+          vaddbf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vaddnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vaddbf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x58,0xd4]
-          vaddnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vaddbf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vaddnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vaddbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x58,0xd4]
-          vaddnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vaddbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vaddnepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vaddbf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x58,0xd4]
-          vaddnepbf16 %zmm4, %zmm3, %zmm2
+          vaddbf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vaddnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vaddbf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x58,0xd4]
-          vaddnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vaddbf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vaddnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vaddbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x58,0xd4]
-          vaddnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vaddbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vaddnepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vaddbf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x58,0xd4]
-          vaddnepbf16 %xmm4, %xmm3, %xmm2
+          vaddbf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vaddnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vaddbf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x58,0xd4]
-          vaddnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vaddbf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vaddnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vaddbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x58,0xd4]
-          vaddnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vaddbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vaddnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vaddbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x58,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vaddnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vaddbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vaddnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vaddbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x58,0x94,0x87,0x23,0x01,0x00,0x00]
-          vaddnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vaddbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vaddnepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vaddbf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x58,0x10]
-          vaddnepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vaddbf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vaddnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vaddbf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x58,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vaddnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vaddbf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vaddnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vaddbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x58,0x51,0x7f]
-          vaddnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vaddbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vaddnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vaddbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x58,0x52,0x80]
-          vaddnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vaddbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vaddnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vaddbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x58,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vaddnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vaddbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vaddnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vaddbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x58,0x94,0x87,0x23,0x01,0x00,0x00]
-          vaddnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vaddbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vaddnepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vaddbf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x58,0x10]
-          vaddnepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vaddbf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vaddnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vaddbf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x58,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vaddnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vaddbf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vaddnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vaddbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x58,0x51,0x7f]
-          vaddnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vaddbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vaddnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vaddbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x58,0x52,0x80]
-          vaddnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vaddbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vaddnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vaddbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x58,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vaddnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vaddbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vaddnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vaddbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x58,0x94,0x87,0x23,0x01,0x00,0x00]
-          vaddnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vaddbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vaddnepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vaddbf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x58,0x10]
-          vaddnepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vaddbf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vaddnepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vaddbf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x58,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vaddnepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vaddbf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vaddnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vaddbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x58,0x51,0x7f]
-          vaddnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vaddbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vaddnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vaddbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x58,0x52,0x80]
-          vaddnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vaddbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcmppbf16 $123, %ymm4, %ymm3, %k5
+// CHECK: vcmpbf16 $123, %ymm4, %ymm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x28,0xc2,0xec,0x7b]
-          vcmppbf16 $123, %ymm4, %ymm3, %k5
+          vcmpbf16 $123, %ymm4, %ymm3, %k5
 
-// CHECK: vcmppbf16 $123, %ymm4, %ymm3, %k5 {%k7}
+// CHECK: vcmpbf16 $123, %ymm4, %ymm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x2f,0xc2,0xec,0x7b]
-          vcmppbf16 $123, %ymm4, %ymm3, %k5 {%k7}
+          vcmpbf16 $123, %ymm4, %ymm3, %k5 {%k7}
 
-// CHECK: vcmppbf16 $123, %xmm4, %xmm3, %k5
+// CHECK: vcmpbf16 $123, %xmm4, %xmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x08,0xc2,0xec,0x7b]
-          vcmppbf16 $123, %xmm4, %xmm3, %k5
+          vcmpbf16 $123, %xmm4, %xmm3, %k5
 
-// CHECK: vcmppbf16 $123, %xmm4, %xmm3, %k5 {%k7}
+// CHECK: vcmpbf16 $123, %xmm4, %xmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x0f,0xc2,0xec,0x7b]
-          vcmppbf16 $123, %xmm4, %xmm3, %k5 {%k7}
+          vcmpbf16 $123, %xmm4, %xmm3, %k5 {%k7}
 
-// CHECK: vcmppbf16 $123, %zmm4, %zmm3, %k5
+// CHECK: vcmpbf16 $123, %zmm4, %zmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x48,0xc2,0xec,0x7b]
-          vcmppbf16 $123, %zmm4, %zmm3, %k5
+          vcmpbf16 $123, %zmm4, %zmm3, %k5
 
-// CHECK: vcmppbf16 $123, %zmm4, %zmm3, %k5 {%k7}
+// CHECK: vcmpbf16 $123, %zmm4, %zmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x4f,0xc2,0xec,0x7b]
-          vcmppbf16 $123, %zmm4, %zmm3, %k5 {%k7}
+          vcmpbf16 $123, %zmm4, %zmm3, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, 268435456(%esp,%esi,8), %zmm3, %k5
+// CHECK: vcmpbf16  $123, 268435456(%esp,%esi,8), %zmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x48,0xc2,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16  $123, 268435456(%esp,%esi,8), %zmm3, %k5
+          vcmpbf16  $123, 268435456(%esp,%esi,8), %zmm3, %k5
 
-// CHECK: vcmppbf16  $123, 291(%edi,%eax,4), %zmm3, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 291(%edi,%eax,4), %zmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x4f,0xc2,0xac,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16  $123, 291(%edi,%eax,4), %zmm3, %k5 {%k7}
+          vcmpbf16  $123, 291(%edi,%eax,4), %zmm3, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, (%eax){1to32}, %zmm3, %k5
+// CHECK: vcmpbf16  $123, (%eax){1to32}, %zmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x58,0xc2,0x28,0x7b]
-          vcmppbf16  $123, (%eax){1to32}, %zmm3, %k5
+          vcmpbf16  $123, (%eax){1to32}, %zmm3, %k5
 
-// CHECK: vcmppbf16  $123, -2048(,%ebp,2), %zmm3, %k5
+// CHECK: vcmpbf16  $123, -2048(,%ebp,2), %zmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x48,0xc2,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vcmppbf16  $123, -2048(,%ebp,2), %zmm3, %k5
+          vcmpbf16  $123, -2048(,%ebp,2), %zmm3, %k5
 
-// CHECK: vcmppbf16  $123, 8128(%ecx), %zmm3, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 8128(%ecx), %zmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x4f,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16  $123, 8128(%ecx), %zmm3, %k5 {%k7}
+          vcmpbf16  $123, 8128(%ecx), %zmm3, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, -256(%edx){1to32}, %zmm3, %k5 {%k7}
+// CHECK: vcmpbf16  $123, -256(%edx){1to32}, %zmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x5f,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16  $123, -256(%edx){1to32}, %zmm3, %k5 {%k7}
+          vcmpbf16  $123, -256(%edx){1to32}, %zmm3, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, 268435456(%esp,%esi,8), %xmm3, %k5
+// CHECK: vcmpbf16  $123, 268435456(%esp,%esi,8), %xmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x08,0xc2,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16  $123, 268435456(%esp,%esi,8), %xmm3, %k5
+          vcmpbf16  $123, 268435456(%esp,%esi,8), %xmm3, %k5
 
-// CHECK: vcmppbf16  $123, 291(%edi,%eax,4), %xmm3, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 291(%edi,%eax,4), %xmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x0f,0xc2,0xac,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16  $123, 291(%edi,%eax,4), %xmm3, %k5 {%k7}
+          vcmpbf16  $123, 291(%edi,%eax,4), %xmm3, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, (%eax){1to8}, %xmm3, %k5
+// CHECK: vcmpbf16  $123, (%eax){1to8}, %xmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x18,0xc2,0x28,0x7b]
-          vcmppbf16  $123, (%eax){1to8}, %xmm3, %k5
+          vcmpbf16  $123, (%eax){1to8}, %xmm3, %k5
 
-// CHECK: vcmppbf16  $123, -512(,%ebp,2), %xmm3, %k5
+// CHECK: vcmpbf16  $123, -512(,%ebp,2), %xmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x08,0xc2,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vcmppbf16  $123, -512(,%ebp,2), %xmm3, %k5
+          vcmpbf16  $123, -512(,%ebp,2), %xmm3, %k5
 
-// CHECK: vcmppbf16  $123, 2032(%ecx), %xmm3, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 2032(%ecx), %xmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x0f,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16  $123, 2032(%ecx), %xmm3, %k5 {%k7}
+          vcmpbf16  $123, 2032(%ecx), %xmm3, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, -256(%edx){1to8}, %xmm3, %k5 {%k7}
+// CHECK: vcmpbf16  $123, -256(%edx){1to8}, %xmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x1f,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16  $123, -256(%edx){1to8}, %xmm3, %k5 {%k7}
+          vcmpbf16  $123, -256(%edx){1to8}, %xmm3, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, 268435456(%esp,%esi,8), %ymm3, %k5
+// CHECK: vcmpbf16  $123, 268435456(%esp,%esi,8), %ymm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x28,0xc2,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16  $123, 268435456(%esp,%esi,8), %ymm3, %k5
+          vcmpbf16  $123, 268435456(%esp,%esi,8), %ymm3, %k5
 
-// CHECK: vcmppbf16  $123, 291(%edi,%eax,4), %ymm3, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 291(%edi,%eax,4), %ymm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x2f,0xc2,0xac,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16  $123, 291(%edi,%eax,4), %ymm3, %k5 {%k7}
+          vcmpbf16  $123, 291(%edi,%eax,4), %ymm3, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, (%eax){1to16}, %ymm3, %k5
+// CHECK: vcmpbf16  $123, (%eax){1to16}, %ymm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x38,0xc2,0x28,0x7b]
-          vcmppbf16  $123, (%eax){1to16}, %ymm3, %k5
+          vcmpbf16  $123, (%eax){1to16}, %ymm3, %k5
 
-// CHECK: vcmppbf16  $123, -1024(,%ebp,2), %ymm3, %k5
+// CHECK: vcmpbf16  $123, -1024(,%ebp,2), %ymm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x67,0x28,0xc2,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vcmppbf16  $123, -1024(,%ebp,2), %ymm3, %k5
+          vcmpbf16  $123, -1024(,%ebp,2), %ymm3, %k5
 
-// CHECK: vcmppbf16  $123, 4064(%ecx), %ymm3, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 4064(%ecx), %ymm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x2f,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16  $123, 4064(%ecx), %ymm3, %k5 {%k7}
+          vcmpbf16  $123, 4064(%ecx), %ymm3, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, -256(%edx){1to16}, %ymm3, %k5 {%k7}
+// CHECK: vcmpbf16  $123, -256(%edx){1to16}, %ymm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x67,0x3f,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16  $123, -256(%edx){1to16}, %ymm3, %k5 {%k7}
+          vcmpbf16  $123, -256(%edx){1to16}, %ymm3, %k5 {%k7}
 
-// CHECK: vcomsbf16 %xmm3, %xmm2
+// CHECK: vcomisbf16 %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xd3]
-          vcomsbf16 %xmm3, %xmm2
+          vcomisbf16 %xmm3, %xmm2
 
-// CHECK: vcomsbf16  268435456(%esp,%esi,8), %xmm2
+// CHECK: vcomisbf16  268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcomsbf16  268435456(%esp,%esi,8), %xmm2
+          vcomisbf16  268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vcomsbf16  291(%edi,%eax,4), %xmm2
+// CHECK: vcomisbf16  291(%edi,%eax,4), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcomsbf16  291(%edi,%eax,4), %xmm2
+          vcomisbf16  291(%edi,%eax,4), %xmm2
 
-// CHECK: vcomsbf16  (%eax), %xmm2
+// CHECK: vcomisbf16  (%eax), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x10]
-          vcomsbf16  (%eax), %xmm2
+          vcomisbf16  (%eax), %xmm2
 
-// CHECK: vcomsbf16  -64(,%ebp,2), %xmm2
+// CHECK: vcomisbf16  -64(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x14,0x6d,0xc0,0xff,0xff,0xff]
-          vcomsbf16  -64(,%ebp,2), %xmm2
+          vcomisbf16  -64(,%ebp,2), %xmm2
 
-// CHECK: vcomsbf16  254(%ecx), %xmm2
+// CHECK: vcomisbf16  254(%ecx), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x51,0x7f]
-          vcomsbf16  254(%ecx), %xmm2
+          vcomisbf16  254(%ecx), %xmm2
 
-// CHECK: vcomsbf16  -256(%edx), %xmm2
+// CHECK: vcomisbf16  -256(%edx), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x52,0x80]
-          vcomsbf16  -256(%edx), %xmm2
+          vcomisbf16  -256(%edx), %xmm2
 
-// CHECK: vdivnepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vdivbf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5e,0xd4]
-          vdivnepbf16 %ymm4, %ymm3, %ymm2
+          vdivbf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vdivnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vdivbf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5e,0xd4]
-          vdivnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vdivbf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vdivnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vdivbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5e,0xd4]
-          vdivnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vdivbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vdivnepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vdivbf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5e,0xd4]
-          vdivnepbf16 %zmm4, %zmm3, %zmm2
+          vdivbf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vdivnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vdivbf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5e,0xd4]
-          vdivnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vdivbf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vdivnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vdivbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5e,0xd4]
-          vdivnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vdivbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vdivnepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vdivbf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5e,0xd4]
-          vdivnepbf16 %xmm4, %xmm3, %xmm2
+          vdivbf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vdivnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vdivbf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5e,0xd4]
-          vdivnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vdivbf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vdivnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vdivbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5e,0xd4]
-          vdivnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vdivbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vdivnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vdivbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vdivnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vdivbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vdivnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vdivbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vdivnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vdivbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vdivnepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vdivbf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x5e,0x10]
-          vdivnepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vdivbf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vdivnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vdivbf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5e,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vdivnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vdivbf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vdivnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vdivbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5e,0x51,0x7f]
-          vdivnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vdivbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vdivnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vdivbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x5e,0x52,0x80]
-          vdivnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vdivbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vdivnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vdivbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vdivnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vdivbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vdivnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vdivbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vdivnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vdivbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vdivnepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vdivbf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x5e,0x10]
-          vdivnepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vdivbf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vdivnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vdivbf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5e,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vdivnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vdivbf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vdivnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vdivbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5e,0x51,0x7f]
-          vdivnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vdivbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vdivnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vdivbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x5e,0x52,0x80]
-          vdivnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vdivbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vdivnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vdivbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vdivnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vdivbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vdivnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vdivbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vdivnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vdivbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vdivnepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vdivbf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x5e,0x10]
-          vdivnepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vdivbf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vdivnepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vdivbf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5e,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vdivnepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vdivbf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vdivnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vdivbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5e,0x51,0x7f]
-          vdivnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vdivbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vdivnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vdivbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x5e,0x52,0x80]
-          vdivnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vdivbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfmadd132bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x98,0xd4]
-          vfmadd132nepbf16 %ymm4, %ymm3, %ymm2
+          vfmadd132bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x98,0xd4]
-          vfmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x98,0xd4]
-          vfmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfmadd132bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x98,0xd4]
-          vfmadd132nepbf16 %zmm4, %zmm3, %zmm2
+          vfmadd132bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x98,0xd4]
-          vfmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x98,0xd4]
-          vfmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfmadd132bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x98,0xd4]
-          vfmadd132nepbf16 %xmm4, %xmm3, %xmm2
+          vfmadd132bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x98,0xd4]
-          vfmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x98,0xd4]
-          vfmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfmadd132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x98,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfmadd132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfmadd132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfmadd132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x98,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfmadd132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmadd132nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfmadd132bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x98,0x10]
-          vfmadd132nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfmadd132bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfmadd132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfmadd132bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x98,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfmadd132bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfmadd132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmadd132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x98,0x51,0x7f]
-          vfmadd132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfmadd132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmadd132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x98,0x52,0x80]
-          vfmadd132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfmadd132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfmadd132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x98,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfmadd132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfmadd132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfmadd132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x98,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfmadd132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmadd132nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfmadd132bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x98,0x10]
-          vfmadd132nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfmadd132bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfmadd132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfmadd132bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x98,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfmadd132bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfmadd132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmadd132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x98,0x51,0x7f]
-          vfmadd132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfmadd132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmadd132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x98,0x52,0x80]
-          vfmadd132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfmadd132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfmadd132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x98,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfmadd132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfmadd132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfmadd132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x98,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfmadd132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmadd132nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfmadd132bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x98,0x10]
-          vfmadd132nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfmadd132bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfmadd132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfmadd132bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x98,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfmadd132bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfmadd132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmadd132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x98,0x51,0x7f]
-          vfmadd132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfmadd132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmadd132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x98,0x52,0x80]
-          vfmadd132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfmadd132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfmadd213bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xa8,0xd4]
-          vfmadd213nepbf16 %ymm4, %ymm3, %ymm2
+          vfmadd213bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xa8,0xd4]
-          vfmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xa8,0xd4]
-          vfmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfmadd213bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xa8,0xd4]
-          vfmadd213nepbf16 %zmm4, %zmm3, %zmm2
+          vfmadd213bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xa8,0xd4]
-          vfmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xa8,0xd4]
-          vfmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfmadd213bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xa8,0xd4]
-          vfmadd213nepbf16 %xmm4, %xmm3, %xmm2
+          vfmadd213bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xa8,0xd4]
-          vfmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xa8,0xd4]
-          vfmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfmadd213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xa8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfmadd213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfmadd213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfmadd213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xa8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfmadd213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmadd213nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfmadd213bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xa8,0x10]
-          vfmadd213nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfmadd213bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfmadd213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfmadd213bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xa8,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfmadd213bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfmadd213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmadd213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xa8,0x51,0x7f]
-          vfmadd213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfmadd213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmadd213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xa8,0x52,0x80]
-          vfmadd213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfmadd213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfmadd213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xa8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfmadd213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfmadd213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfmadd213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xa8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfmadd213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmadd213nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfmadd213bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xa8,0x10]
-          vfmadd213nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfmadd213bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfmadd213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfmadd213bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xa8,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfmadd213bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfmadd213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmadd213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xa8,0x51,0x7f]
-          vfmadd213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfmadd213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmadd213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xa8,0x52,0x80]
-          vfmadd213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfmadd213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfmadd213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xa8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfmadd213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfmadd213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfmadd213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xa8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfmadd213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmadd213nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfmadd213bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xa8,0x10]
-          vfmadd213nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfmadd213bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfmadd213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfmadd213bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xa8,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfmadd213bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfmadd213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmadd213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xa8,0x51,0x7f]
-          vfmadd213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfmadd213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmadd213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xa8,0x52,0x80]
-          vfmadd213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfmadd213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfmadd231bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xb8,0xd4]
-          vfmadd231nepbf16 %ymm4, %ymm3, %ymm2
+          vfmadd231bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xb8,0xd4]
-          vfmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xb8,0xd4]
-          vfmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfmadd231bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xb8,0xd4]
-          vfmadd231nepbf16 %zmm4, %zmm3, %zmm2
+          vfmadd231bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xb8,0xd4]
-          vfmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xb8,0xd4]
-          vfmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfmadd231bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xb8,0xd4]
-          vfmadd231nepbf16 %xmm4, %xmm3, %xmm2
+          vfmadd231bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xb8,0xd4]
-          vfmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xb8,0xd4]
-          vfmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfmadd231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xb8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfmadd231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfmadd231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfmadd231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xb8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfmadd231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmadd231nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfmadd231bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xb8,0x10]
-          vfmadd231nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfmadd231bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfmadd231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfmadd231bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xb8,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfmadd231bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfmadd231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmadd231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xb8,0x51,0x7f]
-          vfmadd231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfmadd231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmadd231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xb8,0x52,0x80]
-          vfmadd231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfmadd231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfmadd231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xb8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfmadd231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfmadd231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfmadd231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xb8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfmadd231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmadd231nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfmadd231bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xb8,0x10]
-          vfmadd231nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfmadd231bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfmadd231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfmadd231bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xb8,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfmadd231bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfmadd231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmadd231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xb8,0x51,0x7f]
-          vfmadd231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfmadd231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmadd231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xb8,0x52,0x80]
-          vfmadd231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfmadd231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfmadd231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xb8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfmadd231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfmadd231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfmadd231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xb8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfmadd231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmadd231nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfmadd231bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xb8,0x10]
-          vfmadd231nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfmadd231bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfmadd231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfmadd231bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xb8,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfmadd231bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfmadd231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmadd231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xb8,0x51,0x7f]
-          vfmadd231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfmadd231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmadd231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xb8,0x52,0x80]
-          vfmadd231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfmadd231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfmsub132bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9a,0xd4]
-          vfmsub132nepbf16 %ymm4, %ymm3, %ymm2
+          vfmsub132bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9a,0xd4]
-          vfmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9a,0xd4]
-          vfmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfmsub132bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9a,0xd4]
-          vfmsub132nepbf16 %zmm4, %zmm3, %zmm2
+          vfmsub132bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9a,0xd4]
-          vfmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9a,0xd4]
-          vfmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfmsub132bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9a,0xd4]
-          vfmsub132nepbf16 %xmm4, %xmm3, %xmm2
+          vfmsub132bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9a,0xd4]
-          vfmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9a,0xd4]
-          vfmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfmsub132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9a,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfmsub132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfmsub132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfmsub132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9a,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfmsub132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmsub132nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfmsub132bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x9a,0x10]
-          vfmsub132nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfmsub132bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfmsub132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfmsub132bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9a,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfmsub132bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfmsub132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmsub132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9a,0x51,0x7f]
-          vfmsub132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfmsub132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmsub132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x9a,0x52,0x80]
-          vfmsub132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfmsub132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfmsub132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9a,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfmsub132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfmsub132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfmsub132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9a,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfmsub132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmsub132nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfmsub132bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x9a,0x10]
-          vfmsub132nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfmsub132bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfmsub132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfmsub132bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9a,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfmsub132bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfmsub132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmsub132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9a,0x51,0x7f]
-          vfmsub132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfmsub132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmsub132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x9a,0x52,0x80]
-          vfmsub132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfmsub132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfmsub132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9a,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfmsub132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfmsub132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfmsub132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9a,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfmsub132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmsub132nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfmsub132bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x9a,0x10]
-          vfmsub132nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfmsub132bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfmsub132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfmsub132bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9a,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfmsub132bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfmsub132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmsub132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9a,0x51,0x7f]
-          vfmsub132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfmsub132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmsub132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x9a,0x52,0x80]
-          vfmsub132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfmsub132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfmsub213bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xaa,0xd4]
-          vfmsub213nepbf16 %ymm4, %ymm3, %ymm2
+          vfmsub213bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xaa,0xd4]
-          vfmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xaa,0xd4]
-          vfmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfmsub213bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xaa,0xd4]
-          vfmsub213nepbf16 %zmm4, %zmm3, %zmm2
+          vfmsub213bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xaa,0xd4]
-          vfmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xaa,0xd4]
-          vfmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfmsub213bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xaa,0xd4]
-          vfmsub213nepbf16 %xmm4, %xmm3, %xmm2
+          vfmsub213bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xaa,0xd4]
-          vfmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xaa,0xd4]
-          vfmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfmsub213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xaa,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfmsub213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfmsub213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfmsub213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xaa,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfmsub213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmsub213nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfmsub213bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xaa,0x10]
-          vfmsub213nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfmsub213bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfmsub213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfmsub213bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xaa,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfmsub213bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfmsub213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmsub213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xaa,0x51,0x7f]
-          vfmsub213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfmsub213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmsub213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xaa,0x52,0x80]
-          vfmsub213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfmsub213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfmsub213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xaa,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfmsub213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfmsub213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfmsub213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xaa,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfmsub213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmsub213nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfmsub213bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xaa,0x10]
-          vfmsub213nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfmsub213bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfmsub213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfmsub213bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xaa,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfmsub213bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfmsub213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmsub213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xaa,0x51,0x7f]
-          vfmsub213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfmsub213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmsub213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xaa,0x52,0x80]
-          vfmsub213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfmsub213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfmsub213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xaa,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfmsub213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfmsub213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfmsub213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xaa,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfmsub213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmsub213nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfmsub213bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xaa,0x10]
-          vfmsub213nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfmsub213bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfmsub213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfmsub213bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xaa,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfmsub213bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfmsub213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmsub213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xaa,0x51,0x7f]
-          vfmsub213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfmsub213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmsub213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xaa,0x52,0x80]
-          vfmsub213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfmsub213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfmsub231bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xba,0xd4]
-          vfmsub231nepbf16 %ymm4, %ymm3, %ymm2
+          vfmsub231bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xba,0xd4]
-          vfmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xba,0xd4]
-          vfmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfmsub231bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xba,0xd4]
-          vfmsub231nepbf16 %zmm4, %zmm3, %zmm2
+          vfmsub231bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xba,0xd4]
-          vfmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xba,0xd4]
-          vfmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfmsub231bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xba,0xd4]
-          vfmsub231nepbf16 %xmm4, %xmm3, %xmm2
+          vfmsub231bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xba,0xd4]
-          vfmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xba,0xd4]
-          vfmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfmsub231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xba,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfmsub231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfmsub231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfmsub231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xba,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfmsub231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfmsub231nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfmsub231bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xba,0x10]
-          vfmsub231nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfmsub231bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfmsub231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfmsub231bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xba,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfmsub231bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfmsub231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmsub231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xba,0x51,0x7f]
-          vfmsub231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfmsub231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfmsub231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xba,0x52,0x80]
-          vfmsub231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfmsub231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfmsub231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xba,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfmsub231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfmsub231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfmsub231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xba,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfmsub231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfmsub231nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfmsub231bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xba,0x10]
-          vfmsub231nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfmsub231bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfmsub231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfmsub231bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xba,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfmsub231bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfmsub231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmsub231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xba,0x51,0x7f]
-          vfmsub231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfmsub231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfmsub231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xba,0x52,0x80]
-          vfmsub231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfmsub231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfmsub231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xba,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfmsub231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfmsub231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfmsub231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xba,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfmsub231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfmsub231nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfmsub231bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xba,0x10]
-          vfmsub231nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfmsub231bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfmsub231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfmsub231bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xba,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfmsub231bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfmsub231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmsub231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xba,0x51,0x7f]
-          vfmsub231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfmsub231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfmsub231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xba,0x52,0x80]
-          vfmsub231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfmsub231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfnmadd132bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9c,0xd4]
-          vfnmadd132nepbf16 %ymm4, %ymm3, %ymm2
+          vfnmadd132bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfnmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfnmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9c,0xd4]
-          vfnmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfnmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9c,0xd4]
-          vfnmadd132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfnmadd132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfnmadd132bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9c,0xd4]
-          vfnmadd132nepbf16 %zmm4, %zmm3, %zmm2
+          vfnmadd132bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfnmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfnmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9c,0xd4]
-          vfnmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfnmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9c,0xd4]
-          vfnmadd132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfnmadd132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfnmadd132bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9c,0xd4]
-          vfnmadd132nepbf16 %xmm4, %xmm3, %xmm2
+          vfnmadd132bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfnmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfnmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9c,0xd4]
-          vfnmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfnmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9c,0xd4]
-          vfnmadd132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfnmadd132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfnmadd132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfnmadd132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfnmadd132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfnmadd132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfnmadd132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmadd132nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfnmadd132bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x9c,0x10]
-          vfnmadd132nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfnmadd132bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfnmadd132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfnmadd132bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9c,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfnmadd132bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfnmadd132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmadd132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9c,0x51,0x7f]
-          vfnmadd132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfnmadd132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmadd132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x9c,0x52,0x80]
-          vfnmadd132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfnmadd132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfnmadd132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfnmadd132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfnmadd132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfnmadd132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfnmadd132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmadd132nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfnmadd132bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x9c,0x10]
-          vfnmadd132nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfnmadd132bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfnmadd132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfnmadd132bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9c,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfnmadd132bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfnmadd132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmadd132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9c,0x51,0x7f]
-          vfnmadd132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfnmadd132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmadd132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x9c,0x52,0x80]
-          vfnmadd132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfnmadd132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfnmadd132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfnmadd132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfnmadd132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfnmadd132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfnmadd132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmadd132nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfnmadd132bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x9c,0x10]
-          vfnmadd132nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfnmadd132bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfnmadd132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfnmadd132bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9c,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfnmadd132bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfnmadd132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmadd132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9c,0x51,0x7f]
-          vfnmadd132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfnmadd132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmadd132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x9c,0x52,0x80]
-          vfnmadd132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfnmadd132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfnmadd213bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xac,0xd4]
-          vfnmadd213nepbf16 %ymm4, %ymm3, %ymm2
+          vfnmadd213bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfnmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfnmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xac,0xd4]
-          vfnmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfnmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xac,0xd4]
-          vfnmadd213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfnmadd213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfnmadd213bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xac,0xd4]
-          vfnmadd213nepbf16 %zmm4, %zmm3, %zmm2
+          vfnmadd213bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfnmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfnmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xac,0xd4]
-          vfnmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfnmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xac,0xd4]
-          vfnmadd213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfnmadd213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfnmadd213bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xac,0xd4]
-          vfnmadd213nepbf16 %xmm4, %xmm3, %xmm2
+          vfnmadd213bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfnmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfnmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xac,0xd4]
-          vfnmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfnmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xac,0xd4]
-          vfnmadd213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfnmadd213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfnmadd213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xac,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfnmadd213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfnmadd213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfnmadd213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xac,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfnmadd213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmadd213nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfnmadd213bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xac,0x10]
-          vfnmadd213nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfnmadd213bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfnmadd213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfnmadd213bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xac,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfnmadd213bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfnmadd213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmadd213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xac,0x51,0x7f]
-          vfnmadd213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfnmadd213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmadd213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xac,0x52,0x80]
-          vfnmadd213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfnmadd213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfnmadd213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xac,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfnmadd213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfnmadd213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfnmadd213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xac,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfnmadd213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmadd213nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfnmadd213bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xac,0x10]
-          vfnmadd213nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfnmadd213bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfnmadd213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfnmadd213bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xac,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfnmadd213bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfnmadd213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmadd213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xac,0x51,0x7f]
-          vfnmadd213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfnmadd213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmadd213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xac,0x52,0x80]
-          vfnmadd213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfnmadd213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfnmadd213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xac,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfnmadd213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfnmadd213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfnmadd213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xac,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfnmadd213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmadd213nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfnmadd213bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xac,0x10]
-          vfnmadd213nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfnmadd213bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfnmadd213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfnmadd213bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xac,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfnmadd213bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfnmadd213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmadd213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xac,0x51,0x7f]
-          vfnmadd213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfnmadd213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmadd213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xac,0x52,0x80]
-          vfnmadd213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfnmadd213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfnmadd231bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbc,0xd4]
-          vfnmadd231nepbf16 %ymm4, %ymm3, %ymm2
+          vfnmadd231bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfnmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfnmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xbc,0xd4]
-          vfnmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfnmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xbc,0xd4]
-          vfnmadd231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfnmadd231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfnmadd231bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbc,0xd4]
-          vfnmadd231nepbf16 %zmm4, %zmm3, %zmm2
+          vfnmadd231bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfnmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfnmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xbc,0xd4]
-          vfnmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfnmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xbc,0xd4]
-          vfnmadd231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfnmadd231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfnmadd231bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbc,0xd4]
-          vfnmadd231nepbf16 %xmm4, %xmm3, %xmm2
+          vfnmadd231bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfnmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfnmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xbc,0xd4]
-          vfnmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfnmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xbc,0xd4]
-          vfnmadd231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfnmadd231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfnmadd231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbc,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfnmadd231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfnmadd231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfnmadd231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xbc,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfnmadd231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmadd231nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfnmadd231bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xbc,0x10]
-          vfnmadd231nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfnmadd231bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfnmadd231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfnmadd231bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbc,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfnmadd231bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfnmadd231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmadd231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xbc,0x51,0x7f]
-          vfnmadd231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfnmadd231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmadd231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xbc,0x52,0x80]
-          vfnmadd231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfnmadd231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfnmadd231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbc,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfnmadd231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfnmadd231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfnmadd231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xbc,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfnmadd231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmadd231nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfnmadd231bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xbc,0x10]
-          vfnmadd231nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfnmadd231bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfnmadd231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfnmadd231bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbc,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfnmadd231bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfnmadd231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmadd231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xbc,0x51,0x7f]
-          vfnmadd231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfnmadd231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmadd231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xbc,0x52,0x80]
-          vfnmadd231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfnmadd231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfnmadd231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbc,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfnmadd231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfnmadd231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfnmadd231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xbc,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfnmadd231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmadd231nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfnmadd231bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xbc,0x10]
-          vfnmadd231nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfnmadd231bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfnmadd231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfnmadd231bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbc,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfnmadd231bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfnmadd231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmadd231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xbc,0x51,0x7f]
-          vfnmadd231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfnmadd231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmadd231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xbc,0x52,0x80]
-          vfnmadd231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfnmadd231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfnmsub132bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9e,0xd4]
-          vfnmsub132nepbf16 %ymm4, %ymm3, %ymm2
+          vfnmsub132bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfnmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfnmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9e,0xd4]
-          vfnmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfnmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9e,0xd4]
-          vfnmsub132nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfnmsub132bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfnmsub132bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9e,0xd4]
-          vfnmsub132nepbf16 %zmm4, %zmm3, %zmm2
+          vfnmsub132bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfnmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfnmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9e,0xd4]
-          vfnmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfnmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9e,0xd4]
-          vfnmsub132nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfnmsub132bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfnmsub132bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9e,0xd4]
-          vfnmsub132nepbf16 %xmm4, %xmm3, %xmm2
+          vfnmsub132bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfnmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfnmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9e,0xd4]
-          vfnmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfnmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9e,0xd4]
-          vfnmsub132nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfnmsub132bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfnmsub132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfnmsub132bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfnmsub132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfnmsub132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfnmsub132bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmsub132nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfnmsub132bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x9e,0x10]
-          vfnmsub132nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfnmsub132bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfnmsub132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfnmsub132bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9e,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub132nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfnmsub132bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfnmsub132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmsub132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9e,0x51,0x7f]
-          vfnmsub132nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfnmsub132bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmsub132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x9e,0x52,0x80]
-          vfnmsub132nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfnmsub132bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfnmsub132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfnmsub132bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfnmsub132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfnmsub132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfnmsub132bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmsub132nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfnmsub132bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x9e,0x10]
-          vfnmsub132nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfnmsub132bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfnmsub132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfnmsub132bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9e,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub132nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfnmsub132bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfnmsub132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmsub132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9e,0x51,0x7f]
-          vfnmsub132nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfnmsub132bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmsub132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x9e,0x52,0x80]
-          vfnmsub132nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfnmsub132bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfnmsub132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfnmsub132bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfnmsub132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfnmsub132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfnmsub132bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmsub132nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfnmsub132bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x9e,0x10]
-          vfnmsub132nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfnmsub132bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfnmsub132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfnmsub132bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9e,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub132nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfnmsub132bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfnmsub132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmsub132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9e,0x51,0x7f]
-          vfnmsub132nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfnmsub132bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmsub132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x9e,0x52,0x80]
-          vfnmsub132nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfnmsub132bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfnmsub213bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xae,0xd4]
-          vfnmsub213nepbf16 %ymm4, %ymm3, %ymm2
+          vfnmsub213bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfnmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfnmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xae,0xd4]
-          vfnmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfnmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xae,0xd4]
-          vfnmsub213nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfnmsub213bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfnmsub213bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xae,0xd4]
-          vfnmsub213nepbf16 %zmm4, %zmm3, %zmm2
+          vfnmsub213bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfnmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfnmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xae,0xd4]
-          vfnmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfnmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xae,0xd4]
-          vfnmsub213nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfnmsub213bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfnmsub213bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xae,0xd4]
-          vfnmsub213nepbf16 %xmm4, %xmm3, %xmm2
+          vfnmsub213bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfnmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfnmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xae,0xd4]
-          vfnmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfnmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xae,0xd4]
-          vfnmsub213nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfnmsub213bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfnmsub213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xae,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfnmsub213bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfnmsub213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfnmsub213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xae,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfnmsub213bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmsub213nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfnmsub213bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xae,0x10]
-          vfnmsub213nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfnmsub213bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfnmsub213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfnmsub213bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xae,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub213nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfnmsub213bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfnmsub213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmsub213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xae,0x51,0x7f]
-          vfnmsub213nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfnmsub213bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmsub213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xae,0x52,0x80]
-          vfnmsub213nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfnmsub213bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfnmsub213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xae,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfnmsub213bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfnmsub213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfnmsub213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xae,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfnmsub213bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmsub213nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfnmsub213bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xae,0x10]
-          vfnmsub213nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfnmsub213bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfnmsub213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfnmsub213bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xae,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub213nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfnmsub213bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfnmsub213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmsub213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xae,0x51,0x7f]
-          vfnmsub213nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfnmsub213bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmsub213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xae,0x52,0x80]
-          vfnmsub213nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfnmsub213bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfnmsub213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xae,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfnmsub213bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfnmsub213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfnmsub213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xae,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfnmsub213bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmsub213nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfnmsub213bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xae,0x10]
-          vfnmsub213nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfnmsub213bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfnmsub213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfnmsub213bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xae,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub213nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfnmsub213bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfnmsub213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmsub213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xae,0x51,0x7f]
-          vfnmsub213nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfnmsub213bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmsub213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xae,0x52,0x80]
-          vfnmsub213nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfnmsub213bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vfnmsub231bf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbe,0xd4]
-          vfnmsub231nepbf16 %ymm4, %ymm3, %ymm2
+          vfnmsub231bf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vfnmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vfnmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xbe,0xd4]
-          vfnmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vfnmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xbe,0xd4]
-          vfnmsub231nepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vfnmsub231bf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vfnmsub231bf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbe,0xd4]
-          vfnmsub231nepbf16 %zmm4, %zmm3, %zmm2
+          vfnmsub231bf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vfnmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vfnmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xbe,0xd4]
-          vfnmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vfnmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xbe,0xd4]
-          vfnmsub231nepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vfnmsub231bf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vfnmsub231bf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbe,0xd4]
-          vfnmsub231nepbf16 %xmm4, %xmm3, %xmm2
+          vfnmsub231bf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vfnmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vfnmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xbe,0xd4]
-          vfnmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vfnmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xbe,0xd4]
-          vfnmsub231nepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vfnmsub231bf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vfnmsub231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbe,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vfnmsub231bf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vfnmsub231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vfnmsub231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xbe,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vfnmsub231bf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vfnmsub231nepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vfnmsub231bf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xbe,0x10]
-          vfnmsub231nepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vfnmsub231bf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vfnmsub231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vfnmsub231bf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbe,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub231nepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vfnmsub231bf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vfnmsub231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmsub231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xbe,0x51,0x7f]
-          vfnmsub231nepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vfnmsub231bf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vfnmsub231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xbe,0x52,0x80]
-          vfnmsub231nepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vfnmsub231bf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vfnmsub231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbe,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vfnmsub231bf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vfnmsub231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vfnmsub231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xbe,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vfnmsub231bf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vfnmsub231nepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vfnmsub231bf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xbe,0x10]
-          vfnmsub231nepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vfnmsub231bf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vfnmsub231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vfnmsub231bf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbe,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub231nepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vfnmsub231bf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vfnmsub231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmsub231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xbe,0x51,0x7f]
-          vfnmsub231nepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vfnmsub231bf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vfnmsub231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xbe,0x52,0x80]
-          vfnmsub231nepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vfnmsub231bf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vfnmsub231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbe,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vfnmsub231bf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vfnmsub231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vfnmsub231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xbe,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vfnmsub231bf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vfnmsub231nepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vfnmsub231bf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xbe,0x10]
-          vfnmsub231nepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vfnmsub231bf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vfnmsub231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vfnmsub231bf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbe,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub231nepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vfnmsub231bf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vfnmsub231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmsub231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xbe,0x51,0x7f]
-          vfnmsub231nepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vfnmsub231bf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vfnmsub231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xbe,0x52,0x80]
-          vfnmsub231nepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vfnmsub231bf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vfpclasspbf16 $123, %zmm3, %k5
+// CHECK: vfpclassbf16 $123, %zmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x66,0xeb,0x7b]
-          vfpclasspbf16 $123, %zmm3, %k5
+          vfpclassbf16 $123, %zmm3, %k5
 
-// CHECK: vfpclasspbf16 $123, %zmm3, %k5 {%k7}
+// CHECK: vfpclassbf16 $123, %zmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x66,0xeb,0x7b]
-          vfpclasspbf16 $123, %zmm3, %k5 {%k7}
+          vfpclassbf16 $123, %zmm3, %k5 {%k7}
 
-// CHECK: vfpclasspbf16 $123, %ymm3, %k5
+// CHECK: vfpclassbf16 $123, %ymm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x66,0xeb,0x7b]
-          vfpclasspbf16 $123, %ymm3, %k5
+          vfpclassbf16 $123, %ymm3, %k5
 
-// CHECK: vfpclasspbf16 $123, %ymm3, %k5 {%k7}
+// CHECK: vfpclassbf16 $123, %ymm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x66,0xeb,0x7b]
-          vfpclasspbf16 $123, %ymm3, %k5 {%k7}
+          vfpclassbf16 $123, %ymm3, %k5 {%k7}
 
-// CHECK: vfpclasspbf16 $123, %xmm3, %k5
+// CHECK: vfpclassbf16 $123, %xmm3, %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x66,0xeb,0x7b]
-          vfpclasspbf16 $123, %xmm3, %k5
+          vfpclassbf16 $123, %xmm3, %k5
 
-// CHECK: vfpclasspbf16 $123, %xmm3, %k5 {%k7}
+// CHECK: vfpclassbf16 $123, %xmm3, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x66,0xeb,0x7b]
-          vfpclasspbf16 $123, %xmm3, %k5 {%k7}
+          vfpclassbf16 $123, %xmm3, %k5 {%k7}
 
-// CHECK: vfpclasspbf16x  $123, 268435456(%esp,%esi,8), %k5
+// CHECK: vfpclassbf16x  $123, 268435456(%esp,%esi,8), %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x66,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vfpclasspbf16x  $123, 268435456(%esp,%esi,8), %k5
+          vfpclassbf16x  $123, 268435456(%esp,%esi,8), %k5
 
-// CHECK: vfpclasspbf16x  $123, 291(%edi,%eax,4), %k5 {%k7}
+// CHECK: vfpclassbf16x  $123, 291(%edi,%eax,4), %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x66,0xac,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vfpclasspbf16x  $123, 291(%edi,%eax,4), %k5 {%k7}
+          vfpclassbf16x  $123, 291(%edi,%eax,4), %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, (%eax){1to8}, %k5
+// CHECK: vfpclassbf16  $123, (%eax){1to8}, %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x66,0x28,0x7b]
-          vfpclasspbf16  $123, (%eax){1to8}, %k5
+          vfpclassbf16  $123, (%eax){1to8}, %k5
 
-// CHECK: vfpclasspbf16x  $123, -512(,%ebp,2), %k5
+// CHECK: vfpclassbf16x  $123, -512(,%ebp,2), %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x66,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vfpclasspbf16x  $123, -512(,%ebp,2), %k5
+          vfpclassbf16x  $123, -512(,%ebp,2), %k5
 
-// CHECK: vfpclasspbf16x  $123, 2032(%ecx), %k5 {%k7}
+// CHECK: vfpclassbf16x  $123, 2032(%ecx), %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16x  $123, 2032(%ecx), %k5 {%k7}
+          vfpclassbf16x  $123, 2032(%ecx), %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, -256(%edx){1to8}, %k5 {%k7}
+// CHECK: vfpclassbf16  $123, -256(%edx){1to8}, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x1f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16  $123, -256(%edx){1to8}, %k5 {%k7}
+          vfpclassbf16  $123, -256(%edx){1to8}, %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, (%eax){1to16}, %k5
+// CHECK: vfpclassbf16  $123, (%eax){1to16}, %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x66,0x28,0x7b]
-          vfpclasspbf16  $123, (%eax){1to16}, %k5
+          vfpclassbf16  $123, (%eax){1to16}, %k5
 
-// CHECK: vfpclasspbf16y  $123, -1024(,%ebp,2), %k5
+// CHECK: vfpclassbf16y  $123, -1024(,%ebp,2), %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x66,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vfpclasspbf16y  $123, -1024(,%ebp,2), %k5
+          vfpclassbf16y  $123, -1024(,%ebp,2), %k5
 
-// CHECK: vfpclasspbf16y  $123, 4064(%ecx), %k5 {%k7}
+// CHECK: vfpclassbf16y  $123, 4064(%ecx), %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16y  $123, 4064(%ecx), %k5 {%k7}
+          vfpclassbf16y  $123, 4064(%ecx), %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, -256(%edx){1to16}, %k5 {%k7}
+// CHECK: vfpclassbf16  $123, -256(%edx){1to16}, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x3f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16  $123, -256(%edx){1to16}, %k5 {%k7}
+          vfpclassbf16  $123, -256(%edx){1to16}, %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, (%eax){1to32}, %k5
+// CHECK: vfpclassbf16  $123, (%eax){1to32}, %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x66,0x28,0x7b]
-          vfpclasspbf16  $123, (%eax){1to32}, %k5
+          vfpclassbf16  $123, (%eax){1to32}, %k5
 
-// CHECK: vfpclasspbf16z  $123, -2048(,%ebp,2), %k5
+// CHECK: vfpclassbf16z  $123, -2048(,%ebp,2), %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x66,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vfpclasspbf16z  $123, -2048(,%ebp,2), %k5
+          vfpclassbf16z  $123, -2048(,%ebp,2), %k5
 
-// CHECK: vfpclasspbf16z  $123, 8128(%ecx), %k5 {%k7}
+// CHECK: vfpclassbf16z  $123, 8128(%ecx), %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16z  $123, 8128(%ecx), %k5 {%k7}
+          vfpclassbf16z  $123, 8128(%ecx), %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, -256(%edx){1to32}, %k5 {%k7}
+// CHECK: vfpclassbf16  $123, -256(%edx){1to32}, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x5f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16  $123, -256(%edx){1to32}, %k5 {%k7}
+          vfpclassbf16  $123, -256(%edx){1to32}, %k5 {%k7}
 
-// CHECK: vgetexppbf16 %xmm3, %xmm2
+// CHECK: vgetexpbf16 %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x42,0xd3]
-          vgetexppbf16 %xmm3, %xmm2
+          vgetexpbf16 %xmm3, %xmm2
 
-// CHECK: vgetexppbf16 %xmm3, %xmm2 {%k7}
+// CHECK: vgetexpbf16 %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x0f,0x42,0xd3]
-          vgetexppbf16 %xmm3, %xmm2 {%k7}
+          vgetexpbf16 %xmm3, %xmm2 {%k7}
 
-// CHECK: vgetexppbf16 %xmm3, %xmm2 {%k7} {z}
+// CHECK: vgetexpbf16 %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x8f,0x42,0xd3]
-          vgetexppbf16 %xmm3, %xmm2 {%k7} {z}
+          vgetexpbf16 %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vgetexppbf16 %zmm3, %zmm2
+// CHECK: vgetexpbf16 %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x42,0xd3]
-          vgetexppbf16 %zmm3, %zmm2
+          vgetexpbf16 %zmm3, %zmm2
 
-// CHECK: vgetexppbf16 %zmm3, %zmm2 {%k7}
+// CHECK: vgetexpbf16 %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x4f,0x42,0xd3]
-          vgetexppbf16 %zmm3, %zmm2 {%k7}
+          vgetexpbf16 %zmm3, %zmm2 {%k7}
 
-// CHECK: vgetexppbf16 %zmm3, %zmm2 {%k7} {z}
+// CHECK: vgetexpbf16 %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xcf,0x42,0xd3]
-          vgetexppbf16 %zmm3, %zmm2 {%k7} {z}
+          vgetexpbf16 %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vgetexppbf16 %ymm3, %ymm2
+// CHECK: vgetexpbf16 %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x42,0xd3]
-          vgetexppbf16 %ymm3, %ymm2
+          vgetexpbf16 %ymm3, %ymm2
 
-// CHECK: vgetexppbf16 %ymm3, %ymm2 {%k7}
+// CHECK: vgetexpbf16 %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x2f,0x42,0xd3]
-          vgetexppbf16 %ymm3, %ymm2 {%k7}
+          vgetexpbf16 %ymm3, %ymm2 {%k7}
 
-// CHECK: vgetexppbf16 %ymm3, %ymm2 {%k7} {z}
+// CHECK: vgetexpbf16 %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xaf,0x42,0xd3]
-          vgetexppbf16 %ymm3, %ymm2 {%k7} {z}
+          vgetexpbf16 %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vgetexppbf16  268435456(%esp,%esi,8), %xmm2
+// CHECK: vgetexpbf16  268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x42,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vgetexppbf16  268435456(%esp,%esi,8), %xmm2
+          vgetexpbf16  268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vgetexppbf16  291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vgetexpbf16  291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x0f,0x42,0x94,0x87,0x23,0x01,0x00,0x00]
-          vgetexppbf16  291(%edi,%eax,4), %xmm2 {%k7}
+          vgetexpbf16  291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vgetexppbf16  (%eax){1to8}, %xmm2
+// CHECK: vgetexpbf16  (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x18,0x42,0x10]
-          vgetexppbf16  (%eax){1to8}, %xmm2
+          vgetexpbf16  (%eax){1to8}, %xmm2
 
-// CHECK: vgetexppbf16  -512(,%ebp,2), %xmm2
+// CHECK: vgetexpbf16  -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x42,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vgetexppbf16  -512(,%ebp,2), %xmm2
+          vgetexpbf16  -512(,%ebp,2), %xmm2
 
-// CHECK: vgetexppbf16  2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vgetexpbf16  2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x8f,0x42,0x51,0x7f]
-          vgetexppbf16  2032(%ecx), %xmm2 {%k7} {z}
+          vgetexpbf16  2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vgetexppbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vgetexpbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x9f,0x42,0x52,0x80]
-          vgetexppbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vgetexpbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vgetexppbf16  268435456(%esp,%esi,8), %ymm2
+// CHECK: vgetexpbf16  268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x42,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vgetexppbf16  268435456(%esp,%esi,8), %ymm2
+          vgetexpbf16  268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vgetexppbf16  291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vgetexpbf16  291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x2f,0x42,0x94,0x87,0x23,0x01,0x00,0x00]
-          vgetexppbf16  291(%edi,%eax,4), %ymm2 {%k7}
+          vgetexpbf16  291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vgetexppbf16  (%eax){1to16}, %ymm2
+// CHECK: vgetexpbf16  (%eax){1to16}, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x38,0x42,0x10]
-          vgetexppbf16  (%eax){1to16}, %ymm2
+          vgetexpbf16  (%eax){1to16}, %ymm2
 
-// CHECK: vgetexppbf16  -1024(,%ebp,2), %ymm2
+// CHECK: vgetexpbf16  -1024(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x42,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vgetexppbf16  -1024(,%ebp,2), %ymm2
+          vgetexpbf16  -1024(,%ebp,2), %ymm2
 
-// CHECK: vgetexppbf16  4064(%ecx), %ymm2 {%k7} {z}
+// CHECK: vgetexpbf16  4064(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xaf,0x42,0x51,0x7f]
-          vgetexppbf16  4064(%ecx), %ymm2 {%k7} {z}
+          vgetexpbf16  4064(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vgetexppbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+// CHECK: vgetexpbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xbf,0x42,0x52,0x80]
-          vgetexppbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+          vgetexpbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
 
-// CHECK: vgetexppbf16  268435456(%esp,%esi,8), %zmm2
+// CHECK: vgetexpbf16  268435456(%esp,%esi,8), %zmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x42,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vgetexppbf16  268435456(%esp,%esi,8), %zmm2
+          vgetexpbf16  268435456(%esp,%esi,8), %zmm2
 
-// CHECK: vgetexppbf16  291(%edi,%eax,4), %zmm2 {%k7}
+// CHECK: vgetexpbf16  291(%edi,%eax,4), %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x4f,0x42,0x94,0x87,0x23,0x01,0x00,0x00]
-          vgetexppbf16  291(%edi,%eax,4), %zmm2 {%k7}
+          vgetexpbf16  291(%edi,%eax,4), %zmm2 {%k7}
 
-// CHECK: vgetexppbf16  (%eax){1to32}, %zmm2
+// CHECK: vgetexpbf16  (%eax){1to32}, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x58,0x42,0x10]
-          vgetexppbf16  (%eax){1to32}, %zmm2
+          vgetexpbf16  (%eax){1to32}, %zmm2
 
-// CHECK: vgetexppbf16  -2048(,%ebp,2), %zmm2
+// CHECK: vgetexpbf16  -2048(,%ebp,2), %zmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x42,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vgetexppbf16  -2048(,%ebp,2), %zmm2
+          vgetexpbf16  -2048(,%ebp,2), %zmm2
 
-// CHECK: vgetexppbf16  8128(%ecx), %zmm2 {%k7} {z}
+// CHECK: vgetexpbf16  8128(%ecx), %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xcf,0x42,0x51,0x7f]
-          vgetexppbf16  8128(%ecx), %zmm2 {%k7} {z}
+          vgetexpbf16  8128(%ecx), %zmm2 {%k7} {z}
 
-// CHECK: vgetexppbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+// CHECK: vgetexpbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xdf,0x42,0x52,0x80]
-          vgetexppbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+          vgetexpbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
 
-// CHECK: vgetmantpbf16 $123, %zmm3, %zmm2
+// CHECK: vgetmantbf16 $123, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x26,0xd3,0x7b]
-          vgetmantpbf16 $123, %zmm3, %zmm2
+          vgetmantbf16 $123, %zmm3, %zmm2
 
-// CHECK: vgetmantpbf16 $123, %zmm3, %zmm2 {%k7}
+// CHECK: vgetmantbf16 $123, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x26,0xd3,0x7b]
-          vgetmantpbf16 $123, %zmm3, %zmm2 {%k7}
+          vgetmantbf16 $123, %zmm3, %zmm2 {%k7}
 
-// CHECK: vgetmantpbf16 $123, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vgetmantbf16 $123, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x26,0xd3,0x7b]
-          vgetmantpbf16 $123, %zmm3, %zmm2 {%k7} {z}
+          vgetmantbf16 $123, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vgetmantpbf16 $123, %ymm3, %ymm2
+// CHECK: vgetmantbf16 $123, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x26,0xd3,0x7b]
-          vgetmantpbf16 $123, %ymm3, %ymm2
+          vgetmantbf16 $123, %ymm3, %ymm2
 
-// CHECK: vgetmantpbf16 $123, %ymm3, %ymm2 {%k7}
+// CHECK: vgetmantbf16 $123, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x26,0xd3,0x7b]
-          vgetmantpbf16 $123, %ymm3, %ymm2 {%k7}
+          vgetmantbf16 $123, %ymm3, %ymm2 {%k7}
 
-// CHECK: vgetmantpbf16 $123, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vgetmantbf16 $123, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x26,0xd3,0x7b]
-          vgetmantpbf16 $123, %ymm3, %ymm2 {%k7} {z}
+          vgetmantbf16 $123, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vgetmantpbf16 $123, %xmm3, %xmm2
+// CHECK: vgetmantbf16 $123, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x26,0xd3,0x7b]
-          vgetmantpbf16 $123, %xmm3, %xmm2
+          vgetmantbf16 $123, %xmm3, %xmm2
 
-// CHECK: vgetmantpbf16 $123, %xmm3, %xmm2 {%k7}
+// CHECK: vgetmantbf16 $123, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x26,0xd3,0x7b]
-          vgetmantpbf16 $123, %xmm3, %xmm2 {%k7}
+          vgetmantbf16 $123, %xmm3, %xmm2 {%k7}
 
-// CHECK: vgetmantpbf16 $123, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vgetmantbf16 $123, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x26,0xd3,0x7b]
-          vgetmantpbf16 $123, %xmm3, %xmm2 {%k7} {z}
+          vgetmantbf16 $123, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, 268435456(%esp,%esi,8), %xmm2
+// CHECK: vgetmantbf16  $123, 268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x26,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16  $123, 268435456(%esp,%esi,8), %xmm2
+          vgetmantbf16  $123, 268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vgetmantpbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vgetmantbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x26,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
+          vgetmantbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vgetmantpbf16  $123, (%eax){1to8}, %xmm2
+// CHECK: vgetmantbf16  $123, (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x26,0x10,0x7b]
-          vgetmantpbf16  $123, (%eax){1to8}, %xmm2
+          vgetmantbf16  $123, (%eax){1to8}, %xmm2
 
-// CHECK: vgetmantpbf16  $123, -512(,%ebp,2), %xmm2
+// CHECK: vgetmantbf16  $123, -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x26,0x14,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vgetmantpbf16  $123, -512(,%ebp,2), %xmm2
+          vgetmantbf16  $123, -512(,%ebp,2), %xmm2
 
-// CHECK: vgetmantpbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vgetmantbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x26,0x51,0x7f,0x7b]
-          vgetmantpbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
+          vgetmantbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vgetmantbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x9f,0x26,0x52,0x80,0x7b]
-          vgetmantpbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vgetmantbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, 268435456(%esp,%esi,8), %ymm2
+// CHECK: vgetmantbf16  $123, 268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x26,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16  $123, 268435456(%esp,%esi,8), %ymm2
+          vgetmantbf16  $123, 268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vgetmantpbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vgetmantbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x26,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
+          vgetmantbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vgetmantpbf16  $123, (%eax){1to16}, %ymm2
+// CHECK: vgetmantbf16  $123, (%eax){1to16}, %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x26,0x10,0x7b]
-          vgetmantpbf16  $123, (%eax){1to16}, %ymm2
+          vgetmantbf16  $123, (%eax){1to16}, %ymm2
 
-// CHECK: vgetmantpbf16  $123, -1024(,%ebp,2), %ymm2
+// CHECK: vgetmantbf16  $123, -1024(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x26,0x14,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vgetmantpbf16  $123, -1024(,%ebp,2), %ymm2
+          vgetmantbf16  $123, -1024(,%ebp,2), %ymm2
 
-// CHECK: vgetmantpbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
+// CHECK: vgetmantbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x26,0x51,0x7f,0x7b]
-          vgetmantpbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
+          vgetmantbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
+// CHECK: vgetmantbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xbf,0x26,0x52,0x80,0x7b]
-          vgetmantpbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
+          vgetmantbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, 268435456(%esp,%esi,8), %zmm2
+// CHECK: vgetmantbf16  $123, 268435456(%esp,%esi,8), %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x26,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16  $123, 268435456(%esp,%esi,8), %zmm2
+          vgetmantbf16  $123, 268435456(%esp,%esi,8), %zmm2
 
-// CHECK: vgetmantpbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
+// CHECK: vgetmantbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x26,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
+          vgetmantbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
 
-// CHECK: vgetmantpbf16  $123, (%eax){1to32}, %zmm2
+// CHECK: vgetmantbf16  $123, (%eax){1to32}, %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x26,0x10,0x7b]
-          vgetmantpbf16  $123, (%eax){1to32}, %zmm2
+          vgetmantbf16  $123, (%eax){1to32}, %zmm2
 
-// CHECK: vgetmantpbf16  $123, -2048(,%ebp,2), %zmm2
+// CHECK: vgetmantbf16  $123, -2048(,%ebp,2), %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x26,0x14,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vgetmantpbf16  $123, -2048(,%ebp,2), %zmm2
+          vgetmantbf16  $123, -2048(,%ebp,2), %zmm2
 
-// CHECK: vgetmantpbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
+// CHECK: vgetmantbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x26,0x51,0x7f,0x7b]
-          vgetmantpbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
+          vgetmantbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
+// CHECK: vgetmantbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xdf,0x26,0x52,0x80,0x7b]
-          vgetmantpbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
+          vgetmantbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
 
-// CHECK: vmaxpbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vmaxbf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5f,0xd4]
-          vmaxpbf16 %ymm4, %ymm3, %ymm2
+          vmaxbf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vmaxpbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vmaxbf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5f,0xd4]
-          vmaxpbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vmaxbf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vmaxpbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vmaxbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5f,0xd4]
-          vmaxpbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vmaxbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vmaxpbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vmaxbf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5f,0xd4]
-          vmaxpbf16 %zmm4, %zmm3, %zmm2
+          vmaxbf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vmaxpbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vmaxbf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5f,0xd4]
-          vmaxpbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vmaxbf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vmaxpbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vmaxbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5f,0xd4]
-          vmaxpbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vmaxbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vmaxpbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vmaxbf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5f,0xd4]
-          vmaxpbf16 %xmm4, %xmm3, %xmm2
+          vmaxbf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vmaxpbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vmaxbf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5f,0xd4]
-          vmaxpbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vmaxbf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vmaxpbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vmaxbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5f,0xd4]
-          vmaxpbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vmaxbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vmaxpbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vmaxbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5f,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmaxpbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vmaxbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vmaxpbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vmaxbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5f,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmaxpbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vmaxbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vmaxpbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vmaxbf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x5f,0x10]
-          vmaxpbf16  (%eax){1to32}, %zmm3, %zmm2
+          vmaxbf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vmaxpbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vmaxbf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5f,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vmaxpbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vmaxbf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vmaxpbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vmaxbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5f,0x51,0x7f]
-          vmaxpbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vmaxbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vmaxpbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vmaxbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x5f,0x52,0x80]
-          vmaxpbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vmaxbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vmaxpbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vmaxbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5f,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmaxpbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vmaxbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vmaxpbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vmaxbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5f,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmaxpbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vmaxbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vmaxpbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vmaxbf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x5f,0x10]
-          vmaxpbf16  (%eax){1to16}, %ymm3, %ymm2
+          vmaxbf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vmaxpbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vmaxbf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5f,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vmaxpbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vmaxbf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vmaxpbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vmaxbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5f,0x51,0x7f]
-          vmaxpbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vmaxbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vmaxpbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vmaxbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x5f,0x52,0x80]
-          vmaxpbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vmaxbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vmaxpbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vmaxbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5f,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmaxpbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vmaxbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vmaxpbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vmaxbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5f,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmaxpbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vmaxbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vmaxpbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vmaxbf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x5f,0x10]
-          vmaxpbf16  (%eax){1to8}, %xmm3, %xmm2
+          vmaxbf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vmaxpbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vmaxbf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5f,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vmaxpbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vmaxbf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vmaxpbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vmaxbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5f,0x51,0x7f]
-          vmaxpbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vmaxbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vmaxpbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vmaxbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x5f,0x52,0x80]
-          vmaxpbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vmaxbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vminpbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vminbf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5d,0xd4]
-          vminpbf16 %ymm4, %ymm3, %ymm2
+          vminbf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vminpbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vminbf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5d,0xd4]
-          vminpbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vminbf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vminpbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vminbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5d,0xd4]
-          vminpbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vminbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vminpbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vminbf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5d,0xd4]
-          vminpbf16 %zmm4, %zmm3, %zmm2
+          vminbf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vminpbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vminbf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5d,0xd4]
-          vminpbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vminbf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vminpbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vminbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5d,0xd4]
-          vminpbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vminbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vminpbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vminbf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5d,0xd4]
-          vminpbf16 %xmm4, %xmm3, %xmm2
+          vminbf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vminpbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vminbf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5d,0xd4]
-          vminpbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vminbf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vminpbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vminbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5d,0xd4]
-          vminpbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vminbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vminpbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vminbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5d,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vminpbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vminbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vminpbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vminbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5d,0x94,0x87,0x23,0x01,0x00,0x00]
-          vminpbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vminbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vminpbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vminbf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x5d,0x10]
-          vminpbf16  (%eax){1to32}, %zmm3, %zmm2
+          vminbf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vminpbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vminbf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5d,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vminpbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vminbf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vminpbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vminbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5d,0x51,0x7f]
-          vminpbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vminbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vminpbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vminbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x5d,0x52,0x80]
-          vminpbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vminbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vminpbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vminbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5d,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vminpbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vminbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vminpbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vminbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5d,0x94,0x87,0x23,0x01,0x00,0x00]
-          vminpbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vminbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vminpbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vminbf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x5d,0x10]
-          vminpbf16  (%eax){1to16}, %ymm3, %ymm2
+          vminbf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vminpbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vminbf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5d,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vminpbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vminbf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vminpbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vminbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5d,0x51,0x7f]
-          vminpbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vminbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vminpbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vminbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x5d,0x52,0x80]
-          vminpbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vminbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vminpbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vminbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5d,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vminpbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vminbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vminpbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vminbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5d,0x94,0x87,0x23,0x01,0x00,0x00]
-          vminpbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vminbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vminpbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vminbf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x5d,0x10]
-          vminpbf16  (%eax){1to8}, %xmm3, %xmm2
+          vminbf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vminpbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vminbf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5d,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vminpbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vminbf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vminpbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vminbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5d,0x51,0x7f]
-          vminpbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vminbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vminpbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vminbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x5d,0x52,0x80]
-          vminpbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vminbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vmulnepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vmulbf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x59,0xd4]
-          vmulnepbf16 %ymm4, %ymm3, %ymm2
+          vmulbf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vmulnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vmulbf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x59,0xd4]
-          vmulnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vmulbf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vmulnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vmulbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x59,0xd4]
-          vmulnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vmulbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vmulnepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vmulbf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x59,0xd4]
-          vmulnepbf16 %zmm4, %zmm3, %zmm2
+          vmulbf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vmulnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vmulbf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x59,0xd4]
-          vmulnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vmulbf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vmulnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vmulbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x59,0xd4]
-          vmulnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vmulbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vmulnepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vmulbf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x59,0xd4]
-          vmulnepbf16 %xmm4, %xmm3, %xmm2
+          vmulbf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vmulnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vmulbf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x59,0xd4]
-          vmulnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vmulbf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vmulnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vmulbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x59,0xd4]
-          vmulnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vmulbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vmulnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vmulbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x59,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmulnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vmulbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vmulnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vmulbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x59,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmulnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vmulbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vmulnepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vmulbf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x59,0x10]
-          vmulnepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vmulbf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vmulnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vmulbf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x59,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vmulnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vmulbf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vmulnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vmulbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x59,0x51,0x7f]
-          vmulnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vmulbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vmulnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vmulbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x59,0x52,0x80]
-          vmulnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vmulbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vmulnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vmulbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x59,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmulnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vmulbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vmulnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vmulbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x59,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmulnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vmulbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vmulnepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vmulbf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x59,0x10]
-          vmulnepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vmulbf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vmulnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vmulbf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x59,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vmulnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vmulbf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vmulnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vmulbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x59,0x51,0x7f]
-          vmulnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vmulbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vmulnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vmulbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x59,0x52,0x80]
-          vmulnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vmulbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vmulnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vmulbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x59,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmulnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vmulbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vmulnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vmulbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x59,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmulnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vmulbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vmulnepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vmulbf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x59,0x10]
-          vmulnepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vmulbf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vmulnepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vmulbf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x59,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vmulnepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vmulbf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vmulnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vmulbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x59,0x51,0x7f]
-          vmulnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vmulbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vmulnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vmulbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x59,0x52,0x80]
-          vmulnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vmulbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vrcppbf16 %xmm3, %xmm2
+// CHECK: vrcpbf16 %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4c,0xd3]
-          vrcppbf16 %xmm3, %xmm2
+          vrcpbf16 %xmm3, %xmm2
 
-// CHECK: vrcppbf16 %xmm3, %xmm2 {%k7}
+// CHECK: vrcpbf16 %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x0f,0x4c,0xd3]
-          vrcppbf16 %xmm3, %xmm2 {%k7}
+          vrcpbf16 %xmm3, %xmm2 {%k7}
 
-// CHECK: vrcppbf16 %xmm3, %xmm2 {%k7} {z}
+// CHECK: vrcpbf16 %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x8f,0x4c,0xd3]
-          vrcppbf16 %xmm3, %xmm2 {%k7} {z}
+          vrcpbf16 %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vrcppbf16 %zmm3, %zmm2
+// CHECK: vrcpbf16 %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4c,0xd3]
-          vrcppbf16 %zmm3, %zmm2
+          vrcpbf16 %zmm3, %zmm2
 
-// CHECK: vrcppbf16 %zmm3, %zmm2 {%k7}
+// CHECK: vrcpbf16 %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x4f,0x4c,0xd3]
-          vrcppbf16 %zmm3, %zmm2 {%k7}
+          vrcpbf16 %zmm3, %zmm2 {%k7}
 
-// CHECK: vrcppbf16 %zmm3, %zmm2 {%k7} {z}
+// CHECK: vrcpbf16 %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xcf,0x4c,0xd3]
-          vrcppbf16 %zmm3, %zmm2 {%k7} {z}
+          vrcpbf16 %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vrcppbf16 %ymm3, %ymm2
+// CHECK: vrcpbf16 %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4c,0xd3]
-          vrcppbf16 %ymm3, %ymm2
+          vrcpbf16 %ymm3, %ymm2
 
-// CHECK: vrcppbf16 %ymm3, %ymm2 {%k7}
+// CHECK: vrcpbf16 %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x2f,0x4c,0xd3]
-          vrcppbf16 %ymm3, %ymm2 {%k7}
+          vrcpbf16 %ymm3, %ymm2 {%k7}
 
-// CHECK: vrcppbf16 %ymm3, %ymm2 {%k7} {z}
+// CHECK: vrcpbf16 %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xaf,0x4c,0xd3]
-          vrcppbf16 %ymm3, %ymm2 {%k7} {z}
+          vrcpbf16 %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vrcppbf16  268435456(%esp,%esi,8), %xmm2
+// CHECK: vrcpbf16  268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrcppbf16  268435456(%esp,%esi,8), %xmm2
+          vrcpbf16  268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vrcppbf16  291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vrcpbf16  291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x0f,0x4c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrcppbf16  291(%edi,%eax,4), %xmm2 {%k7}
+          vrcpbf16  291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vrcppbf16  (%eax){1to8}, %xmm2
+// CHECK: vrcpbf16  (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x18,0x4c,0x10]
-          vrcppbf16  (%eax){1to8}, %xmm2
+          vrcpbf16  (%eax){1to8}, %xmm2
 
-// CHECK: vrcppbf16  -512(,%ebp,2), %xmm2
+// CHECK: vrcpbf16  -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4c,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vrcppbf16  -512(,%ebp,2), %xmm2
+          vrcpbf16  -512(,%ebp,2), %xmm2
 
-// CHECK: vrcppbf16  2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vrcpbf16  2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x8f,0x4c,0x51,0x7f]
-          vrcppbf16  2032(%ecx), %xmm2 {%k7} {z}
+          vrcpbf16  2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vrcppbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vrcpbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x9f,0x4c,0x52,0x80]
-          vrcppbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vrcpbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vrcppbf16  268435456(%esp,%esi,8), %ymm2
+// CHECK: vrcpbf16  268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrcppbf16  268435456(%esp,%esi,8), %ymm2
+          vrcpbf16  268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vrcppbf16  291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vrcpbf16  291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x2f,0x4c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrcppbf16  291(%edi,%eax,4), %ymm2 {%k7}
+          vrcpbf16  291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vrcppbf16  (%eax){1to16}, %ymm2
+// CHECK: vrcpbf16  (%eax){1to16}, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x38,0x4c,0x10]
-          vrcppbf16  (%eax){1to16}, %ymm2
+          vrcpbf16  (%eax){1to16}, %ymm2
 
-// CHECK: vrcppbf16  -1024(,%ebp,2), %ymm2
+// CHECK: vrcpbf16  -1024(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4c,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vrcppbf16  -1024(,%ebp,2), %ymm2
+          vrcpbf16  -1024(,%ebp,2), %ymm2
 
-// CHECK: vrcppbf16  4064(%ecx), %ymm2 {%k7} {z}
+// CHECK: vrcpbf16  4064(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xaf,0x4c,0x51,0x7f]
-          vrcppbf16  4064(%ecx), %ymm2 {%k7} {z}
+          vrcpbf16  4064(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vrcppbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+// CHECK: vrcpbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xbf,0x4c,0x52,0x80]
-          vrcppbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+          vrcpbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
 
-// CHECK: vrcppbf16  268435456(%esp,%esi,8), %zmm2
+// CHECK: vrcpbf16  268435456(%esp,%esi,8), %zmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrcppbf16  268435456(%esp,%esi,8), %zmm2
+          vrcpbf16  268435456(%esp,%esi,8), %zmm2
 
-// CHECK: vrcppbf16  291(%edi,%eax,4), %zmm2 {%k7}
+// CHECK: vrcpbf16  291(%edi,%eax,4), %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x4f,0x4c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrcppbf16  291(%edi,%eax,4), %zmm2 {%k7}
+          vrcpbf16  291(%edi,%eax,4), %zmm2 {%k7}
 
-// CHECK: vrcppbf16  (%eax){1to32}, %zmm2
+// CHECK: vrcpbf16  (%eax){1to32}, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x58,0x4c,0x10]
-          vrcppbf16  (%eax){1to32}, %zmm2
+          vrcpbf16  (%eax){1to32}, %zmm2
 
-// CHECK: vrcppbf16  -2048(,%ebp,2), %zmm2
+// CHECK: vrcpbf16  -2048(,%ebp,2), %zmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4c,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vrcppbf16  -2048(,%ebp,2), %zmm2
+          vrcpbf16  -2048(,%ebp,2), %zmm2
 
-// CHECK: vrcppbf16  8128(%ecx), %zmm2 {%k7} {z}
+// CHECK: vrcpbf16  8128(%ecx), %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xcf,0x4c,0x51,0x7f]
-          vrcppbf16  8128(%ecx), %zmm2 {%k7} {z}
+          vrcpbf16  8128(%ecx), %zmm2 {%k7} {z}
 
-// CHECK: vrcppbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+// CHECK: vrcpbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xdf,0x4c,0x52,0x80]
-          vrcppbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+          vrcpbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
 
-// CHECK: vreducenepbf16 $123, %zmm3, %zmm2
+// CHECK: vreducebf16 $123, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x56,0xd3,0x7b]
-          vreducenepbf16 $123, %zmm3, %zmm2
+          vreducebf16 $123, %zmm3, %zmm2
 
-// CHECK: vreducenepbf16 $123, %zmm3, %zmm2 {%k7}
+// CHECK: vreducebf16 $123, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x56,0xd3,0x7b]
-          vreducenepbf16 $123, %zmm3, %zmm2 {%k7}
+          vreducebf16 $123, %zmm3, %zmm2 {%k7}
 
-// CHECK: vreducenepbf16 $123, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vreducebf16 $123, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x56,0xd3,0x7b]
-          vreducenepbf16 $123, %zmm3, %zmm2 {%k7} {z}
+          vreducebf16 $123, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vreducenepbf16 $123, %ymm3, %ymm2
+// CHECK: vreducebf16 $123, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x56,0xd3,0x7b]
-          vreducenepbf16 $123, %ymm3, %ymm2
+          vreducebf16 $123, %ymm3, %ymm2
 
-// CHECK: vreducenepbf16 $123, %ymm3, %ymm2 {%k7}
+// CHECK: vreducebf16 $123, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x56,0xd3,0x7b]
-          vreducenepbf16 $123, %ymm3, %ymm2 {%k7}
+          vreducebf16 $123, %ymm3, %ymm2 {%k7}
 
-// CHECK: vreducenepbf16 $123, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vreducebf16 $123, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x56,0xd3,0x7b]
-          vreducenepbf16 $123, %ymm3, %ymm2 {%k7} {z}
+          vreducebf16 $123, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vreducenepbf16 $123, %xmm3, %xmm2
+// CHECK: vreducebf16 $123, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x56,0xd3,0x7b]
-          vreducenepbf16 $123, %xmm3, %xmm2
+          vreducebf16 $123, %xmm3, %xmm2
 
-// CHECK: vreducenepbf16 $123, %xmm3, %xmm2 {%k7}
+// CHECK: vreducebf16 $123, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x56,0xd3,0x7b]
-          vreducenepbf16 $123, %xmm3, %xmm2 {%k7}
+          vreducebf16 $123, %xmm3, %xmm2 {%k7}
 
-// CHECK: vreducenepbf16 $123, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vreducebf16 $123, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x56,0xd3,0x7b]
-          vreducenepbf16 $123, %xmm3, %xmm2 {%k7} {z}
+          vreducebf16 $123, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, 268435456(%esp,%esi,8), %xmm2
+// CHECK: vreducebf16  $123, 268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x56,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16  $123, 268435456(%esp,%esi,8), %xmm2
+          vreducebf16  $123, 268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vreducenepbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vreducebf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x56,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
+          vreducebf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vreducenepbf16  $123, (%eax){1to8}, %xmm2
+// CHECK: vreducebf16  $123, (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x56,0x10,0x7b]
-          vreducenepbf16  $123, (%eax){1to8}, %xmm2
+          vreducebf16  $123, (%eax){1to8}, %xmm2
 
-// CHECK: vreducenepbf16  $123, -512(,%ebp,2), %xmm2
+// CHECK: vreducebf16  $123, -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x56,0x14,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vreducenepbf16  $123, -512(,%ebp,2), %xmm2
+          vreducebf16  $123, -512(,%ebp,2), %xmm2
 
-// CHECK: vreducenepbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vreducebf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x56,0x51,0x7f,0x7b]
-          vreducenepbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
+          vreducebf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vreducebf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x9f,0x56,0x52,0x80,0x7b]
-          vreducenepbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vreducebf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, 268435456(%esp,%esi,8), %ymm2
+// CHECK: vreducebf16  $123, 268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x56,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16  $123, 268435456(%esp,%esi,8), %ymm2
+          vreducebf16  $123, 268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vreducenepbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vreducebf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x56,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
+          vreducebf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vreducenepbf16  $123, (%eax){1to16}, %ymm2
+// CHECK: vreducebf16  $123, (%eax){1to16}, %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x56,0x10,0x7b]
-          vreducenepbf16  $123, (%eax){1to16}, %ymm2
+          vreducebf16  $123, (%eax){1to16}, %ymm2
 
-// CHECK: vreducenepbf16  $123, -1024(,%ebp,2), %ymm2
+// CHECK: vreducebf16  $123, -1024(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x56,0x14,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vreducenepbf16  $123, -1024(,%ebp,2), %ymm2
+          vreducebf16  $123, -1024(,%ebp,2), %ymm2
 
-// CHECK: vreducenepbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
+// CHECK: vreducebf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x56,0x51,0x7f,0x7b]
-          vreducenepbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
+          vreducebf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
+// CHECK: vreducebf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xbf,0x56,0x52,0x80,0x7b]
-          vreducenepbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
+          vreducebf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, 268435456(%esp,%esi,8), %zmm2
+// CHECK: vreducebf16  $123, 268435456(%esp,%esi,8), %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x56,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16  $123, 268435456(%esp,%esi,8), %zmm2
+          vreducebf16  $123, 268435456(%esp,%esi,8), %zmm2
 
-// CHECK: vreducenepbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
+// CHECK: vreducebf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x56,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
+          vreducebf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
 
-// CHECK: vreducenepbf16  $123, (%eax){1to32}, %zmm2
+// CHECK: vreducebf16  $123, (%eax){1to32}, %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x56,0x10,0x7b]
-          vreducenepbf16  $123, (%eax){1to32}, %zmm2
+          vreducebf16  $123, (%eax){1to32}, %zmm2
 
-// CHECK: vreducenepbf16  $123, -2048(,%ebp,2), %zmm2
+// CHECK: vreducebf16  $123, -2048(,%ebp,2), %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x56,0x14,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vreducenepbf16  $123, -2048(,%ebp,2), %zmm2
+          vreducebf16  $123, -2048(,%ebp,2), %zmm2
 
-// CHECK: vreducenepbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
+// CHECK: vreducebf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x56,0x51,0x7f,0x7b]
-          vreducenepbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
+          vreducebf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
+// CHECK: vreducebf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xdf,0x56,0x52,0x80,0x7b]
-          vreducenepbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
+          vreducebf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
 
-// CHECK: vrndscalenepbf16 $123, %zmm3, %zmm2
+// CHECK: vrndscalebf16 $123, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x08,0xd3,0x7b]
-          vrndscalenepbf16 $123, %zmm3, %zmm2
+          vrndscalebf16 $123, %zmm3, %zmm2
 
-// CHECK: vrndscalenepbf16 $123, %zmm3, %zmm2 {%k7}
+// CHECK: vrndscalebf16 $123, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x08,0xd3,0x7b]
-          vrndscalenepbf16 $123, %zmm3, %zmm2 {%k7}
+          vrndscalebf16 $123, %zmm3, %zmm2 {%k7}
 
-// CHECK: vrndscalenepbf16 $123, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vrndscalebf16 $123, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x08,0xd3,0x7b]
-          vrndscalenepbf16 $123, %zmm3, %zmm2 {%k7} {z}
+          vrndscalebf16 $123, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vrndscalenepbf16 $123, %ymm3, %ymm2
+// CHECK: vrndscalebf16 $123, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x08,0xd3,0x7b]
-          vrndscalenepbf16 $123, %ymm3, %ymm2
+          vrndscalebf16 $123, %ymm3, %ymm2
 
-// CHECK: vrndscalenepbf16 $123, %ymm3, %ymm2 {%k7}
+// CHECK: vrndscalebf16 $123, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x08,0xd3,0x7b]
-          vrndscalenepbf16 $123, %ymm3, %ymm2 {%k7}
+          vrndscalebf16 $123, %ymm3, %ymm2 {%k7}
 
-// CHECK: vrndscalenepbf16 $123, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vrndscalebf16 $123, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x08,0xd3,0x7b]
-          vrndscalenepbf16 $123, %ymm3, %ymm2 {%k7} {z}
+          vrndscalebf16 $123, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vrndscalenepbf16 $123, %xmm3, %xmm2
+// CHECK: vrndscalebf16 $123, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x08,0xd3,0x7b]
-          vrndscalenepbf16 $123, %xmm3, %xmm2
+          vrndscalebf16 $123, %xmm3, %xmm2
 
-// CHECK: vrndscalenepbf16 $123, %xmm3, %xmm2 {%k7}
+// CHECK: vrndscalebf16 $123, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x08,0xd3,0x7b]
-          vrndscalenepbf16 $123, %xmm3, %xmm2 {%k7}
+          vrndscalebf16 $123, %xmm3, %xmm2 {%k7}
 
-// CHECK: vrndscalenepbf16 $123, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vrndscalebf16 $123, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x08,0xd3,0x7b]
-          vrndscalenepbf16 $123, %xmm3, %xmm2 {%k7} {z}
+          vrndscalebf16 $123, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, 268435456(%esp,%esi,8), %xmm2
+// CHECK: vrndscalebf16  $123, 268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x08,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16  $123, 268435456(%esp,%esi,8), %xmm2
+          vrndscalebf16  $123, 268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vrndscalenepbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vrndscalebf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x08,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
+          vrndscalebf16  $123, 291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vrndscalenepbf16  $123, (%eax){1to8}, %xmm2
+// CHECK: vrndscalebf16  $123, (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x08,0x10,0x7b]
-          vrndscalenepbf16  $123, (%eax){1to8}, %xmm2
+          vrndscalebf16  $123, (%eax){1to8}, %xmm2
 
-// CHECK: vrndscalenepbf16  $123, -512(,%ebp,2), %xmm2
+// CHECK: vrndscalebf16  $123, -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x08,0x14,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vrndscalenepbf16  $123, -512(,%ebp,2), %xmm2
+          vrndscalebf16  $123, -512(,%ebp,2), %xmm2
 
-// CHECK: vrndscalenepbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vrndscalebf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x08,0x51,0x7f,0x7b]
-          vrndscalenepbf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
+          vrndscalebf16  $123, 2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vrndscalebf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x9f,0x08,0x52,0x80,0x7b]
-          vrndscalenepbf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vrndscalebf16  $123, -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, 268435456(%esp,%esi,8), %ymm2
+// CHECK: vrndscalebf16  $123, 268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x08,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16  $123, 268435456(%esp,%esi,8), %ymm2
+          vrndscalebf16  $123, 268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vrndscalenepbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vrndscalebf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x08,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
+          vrndscalebf16  $123, 291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vrndscalenepbf16  $123, (%eax){1to16}, %ymm2
+// CHECK: vrndscalebf16  $123, (%eax){1to16}, %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x08,0x10,0x7b]
-          vrndscalenepbf16  $123, (%eax){1to16}, %ymm2
+          vrndscalebf16  $123, (%eax){1to16}, %ymm2
 
-// CHECK: vrndscalenepbf16  $123, -1024(,%ebp,2), %ymm2
+// CHECK: vrndscalebf16  $123, -1024(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x08,0x14,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vrndscalenepbf16  $123, -1024(,%ebp,2), %ymm2
+          vrndscalebf16  $123, -1024(,%ebp,2), %ymm2
 
-// CHECK: vrndscalenepbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
+// CHECK: vrndscalebf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x08,0x51,0x7f,0x7b]
-          vrndscalenepbf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
+          vrndscalebf16  $123, 4064(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
+// CHECK: vrndscalebf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xbf,0x08,0x52,0x80,0x7b]
-          vrndscalenepbf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
+          vrndscalebf16  $123, -256(%edx){1to16}, %ymm2 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, 268435456(%esp,%esi,8), %zmm2
+// CHECK: vrndscalebf16  $123, 268435456(%esp,%esi,8), %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x08,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16  $123, 268435456(%esp,%esi,8), %zmm2
+          vrndscalebf16  $123, 268435456(%esp,%esi,8), %zmm2
 
-// CHECK: vrndscalenepbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
+// CHECK: vrndscalebf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x08,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
+          vrndscalebf16  $123, 291(%edi,%eax,4), %zmm2 {%k7}
 
-// CHECK: vrndscalenepbf16  $123, (%eax){1to32}, %zmm2
+// CHECK: vrndscalebf16  $123, (%eax){1to32}, %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x08,0x10,0x7b]
-          vrndscalenepbf16  $123, (%eax){1to32}, %zmm2
+          vrndscalebf16  $123, (%eax){1to32}, %zmm2
 
-// CHECK: vrndscalenepbf16  $123, -2048(,%ebp,2), %zmm2
+// CHECK: vrndscalebf16  $123, -2048(,%ebp,2), %zmm2
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x08,0x14,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vrndscalenepbf16  $123, -2048(,%ebp,2), %zmm2
+          vrndscalebf16  $123, -2048(,%ebp,2), %zmm2
 
-// CHECK: vrndscalenepbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
+// CHECK: vrndscalebf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x08,0x51,0x7f,0x7b]
-          vrndscalenepbf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
+          vrndscalebf16  $123, 8128(%ecx), %zmm2 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
+// CHECK: vrndscalebf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf3,0x7f,0xdf,0x08,0x52,0x80,0x7b]
-          vrndscalenepbf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
+          vrndscalebf16  $123, -256(%edx){1to32}, %zmm2 {%k7} {z}
 
-// CHECK: vrsqrtpbf16 %xmm3, %xmm2
+// CHECK: vrsqrtbf16 %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4e,0xd3]
-          vrsqrtpbf16 %xmm3, %xmm2
+          vrsqrtbf16 %xmm3, %xmm2
 
-// CHECK: vrsqrtpbf16 %xmm3, %xmm2 {%k7}
+// CHECK: vrsqrtbf16 %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x0f,0x4e,0xd3]
-          vrsqrtpbf16 %xmm3, %xmm2 {%k7}
+          vrsqrtbf16 %xmm3, %xmm2 {%k7}
 
-// CHECK: vrsqrtpbf16 %xmm3, %xmm2 {%k7} {z}
+// CHECK: vrsqrtbf16 %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x8f,0x4e,0xd3]
-          vrsqrtpbf16 %xmm3, %xmm2 {%k7} {z}
+          vrsqrtbf16 %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vrsqrtpbf16 %zmm3, %zmm2
+// CHECK: vrsqrtbf16 %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4e,0xd3]
-          vrsqrtpbf16 %zmm3, %zmm2
+          vrsqrtbf16 %zmm3, %zmm2
 
-// CHECK: vrsqrtpbf16 %zmm3, %zmm2 {%k7}
+// CHECK: vrsqrtbf16 %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x4f,0x4e,0xd3]
-          vrsqrtpbf16 %zmm3, %zmm2 {%k7}
+          vrsqrtbf16 %zmm3, %zmm2 {%k7}
 
-// CHECK: vrsqrtpbf16 %zmm3, %zmm2 {%k7} {z}
+// CHECK: vrsqrtbf16 %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xcf,0x4e,0xd3]
-          vrsqrtpbf16 %zmm3, %zmm2 {%k7} {z}
+          vrsqrtbf16 %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vrsqrtpbf16 %ymm3, %ymm2
+// CHECK: vrsqrtbf16 %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4e,0xd3]
-          vrsqrtpbf16 %ymm3, %ymm2
+          vrsqrtbf16 %ymm3, %ymm2
 
-// CHECK: vrsqrtpbf16 %ymm3, %ymm2 {%k7}
+// CHECK: vrsqrtbf16 %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x2f,0x4e,0xd3]
-          vrsqrtpbf16 %ymm3, %ymm2 {%k7}
+          vrsqrtbf16 %ymm3, %ymm2 {%k7}
 
-// CHECK: vrsqrtpbf16 %ymm3, %ymm2 {%k7} {z}
+// CHECK: vrsqrtbf16 %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xaf,0x4e,0xd3]
-          vrsqrtpbf16 %ymm3, %ymm2 {%k7} {z}
+          vrsqrtbf16 %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  268435456(%esp,%esi,8), %xmm2
+// CHECK: vrsqrtbf16  268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16  268435456(%esp,%esi,8), %xmm2
+          vrsqrtbf16  268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vrsqrtpbf16  291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vrsqrtbf16  291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x0f,0x4e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16  291(%edi,%eax,4), %xmm2 {%k7}
+          vrsqrtbf16  291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vrsqrtpbf16  (%eax){1to8}, %xmm2
+// CHECK: vrsqrtbf16  (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x18,0x4e,0x10]
-          vrsqrtpbf16  (%eax){1to8}, %xmm2
+          vrsqrtbf16  (%eax){1to8}, %xmm2
 
-// CHECK: vrsqrtpbf16  -512(,%ebp,2), %xmm2
+// CHECK: vrsqrtbf16  -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4e,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vrsqrtpbf16  -512(,%ebp,2), %xmm2
+          vrsqrtbf16  -512(,%ebp,2), %xmm2
 
-// CHECK: vrsqrtpbf16  2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vrsqrtbf16  2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x8f,0x4e,0x51,0x7f]
-          vrsqrtpbf16  2032(%ecx), %xmm2 {%k7} {z}
+          vrsqrtbf16  2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vrsqrtbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x9f,0x4e,0x52,0x80]
-          vrsqrtpbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vrsqrtbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  268435456(%esp,%esi,8), %ymm2
+// CHECK: vrsqrtbf16  268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16  268435456(%esp,%esi,8), %ymm2
+          vrsqrtbf16  268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vrsqrtpbf16  291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vrsqrtbf16  291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x2f,0x4e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16  291(%edi,%eax,4), %ymm2 {%k7}
+          vrsqrtbf16  291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vrsqrtpbf16  (%eax){1to16}, %ymm2
+// CHECK: vrsqrtbf16  (%eax){1to16}, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x38,0x4e,0x10]
-          vrsqrtpbf16  (%eax){1to16}, %ymm2
+          vrsqrtbf16  (%eax){1to16}, %ymm2
 
-// CHECK: vrsqrtpbf16  -1024(,%ebp,2), %ymm2
+// CHECK: vrsqrtbf16  -1024(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4e,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vrsqrtpbf16  -1024(,%ebp,2), %ymm2
+          vrsqrtbf16  -1024(,%ebp,2), %ymm2
 
-// CHECK: vrsqrtpbf16  4064(%ecx), %ymm2 {%k7} {z}
+// CHECK: vrsqrtbf16  4064(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xaf,0x4e,0x51,0x7f]
-          vrsqrtpbf16  4064(%ecx), %ymm2 {%k7} {z}
+          vrsqrtbf16  4064(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+// CHECK: vrsqrtbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xbf,0x4e,0x52,0x80]
-          vrsqrtpbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+          vrsqrtbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  268435456(%esp,%esi,8), %zmm2
+// CHECK: vrsqrtbf16  268435456(%esp,%esi,8), %zmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16  268435456(%esp,%esi,8), %zmm2
+          vrsqrtbf16  268435456(%esp,%esi,8), %zmm2
 
-// CHECK: vrsqrtpbf16  291(%edi,%eax,4), %zmm2 {%k7}
+// CHECK: vrsqrtbf16  291(%edi,%eax,4), %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x4f,0x4e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16  291(%edi,%eax,4), %zmm2 {%k7}
+          vrsqrtbf16  291(%edi,%eax,4), %zmm2 {%k7}
 
-// CHECK: vrsqrtpbf16  (%eax){1to32}, %zmm2
+// CHECK: vrsqrtbf16  (%eax){1to32}, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x58,0x4e,0x10]
-          vrsqrtpbf16  (%eax){1to32}, %zmm2
+          vrsqrtbf16  (%eax){1to32}, %zmm2
 
-// CHECK: vrsqrtpbf16  -2048(,%ebp,2), %zmm2
+// CHECK: vrsqrtbf16  -2048(,%ebp,2), %zmm2
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4e,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vrsqrtpbf16  -2048(,%ebp,2), %zmm2
+          vrsqrtbf16  -2048(,%ebp,2), %zmm2
 
-// CHECK: vrsqrtpbf16  8128(%ecx), %zmm2 {%k7} {z}
+// CHECK: vrsqrtbf16  8128(%ecx), %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xcf,0x4e,0x51,0x7f]
-          vrsqrtpbf16  8128(%ecx), %zmm2 {%k7} {z}
+          vrsqrtbf16  8128(%ecx), %zmm2 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+// CHECK: vrsqrtbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xdf,0x4e,0x52,0x80]
-          vrsqrtpbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+          vrsqrtbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
 
-// CHECK: vscalefpbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vscalefbf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x2c,0xd4]
-          vscalefpbf16 %ymm4, %ymm3, %ymm2
+          vscalefbf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vscalefpbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vscalefbf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x2c,0xd4]
-          vscalefpbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vscalefbf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vscalefpbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vscalefbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x2c,0xd4]
-          vscalefpbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vscalefbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vscalefpbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vscalefbf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x2c,0xd4]
-          vscalefpbf16 %zmm4, %zmm3, %zmm2
+          vscalefbf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vscalefpbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vscalefbf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x2c,0xd4]
-          vscalefpbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vscalefbf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vscalefpbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vscalefbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x2c,0xd4]
-          vscalefpbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vscalefbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vscalefpbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vscalefbf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x2c,0xd4]
-          vscalefpbf16 %xmm4, %xmm3, %xmm2
+          vscalefbf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vscalefpbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vscalefbf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x2c,0xd4]
-          vscalefpbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vscalefbf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vscalefpbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vscalefbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x2c,0xd4]
-          vscalefpbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vscalefbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vscalefpbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vscalefbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x2c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vscalefpbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vscalefbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vscalefpbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vscalefbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x2c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vscalefpbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vscalefbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vscalefpbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vscalefbf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x2c,0x10]
-          vscalefpbf16  (%eax){1to32}, %zmm3, %zmm2
+          vscalefbf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vscalefpbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vscalefbf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x2c,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vscalefpbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vscalefbf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vscalefpbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vscalefbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x2c,0x51,0x7f]
-          vscalefpbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vscalefbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vscalefpbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vscalefbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x2c,0x52,0x80]
-          vscalefpbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vscalefbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vscalefpbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vscalefbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x2c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vscalefpbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vscalefbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vscalefpbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vscalefbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x2c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vscalefpbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vscalefbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vscalefpbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vscalefbf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x2c,0x10]
-          vscalefpbf16  (%eax){1to16}, %ymm3, %ymm2
+          vscalefbf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vscalefpbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vscalefbf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x2c,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vscalefpbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vscalefbf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vscalefpbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vscalefbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x2c,0x51,0x7f]
-          vscalefpbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vscalefbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vscalefpbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vscalefbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x2c,0x52,0x80]
-          vscalefpbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vscalefbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vscalefpbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vscalefbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x2c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vscalefpbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vscalefbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vscalefpbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vscalefbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x2c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vscalefpbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vscalefbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vscalefpbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vscalefbf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x2c,0x10]
-          vscalefpbf16  (%eax){1to8}, %xmm3, %xmm2
+          vscalefbf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vscalefpbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vscalefbf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x2c,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vscalefpbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vscalefbf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vscalefpbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vscalefbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x2c,0x51,0x7f]
-          vscalefpbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vscalefbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vscalefpbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vscalefbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x2c,0x52,0x80]
-          vscalefpbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vscalefbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vsqrtnepbf16 %xmm3, %xmm2
+// CHECK: vsqrtbf16 %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x51,0xd3]
-          vsqrtnepbf16 %xmm3, %xmm2
+          vsqrtbf16 %xmm3, %xmm2
 
-// CHECK: vsqrtnepbf16 %xmm3, %xmm2 {%k7}
+// CHECK: vsqrtbf16 %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x0f,0x51,0xd3]
-          vsqrtnepbf16 %xmm3, %xmm2 {%k7}
+          vsqrtbf16 %xmm3, %xmm2 {%k7}
 
-// CHECK: vsqrtnepbf16 %xmm3, %xmm2 {%k7} {z}
+// CHECK: vsqrtbf16 %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x8f,0x51,0xd3]
-          vsqrtnepbf16 %xmm3, %xmm2 {%k7} {z}
+          vsqrtbf16 %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vsqrtnepbf16 %zmm3, %zmm2
+// CHECK: vsqrtbf16 %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x51,0xd3]
-          vsqrtnepbf16 %zmm3, %zmm2
+          vsqrtbf16 %zmm3, %zmm2
 
-// CHECK: vsqrtnepbf16 %zmm3, %zmm2 {%k7}
+// CHECK: vsqrtbf16 %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x4f,0x51,0xd3]
-          vsqrtnepbf16 %zmm3, %zmm2 {%k7}
+          vsqrtbf16 %zmm3, %zmm2 {%k7}
 
-// CHECK: vsqrtnepbf16 %zmm3, %zmm2 {%k7} {z}
+// CHECK: vsqrtbf16 %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xcf,0x51,0xd3]
-          vsqrtnepbf16 %zmm3, %zmm2 {%k7} {z}
+          vsqrtbf16 %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vsqrtnepbf16 %ymm3, %ymm2
+// CHECK: vsqrtbf16 %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x51,0xd3]
-          vsqrtnepbf16 %ymm3, %ymm2
+          vsqrtbf16 %ymm3, %ymm2
 
-// CHECK: vsqrtnepbf16 %ymm3, %ymm2 {%k7}
+// CHECK: vsqrtbf16 %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x2f,0x51,0xd3]
-          vsqrtnepbf16 %ymm3, %ymm2 {%k7}
+          vsqrtbf16 %ymm3, %ymm2 {%k7}
 
-// CHECK: vsqrtnepbf16 %ymm3, %ymm2 {%k7} {z}
+// CHECK: vsqrtbf16 %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xaf,0x51,0xd3]
-          vsqrtnepbf16 %ymm3, %ymm2 {%k7} {z}
+          vsqrtbf16 %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  268435456(%esp,%esi,8), %xmm2
+// CHECK: vsqrtbf16  268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x51,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16  268435456(%esp,%esi,8), %xmm2
+          vsqrtbf16  268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vsqrtnepbf16  291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vsqrtbf16  291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x0f,0x51,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16  291(%edi,%eax,4), %xmm2 {%k7}
+          vsqrtbf16  291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vsqrtnepbf16  (%eax){1to8}, %xmm2
+// CHECK: vsqrtbf16  (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x18,0x51,0x10]
-          vsqrtnepbf16  (%eax){1to8}, %xmm2
+          vsqrtbf16  (%eax){1to8}, %xmm2
 
-// CHECK: vsqrtnepbf16  -512(,%ebp,2), %xmm2
+// CHECK: vsqrtbf16  -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x51,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vsqrtnepbf16  -512(,%ebp,2), %xmm2
+          vsqrtbf16  -512(,%ebp,2), %xmm2
 
-// CHECK: vsqrtnepbf16  2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vsqrtbf16  2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x8f,0x51,0x51,0x7f]
-          vsqrtnepbf16  2032(%ecx), %xmm2 {%k7} {z}
+          vsqrtbf16  2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vsqrtbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x9f,0x51,0x52,0x80]
-          vsqrtnepbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vsqrtbf16  -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  268435456(%esp,%esi,8), %ymm2
+// CHECK: vsqrtbf16  268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x51,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16  268435456(%esp,%esi,8), %ymm2
+          vsqrtbf16  268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vsqrtnepbf16  291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vsqrtbf16  291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x2f,0x51,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16  291(%edi,%eax,4), %ymm2 {%k7}
+          vsqrtbf16  291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vsqrtnepbf16  (%eax){1to16}, %ymm2
+// CHECK: vsqrtbf16  (%eax){1to16}, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x38,0x51,0x10]
-          vsqrtnepbf16  (%eax){1to16}, %ymm2
+          vsqrtbf16  (%eax){1to16}, %ymm2
 
-// CHECK: vsqrtnepbf16  -1024(,%ebp,2), %ymm2
+// CHECK: vsqrtbf16  -1024(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x51,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vsqrtnepbf16  -1024(,%ebp,2), %ymm2
+          vsqrtbf16  -1024(,%ebp,2), %ymm2
 
-// CHECK: vsqrtnepbf16  4064(%ecx), %ymm2 {%k7} {z}
+// CHECK: vsqrtbf16  4064(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xaf,0x51,0x51,0x7f]
-          vsqrtnepbf16  4064(%ecx), %ymm2 {%k7} {z}
+          vsqrtbf16  4064(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+// CHECK: vsqrtbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xbf,0x51,0x52,0x80]
-          vsqrtnepbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
+          vsqrtbf16  -256(%edx){1to16}, %ymm2 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  268435456(%esp,%esi,8), %zmm2
+// CHECK: vsqrtbf16  268435456(%esp,%esi,8), %zmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x51,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16  268435456(%esp,%esi,8), %zmm2
+          vsqrtbf16  268435456(%esp,%esi,8), %zmm2
 
-// CHECK: vsqrtnepbf16  291(%edi,%eax,4), %zmm2 {%k7}
+// CHECK: vsqrtbf16  291(%edi,%eax,4), %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x4f,0x51,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16  291(%edi,%eax,4), %zmm2 {%k7}
+          vsqrtbf16  291(%edi,%eax,4), %zmm2 {%k7}
 
-// CHECK: vsqrtnepbf16  (%eax){1to32}, %zmm2
+// CHECK: vsqrtbf16  (%eax){1to32}, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x58,0x51,0x10]
-          vsqrtnepbf16  (%eax){1to32}, %zmm2
+          vsqrtbf16  (%eax){1to32}, %zmm2
 
-// CHECK: vsqrtnepbf16  -2048(,%ebp,2), %zmm2
+// CHECK: vsqrtbf16  -2048(,%ebp,2), %zmm2
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x51,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vsqrtnepbf16  -2048(,%ebp,2), %zmm2
+          vsqrtbf16  -2048(,%ebp,2), %zmm2
 
-// CHECK: vsqrtnepbf16  8128(%ecx), %zmm2 {%k7} {z}
+// CHECK: vsqrtbf16  8128(%ecx), %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xcf,0x51,0x51,0x7f]
-          vsqrtnepbf16  8128(%ecx), %zmm2 {%k7} {z}
+          vsqrtbf16  8128(%ecx), %zmm2 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+// CHECK: vsqrtbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xdf,0x51,0x52,0x80]
-          vsqrtnepbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
+          vsqrtbf16  -256(%edx){1to32}, %zmm2 {%k7} {z}
 
-// CHECK: vsubnepbf16 %ymm4, %ymm3, %ymm2
+// CHECK: vsubbf16 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5c,0xd4]
-          vsubnepbf16 %ymm4, %ymm3, %ymm2
+          vsubbf16 %ymm4, %ymm3, %ymm2
 
-// CHECK: vsubnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vsubbf16 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5c,0xd4]
-          vsubnepbf16 %ymm4, %ymm3, %ymm2 {%k7}
+          vsubbf16 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vsubnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vsubbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5c,0xd4]
-          vsubnepbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vsubbf16 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vsubnepbf16 %zmm4, %zmm3, %zmm2
+// CHECK: vsubbf16 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5c,0xd4]
-          vsubnepbf16 %zmm4, %zmm3, %zmm2
+          vsubbf16 %zmm4, %zmm3, %zmm2
 
-// CHECK: vsubnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vsubbf16 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5c,0xd4]
-          vsubnepbf16 %zmm4, %zmm3, %zmm2 {%k7}
+          vsubbf16 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vsubnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vsubbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5c,0xd4]
-          vsubnepbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vsubbf16 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vsubnepbf16 %xmm4, %xmm3, %xmm2
+// CHECK: vsubbf16 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5c,0xd4]
-          vsubnepbf16 %xmm4, %xmm3, %xmm2
+          vsubbf16 %xmm4, %xmm3, %xmm2
 
-// CHECK: vsubnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vsubbf16 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5c,0xd4]
-          vsubnepbf16 %xmm4, %xmm3, %xmm2 {%k7}
+          vsubbf16 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vsubnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vsubbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5c,0xd4]
-          vsubnepbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vsubbf16 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vsubnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vsubbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsubnepbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vsubbf16  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vsubnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vsubbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsubnepbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vsubbf16  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vsubnepbf16  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vsubbf16  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x5c,0x10]
-          vsubnepbf16  (%eax){1to32}, %zmm3, %zmm2
+          vsubbf16  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vsubnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vsubbf16  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5c,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vsubnepbf16  -2048(,%ebp,2), %zmm3, %zmm2
+          vsubbf16  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vsubnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vsubbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5c,0x51,0x7f]
-          vsubnepbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vsubbf16  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vsubnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vsubbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x5c,0x52,0x80]
-          vsubnepbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vsubbf16  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vsubnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vsubbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsubnepbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vsubbf16  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vsubnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vsubbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsubnepbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vsubbf16  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vsubnepbf16  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vsubbf16  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x5c,0x10]
-          vsubnepbf16  (%eax){1to16}, %ymm3, %ymm2
+          vsubbf16  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vsubnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vsubbf16  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5c,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vsubnepbf16  -1024(,%ebp,2), %ymm3, %ymm2
+          vsubbf16  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vsubnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vsubbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5c,0x51,0x7f]
-          vsubnepbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vsubbf16  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vsubnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vsubbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x5c,0x52,0x80]
-          vsubnepbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vsubbf16  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vsubnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vsubbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsubnepbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vsubbf16  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vsubnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vsubbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsubnepbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vsubbf16  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vsubnepbf16  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vsubbf16  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x5c,0x10]
-          vsubnepbf16  (%eax){1to8}, %xmm3, %xmm2
+          vsubbf16  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vsubnepbf16  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vsubbf16  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5c,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vsubnepbf16  -512(,%ebp,2), %xmm3, %xmm2
+          vsubbf16  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vsubnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vsubbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5c,0x51,0x7f]
-          vsubnepbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vsubbf16  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vsubnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vsubbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x5c,0x52,0x80]
-          vsubnepbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vsubbf16  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
diff --git a/llvm/test/MC/X86/avx10.2-bf16-32-intel.s b/llvm/test/MC/X86/avx10.2-bf16-32-intel.s
index 30c2cf45297bc..d2e9440ba9c34 100644
--- a/llvm/test/MC/X86/avx10.2-bf16-32-intel.s
+++ b/llvm/test/MC/X86/avx10.2-bf16-32-intel.s
@@ -1,3014 +1,3014 @@
 // RUN: llvm-mc -triple i386 -x86-asm-syntax=intel -output-asm-variant=1 --show-encoding %s | FileCheck %s
 
-// CHECK: vaddnepbf16 ymm2, ymm3, ymm4
+// CHECK: vaddbf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x58,0xd4]
-          vaddnepbf16 ymm2, ymm3, ymm4
+          vaddbf16 ymm2, ymm3, ymm4
 
-// CHECK: vaddnepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vaddbf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x58,0xd4]
-          vaddnepbf16 ymm2 {k7}, ymm3, ymm4
+          vaddbf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vaddnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vaddbf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x58,0xd4]
-          vaddnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vaddbf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vaddnepbf16 zmm2, zmm3, zmm4
+// CHECK: vaddbf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x58,0xd4]
-          vaddnepbf16 zmm2, zmm3, zmm4
+          vaddbf16 zmm2, zmm3, zmm4
 
-// CHECK: vaddnepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vaddbf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x58,0xd4]
-          vaddnepbf16 zmm2 {k7}, zmm3, zmm4
+          vaddbf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vaddnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vaddbf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x58,0xd4]
-          vaddnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vaddbf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vaddnepbf16 xmm2, xmm3, xmm4
+// CHECK: vaddbf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x58,0xd4]
-          vaddnepbf16 xmm2, xmm3, xmm4
+          vaddbf16 xmm2, xmm3, xmm4
 
-// CHECK: vaddnepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vaddbf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x58,0xd4]
-          vaddnepbf16 xmm2 {k7}, xmm3, xmm4
+          vaddbf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vaddnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vaddbf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x58,0xd4]
-          vaddnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vaddbf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vaddnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vaddbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x58,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vaddnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vaddbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vaddnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vaddbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x58,0x94,0x87,0x23,0x01,0x00,0x00]
-          vaddnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vaddbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vaddnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vaddbf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x58,0x10]
-          vaddnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vaddbf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vaddnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vaddbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x58,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vaddnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vaddbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vaddnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vaddbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x58,0x51,0x7f]
-          vaddnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vaddbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vaddnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vaddbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x58,0x52,0x80]
-          vaddnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vaddbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vaddnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vaddbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x58,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vaddnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vaddbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vaddnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vaddbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x58,0x94,0x87,0x23,0x01,0x00,0x00]
-          vaddnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vaddbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vaddnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vaddbf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x58,0x10]
-          vaddnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vaddbf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vaddnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vaddbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x58,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vaddnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vaddbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vaddnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vaddbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x58,0x51,0x7f]
-          vaddnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vaddbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vaddnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vaddbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x58,0x52,0x80]
-          vaddnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vaddbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vaddnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vaddbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x58,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vaddnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vaddbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vaddnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vaddbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x58,0x94,0x87,0x23,0x01,0x00,0x00]
-          vaddnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vaddbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vaddnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vaddbf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x58,0x10]
-          vaddnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vaddbf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vaddnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vaddbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x58,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vaddnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vaddbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vaddnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vaddbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x58,0x51,0x7f]
-          vaddnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vaddbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vaddnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vaddbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x58,0x52,0x80]
-          vaddnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vaddbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vcmppbf16 k5, ymm3, ymm4, 123
+// CHECK: vcmpbf16 k5, ymm3, ymm4, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x28,0xc2,0xec,0x7b]
-          vcmppbf16 k5, ymm3, ymm4, 123
+          vcmpbf16 k5, ymm3, ymm4, 123
 
-// CHECK: vcmppbf16 k5 {k7}, ymm3, ymm4, 123
+// CHECK: vcmpbf16 k5 {k7}, ymm3, ymm4, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x2f,0xc2,0xec,0x7b]
-          vcmppbf16 k5 {k7}, ymm3, ymm4, 123
+          vcmpbf16 k5 {k7}, ymm3, ymm4, 123
 
-// CHECK: vcmppbf16 k5, xmm3, xmm4, 123
+// CHECK: vcmpbf16 k5, xmm3, xmm4, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x08,0xc2,0xec,0x7b]
-          vcmppbf16 k5, xmm3, xmm4, 123
+          vcmpbf16 k5, xmm3, xmm4, 123
 
-// CHECK: vcmppbf16 k5 {k7}, xmm3, xmm4, 123
+// CHECK: vcmpbf16 k5 {k7}, xmm3, xmm4, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x0f,0xc2,0xec,0x7b]
-          vcmppbf16 k5 {k7}, xmm3, xmm4, 123
+          vcmpbf16 k5 {k7}, xmm3, xmm4, 123
 
-// CHECK: vcmppbf16 k5, zmm3, zmm4, 123
+// CHECK: vcmpbf16 k5, zmm3, zmm4, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x48,0xc2,0xec,0x7b]
-          vcmppbf16 k5, zmm3, zmm4, 123
+          vcmpbf16 k5, zmm3, zmm4, 123
 
-// CHECK: vcmppbf16 k5 {k7}, zmm3, zmm4, 123
+// CHECK: vcmpbf16 k5 {k7}, zmm3, zmm4, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x4f,0xc2,0xec,0x7b]
-          vcmppbf16 k5 {k7}, zmm3, zmm4, 123
+          vcmpbf16 k5 {k7}, zmm3, zmm4, 123
 
-// CHECK: vcmppbf16 k5, zmm3, zmmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vcmpbf16 k5, zmm3, zmmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x48,0xc2,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16 k5, zmm3, zmmword ptr [esp + 8*esi + 268435456], 123
+          vcmpbf16 k5, zmm3, zmmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vcmppbf16 k5 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291], 123
+// CHECK: vcmpbf16 k5 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x4f,0xc2,0xac,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16 k5 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291], 123
+          vcmpbf16 k5 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vcmppbf16 k5, zmm3, word ptr [eax]{1to32}, 123
+// CHECK: vcmpbf16 k5, zmm3, word ptr [eax]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x58,0xc2,0x28,0x7b]
-          vcmppbf16 k5, zmm3, word ptr [eax]{1to32}, 123
+          vcmpbf16 k5, zmm3, word ptr [eax]{1to32}, 123
 
-// CHECK: vcmppbf16 k5, zmm3, zmmword ptr [2*ebp - 2048], 123
+// CHECK: vcmpbf16 k5, zmm3, zmmword ptr [2*ebp - 2048], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x48,0xc2,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vcmppbf16 k5, zmm3, zmmword ptr [2*ebp - 2048], 123
+          vcmpbf16 k5, zmm3, zmmword ptr [2*ebp - 2048], 123
 
-// CHECK: vcmppbf16 k5 {k7}, zmm3, zmmword ptr [ecx + 8128], 123
+// CHECK: vcmpbf16 k5 {k7}, zmm3, zmmword ptr [ecx + 8128], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x4f,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16 k5 {k7}, zmm3, zmmword ptr [ecx + 8128], 123
+          vcmpbf16 k5 {k7}, zmm3, zmmword ptr [ecx + 8128], 123
 
-// CHECK: vcmppbf16 k5 {k7}, zmm3, word ptr [edx - 256]{1to32}, 123
+// CHECK: vcmpbf16 k5 {k7}, zmm3, word ptr [edx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x5f,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16 k5 {k7}, zmm3, word ptr [edx - 256]{1to32}, 123
+          vcmpbf16 k5 {k7}, zmm3, word ptr [edx - 256]{1to32}, 123
 
-// CHECK: vcmppbf16 k5, xmm3, xmmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vcmpbf16 k5, xmm3, xmmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x08,0xc2,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16 k5, xmm3, xmmword ptr [esp + 8*esi + 268435456], 123
+          vcmpbf16 k5, xmm3, xmmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vcmppbf16 k5 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291], 123
+// CHECK: vcmpbf16 k5 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x0f,0xc2,0xac,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16 k5 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291], 123
+          vcmpbf16 k5 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vcmppbf16 k5, xmm3, word ptr [eax]{1to8}, 123
+// CHECK: vcmpbf16 k5, xmm3, word ptr [eax]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x18,0xc2,0x28,0x7b]
-          vcmppbf16 k5, xmm3, word ptr [eax]{1to8}, 123
+          vcmpbf16 k5, xmm3, word ptr [eax]{1to8}, 123
 
-// CHECK: vcmppbf16 k5, xmm3, xmmword ptr [2*ebp - 512], 123
+// CHECK: vcmpbf16 k5, xmm3, xmmword ptr [2*ebp - 512], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x08,0xc2,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vcmppbf16 k5, xmm3, xmmword ptr [2*ebp - 512], 123
+          vcmpbf16 k5, xmm3, xmmword ptr [2*ebp - 512], 123
 
-// CHECK: vcmppbf16 k5 {k7}, xmm3, xmmword ptr [ecx + 2032], 123
+// CHECK: vcmpbf16 k5 {k7}, xmm3, xmmword ptr [ecx + 2032], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x0f,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16 k5 {k7}, xmm3, xmmword ptr [ecx + 2032], 123
+          vcmpbf16 k5 {k7}, xmm3, xmmword ptr [ecx + 2032], 123
 
-// CHECK: vcmppbf16 k5 {k7}, xmm3, word ptr [edx - 256]{1to8}, 123
+// CHECK: vcmpbf16 k5 {k7}, xmm3, word ptr [edx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x1f,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16 k5 {k7}, xmm3, word ptr [edx - 256]{1to8}, 123
+          vcmpbf16 k5 {k7}, xmm3, word ptr [edx - 256]{1to8}, 123
 
-// CHECK: vcmppbf16 k5, ymm3, ymmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vcmpbf16 k5, ymm3, ymmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x28,0xc2,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16 k5, ymm3, ymmword ptr [esp + 8*esi + 268435456], 123
+          vcmpbf16 k5, ymm3, ymmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vcmppbf16 k5 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291], 123
+// CHECK: vcmpbf16 k5 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x2f,0xc2,0xac,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16 k5 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291], 123
+          vcmpbf16 k5 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vcmppbf16 k5, ymm3, word ptr [eax]{1to16}, 123
+// CHECK: vcmpbf16 k5, ymm3, word ptr [eax]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x38,0xc2,0x28,0x7b]
-          vcmppbf16 k5, ymm3, word ptr [eax]{1to16}, 123
+          vcmpbf16 k5, ymm3, word ptr [eax]{1to16}, 123
 
-// CHECK: vcmppbf16 k5, ymm3, ymmword ptr [2*ebp - 1024], 123
+// CHECK: vcmpbf16 k5, ymm3, ymmword ptr [2*ebp - 1024], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x28,0xc2,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vcmppbf16 k5, ymm3, ymmword ptr [2*ebp - 1024], 123
+          vcmpbf16 k5, ymm3, ymmword ptr [2*ebp - 1024], 123
 
-// CHECK: vcmppbf16 k5 {k7}, ymm3, ymmword ptr [ecx + 4064], 123
+// CHECK: vcmpbf16 k5 {k7}, ymm3, ymmword ptr [ecx + 4064], 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x2f,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16 k5 {k7}, ymm3, ymmword ptr [ecx + 4064], 123
+          vcmpbf16 k5 {k7}, ymm3, ymmword ptr [ecx + 4064], 123
 
-// CHECK: vcmppbf16 k5 {k7}, ymm3, word ptr [edx - 256]{1to16}, 123
+// CHECK: vcmpbf16 k5 {k7}, ymm3, word ptr [edx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x67,0x3f,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16 k5 {k7}, ymm3, word ptr [edx - 256]{1to16}, 123
+          vcmpbf16 k5 {k7}, ymm3, word ptr [edx - 256]{1to16}, 123
 
-// CHECK: vcomsbf16 xmm2, xmm3
+// CHECK: vcomisbf16 xmm2, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0xd3]
-          vcomsbf16 xmm2, xmm3
+          vcomisbf16 xmm2, xmm3
 
-// CHECK: vcomsbf16 xmm2, word ptr [esp + 8*esi + 268435456]
+// CHECK: vcomisbf16 xmm2, word ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcomsbf16 xmm2, word ptr [esp + 8*esi + 268435456]
+          vcomisbf16 xmm2, word ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcomsbf16 xmm2, word ptr [edi + 4*eax + 291]
+// CHECK: vcomisbf16 xmm2, word ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcomsbf16 xmm2, word ptr [edi + 4*eax + 291]
+          vcomisbf16 xmm2, word ptr [edi + 4*eax + 291]
 
-// CHECK: vcomsbf16 xmm2, word ptr [eax]
+// CHECK: vcomisbf16 xmm2, word ptr [eax]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x10]
-          vcomsbf16 xmm2, word ptr [eax]
+          vcomisbf16 xmm2, word ptr [eax]
 
-// CHECK: vcomsbf16 xmm2, word ptr [2*ebp - 64]
+// CHECK: vcomisbf16 xmm2, word ptr [2*ebp - 64]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x14,0x6d,0xc0,0xff,0xff,0xff]
-          vcomsbf16 xmm2, word ptr [2*ebp - 64]
+          vcomisbf16 xmm2, word ptr [2*ebp - 64]
 
-// CHECK: vcomsbf16 xmm2, word ptr [ecx + 254]
+// CHECK: vcomisbf16 xmm2, word ptr [ecx + 254]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x51,0x7f]
-          vcomsbf16 xmm2, word ptr [ecx + 254]
+          vcomisbf16 xmm2, word ptr [ecx + 254]
 
-// CHECK: vcomsbf16 xmm2, word ptr [edx - 256]
+// CHECK: vcomisbf16 xmm2, word ptr [edx - 256]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x2f,0x52,0x80]
-          vcomsbf16 xmm2, word ptr [edx - 256]
+          vcomisbf16 xmm2, word ptr [edx - 256]
 
-// CHECK: vdivnepbf16 ymm2, ymm3, ymm4
+// CHECK: vdivbf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5e,0xd4]
-          vdivnepbf16 ymm2, ymm3, ymm4
+          vdivbf16 ymm2, ymm3, ymm4
 
-// CHECK: vdivnepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vdivbf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5e,0xd4]
-          vdivnepbf16 ymm2 {k7}, ymm3, ymm4
+          vdivbf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vdivnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vdivbf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5e,0xd4]
-          vdivnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vdivbf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vdivnepbf16 zmm2, zmm3, zmm4
+// CHECK: vdivbf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5e,0xd4]
-          vdivnepbf16 zmm2, zmm3, zmm4
+          vdivbf16 zmm2, zmm3, zmm4
 
-// CHECK: vdivnepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vdivbf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5e,0xd4]
-          vdivnepbf16 zmm2 {k7}, zmm3, zmm4
+          vdivbf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vdivnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vdivbf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5e,0xd4]
-          vdivnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vdivbf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vdivnepbf16 xmm2, xmm3, xmm4
+// CHECK: vdivbf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5e,0xd4]
-          vdivnepbf16 xmm2, xmm3, xmm4
+          vdivbf16 xmm2, xmm3, xmm4
 
-// CHECK: vdivnepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vdivbf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5e,0xd4]
-          vdivnepbf16 xmm2 {k7}, xmm3, xmm4
+          vdivbf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vdivnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vdivbf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5e,0xd4]
-          vdivnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vdivbf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vdivnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vdivbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vdivnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vdivbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vdivnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vdivbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vdivnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vdivbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vdivnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vdivbf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x5e,0x10]
-          vdivnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vdivbf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vdivnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vdivbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5e,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vdivnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vdivbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vdivnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vdivbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5e,0x51,0x7f]
-          vdivnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vdivbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vdivnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vdivbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x5e,0x52,0x80]
-          vdivnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vdivbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vdivnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vdivbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vdivnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vdivbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vdivnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vdivbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vdivnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vdivbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vdivnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vdivbf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x5e,0x10]
-          vdivnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vdivbf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vdivnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vdivbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5e,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vdivnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vdivbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vdivnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vdivbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5e,0x51,0x7f]
-          vdivnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vdivbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vdivnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vdivbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x5e,0x52,0x80]
-          vdivnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vdivbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vdivnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vdivbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vdivnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vdivbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vdivnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vdivbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vdivnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vdivbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vdivnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vdivbf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x5e,0x10]
-          vdivnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vdivbf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vdivnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vdivbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5e,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vdivnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vdivbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vdivnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vdivbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5e,0x51,0x7f]
-          vdivnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vdivbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vdivnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vdivbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x5e,0x52,0x80]
-          vdivnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vdivbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfmadd132nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfmadd132bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x98,0xd4]
-          vfmadd132nepbf16 ymm2, ymm3, ymm4
+          vfmadd132bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfmadd132nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfmadd132bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x98,0xd4]
-          vfmadd132nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfmadd132bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfmadd132bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x98,0xd4]
-          vfmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfmadd132bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfmadd132nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfmadd132bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x98,0xd4]
-          vfmadd132nepbf16 zmm2, zmm3, zmm4
+          vfmadd132bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfmadd132nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfmadd132bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x98,0xd4]
-          vfmadd132nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfmadd132bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfmadd132bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x98,0xd4]
-          vfmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfmadd132bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfmadd132nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfmadd132bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x98,0xd4]
-          vfmadd132nepbf16 xmm2, xmm3, xmm4
+          vfmadd132bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfmadd132nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfmadd132bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x98,0xd4]
-          vfmadd132nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfmadd132bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfmadd132bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x98,0xd4]
-          vfmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfmadd132bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfmadd132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmadd132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x98,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfmadd132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmadd132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmadd132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x98,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfmadd132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmadd132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfmadd132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x98,0x10]
-          vfmadd132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfmadd132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfmadd132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfmadd132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x98,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfmadd132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfmadd132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x98,0x51,0x7f]
-          vfmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfmadd132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfmadd132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfmadd132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x98,0x52,0x80]
-          vfmadd132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfmadd132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfmadd132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmadd132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x98,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfmadd132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmadd132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfmadd132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x98,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfmadd132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmadd132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfmadd132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x98,0x10]
-          vfmadd132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfmadd132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfmadd132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfmadd132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x98,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfmadd132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfmadd132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x98,0x51,0x7f]
-          vfmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfmadd132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfmadd132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfmadd132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x98,0x52,0x80]
-          vfmadd132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfmadd132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfmadd132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmadd132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x98,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfmadd132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmadd132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmadd132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x98,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfmadd132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmadd132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfmadd132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x98,0x10]
-          vfmadd132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfmadd132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfmadd132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfmadd132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x98,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfmadd132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfmadd132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x98,0x51,0x7f]
-          vfmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfmadd132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfmadd132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfmadd132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x98,0x52,0x80]
-          vfmadd132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfmadd132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfmadd213nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfmadd213bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xa8,0xd4]
-          vfmadd213nepbf16 ymm2, ymm3, ymm4
+          vfmadd213bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfmadd213nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfmadd213bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xa8,0xd4]
-          vfmadd213nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfmadd213bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfmadd213bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xa8,0xd4]
-          vfmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfmadd213bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfmadd213nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfmadd213bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xa8,0xd4]
-          vfmadd213nepbf16 zmm2, zmm3, zmm4
+          vfmadd213bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfmadd213nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfmadd213bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xa8,0xd4]
-          vfmadd213nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfmadd213bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfmadd213bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xa8,0xd4]
-          vfmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfmadd213bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfmadd213nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfmadd213bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xa8,0xd4]
-          vfmadd213nepbf16 xmm2, xmm3, xmm4
+          vfmadd213bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfmadd213nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfmadd213bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xa8,0xd4]
-          vfmadd213nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfmadd213bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfmadd213bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xa8,0xd4]
-          vfmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfmadd213bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfmadd213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmadd213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xa8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfmadd213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmadd213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmadd213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xa8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfmadd213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmadd213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfmadd213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xa8,0x10]
-          vfmadd213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfmadd213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfmadd213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfmadd213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xa8,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfmadd213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfmadd213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xa8,0x51,0x7f]
-          vfmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfmadd213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfmadd213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfmadd213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xa8,0x52,0x80]
-          vfmadd213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfmadd213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfmadd213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmadd213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xa8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfmadd213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmadd213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfmadd213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xa8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfmadd213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmadd213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfmadd213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xa8,0x10]
-          vfmadd213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfmadd213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfmadd213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfmadd213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xa8,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfmadd213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfmadd213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xa8,0x51,0x7f]
-          vfmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfmadd213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfmadd213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfmadd213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xa8,0x52,0x80]
-          vfmadd213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfmadd213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfmadd213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmadd213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xa8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfmadd213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmadd213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmadd213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xa8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfmadd213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmadd213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfmadd213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xa8,0x10]
-          vfmadd213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfmadd213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfmadd213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfmadd213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xa8,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfmadd213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfmadd213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xa8,0x51,0x7f]
-          vfmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfmadd213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfmadd213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfmadd213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xa8,0x52,0x80]
-          vfmadd213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfmadd213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfmadd231nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfmadd231bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xb8,0xd4]
-          vfmadd231nepbf16 ymm2, ymm3, ymm4
+          vfmadd231bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfmadd231nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfmadd231bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xb8,0xd4]
-          vfmadd231nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfmadd231bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfmadd231bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xb8,0xd4]
-          vfmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfmadd231bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfmadd231nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfmadd231bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xb8,0xd4]
-          vfmadd231nepbf16 zmm2, zmm3, zmm4
+          vfmadd231bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfmadd231nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfmadd231bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xb8,0xd4]
-          vfmadd231nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfmadd231bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfmadd231bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xb8,0xd4]
-          vfmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfmadd231bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfmadd231nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfmadd231bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xb8,0xd4]
-          vfmadd231nepbf16 xmm2, xmm3, xmm4
+          vfmadd231bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfmadd231nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfmadd231bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xb8,0xd4]
-          vfmadd231nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfmadd231bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfmadd231bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xb8,0xd4]
-          vfmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfmadd231bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfmadd231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmadd231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xb8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfmadd231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmadd231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmadd231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xb8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfmadd231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmadd231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfmadd231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xb8,0x10]
-          vfmadd231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfmadd231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfmadd231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfmadd231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xb8,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfmadd231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfmadd231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xb8,0x51,0x7f]
-          vfmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfmadd231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfmadd231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfmadd231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xb8,0x52,0x80]
-          vfmadd231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfmadd231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfmadd231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmadd231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xb8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfmadd231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmadd231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfmadd231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xb8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfmadd231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmadd231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfmadd231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xb8,0x10]
-          vfmadd231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfmadd231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfmadd231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfmadd231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xb8,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfmadd231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfmadd231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xb8,0x51,0x7f]
-          vfmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfmadd231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfmadd231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfmadd231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xb8,0x52,0x80]
-          vfmadd231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfmadd231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfmadd231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmadd231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xb8,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfmadd231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmadd231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmadd231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xb8,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfmadd231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmadd231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfmadd231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xb8,0x10]
-          vfmadd231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfmadd231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfmadd231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfmadd231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xb8,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfmadd231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfmadd231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xb8,0x51,0x7f]
-          vfmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfmadd231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfmadd231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfmadd231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xb8,0x52,0x80]
-          vfmadd231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfmadd231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfmsub132nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfmsub132bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9a,0xd4]
-          vfmsub132nepbf16 ymm2, ymm3, ymm4
+          vfmsub132bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfmsub132nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfmsub132bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9a,0xd4]
-          vfmsub132nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfmsub132bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfmsub132bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9a,0xd4]
-          vfmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfmsub132bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfmsub132nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfmsub132bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9a,0xd4]
-          vfmsub132nepbf16 zmm2, zmm3, zmm4
+          vfmsub132bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfmsub132nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfmsub132bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9a,0xd4]
-          vfmsub132nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfmsub132bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfmsub132bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9a,0xd4]
-          vfmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfmsub132bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfmsub132nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfmsub132bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9a,0xd4]
-          vfmsub132nepbf16 xmm2, xmm3, xmm4
+          vfmsub132bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfmsub132nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfmsub132bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9a,0xd4]
-          vfmsub132nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfmsub132bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfmsub132bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9a,0xd4]
-          vfmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfmsub132bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfmsub132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmsub132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9a,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfmsub132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmsub132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmsub132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9a,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfmsub132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmsub132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfmsub132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x9a,0x10]
-          vfmsub132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfmsub132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfmsub132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfmsub132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9a,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfmsub132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfmsub132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9a,0x51,0x7f]
-          vfmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfmsub132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfmsub132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfmsub132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x9a,0x52,0x80]
-          vfmsub132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfmsub132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfmsub132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmsub132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9a,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfmsub132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmsub132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfmsub132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9a,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfmsub132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmsub132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfmsub132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x9a,0x10]
-          vfmsub132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfmsub132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfmsub132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfmsub132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9a,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfmsub132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfmsub132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9a,0x51,0x7f]
-          vfmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfmsub132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfmsub132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfmsub132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x9a,0x52,0x80]
-          vfmsub132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfmsub132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfmsub132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmsub132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9a,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfmsub132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmsub132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmsub132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9a,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfmsub132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmsub132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfmsub132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x9a,0x10]
-          vfmsub132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfmsub132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfmsub132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfmsub132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9a,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfmsub132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfmsub132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9a,0x51,0x7f]
-          vfmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfmsub132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfmsub132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfmsub132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x9a,0x52,0x80]
-          vfmsub132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfmsub132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfmsub213nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfmsub213bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xaa,0xd4]
-          vfmsub213nepbf16 ymm2, ymm3, ymm4
+          vfmsub213bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfmsub213nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfmsub213bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xaa,0xd4]
-          vfmsub213nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfmsub213bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfmsub213bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xaa,0xd4]
-          vfmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfmsub213bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfmsub213nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfmsub213bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xaa,0xd4]
-          vfmsub213nepbf16 zmm2, zmm3, zmm4
+          vfmsub213bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfmsub213nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfmsub213bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xaa,0xd4]
-          vfmsub213nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfmsub213bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfmsub213bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xaa,0xd4]
-          vfmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfmsub213bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfmsub213nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfmsub213bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xaa,0xd4]
-          vfmsub213nepbf16 xmm2, xmm3, xmm4
+          vfmsub213bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfmsub213nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfmsub213bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xaa,0xd4]
-          vfmsub213nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfmsub213bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfmsub213bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xaa,0xd4]
-          vfmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfmsub213bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfmsub213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmsub213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xaa,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfmsub213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmsub213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmsub213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xaa,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfmsub213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmsub213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfmsub213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xaa,0x10]
-          vfmsub213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfmsub213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfmsub213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfmsub213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xaa,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfmsub213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfmsub213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xaa,0x51,0x7f]
-          vfmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfmsub213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfmsub213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfmsub213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xaa,0x52,0x80]
-          vfmsub213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfmsub213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfmsub213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmsub213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xaa,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfmsub213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmsub213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfmsub213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xaa,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfmsub213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmsub213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfmsub213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xaa,0x10]
-          vfmsub213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfmsub213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfmsub213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfmsub213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xaa,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfmsub213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfmsub213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xaa,0x51,0x7f]
-          vfmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfmsub213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfmsub213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfmsub213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xaa,0x52,0x80]
-          vfmsub213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfmsub213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfmsub213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmsub213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xaa,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfmsub213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmsub213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmsub213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xaa,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfmsub213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmsub213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfmsub213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xaa,0x10]
-          vfmsub213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfmsub213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfmsub213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfmsub213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xaa,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfmsub213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfmsub213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xaa,0x51,0x7f]
-          vfmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfmsub213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfmsub213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfmsub213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xaa,0x52,0x80]
-          vfmsub213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfmsub213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfmsub231nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfmsub231bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xba,0xd4]
-          vfmsub231nepbf16 ymm2, ymm3, ymm4
+          vfmsub231bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfmsub231nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfmsub231bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xba,0xd4]
-          vfmsub231nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfmsub231bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfmsub231bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xba,0xd4]
-          vfmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfmsub231bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfmsub231nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfmsub231bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xba,0xd4]
-          vfmsub231nepbf16 zmm2, zmm3, zmm4
+          vfmsub231bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfmsub231nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfmsub231bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xba,0xd4]
-          vfmsub231nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfmsub231bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfmsub231bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xba,0xd4]
-          vfmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfmsub231bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfmsub231nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfmsub231bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xba,0xd4]
-          vfmsub231nepbf16 xmm2, xmm3, xmm4
+          vfmsub231bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfmsub231nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfmsub231bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xba,0xd4]
-          vfmsub231nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfmsub231bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfmsub231bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xba,0xd4]
-          vfmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfmsub231bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfmsub231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmsub231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xba,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfmsub231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmsub231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmsub231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xba,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfmsub231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmsub231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfmsub231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xba,0x10]
-          vfmsub231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfmsub231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfmsub231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfmsub231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xba,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfmsub231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfmsub231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xba,0x51,0x7f]
-          vfmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfmsub231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfmsub231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfmsub231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xba,0x52,0x80]
-          vfmsub231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfmsub231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfmsub231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmsub231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xba,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfmsub231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmsub231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfmsub231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xba,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfmsub231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmsub231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfmsub231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xba,0x10]
-          vfmsub231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfmsub231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfmsub231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfmsub231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xba,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfmsub231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfmsub231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xba,0x51,0x7f]
-          vfmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfmsub231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfmsub231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfmsub231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xba,0x52,0x80]
-          vfmsub231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfmsub231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfmsub231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfmsub231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xba,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfmsub231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfmsub231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfmsub231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xba,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfmsub231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfmsub231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfmsub231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xba,0x10]
-          vfmsub231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfmsub231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfmsub231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfmsub231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xba,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfmsub231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfmsub231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xba,0x51,0x7f]
-          vfmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfmsub231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfmsub231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfmsub231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xba,0x52,0x80]
-          vfmsub231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfmsub231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfnmadd132nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfnmadd132bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9c,0xd4]
-          vfnmadd132nepbf16 ymm2, ymm3, ymm4
+          vfnmadd132bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfnmadd132nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfnmadd132bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9c,0xd4]
-          vfnmadd132nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfnmadd132bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfnmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfnmadd132bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9c,0xd4]
-          vfnmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfnmadd132bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfnmadd132nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfnmadd132bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9c,0xd4]
-          vfnmadd132nepbf16 zmm2, zmm3, zmm4
+          vfnmadd132bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfnmadd132nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfnmadd132bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9c,0xd4]
-          vfnmadd132nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfnmadd132bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfnmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfnmadd132bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9c,0xd4]
-          vfnmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfnmadd132bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfnmadd132nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfnmadd132bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9c,0xd4]
-          vfnmadd132nepbf16 xmm2, xmm3, xmm4
+          vfnmadd132bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfnmadd132nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfnmadd132bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9c,0xd4]
-          vfnmadd132nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfnmadd132bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfnmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfnmadd132bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9c,0xd4]
-          vfnmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfnmadd132bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfnmadd132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmadd132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfnmadd132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmadd132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmadd132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfnmadd132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmadd132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfnmadd132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x9c,0x10]
-          vfnmadd132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfnmadd132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfnmadd132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfnmadd132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9c,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfnmadd132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfnmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfnmadd132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9c,0x51,0x7f]
-          vfnmadd132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfnmadd132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfnmadd132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfnmadd132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x9c,0x52,0x80]
-          vfnmadd132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfnmadd132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfnmadd132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmadd132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfnmadd132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmadd132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmadd132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfnmadd132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmadd132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfnmadd132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x9c,0x10]
-          vfnmadd132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfnmadd132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfnmadd132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfnmadd132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9c,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfnmadd132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfnmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfnmadd132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9c,0x51,0x7f]
-          vfnmadd132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfnmadd132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfnmadd132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfnmadd132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x9c,0x52,0x80]
-          vfnmadd132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfnmadd132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfnmadd132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmadd132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfnmadd132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmadd132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmadd132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfnmadd132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmadd132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfnmadd132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x9c,0x10]
-          vfnmadd132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfnmadd132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfnmadd132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfnmadd132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9c,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfnmadd132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfnmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfnmadd132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9c,0x51,0x7f]
-          vfnmadd132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfnmadd132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfnmadd132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfnmadd132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x9c,0x52,0x80]
-          vfnmadd132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfnmadd132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfnmadd213nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfnmadd213bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xac,0xd4]
-          vfnmadd213nepbf16 ymm2, ymm3, ymm4
+          vfnmadd213bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfnmadd213nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfnmadd213bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xac,0xd4]
-          vfnmadd213nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfnmadd213bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfnmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfnmadd213bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xac,0xd4]
-          vfnmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfnmadd213bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfnmadd213nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfnmadd213bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xac,0xd4]
-          vfnmadd213nepbf16 zmm2, zmm3, zmm4
+          vfnmadd213bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfnmadd213nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfnmadd213bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xac,0xd4]
-          vfnmadd213nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfnmadd213bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfnmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfnmadd213bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xac,0xd4]
-          vfnmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfnmadd213bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfnmadd213nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfnmadd213bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xac,0xd4]
-          vfnmadd213nepbf16 xmm2, xmm3, xmm4
+          vfnmadd213bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfnmadd213nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfnmadd213bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xac,0xd4]
-          vfnmadd213nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfnmadd213bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfnmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfnmadd213bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xac,0xd4]
-          vfnmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfnmadd213bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfnmadd213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmadd213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xac,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfnmadd213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmadd213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmadd213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xac,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfnmadd213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmadd213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfnmadd213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xac,0x10]
-          vfnmadd213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfnmadd213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfnmadd213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfnmadd213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xac,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfnmadd213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfnmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfnmadd213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xac,0x51,0x7f]
-          vfnmadd213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfnmadd213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfnmadd213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfnmadd213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xac,0x52,0x80]
-          vfnmadd213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfnmadd213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfnmadd213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmadd213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xac,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfnmadd213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmadd213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmadd213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xac,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfnmadd213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmadd213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfnmadd213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xac,0x10]
-          vfnmadd213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfnmadd213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfnmadd213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfnmadd213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xac,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfnmadd213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfnmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfnmadd213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xac,0x51,0x7f]
-          vfnmadd213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfnmadd213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfnmadd213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfnmadd213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xac,0x52,0x80]
-          vfnmadd213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfnmadd213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfnmadd213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmadd213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xac,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfnmadd213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmadd213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmadd213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xac,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfnmadd213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmadd213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfnmadd213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xac,0x10]
-          vfnmadd213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfnmadd213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfnmadd213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfnmadd213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xac,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfnmadd213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfnmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfnmadd213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xac,0x51,0x7f]
-          vfnmadd213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfnmadd213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfnmadd213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfnmadd213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xac,0x52,0x80]
-          vfnmadd213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfnmadd213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfnmadd231nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfnmadd231bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbc,0xd4]
-          vfnmadd231nepbf16 ymm2, ymm3, ymm4
+          vfnmadd231bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfnmadd231nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfnmadd231bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xbc,0xd4]
-          vfnmadd231nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfnmadd231bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfnmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfnmadd231bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xbc,0xd4]
-          vfnmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfnmadd231bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfnmadd231nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfnmadd231bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbc,0xd4]
-          vfnmadd231nepbf16 zmm2, zmm3, zmm4
+          vfnmadd231bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfnmadd231nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfnmadd231bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xbc,0xd4]
-          vfnmadd231nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfnmadd231bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfnmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfnmadd231bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xbc,0xd4]
-          vfnmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfnmadd231bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfnmadd231nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfnmadd231bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbc,0xd4]
-          vfnmadd231nepbf16 xmm2, xmm3, xmm4
+          vfnmadd231bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfnmadd231nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfnmadd231bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xbc,0xd4]
-          vfnmadd231nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfnmadd231bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfnmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfnmadd231bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xbc,0xd4]
-          vfnmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfnmadd231bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfnmadd231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmadd231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbc,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfnmadd231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmadd231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmadd231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xbc,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfnmadd231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmadd231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfnmadd231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xbc,0x10]
-          vfnmadd231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfnmadd231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfnmadd231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfnmadd231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbc,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfnmadd231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfnmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfnmadd231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xbc,0x51,0x7f]
-          vfnmadd231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfnmadd231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfnmadd231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfnmadd231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xbc,0x52,0x80]
-          vfnmadd231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfnmadd231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfnmadd231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmadd231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbc,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfnmadd231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmadd231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmadd231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xbc,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfnmadd231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmadd231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfnmadd231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xbc,0x10]
-          vfnmadd231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfnmadd231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfnmadd231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfnmadd231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbc,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfnmadd231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfnmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfnmadd231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xbc,0x51,0x7f]
-          vfnmadd231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfnmadd231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfnmadd231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfnmadd231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xbc,0x52,0x80]
-          vfnmadd231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfnmadd231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfnmadd231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmadd231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbc,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfnmadd231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmadd231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmadd231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xbc,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfnmadd231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmadd231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfnmadd231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xbc,0x10]
-          vfnmadd231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfnmadd231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfnmadd231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfnmadd231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbc,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfnmadd231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfnmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfnmadd231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xbc,0x51,0x7f]
-          vfnmadd231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfnmadd231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfnmadd231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfnmadd231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xbc,0x52,0x80]
-          vfnmadd231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfnmadd231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfnmsub132nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfnmsub132bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9e,0xd4]
-          vfnmsub132nepbf16 ymm2, ymm3, ymm4
+          vfnmsub132bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfnmsub132nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfnmsub132bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9e,0xd4]
-          vfnmsub132nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfnmsub132bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfnmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfnmsub132bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9e,0xd4]
-          vfnmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfnmsub132bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfnmsub132nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfnmsub132bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9e,0xd4]
-          vfnmsub132nepbf16 zmm2, zmm3, zmm4
+          vfnmsub132bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfnmsub132nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfnmsub132bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9e,0xd4]
-          vfnmsub132nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfnmsub132bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfnmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfnmsub132bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9e,0xd4]
-          vfnmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfnmsub132bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfnmsub132nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfnmsub132bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9e,0xd4]
-          vfnmsub132nepbf16 xmm2, xmm3, xmm4
+          vfnmsub132bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfnmsub132nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfnmsub132bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9e,0xd4]
-          vfnmsub132nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfnmsub132bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfnmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfnmsub132bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9e,0xd4]
-          vfnmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfnmsub132bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfnmsub132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmsub132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfnmsub132bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmsub132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmsub132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x9e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfnmsub132bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmsub132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfnmsub132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x9e,0x10]
-          vfnmsub132nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfnmsub132bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfnmsub132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfnmsub132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x9e,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub132nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfnmsub132bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfnmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfnmsub132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x9e,0x51,0x7f]
-          vfnmsub132nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfnmsub132bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfnmsub132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfnmsub132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x9e,0x52,0x80]
-          vfnmsub132nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfnmsub132bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfnmsub132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmsub132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfnmsub132bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmsub132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmsub132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x9e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfnmsub132bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmsub132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfnmsub132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x9e,0x10]
-          vfnmsub132nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfnmsub132bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfnmsub132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfnmsub132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x9e,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub132nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfnmsub132bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfnmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfnmsub132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x9e,0x51,0x7f]
-          vfnmsub132nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfnmsub132bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfnmsub132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfnmsub132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x9e,0x52,0x80]
-          vfnmsub132nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfnmsub132bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfnmsub132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmsub132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfnmsub132bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmsub132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmsub132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x9e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfnmsub132bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmsub132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfnmsub132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x9e,0x10]
-          vfnmsub132nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfnmsub132bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfnmsub132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfnmsub132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x9e,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub132nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfnmsub132bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfnmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfnmsub132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x9e,0x51,0x7f]
-          vfnmsub132nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfnmsub132bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfnmsub132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfnmsub132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x9e,0x52,0x80]
-          vfnmsub132nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfnmsub132bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfnmsub213nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfnmsub213bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xae,0xd4]
-          vfnmsub213nepbf16 ymm2, ymm3, ymm4
+          vfnmsub213bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfnmsub213nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfnmsub213bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xae,0xd4]
-          vfnmsub213nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfnmsub213bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfnmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfnmsub213bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xae,0xd4]
-          vfnmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfnmsub213bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfnmsub213nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfnmsub213bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xae,0xd4]
-          vfnmsub213nepbf16 zmm2, zmm3, zmm4
+          vfnmsub213bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfnmsub213nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfnmsub213bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xae,0xd4]
-          vfnmsub213nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfnmsub213bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfnmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfnmsub213bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xae,0xd4]
-          vfnmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfnmsub213bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfnmsub213nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfnmsub213bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xae,0xd4]
-          vfnmsub213nepbf16 xmm2, xmm3, xmm4
+          vfnmsub213bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfnmsub213nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfnmsub213bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xae,0xd4]
-          vfnmsub213nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfnmsub213bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfnmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfnmsub213bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xae,0xd4]
-          vfnmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfnmsub213bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfnmsub213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmsub213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xae,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfnmsub213bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmsub213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmsub213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xae,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfnmsub213bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmsub213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfnmsub213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xae,0x10]
-          vfnmsub213nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfnmsub213bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfnmsub213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfnmsub213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xae,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub213nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfnmsub213bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfnmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfnmsub213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xae,0x51,0x7f]
-          vfnmsub213nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfnmsub213bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfnmsub213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfnmsub213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xae,0x52,0x80]
-          vfnmsub213nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfnmsub213bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfnmsub213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmsub213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xae,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfnmsub213bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmsub213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmsub213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xae,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfnmsub213bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmsub213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfnmsub213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xae,0x10]
-          vfnmsub213nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfnmsub213bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfnmsub213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfnmsub213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xae,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub213nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfnmsub213bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfnmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfnmsub213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xae,0x51,0x7f]
-          vfnmsub213nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfnmsub213bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfnmsub213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfnmsub213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xae,0x52,0x80]
-          vfnmsub213nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfnmsub213bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfnmsub213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmsub213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xae,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfnmsub213bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmsub213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmsub213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xae,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfnmsub213bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmsub213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfnmsub213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xae,0x10]
-          vfnmsub213nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfnmsub213bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfnmsub213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfnmsub213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xae,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub213nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfnmsub213bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfnmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfnmsub213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xae,0x51,0x7f]
-          vfnmsub213nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfnmsub213bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfnmsub213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfnmsub213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xae,0x52,0x80]
-          vfnmsub213nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfnmsub213bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfnmsub231nepbf16 ymm2, ymm3, ymm4
+// CHECK: vfnmsub231bf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbe,0xd4]
-          vfnmsub231nepbf16 ymm2, ymm3, ymm4
+          vfnmsub231bf16 ymm2, ymm3, ymm4
 
-// CHECK: vfnmsub231nepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vfnmsub231bf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xbe,0xd4]
-          vfnmsub231nepbf16 ymm2 {k7}, ymm3, ymm4
+          vfnmsub231bf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vfnmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vfnmsub231bf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xbe,0xd4]
-          vfnmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vfnmsub231bf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vfnmsub231nepbf16 zmm2, zmm3, zmm4
+// CHECK: vfnmsub231bf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbe,0xd4]
-          vfnmsub231nepbf16 zmm2, zmm3, zmm4
+          vfnmsub231bf16 zmm2, zmm3, zmm4
 
-// CHECK: vfnmsub231nepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vfnmsub231bf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xbe,0xd4]
-          vfnmsub231nepbf16 zmm2 {k7}, zmm3, zmm4
+          vfnmsub231bf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vfnmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vfnmsub231bf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xbe,0xd4]
-          vfnmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vfnmsub231bf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vfnmsub231nepbf16 xmm2, xmm3, xmm4
+// CHECK: vfnmsub231bf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbe,0xd4]
-          vfnmsub231nepbf16 xmm2, xmm3, xmm4
+          vfnmsub231bf16 xmm2, xmm3, xmm4
 
-// CHECK: vfnmsub231nepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vfnmsub231bf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xbe,0xd4]
-          vfnmsub231nepbf16 xmm2 {k7}, xmm3, xmm4
+          vfnmsub231bf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vfnmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vfnmsub231bf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xbe,0xd4]
-          vfnmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vfnmsub231bf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vfnmsub231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmsub231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbe,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vfnmsub231bf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmsub231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmsub231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0xbe,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vfnmsub231bf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmsub231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vfnmsub231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0xbe,0x10]
-          vfnmsub231nepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vfnmsub231bf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vfnmsub231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vfnmsub231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0xbe,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub231nepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vfnmsub231bf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vfnmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vfnmsub231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0xbe,0x51,0x7f]
-          vfnmsub231nepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vfnmsub231bf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vfnmsub231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vfnmsub231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0xbe,0x52,0x80]
-          vfnmsub231nepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vfnmsub231bf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vfnmsub231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmsub231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbe,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vfnmsub231bf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmsub231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmsub231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0xbe,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vfnmsub231bf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmsub231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vfnmsub231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0xbe,0x10]
-          vfnmsub231nepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vfnmsub231bf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vfnmsub231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vfnmsub231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0xbe,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub231nepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vfnmsub231bf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vfnmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vfnmsub231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0xbe,0x51,0x7f]
-          vfnmsub231nepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vfnmsub231bf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vfnmsub231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vfnmsub231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0xbe,0x52,0x80]
-          vfnmsub231nepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vfnmsub231bf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vfnmsub231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vfnmsub231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbe,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vfnmsub231bf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vfnmsub231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vfnmsub231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0xbe,0x94,0x87,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vfnmsub231bf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vfnmsub231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vfnmsub231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0xbe,0x10]
-          vfnmsub231nepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vfnmsub231bf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vfnmsub231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vfnmsub231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0xbe,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub231nepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vfnmsub231bf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vfnmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vfnmsub231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0xbe,0x51,0x7f]
-          vfnmsub231nepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vfnmsub231bf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vfnmsub231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vfnmsub231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0xbe,0x52,0x80]
-          vfnmsub231nepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vfnmsub231bf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vfpclasspbf16 k5, zmm3, 123
+// CHECK: vfpclassbf16 k5, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x66,0xeb,0x7b]
-          vfpclasspbf16 k5, zmm3, 123
+          vfpclassbf16 k5, zmm3, 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, zmm3, 123
+// CHECK: vfpclassbf16 k5 {k7}, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x66,0xeb,0x7b]
-          vfpclasspbf16 k5 {k7}, zmm3, 123
+          vfpclassbf16 k5 {k7}, zmm3, 123
 
-// CHECK: vfpclasspbf16 k5, ymm3, 123
+// CHECK: vfpclassbf16 k5, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x66,0xeb,0x7b]
-          vfpclasspbf16 k5, ymm3, 123
+          vfpclassbf16 k5, ymm3, 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, ymm3, 123
+// CHECK: vfpclassbf16 k5 {k7}, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x66,0xeb,0x7b]
-          vfpclasspbf16 k5 {k7}, ymm3, 123
+          vfpclassbf16 k5 {k7}, ymm3, 123
 
-// CHECK: vfpclasspbf16 k5, xmm3, 123
+// CHECK: vfpclassbf16 k5, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x66,0xeb,0x7b]
-          vfpclasspbf16 k5, xmm3, 123
+          vfpclassbf16 k5, xmm3, 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, xmm3, 123
+// CHECK: vfpclassbf16 k5 {k7}, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x66,0xeb,0x7b]
-          vfpclasspbf16 k5 {k7}, xmm3, 123
+          vfpclassbf16 k5 {k7}, xmm3, 123
 
-// CHECK: vfpclasspbf16 k5, xmmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vfpclassbf16 k5, xmmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x66,0xac,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vfpclasspbf16 k5, xmmword ptr [esp + 8*esi + 268435456], 123
+          vfpclassbf16 k5, xmmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+// CHECK: vfpclassbf16 k5 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x66,0xac,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vfpclasspbf16 k5 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+          vfpclassbf16 k5 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vfpclasspbf16 k5, word ptr [eax]{1to8}, 123
+// CHECK: vfpclassbf16 k5, word ptr [eax]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x66,0x28,0x7b]
-          vfpclasspbf16 k5, word ptr [eax]{1to8}, 123
+          vfpclassbf16 k5, word ptr [eax]{1to8}, 123
 
-// CHECK: vfpclasspbf16 k5, xmmword ptr [2*ebp - 512], 123
+// CHECK: vfpclassbf16 k5, xmmword ptr [2*ebp - 512], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x66,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vfpclasspbf16 k5, xmmword ptr [2*ebp - 512], 123
+          vfpclassbf16 k5, xmmword ptr [2*ebp - 512], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, xmmword ptr [ecx + 2032], 123
+// CHECK: vfpclassbf16 k5 {k7}, xmmword ptr [ecx + 2032], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16 k5 {k7}, xmmword ptr [ecx + 2032], 123
+          vfpclassbf16 k5 {k7}, xmmword ptr [ecx + 2032], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, word ptr [edx - 256]{1to8}, 123
+// CHECK: vfpclassbf16 k5 {k7}, word ptr [edx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x1f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16 k5 {k7}, word ptr [edx - 256]{1to8}, 123
+          vfpclassbf16 k5 {k7}, word ptr [edx - 256]{1to8}, 123
 
-// CHECK: vfpclasspbf16 k5, word ptr [eax]{1to16}, 123
+// CHECK: vfpclassbf16 k5, word ptr [eax]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x66,0x28,0x7b]
-          vfpclasspbf16 k5, word ptr [eax]{1to16}, 123
+          vfpclassbf16 k5, word ptr [eax]{1to16}, 123
 
-// CHECK: vfpclasspbf16 k5, ymmword ptr [2*ebp - 1024], 123
+// CHECK: vfpclassbf16 k5, ymmword ptr [2*ebp - 1024], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x66,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vfpclasspbf16 k5, ymmword ptr [2*ebp - 1024], 123
+          vfpclassbf16 k5, ymmword ptr [2*ebp - 1024], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, ymmword ptr [ecx + 4064], 123
+// CHECK: vfpclassbf16 k5 {k7}, ymmword ptr [ecx + 4064], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16 k5 {k7}, ymmword ptr [ecx + 4064], 123
+          vfpclassbf16 k5 {k7}, ymmword ptr [ecx + 4064], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, word ptr [edx - 256]{1to16}, 123
+// CHECK: vfpclassbf16 k5 {k7}, word ptr [edx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x3f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16 k5 {k7}, word ptr [edx - 256]{1to16}, 123
+          vfpclassbf16 k5 {k7}, word ptr [edx - 256]{1to16}, 123
 
-// CHECK: vfpclasspbf16 k5, word ptr [eax]{1to32}, 123
+// CHECK: vfpclassbf16 k5, word ptr [eax]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x66,0x28,0x7b]
-          vfpclasspbf16 k5, word ptr [eax]{1to32}, 123
+          vfpclassbf16 k5, word ptr [eax]{1to32}, 123
 
-// CHECK: vfpclasspbf16 k5, zmmword ptr [2*ebp - 2048], 123
+// CHECK: vfpclassbf16 k5, zmmword ptr [2*ebp - 2048], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x66,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vfpclasspbf16 k5, zmmword ptr [2*ebp - 2048], 123
+          vfpclassbf16 k5, zmmword ptr [2*ebp - 2048], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, zmmword ptr [ecx + 8128], 123
+// CHECK: vfpclassbf16 k5 {k7}, zmmword ptr [ecx + 8128], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16 k5 {k7}, zmmword ptr [ecx + 8128], 123
+          vfpclassbf16 k5 {k7}, zmmword ptr [ecx + 8128], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, word ptr [edx - 256]{1to32}, 123
+// CHECK: vfpclassbf16 k5 {k7}, word ptr [edx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x5f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16 k5 {k7}, word ptr [edx - 256]{1to32}, 123
+          vfpclassbf16 k5 {k7}, word ptr [edx - 256]{1to32}, 123
 
-// CHECK: vgetexppbf16 xmm2, xmm3
+// CHECK: vgetexpbf16 xmm2, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x42,0xd3]
-          vgetexppbf16 xmm2, xmm3
+          vgetexpbf16 xmm2, xmm3
 
-// CHECK: vgetexppbf16 xmm2 {k7}, xmm3
+// CHECK: vgetexpbf16 xmm2 {k7}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x0f,0x42,0xd3]
-          vgetexppbf16 xmm2 {k7}, xmm3
+          vgetexpbf16 xmm2 {k7}, xmm3
 
-// CHECK: vgetexppbf16 xmm2 {k7} {z}, xmm3
+// CHECK: vgetexpbf16 xmm2 {k7} {z}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x8f,0x42,0xd3]
-          vgetexppbf16 xmm2 {k7} {z}, xmm3
+          vgetexpbf16 xmm2 {k7} {z}, xmm3
 
-// CHECK: vgetexppbf16 zmm2, zmm3
+// CHECK: vgetexpbf16 zmm2, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x42,0xd3]
-          vgetexppbf16 zmm2, zmm3
+          vgetexpbf16 zmm2, zmm3
 
-// CHECK: vgetexppbf16 zmm2 {k7}, zmm3
+// CHECK: vgetexpbf16 zmm2 {k7}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x4f,0x42,0xd3]
-          vgetexppbf16 zmm2 {k7}, zmm3
+          vgetexpbf16 zmm2 {k7}, zmm3
 
-// CHECK: vgetexppbf16 zmm2 {k7} {z}, zmm3
+// CHECK: vgetexpbf16 zmm2 {k7} {z}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0xcf,0x42,0xd3]
-          vgetexppbf16 zmm2 {k7} {z}, zmm3
+          vgetexpbf16 zmm2 {k7} {z}, zmm3
 
-// CHECK: vgetexppbf16 ymm2, ymm3
+// CHECK: vgetexpbf16 ymm2, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x42,0xd3]
-          vgetexppbf16 ymm2, ymm3
+          vgetexpbf16 ymm2, ymm3
 
-// CHECK: vgetexppbf16 ymm2 {k7}, ymm3
+// CHECK: vgetexpbf16 ymm2 {k7}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x2f,0x42,0xd3]
-          vgetexppbf16 ymm2 {k7}, ymm3
+          vgetexpbf16 ymm2 {k7}, ymm3
 
-// CHECK: vgetexppbf16 ymm2 {k7} {z}, ymm3
+// CHECK: vgetexpbf16 ymm2 {k7} {z}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0xaf,0x42,0xd3]
-          vgetexppbf16 ymm2 {k7} {z}, ymm3
+          vgetexpbf16 ymm2 {k7} {z}, ymm3
 
-// CHECK: vgetexppbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vgetexpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x42,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vgetexppbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+          vgetexpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vgetexppbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vgetexpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x0f,0x42,0x94,0x87,0x23,0x01,0x00,0x00]
-          vgetexppbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+          vgetexpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vgetexppbf16 xmm2, word ptr [eax]{1to8}
+// CHECK: vgetexpbf16 xmm2, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x18,0x42,0x10]
-          vgetexppbf16 xmm2, word ptr [eax]{1to8}
+          vgetexpbf16 xmm2, word ptr [eax]{1to8}
 
-// CHECK: vgetexppbf16 xmm2, xmmword ptr [2*ebp - 512]
+// CHECK: vgetexpbf16 xmm2, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x42,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vgetexppbf16 xmm2, xmmword ptr [2*ebp - 512]
+          vgetexpbf16 xmm2, xmmword ptr [2*ebp - 512]
 
-// CHECK: vgetexppbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+// CHECK: vgetexpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x8f,0x42,0x51,0x7f]
-          vgetexppbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+          vgetexpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 
-// CHECK: vgetexppbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+// CHECK: vgetexpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x9f,0x42,0x52,0x80]
-          vgetexppbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+          vgetexpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 
-// CHECK: vgetexppbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vgetexpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x42,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vgetexppbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+          vgetexpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vgetexppbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vgetexpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x2f,0x42,0x94,0x87,0x23,0x01,0x00,0x00]
-          vgetexppbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+          vgetexpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vgetexppbf16 ymm2, word ptr [eax]{1to16}
+// CHECK: vgetexpbf16 ymm2, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x38,0x42,0x10]
-          vgetexppbf16 ymm2, word ptr [eax]{1to16}
+          vgetexpbf16 ymm2, word ptr [eax]{1to16}
 
-// CHECK: vgetexppbf16 ymm2, ymmword ptr [2*ebp - 1024]
+// CHECK: vgetexpbf16 ymm2, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x42,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vgetexppbf16 ymm2, ymmword ptr [2*ebp - 1024]
+          vgetexpbf16 ymm2, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vgetexppbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+// CHECK: vgetexpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x7d,0xaf,0x42,0x51,0x7f]
-          vgetexppbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+          vgetexpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 
-// CHECK: vgetexppbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+// CHECK: vgetexpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xbf,0x42,0x52,0x80]
-          vgetexppbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+          vgetexpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 
-// CHECK: vgetexppbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vgetexpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x42,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vgetexppbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+          vgetexpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vgetexppbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vgetexpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x4f,0x42,0x94,0x87,0x23,0x01,0x00,0x00]
-          vgetexppbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+          vgetexpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vgetexppbf16 zmm2, word ptr [eax]{1to32}
+// CHECK: vgetexpbf16 zmm2, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x58,0x42,0x10]
-          vgetexppbf16 zmm2, word ptr [eax]{1to32}
+          vgetexpbf16 zmm2, word ptr [eax]{1to32}
 
-// CHECK: vgetexppbf16 zmm2, zmmword ptr [2*ebp - 2048]
+// CHECK: vgetexpbf16 zmm2, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x42,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vgetexppbf16 zmm2, zmmword ptr [2*ebp - 2048]
+          vgetexpbf16 zmm2, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vgetexppbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+// CHECK: vgetexpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x7d,0xcf,0x42,0x51,0x7f]
-          vgetexppbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+          vgetexpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 
-// CHECK: vgetexppbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+// CHECK: vgetexpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xdf,0x42,0x52,0x80]
-          vgetexppbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+          vgetexpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 
-// CHECK: vgetmantpbf16 zmm2, zmm3, 123
+// CHECK: vgetmantbf16 zmm2, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x26,0xd3,0x7b]
-          vgetmantpbf16 zmm2, zmm3, 123
+          vgetmantbf16 zmm2, zmm3, 123
 
-// CHECK: vgetmantpbf16 zmm2 {k7}, zmm3, 123
+// CHECK: vgetmantbf16 zmm2 {k7}, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x26,0xd3,0x7b]
-          vgetmantpbf16 zmm2 {k7}, zmm3, 123
+          vgetmantbf16 zmm2 {k7}, zmm3, 123
 
-// CHECK: vgetmantpbf16 zmm2 {k7} {z}, zmm3, 123
+// CHECK: vgetmantbf16 zmm2 {k7} {z}, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x26,0xd3,0x7b]
-          vgetmantpbf16 zmm2 {k7} {z}, zmm3, 123
+          vgetmantbf16 zmm2 {k7} {z}, zmm3, 123
 
-// CHECK: vgetmantpbf16 ymm2, ymm3, 123
+// CHECK: vgetmantbf16 ymm2, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x26,0xd3,0x7b]
-          vgetmantpbf16 ymm2, ymm3, 123
+          vgetmantbf16 ymm2, ymm3, 123
 
-// CHECK: vgetmantpbf16 ymm2 {k7}, ymm3, 123
+// CHECK: vgetmantbf16 ymm2 {k7}, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x26,0xd3,0x7b]
-          vgetmantpbf16 ymm2 {k7}, ymm3, 123
+          vgetmantbf16 ymm2 {k7}, ymm3, 123
 
-// CHECK: vgetmantpbf16 ymm2 {k7} {z}, ymm3, 123
+// CHECK: vgetmantbf16 ymm2 {k7} {z}, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x26,0xd3,0x7b]
-          vgetmantpbf16 ymm2 {k7} {z}, ymm3, 123
+          vgetmantbf16 ymm2 {k7} {z}, ymm3, 123
 
-// CHECK: vgetmantpbf16 xmm2, xmm3, 123
+// CHECK: vgetmantbf16 xmm2, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x26,0xd3,0x7b]
-          vgetmantpbf16 xmm2, xmm3, 123
+          vgetmantbf16 xmm2, xmm3, 123
 
-// CHECK: vgetmantpbf16 xmm2 {k7}, xmm3, 123
+// CHECK: vgetmantbf16 xmm2 {k7}, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x26,0xd3,0x7b]
-          vgetmantpbf16 xmm2 {k7}, xmm3, 123
+          vgetmantbf16 xmm2 {k7}, xmm3, 123
 
-// CHECK: vgetmantpbf16 xmm2 {k7} {z}, xmm3, 123
+// CHECK: vgetmantbf16 xmm2 {k7} {z}, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x26,0xd3,0x7b]
-          vgetmantpbf16 xmm2 {k7} {z}, xmm3, 123
+          vgetmantbf16 xmm2 {k7} {z}, xmm3, 123
 
-// CHECK: vgetmantpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vgetmantbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x26,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
+          vgetmantbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vgetmantpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+// CHECK: vgetmantbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x26,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+          vgetmantbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vgetmantpbf16 xmm2, word ptr [eax]{1to8}, 123
+// CHECK: vgetmantbf16 xmm2, word ptr [eax]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x26,0x10,0x7b]
-          vgetmantpbf16 xmm2, word ptr [eax]{1to8}, 123
+          vgetmantbf16 xmm2, word ptr [eax]{1to8}, 123
 
-// CHECK: vgetmantpbf16 xmm2, xmmword ptr [2*ebp - 512], 123
+// CHECK: vgetmantbf16 xmm2, xmmword ptr [2*ebp - 512], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x26,0x14,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vgetmantpbf16 xmm2, xmmword ptr [2*ebp - 512], 123
+          vgetmantbf16 xmm2, xmmword ptr [2*ebp - 512], 123
 
-// CHECK: vgetmantpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
+// CHECK: vgetmantbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x26,0x51,0x7f,0x7b]
-          vgetmantpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
+          vgetmantbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
 
-// CHECK: vgetmantpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
+// CHECK: vgetmantbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x9f,0x26,0x52,0x80,0x7b]
-          vgetmantpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
+          vgetmantbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
 
-// CHECK: vgetmantpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vgetmantbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x26,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
+          vgetmantbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vgetmantpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
+// CHECK: vgetmantbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x26,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
+          vgetmantbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vgetmantpbf16 ymm2, word ptr [eax]{1to16}, 123
+// CHECK: vgetmantbf16 ymm2, word ptr [eax]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x26,0x10,0x7b]
-          vgetmantpbf16 ymm2, word ptr [eax]{1to16}, 123
+          vgetmantbf16 ymm2, word ptr [eax]{1to16}, 123
 
-// CHECK: vgetmantpbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
+// CHECK: vgetmantbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x26,0x14,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vgetmantpbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
+          vgetmantbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
 
-// CHECK: vgetmantpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
+// CHECK: vgetmantbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x26,0x51,0x7f,0x7b]
-          vgetmantpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
+          vgetmantbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
 
-// CHECK: vgetmantpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
+// CHECK: vgetmantbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xbf,0x26,0x52,0x80,0x7b]
-          vgetmantpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
+          vgetmantbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
 
-// CHECK: vgetmantpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vgetmantbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x26,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
+          vgetmantbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vgetmantpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
+// CHECK: vgetmantbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x26,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
+          vgetmantbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vgetmantpbf16 zmm2, word ptr [eax]{1to32}, 123
+// CHECK: vgetmantbf16 zmm2, word ptr [eax]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x26,0x10,0x7b]
-          vgetmantpbf16 zmm2, word ptr [eax]{1to32}, 123
+          vgetmantbf16 zmm2, word ptr [eax]{1to32}, 123
 
-// CHECK: vgetmantpbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
+// CHECK: vgetmantbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x26,0x14,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vgetmantpbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
+          vgetmantbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
 
-// CHECK: vgetmantpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
+// CHECK: vgetmantbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x26,0x51,0x7f,0x7b]
-          vgetmantpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
+          vgetmantbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
 
-// CHECK: vgetmantpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
+// CHECK: vgetmantbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xdf,0x26,0x52,0x80,0x7b]
-          vgetmantpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
+          vgetmantbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
 
-// CHECK: vmaxpbf16 ymm2, ymm3, ymm4
+// CHECK: vmaxbf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5f,0xd4]
-          vmaxpbf16 ymm2, ymm3, ymm4
+          vmaxbf16 ymm2, ymm3, ymm4
 
-// CHECK: vmaxpbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vmaxbf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5f,0xd4]
-          vmaxpbf16 ymm2 {k7}, ymm3, ymm4
+          vmaxbf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vmaxpbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vmaxbf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5f,0xd4]
-          vmaxpbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vmaxbf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vmaxpbf16 zmm2, zmm3, zmm4
+// CHECK: vmaxbf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5f,0xd4]
-          vmaxpbf16 zmm2, zmm3, zmm4
+          vmaxbf16 zmm2, zmm3, zmm4
 
-// CHECK: vmaxpbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vmaxbf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5f,0xd4]
-          vmaxpbf16 zmm2 {k7}, zmm3, zmm4
+          vmaxbf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vmaxpbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vmaxbf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5f,0xd4]
-          vmaxpbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vmaxbf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vmaxpbf16 xmm2, xmm3, xmm4
+// CHECK: vmaxbf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5f,0xd4]
-          vmaxpbf16 xmm2, xmm3, xmm4
+          vmaxbf16 xmm2, xmm3, xmm4
 
-// CHECK: vmaxpbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vmaxbf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5f,0xd4]
-          vmaxpbf16 xmm2 {k7}, xmm3, xmm4
+          vmaxbf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vmaxpbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vmaxbf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5f,0xd4]
-          vmaxpbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vmaxbf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vmaxpbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vmaxbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5f,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmaxpbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vmaxbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vmaxpbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vmaxbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5f,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmaxpbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vmaxbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vmaxpbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vmaxbf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x5f,0x10]
-          vmaxpbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vmaxbf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vmaxpbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vmaxbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5f,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vmaxpbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vmaxbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vmaxpbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vmaxbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5f,0x51,0x7f]
-          vmaxpbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vmaxbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vmaxpbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vmaxbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x5f,0x52,0x80]
-          vmaxpbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vmaxbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vmaxpbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vmaxbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5f,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmaxpbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vmaxbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vmaxpbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vmaxbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5f,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmaxpbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vmaxbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vmaxpbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vmaxbf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x5f,0x10]
-          vmaxpbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vmaxbf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vmaxpbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vmaxbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5f,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vmaxpbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vmaxbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vmaxpbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vmaxbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5f,0x51,0x7f]
-          vmaxpbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vmaxbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vmaxpbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vmaxbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x5f,0x52,0x80]
-          vmaxpbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vmaxbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vmaxpbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vmaxbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5f,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmaxpbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vmaxbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vmaxpbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vmaxbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5f,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmaxpbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vmaxbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vmaxpbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vmaxbf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x5f,0x10]
-          vmaxpbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vmaxbf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vmaxpbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vmaxbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5f,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vmaxpbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vmaxbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vmaxpbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vmaxbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5f,0x51,0x7f]
-          vmaxpbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vmaxbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vmaxpbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vmaxbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x5f,0x52,0x80]
-          vmaxpbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vmaxbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vminpbf16 ymm2, ymm3, ymm4
+// CHECK: vminbf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5d,0xd4]
-          vminpbf16 ymm2, ymm3, ymm4
+          vminbf16 ymm2, ymm3, ymm4
 
-// CHECK: vminpbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vminbf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5d,0xd4]
-          vminpbf16 ymm2 {k7}, ymm3, ymm4
+          vminbf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vminpbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vminbf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5d,0xd4]
-          vminpbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vminbf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vminpbf16 zmm2, zmm3, zmm4
+// CHECK: vminbf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5d,0xd4]
-          vminpbf16 zmm2, zmm3, zmm4
+          vminbf16 zmm2, zmm3, zmm4
 
-// CHECK: vminpbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vminbf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5d,0xd4]
-          vminpbf16 zmm2 {k7}, zmm3, zmm4
+          vminbf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vminpbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vminbf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5d,0xd4]
-          vminpbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vminbf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vminpbf16 xmm2, xmm3, xmm4
+// CHECK: vminbf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5d,0xd4]
-          vminpbf16 xmm2, xmm3, xmm4
+          vminbf16 xmm2, xmm3, xmm4
 
-// CHECK: vminpbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vminbf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5d,0xd4]
-          vminpbf16 xmm2 {k7}, xmm3, xmm4
+          vminbf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vminpbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vminbf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5d,0xd4]
-          vminpbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vminbf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vminpbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vminbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5d,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vminpbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vminbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vminpbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vminbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5d,0x94,0x87,0x23,0x01,0x00,0x00]
-          vminpbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vminbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vminpbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vminbf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x5d,0x10]
-          vminpbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vminbf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vminpbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vminbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5d,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vminpbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vminbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vminpbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vminbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5d,0x51,0x7f]
-          vminpbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vminbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vminpbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vminbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x5d,0x52,0x80]
-          vminpbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vminbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vminpbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vminbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5d,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vminpbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vminbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vminpbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vminbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5d,0x94,0x87,0x23,0x01,0x00,0x00]
-          vminpbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vminbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vminpbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vminbf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x5d,0x10]
-          vminpbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vminbf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vminpbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vminbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5d,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vminpbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vminbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vminpbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vminbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5d,0x51,0x7f]
-          vminpbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vminbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vminpbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vminbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x5d,0x52,0x80]
-          vminpbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vminbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vminpbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vminbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5d,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vminpbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vminbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vminpbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vminbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5d,0x94,0x87,0x23,0x01,0x00,0x00]
-          vminpbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vminbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vminpbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vminbf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x5d,0x10]
-          vminpbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vminbf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vminpbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vminbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5d,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vminpbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vminbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vminpbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vminbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5d,0x51,0x7f]
-          vminpbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vminbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vminpbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vminbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x5d,0x52,0x80]
-          vminpbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vminbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vmulnepbf16 ymm2, ymm3, ymm4
+// CHECK: vmulbf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x59,0xd4]
-          vmulnepbf16 ymm2, ymm3, ymm4
+          vmulbf16 ymm2, ymm3, ymm4
 
-// CHECK: vmulnepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vmulbf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x59,0xd4]
-          vmulnepbf16 ymm2 {k7}, ymm3, ymm4
+          vmulbf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vmulnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vmulbf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x59,0xd4]
-          vmulnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vmulbf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vmulnepbf16 zmm2, zmm3, zmm4
+// CHECK: vmulbf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x59,0xd4]
-          vmulnepbf16 zmm2, zmm3, zmm4
+          vmulbf16 zmm2, zmm3, zmm4
 
-// CHECK: vmulnepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vmulbf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x59,0xd4]
-          vmulnepbf16 zmm2 {k7}, zmm3, zmm4
+          vmulbf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vmulnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vmulbf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x59,0xd4]
-          vmulnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vmulbf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vmulnepbf16 xmm2, xmm3, xmm4
+// CHECK: vmulbf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x59,0xd4]
-          vmulnepbf16 xmm2, xmm3, xmm4
+          vmulbf16 xmm2, xmm3, xmm4
 
-// CHECK: vmulnepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vmulbf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x59,0xd4]
-          vmulnepbf16 xmm2 {k7}, xmm3, xmm4
+          vmulbf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vmulnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vmulbf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x59,0xd4]
-          vmulnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vmulbf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vmulnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vmulbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x59,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmulnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vmulbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vmulnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vmulbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x59,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmulnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vmulbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vmulnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vmulbf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x59,0x10]
-          vmulnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vmulbf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vmulnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vmulbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x59,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vmulnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vmulbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vmulnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vmulbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x59,0x51,0x7f]
-          vmulnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vmulbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vmulnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vmulbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x59,0x52,0x80]
-          vmulnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vmulbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vmulnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vmulbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x59,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmulnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vmulbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vmulnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vmulbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x59,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmulnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vmulbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vmulnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vmulbf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x59,0x10]
-          vmulnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vmulbf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vmulnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vmulbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x59,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vmulnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vmulbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vmulnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vmulbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x59,0x51,0x7f]
-          vmulnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vmulbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vmulnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vmulbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x59,0x52,0x80]
-          vmulnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vmulbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vmulnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vmulbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x59,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vmulnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vmulbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vmulnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vmulbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x59,0x94,0x87,0x23,0x01,0x00,0x00]
-          vmulnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vmulbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vmulnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vmulbf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x59,0x10]
-          vmulnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vmulbf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vmulnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vmulbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x59,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vmulnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vmulbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vmulnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vmulbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x59,0x51,0x7f]
-          vmulnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vmulbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vmulnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vmulbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x59,0x52,0x80]
-          vmulnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vmulbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vrcppbf16 xmm2, xmm3
+// CHECK: vrcpbf16 xmm2, xmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4c,0xd3]
-          vrcppbf16 xmm2, xmm3
+          vrcpbf16 xmm2, xmm3
 
-// CHECK: vrcppbf16 xmm2 {k7}, xmm3
+// CHECK: vrcpbf16 xmm2 {k7}, xmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x0f,0x4c,0xd3]
-          vrcppbf16 xmm2 {k7}, xmm3
+          vrcpbf16 xmm2 {k7}, xmm3
 
-// CHECK: vrcppbf16 xmm2 {k7} {z}, xmm3
+// CHECK: vrcpbf16 xmm2 {k7} {z}, xmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x8f,0x4c,0xd3]
-          vrcppbf16 xmm2 {k7} {z}, xmm3
+          vrcpbf16 xmm2 {k7} {z}, xmm3
 
-// CHECK: vrcppbf16 zmm2, zmm3
+// CHECK: vrcpbf16 zmm2, zmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4c,0xd3]
-          vrcppbf16 zmm2, zmm3
+          vrcpbf16 zmm2, zmm3
 
-// CHECK: vrcppbf16 zmm2 {k7}, zmm3
+// CHECK: vrcpbf16 zmm2 {k7}, zmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x4f,0x4c,0xd3]
-          vrcppbf16 zmm2 {k7}, zmm3
+          vrcpbf16 zmm2 {k7}, zmm3
 
-// CHECK: vrcppbf16 zmm2 {k7} {z}, zmm3
+// CHECK: vrcpbf16 zmm2 {k7} {z}, zmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0xcf,0x4c,0xd3]
-          vrcppbf16 zmm2 {k7} {z}, zmm3
+          vrcpbf16 zmm2 {k7} {z}, zmm3
 
-// CHECK: vrcppbf16 ymm2, ymm3
+// CHECK: vrcpbf16 ymm2, ymm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4c,0xd3]
-          vrcppbf16 ymm2, ymm3
+          vrcpbf16 ymm2, ymm3
 
-// CHECK: vrcppbf16 ymm2 {k7}, ymm3
+// CHECK: vrcpbf16 ymm2 {k7}, ymm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x2f,0x4c,0xd3]
-          vrcppbf16 ymm2 {k7}, ymm3
+          vrcpbf16 ymm2 {k7}, ymm3
 
-// CHECK: vrcppbf16 ymm2 {k7} {z}, ymm3
+// CHECK: vrcpbf16 ymm2 {k7} {z}, ymm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0xaf,0x4c,0xd3]
-          vrcppbf16 ymm2 {k7} {z}, ymm3
+          vrcpbf16 ymm2 {k7} {z}, ymm3
 
-// CHECK: vrcppbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vrcpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrcppbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+          vrcpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vrcppbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vrcpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x0f,0x4c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrcppbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+          vrcpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vrcppbf16 xmm2, word ptr [eax]{1to8}
+// CHECK: vrcpbf16 xmm2, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x18,0x4c,0x10]
-          vrcppbf16 xmm2, word ptr [eax]{1to8}
+          vrcpbf16 xmm2, word ptr [eax]{1to8}
 
-// CHECK: vrcppbf16 xmm2, xmmword ptr [2*ebp - 512]
+// CHECK: vrcpbf16 xmm2, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4c,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vrcppbf16 xmm2, xmmword ptr [2*ebp - 512]
+          vrcpbf16 xmm2, xmmword ptr [2*ebp - 512]
 
-// CHECK: vrcppbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+// CHECK: vrcpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x8f,0x4c,0x51,0x7f]
-          vrcppbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+          vrcpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 
-// CHECK: vrcppbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+// CHECK: vrcpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x9f,0x4c,0x52,0x80]
-          vrcppbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+          vrcpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 
-// CHECK: vrcppbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vrcpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrcppbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+          vrcpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vrcppbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vrcpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x2f,0x4c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrcppbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+          vrcpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vrcppbf16 ymm2, word ptr [eax]{1to16}
+// CHECK: vrcpbf16 ymm2, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x38,0x4c,0x10]
-          vrcppbf16 ymm2, word ptr [eax]{1to16}
+          vrcpbf16 ymm2, word ptr [eax]{1to16}
 
-// CHECK: vrcppbf16 ymm2, ymmword ptr [2*ebp - 1024]
+// CHECK: vrcpbf16 ymm2, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4c,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vrcppbf16 ymm2, ymmword ptr [2*ebp - 1024]
+          vrcpbf16 ymm2, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vrcppbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+// CHECK: vrcpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x7c,0xaf,0x4c,0x51,0x7f]
-          vrcppbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+          vrcpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 
-// CHECK: vrcppbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+// CHECK: vrcpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xbf,0x4c,0x52,0x80]
-          vrcppbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+          vrcpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 
-// CHECK: vrcppbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vrcpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrcppbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+          vrcpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vrcppbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vrcpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x4f,0x4c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrcppbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+          vrcpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vrcppbf16 zmm2, word ptr [eax]{1to32}
+// CHECK: vrcpbf16 zmm2, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x58,0x4c,0x10]
-          vrcppbf16 zmm2, word ptr [eax]{1to32}
+          vrcpbf16 zmm2, word ptr [eax]{1to32}
 
-// CHECK: vrcppbf16 zmm2, zmmword ptr [2*ebp - 2048]
+// CHECK: vrcpbf16 zmm2, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4c,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vrcppbf16 zmm2, zmmword ptr [2*ebp - 2048]
+          vrcpbf16 zmm2, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vrcppbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+// CHECK: vrcpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x7c,0xcf,0x4c,0x51,0x7f]
-          vrcppbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+          vrcpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 
-// CHECK: vrcppbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+// CHECK: vrcpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xdf,0x4c,0x52,0x80]
-          vrcppbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+          vrcpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 
-// CHECK: vreducenepbf16 zmm2, zmm3, 123
+// CHECK: vreducebf16 zmm2, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x56,0xd3,0x7b]
-          vreducenepbf16 zmm2, zmm3, 123
+          vreducebf16 zmm2, zmm3, 123
 
-// CHECK: vreducenepbf16 zmm2 {k7}, zmm3, 123
+// CHECK: vreducebf16 zmm2 {k7}, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x56,0xd3,0x7b]
-          vreducenepbf16 zmm2 {k7}, zmm3, 123
+          vreducebf16 zmm2 {k7}, zmm3, 123
 
-// CHECK: vreducenepbf16 zmm2 {k7} {z}, zmm3, 123
+// CHECK: vreducebf16 zmm2 {k7} {z}, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x56,0xd3,0x7b]
-          vreducenepbf16 zmm2 {k7} {z}, zmm3, 123
+          vreducebf16 zmm2 {k7} {z}, zmm3, 123
 
-// CHECK: vreducenepbf16 ymm2, ymm3, 123
+// CHECK: vreducebf16 ymm2, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x56,0xd3,0x7b]
-          vreducenepbf16 ymm2, ymm3, 123
+          vreducebf16 ymm2, ymm3, 123
 
-// CHECK: vreducenepbf16 ymm2 {k7}, ymm3, 123
+// CHECK: vreducebf16 ymm2 {k7}, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x56,0xd3,0x7b]
-          vreducenepbf16 ymm2 {k7}, ymm3, 123
+          vreducebf16 ymm2 {k7}, ymm3, 123
 
-// CHECK: vreducenepbf16 ymm2 {k7} {z}, ymm3, 123
+// CHECK: vreducebf16 ymm2 {k7} {z}, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x56,0xd3,0x7b]
-          vreducenepbf16 ymm2 {k7} {z}, ymm3, 123
+          vreducebf16 ymm2 {k7} {z}, ymm3, 123
 
-// CHECK: vreducenepbf16 xmm2, xmm3, 123
+// CHECK: vreducebf16 xmm2, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x56,0xd3,0x7b]
-          vreducenepbf16 xmm2, xmm3, 123
+          vreducebf16 xmm2, xmm3, 123
 
-// CHECK: vreducenepbf16 xmm2 {k7}, xmm3, 123
+// CHECK: vreducebf16 xmm2 {k7}, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x56,0xd3,0x7b]
-          vreducenepbf16 xmm2 {k7}, xmm3, 123
+          vreducebf16 xmm2 {k7}, xmm3, 123
 
-// CHECK: vreducenepbf16 xmm2 {k7} {z}, xmm3, 123
+// CHECK: vreducebf16 xmm2 {k7} {z}, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x56,0xd3,0x7b]
-          vreducenepbf16 xmm2 {k7} {z}, xmm3, 123
+          vreducebf16 xmm2 {k7} {z}, xmm3, 123
 
-// CHECK: vreducenepbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vreducebf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x56,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
+          vreducebf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vreducenepbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+// CHECK: vreducebf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x56,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+          vreducebf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vreducenepbf16 xmm2, word ptr [eax]{1to8}, 123
+// CHECK: vreducebf16 xmm2, word ptr [eax]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x56,0x10,0x7b]
-          vreducenepbf16 xmm2, word ptr [eax]{1to8}, 123
+          vreducebf16 xmm2, word ptr [eax]{1to8}, 123
 
-// CHECK: vreducenepbf16 xmm2, xmmword ptr [2*ebp - 512], 123
+// CHECK: vreducebf16 xmm2, xmmword ptr [2*ebp - 512], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x56,0x14,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vreducenepbf16 xmm2, xmmword ptr [2*ebp - 512], 123
+          vreducebf16 xmm2, xmmword ptr [2*ebp - 512], 123
 
-// CHECK: vreducenepbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
+// CHECK: vreducebf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x56,0x51,0x7f,0x7b]
-          vreducenepbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
+          vreducebf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
 
-// CHECK: vreducenepbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
+// CHECK: vreducebf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x9f,0x56,0x52,0x80,0x7b]
-          vreducenepbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
+          vreducebf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
 
-// CHECK: vreducenepbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vreducebf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x56,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
+          vreducebf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vreducenepbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
+// CHECK: vreducebf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x56,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
+          vreducebf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vreducenepbf16 ymm2, word ptr [eax]{1to16}, 123
+// CHECK: vreducebf16 ymm2, word ptr [eax]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x56,0x10,0x7b]
-          vreducenepbf16 ymm2, word ptr [eax]{1to16}, 123
+          vreducebf16 ymm2, word ptr [eax]{1to16}, 123
 
-// CHECK: vreducenepbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
+// CHECK: vreducebf16 ymm2, ymmword ptr [2*ebp - 1024], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x56,0x14,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vreducenepbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
+          vreducebf16 ymm2, ymmword ptr [2*ebp - 1024], 123
 
-// CHECK: vreducenepbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
+// CHECK: vreducebf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x56,0x51,0x7f,0x7b]
-          vreducenepbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
+          vreducebf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
 
-// CHECK: vreducenepbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
+// CHECK: vreducebf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xbf,0x56,0x52,0x80,0x7b]
-          vreducenepbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
+          vreducebf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
 
-// CHECK: vreducenepbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vreducebf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x56,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
+          vreducebf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vreducenepbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
+// CHECK: vreducebf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x56,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
+          vreducebf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vreducenepbf16 zmm2, word ptr [eax]{1to32}, 123
+// CHECK: vreducebf16 zmm2, word ptr [eax]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x56,0x10,0x7b]
-          vreducenepbf16 zmm2, word ptr [eax]{1to32}, 123
+          vreducebf16 zmm2, word ptr [eax]{1to32}, 123
 
-// CHECK: vreducenepbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
+// CHECK: vreducebf16 zmm2, zmmword ptr [2*ebp - 2048], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x56,0x14,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vreducenepbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
+          vreducebf16 zmm2, zmmword ptr [2*ebp - 2048], 123
 
-// CHECK: vreducenepbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
+// CHECK: vreducebf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x56,0x51,0x7f,0x7b]
-          vreducenepbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
+          vreducebf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
 
-// CHECK: vreducenepbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
+// CHECK: vreducebf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xdf,0x56,0x52,0x80,0x7b]
-          vreducenepbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
+          vreducebf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
 
-// CHECK: vrndscalenepbf16 zmm2, zmm3, 123
+// CHECK: vrndscalebf16 zmm2, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x08,0xd3,0x7b]
-          vrndscalenepbf16 zmm2, zmm3, 123
+          vrndscalebf16 zmm2, zmm3, 123
 
-// CHECK: vrndscalenepbf16 zmm2 {k7}, zmm3, 123
+// CHECK: vrndscalebf16 zmm2 {k7}, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x08,0xd3,0x7b]
-          vrndscalenepbf16 zmm2 {k7}, zmm3, 123
+          vrndscalebf16 zmm2 {k7}, zmm3, 123
 
-// CHECK: vrndscalenepbf16 zmm2 {k7} {z}, zmm3, 123
+// CHECK: vrndscalebf16 zmm2 {k7} {z}, zmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x08,0xd3,0x7b]
-          vrndscalenepbf16 zmm2 {k7} {z}, zmm3, 123
+          vrndscalebf16 zmm2 {k7} {z}, zmm3, 123
 
-// CHECK: vrndscalenepbf16 ymm2, ymm3, 123
+// CHECK: vrndscalebf16 ymm2, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x08,0xd3,0x7b]
-          vrndscalenepbf16 ymm2, ymm3, 123
+          vrndscalebf16 ymm2, ymm3, 123
 
-// CHECK: vrndscalenepbf16 ymm2 {k7}, ymm3, 123
+// CHECK: vrndscalebf16 ymm2 {k7}, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x08,0xd3,0x7b]
-          vrndscalenepbf16 ymm2 {k7}, ymm3, 123
+          vrndscalebf16 ymm2 {k7}, ymm3, 123
 
-// CHECK: vrndscalenepbf16 ymm2 {k7} {z}, ymm3, 123
+// CHECK: vrndscalebf16 ymm2 {k7} {z}, ymm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x08,0xd3,0x7b]
-          vrndscalenepbf16 ymm2 {k7} {z}, ymm3, 123
+          vrndscalebf16 ymm2 {k7} {z}, ymm3, 123
 
-// CHECK: vrndscalenepbf16 xmm2, xmm3, 123
+// CHECK: vrndscalebf16 xmm2, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x08,0xd3,0x7b]
-          vrndscalenepbf16 xmm2, xmm3, 123
+          vrndscalebf16 xmm2, xmm3, 123
 
-// CHECK: vrndscalenepbf16 xmm2 {k7}, xmm3, 123
+// CHECK: vrndscalebf16 xmm2 {k7}, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x08,0xd3,0x7b]
-          vrndscalenepbf16 xmm2 {k7}, xmm3, 123
+          vrndscalebf16 xmm2 {k7}, xmm3, 123
 
-// CHECK: vrndscalenepbf16 xmm2 {k7} {z}, xmm3, 123
+// CHECK: vrndscalebf16 xmm2 {k7} {z}, xmm3, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x08,0xd3,0x7b]
-          vrndscalenepbf16 xmm2 {k7} {z}, xmm3, 123
+          vrndscalebf16 xmm2 {k7} {z}, xmm3, 123
 
-// CHECK: vrndscalenepbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vrndscalebf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x08,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
+          vrndscalebf16 xmm2, xmmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vrndscalenepbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+// CHECK: vrndscalebf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x08,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
+          vrndscalebf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vrndscalenepbf16 xmm2, word ptr [eax]{1to8}, 123
+// CHECK: vrndscalebf16 xmm2, word ptr [eax]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x08,0x10,0x7b]
-          vrndscalenepbf16 xmm2, word ptr [eax]{1to8}, 123
+          vrndscalebf16 xmm2, word ptr [eax]{1to8}, 123
 
-// CHECK: vrndscalenepbf16 xmm2, xmmword ptr [2*ebp - 512], 123
+// CHECK: vrndscalebf16 xmm2, xmmword ptr [2*ebp - 512], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x08,0x14,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vrndscalenepbf16 xmm2, xmmword ptr [2*ebp - 512], 123
+          vrndscalebf16 xmm2, xmmword ptr [2*ebp - 512], 123
 
-// CHECK: vrndscalenepbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
+// CHECK: vrndscalebf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x8f,0x08,0x51,0x7f,0x7b]
-          vrndscalenepbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
+          vrndscalebf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032], 123
 
-// CHECK: vrndscalenepbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
+// CHECK: vrndscalebf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x9f,0x08,0x52,0x80,0x7b]
-          vrndscalenepbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
+          vrndscalebf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}, 123
 
-// CHECK: vrndscalenepbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vrndscalebf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x08,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
+          vrndscalebf16 ymm2, ymmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vrndscalenepbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
+// CHECK: vrndscalebf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x08,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
+          vrndscalebf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vrndscalenepbf16 ymm2, word ptr [eax]{1to16}, 123
+// CHECK: vrndscalebf16 ymm2, word ptr [eax]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x08,0x10,0x7b]
-          vrndscalenepbf16 ymm2, word ptr [eax]{1to16}, 123
+          vrndscalebf16 ymm2, word ptr [eax]{1to16}, 123
 
-// CHECK: vrndscalenepbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
+// CHECK: vrndscalebf16 ymm2, ymmword ptr [2*ebp - 1024], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x08,0x14,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vrndscalenepbf16 ymm2, ymmword ptr [2*ebp - 1024], 123
+          vrndscalebf16 ymm2, ymmword ptr [2*ebp - 1024], 123
 
-// CHECK: vrndscalenepbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
+// CHECK: vrndscalebf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xaf,0x08,0x51,0x7f,0x7b]
-          vrndscalenepbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
+          vrndscalebf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064], 123
 
-// CHECK: vrndscalenepbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
+// CHECK: vrndscalebf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xbf,0x08,0x52,0x80,0x7b]
-          vrndscalenepbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
+          vrndscalebf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}, 123
 
-// CHECK: vrndscalenepbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
+// CHECK: vrndscalebf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x08,0x94,0xf4,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
+          vrndscalebf16 zmm2, zmmword ptr [esp + 8*esi + 268435456], 123
 
-// CHECK: vrndscalenepbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
+// CHECK: vrndscalebf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x08,0x94,0x87,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
+          vrndscalebf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291], 123
 
-// CHECK: vrndscalenepbf16 zmm2, word ptr [eax]{1to32}, 123
+// CHECK: vrndscalebf16 zmm2, word ptr [eax]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x08,0x10,0x7b]
-          vrndscalenepbf16 zmm2, word ptr [eax]{1to32}, 123
+          vrndscalebf16 zmm2, word ptr [eax]{1to32}, 123
 
-// CHECK: vrndscalenepbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
+// CHECK: vrndscalebf16 zmm2, zmmword ptr [2*ebp - 2048], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x08,0x14,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vrndscalenepbf16 zmm2, zmmword ptr [2*ebp - 2048], 123
+          vrndscalebf16 zmm2, zmmword ptr [2*ebp - 2048], 123
 
-// CHECK: vrndscalenepbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
+// CHECK: vrndscalebf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xcf,0x08,0x51,0x7f,0x7b]
-          vrndscalenepbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
+          vrndscalebf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128], 123
 
-// CHECK: vrndscalenepbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
+// CHECK: vrndscalebf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0xdf,0x08,0x52,0x80,0x7b]
-          vrndscalenepbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
+          vrndscalebf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}, 123
 
-// CHECK: vrsqrtpbf16 xmm2, xmm3
+// CHECK: vrsqrtbf16 xmm2, xmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4e,0xd3]
-          vrsqrtpbf16 xmm2, xmm3
+          vrsqrtbf16 xmm2, xmm3
 
-// CHECK: vrsqrtpbf16 xmm2 {k7}, xmm3
+// CHECK: vrsqrtbf16 xmm2 {k7}, xmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x0f,0x4e,0xd3]
-          vrsqrtpbf16 xmm2 {k7}, xmm3
+          vrsqrtbf16 xmm2 {k7}, xmm3
 
-// CHECK: vrsqrtpbf16 xmm2 {k7} {z}, xmm3
+// CHECK: vrsqrtbf16 xmm2 {k7} {z}, xmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x8f,0x4e,0xd3]
-          vrsqrtpbf16 xmm2 {k7} {z}, xmm3
+          vrsqrtbf16 xmm2 {k7} {z}, xmm3
 
-// CHECK: vrsqrtpbf16 zmm2, zmm3
+// CHECK: vrsqrtbf16 zmm2, zmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4e,0xd3]
-          vrsqrtpbf16 zmm2, zmm3
+          vrsqrtbf16 zmm2, zmm3
 
-// CHECK: vrsqrtpbf16 zmm2 {k7}, zmm3
+// CHECK: vrsqrtbf16 zmm2 {k7}, zmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x4f,0x4e,0xd3]
-          vrsqrtpbf16 zmm2 {k7}, zmm3
+          vrsqrtbf16 zmm2 {k7}, zmm3
 
-// CHECK: vrsqrtpbf16 zmm2 {k7} {z}, zmm3
+// CHECK: vrsqrtbf16 zmm2 {k7} {z}, zmm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0xcf,0x4e,0xd3]
-          vrsqrtpbf16 zmm2 {k7} {z}, zmm3
+          vrsqrtbf16 zmm2 {k7} {z}, zmm3
 
-// CHECK: vrsqrtpbf16 ymm2, ymm3
+// CHECK: vrsqrtbf16 ymm2, ymm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4e,0xd3]
-          vrsqrtpbf16 ymm2, ymm3
+          vrsqrtbf16 ymm2, ymm3
 
-// CHECK: vrsqrtpbf16 ymm2 {k7}, ymm3
+// CHECK: vrsqrtbf16 ymm2 {k7}, ymm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0x2f,0x4e,0xd3]
-          vrsqrtpbf16 ymm2 {k7}, ymm3
+          vrsqrtbf16 ymm2 {k7}, ymm3
 
-// CHECK: vrsqrtpbf16 ymm2 {k7} {z}, ymm3
+// CHECK: vrsqrtbf16 ymm2 {k7} {z}, ymm3
 // CHECK: encoding: [0x62,0xf6,0x7c,0xaf,0x4e,0xd3]
-          vrsqrtpbf16 ymm2 {k7} {z}, ymm3
+          vrsqrtbf16 ymm2 {k7} {z}, ymm3
 
-// CHECK: vrsqrtpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vrsqrtbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+          vrsqrtbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vrsqrtpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vrsqrtbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x0f,0x4e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+          vrsqrtbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vrsqrtpbf16 xmm2, word ptr [eax]{1to8}
+// CHECK: vrsqrtbf16 xmm2, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x18,0x4e,0x10]
-          vrsqrtpbf16 xmm2, word ptr [eax]{1to8}
+          vrsqrtbf16 xmm2, word ptr [eax]{1to8}
 
-// CHECK: vrsqrtpbf16 xmm2, xmmword ptr [2*ebp - 512]
+// CHECK: vrsqrtbf16 xmm2, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x08,0x4e,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vrsqrtpbf16 xmm2, xmmword ptr [2*ebp - 512]
+          vrsqrtbf16 xmm2, xmmword ptr [2*ebp - 512]
 
-// CHECK: vrsqrtpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+// CHECK: vrsqrtbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x8f,0x4e,0x51,0x7f]
-          vrsqrtpbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+          vrsqrtbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 
-// CHECK: vrsqrtpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+// CHECK: vrsqrtbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x9f,0x4e,0x52,0x80]
-          vrsqrtpbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+          vrsqrtbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 
-// CHECK: vrsqrtpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vrsqrtbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+          vrsqrtbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vrsqrtpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vrsqrtbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x2f,0x4e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+          vrsqrtbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vrsqrtpbf16 ymm2, word ptr [eax]{1to16}
+// CHECK: vrsqrtbf16 ymm2, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x38,0x4e,0x10]
-          vrsqrtpbf16 ymm2, word ptr [eax]{1to16}
+          vrsqrtbf16 ymm2, word ptr [eax]{1to16}
 
-// CHECK: vrsqrtpbf16 ymm2, ymmword ptr [2*ebp - 1024]
+// CHECK: vrsqrtbf16 ymm2, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x28,0x4e,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vrsqrtpbf16 ymm2, ymmword ptr [2*ebp - 1024]
+          vrsqrtbf16 ymm2, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vrsqrtpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+// CHECK: vrsqrtbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x7c,0xaf,0x4e,0x51,0x7f]
-          vrsqrtpbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+          vrsqrtbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 
-// CHECK: vrsqrtpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+// CHECK: vrsqrtbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xbf,0x4e,0x52,0x80]
-          vrsqrtpbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+          vrsqrtbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 
-// CHECK: vrsqrtpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vrsqrtbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4e,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+          vrsqrtbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vrsqrtpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vrsqrtbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x4f,0x4e,0x94,0x87,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+          vrsqrtbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vrsqrtpbf16 zmm2, word ptr [eax]{1to32}
+// CHECK: vrsqrtbf16 zmm2, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x7c,0x58,0x4e,0x10]
-          vrsqrtpbf16 zmm2, word ptr [eax]{1to32}
+          vrsqrtbf16 zmm2, word ptr [eax]{1to32}
 
-// CHECK: vrsqrtpbf16 zmm2, zmmword ptr [2*ebp - 2048]
+// CHECK: vrsqrtbf16 zmm2, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x7c,0x48,0x4e,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vrsqrtpbf16 zmm2, zmmword ptr [2*ebp - 2048]
+          vrsqrtbf16 zmm2, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vrsqrtpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+// CHECK: vrsqrtbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x7c,0xcf,0x4e,0x51,0x7f]
-          vrsqrtpbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+          vrsqrtbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 
-// CHECK: vrsqrtpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+// CHECK: vrsqrtbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x7c,0xdf,0x4e,0x52,0x80]
-          vrsqrtpbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+          vrsqrtbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 
-// CHECK: vscalefpbf16 ymm2, ymm3, ymm4
+// CHECK: vscalefbf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x2c,0xd4]
-          vscalefpbf16 ymm2, ymm3, ymm4
+          vscalefbf16 ymm2, ymm3, ymm4
 
-// CHECK: vscalefpbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vscalefbf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x2c,0xd4]
-          vscalefpbf16 ymm2 {k7}, ymm3, ymm4
+          vscalefbf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vscalefpbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vscalefbf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x2c,0xd4]
-          vscalefpbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vscalefbf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vscalefpbf16 zmm2, zmm3, zmm4
+// CHECK: vscalefbf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x2c,0xd4]
-          vscalefpbf16 zmm2, zmm3, zmm4
+          vscalefbf16 zmm2, zmm3, zmm4
 
-// CHECK: vscalefpbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vscalefbf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x2c,0xd4]
-          vscalefpbf16 zmm2 {k7}, zmm3, zmm4
+          vscalefbf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vscalefpbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vscalefbf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x2c,0xd4]
-          vscalefpbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vscalefbf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vscalefpbf16 xmm2, xmm3, xmm4
+// CHECK: vscalefbf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x2c,0xd4]
-          vscalefpbf16 xmm2, xmm3, xmm4
+          vscalefbf16 xmm2, xmm3, xmm4
 
-// CHECK: vscalefpbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vscalefbf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x2c,0xd4]
-          vscalefpbf16 xmm2 {k7}, xmm3, xmm4
+          vscalefbf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vscalefpbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vscalefbf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x2c,0xd4]
-          vscalefpbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vscalefbf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vscalefpbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vscalefbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x2c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vscalefpbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vscalefbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vscalefpbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vscalefbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x4f,0x2c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vscalefpbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vscalefbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vscalefpbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vscalefbf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0x58,0x2c,0x10]
-          vscalefpbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vscalefbf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vscalefpbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vscalefbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf6,0x64,0x48,0x2c,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vscalefpbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vscalefbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vscalefpbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vscalefbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf6,0x64,0xcf,0x2c,0x51,0x7f]
-          vscalefpbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vscalefbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vscalefpbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vscalefbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf6,0x64,0xdf,0x2c,0x52,0x80]
-          vscalefpbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vscalefbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vscalefpbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vscalefbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x2c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vscalefpbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vscalefbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vscalefpbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vscalefbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x2f,0x2c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vscalefpbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vscalefbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vscalefpbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vscalefbf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0x38,0x2c,0x10]
-          vscalefpbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vscalefbf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vscalefpbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vscalefbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf6,0x64,0x28,0x2c,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vscalefpbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vscalefbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vscalefpbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vscalefbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf6,0x64,0xaf,0x2c,0x51,0x7f]
-          vscalefpbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vscalefbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vscalefpbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vscalefbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf6,0x64,0xbf,0x2c,0x52,0x80]
-          vscalefpbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vscalefbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vscalefpbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vscalefbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x2c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vscalefpbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vscalefbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vscalefpbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vscalefbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf6,0x64,0x0f,0x2c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vscalefpbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vscalefbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vscalefpbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vscalefbf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x18,0x2c,0x10]
-          vscalefpbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vscalefbf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vscalefpbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vscalefbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf6,0x64,0x08,0x2c,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vscalefpbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vscalefbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vscalefpbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vscalefbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf6,0x64,0x8f,0x2c,0x51,0x7f]
-          vscalefpbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vscalefbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vscalefpbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vscalefbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf6,0x64,0x9f,0x2c,0x52,0x80]
-          vscalefpbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vscalefbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vsqrtnepbf16 xmm2, xmm3
+// CHECK: vsqrtbf16 xmm2, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x51,0xd3]
-          vsqrtnepbf16 xmm2, xmm3
+          vsqrtbf16 xmm2, xmm3
 
-// CHECK: vsqrtnepbf16 xmm2 {k7}, xmm3
+// CHECK: vsqrtbf16 xmm2 {k7}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x0f,0x51,0xd3]
-          vsqrtnepbf16 xmm2 {k7}, xmm3
+          vsqrtbf16 xmm2 {k7}, xmm3
 
-// CHECK: vsqrtnepbf16 xmm2 {k7} {z}, xmm3
+// CHECK: vsqrtbf16 xmm2 {k7} {z}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x8f,0x51,0xd3]
-          vsqrtnepbf16 xmm2 {k7} {z}, xmm3
+          vsqrtbf16 xmm2 {k7} {z}, xmm3
 
-// CHECK: vsqrtnepbf16 zmm2, zmm3
+// CHECK: vsqrtbf16 zmm2, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x51,0xd3]
-          vsqrtnepbf16 zmm2, zmm3
+          vsqrtbf16 zmm2, zmm3
 
-// CHECK: vsqrtnepbf16 zmm2 {k7}, zmm3
+// CHECK: vsqrtbf16 zmm2 {k7}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x4f,0x51,0xd3]
-          vsqrtnepbf16 zmm2 {k7}, zmm3
+          vsqrtbf16 zmm2 {k7}, zmm3
 
-// CHECK: vsqrtnepbf16 zmm2 {k7} {z}, zmm3
+// CHECK: vsqrtbf16 zmm2 {k7} {z}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0xcf,0x51,0xd3]
-          vsqrtnepbf16 zmm2 {k7} {z}, zmm3
+          vsqrtbf16 zmm2 {k7} {z}, zmm3
 
-// CHECK: vsqrtnepbf16 ymm2, ymm3
+// CHECK: vsqrtbf16 ymm2, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x51,0xd3]
-          vsqrtnepbf16 ymm2, ymm3
+          vsqrtbf16 ymm2, ymm3
 
-// CHECK: vsqrtnepbf16 ymm2 {k7}, ymm3
+// CHECK: vsqrtbf16 ymm2 {k7}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0x2f,0x51,0xd3]
-          vsqrtnepbf16 ymm2 {k7}, ymm3
+          vsqrtbf16 ymm2 {k7}, ymm3
 
-// CHECK: vsqrtnepbf16 ymm2 {k7} {z}, ymm3
+// CHECK: vsqrtbf16 ymm2 {k7} {z}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7d,0xaf,0x51,0xd3]
-          vsqrtnepbf16 ymm2 {k7} {z}, ymm3
+          vsqrtbf16 ymm2 {k7} {z}, ymm3
 
-// CHECK: vsqrtnepbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vsqrtbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x51,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+          vsqrtbf16 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vsqrtnepbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vsqrtbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x0f,0x51,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+          vsqrtbf16 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vsqrtnepbf16 xmm2, word ptr [eax]{1to8}
+// CHECK: vsqrtbf16 xmm2, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x18,0x51,0x10]
-          vsqrtnepbf16 xmm2, word ptr [eax]{1to8}
+          vsqrtbf16 xmm2, word ptr [eax]{1to8}
 
-// CHECK: vsqrtnepbf16 xmm2, xmmword ptr [2*ebp - 512]
+// CHECK: vsqrtbf16 xmm2, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x08,0x51,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vsqrtnepbf16 xmm2, xmmword ptr [2*ebp - 512]
+          vsqrtbf16 xmm2, xmmword ptr [2*ebp - 512]
 
-// CHECK: vsqrtnepbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+// CHECK: vsqrtbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x8f,0x51,0x51,0x7f]
-          vsqrtnepbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+          vsqrtbf16 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 
-// CHECK: vsqrtnepbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+// CHECK: vsqrtbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x9f,0x51,0x52,0x80]
-          vsqrtnepbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+          vsqrtbf16 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 
-// CHECK: vsqrtnepbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vsqrtbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x51,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
+          vsqrtbf16 ymm2, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vsqrtnepbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vsqrtbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x2f,0x51,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
+          vsqrtbf16 ymm2 {k7}, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vsqrtnepbf16 ymm2, word ptr [eax]{1to16}
+// CHECK: vsqrtbf16 ymm2, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x38,0x51,0x10]
-          vsqrtnepbf16 ymm2, word ptr [eax]{1to16}
+          vsqrtbf16 ymm2, word ptr [eax]{1to16}
 
-// CHECK: vsqrtnepbf16 ymm2, ymmword ptr [2*ebp - 1024]
+// CHECK: vsqrtbf16 ymm2, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x28,0x51,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vsqrtnepbf16 ymm2, ymmword ptr [2*ebp - 1024]
+          vsqrtbf16 ymm2, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vsqrtnepbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+// CHECK: vsqrtbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x7d,0xaf,0x51,0x51,0x7f]
-          vsqrtnepbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
+          vsqrtbf16 ymm2 {k7} {z}, ymmword ptr [ecx + 4064]
 
-// CHECK: vsqrtnepbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+// CHECK: vsqrtbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xbf,0x51,0x52,0x80]
-          vsqrtnepbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
+          vsqrtbf16 ymm2 {k7} {z}, word ptr [edx - 256]{1to16}
 
-// CHECK: vsqrtnepbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vsqrtbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x51,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
+          vsqrtbf16 zmm2, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vsqrtnepbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vsqrtbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x4f,0x51,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+          vsqrtbf16 zmm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vsqrtnepbf16 zmm2, word ptr [eax]{1to32}
+// CHECK: vsqrtbf16 zmm2, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7d,0x58,0x51,0x10]
-          vsqrtnepbf16 zmm2, word ptr [eax]{1to32}
+          vsqrtbf16 zmm2, word ptr [eax]{1to32}
 
-// CHECK: vsqrtnepbf16 zmm2, zmmword ptr [2*ebp - 2048]
+// CHECK: vsqrtbf16 zmm2, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x7d,0x48,0x51,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vsqrtnepbf16 zmm2, zmmword ptr [2*ebp - 2048]
+          vsqrtbf16 zmm2, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vsqrtnepbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+// CHECK: vsqrtbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x7d,0xcf,0x51,0x51,0x7f]
-          vsqrtnepbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
+          vsqrtbf16 zmm2 {k7} {z}, zmmword ptr [ecx + 8128]
 
-// CHECK: vsqrtnepbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+// CHECK: vsqrtbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7d,0xdf,0x51,0x52,0x80]
-          vsqrtnepbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
+          vsqrtbf16 zmm2 {k7} {z}, word ptr [edx - 256]{1to32}
 
-// CHECK: vsubnepbf16 ymm2, ymm3, ymm4
+// CHECK: vsubbf16 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5c,0xd4]
-          vsubnepbf16 ymm2, ymm3, ymm4
+          vsubbf16 ymm2, ymm3, ymm4
 
-// CHECK: vsubnepbf16 ymm2 {k7}, ymm3, ymm4
+// CHECK: vsubbf16 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5c,0xd4]
-          vsubnepbf16 ymm2 {k7}, ymm3, ymm4
+          vsubbf16 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vsubnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vsubbf16 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5c,0xd4]
-          vsubnepbf16 ymm2 {k7} {z}, ymm3, ymm4
+          vsubbf16 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vsubnepbf16 zmm2, zmm3, zmm4
+// CHECK: vsubbf16 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5c,0xd4]
-          vsubnepbf16 zmm2, zmm3, zmm4
+          vsubbf16 zmm2, zmm3, zmm4
 
-// CHECK: vsubnepbf16 zmm2 {k7}, zmm3, zmm4
+// CHECK: vsubbf16 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5c,0xd4]
-          vsubnepbf16 zmm2 {k7}, zmm3, zmm4
+          vsubbf16 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vsubnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vsubbf16 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5c,0xd4]
-          vsubnepbf16 zmm2 {k7} {z}, zmm3, zmm4
+          vsubbf16 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vsubnepbf16 xmm2, xmm3, xmm4
+// CHECK: vsubbf16 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5c,0xd4]
-          vsubnepbf16 xmm2, xmm3, xmm4
+          vsubbf16 xmm2, xmm3, xmm4
 
-// CHECK: vsubnepbf16 xmm2 {k7}, xmm3, xmm4
+// CHECK: vsubbf16 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5c,0xd4]
-          vsubnepbf16 xmm2 {k7}, xmm3, xmm4
+          vsubbf16 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vsubnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vsubbf16 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5c,0xd4]
-          vsubnepbf16 xmm2 {k7} {z}, xmm3, xmm4
+          vsubbf16 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vsubnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vsubbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsubnepbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vsubbf16 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vsubnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vsubbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x4f,0x5c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsubnepbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vsubbf16 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vsubnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vsubbf16 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0x58,0x5c,0x10]
-          vsubnepbf16 zmm2, zmm3, word ptr [eax]{1to32}
+          vsubbf16 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vsubnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vsubbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x65,0x48,0x5c,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vsubnepbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vsubbf16 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vsubnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vsubbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x65,0xcf,0x5c,0x51,0x7f]
-          vsubnepbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vsubbf16 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vsubnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vsubbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x65,0xdf,0x5c,0x52,0x80]
-          vsubnepbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vsubbf16 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vsubnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vsubbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsubnepbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vsubbf16 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vsubnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vsubbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x2f,0x5c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsubnepbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vsubbf16 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vsubnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vsubbf16 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0x38,0x5c,0x10]
-          vsubnepbf16 ymm2, ymm3, word ptr [eax]{1to16}
+          vsubbf16 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vsubnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vsubbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x65,0x28,0x5c,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vsubnepbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vsubbf16 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vsubnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vsubbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x65,0xaf,0x5c,0x51,0x7f]
-          vsubnepbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vsubbf16 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vsubnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vsubbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x65,0xbf,0x5c,0x52,0x80]
-          vsubnepbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vsubbf16 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vsubnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vsubbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5c,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vsubnepbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vsubbf16 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vsubnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vsubbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x65,0x0f,0x5c,0x94,0x87,0x23,0x01,0x00,0x00]
-          vsubnepbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vsubbf16 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vsubnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vsubbf16 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x18,0x5c,0x10]
-          vsubnepbf16 xmm2, xmm3, word ptr [eax]{1to8}
+          vsubbf16 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vsubnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vsubbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x65,0x08,0x5c,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vsubnepbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vsubbf16 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vsubnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vsubbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x65,0x8f,0x5c,0x51,0x7f]
-          vsubnepbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vsubbf16 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vsubnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vsubbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x65,0x9f,0x5c,0x52,0x80]
-          vsubnepbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vsubbf16 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
diff --git a/llvm/test/MC/X86/avx10.2-bf16-64-att.s b/llvm/test/MC/X86/avx10.2-bf16-64-att.s
index 85d99cfe0a704..67d6f3a531dfe 100644
--- a/llvm/test/MC/X86/avx10.2-bf16-64-att.s
+++ b/llvm/test/MC/X86/avx10.2-bf16-64-att.s
@@ -1,3014 +1,3014 @@
 // RUN: llvm-mc -triple x86_64 --show-encoding %s | FileCheck %s
 
-// CHECK: vaddnepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vaddbf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x58,0xf0]
-          vaddnepbf16 %ymm24, %ymm23, %ymm22
+          vaddbf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vaddnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vaddbf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x58,0xf0]
-          vaddnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vaddbf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vaddnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vaddbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x58,0xf0]
-          vaddnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vaddbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vaddnepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vaddbf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x58,0xf0]
-          vaddnepbf16 %zmm24, %zmm23, %zmm22
+          vaddbf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vaddnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vaddbf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x58,0xf0]
-          vaddnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vaddbf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vaddnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vaddbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x58,0xf0]
-          vaddnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vaddbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vaddnepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vaddbf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x58,0xf0]
-          vaddnepbf16 %xmm24, %xmm23, %xmm22
+          vaddbf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vaddnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vaddbf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x58,0xf0]
-          vaddnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vaddbf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vaddnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vaddbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x58,0xf0]
-          vaddnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vaddbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vaddnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vaddbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x58,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vaddnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vaddbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vaddnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vaddbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x58,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vaddnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vaddbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vaddnepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vaddbf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x58,0x35,0x00,0x00,0x00,0x00]
-          vaddnepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vaddbf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vaddnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vaddbf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x58,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vaddnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vaddbf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vaddnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vaddbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x58,0x71,0x7f]
-          vaddnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vaddbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vaddnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vaddbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x58,0x72,0x80]
-          vaddnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vaddbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vaddnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vaddbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x58,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vaddnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vaddbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vaddnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vaddbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x58,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vaddnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vaddbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vaddnepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vaddbf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x58,0x35,0x00,0x00,0x00,0x00]
-          vaddnepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vaddbf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vaddnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vaddbf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x58,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vaddnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vaddbf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vaddnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vaddbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x58,0x71,0x7f]
-          vaddnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vaddbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vaddnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vaddbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x58,0x72,0x80]
-          vaddnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vaddbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vaddnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vaddbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x58,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vaddnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vaddbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vaddnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vaddbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x58,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vaddnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vaddbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vaddnepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vaddbf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x58,0x35,0x00,0x00,0x00,0x00]
-          vaddnepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vaddbf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vaddnepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vaddbf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x58,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vaddnepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vaddbf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vaddnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vaddbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x58,0x71,0x7f]
-          vaddnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vaddbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vaddnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vaddbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x58,0x72,0x80]
-          vaddnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vaddbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcmppbf16 $123, %ymm24, %ymm23, %k5
+// CHECK: vcmpbf16 $123, %ymm24, %ymm23, %k5
 // CHECK: encoding: [0x62,0x93,0x47,0x20,0xc2,0xe8,0x7b]
-          vcmppbf16 $123, %ymm24, %ymm23, %k5
+          vcmpbf16 $123, %ymm24, %ymm23, %k5
 
-// CHECK: vcmppbf16 $123, %ymm24, %ymm23, %k5 {%k7}
+// CHECK: vcmpbf16 $123, %ymm24, %ymm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0x93,0x47,0x27,0xc2,0xe8,0x7b]
-          vcmppbf16 $123, %ymm24, %ymm23, %k5 {%k7}
+          vcmpbf16 $123, %ymm24, %ymm23, %k5 {%k7}
 
-// CHECK: vcmppbf16 $123, %xmm24, %xmm23, %k5
+// CHECK: vcmpbf16 $123, %xmm24, %xmm23, %k5
 // CHECK: encoding: [0x62,0x93,0x47,0x00,0xc2,0xe8,0x7b]
-          vcmppbf16 $123, %xmm24, %xmm23, %k5
+          vcmpbf16 $123, %xmm24, %xmm23, %k5
 
-// CHECK: vcmppbf16 $123, %xmm24, %xmm23, %k5 {%k7}
+// CHECK: vcmpbf16 $123, %xmm24, %xmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0x93,0x47,0x07,0xc2,0xe8,0x7b]
-          vcmppbf16 $123, %xmm24, %xmm23, %k5 {%k7}
+          vcmpbf16 $123, %xmm24, %xmm23, %k5 {%k7}
 
-// CHECK: vcmppbf16 $123, %zmm24, %zmm23, %k5
+// CHECK: vcmpbf16 $123, %zmm24, %zmm23, %k5
 // CHECK: encoding: [0x62,0x93,0x47,0x40,0xc2,0xe8,0x7b]
-          vcmppbf16 $123, %zmm24, %zmm23, %k5
+          vcmpbf16 $123, %zmm24, %zmm23, %k5
 
-// CHECK: vcmppbf16 $123, %zmm24, %zmm23, %k5 {%k7}
+// CHECK: vcmpbf16 $123, %zmm24, %zmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0x93,0x47,0x47,0xc2,0xe8,0x7b]
-          vcmppbf16 $123, %zmm24, %zmm23, %k5 {%k7}
+          vcmpbf16 $123, %zmm24, %zmm23, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, 268435456(%rbp,%r14,8), %zmm23, %k5
+// CHECK: vcmpbf16  $123, 268435456(%rbp,%r14,8), %zmm23, %k5
 // CHECK: encoding: [0x62,0xb3,0x47,0x40,0xc2,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16  $123, 268435456(%rbp,%r14,8), %zmm23, %k5
+          vcmpbf16  $123, 268435456(%rbp,%r14,8), %zmm23, %k5
 
-// CHECK: vcmppbf16  $123, 291(%r8,%rax,4), %zmm23, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 291(%r8,%rax,4), %zmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xd3,0x47,0x47,0xc2,0xac,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16  $123, 291(%r8,%rax,4), %zmm23, %k5 {%k7}
+          vcmpbf16  $123, 291(%r8,%rax,4), %zmm23, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, (%rip){1to32}, %zmm23, %k5
+// CHECK: vcmpbf16  $123, (%rip){1to32}, %zmm23, %k5
 // CHECK: encoding: [0x62,0xf3,0x47,0x50,0xc2,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vcmppbf16  $123, (%rip){1to32}, %zmm23, %k5
+          vcmpbf16  $123, (%rip){1to32}, %zmm23, %k5
 
-// CHECK: vcmppbf16  $123, -2048(,%rbp,2), %zmm23, %k5
+// CHECK: vcmpbf16  $123, -2048(,%rbp,2), %zmm23, %k5
 // CHECK: encoding: [0x62,0xf3,0x47,0x40,0xc2,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vcmppbf16  $123, -2048(,%rbp,2), %zmm23, %k5
+          vcmpbf16  $123, -2048(,%rbp,2), %zmm23, %k5
 
-// CHECK: vcmppbf16  $123, 8128(%rcx), %zmm23, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 8128(%rcx), %zmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x47,0x47,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16  $123, 8128(%rcx), %zmm23, %k5 {%k7}
+          vcmpbf16  $123, 8128(%rcx), %zmm23, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, -256(%rdx){1to32}, %zmm23, %k5 {%k7}
+// CHECK: vcmpbf16  $123, -256(%rdx){1to32}, %zmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x47,0x57,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16  $123, -256(%rdx){1to32}, %zmm23, %k5 {%k7}
+          vcmpbf16  $123, -256(%rdx){1to32}, %zmm23, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, 268435456(%rbp,%r14,8), %xmm23, %k5
+// CHECK: vcmpbf16  $123, 268435456(%rbp,%r14,8), %xmm23, %k5
 // CHECK: encoding: [0x62,0xb3,0x47,0x00,0xc2,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16  $123, 268435456(%rbp,%r14,8), %xmm23, %k5
+          vcmpbf16  $123, 268435456(%rbp,%r14,8), %xmm23, %k5
 
-// CHECK: vcmppbf16  $123, 291(%r8,%rax,4), %xmm23, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 291(%r8,%rax,4), %xmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xd3,0x47,0x07,0xc2,0xac,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16  $123, 291(%r8,%rax,4), %xmm23, %k5 {%k7}
+          vcmpbf16  $123, 291(%r8,%rax,4), %xmm23, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, (%rip){1to8}, %xmm23, %k5
+// CHECK: vcmpbf16  $123, (%rip){1to8}, %xmm23, %k5
 // CHECK: encoding: [0x62,0xf3,0x47,0x10,0xc2,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vcmppbf16  $123, (%rip){1to8}, %xmm23, %k5
+          vcmpbf16  $123, (%rip){1to8}, %xmm23, %k5
 
-// CHECK: vcmppbf16  $123, -512(,%rbp,2), %xmm23, %k5
+// CHECK: vcmpbf16  $123, -512(,%rbp,2), %xmm23, %k5
 // CHECK: encoding: [0x62,0xf3,0x47,0x00,0xc2,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vcmppbf16  $123, -512(,%rbp,2), %xmm23, %k5
+          vcmpbf16  $123, -512(,%rbp,2), %xmm23, %k5
 
-// CHECK: vcmppbf16  $123, 2032(%rcx), %xmm23, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 2032(%rcx), %xmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x47,0x07,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16  $123, 2032(%rcx), %xmm23, %k5 {%k7}
+          vcmpbf16  $123, 2032(%rcx), %xmm23, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, -256(%rdx){1to8}, %xmm23, %k5 {%k7}
+// CHECK: vcmpbf16  $123, -256(%rdx){1to8}, %xmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x47,0x17,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16  $123, -256(%rdx){1to8}, %xmm23, %k5 {%k7}
+          vcmpbf16  $123, -256(%rdx){1to8}, %xmm23, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, 268435456(%rbp,%r14,8), %ymm23, %k5
+// CHECK: vcmpbf16  $123, 268435456(%rbp,%r14,8), %ymm23, %k5
 // CHECK: encoding: [0x62,0xb3,0x47,0x20,0xc2,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16  $123, 268435456(%rbp,%r14,8), %ymm23, %k5
+          vcmpbf16  $123, 268435456(%rbp,%r14,8), %ymm23, %k5
 
-// CHECK: vcmppbf16  $123, 291(%r8,%rax,4), %ymm23, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 291(%r8,%rax,4), %ymm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xd3,0x47,0x27,0xc2,0xac,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16  $123, 291(%r8,%rax,4), %ymm23, %k5 {%k7}
+          vcmpbf16  $123, 291(%r8,%rax,4), %ymm23, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, (%rip){1to16}, %ymm23, %k5
+// CHECK: vcmpbf16  $123, (%rip){1to16}, %ymm23, %k5
 // CHECK: encoding: [0x62,0xf3,0x47,0x30,0xc2,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vcmppbf16  $123, (%rip){1to16}, %ymm23, %k5
+          vcmpbf16  $123, (%rip){1to16}, %ymm23, %k5
 
-// CHECK: vcmppbf16  $123, -1024(,%rbp,2), %ymm23, %k5
+// CHECK: vcmpbf16  $123, -1024(,%rbp,2), %ymm23, %k5
 // CHECK: encoding: [0x62,0xf3,0x47,0x20,0xc2,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vcmppbf16  $123, -1024(,%rbp,2), %ymm23, %k5
+          vcmpbf16  $123, -1024(,%rbp,2), %ymm23, %k5
 
-// CHECK: vcmppbf16  $123, 4064(%rcx), %ymm23, %k5 {%k7}
+// CHECK: vcmpbf16  $123, 4064(%rcx), %ymm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x47,0x27,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16  $123, 4064(%rcx), %ymm23, %k5 {%k7}
+          vcmpbf16  $123, 4064(%rcx), %ymm23, %k5 {%k7}
 
-// CHECK: vcmppbf16  $123, -256(%rdx){1to16}, %ymm23, %k5 {%k7}
+// CHECK: vcmpbf16  $123, -256(%rdx){1to16}, %ymm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x47,0x37,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16  $123, -256(%rdx){1to16}, %ymm23, %k5 {%k7}
+          vcmpbf16  $123, -256(%rdx){1to16}, %ymm23, %k5 {%k7}
 
-// CHECK: vcomsbf16 %xmm23, %xmm22
+// CHECK: vcomisbf16 %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x2f,0xf7]
-          vcomsbf16 %xmm23, %xmm22
+          vcomisbf16 %xmm23, %xmm22
 
-// CHECK: vcomsbf16  268435456(%rbp,%r14,8), %xmm22
+// CHECK: vcomisbf16  268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x2f,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcomsbf16  268435456(%rbp,%r14,8), %xmm22
+          vcomisbf16  268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vcomsbf16  291(%r8,%rax,4), %xmm22
+// CHECK: vcomisbf16  291(%r8,%rax,4), %xmm22
 // CHECK: encoding: [0x62,0xc5,0x7d,0x08,0x2f,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcomsbf16  291(%r8,%rax,4), %xmm22
+          vcomisbf16  291(%r8,%rax,4), %xmm22
 
-// CHECK: vcomsbf16  (%rip), %xmm22
+// CHECK: vcomisbf16  (%rip), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x2f,0x35,0x00,0x00,0x00,0x00]
-          vcomsbf16  (%rip), %xmm22
+          vcomisbf16  (%rip), %xmm22
 
-// CHECK: vcomsbf16  -64(,%rbp,2), %xmm22
+// CHECK: vcomisbf16  -64(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x2f,0x34,0x6d,0xc0,0xff,0xff,0xff]
-          vcomsbf16  -64(,%rbp,2), %xmm22
+          vcomisbf16  -64(,%rbp,2), %xmm22
 
-// CHECK: vcomsbf16  254(%rcx), %xmm22
+// CHECK: vcomisbf16  254(%rcx), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x2f,0x71,0x7f]
-          vcomsbf16  254(%rcx), %xmm22
+          vcomisbf16  254(%rcx), %xmm22
 
-// CHECK: vcomsbf16  -256(%rdx), %xmm22
+// CHECK: vcomisbf16  -256(%rdx), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x2f,0x72,0x80]
-          vcomsbf16  -256(%rdx), %xmm22
+          vcomisbf16  -256(%rdx), %xmm22
 
-// CHECK: vdivnepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vdivbf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x5e,0xf0]
-          vdivnepbf16 %ymm24, %ymm23, %ymm22
+          vdivbf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vdivnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vdivbf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x5e,0xf0]
-          vdivnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vdivbf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vdivnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vdivbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x5e,0xf0]
-          vdivnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vdivbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vdivnepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vdivbf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x5e,0xf0]
-          vdivnepbf16 %zmm24, %zmm23, %zmm22
+          vdivbf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vdivnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vdivbf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x5e,0xf0]
-          vdivnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vdivbf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vdivnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vdivbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x5e,0xf0]
-          vdivnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vdivbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vdivnepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vdivbf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x5e,0xf0]
-          vdivnepbf16 %xmm24, %xmm23, %xmm22
+          vdivbf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vdivnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vdivbf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x5e,0xf0]
-          vdivnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vdivbf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vdivnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vdivbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x5e,0xf0]
-          vdivnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vdivbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vdivnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vdivbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x5e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vdivnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vdivbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vdivnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vdivbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x5e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vdivnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vdivbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vdivnepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vdivbf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x5e,0x35,0x00,0x00,0x00,0x00]
-          vdivnepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vdivbf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vdivnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vdivbf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x5e,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vdivnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vdivbf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vdivnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vdivbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x5e,0x71,0x7f]
-          vdivnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vdivbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vdivnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vdivbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x5e,0x72,0x80]
-          vdivnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vdivbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vdivnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vdivbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x5e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vdivnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vdivbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vdivnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vdivbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x5e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vdivnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vdivbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vdivnepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vdivbf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x5e,0x35,0x00,0x00,0x00,0x00]
-          vdivnepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vdivbf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vdivnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vdivbf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x5e,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vdivnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vdivbf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vdivnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vdivbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x5e,0x71,0x7f]
-          vdivnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vdivbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vdivnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vdivbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x5e,0x72,0x80]
-          vdivnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vdivbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vdivnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vdivbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x5e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vdivnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vdivbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vdivnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vdivbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x5e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vdivnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vdivbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vdivnepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vdivbf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x5e,0x35,0x00,0x00,0x00,0x00]
-          vdivnepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vdivbf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vdivnepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vdivbf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x5e,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vdivnepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vdivbf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vdivnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vdivbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x5e,0x71,0x7f]
-          vdivnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vdivbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vdivnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vdivbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x5e,0x72,0x80]
-          vdivnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vdivbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfmadd132bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x98,0xf0]
-          vfmadd132nepbf16 %ymm24, %ymm23, %ymm22
+          vfmadd132bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x98,0xf0]
-          vfmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x98,0xf0]
-          vfmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfmadd132bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x98,0xf0]
-          vfmadd132nepbf16 %zmm24, %zmm23, %zmm22
+          vfmadd132bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x98,0xf0]
-          vfmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x98,0xf0]
-          vfmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfmadd132bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x98,0xf0]
-          vfmadd132nepbf16 %xmm24, %xmm23, %xmm22
+          vfmadd132bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x98,0xf0]
-          vfmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x98,0xf0]
-          vfmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfmadd132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x98,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfmadd132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfmadd132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfmadd132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x98,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfmadd132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmadd132nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfmadd132bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x98,0x35,0x00,0x00,0x00,0x00]
-          vfmadd132nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfmadd132bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfmadd132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfmadd132bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x98,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfmadd132bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfmadd132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmadd132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x98,0x71,0x7f]
-          vfmadd132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfmadd132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmadd132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x98,0x72,0x80]
-          vfmadd132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfmadd132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfmadd132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x98,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfmadd132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfmadd132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfmadd132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x98,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfmadd132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmadd132nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfmadd132bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x98,0x35,0x00,0x00,0x00,0x00]
-          vfmadd132nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfmadd132bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfmadd132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfmadd132bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x98,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfmadd132bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfmadd132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmadd132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x98,0x71,0x7f]
-          vfmadd132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfmadd132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmadd132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x98,0x72,0x80]
-          vfmadd132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfmadd132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfmadd132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x98,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfmadd132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfmadd132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfmadd132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x98,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfmadd132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmadd132nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfmadd132bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x98,0x35,0x00,0x00,0x00,0x00]
-          vfmadd132nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfmadd132bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfmadd132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfmadd132bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x98,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfmadd132bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfmadd132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmadd132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x98,0x71,0x7f]
-          vfmadd132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfmadd132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmadd132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmadd132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x98,0x72,0x80]
-          vfmadd132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfmadd132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfmadd213bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xa8,0xf0]
-          vfmadd213nepbf16 %ymm24, %ymm23, %ymm22
+          vfmadd213bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xa8,0xf0]
-          vfmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xa8,0xf0]
-          vfmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfmadd213bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xa8,0xf0]
-          vfmadd213nepbf16 %zmm24, %zmm23, %zmm22
+          vfmadd213bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xa8,0xf0]
-          vfmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xa8,0xf0]
-          vfmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfmadd213bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xa8,0xf0]
-          vfmadd213nepbf16 %xmm24, %xmm23, %xmm22
+          vfmadd213bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xa8,0xf0]
-          vfmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xa8,0xf0]
-          vfmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfmadd213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xa8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfmadd213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfmadd213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfmadd213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xa8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfmadd213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmadd213nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfmadd213bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xa8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd213nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfmadd213bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfmadd213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfmadd213bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xa8,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfmadd213bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfmadd213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmadd213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xa8,0x71,0x7f]
-          vfmadd213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfmadd213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmadd213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xa8,0x72,0x80]
-          vfmadd213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfmadd213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfmadd213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xa8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfmadd213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfmadd213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfmadd213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xa8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfmadd213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmadd213nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfmadd213bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xa8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd213nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfmadd213bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfmadd213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfmadd213bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xa8,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfmadd213bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfmadd213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmadd213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xa8,0x71,0x7f]
-          vfmadd213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfmadd213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmadd213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xa8,0x72,0x80]
-          vfmadd213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfmadd213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfmadd213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xa8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfmadd213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfmadd213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfmadd213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xa8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfmadd213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmadd213nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfmadd213bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xa8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd213nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfmadd213bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfmadd213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfmadd213bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xa8,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfmadd213bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfmadd213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmadd213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xa8,0x71,0x7f]
-          vfmadd213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfmadd213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmadd213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmadd213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xa8,0x72,0x80]
-          vfmadd213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfmadd213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfmadd231bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xb8,0xf0]
-          vfmadd231nepbf16 %ymm24, %ymm23, %ymm22
+          vfmadd231bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xb8,0xf0]
-          vfmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xb8,0xf0]
-          vfmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfmadd231bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xb8,0xf0]
-          vfmadd231nepbf16 %zmm24, %zmm23, %zmm22
+          vfmadd231bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xb8,0xf0]
-          vfmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xb8,0xf0]
-          vfmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfmadd231bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xb8,0xf0]
-          vfmadd231nepbf16 %xmm24, %xmm23, %xmm22
+          vfmadd231bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xb8,0xf0]
-          vfmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xb8,0xf0]
-          vfmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfmadd231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xb8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfmadd231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfmadd231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfmadd231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xb8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfmadd231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmadd231nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfmadd231bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xb8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd231nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfmadd231bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfmadd231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfmadd231bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xb8,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfmadd231bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfmadd231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmadd231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xb8,0x71,0x7f]
-          vfmadd231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfmadd231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmadd231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xb8,0x72,0x80]
-          vfmadd231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfmadd231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfmadd231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xb8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfmadd231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfmadd231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfmadd231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xb8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfmadd231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmadd231nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfmadd231bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xb8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd231nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfmadd231bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfmadd231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfmadd231bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xb8,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfmadd231bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfmadd231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmadd231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xb8,0x71,0x7f]
-          vfmadd231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfmadd231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmadd231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xb8,0x72,0x80]
-          vfmadd231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfmadd231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfmadd231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xb8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfmadd231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfmadd231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfmadd231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xb8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfmadd231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmadd231nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfmadd231bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xb8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd231nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfmadd231bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfmadd231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfmadd231bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xb8,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfmadd231bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfmadd231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmadd231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xb8,0x71,0x7f]
-          vfmadd231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfmadd231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmadd231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmadd231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xb8,0x72,0x80]
-          vfmadd231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfmadd231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfmsub132bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x9a,0xf0]
-          vfmsub132nepbf16 %ymm24, %ymm23, %ymm22
+          vfmsub132bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x9a,0xf0]
-          vfmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x9a,0xf0]
-          vfmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfmsub132bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x9a,0xf0]
-          vfmsub132nepbf16 %zmm24, %zmm23, %zmm22
+          vfmsub132bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x9a,0xf0]
-          vfmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x9a,0xf0]
-          vfmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfmsub132bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x9a,0xf0]
-          vfmsub132nepbf16 %xmm24, %xmm23, %xmm22
+          vfmsub132bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x9a,0xf0]
-          vfmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x9a,0xf0]
-          vfmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfmsub132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x9a,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfmsub132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfmsub132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfmsub132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x9a,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfmsub132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmsub132nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfmsub132bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x9a,0x35,0x00,0x00,0x00,0x00]
-          vfmsub132nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfmsub132bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfmsub132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfmsub132bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x9a,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfmsub132bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfmsub132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmsub132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x9a,0x71,0x7f]
-          vfmsub132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfmsub132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmsub132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x9a,0x72,0x80]
-          vfmsub132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfmsub132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfmsub132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x9a,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfmsub132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfmsub132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfmsub132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x9a,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfmsub132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmsub132nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfmsub132bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x9a,0x35,0x00,0x00,0x00,0x00]
-          vfmsub132nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfmsub132bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfmsub132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfmsub132bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x9a,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfmsub132bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfmsub132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmsub132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x9a,0x71,0x7f]
-          vfmsub132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfmsub132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmsub132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x9a,0x72,0x80]
-          vfmsub132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfmsub132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfmsub132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x9a,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfmsub132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfmsub132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfmsub132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x9a,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfmsub132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmsub132nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfmsub132bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x9a,0x35,0x00,0x00,0x00,0x00]
-          vfmsub132nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfmsub132bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfmsub132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfmsub132bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x9a,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfmsub132bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfmsub132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmsub132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x9a,0x71,0x7f]
-          vfmsub132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfmsub132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmsub132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmsub132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x9a,0x72,0x80]
-          vfmsub132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfmsub132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfmsub213bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xaa,0xf0]
-          vfmsub213nepbf16 %ymm24, %ymm23, %ymm22
+          vfmsub213bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xaa,0xf0]
-          vfmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xaa,0xf0]
-          vfmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfmsub213bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xaa,0xf0]
-          vfmsub213nepbf16 %zmm24, %zmm23, %zmm22
+          vfmsub213bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xaa,0xf0]
-          vfmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xaa,0xf0]
-          vfmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfmsub213bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xaa,0xf0]
-          vfmsub213nepbf16 %xmm24, %xmm23, %xmm22
+          vfmsub213bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xaa,0xf0]
-          vfmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xaa,0xf0]
-          vfmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfmsub213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xaa,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfmsub213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfmsub213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfmsub213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xaa,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfmsub213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmsub213nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfmsub213bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xaa,0x35,0x00,0x00,0x00,0x00]
-          vfmsub213nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfmsub213bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfmsub213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfmsub213bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xaa,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfmsub213bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfmsub213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmsub213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xaa,0x71,0x7f]
-          vfmsub213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfmsub213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmsub213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xaa,0x72,0x80]
-          vfmsub213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfmsub213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfmsub213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xaa,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfmsub213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfmsub213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfmsub213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xaa,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfmsub213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmsub213nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfmsub213bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xaa,0x35,0x00,0x00,0x00,0x00]
-          vfmsub213nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfmsub213bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfmsub213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfmsub213bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xaa,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfmsub213bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfmsub213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmsub213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xaa,0x71,0x7f]
-          vfmsub213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfmsub213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmsub213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xaa,0x72,0x80]
-          vfmsub213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfmsub213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfmsub213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xaa,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfmsub213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfmsub213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfmsub213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xaa,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfmsub213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmsub213nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfmsub213bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xaa,0x35,0x00,0x00,0x00,0x00]
-          vfmsub213nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfmsub213bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfmsub213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfmsub213bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xaa,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfmsub213bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfmsub213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmsub213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xaa,0x71,0x7f]
-          vfmsub213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfmsub213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmsub213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmsub213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xaa,0x72,0x80]
-          vfmsub213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfmsub213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfmsub231bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xba,0xf0]
-          vfmsub231nepbf16 %ymm24, %ymm23, %ymm22
+          vfmsub231bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xba,0xf0]
-          vfmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xba,0xf0]
-          vfmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfmsub231bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xba,0xf0]
-          vfmsub231nepbf16 %zmm24, %zmm23, %zmm22
+          vfmsub231bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xba,0xf0]
-          vfmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xba,0xf0]
-          vfmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfmsub231bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xba,0xf0]
-          vfmsub231nepbf16 %xmm24, %xmm23, %xmm22
+          vfmsub231bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xba,0xf0]
-          vfmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xba,0xf0]
-          vfmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfmsub231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xba,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfmsub231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfmsub231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfmsub231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xba,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfmsub231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfmsub231nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfmsub231bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xba,0x35,0x00,0x00,0x00,0x00]
-          vfmsub231nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfmsub231bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfmsub231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfmsub231bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xba,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfmsub231bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfmsub231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmsub231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xba,0x71,0x7f]
-          vfmsub231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfmsub231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfmsub231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xba,0x72,0x80]
-          vfmsub231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfmsub231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfmsub231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xba,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfmsub231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfmsub231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfmsub231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xba,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfmsub231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfmsub231nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfmsub231bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xba,0x35,0x00,0x00,0x00,0x00]
-          vfmsub231nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfmsub231bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfmsub231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfmsub231bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xba,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfmsub231bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfmsub231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmsub231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xba,0x71,0x7f]
-          vfmsub231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfmsub231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfmsub231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xba,0x72,0x80]
-          vfmsub231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfmsub231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfmsub231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xba,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfmsub231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfmsub231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfmsub231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xba,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfmsub231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfmsub231nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfmsub231bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xba,0x35,0x00,0x00,0x00,0x00]
-          vfmsub231nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfmsub231bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfmsub231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfmsub231bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xba,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfmsub231bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfmsub231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmsub231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xba,0x71,0x7f]
-          vfmsub231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfmsub231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfmsub231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfmsub231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xba,0x72,0x80]
-          vfmsub231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfmsub231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfnmadd132bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x9c,0xf0]
-          vfnmadd132nepbf16 %ymm24, %ymm23, %ymm22
+          vfnmadd132bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfnmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfnmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x9c,0xf0]
-          vfnmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfnmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x9c,0xf0]
-          vfnmadd132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfnmadd132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfnmadd132bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x9c,0xf0]
-          vfnmadd132nepbf16 %zmm24, %zmm23, %zmm22
+          vfnmadd132bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfnmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfnmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x9c,0xf0]
-          vfnmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfnmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x9c,0xf0]
-          vfnmadd132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfnmadd132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfnmadd132bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x9c,0xf0]
-          vfnmadd132nepbf16 %xmm24, %xmm23, %xmm22
+          vfnmadd132bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfnmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfnmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x9c,0xf0]
-          vfnmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfnmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x9c,0xf0]
-          vfnmadd132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfnmadd132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfnmadd132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x9c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfnmadd132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfnmadd132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfnmadd132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x9c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfnmadd132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmadd132nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfnmadd132bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x9c,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd132nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfnmadd132bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfnmadd132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfnmadd132bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x9c,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfnmadd132bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfnmadd132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmadd132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x9c,0x71,0x7f]
-          vfnmadd132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfnmadd132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmadd132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x9c,0x72,0x80]
-          vfnmadd132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfnmadd132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfnmadd132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x9c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfnmadd132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfnmadd132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfnmadd132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x9c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfnmadd132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmadd132nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfnmadd132bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x9c,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd132nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfnmadd132bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfnmadd132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfnmadd132bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x9c,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfnmadd132bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfnmadd132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmadd132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x9c,0x71,0x7f]
-          vfnmadd132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfnmadd132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmadd132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x9c,0x72,0x80]
-          vfnmadd132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfnmadd132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfnmadd132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x9c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfnmadd132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfnmadd132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfnmadd132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x9c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfnmadd132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmadd132nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfnmadd132bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x9c,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd132nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfnmadd132bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfnmadd132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfnmadd132bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x9c,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfnmadd132bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfnmadd132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmadd132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x9c,0x71,0x7f]
-          vfnmadd132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfnmadd132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmadd132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmadd132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x9c,0x72,0x80]
-          vfnmadd132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfnmadd132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfnmadd213bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xac,0xf0]
-          vfnmadd213nepbf16 %ymm24, %ymm23, %ymm22
+          vfnmadd213bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfnmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfnmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xac,0xf0]
-          vfnmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfnmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xac,0xf0]
-          vfnmadd213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfnmadd213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfnmadd213bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xac,0xf0]
-          vfnmadd213nepbf16 %zmm24, %zmm23, %zmm22
+          vfnmadd213bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfnmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfnmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xac,0xf0]
-          vfnmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfnmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xac,0xf0]
-          vfnmadd213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfnmadd213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfnmadd213bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xac,0xf0]
-          vfnmadd213nepbf16 %xmm24, %xmm23, %xmm22
+          vfnmadd213bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfnmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfnmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xac,0xf0]
-          vfnmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfnmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xac,0xf0]
-          vfnmadd213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfnmadd213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfnmadd213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xac,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfnmadd213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfnmadd213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfnmadd213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xac,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfnmadd213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmadd213nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfnmadd213bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xac,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd213nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfnmadd213bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfnmadd213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfnmadd213bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xac,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfnmadd213bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfnmadd213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmadd213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xac,0x71,0x7f]
-          vfnmadd213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfnmadd213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmadd213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xac,0x72,0x80]
-          vfnmadd213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfnmadd213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfnmadd213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xac,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfnmadd213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfnmadd213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfnmadd213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xac,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfnmadd213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmadd213nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfnmadd213bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xac,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd213nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfnmadd213bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfnmadd213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfnmadd213bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xac,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfnmadd213bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfnmadd213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmadd213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xac,0x71,0x7f]
-          vfnmadd213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfnmadd213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmadd213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xac,0x72,0x80]
-          vfnmadd213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfnmadd213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfnmadd213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xac,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfnmadd213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfnmadd213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfnmadd213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xac,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfnmadd213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmadd213nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfnmadd213bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xac,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd213nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfnmadd213bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfnmadd213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfnmadd213bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xac,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfnmadd213bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfnmadd213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmadd213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xac,0x71,0x7f]
-          vfnmadd213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfnmadd213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmadd213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmadd213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xac,0x72,0x80]
-          vfnmadd213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfnmadd213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfnmadd231bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xbc,0xf0]
-          vfnmadd231nepbf16 %ymm24, %ymm23, %ymm22
+          vfnmadd231bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfnmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfnmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xbc,0xf0]
-          vfnmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfnmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xbc,0xf0]
-          vfnmadd231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfnmadd231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfnmadd231bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xbc,0xf0]
-          vfnmadd231nepbf16 %zmm24, %zmm23, %zmm22
+          vfnmadd231bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfnmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfnmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xbc,0xf0]
-          vfnmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfnmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xbc,0xf0]
-          vfnmadd231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfnmadd231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfnmadd231bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xbc,0xf0]
-          vfnmadd231nepbf16 %xmm24, %xmm23, %xmm22
+          vfnmadd231bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfnmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfnmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xbc,0xf0]
-          vfnmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfnmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xbc,0xf0]
-          vfnmadd231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfnmadd231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfnmadd231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xbc,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfnmadd231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfnmadd231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfnmadd231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xbc,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfnmadd231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmadd231nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfnmadd231bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xbc,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd231nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfnmadd231bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfnmadd231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfnmadd231bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xbc,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfnmadd231bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfnmadd231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmadd231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xbc,0x71,0x7f]
-          vfnmadd231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfnmadd231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmadd231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xbc,0x72,0x80]
-          vfnmadd231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfnmadd231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfnmadd231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xbc,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfnmadd231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfnmadd231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfnmadd231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xbc,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfnmadd231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmadd231nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfnmadd231bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xbc,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd231nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfnmadd231bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfnmadd231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfnmadd231bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xbc,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfnmadd231bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfnmadd231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmadd231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xbc,0x71,0x7f]
-          vfnmadd231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfnmadd231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmadd231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xbc,0x72,0x80]
-          vfnmadd231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfnmadd231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfnmadd231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xbc,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfnmadd231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfnmadd231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfnmadd231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xbc,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfnmadd231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmadd231nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfnmadd231bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xbc,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd231nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfnmadd231bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfnmadd231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfnmadd231bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xbc,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfnmadd231bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfnmadd231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmadd231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xbc,0x71,0x7f]
-          vfnmadd231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfnmadd231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmadd231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmadd231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xbc,0x72,0x80]
-          vfnmadd231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfnmadd231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfnmsub132bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x9e,0xf0]
-          vfnmsub132nepbf16 %ymm24, %ymm23, %ymm22
+          vfnmsub132bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfnmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfnmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x9e,0xf0]
-          vfnmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfnmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x9e,0xf0]
-          vfnmsub132nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfnmsub132bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfnmsub132bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x9e,0xf0]
-          vfnmsub132nepbf16 %zmm24, %zmm23, %zmm22
+          vfnmsub132bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfnmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfnmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x9e,0xf0]
-          vfnmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfnmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x9e,0xf0]
-          vfnmsub132nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfnmsub132bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfnmsub132bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x9e,0xf0]
-          vfnmsub132nepbf16 %xmm24, %xmm23, %xmm22
+          vfnmsub132bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfnmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfnmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x9e,0xf0]
-          vfnmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfnmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x9e,0xf0]
-          vfnmsub132nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfnmsub132bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfnmsub132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x9e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfnmsub132bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfnmsub132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfnmsub132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x9e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfnmsub132bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmsub132nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfnmsub132bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x9e,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub132nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfnmsub132bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfnmsub132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfnmsub132bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x9e,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub132nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfnmsub132bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfnmsub132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmsub132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x9e,0x71,0x7f]
-          vfnmsub132nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfnmsub132bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmsub132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x9e,0x72,0x80]
-          vfnmsub132nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfnmsub132bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfnmsub132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x9e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfnmsub132bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfnmsub132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfnmsub132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x9e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfnmsub132bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmsub132nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfnmsub132bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x9e,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub132nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfnmsub132bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfnmsub132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfnmsub132bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x9e,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub132nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfnmsub132bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfnmsub132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmsub132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x9e,0x71,0x7f]
-          vfnmsub132nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfnmsub132bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmsub132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x9e,0x72,0x80]
-          vfnmsub132nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfnmsub132bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfnmsub132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x9e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfnmsub132bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfnmsub132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfnmsub132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x9e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfnmsub132bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmsub132nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfnmsub132bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x9e,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub132nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfnmsub132bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfnmsub132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfnmsub132bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x9e,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub132nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfnmsub132bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfnmsub132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmsub132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x9e,0x71,0x7f]
-          vfnmsub132nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfnmsub132bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmsub132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmsub132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x9e,0x72,0x80]
-          vfnmsub132nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfnmsub132bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfnmsub213bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xae,0xf0]
-          vfnmsub213nepbf16 %ymm24, %ymm23, %ymm22
+          vfnmsub213bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfnmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfnmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xae,0xf0]
-          vfnmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfnmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xae,0xf0]
-          vfnmsub213nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfnmsub213bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfnmsub213bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xae,0xf0]
-          vfnmsub213nepbf16 %zmm24, %zmm23, %zmm22
+          vfnmsub213bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfnmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfnmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xae,0xf0]
-          vfnmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfnmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xae,0xf0]
-          vfnmsub213nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfnmsub213bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfnmsub213bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xae,0xf0]
-          vfnmsub213nepbf16 %xmm24, %xmm23, %xmm22
+          vfnmsub213bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfnmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfnmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xae,0xf0]
-          vfnmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfnmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xae,0xf0]
-          vfnmsub213nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfnmsub213bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfnmsub213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xae,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfnmsub213bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfnmsub213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfnmsub213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xae,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfnmsub213bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmsub213nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfnmsub213bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xae,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub213nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfnmsub213bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfnmsub213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfnmsub213bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xae,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub213nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfnmsub213bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfnmsub213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmsub213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xae,0x71,0x7f]
-          vfnmsub213nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfnmsub213bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmsub213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xae,0x72,0x80]
-          vfnmsub213nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfnmsub213bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfnmsub213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xae,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfnmsub213bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfnmsub213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfnmsub213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xae,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfnmsub213bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmsub213nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfnmsub213bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xae,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub213nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfnmsub213bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfnmsub213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfnmsub213bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xae,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub213nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfnmsub213bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfnmsub213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmsub213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xae,0x71,0x7f]
-          vfnmsub213nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfnmsub213bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmsub213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xae,0x72,0x80]
-          vfnmsub213nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfnmsub213bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfnmsub213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xae,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfnmsub213bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfnmsub213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfnmsub213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xae,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfnmsub213bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmsub213nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfnmsub213bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xae,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub213nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfnmsub213bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfnmsub213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfnmsub213bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xae,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub213nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfnmsub213bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfnmsub213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmsub213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xae,0x71,0x7f]
-          vfnmsub213nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfnmsub213bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmsub213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmsub213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xae,0x72,0x80]
-          vfnmsub213nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfnmsub213bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vfnmsub231bf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xbe,0xf0]
-          vfnmsub231nepbf16 %ymm24, %ymm23, %ymm22
+          vfnmsub231bf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vfnmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vfnmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xbe,0xf0]
-          vfnmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vfnmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xbe,0xf0]
-          vfnmsub231nepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vfnmsub231bf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vfnmsub231bf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xbe,0xf0]
-          vfnmsub231nepbf16 %zmm24, %zmm23, %zmm22
+          vfnmsub231bf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vfnmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vfnmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xbe,0xf0]
-          vfnmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vfnmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xbe,0xf0]
-          vfnmsub231nepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vfnmsub231bf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vfnmsub231bf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xbe,0xf0]
-          vfnmsub231nepbf16 %xmm24, %xmm23, %xmm22
+          vfnmsub231bf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vfnmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vfnmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xbe,0xf0]
-          vfnmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vfnmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xbe,0xf0]
-          vfnmsub231nepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vfnmsub231bf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vfnmsub231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xbe,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vfnmsub231bf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vfnmsub231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vfnmsub231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xbe,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vfnmsub231bf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vfnmsub231nepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vfnmsub231bf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xbe,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub231nepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vfnmsub231bf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vfnmsub231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vfnmsub231bf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xbe,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub231nepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vfnmsub231bf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vfnmsub231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmsub231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xbe,0x71,0x7f]
-          vfnmsub231nepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vfnmsub231bf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vfnmsub231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xbe,0x72,0x80]
-          vfnmsub231nepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vfnmsub231bf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vfnmsub231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xbe,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vfnmsub231bf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vfnmsub231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vfnmsub231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xbe,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vfnmsub231bf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vfnmsub231nepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vfnmsub231bf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xbe,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub231nepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vfnmsub231bf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vfnmsub231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vfnmsub231bf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xbe,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub231nepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vfnmsub231bf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vfnmsub231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmsub231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xbe,0x71,0x7f]
-          vfnmsub231nepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vfnmsub231bf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vfnmsub231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xbe,0x72,0x80]
-          vfnmsub231nepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vfnmsub231bf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vfnmsub231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xbe,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vfnmsub231bf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vfnmsub231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vfnmsub231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xbe,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vfnmsub231bf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vfnmsub231nepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vfnmsub231bf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xbe,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub231nepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vfnmsub231bf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vfnmsub231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vfnmsub231bf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xbe,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub231nepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vfnmsub231bf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vfnmsub231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmsub231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xbe,0x71,0x7f]
-          vfnmsub231nepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vfnmsub231bf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfnmsub231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vfnmsub231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xbe,0x72,0x80]
-          vfnmsub231nepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vfnmsub231bf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vfpclasspbf16 $123, %zmm23, %k5
+// CHECK: vfpclassbf16 $123, %zmm23, %k5
 // CHECK: encoding: [0x62,0xb3,0x7f,0x48,0x66,0xef,0x7b]
-          vfpclasspbf16 $123, %zmm23, %k5
+          vfpclassbf16 $123, %zmm23, %k5
 
-// CHECK: vfpclasspbf16 $123, %zmm23, %k5 {%k7}
+// CHECK: vfpclassbf16 $123, %zmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xb3,0x7f,0x4f,0x66,0xef,0x7b]
-          vfpclasspbf16 $123, %zmm23, %k5 {%k7}
+          vfpclassbf16 $123, %zmm23, %k5 {%k7}
 
-// CHECK: vfpclasspbf16 $123, %ymm23, %k5
+// CHECK: vfpclassbf16 $123, %ymm23, %k5
 // CHECK: encoding: [0x62,0xb3,0x7f,0x28,0x66,0xef,0x7b]
-          vfpclasspbf16 $123, %ymm23, %k5
+          vfpclassbf16 $123, %ymm23, %k5
 
-// CHECK: vfpclasspbf16 $123, %ymm23, %k5 {%k7}
+// CHECK: vfpclassbf16 $123, %ymm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xb3,0x7f,0x2f,0x66,0xef,0x7b]
-          vfpclasspbf16 $123, %ymm23, %k5 {%k7}
+          vfpclassbf16 $123, %ymm23, %k5 {%k7}
 
-// CHECK: vfpclasspbf16 $123, %xmm23, %k5
+// CHECK: vfpclassbf16 $123, %xmm23, %k5
 // CHECK: encoding: [0x62,0xb3,0x7f,0x08,0x66,0xef,0x7b]
-          vfpclasspbf16 $123, %xmm23, %k5
+          vfpclassbf16 $123, %xmm23, %k5
 
-// CHECK: vfpclasspbf16 $123, %xmm23, %k5 {%k7}
+// CHECK: vfpclassbf16 $123, %xmm23, %k5 {%k7}
 // CHECK: encoding: [0x62,0xb3,0x7f,0x0f,0x66,0xef,0x7b]
-          vfpclasspbf16 $123, %xmm23, %k5 {%k7}
+          vfpclassbf16 $123, %xmm23, %k5 {%k7}
 
-// CHECK: vfpclasspbf16x  $123, 268435456(%rbp,%r14,8), %k5
+// CHECK: vfpclassbf16x  $123, 268435456(%rbp,%r14,8), %k5
 // CHECK: encoding: [0x62,0xb3,0x7f,0x08,0x66,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vfpclasspbf16x  $123, 268435456(%rbp,%r14,8), %k5
+          vfpclassbf16x  $123, 268435456(%rbp,%r14,8), %k5
 
-// CHECK: vfpclasspbf16x  $123, 291(%r8,%rax,4), %k5 {%k7}
+// CHECK: vfpclassbf16x  $123, 291(%r8,%rax,4), %k5 {%k7}
 // CHECK: encoding: [0x62,0xd3,0x7f,0x0f,0x66,0xac,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vfpclasspbf16x  $123, 291(%r8,%rax,4), %k5 {%k7}
+          vfpclassbf16x  $123, 291(%r8,%rax,4), %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, (%rip){1to8}, %k5
+// CHECK: vfpclassbf16  $123, (%rip){1to8}, %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x66,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vfpclasspbf16  $123, (%rip){1to8}, %k5
+          vfpclassbf16  $123, (%rip){1to8}, %k5
 
-// CHECK: vfpclasspbf16x  $123, -512(,%rbp,2), %k5
+// CHECK: vfpclassbf16x  $123, -512(,%rbp,2), %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x66,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vfpclasspbf16x  $123, -512(,%rbp,2), %k5
+          vfpclassbf16x  $123, -512(,%rbp,2), %k5
 
-// CHECK: vfpclasspbf16x  $123, 2032(%rcx), %k5 {%k7}
+// CHECK: vfpclassbf16x  $123, 2032(%rcx), %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16x  $123, 2032(%rcx), %k5 {%k7}
+          vfpclassbf16x  $123, 2032(%rcx), %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, -256(%rdx){1to8}, %k5 {%k7}
+// CHECK: vfpclassbf16  $123, -256(%rdx){1to8}, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x1f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16  $123, -256(%rdx){1to8}, %k5 {%k7}
+          vfpclassbf16  $123, -256(%rdx){1to8}, %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, (%rip){1to16}, %k5
+// CHECK: vfpclassbf16  $123, (%rip){1to16}, %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x66,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vfpclasspbf16  $123, (%rip){1to16}, %k5
+          vfpclassbf16  $123, (%rip){1to16}, %k5
 
-// CHECK: vfpclasspbf16y  $123, -1024(,%rbp,2), %k5
+// CHECK: vfpclassbf16y  $123, -1024(,%rbp,2), %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x66,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vfpclasspbf16y  $123, -1024(,%rbp,2), %k5
+          vfpclassbf16y  $123, -1024(,%rbp,2), %k5
 
-// CHECK: vfpclasspbf16y  $123, 4064(%rcx), %k5 {%k7}
+// CHECK: vfpclassbf16y  $123, 4064(%rcx), %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16y  $123, 4064(%rcx), %k5 {%k7}
+          vfpclassbf16y  $123, 4064(%rcx), %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, -256(%rdx){1to16}, %k5 {%k7}
+// CHECK: vfpclassbf16  $123, -256(%rdx){1to16}, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x3f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16  $123, -256(%rdx){1to16}, %k5 {%k7}
+          vfpclassbf16  $123, -256(%rdx){1to16}, %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, (%rip){1to32}, %k5
+// CHECK: vfpclassbf16  $123, (%rip){1to32}, %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x66,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vfpclasspbf16  $123, (%rip){1to32}, %k5
+          vfpclassbf16  $123, (%rip){1to32}, %k5
 
-// CHECK: vfpclasspbf16z  $123, -2048(,%rbp,2), %k5
+// CHECK: vfpclassbf16z  $123, -2048(,%rbp,2), %k5
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x66,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vfpclasspbf16z  $123, -2048(,%rbp,2), %k5
+          vfpclassbf16z  $123, -2048(,%rbp,2), %k5
 
-// CHECK: vfpclasspbf16z  $123, 8128(%rcx), %k5 {%k7}
+// CHECK: vfpclassbf16z  $123, 8128(%rcx), %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16z  $123, 8128(%rcx), %k5 {%k7}
+          vfpclassbf16z  $123, 8128(%rcx), %k5 {%k7}
 
-// CHECK: vfpclasspbf16  $123, -256(%rdx){1to32}, %k5 {%k7}
+// CHECK: vfpclassbf16  $123, -256(%rdx){1to32}, %k5 {%k7}
 // CHECK: encoding: [0x62,0xf3,0x7f,0x5f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16  $123, -256(%rdx){1to32}, %k5 {%k7}
+          vfpclassbf16  $123, -256(%rdx){1to32}, %k5 {%k7}
 
-// CHECK: vgetexppbf16 %xmm23, %xmm22
+// CHECK: vgetexpbf16 %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x42,0xf7]
-          vgetexppbf16 %xmm23, %xmm22
+          vgetexpbf16 %xmm23, %xmm22
 
-// CHECK: vgetexppbf16 %xmm23, %xmm22 {%k7}
+// CHECK: vgetexpbf16 %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7d,0x0f,0x42,0xf7]
-          vgetexppbf16 %xmm23, %xmm22 {%k7}
+          vgetexpbf16 %xmm23, %xmm22 {%k7}
 
-// CHECK: vgetexppbf16 %xmm23, %xmm22 {%k7} {z}
+// CHECK: vgetexpbf16 %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7d,0x8f,0x42,0xf7]
-          vgetexppbf16 %xmm23, %xmm22 {%k7} {z}
+          vgetexpbf16 %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vgetexppbf16 %zmm23, %zmm22
+// CHECK: vgetexpbf16 %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x48,0x42,0xf7]
-          vgetexppbf16 %zmm23, %zmm22
+          vgetexpbf16 %zmm23, %zmm22
 
-// CHECK: vgetexppbf16 %zmm23, %zmm22 {%k7}
+// CHECK: vgetexpbf16 %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7d,0x4f,0x42,0xf7]
-          vgetexppbf16 %zmm23, %zmm22 {%k7}
+          vgetexpbf16 %zmm23, %zmm22 {%k7}
 
-// CHECK: vgetexppbf16 %zmm23, %zmm22 {%k7} {z}
+// CHECK: vgetexpbf16 %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7d,0xcf,0x42,0xf7]
-          vgetexppbf16 %zmm23, %zmm22 {%k7} {z}
+          vgetexpbf16 %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vgetexppbf16 %ymm23, %ymm22
+// CHECK: vgetexpbf16 %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x28,0x42,0xf7]
-          vgetexppbf16 %ymm23, %ymm22
+          vgetexpbf16 %ymm23, %ymm22
 
-// CHECK: vgetexppbf16 %ymm23, %ymm22 {%k7}
+// CHECK: vgetexpbf16 %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7d,0x2f,0x42,0xf7]
-          vgetexppbf16 %ymm23, %ymm22 {%k7}
+          vgetexpbf16 %ymm23, %ymm22 {%k7}
 
-// CHECK: vgetexppbf16 %ymm23, %ymm22 {%k7} {z}
+// CHECK: vgetexpbf16 %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7d,0xaf,0x42,0xf7]
-          vgetexppbf16 %ymm23, %ymm22 {%k7} {z}
+          vgetexpbf16 %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vgetexppbf16  268435456(%rbp,%r14,8), %xmm22
+// CHECK: vgetexpbf16  268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x42,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vgetexppbf16  268435456(%rbp,%r14,8), %xmm22
+          vgetexpbf16  268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vgetexppbf16  291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vgetexpbf16  291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7d,0x0f,0x42,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vgetexppbf16  291(%r8,%rax,4), %xmm22 {%k7}
+          vgetexpbf16  291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vgetexppbf16  (%rip){1to8}, %xmm22
+// CHECK: vgetexpbf16  (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x18,0x42,0x35,0x00,0x00,0x00,0x00]
-          vgetexppbf16  (%rip){1to8}, %xmm22
+          vgetexpbf16  (%rip){1to8}, %xmm22
 
-// CHECK: vgetexppbf16  -512(,%rbp,2), %xmm22
+// CHECK: vgetexpbf16  -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x42,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vgetexppbf16  -512(,%rbp,2), %xmm22
+          vgetexpbf16  -512(,%rbp,2), %xmm22
 
-// CHECK: vgetexppbf16  2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vgetexpbf16  2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x8f,0x42,0x71,0x7f]
-          vgetexppbf16  2032(%rcx), %xmm22 {%k7} {z}
+          vgetexpbf16  2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vgetexppbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vgetexpbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x9f,0x42,0x72,0x80]
-          vgetexppbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vgetexpbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vgetexppbf16  268435456(%rbp,%r14,8), %ymm22
+// CHECK: vgetexpbf16  268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x28,0x42,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vgetexppbf16  268435456(%rbp,%r14,8), %ymm22
+          vgetexpbf16  268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vgetexppbf16  291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vgetexpbf16  291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7d,0x2f,0x42,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vgetexppbf16  291(%r8,%rax,4), %ymm22 {%k7}
+          vgetexpbf16  291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vgetexppbf16  (%rip){1to16}, %ymm22
+// CHECK: vgetexpbf16  (%rip){1to16}, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x38,0x42,0x35,0x00,0x00,0x00,0x00]
-          vgetexppbf16  (%rip){1to16}, %ymm22
+          vgetexpbf16  (%rip){1to16}, %ymm22
 
-// CHECK: vgetexppbf16  -1024(,%rbp,2), %ymm22
+// CHECK: vgetexpbf16  -1024(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x28,0x42,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vgetexppbf16  -1024(,%rbp,2), %ymm22
+          vgetexpbf16  -1024(,%rbp,2), %ymm22
 
-// CHECK: vgetexppbf16  4064(%rcx), %ymm22 {%k7} {z}
+// CHECK: vgetexpbf16  4064(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xaf,0x42,0x71,0x7f]
-          vgetexppbf16  4064(%rcx), %ymm22 {%k7} {z}
+          vgetexpbf16  4064(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vgetexppbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+// CHECK: vgetexpbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xbf,0x42,0x72,0x80]
-          vgetexppbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+          vgetexpbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
 
-// CHECK: vgetexppbf16  268435456(%rbp,%r14,8), %zmm22
+// CHECK: vgetexpbf16  268435456(%rbp,%r14,8), %zmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x48,0x42,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vgetexppbf16  268435456(%rbp,%r14,8), %zmm22
+          vgetexpbf16  268435456(%rbp,%r14,8), %zmm22
 
-// CHECK: vgetexppbf16  291(%r8,%rax,4), %zmm22 {%k7}
+// CHECK: vgetexpbf16  291(%r8,%rax,4), %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7d,0x4f,0x42,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vgetexppbf16  291(%r8,%rax,4), %zmm22 {%k7}
+          vgetexpbf16  291(%r8,%rax,4), %zmm22 {%k7}
 
-// CHECK: vgetexppbf16  (%rip){1to32}, %zmm22
+// CHECK: vgetexpbf16  (%rip){1to32}, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x58,0x42,0x35,0x00,0x00,0x00,0x00]
-          vgetexppbf16  (%rip){1to32}, %zmm22
+          vgetexpbf16  (%rip){1to32}, %zmm22
 
-// CHECK: vgetexppbf16  -2048(,%rbp,2), %zmm22
+// CHECK: vgetexpbf16  -2048(,%rbp,2), %zmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x48,0x42,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vgetexppbf16  -2048(,%rbp,2), %zmm22
+          vgetexpbf16  -2048(,%rbp,2), %zmm22
 
-// CHECK: vgetexppbf16  8128(%rcx), %zmm22 {%k7} {z}
+// CHECK: vgetexpbf16  8128(%rcx), %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xcf,0x42,0x71,0x7f]
-          vgetexppbf16  8128(%rcx), %zmm22 {%k7} {z}
+          vgetexpbf16  8128(%rcx), %zmm22 {%k7} {z}
 
-// CHECK: vgetexppbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+// CHECK: vgetexpbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xdf,0x42,0x72,0x80]
-          vgetexppbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+          vgetexpbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
 
-// CHECK: vgetmantpbf16 $123, %zmm23, %zmm22
+// CHECK: vgetmantbf16 $123, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x26,0xf7,0x7b]
-          vgetmantpbf16 $123, %zmm23, %zmm22
+          vgetmantbf16 $123, %zmm23, %zmm22
 
-// CHECK: vgetmantpbf16 $123, %zmm23, %zmm22 {%k7}
+// CHECK: vgetmantbf16 $123, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x4f,0x26,0xf7,0x7b]
-          vgetmantpbf16 $123, %zmm23, %zmm22 {%k7}
+          vgetmantbf16 $123, %zmm23, %zmm22 {%k7}
 
-// CHECK: vgetmantpbf16 $123, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vgetmantbf16 $123, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa3,0x7f,0xcf,0x26,0xf7,0x7b]
-          vgetmantpbf16 $123, %zmm23, %zmm22 {%k7} {z}
+          vgetmantbf16 $123, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vgetmantpbf16 $123, %ymm23, %ymm22
+// CHECK: vgetmantbf16 $123, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x26,0xf7,0x7b]
-          vgetmantpbf16 $123, %ymm23, %ymm22
+          vgetmantbf16 $123, %ymm23, %ymm22
 
-// CHECK: vgetmantpbf16 $123, %ymm23, %ymm22 {%k7}
+// CHECK: vgetmantbf16 $123, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x2f,0x26,0xf7,0x7b]
-          vgetmantpbf16 $123, %ymm23, %ymm22 {%k7}
+          vgetmantbf16 $123, %ymm23, %ymm22 {%k7}
 
-// CHECK: vgetmantpbf16 $123, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vgetmantbf16 $123, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa3,0x7f,0xaf,0x26,0xf7,0x7b]
-          vgetmantpbf16 $123, %ymm23, %ymm22 {%k7} {z}
+          vgetmantbf16 $123, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vgetmantpbf16 $123, %xmm23, %xmm22
+// CHECK: vgetmantbf16 $123, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x26,0xf7,0x7b]
-          vgetmantpbf16 $123, %xmm23, %xmm22
+          vgetmantbf16 $123, %xmm23, %xmm22
 
-// CHECK: vgetmantpbf16 $123, %xmm23, %xmm22 {%k7}
+// CHECK: vgetmantbf16 $123, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x0f,0x26,0xf7,0x7b]
-          vgetmantpbf16 $123, %xmm23, %xmm22 {%k7}
+          vgetmantbf16 $123, %xmm23, %xmm22 {%k7}
 
-// CHECK: vgetmantpbf16 $123, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vgetmantbf16 $123, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x8f,0x26,0xf7,0x7b]
-          vgetmantpbf16 $123, %xmm23, %xmm22 {%k7} {z}
+          vgetmantbf16 $123, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, 268435456(%rbp,%r14,8), %xmm22
+// CHECK: vgetmantbf16  $123, 268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x26,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16  $123, 268435456(%rbp,%r14,8), %xmm22
+          vgetmantbf16  $123, 268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vgetmantpbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vgetmantbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc3,0x7f,0x0f,0x26,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
+          vgetmantbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vgetmantpbf16  $123, (%rip){1to8}, %xmm22
+// CHECK: vgetmantbf16  $123, (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x18,0x26,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vgetmantpbf16  $123, (%rip){1to8}, %xmm22
+          vgetmantbf16  $123, (%rip){1to8}, %xmm22
 
-// CHECK: vgetmantpbf16  $123, -512(,%rbp,2), %xmm22
+// CHECK: vgetmantbf16  $123, -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x08,0x26,0x34,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vgetmantpbf16  $123, -512(,%rbp,2), %xmm22
+          vgetmantbf16  $123, -512(,%rbp,2), %xmm22
 
-// CHECK: vgetmantpbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vgetmantbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0x8f,0x26,0x71,0x7f,0x7b]
-          vgetmantpbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
+          vgetmantbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vgetmantbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0x9f,0x26,0x72,0x80,0x7b]
-          vgetmantpbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vgetmantbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, 268435456(%rbp,%r14,8), %ymm22
+// CHECK: vgetmantbf16  $123, 268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x26,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16  $123, 268435456(%rbp,%r14,8), %ymm22
+          vgetmantbf16  $123, 268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vgetmantpbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vgetmantbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc3,0x7f,0x2f,0x26,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
+          vgetmantbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vgetmantpbf16  $123, (%rip){1to16}, %ymm22
+// CHECK: vgetmantbf16  $123, (%rip){1to16}, %ymm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x38,0x26,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vgetmantpbf16  $123, (%rip){1to16}, %ymm22
+          vgetmantbf16  $123, (%rip){1to16}, %ymm22
 
-// CHECK: vgetmantpbf16  $123, -1024(,%rbp,2), %ymm22
+// CHECK: vgetmantbf16  $123, -1024(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x28,0x26,0x34,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vgetmantpbf16  $123, -1024(,%rbp,2), %ymm22
+          vgetmantbf16  $123, -1024(,%rbp,2), %ymm22
 
-// CHECK: vgetmantpbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
+// CHECK: vgetmantbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xaf,0x26,0x71,0x7f,0x7b]
-          vgetmantpbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
+          vgetmantbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
+// CHECK: vgetmantbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xbf,0x26,0x72,0x80,0x7b]
-          vgetmantpbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
+          vgetmantbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, 268435456(%rbp,%r14,8), %zmm22
+// CHECK: vgetmantbf16  $123, 268435456(%rbp,%r14,8), %zmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x26,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16  $123, 268435456(%rbp,%r14,8), %zmm22
+          vgetmantbf16  $123, 268435456(%rbp,%r14,8), %zmm22
 
-// CHECK: vgetmantpbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
+// CHECK: vgetmantbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc3,0x7f,0x4f,0x26,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
+          vgetmantbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
 
-// CHECK: vgetmantpbf16  $123, (%rip){1to32}, %zmm22
+// CHECK: vgetmantbf16  $123, (%rip){1to32}, %zmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x58,0x26,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vgetmantpbf16  $123, (%rip){1to32}, %zmm22
+          vgetmantbf16  $123, (%rip){1to32}, %zmm22
 
-// CHECK: vgetmantpbf16  $123, -2048(,%rbp,2), %zmm22
+// CHECK: vgetmantbf16  $123, -2048(,%rbp,2), %zmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x48,0x26,0x34,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vgetmantpbf16  $123, -2048(,%rbp,2), %zmm22
+          vgetmantbf16  $123, -2048(,%rbp,2), %zmm22
 
-// CHECK: vgetmantpbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
+// CHECK: vgetmantbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xcf,0x26,0x71,0x7f,0x7b]
-          vgetmantpbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
+          vgetmantbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
 
-// CHECK: vgetmantpbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
+// CHECK: vgetmantbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xdf,0x26,0x72,0x80,0x7b]
-          vgetmantpbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
+          vgetmantbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
 
-// CHECK: vmaxpbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vmaxbf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x5f,0xf0]
-          vmaxpbf16 %ymm24, %ymm23, %ymm22
+          vmaxbf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vmaxpbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vmaxbf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x5f,0xf0]
-          vmaxpbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vmaxbf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vmaxpbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vmaxbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x5f,0xf0]
-          vmaxpbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vmaxbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vmaxpbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vmaxbf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x5f,0xf0]
-          vmaxpbf16 %zmm24, %zmm23, %zmm22
+          vmaxbf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vmaxpbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vmaxbf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x5f,0xf0]
-          vmaxpbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vmaxbf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vmaxpbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vmaxbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x5f,0xf0]
-          vmaxpbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vmaxbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vmaxpbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vmaxbf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x5f,0xf0]
-          vmaxpbf16 %xmm24, %xmm23, %xmm22
+          vmaxbf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vmaxpbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vmaxbf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x5f,0xf0]
-          vmaxpbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vmaxbf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vmaxpbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vmaxbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x5f,0xf0]
-          vmaxpbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vmaxbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vmaxpbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vmaxbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x5f,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmaxpbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vmaxbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vmaxpbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vmaxbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x5f,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmaxpbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vmaxbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vmaxpbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vmaxbf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x5f,0x35,0x00,0x00,0x00,0x00]
-          vmaxpbf16  (%rip){1to32}, %zmm23, %zmm22
+          vmaxbf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vmaxpbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vmaxbf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x5f,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vmaxpbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vmaxbf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vmaxpbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vmaxbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x5f,0x71,0x7f]
-          vmaxpbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vmaxbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vmaxpbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vmaxbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x5f,0x72,0x80]
-          vmaxpbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vmaxbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vmaxpbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vmaxbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x5f,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmaxpbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vmaxbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vmaxpbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vmaxbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x5f,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmaxpbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vmaxbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vmaxpbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vmaxbf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x5f,0x35,0x00,0x00,0x00,0x00]
-          vmaxpbf16  (%rip){1to16}, %ymm23, %ymm22
+          vmaxbf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vmaxpbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vmaxbf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x5f,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vmaxpbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vmaxbf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vmaxpbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vmaxbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x5f,0x71,0x7f]
-          vmaxpbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vmaxbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vmaxpbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vmaxbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x5f,0x72,0x80]
-          vmaxpbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vmaxbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vmaxpbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vmaxbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x5f,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmaxpbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vmaxbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vmaxpbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vmaxbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x5f,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmaxpbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vmaxbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vmaxpbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vmaxbf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x5f,0x35,0x00,0x00,0x00,0x00]
-          vmaxpbf16  (%rip){1to8}, %xmm23, %xmm22
+          vmaxbf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vmaxpbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vmaxbf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x5f,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vmaxpbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vmaxbf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vmaxpbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vmaxbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x5f,0x71,0x7f]
-          vmaxpbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vmaxbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vmaxpbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vmaxbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x5f,0x72,0x80]
-          vmaxpbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vmaxbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vminpbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vminbf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x5d,0xf0]
-          vminpbf16 %ymm24, %ymm23, %ymm22
+          vminbf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vminpbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vminbf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x5d,0xf0]
-          vminpbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vminbf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vminpbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vminbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x5d,0xf0]
-          vminpbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vminbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vminpbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vminbf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x5d,0xf0]
-          vminpbf16 %zmm24, %zmm23, %zmm22
+          vminbf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vminpbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vminbf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x5d,0xf0]
-          vminpbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vminbf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vminpbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vminbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x5d,0xf0]
-          vminpbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vminbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vminpbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vminbf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x5d,0xf0]
-          vminpbf16 %xmm24, %xmm23, %xmm22
+          vminbf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vminpbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vminbf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x5d,0xf0]
-          vminpbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vminbf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vminpbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vminbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x5d,0xf0]
-          vminpbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vminbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vminpbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vminbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x5d,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vminpbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vminbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vminpbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vminbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x5d,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vminpbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vminbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vminpbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vminbf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x5d,0x35,0x00,0x00,0x00,0x00]
-          vminpbf16  (%rip){1to32}, %zmm23, %zmm22
+          vminbf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vminpbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vminbf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x5d,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vminpbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vminbf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vminpbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vminbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x5d,0x71,0x7f]
-          vminpbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vminbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vminpbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vminbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x5d,0x72,0x80]
-          vminpbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vminbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vminpbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vminbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x5d,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vminpbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vminbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vminpbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vminbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x5d,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vminpbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vminbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vminpbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vminbf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x5d,0x35,0x00,0x00,0x00,0x00]
-          vminpbf16  (%rip){1to16}, %ymm23, %ymm22
+          vminbf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vminpbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vminbf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x5d,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vminpbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vminbf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vminpbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vminbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x5d,0x71,0x7f]
-          vminpbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vminbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vminpbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vminbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x5d,0x72,0x80]
-          vminpbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vminbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vminpbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vminbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x5d,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vminpbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vminbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vminpbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vminbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x5d,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vminpbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vminbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vminpbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vminbf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x5d,0x35,0x00,0x00,0x00,0x00]
-          vminpbf16  (%rip){1to8}, %xmm23, %xmm22
+          vminbf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vminpbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vminbf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x5d,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vminpbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vminbf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vminpbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vminbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x5d,0x71,0x7f]
-          vminpbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vminbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vminpbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vminbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x5d,0x72,0x80]
-          vminpbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vminbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vmulnepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vmulbf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x59,0xf0]
-          vmulnepbf16 %ymm24, %ymm23, %ymm22
+          vmulbf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vmulnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vmulbf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x59,0xf0]
-          vmulnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vmulbf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vmulnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vmulbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x59,0xf0]
-          vmulnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vmulbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vmulnepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vmulbf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x59,0xf0]
-          vmulnepbf16 %zmm24, %zmm23, %zmm22
+          vmulbf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vmulnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vmulbf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x59,0xf0]
-          vmulnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vmulbf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vmulnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vmulbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x59,0xf0]
-          vmulnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vmulbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vmulnepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vmulbf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x59,0xf0]
-          vmulnepbf16 %xmm24, %xmm23, %xmm22
+          vmulbf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vmulnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vmulbf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x59,0xf0]
-          vmulnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vmulbf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vmulnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vmulbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x59,0xf0]
-          vmulnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vmulbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vmulnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vmulbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x59,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmulnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vmulbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vmulnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vmulbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x59,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmulnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vmulbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vmulnepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vmulbf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x59,0x35,0x00,0x00,0x00,0x00]
-          vmulnepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vmulbf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vmulnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vmulbf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x59,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vmulnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vmulbf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vmulnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vmulbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x59,0x71,0x7f]
-          vmulnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vmulbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vmulnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vmulbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x59,0x72,0x80]
-          vmulnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vmulbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vmulnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vmulbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x59,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmulnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vmulbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vmulnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vmulbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x59,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmulnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vmulbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vmulnepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vmulbf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x59,0x35,0x00,0x00,0x00,0x00]
-          vmulnepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vmulbf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vmulnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vmulbf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x59,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vmulnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vmulbf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vmulnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vmulbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x59,0x71,0x7f]
-          vmulnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vmulbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vmulnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vmulbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x59,0x72,0x80]
-          vmulnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vmulbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vmulnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vmulbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x59,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmulnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vmulbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vmulnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vmulbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x59,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmulnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vmulbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vmulnepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vmulbf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x59,0x35,0x00,0x00,0x00,0x00]
-          vmulnepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vmulbf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vmulnepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vmulbf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x59,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vmulnepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vmulbf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vmulnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vmulbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x59,0x71,0x7f]
-          vmulnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vmulbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vmulnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vmulbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x59,0x72,0x80]
-          vmulnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vmulbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vrcppbf16 %xmm23, %xmm22
+// CHECK: vrcpbf16 %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x08,0x4c,0xf7]
-          vrcppbf16 %xmm23, %xmm22
+          vrcpbf16 %xmm23, %xmm22
 
-// CHECK: vrcppbf16 %xmm23, %xmm22 {%k7}
+// CHECK: vrcpbf16 %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa6,0x7c,0x0f,0x4c,0xf7]
-          vrcppbf16 %xmm23, %xmm22 {%k7}
+          vrcpbf16 %xmm23, %xmm22 {%k7}
 
-// CHECK: vrcppbf16 %xmm23, %xmm22 {%k7} {z}
+// CHECK: vrcpbf16 %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa6,0x7c,0x8f,0x4c,0xf7]
-          vrcppbf16 %xmm23, %xmm22 {%k7} {z}
+          vrcpbf16 %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vrcppbf16 %zmm23, %zmm22
+// CHECK: vrcpbf16 %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x48,0x4c,0xf7]
-          vrcppbf16 %zmm23, %zmm22
+          vrcpbf16 %zmm23, %zmm22
 
-// CHECK: vrcppbf16 %zmm23, %zmm22 {%k7}
+// CHECK: vrcpbf16 %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xa6,0x7c,0x4f,0x4c,0xf7]
-          vrcppbf16 %zmm23, %zmm22 {%k7}
+          vrcpbf16 %zmm23, %zmm22 {%k7}
 
-// CHECK: vrcppbf16 %zmm23, %zmm22 {%k7} {z}
+// CHECK: vrcpbf16 %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa6,0x7c,0xcf,0x4c,0xf7]
-          vrcppbf16 %zmm23, %zmm22 {%k7} {z}
+          vrcpbf16 %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vrcppbf16 %ymm23, %ymm22
+// CHECK: vrcpbf16 %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x28,0x4c,0xf7]
-          vrcppbf16 %ymm23, %ymm22
+          vrcpbf16 %ymm23, %ymm22
 
-// CHECK: vrcppbf16 %ymm23, %ymm22 {%k7}
+// CHECK: vrcpbf16 %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa6,0x7c,0x2f,0x4c,0xf7]
-          vrcppbf16 %ymm23, %ymm22 {%k7}
+          vrcpbf16 %ymm23, %ymm22 {%k7}
 
-// CHECK: vrcppbf16 %ymm23, %ymm22 {%k7} {z}
+// CHECK: vrcpbf16 %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa6,0x7c,0xaf,0x4c,0xf7]
-          vrcppbf16 %ymm23, %ymm22 {%k7} {z}
+          vrcpbf16 %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vrcppbf16  268435456(%rbp,%r14,8), %xmm22
+// CHECK: vrcpbf16  268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x08,0x4c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrcppbf16  268435456(%rbp,%r14,8), %xmm22
+          vrcpbf16  268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vrcppbf16  291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vrcpbf16  291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x7c,0x0f,0x4c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrcppbf16  291(%r8,%rax,4), %xmm22 {%k7}
+          vrcpbf16  291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vrcppbf16  (%rip){1to8}, %xmm22
+// CHECK: vrcpbf16  (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x18,0x4c,0x35,0x00,0x00,0x00,0x00]
-          vrcppbf16  (%rip){1to8}, %xmm22
+          vrcpbf16  (%rip){1to8}, %xmm22
 
-// CHECK: vrcppbf16  -512(,%rbp,2), %xmm22
+// CHECK: vrcpbf16  -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x08,0x4c,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vrcppbf16  -512(,%rbp,2), %xmm22
+          vrcpbf16  -512(,%rbp,2), %xmm22
 
-// CHECK: vrcppbf16  2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vrcpbf16  2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x8f,0x4c,0x71,0x7f]
-          vrcppbf16  2032(%rcx), %xmm22 {%k7} {z}
+          vrcpbf16  2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vrcppbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vrcpbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x9f,0x4c,0x72,0x80]
-          vrcppbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vrcpbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vrcppbf16  268435456(%rbp,%r14,8), %ymm22
+// CHECK: vrcpbf16  268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x28,0x4c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrcppbf16  268435456(%rbp,%r14,8), %ymm22
+          vrcpbf16  268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vrcppbf16  291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vrcpbf16  291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x7c,0x2f,0x4c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrcppbf16  291(%r8,%rax,4), %ymm22 {%k7}
+          vrcpbf16  291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vrcppbf16  (%rip){1to16}, %ymm22
+// CHECK: vrcpbf16  (%rip){1to16}, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x38,0x4c,0x35,0x00,0x00,0x00,0x00]
-          vrcppbf16  (%rip){1to16}, %ymm22
+          vrcpbf16  (%rip){1to16}, %ymm22
 
-// CHECK: vrcppbf16  -1024(,%rbp,2), %ymm22
+// CHECK: vrcpbf16  -1024(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x28,0x4c,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vrcppbf16  -1024(,%rbp,2), %ymm22
+          vrcpbf16  -1024(,%rbp,2), %ymm22
 
-// CHECK: vrcppbf16  4064(%rcx), %ymm22 {%k7} {z}
+// CHECK: vrcpbf16  4064(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xaf,0x4c,0x71,0x7f]
-          vrcppbf16  4064(%rcx), %ymm22 {%k7} {z}
+          vrcpbf16  4064(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vrcppbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+// CHECK: vrcpbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xbf,0x4c,0x72,0x80]
-          vrcppbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+          vrcpbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
 
-// CHECK: vrcppbf16  268435456(%rbp,%r14,8), %zmm22
+// CHECK: vrcpbf16  268435456(%rbp,%r14,8), %zmm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x48,0x4c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrcppbf16  268435456(%rbp,%r14,8), %zmm22
+          vrcpbf16  268435456(%rbp,%r14,8), %zmm22
 
-// CHECK: vrcppbf16  291(%r8,%rax,4), %zmm22 {%k7}
+// CHECK: vrcpbf16  291(%r8,%rax,4), %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x7c,0x4f,0x4c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrcppbf16  291(%r8,%rax,4), %zmm22 {%k7}
+          vrcpbf16  291(%r8,%rax,4), %zmm22 {%k7}
 
-// CHECK: vrcppbf16  (%rip){1to32}, %zmm22
+// CHECK: vrcpbf16  (%rip){1to32}, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x58,0x4c,0x35,0x00,0x00,0x00,0x00]
-          vrcppbf16  (%rip){1to32}, %zmm22
+          vrcpbf16  (%rip){1to32}, %zmm22
 
-// CHECK: vrcppbf16  -2048(,%rbp,2), %zmm22
+// CHECK: vrcpbf16  -2048(,%rbp,2), %zmm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x48,0x4c,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vrcppbf16  -2048(,%rbp,2), %zmm22
+          vrcpbf16  -2048(,%rbp,2), %zmm22
 
-// CHECK: vrcppbf16  8128(%rcx), %zmm22 {%k7} {z}
+// CHECK: vrcpbf16  8128(%rcx), %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xcf,0x4c,0x71,0x7f]
-          vrcppbf16  8128(%rcx), %zmm22 {%k7} {z}
+          vrcpbf16  8128(%rcx), %zmm22 {%k7} {z}
 
-// CHECK: vrcppbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+// CHECK: vrcpbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xdf,0x4c,0x72,0x80]
-          vrcppbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+          vrcpbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
 
-// CHECK: vreducenepbf16 $123, %zmm23, %zmm22
+// CHECK: vreducebf16 $123, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x56,0xf7,0x7b]
-          vreducenepbf16 $123, %zmm23, %zmm22
+          vreducebf16 $123, %zmm23, %zmm22
 
-// CHECK: vreducenepbf16 $123, %zmm23, %zmm22 {%k7}
+// CHECK: vreducebf16 $123, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x4f,0x56,0xf7,0x7b]
-          vreducenepbf16 $123, %zmm23, %zmm22 {%k7}
+          vreducebf16 $123, %zmm23, %zmm22 {%k7}
 
-// CHECK: vreducenepbf16 $123, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vreducebf16 $123, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa3,0x7f,0xcf,0x56,0xf7,0x7b]
-          vreducenepbf16 $123, %zmm23, %zmm22 {%k7} {z}
+          vreducebf16 $123, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vreducenepbf16 $123, %ymm23, %ymm22
+// CHECK: vreducebf16 $123, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x56,0xf7,0x7b]
-          vreducenepbf16 $123, %ymm23, %ymm22
+          vreducebf16 $123, %ymm23, %ymm22
 
-// CHECK: vreducenepbf16 $123, %ymm23, %ymm22 {%k7}
+// CHECK: vreducebf16 $123, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x2f,0x56,0xf7,0x7b]
-          vreducenepbf16 $123, %ymm23, %ymm22 {%k7}
+          vreducebf16 $123, %ymm23, %ymm22 {%k7}
 
-// CHECK: vreducenepbf16 $123, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vreducebf16 $123, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa3,0x7f,0xaf,0x56,0xf7,0x7b]
-          vreducenepbf16 $123, %ymm23, %ymm22 {%k7} {z}
+          vreducebf16 $123, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vreducenepbf16 $123, %xmm23, %xmm22
+// CHECK: vreducebf16 $123, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x56,0xf7,0x7b]
-          vreducenepbf16 $123, %xmm23, %xmm22
+          vreducebf16 $123, %xmm23, %xmm22
 
-// CHECK: vreducenepbf16 $123, %xmm23, %xmm22 {%k7}
+// CHECK: vreducebf16 $123, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x0f,0x56,0xf7,0x7b]
-          vreducenepbf16 $123, %xmm23, %xmm22 {%k7}
+          vreducebf16 $123, %xmm23, %xmm22 {%k7}
 
-// CHECK: vreducenepbf16 $123, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vreducebf16 $123, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x8f,0x56,0xf7,0x7b]
-          vreducenepbf16 $123, %xmm23, %xmm22 {%k7} {z}
+          vreducebf16 $123, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, 268435456(%rbp,%r14,8), %xmm22
+// CHECK: vreducebf16  $123, 268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x56,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16  $123, 268435456(%rbp,%r14,8), %xmm22
+          vreducebf16  $123, 268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vreducenepbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vreducebf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc3,0x7f,0x0f,0x56,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
+          vreducebf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vreducenepbf16  $123, (%rip){1to8}, %xmm22
+// CHECK: vreducebf16  $123, (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x18,0x56,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vreducenepbf16  $123, (%rip){1to8}, %xmm22
+          vreducebf16  $123, (%rip){1to8}, %xmm22
 
-// CHECK: vreducenepbf16  $123, -512(,%rbp,2), %xmm22
+// CHECK: vreducebf16  $123, -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x08,0x56,0x34,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vreducenepbf16  $123, -512(,%rbp,2), %xmm22
+          vreducebf16  $123, -512(,%rbp,2), %xmm22
 
-// CHECK: vreducenepbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vreducebf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0x8f,0x56,0x71,0x7f,0x7b]
-          vreducenepbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
+          vreducebf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vreducebf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0x9f,0x56,0x72,0x80,0x7b]
-          vreducenepbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vreducebf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, 268435456(%rbp,%r14,8), %ymm22
+// CHECK: vreducebf16  $123, 268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x56,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16  $123, 268435456(%rbp,%r14,8), %ymm22
+          vreducebf16  $123, 268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vreducenepbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vreducebf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc3,0x7f,0x2f,0x56,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
+          vreducebf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vreducenepbf16  $123, (%rip){1to16}, %ymm22
+// CHECK: vreducebf16  $123, (%rip){1to16}, %ymm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x38,0x56,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vreducenepbf16  $123, (%rip){1to16}, %ymm22
+          vreducebf16  $123, (%rip){1to16}, %ymm22
 
-// CHECK: vreducenepbf16  $123, -1024(,%rbp,2), %ymm22
+// CHECK: vreducebf16  $123, -1024(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x28,0x56,0x34,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vreducenepbf16  $123, -1024(,%rbp,2), %ymm22
+          vreducebf16  $123, -1024(,%rbp,2), %ymm22
 
-// CHECK: vreducenepbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
+// CHECK: vreducebf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xaf,0x56,0x71,0x7f,0x7b]
-          vreducenepbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
+          vreducebf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
+// CHECK: vreducebf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xbf,0x56,0x72,0x80,0x7b]
-          vreducenepbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
+          vreducebf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, 268435456(%rbp,%r14,8), %zmm22
+// CHECK: vreducebf16  $123, 268435456(%rbp,%r14,8), %zmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x56,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16  $123, 268435456(%rbp,%r14,8), %zmm22
+          vreducebf16  $123, 268435456(%rbp,%r14,8), %zmm22
 
-// CHECK: vreducenepbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
+// CHECK: vreducebf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc3,0x7f,0x4f,0x56,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
+          vreducebf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
 
-// CHECK: vreducenepbf16  $123, (%rip){1to32}, %zmm22
+// CHECK: vreducebf16  $123, (%rip){1to32}, %zmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x58,0x56,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vreducenepbf16  $123, (%rip){1to32}, %zmm22
+          vreducebf16  $123, (%rip){1to32}, %zmm22
 
-// CHECK: vreducenepbf16  $123, -2048(,%rbp,2), %zmm22
+// CHECK: vreducebf16  $123, -2048(,%rbp,2), %zmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x48,0x56,0x34,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vreducenepbf16  $123, -2048(,%rbp,2), %zmm22
+          vreducebf16  $123, -2048(,%rbp,2), %zmm22
 
-// CHECK: vreducenepbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
+// CHECK: vreducebf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xcf,0x56,0x71,0x7f,0x7b]
-          vreducenepbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
+          vreducebf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
 
-// CHECK: vreducenepbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
+// CHECK: vreducebf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xdf,0x56,0x72,0x80,0x7b]
-          vreducenepbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
+          vreducebf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
 
-// CHECK: vrndscalenepbf16 $123, %zmm23, %zmm22
+// CHECK: vrndscalebf16 $123, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x08,0xf7,0x7b]
-          vrndscalenepbf16 $123, %zmm23, %zmm22
+          vrndscalebf16 $123, %zmm23, %zmm22
 
-// CHECK: vrndscalenepbf16 $123, %zmm23, %zmm22 {%k7}
+// CHECK: vrndscalebf16 $123, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x4f,0x08,0xf7,0x7b]
-          vrndscalenepbf16 $123, %zmm23, %zmm22 {%k7}
+          vrndscalebf16 $123, %zmm23, %zmm22 {%k7}
 
-// CHECK: vrndscalenepbf16 $123, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vrndscalebf16 $123, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa3,0x7f,0xcf,0x08,0xf7,0x7b]
-          vrndscalenepbf16 $123, %zmm23, %zmm22 {%k7} {z}
+          vrndscalebf16 $123, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vrndscalenepbf16 $123, %ymm23, %ymm22
+// CHECK: vrndscalebf16 $123, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x08,0xf7,0x7b]
-          vrndscalenepbf16 $123, %ymm23, %ymm22
+          vrndscalebf16 $123, %ymm23, %ymm22
 
-// CHECK: vrndscalenepbf16 $123, %ymm23, %ymm22 {%k7}
+// CHECK: vrndscalebf16 $123, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x2f,0x08,0xf7,0x7b]
-          vrndscalenepbf16 $123, %ymm23, %ymm22 {%k7}
+          vrndscalebf16 $123, %ymm23, %ymm22 {%k7}
 
-// CHECK: vrndscalenepbf16 $123, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vrndscalebf16 $123, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa3,0x7f,0xaf,0x08,0xf7,0x7b]
-          vrndscalenepbf16 $123, %ymm23, %ymm22 {%k7} {z}
+          vrndscalebf16 $123, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vrndscalenepbf16 $123, %xmm23, %xmm22
+// CHECK: vrndscalebf16 $123, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x08,0xf7,0x7b]
-          vrndscalenepbf16 $123, %xmm23, %xmm22
+          vrndscalebf16 $123, %xmm23, %xmm22
 
-// CHECK: vrndscalenepbf16 $123, %xmm23, %xmm22 {%k7}
+// CHECK: vrndscalebf16 $123, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x0f,0x08,0xf7,0x7b]
-          vrndscalenepbf16 $123, %xmm23, %xmm22 {%k7}
+          vrndscalebf16 $123, %xmm23, %xmm22 {%k7}
 
-// CHECK: vrndscalenepbf16 $123, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vrndscalebf16 $123, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa3,0x7f,0x8f,0x08,0xf7,0x7b]
-          vrndscalenepbf16 $123, %xmm23, %xmm22 {%k7} {z}
+          vrndscalebf16 $123, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, 268435456(%rbp,%r14,8), %xmm22
+// CHECK: vrndscalebf16  $123, 268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x08,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16  $123, 268435456(%rbp,%r14,8), %xmm22
+          vrndscalebf16  $123, 268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vrndscalenepbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vrndscalebf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc3,0x7f,0x0f,0x08,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
+          vrndscalebf16  $123, 291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vrndscalenepbf16  $123, (%rip){1to8}, %xmm22
+// CHECK: vrndscalebf16  $123, (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x18,0x08,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vrndscalenepbf16  $123, (%rip){1to8}, %xmm22
+          vrndscalebf16  $123, (%rip){1to8}, %xmm22
 
-// CHECK: vrndscalenepbf16  $123, -512(,%rbp,2), %xmm22
+// CHECK: vrndscalebf16  $123, -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x08,0x08,0x34,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vrndscalenepbf16  $123, -512(,%rbp,2), %xmm22
+          vrndscalebf16  $123, -512(,%rbp,2), %xmm22
 
-// CHECK: vrndscalenepbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vrndscalebf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0x8f,0x08,0x71,0x7f,0x7b]
-          vrndscalenepbf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
+          vrndscalebf16  $123, 2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vrndscalebf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0x9f,0x08,0x72,0x80,0x7b]
-          vrndscalenepbf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vrndscalebf16  $123, -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, 268435456(%rbp,%r14,8), %ymm22
+// CHECK: vrndscalebf16  $123, 268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x08,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16  $123, 268435456(%rbp,%r14,8), %ymm22
+          vrndscalebf16  $123, 268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vrndscalenepbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vrndscalebf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc3,0x7f,0x2f,0x08,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
+          vrndscalebf16  $123, 291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vrndscalenepbf16  $123, (%rip){1to16}, %ymm22
+// CHECK: vrndscalebf16  $123, (%rip){1to16}, %ymm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x38,0x08,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vrndscalenepbf16  $123, (%rip){1to16}, %ymm22
+          vrndscalebf16  $123, (%rip){1to16}, %ymm22
 
-// CHECK: vrndscalenepbf16  $123, -1024(,%rbp,2), %ymm22
+// CHECK: vrndscalebf16  $123, -1024(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x28,0x08,0x34,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vrndscalenepbf16  $123, -1024(,%rbp,2), %ymm22
+          vrndscalebf16  $123, -1024(,%rbp,2), %ymm22
 
-// CHECK: vrndscalenepbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
+// CHECK: vrndscalebf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xaf,0x08,0x71,0x7f,0x7b]
-          vrndscalenepbf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
+          vrndscalebf16  $123, 4064(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
+// CHECK: vrndscalebf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xbf,0x08,0x72,0x80,0x7b]
-          vrndscalenepbf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
+          vrndscalebf16  $123, -256(%rdx){1to16}, %ymm22 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, 268435456(%rbp,%r14,8), %zmm22
+// CHECK: vrndscalebf16  $123, 268435456(%rbp,%r14,8), %zmm22
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x08,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16  $123, 268435456(%rbp,%r14,8), %zmm22
+          vrndscalebf16  $123, 268435456(%rbp,%r14,8), %zmm22
 
-// CHECK: vrndscalenepbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
+// CHECK: vrndscalebf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc3,0x7f,0x4f,0x08,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
+          vrndscalebf16  $123, 291(%r8,%rax,4), %zmm22 {%k7}
 
-// CHECK: vrndscalenepbf16  $123, (%rip){1to32}, %zmm22
+// CHECK: vrndscalebf16  $123, (%rip){1to32}, %zmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x58,0x08,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vrndscalenepbf16  $123, (%rip){1to32}, %zmm22
+          vrndscalebf16  $123, (%rip){1to32}, %zmm22
 
-// CHECK: vrndscalenepbf16  $123, -2048(,%rbp,2), %zmm22
+// CHECK: vrndscalebf16  $123, -2048(,%rbp,2), %zmm22
 // CHECK: encoding: [0x62,0xe3,0x7f,0x48,0x08,0x34,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vrndscalenepbf16  $123, -2048(,%rbp,2), %zmm22
+          vrndscalebf16  $123, -2048(,%rbp,2), %zmm22
 
-// CHECK: vrndscalenepbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
+// CHECK: vrndscalebf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xcf,0x08,0x71,0x7f,0x7b]
-          vrndscalenepbf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
+          vrndscalebf16  $123, 8128(%rcx), %zmm22 {%k7} {z}
 
-// CHECK: vrndscalenepbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
+// CHECK: vrndscalebf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe3,0x7f,0xdf,0x08,0x72,0x80,0x7b]
-          vrndscalenepbf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
+          vrndscalebf16  $123, -256(%rdx){1to32}, %zmm22 {%k7} {z}
 
-// CHECK: vrsqrtpbf16 %xmm23, %xmm22
+// CHECK: vrsqrtbf16 %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x08,0x4e,0xf7]
-          vrsqrtpbf16 %xmm23, %xmm22
+          vrsqrtbf16 %xmm23, %xmm22
 
-// CHECK: vrsqrtpbf16 %xmm23, %xmm22 {%k7}
+// CHECK: vrsqrtbf16 %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa6,0x7c,0x0f,0x4e,0xf7]
-          vrsqrtpbf16 %xmm23, %xmm22 {%k7}
+          vrsqrtbf16 %xmm23, %xmm22 {%k7}
 
-// CHECK: vrsqrtpbf16 %xmm23, %xmm22 {%k7} {z}
+// CHECK: vrsqrtbf16 %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa6,0x7c,0x8f,0x4e,0xf7]
-          vrsqrtpbf16 %xmm23, %xmm22 {%k7} {z}
+          vrsqrtbf16 %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vrsqrtpbf16 %zmm23, %zmm22
+// CHECK: vrsqrtbf16 %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x48,0x4e,0xf7]
-          vrsqrtpbf16 %zmm23, %zmm22
+          vrsqrtbf16 %zmm23, %zmm22
 
-// CHECK: vrsqrtpbf16 %zmm23, %zmm22 {%k7}
+// CHECK: vrsqrtbf16 %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xa6,0x7c,0x4f,0x4e,0xf7]
-          vrsqrtpbf16 %zmm23, %zmm22 {%k7}
+          vrsqrtbf16 %zmm23, %zmm22 {%k7}
 
-// CHECK: vrsqrtpbf16 %zmm23, %zmm22 {%k7} {z}
+// CHECK: vrsqrtbf16 %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa6,0x7c,0xcf,0x4e,0xf7]
-          vrsqrtpbf16 %zmm23, %zmm22 {%k7} {z}
+          vrsqrtbf16 %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vrsqrtpbf16 %ymm23, %ymm22
+// CHECK: vrsqrtbf16 %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x28,0x4e,0xf7]
-          vrsqrtpbf16 %ymm23, %ymm22
+          vrsqrtbf16 %ymm23, %ymm22
 
-// CHECK: vrsqrtpbf16 %ymm23, %ymm22 {%k7}
+// CHECK: vrsqrtbf16 %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa6,0x7c,0x2f,0x4e,0xf7]
-          vrsqrtpbf16 %ymm23, %ymm22 {%k7}
+          vrsqrtbf16 %ymm23, %ymm22 {%k7}
 
-// CHECK: vrsqrtpbf16 %ymm23, %ymm22 {%k7} {z}
+// CHECK: vrsqrtbf16 %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa6,0x7c,0xaf,0x4e,0xf7]
-          vrsqrtpbf16 %ymm23, %ymm22 {%k7} {z}
+          vrsqrtbf16 %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  268435456(%rbp,%r14,8), %xmm22
+// CHECK: vrsqrtbf16  268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x08,0x4e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16  268435456(%rbp,%r14,8), %xmm22
+          vrsqrtbf16  268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vrsqrtpbf16  291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vrsqrtbf16  291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x7c,0x0f,0x4e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16  291(%r8,%rax,4), %xmm22 {%k7}
+          vrsqrtbf16  291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vrsqrtpbf16  (%rip){1to8}, %xmm22
+// CHECK: vrsqrtbf16  (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x18,0x4e,0x35,0x00,0x00,0x00,0x00]
-          vrsqrtpbf16  (%rip){1to8}, %xmm22
+          vrsqrtbf16  (%rip){1to8}, %xmm22
 
-// CHECK: vrsqrtpbf16  -512(,%rbp,2), %xmm22
+// CHECK: vrsqrtbf16  -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x08,0x4e,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vrsqrtpbf16  -512(,%rbp,2), %xmm22
+          vrsqrtbf16  -512(,%rbp,2), %xmm22
 
-// CHECK: vrsqrtpbf16  2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vrsqrtbf16  2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x8f,0x4e,0x71,0x7f]
-          vrsqrtpbf16  2032(%rcx), %xmm22 {%k7} {z}
+          vrsqrtbf16  2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vrsqrtbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x9f,0x4e,0x72,0x80]
-          vrsqrtpbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vrsqrtbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  268435456(%rbp,%r14,8), %ymm22
+// CHECK: vrsqrtbf16  268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x28,0x4e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16  268435456(%rbp,%r14,8), %ymm22
+          vrsqrtbf16  268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vrsqrtpbf16  291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vrsqrtbf16  291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x7c,0x2f,0x4e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16  291(%r8,%rax,4), %ymm22 {%k7}
+          vrsqrtbf16  291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vrsqrtpbf16  (%rip){1to16}, %ymm22
+// CHECK: vrsqrtbf16  (%rip){1to16}, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x38,0x4e,0x35,0x00,0x00,0x00,0x00]
-          vrsqrtpbf16  (%rip){1to16}, %ymm22
+          vrsqrtbf16  (%rip){1to16}, %ymm22
 
-// CHECK: vrsqrtpbf16  -1024(,%rbp,2), %ymm22
+// CHECK: vrsqrtbf16  -1024(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x28,0x4e,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vrsqrtpbf16  -1024(,%rbp,2), %ymm22
+          vrsqrtbf16  -1024(,%rbp,2), %ymm22
 
-// CHECK: vrsqrtpbf16  4064(%rcx), %ymm22 {%k7} {z}
+// CHECK: vrsqrtbf16  4064(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xaf,0x4e,0x71,0x7f]
-          vrsqrtpbf16  4064(%rcx), %ymm22 {%k7} {z}
+          vrsqrtbf16  4064(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+// CHECK: vrsqrtbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xbf,0x4e,0x72,0x80]
-          vrsqrtpbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+          vrsqrtbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  268435456(%rbp,%r14,8), %zmm22
+// CHECK: vrsqrtbf16  268435456(%rbp,%r14,8), %zmm22
 // CHECK: encoding: [0x62,0xa6,0x7c,0x48,0x4e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16  268435456(%rbp,%r14,8), %zmm22
+          vrsqrtbf16  268435456(%rbp,%r14,8), %zmm22
 
-// CHECK: vrsqrtpbf16  291(%r8,%rax,4), %zmm22 {%k7}
+// CHECK: vrsqrtbf16  291(%r8,%rax,4), %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x7c,0x4f,0x4e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16  291(%r8,%rax,4), %zmm22 {%k7}
+          vrsqrtbf16  291(%r8,%rax,4), %zmm22 {%k7}
 
-// CHECK: vrsqrtpbf16  (%rip){1to32}, %zmm22
+// CHECK: vrsqrtbf16  (%rip){1to32}, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x58,0x4e,0x35,0x00,0x00,0x00,0x00]
-          vrsqrtpbf16  (%rip){1to32}, %zmm22
+          vrsqrtbf16  (%rip){1to32}, %zmm22
 
-// CHECK: vrsqrtpbf16  -2048(,%rbp,2), %zmm22
+// CHECK: vrsqrtbf16  -2048(,%rbp,2), %zmm22
 // CHECK: encoding: [0x62,0xe6,0x7c,0x48,0x4e,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vrsqrtpbf16  -2048(,%rbp,2), %zmm22
+          vrsqrtbf16  -2048(,%rbp,2), %zmm22
 
-// CHECK: vrsqrtpbf16  8128(%rcx), %zmm22 {%k7} {z}
+// CHECK: vrsqrtbf16  8128(%rcx), %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xcf,0x4e,0x71,0x7f]
-          vrsqrtpbf16  8128(%rcx), %zmm22 {%k7} {z}
+          vrsqrtbf16  8128(%rcx), %zmm22 {%k7} {z}
 
-// CHECK: vrsqrtpbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+// CHECK: vrsqrtbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xdf,0x4e,0x72,0x80]
-          vrsqrtpbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+          vrsqrtbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
 
-// CHECK: vscalefpbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vscalefbf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x2c,0xf0]
-          vscalefpbf16 %ymm24, %ymm23, %ymm22
+          vscalefbf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vscalefpbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vscalefbf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x2c,0xf0]
-          vscalefpbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vscalefbf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vscalefpbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vscalefbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x2c,0xf0]
-          vscalefpbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vscalefbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vscalefpbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vscalefbf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x2c,0xf0]
-          vscalefpbf16 %zmm24, %zmm23, %zmm22
+          vscalefbf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vscalefpbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vscalefbf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x2c,0xf0]
-          vscalefpbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vscalefbf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vscalefpbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vscalefbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x2c,0xf0]
-          vscalefpbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vscalefbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vscalefpbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vscalefbf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x2c,0xf0]
-          vscalefpbf16 %xmm24, %xmm23, %xmm22
+          vscalefbf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vscalefpbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vscalefbf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x2c,0xf0]
-          vscalefpbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vscalefbf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vscalefpbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vscalefbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x2c,0xf0]
-          vscalefpbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vscalefbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vscalefpbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vscalefbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x2c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vscalefpbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vscalefbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vscalefpbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vscalefbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x2c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vscalefpbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vscalefbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vscalefpbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vscalefbf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x2c,0x35,0x00,0x00,0x00,0x00]
-          vscalefpbf16  (%rip){1to32}, %zmm23, %zmm22
+          vscalefbf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vscalefpbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vscalefbf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x2c,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vscalefpbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vscalefbf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vscalefpbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vscalefbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x2c,0x71,0x7f]
-          vscalefpbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vscalefbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vscalefpbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vscalefbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x2c,0x72,0x80]
-          vscalefpbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vscalefbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vscalefpbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vscalefbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x2c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vscalefpbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vscalefbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vscalefpbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vscalefbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x2c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vscalefpbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vscalefbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vscalefpbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vscalefbf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x2c,0x35,0x00,0x00,0x00,0x00]
-          vscalefpbf16  (%rip){1to16}, %ymm23, %ymm22
+          vscalefbf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vscalefpbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vscalefbf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x2c,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vscalefpbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vscalefbf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vscalefpbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vscalefbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x2c,0x71,0x7f]
-          vscalefpbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vscalefbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vscalefpbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vscalefbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x2c,0x72,0x80]
-          vscalefpbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vscalefbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vscalefpbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vscalefbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x2c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vscalefpbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vscalefbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vscalefpbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vscalefbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x2c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vscalefpbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vscalefbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vscalefpbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vscalefbf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x2c,0x35,0x00,0x00,0x00,0x00]
-          vscalefpbf16  (%rip){1to8}, %xmm23, %xmm22
+          vscalefbf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vscalefpbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vscalefbf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x2c,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vscalefpbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vscalefbf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vscalefpbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vscalefbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x2c,0x71,0x7f]
-          vscalefpbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vscalefbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vscalefpbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vscalefbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x2c,0x72,0x80]
-          vscalefpbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vscalefbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vsqrtnepbf16 %xmm23, %xmm22
+// CHECK: vsqrtbf16 %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x51,0xf7]
-          vsqrtnepbf16 %xmm23, %xmm22
+          vsqrtbf16 %xmm23, %xmm22
 
-// CHECK: vsqrtnepbf16 %xmm23, %xmm22 {%k7}
+// CHECK: vsqrtbf16 %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7d,0x0f,0x51,0xf7]
-          vsqrtnepbf16 %xmm23, %xmm22 {%k7}
+          vsqrtbf16 %xmm23, %xmm22 {%k7}
 
-// CHECK: vsqrtnepbf16 %xmm23, %xmm22 {%k7} {z}
+// CHECK: vsqrtbf16 %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7d,0x8f,0x51,0xf7]
-          vsqrtnepbf16 %xmm23, %xmm22 {%k7} {z}
+          vsqrtbf16 %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vsqrtnepbf16 %zmm23, %zmm22
+// CHECK: vsqrtbf16 %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x48,0x51,0xf7]
-          vsqrtnepbf16 %zmm23, %zmm22
+          vsqrtbf16 %zmm23, %zmm22
 
-// CHECK: vsqrtnepbf16 %zmm23, %zmm22 {%k7}
+// CHECK: vsqrtbf16 %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7d,0x4f,0x51,0xf7]
-          vsqrtnepbf16 %zmm23, %zmm22 {%k7}
+          vsqrtbf16 %zmm23, %zmm22 {%k7}
 
-// CHECK: vsqrtnepbf16 %zmm23, %zmm22 {%k7} {z}
+// CHECK: vsqrtbf16 %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7d,0xcf,0x51,0xf7]
-          vsqrtnepbf16 %zmm23, %zmm22 {%k7} {z}
+          vsqrtbf16 %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vsqrtnepbf16 %ymm23, %ymm22
+// CHECK: vsqrtbf16 %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x28,0x51,0xf7]
-          vsqrtnepbf16 %ymm23, %ymm22
+          vsqrtbf16 %ymm23, %ymm22
 
-// CHECK: vsqrtnepbf16 %ymm23, %ymm22 {%k7}
+// CHECK: vsqrtbf16 %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7d,0x2f,0x51,0xf7]
-          vsqrtnepbf16 %ymm23, %ymm22 {%k7}
+          vsqrtbf16 %ymm23, %ymm22 {%k7}
 
-// CHECK: vsqrtnepbf16 %ymm23, %ymm22 {%k7} {z}
+// CHECK: vsqrtbf16 %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7d,0xaf,0x51,0xf7]
-          vsqrtnepbf16 %ymm23, %ymm22 {%k7} {z}
+          vsqrtbf16 %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  268435456(%rbp,%r14,8), %xmm22
+// CHECK: vsqrtbf16  268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x51,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16  268435456(%rbp,%r14,8), %xmm22
+          vsqrtbf16  268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vsqrtnepbf16  291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vsqrtbf16  291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7d,0x0f,0x51,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16  291(%r8,%rax,4), %xmm22 {%k7}
+          vsqrtbf16  291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vsqrtnepbf16  (%rip){1to8}, %xmm22
+// CHECK: vsqrtbf16  (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x18,0x51,0x35,0x00,0x00,0x00,0x00]
-          vsqrtnepbf16  (%rip){1to8}, %xmm22
+          vsqrtbf16  (%rip){1to8}, %xmm22
 
-// CHECK: vsqrtnepbf16  -512(,%rbp,2), %xmm22
+// CHECK: vsqrtbf16  -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x51,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vsqrtnepbf16  -512(,%rbp,2), %xmm22
+          vsqrtbf16  -512(,%rbp,2), %xmm22
 
-// CHECK: vsqrtnepbf16  2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vsqrtbf16  2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x8f,0x51,0x71,0x7f]
-          vsqrtnepbf16  2032(%rcx), %xmm22 {%k7} {z}
+          vsqrtbf16  2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vsqrtbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x9f,0x51,0x72,0x80]
-          vsqrtnepbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vsqrtbf16  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  268435456(%rbp,%r14,8), %ymm22
+// CHECK: vsqrtbf16  268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x28,0x51,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16  268435456(%rbp,%r14,8), %ymm22
+          vsqrtbf16  268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vsqrtnepbf16  291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vsqrtbf16  291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7d,0x2f,0x51,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16  291(%r8,%rax,4), %ymm22 {%k7}
+          vsqrtbf16  291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vsqrtnepbf16  (%rip){1to16}, %ymm22
+// CHECK: vsqrtbf16  (%rip){1to16}, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x38,0x51,0x35,0x00,0x00,0x00,0x00]
-          vsqrtnepbf16  (%rip){1to16}, %ymm22
+          vsqrtbf16  (%rip){1to16}, %ymm22
 
-// CHECK: vsqrtnepbf16  -1024(,%rbp,2), %ymm22
+// CHECK: vsqrtbf16  -1024(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x28,0x51,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vsqrtnepbf16  -1024(,%rbp,2), %ymm22
+          vsqrtbf16  -1024(,%rbp,2), %ymm22
 
-// CHECK: vsqrtnepbf16  4064(%rcx), %ymm22 {%k7} {z}
+// CHECK: vsqrtbf16  4064(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xaf,0x51,0x71,0x7f]
-          vsqrtnepbf16  4064(%rcx), %ymm22 {%k7} {z}
+          vsqrtbf16  4064(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+// CHECK: vsqrtbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xbf,0x51,0x72,0x80]
-          vsqrtnepbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
+          vsqrtbf16  -256(%rdx){1to16}, %ymm22 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  268435456(%rbp,%r14,8), %zmm22
+// CHECK: vsqrtbf16  268435456(%rbp,%r14,8), %zmm22
 // CHECK: encoding: [0x62,0xa5,0x7d,0x48,0x51,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16  268435456(%rbp,%r14,8), %zmm22
+          vsqrtbf16  268435456(%rbp,%r14,8), %zmm22
 
-// CHECK: vsqrtnepbf16  291(%r8,%rax,4), %zmm22 {%k7}
+// CHECK: vsqrtbf16  291(%r8,%rax,4), %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7d,0x4f,0x51,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16  291(%r8,%rax,4), %zmm22 {%k7}
+          vsqrtbf16  291(%r8,%rax,4), %zmm22 {%k7}
 
-// CHECK: vsqrtnepbf16  (%rip){1to32}, %zmm22
+// CHECK: vsqrtbf16  (%rip){1to32}, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x58,0x51,0x35,0x00,0x00,0x00,0x00]
-          vsqrtnepbf16  (%rip){1to32}, %zmm22
+          vsqrtbf16  (%rip){1to32}, %zmm22
 
-// CHECK: vsqrtnepbf16  -2048(,%rbp,2), %zmm22
+// CHECK: vsqrtbf16  -2048(,%rbp,2), %zmm22
 // CHECK: encoding: [0x62,0xe5,0x7d,0x48,0x51,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vsqrtnepbf16  -2048(,%rbp,2), %zmm22
+          vsqrtbf16  -2048(,%rbp,2), %zmm22
 
-// CHECK: vsqrtnepbf16  8128(%rcx), %zmm22 {%k7} {z}
+// CHECK: vsqrtbf16  8128(%rcx), %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xcf,0x51,0x71,0x7f]
-          vsqrtnepbf16  8128(%rcx), %zmm22 {%k7} {z}
+          vsqrtbf16  8128(%rcx), %zmm22 {%k7} {z}
 
-// CHECK: vsqrtnepbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+// CHECK: vsqrtbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xdf,0x51,0x72,0x80]
-          vsqrtnepbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
+          vsqrtbf16  -256(%rdx){1to32}, %zmm22 {%k7} {z}
 
-// CHECK: vsubnepbf16 %ymm24, %ymm23, %ymm22
+// CHECK: vsubbf16 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x5c,0xf0]
-          vsubnepbf16 %ymm24, %ymm23, %ymm22
+          vsubbf16 %ymm24, %ymm23, %ymm22
 
-// CHECK: vsubnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vsubbf16 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x5c,0xf0]
-          vsubnepbf16 %ymm24, %ymm23, %ymm22 {%k7}
+          vsubbf16 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vsubnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vsubbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x5c,0xf0]
-          vsubnepbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vsubbf16 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vsubnepbf16 %zmm24, %zmm23, %zmm22
+// CHECK: vsubbf16 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x5c,0xf0]
-          vsubnepbf16 %zmm24, %zmm23, %zmm22
+          vsubbf16 %zmm24, %zmm23, %zmm22
 
-// CHECK: vsubnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vsubbf16 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x5c,0xf0]
-          vsubnepbf16 %zmm24, %zmm23, %zmm22 {%k7}
+          vsubbf16 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vsubnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vsubbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x5c,0xf0]
-          vsubnepbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vsubbf16 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vsubnepbf16 %xmm24, %xmm23, %xmm22
+// CHECK: vsubbf16 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x5c,0xf0]
-          vsubnepbf16 %xmm24, %xmm23, %xmm22
+          vsubbf16 %xmm24, %xmm23, %xmm22
 
-// CHECK: vsubnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vsubbf16 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x5c,0xf0]
-          vsubnepbf16 %xmm24, %xmm23, %xmm22 {%k7}
+          vsubbf16 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vsubnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vsubbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x5c,0xf0]
-          vsubnepbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vsubbf16 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vsubnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vsubbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x5c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsubnepbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vsubbf16  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vsubnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vsubbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x5c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsubnepbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vsubbf16  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vsubnepbf16  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vsubbf16  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x5c,0x35,0x00,0x00,0x00,0x00]
-          vsubnepbf16  (%rip){1to32}, %zmm23, %zmm22
+          vsubbf16  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vsubnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vsubbf16  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x5c,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vsubnepbf16  -2048(,%rbp,2), %zmm23, %zmm22
+          vsubbf16  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vsubnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vsubbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x5c,0x71,0x7f]
-          vsubnepbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vsubbf16  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vsubnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vsubbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x5c,0x72,0x80]
-          vsubnepbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vsubbf16  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vsubnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vsubbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x5c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsubnepbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vsubbf16  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vsubnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vsubbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x5c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsubnepbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vsubbf16  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vsubnepbf16  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vsubbf16  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x5c,0x35,0x00,0x00,0x00,0x00]
-          vsubnepbf16  (%rip){1to16}, %ymm23, %ymm22
+          vsubbf16  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vsubnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vsubbf16  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x5c,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vsubnepbf16  -1024(,%rbp,2), %ymm23, %ymm22
+          vsubbf16  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vsubnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vsubbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x5c,0x71,0x7f]
-          vsubnepbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vsubbf16  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vsubnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vsubbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x5c,0x72,0x80]
-          vsubnepbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vsubbf16  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vsubnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vsubbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x5c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsubnepbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vsubbf16  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vsubnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vsubbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x5c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsubnepbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vsubbf16  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vsubnepbf16  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vsubbf16  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x5c,0x35,0x00,0x00,0x00,0x00]
-          vsubnepbf16  (%rip){1to8}, %xmm23, %xmm22
+          vsubbf16  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vsubnepbf16  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vsubbf16  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x5c,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vsubnepbf16  -512(,%rbp,2), %xmm23, %xmm22
+          vsubbf16  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vsubnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vsubbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x5c,0x71,0x7f]
-          vsubnepbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vsubbf16  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vsubnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vsubbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x5c,0x72,0x80]
-          vsubnepbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vsubbf16  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
diff --git a/llvm/test/MC/X86/avx10.2-bf16-64-intel.s b/llvm/test/MC/X86/avx10.2-bf16-64-intel.s
index 5f3dc45ba7745..d1727c586e240 100644
--- a/llvm/test/MC/X86/avx10.2-bf16-64-intel.s
+++ b/llvm/test/MC/X86/avx10.2-bf16-64-intel.s
@@ -1,3014 +1,3014 @@
 // RUN: llvm-mc -triple x86_64 -x86-asm-syntax=intel -output-asm-variant=1 --show-encoding %s | FileCheck %s
 
-// CHECK: vaddnepbf16 ymm22, ymm23, ymm24
+// CHECK: vaddbf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x58,0xf0]
-          vaddnepbf16 ymm22, ymm23, ymm24
+          vaddbf16 ymm22, ymm23, ymm24
 
-// CHECK: vaddnepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vaddbf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x58,0xf0]
-          vaddnepbf16 ymm22 {k7}, ymm23, ymm24
+          vaddbf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vaddnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vaddbf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x58,0xf0]
-          vaddnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vaddbf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vaddnepbf16 zmm22, zmm23, zmm24
+// CHECK: vaddbf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x58,0xf0]
-          vaddnepbf16 zmm22, zmm23, zmm24
+          vaddbf16 zmm22, zmm23, zmm24
 
-// CHECK: vaddnepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vaddbf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x58,0xf0]
-          vaddnepbf16 zmm22 {k7}, zmm23, zmm24
+          vaddbf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vaddnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vaddbf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x58,0xf0]
-          vaddnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vaddbf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vaddnepbf16 xmm22, xmm23, xmm24
+// CHECK: vaddbf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x58,0xf0]
-          vaddnepbf16 xmm22, xmm23, xmm24
+          vaddbf16 xmm22, xmm23, xmm24
 
-// CHECK: vaddnepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vaddbf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x58,0xf0]
-          vaddnepbf16 xmm22 {k7}, xmm23, xmm24
+          vaddbf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vaddnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vaddbf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x58,0xf0]
-          vaddnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vaddbf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vaddnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vaddbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x58,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vaddnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vaddbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vaddnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vaddbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x58,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vaddnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vaddbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vaddnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vaddbf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x58,0x35,0x00,0x00,0x00,0x00]
-          vaddnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vaddbf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vaddnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vaddbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x58,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vaddnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vaddbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vaddnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vaddbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x58,0x71,0x7f]
-          vaddnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vaddbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vaddnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vaddbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x58,0x72,0x80]
-          vaddnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vaddbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vaddnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vaddbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x58,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vaddnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vaddbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vaddnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vaddbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x58,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vaddnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vaddbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vaddnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vaddbf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x58,0x35,0x00,0x00,0x00,0x00]
-          vaddnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vaddbf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vaddnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vaddbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x58,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vaddnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vaddbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vaddnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vaddbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x58,0x71,0x7f]
-          vaddnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vaddbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vaddnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vaddbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x58,0x72,0x80]
-          vaddnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vaddbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vaddnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vaddbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x58,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vaddnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vaddbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vaddnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vaddbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x58,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vaddnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vaddbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vaddnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vaddbf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x58,0x35,0x00,0x00,0x00,0x00]
-          vaddnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vaddbf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vaddnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vaddbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x58,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vaddnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vaddbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vaddnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vaddbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x58,0x71,0x7f]
-          vaddnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vaddbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vaddnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vaddbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x58,0x72,0x80]
-          vaddnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vaddbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vcmppbf16 k5, ymm23, ymm24, 123
+// CHECK: vcmpbf16 k5, ymm23, ymm24, 123
 // CHECK: encoding: [0x62,0x93,0x47,0x20,0xc2,0xe8,0x7b]
-          vcmppbf16 k5, ymm23, ymm24, 123
+          vcmpbf16 k5, ymm23, ymm24, 123
 
-// CHECK: vcmppbf16 k5 {k7}, ymm23, ymm24, 123
+// CHECK: vcmpbf16 k5 {k7}, ymm23, ymm24, 123
 // CHECK: encoding: [0x62,0x93,0x47,0x27,0xc2,0xe8,0x7b]
-          vcmppbf16 k5 {k7}, ymm23, ymm24, 123
+          vcmpbf16 k5 {k7}, ymm23, ymm24, 123
 
-// CHECK: vcmppbf16 k5, xmm23, xmm24, 123
+// CHECK: vcmpbf16 k5, xmm23, xmm24, 123
 // CHECK: encoding: [0x62,0x93,0x47,0x00,0xc2,0xe8,0x7b]
-          vcmppbf16 k5, xmm23, xmm24, 123
+          vcmpbf16 k5, xmm23, xmm24, 123
 
-// CHECK: vcmppbf16 k5 {k7}, xmm23, xmm24, 123
+// CHECK: vcmpbf16 k5 {k7}, xmm23, xmm24, 123
 // CHECK: encoding: [0x62,0x93,0x47,0x07,0xc2,0xe8,0x7b]
-          vcmppbf16 k5 {k7}, xmm23, xmm24, 123
+          vcmpbf16 k5 {k7}, xmm23, xmm24, 123
 
-// CHECK: vcmppbf16 k5, zmm23, zmm24, 123
+// CHECK: vcmpbf16 k5, zmm23, zmm24, 123
 // CHECK: encoding: [0x62,0x93,0x47,0x40,0xc2,0xe8,0x7b]
-          vcmppbf16 k5, zmm23, zmm24, 123
+          vcmpbf16 k5, zmm23, zmm24, 123
 
-// CHECK: vcmppbf16 k5 {k7}, zmm23, zmm24, 123
+// CHECK: vcmpbf16 k5 {k7}, zmm23, zmm24, 123
 // CHECK: encoding: [0x62,0x93,0x47,0x47,0xc2,0xe8,0x7b]
-          vcmppbf16 k5 {k7}, zmm23, zmm24, 123
+          vcmpbf16 k5 {k7}, zmm23, zmm24, 123
 
-// CHECK: vcmppbf16 k5, zmm23, zmmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vcmpbf16 k5, zmm23, zmmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xb3,0x47,0x40,0xc2,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16 k5, zmm23, zmmword ptr [rbp + 8*r14 + 268435456], 123
+          vcmpbf16 k5, zmm23, zmmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vcmppbf16 k5 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vcmpbf16 k5 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xd3,0x47,0x47,0xc2,0xac,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16 k5 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291], 123
+          vcmpbf16 k5 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vcmppbf16 k5, zmm23, word ptr [rip]{1to32}, 123
+// CHECK: vcmpbf16 k5, zmm23, word ptr [rip]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x50,0xc2,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vcmppbf16 k5, zmm23, word ptr [rip]{1to32}, 123
+          vcmpbf16 k5, zmm23, word ptr [rip]{1to32}, 123
 
-// CHECK: vcmppbf16 k5, zmm23, zmmword ptr [2*rbp - 2048], 123
+// CHECK: vcmpbf16 k5, zmm23, zmmword ptr [2*rbp - 2048], 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x40,0xc2,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vcmppbf16 k5, zmm23, zmmword ptr [2*rbp - 2048], 123
+          vcmpbf16 k5, zmm23, zmmword ptr [2*rbp - 2048], 123
 
-// CHECK: vcmppbf16 k5 {k7}, zmm23, zmmword ptr [rcx + 8128], 123
+// CHECK: vcmpbf16 k5 {k7}, zmm23, zmmword ptr [rcx + 8128], 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x47,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16 k5 {k7}, zmm23, zmmword ptr [rcx + 8128], 123
+          vcmpbf16 k5 {k7}, zmm23, zmmword ptr [rcx + 8128], 123
 
-// CHECK: vcmppbf16 k5 {k7}, zmm23, word ptr [rdx - 256]{1to32}, 123
+// CHECK: vcmpbf16 k5 {k7}, zmm23, word ptr [rdx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x57,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16 k5 {k7}, zmm23, word ptr [rdx - 256]{1to32}, 123
+          vcmpbf16 k5 {k7}, zmm23, word ptr [rdx - 256]{1to32}, 123
 
-// CHECK: vcmppbf16 k5, xmm23, xmmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vcmpbf16 k5, xmm23, xmmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xb3,0x47,0x00,0xc2,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16 k5, xmm23, xmmword ptr [rbp + 8*r14 + 268435456], 123
+          vcmpbf16 k5, xmm23, xmmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vcmppbf16 k5 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vcmpbf16 k5 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xd3,0x47,0x07,0xc2,0xac,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16 k5 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291], 123
+          vcmpbf16 k5 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vcmppbf16 k5, xmm23, word ptr [rip]{1to8}, 123
+// CHECK: vcmpbf16 k5, xmm23, word ptr [rip]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x10,0xc2,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vcmppbf16 k5, xmm23, word ptr [rip]{1to8}, 123
+          vcmpbf16 k5, xmm23, word ptr [rip]{1to8}, 123
 
-// CHECK: vcmppbf16 k5, xmm23, xmmword ptr [2*rbp - 512], 123
+// CHECK: vcmpbf16 k5, xmm23, xmmword ptr [2*rbp - 512], 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x00,0xc2,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vcmppbf16 k5, xmm23, xmmword ptr [2*rbp - 512], 123
+          vcmpbf16 k5, xmm23, xmmword ptr [2*rbp - 512], 123
 
-// CHECK: vcmppbf16 k5 {k7}, xmm23, xmmword ptr [rcx + 2032], 123
+// CHECK: vcmpbf16 k5 {k7}, xmm23, xmmword ptr [rcx + 2032], 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x07,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16 k5 {k7}, xmm23, xmmword ptr [rcx + 2032], 123
+          vcmpbf16 k5 {k7}, xmm23, xmmword ptr [rcx + 2032], 123
 
-// CHECK: vcmppbf16 k5 {k7}, xmm23, word ptr [rdx - 256]{1to8}, 123
+// CHECK: vcmpbf16 k5 {k7}, xmm23, word ptr [rdx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x17,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16 k5 {k7}, xmm23, word ptr [rdx - 256]{1to8}, 123
+          vcmpbf16 k5 {k7}, xmm23, word ptr [rdx - 256]{1to8}, 123
 
-// CHECK: vcmppbf16 k5, ymm23, ymmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vcmpbf16 k5, ymm23, ymmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xb3,0x47,0x20,0xc2,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vcmppbf16 k5, ymm23, ymmword ptr [rbp + 8*r14 + 268435456], 123
+          vcmpbf16 k5, ymm23, ymmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vcmppbf16 k5 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vcmpbf16 k5 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xd3,0x47,0x27,0xc2,0xac,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vcmppbf16 k5 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291], 123
+          vcmpbf16 k5 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vcmppbf16 k5, ymm23, word ptr [rip]{1to16}, 123
+// CHECK: vcmpbf16 k5, ymm23, word ptr [rip]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x30,0xc2,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vcmppbf16 k5, ymm23, word ptr [rip]{1to16}, 123
+          vcmpbf16 k5, ymm23, word ptr [rip]{1to16}, 123
 
-// CHECK: vcmppbf16 k5, ymm23, ymmword ptr [2*rbp - 1024], 123
+// CHECK: vcmpbf16 k5, ymm23, ymmword ptr [2*rbp - 1024], 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x20,0xc2,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vcmppbf16 k5, ymm23, ymmword ptr [2*rbp - 1024], 123
+          vcmpbf16 k5, ymm23, ymmword ptr [2*rbp - 1024], 123
 
-// CHECK: vcmppbf16 k5 {k7}, ymm23, ymmword ptr [rcx + 4064], 123
+// CHECK: vcmpbf16 k5 {k7}, ymm23, ymmword ptr [rcx + 4064], 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x27,0xc2,0x69,0x7f,0x7b]
-          vcmppbf16 k5 {k7}, ymm23, ymmword ptr [rcx + 4064], 123
+          vcmpbf16 k5 {k7}, ymm23, ymmword ptr [rcx + 4064], 123
 
-// CHECK: vcmppbf16 k5 {k7}, ymm23, word ptr [rdx - 256]{1to16}, 123
+// CHECK: vcmpbf16 k5 {k7}, ymm23, word ptr [rdx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x47,0x37,0xc2,0x6a,0x80,0x7b]
-          vcmppbf16 k5 {k7}, ymm23, word ptr [rdx - 256]{1to16}, 123
+          vcmpbf16 k5 {k7}, ymm23, word ptr [rdx - 256]{1to16}, 123
 
-// CHECK: vcomsbf16 xmm22, xmm23
+// CHECK: vcomisbf16 xmm22, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x2f,0xf7]
-          vcomsbf16 xmm22, xmm23
+          vcomisbf16 xmm22, xmm23
 
-// CHECK: vcomsbf16 xmm22, word ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcomisbf16 xmm22, word ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x2f,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcomsbf16 xmm22, word ptr [rbp + 8*r14 + 268435456]
+          vcomisbf16 xmm22, word ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcomsbf16 xmm22, word ptr [r8 + 4*rax + 291]
+// CHECK: vcomisbf16 xmm22, word ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7d,0x08,0x2f,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcomsbf16 xmm22, word ptr [r8 + 4*rax + 291]
+          vcomisbf16 xmm22, word ptr [r8 + 4*rax + 291]
 
-// CHECK: vcomsbf16 xmm22, word ptr [rip]
+// CHECK: vcomisbf16 xmm22, word ptr [rip]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x2f,0x35,0x00,0x00,0x00,0x00]
-          vcomsbf16 xmm22, word ptr [rip]
+          vcomisbf16 xmm22, word ptr [rip]
 
-// CHECK: vcomsbf16 xmm22, word ptr [2*rbp - 64]
+// CHECK: vcomisbf16 xmm22, word ptr [2*rbp - 64]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x2f,0x34,0x6d,0xc0,0xff,0xff,0xff]
-          vcomsbf16 xmm22, word ptr [2*rbp - 64]
+          vcomisbf16 xmm22, word ptr [2*rbp - 64]
 
-// CHECK: vcomsbf16 xmm22, word ptr [rcx + 254]
+// CHECK: vcomisbf16 xmm22, word ptr [rcx + 254]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x2f,0x71,0x7f]
-          vcomsbf16 xmm22, word ptr [rcx + 254]
+          vcomisbf16 xmm22, word ptr [rcx + 254]
 
-// CHECK: vcomsbf16 xmm22, word ptr [rdx - 256]
+// CHECK: vcomisbf16 xmm22, word ptr [rdx - 256]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x2f,0x72,0x80]
-          vcomsbf16 xmm22, word ptr [rdx - 256]
+          vcomisbf16 xmm22, word ptr [rdx - 256]
 
-// CHECK: vdivnepbf16 ymm22, ymm23, ymm24
+// CHECK: vdivbf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x5e,0xf0]
-          vdivnepbf16 ymm22, ymm23, ymm24
+          vdivbf16 ymm22, ymm23, ymm24
 
-// CHECK: vdivnepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vdivbf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x5e,0xf0]
-          vdivnepbf16 ymm22 {k7}, ymm23, ymm24
+          vdivbf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vdivnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vdivbf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x5e,0xf0]
-          vdivnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vdivbf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vdivnepbf16 zmm22, zmm23, zmm24
+// CHECK: vdivbf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x5e,0xf0]
-          vdivnepbf16 zmm22, zmm23, zmm24
+          vdivbf16 zmm22, zmm23, zmm24
 
-// CHECK: vdivnepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vdivbf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x5e,0xf0]
-          vdivnepbf16 zmm22 {k7}, zmm23, zmm24
+          vdivbf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vdivnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vdivbf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x5e,0xf0]
-          vdivnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vdivbf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vdivnepbf16 xmm22, xmm23, xmm24
+// CHECK: vdivbf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x5e,0xf0]
-          vdivnepbf16 xmm22, xmm23, xmm24
+          vdivbf16 xmm22, xmm23, xmm24
 
-// CHECK: vdivnepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vdivbf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x5e,0xf0]
-          vdivnepbf16 xmm22 {k7}, xmm23, xmm24
+          vdivbf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vdivnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vdivbf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x5e,0xf0]
-          vdivnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vdivbf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vdivnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vdivbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x5e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vdivnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vdivbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vdivnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vdivbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x5e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vdivnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vdivbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vdivnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vdivbf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x5e,0x35,0x00,0x00,0x00,0x00]
-          vdivnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vdivbf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vdivnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vdivbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x5e,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vdivnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vdivbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vdivnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vdivbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x5e,0x71,0x7f]
-          vdivnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vdivbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vdivnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vdivbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x5e,0x72,0x80]
-          vdivnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vdivbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vdivnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vdivbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x5e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vdivnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vdivbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vdivnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vdivbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x5e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vdivnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vdivbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vdivnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vdivbf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x5e,0x35,0x00,0x00,0x00,0x00]
-          vdivnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vdivbf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vdivnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vdivbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x5e,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vdivnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vdivbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vdivnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vdivbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x5e,0x71,0x7f]
-          vdivnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vdivbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vdivnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vdivbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x5e,0x72,0x80]
-          vdivnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vdivbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vdivnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vdivbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x5e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vdivnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vdivbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vdivnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vdivbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x5e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vdivnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vdivbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vdivnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vdivbf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x5e,0x35,0x00,0x00,0x00,0x00]
-          vdivnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vdivbf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vdivnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vdivbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x5e,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vdivnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vdivbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vdivnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vdivbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x5e,0x71,0x7f]
-          vdivnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vdivbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vdivnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vdivbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x5e,0x72,0x80]
-          vdivnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vdivbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfmadd132nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfmadd132bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x98,0xf0]
-          vfmadd132nepbf16 ymm22, ymm23, ymm24
+          vfmadd132bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfmadd132nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfmadd132bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x98,0xf0]
-          vfmadd132nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfmadd132bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfmadd132bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x98,0xf0]
-          vfmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfmadd132bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfmadd132nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfmadd132bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x98,0xf0]
-          vfmadd132nepbf16 zmm22, zmm23, zmm24
+          vfmadd132bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfmadd132nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfmadd132bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x98,0xf0]
-          vfmadd132nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfmadd132bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfmadd132bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x98,0xf0]
-          vfmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfmadd132bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfmadd132nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfmadd132bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x98,0xf0]
-          vfmadd132nepbf16 xmm22, xmm23, xmm24
+          vfmadd132bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfmadd132nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfmadd132bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x98,0xf0]
-          vfmadd132nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfmadd132bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfmadd132bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x98,0xf0]
-          vfmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfmadd132bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfmadd132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmadd132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x98,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfmadd132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmadd132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmadd132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x98,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfmadd132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmadd132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfmadd132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x98,0x35,0x00,0x00,0x00,0x00]
-          vfmadd132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfmadd132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfmadd132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfmadd132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x98,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfmadd132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfmadd132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x98,0x71,0x7f]
-          vfmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfmadd132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfmadd132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfmadd132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x98,0x72,0x80]
-          vfmadd132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfmadd132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfmadd132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmadd132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x98,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfmadd132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmadd132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmadd132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x98,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfmadd132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmadd132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfmadd132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x98,0x35,0x00,0x00,0x00,0x00]
-          vfmadd132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfmadd132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfmadd132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfmadd132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x98,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfmadd132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfmadd132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x98,0x71,0x7f]
-          vfmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfmadd132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfmadd132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfmadd132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x98,0x72,0x80]
-          vfmadd132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfmadd132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfmadd132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmadd132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x98,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfmadd132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmadd132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmadd132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x98,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfmadd132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmadd132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfmadd132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x98,0x35,0x00,0x00,0x00,0x00]
-          vfmadd132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfmadd132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfmadd132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfmadd132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x98,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfmadd132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfmadd132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x98,0x71,0x7f]
-          vfmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfmadd132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfmadd132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfmadd132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x98,0x72,0x80]
-          vfmadd132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfmadd132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfmadd213nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfmadd213bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xa8,0xf0]
-          vfmadd213nepbf16 ymm22, ymm23, ymm24
+          vfmadd213bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfmadd213nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfmadd213bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xa8,0xf0]
-          vfmadd213nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfmadd213bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfmadd213bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xa8,0xf0]
-          vfmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfmadd213bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfmadd213nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfmadd213bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xa8,0xf0]
-          vfmadd213nepbf16 zmm22, zmm23, zmm24
+          vfmadd213bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfmadd213nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfmadd213bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xa8,0xf0]
-          vfmadd213nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfmadd213bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfmadd213bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xa8,0xf0]
-          vfmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfmadd213bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfmadd213nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfmadd213bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xa8,0xf0]
-          vfmadd213nepbf16 xmm22, xmm23, xmm24
+          vfmadd213bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfmadd213nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfmadd213bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xa8,0xf0]
-          vfmadd213nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfmadd213bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfmadd213bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xa8,0xf0]
-          vfmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfmadd213bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfmadd213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmadd213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xa8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfmadd213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmadd213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmadd213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xa8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfmadd213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmadd213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfmadd213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xa8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfmadd213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfmadd213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfmadd213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xa8,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfmadd213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfmadd213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xa8,0x71,0x7f]
-          vfmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfmadd213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfmadd213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfmadd213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xa8,0x72,0x80]
-          vfmadd213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfmadd213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfmadd213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmadd213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xa8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfmadd213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmadd213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmadd213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xa8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfmadd213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmadd213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfmadd213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xa8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfmadd213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfmadd213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfmadd213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xa8,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfmadd213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfmadd213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xa8,0x71,0x7f]
-          vfmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfmadd213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfmadd213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfmadd213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xa8,0x72,0x80]
-          vfmadd213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfmadd213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfmadd213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmadd213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xa8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfmadd213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmadd213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmadd213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xa8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfmadd213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmadd213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfmadd213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xa8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfmadd213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfmadd213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfmadd213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xa8,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfmadd213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfmadd213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xa8,0x71,0x7f]
-          vfmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfmadd213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfmadd213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfmadd213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xa8,0x72,0x80]
-          vfmadd213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfmadd213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfmadd231nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfmadd231bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xb8,0xf0]
-          vfmadd231nepbf16 ymm22, ymm23, ymm24
+          vfmadd231bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfmadd231nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfmadd231bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xb8,0xf0]
-          vfmadd231nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfmadd231bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfmadd231bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xb8,0xf0]
-          vfmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfmadd231bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfmadd231nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfmadd231bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xb8,0xf0]
-          vfmadd231nepbf16 zmm22, zmm23, zmm24
+          vfmadd231bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfmadd231nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfmadd231bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xb8,0xf0]
-          vfmadd231nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfmadd231bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfmadd231bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xb8,0xf0]
-          vfmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfmadd231bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfmadd231nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfmadd231bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xb8,0xf0]
-          vfmadd231nepbf16 xmm22, xmm23, xmm24
+          vfmadd231bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfmadd231nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfmadd231bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xb8,0xf0]
-          vfmadd231nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfmadd231bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfmadd231bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xb8,0xf0]
-          vfmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfmadd231bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfmadd231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmadd231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xb8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfmadd231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmadd231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmadd231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xb8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfmadd231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmadd231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfmadd231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xb8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfmadd231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfmadd231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfmadd231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xb8,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmadd231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfmadd231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfmadd231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xb8,0x71,0x7f]
-          vfmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfmadd231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfmadd231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfmadd231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xb8,0x72,0x80]
-          vfmadd231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfmadd231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfmadd231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmadd231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xb8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfmadd231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmadd231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmadd231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xb8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfmadd231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmadd231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfmadd231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xb8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfmadd231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfmadd231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfmadd231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xb8,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmadd231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfmadd231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfmadd231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xb8,0x71,0x7f]
-          vfmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfmadd231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfmadd231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfmadd231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xb8,0x72,0x80]
-          vfmadd231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfmadd231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfmadd231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmadd231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xb8,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmadd231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfmadd231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmadd231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmadd231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xb8,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmadd231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfmadd231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmadd231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfmadd231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xb8,0x35,0x00,0x00,0x00,0x00]
-          vfmadd231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfmadd231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfmadd231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfmadd231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xb8,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmadd231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfmadd231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfmadd231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xb8,0x71,0x7f]
-          vfmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfmadd231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfmadd231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfmadd231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xb8,0x72,0x80]
-          vfmadd231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfmadd231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfmsub132nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfmsub132bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x9a,0xf0]
-          vfmsub132nepbf16 ymm22, ymm23, ymm24
+          vfmsub132bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfmsub132nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfmsub132bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x9a,0xf0]
-          vfmsub132nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfmsub132bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfmsub132bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x9a,0xf0]
-          vfmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfmsub132bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfmsub132nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfmsub132bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x9a,0xf0]
-          vfmsub132nepbf16 zmm22, zmm23, zmm24
+          vfmsub132bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfmsub132nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfmsub132bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x9a,0xf0]
-          vfmsub132nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfmsub132bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfmsub132bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x9a,0xf0]
-          vfmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfmsub132bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfmsub132nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfmsub132bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x9a,0xf0]
-          vfmsub132nepbf16 xmm22, xmm23, xmm24
+          vfmsub132bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfmsub132nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfmsub132bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x9a,0xf0]
-          vfmsub132nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfmsub132bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfmsub132bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x9a,0xf0]
-          vfmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfmsub132bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfmsub132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmsub132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x9a,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfmsub132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmsub132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmsub132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x9a,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfmsub132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmsub132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfmsub132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x9a,0x35,0x00,0x00,0x00,0x00]
-          vfmsub132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfmsub132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfmsub132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfmsub132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x9a,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfmsub132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfmsub132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x9a,0x71,0x7f]
-          vfmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfmsub132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfmsub132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfmsub132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x9a,0x72,0x80]
-          vfmsub132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfmsub132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfmsub132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmsub132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x9a,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfmsub132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmsub132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmsub132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x9a,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfmsub132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmsub132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfmsub132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x9a,0x35,0x00,0x00,0x00,0x00]
-          vfmsub132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfmsub132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfmsub132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfmsub132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x9a,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfmsub132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfmsub132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x9a,0x71,0x7f]
-          vfmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfmsub132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfmsub132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfmsub132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x9a,0x72,0x80]
-          vfmsub132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfmsub132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfmsub132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmsub132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x9a,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfmsub132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmsub132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmsub132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x9a,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfmsub132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmsub132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfmsub132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x9a,0x35,0x00,0x00,0x00,0x00]
-          vfmsub132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfmsub132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfmsub132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfmsub132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x9a,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfmsub132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfmsub132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x9a,0x71,0x7f]
-          vfmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfmsub132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfmsub132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfmsub132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x9a,0x72,0x80]
-          vfmsub132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfmsub132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfmsub213nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfmsub213bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xaa,0xf0]
-          vfmsub213nepbf16 ymm22, ymm23, ymm24
+          vfmsub213bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfmsub213nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfmsub213bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xaa,0xf0]
-          vfmsub213nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfmsub213bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfmsub213bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xaa,0xf0]
-          vfmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfmsub213bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfmsub213nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfmsub213bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xaa,0xf0]
-          vfmsub213nepbf16 zmm22, zmm23, zmm24
+          vfmsub213bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfmsub213nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfmsub213bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xaa,0xf0]
-          vfmsub213nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfmsub213bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfmsub213bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xaa,0xf0]
-          vfmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfmsub213bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfmsub213nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfmsub213bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xaa,0xf0]
-          vfmsub213nepbf16 xmm22, xmm23, xmm24
+          vfmsub213bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfmsub213nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfmsub213bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xaa,0xf0]
-          vfmsub213nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfmsub213bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfmsub213bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xaa,0xf0]
-          vfmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfmsub213bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfmsub213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmsub213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xaa,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfmsub213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmsub213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmsub213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xaa,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfmsub213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmsub213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfmsub213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xaa,0x35,0x00,0x00,0x00,0x00]
-          vfmsub213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfmsub213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfmsub213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfmsub213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xaa,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfmsub213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfmsub213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xaa,0x71,0x7f]
-          vfmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfmsub213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfmsub213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfmsub213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xaa,0x72,0x80]
-          vfmsub213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfmsub213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfmsub213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmsub213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xaa,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfmsub213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmsub213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmsub213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xaa,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfmsub213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmsub213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfmsub213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xaa,0x35,0x00,0x00,0x00,0x00]
-          vfmsub213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfmsub213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfmsub213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfmsub213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xaa,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfmsub213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfmsub213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xaa,0x71,0x7f]
-          vfmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfmsub213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfmsub213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfmsub213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xaa,0x72,0x80]
-          vfmsub213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfmsub213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfmsub213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmsub213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xaa,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfmsub213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmsub213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmsub213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xaa,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfmsub213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmsub213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfmsub213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xaa,0x35,0x00,0x00,0x00,0x00]
-          vfmsub213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfmsub213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfmsub213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfmsub213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xaa,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfmsub213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfmsub213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xaa,0x71,0x7f]
-          vfmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfmsub213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfmsub213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfmsub213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xaa,0x72,0x80]
-          vfmsub213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfmsub213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfmsub231nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfmsub231bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xba,0xf0]
-          vfmsub231nepbf16 ymm22, ymm23, ymm24
+          vfmsub231bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfmsub231nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfmsub231bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xba,0xf0]
-          vfmsub231nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfmsub231bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfmsub231bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xba,0xf0]
-          vfmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfmsub231bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfmsub231nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfmsub231bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xba,0xf0]
-          vfmsub231nepbf16 zmm22, zmm23, zmm24
+          vfmsub231bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfmsub231nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfmsub231bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xba,0xf0]
-          vfmsub231nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfmsub231bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfmsub231bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xba,0xf0]
-          vfmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfmsub231bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfmsub231nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfmsub231bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xba,0xf0]
-          vfmsub231nepbf16 xmm22, xmm23, xmm24
+          vfmsub231bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfmsub231nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfmsub231bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xba,0xf0]
-          vfmsub231nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfmsub231bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfmsub231bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xba,0xf0]
-          vfmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfmsub231bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfmsub231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmsub231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xba,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfmsub231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmsub231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmsub231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xba,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfmsub231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmsub231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfmsub231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xba,0x35,0x00,0x00,0x00,0x00]
-          vfmsub231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfmsub231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfmsub231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfmsub231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xba,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfmsub231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfmsub231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfmsub231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xba,0x71,0x7f]
-          vfmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfmsub231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfmsub231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfmsub231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xba,0x72,0x80]
-          vfmsub231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfmsub231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfmsub231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmsub231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xba,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfmsub231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmsub231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmsub231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xba,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfmsub231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmsub231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfmsub231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xba,0x35,0x00,0x00,0x00,0x00]
-          vfmsub231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfmsub231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfmsub231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfmsub231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xba,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfmsub231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfmsub231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfmsub231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xba,0x71,0x7f]
-          vfmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfmsub231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfmsub231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfmsub231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xba,0x72,0x80]
-          vfmsub231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfmsub231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfmsub231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfmsub231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xba,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfmsub231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfmsub231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfmsub231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfmsub231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xba,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfmsub231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfmsub231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfmsub231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfmsub231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xba,0x35,0x00,0x00,0x00,0x00]
-          vfmsub231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfmsub231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfmsub231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfmsub231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xba,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfmsub231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfmsub231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfmsub231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xba,0x71,0x7f]
-          vfmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfmsub231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfmsub231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfmsub231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xba,0x72,0x80]
-          vfmsub231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfmsub231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfnmadd132nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfnmadd132bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x9c,0xf0]
-          vfnmadd132nepbf16 ymm22, ymm23, ymm24
+          vfnmadd132bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfnmadd132nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfnmadd132bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x9c,0xf0]
-          vfnmadd132nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfnmadd132bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfnmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfnmadd132bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x9c,0xf0]
-          vfnmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfnmadd132bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfnmadd132nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfnmadd132bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x9c,0xf0]
-          vfnmadd132nepbf16 zmm22, zmm23, zmm24
+          vfnmadd132bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfnmadd132nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfnmadd132bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x9c,0xf0]
-          vfnmadd132nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfnmadd132bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfnmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfnmadd132bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x9c,0xf0]
-          vfnmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfnmadd132bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfnmadd132nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfnmadd132bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x9c,0xf0]
-          vfnmadd132nepbf16 xmm22, xmm23, xmm24
+          vfnmadd132bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfnmadd132nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfnmadd132bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x9c,0xf0]
-          vfnmadd132nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfnmadd132bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfnmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfnmadd132bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x9c,0xf0]
-          vfnmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfnmadd132bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfnmadd132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmadd132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x9c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmadd132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmadd132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmadd132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x9c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfnmadd132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmadd132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfnmadd132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x9c,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfnmadd132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfnmadd132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfnmadd132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x9c,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfnmadd132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfnmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfnmadd132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x9c,0x71,0x7f]
-          vfnmadd132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfnmadd132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfnmadd132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfnmadd132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x9c,0x72,0x80]
-          vfnmadd132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfnmadd132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfnmadd132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmadd132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x9c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfnmadd132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmadd132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmadd132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x9c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfnmadd132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmadd132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfnmadd132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x9c,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfnmadd132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfnmadd132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfnmadd132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x9c,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfnmadd132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfnmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfnmadd132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x9c,0x71,0x7f]
-          vfnmadd132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfnmadd132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfnmadd132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfnmadd132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x9c,0x72,0x80]
-          vfnmadd132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfnmadd132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfnmadd132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmadd132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x9c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmadd132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmadd132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmadd132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x9c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfnmadd132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmadd132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfnmadd132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x9c,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfnmadd132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfnmadd132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfnmadd132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x9c,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfnmadd132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfnmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfnmadd132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x9c,0x71,0x7f]
-          vfnmadd132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfnmadd132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfnmadd132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfnmadd132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x9c,0x72,0x80]
-          vfnmadd132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfnmadd132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfnmadd213nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfnmadd213bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xac,0xf0]
-          vfnmadd213nepbf16 ymm22, ymm23, ymm24
+          vfnmadd213bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfnmadd213nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfnmadd213bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xac,0xf0]
-          vfnmadd213nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfnmadd213bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfnmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfnmadd213bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xac,0xf0]
-          vfnmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfnmadd213bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfnmadd213nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfnmadd213bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xac,0xf0]
-          vfnmadd213nepbf16 zmm22, zmm23, zmm24
+          vfnmadd213bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfnmadd213nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfnmadd213bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xac,0xf0]
-          vfnmadd213nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfnmadd213bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfnmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfnmadd213bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xac,0xf0]
-          vfnmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfnmadd213bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfnmadd213nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfnmadd213bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xac,0xf0]
-          vfnmadd213nepbf16 xmm22, xmm23, xmm24
+          vfnmadd213bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfnmadd213nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfnmadd213bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xac,0xf0]
-          vfnmadd213nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfnmadd213bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfnmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfnmadd213bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xac,0xf0]
-          vfnmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfnmadd213bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfnmadd213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmadd213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xac,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmadd213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmadd213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmadd213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xac,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfnmadd213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmadd213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfnmadd213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xac,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfnmadd213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfnmadd213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfnmadd213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xac,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfnmadd213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfnmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfnmadd213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xac,0x71,0x7f]
-          vfnmadd213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfnmadd213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfnmadd213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfnmadd213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xac,0x72,0x80]
-          vfnmadd213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfnmadd213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfnmadd213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmadd213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xac,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfnmadd213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmadd213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmadd213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xac,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfnmadd213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmadd213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfnmadd213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xac,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfnmadd213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfnmadd213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfnmadd213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xac,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfnmadd213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfnmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfnmadd213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xac,0x71,0x7f]
-          vfnmadd213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfnmadd213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfnmadd213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfnmadd213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xac,0x72,0x80]
-          vfnmadd213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfnmadd213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfnmadd213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmadd213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xac,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmadd213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmadd213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmadd213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xac,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfnmadd213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmadd213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfnmadd213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xac,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfnmadd213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfnmadd213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfnmadd213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xac,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfnmadd213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfnmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfnmadd213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xac,0x71,0x7f]
-          vfnmadd213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfnmadd213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfnmadd213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfnmadd213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xac,0x72,0x80]
-          vfnmadd213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfnmadd213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfnmadd231nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfnmadd231bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xbc,0xf0]
-          vfnmadd231nepbf16 ymm22, ymm23, ymm24
+          vfnmadd231bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfnmadd231nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfnmadd231bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xbc,0xf0]
-          vfnmadd231nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfnmadd231bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfnmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfnmadd231bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xbc,0xf0]
-          vfnmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfnmadd231bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfnmadd231nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfnmadd231bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xbc,0xf0]
-          vfnmadd231nepbf16 zmm22, zmm23, zmm24
+          vfnmadd231bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfnmadd231nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfnmadd231bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xbc,0xf0]
-          vfnmadd231nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfnmadd231bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfnmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfnmadd231bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xbc,0xf0]
-          vfnmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfnmadd231bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfnmadd231nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfnmadd231bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xbc,0xf0]
-          vfnmadd231nepbf16 xmm22, xmm23, xmm24
+          vfnmadd231bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfnmadd231nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfnmadd231bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xbc,0xf0]
-          vfnmadd231nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfnmadd231bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfnmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfnmadd231bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xbc,0xf0]
-          vfnmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfnmadd231bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfnmadd231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmadd231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xbc,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmadd231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmadd231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmadd231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xbc,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfnmadd231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmadd231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfnmadd231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xbc,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfnmadd231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfnmadd231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfnmadd231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xbc,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmadd231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfnmadd231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfnmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfnmadd231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xbc,0x71,0x7f]
-          vfnmadd231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfnmadd231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfnmadd231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfnmadd231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xbc,0x72,0x80]
-          vfnmadd231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfnmadd231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfnmadd231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmadd231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xbc,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfnmadd231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmadd231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmadd231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xbc,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfnmadd231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmadd231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfnmadd231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xbc,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfnmadd231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfnmadd231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfnmadd231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xbc,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmadd231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfnmadd231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfnmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfnmadd231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xbc,0x71,0x7f]
-          vfnmadd231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfnmadd231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfnmadd231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfnmadd231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xbc,0x72,0x80]
-          vfnmadd231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfnmadd231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfnmadd231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmadd231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xbc,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmadd231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmadd231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmadd231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmadd231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xbc,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmadd231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfnmadd231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmadd231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfnmadd231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xbc,0x35,0x00,0x00,0x00,0x00]
-          vfnmadd231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfnmadd231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfnmadd231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfnmadd231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xbc,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmadd231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfnmadd231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfnmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfnmadd231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xbc,0x71,0x7f]
-          vfnmadd231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfnmadd231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfnmadd231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfnmadd231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xbc,0x72,0x80]
-          vfnmadd231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfnmadd231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfnmsub132nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfnmsub132bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x9e,0xf0]
-          vfnmsub132nepbf16 ymm22, ymm23, ymm24
+          vfnmsub132bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfnmsub132nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfnmsub132bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x9e,0xf0]
-          vfnmsub132nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfnmsub132bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfnmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfnmsub132bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x9e,0xf0]
-          vfnmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfnmsub132bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfnmsub132nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfnmsub132bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x9e,0xf0]
-          vfnmsub132nepbf16 zmm22, zmm23, zmm24
+          vfnmsub132bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfnmsub132nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfnmsub132bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x9e,0xf0]
-          vfnmsub132nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfnmsub132bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfnmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfnmsub132bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x9e,0xf0]
-          vfnmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfnmsub132bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfnmsub132nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfnmsub132bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x9e,0xf0]
-          vfnmsub132nepbf16 xmm22, xmm23, xmm24
+          vfnmsub132bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfnmsub132nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfnmsub132bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x9e,0xf0]
-          vfnmsub132nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfnmsub132bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfnmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfnmsub132bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x9e,0xf0]
-          vfnmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfnmsub132bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfnmsub132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmsub132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x9e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmsub132bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmsub132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmsub132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x9e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfnmsub132bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmsub132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfnmsub132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x9e,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub132nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfnmsub132bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfnmsub132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfnmsub132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x9e,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub132nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfnmsub132bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfnmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfnmsub132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x9e,0x71,0x7f]
-          vfnmsub132nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfnmsub132bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfnmsub132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfnmsub132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x9e,0x72,0x80]
-          vfnmsub132nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfnmsub132bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfnmsub132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmsub132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x9e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfnmsub132bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmsub132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmsub132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x9e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfnmsub132bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmsub132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfnmsub132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x9e,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub132nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfnmsub132bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfnmsub132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfnmsub132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x9e,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub132nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfnmsub132bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfnmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfnmsub132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x9e,0x71,0x7f]
-          vfnmsub132nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfnmsub132bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfnmsub132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfnmsub132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x9e,0x72,0x80]
-          vfnmsub132nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfnmsub132bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfnmsub132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmsub132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x9e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub132nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmsub132bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmsub132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmsub132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x9e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub132nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfnmsub132bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmsub132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfnmsub132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x9e,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub132nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfnmsub132bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfnmsub132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfnmsub132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x9e,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub132nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfnmsub132bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfnmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfnmsub132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x9e,0x71,0x7f]
-          vfnmsub132nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfnmsub132bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfnmsub132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfnmsub132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x9e,0x72,0x80]
-          vfnmsub132nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfnmsub132bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfnmsub213nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfnmsub213bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xae,0xf0]
-          vfnmsub213nepbf16 ymm22, ymm23, ymm24
+          vfnmsub213bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfnmsub213nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfnmsub213bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xae,0xf0]
-          vfnmsub213nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfnmsub213bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfnmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfnmsub213bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xae,0xf0]
-          vfnmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfnmsub213bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfnmsub213nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfnmsub213bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xae,0xf0]
-          vfnmsub213nepbf16 zmm22, zmm23, zmm24
+          vfnmsub213bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfnmsub213nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfnmsub213bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xae,0xf0]
-          vfnmsub213nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfnmsub213bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfnmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfnmsub213bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xae,0xf0]
-          vfnmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfnmsub213bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfnmsub213nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfnmsub213bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xae,0xf0]
-          vfnmsub213nepbf16 xmm22, xmm23, xmm24
+          vfnmsub213bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfnmsub213nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfnmsub213bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xae,0xf0]
-          vfnmsub213nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfnmsub213bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfnmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfnmsub213bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xae,0xf0]
-          vfnmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfnmsub213bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfnmsub213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmsub213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xae,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmsub213bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmsub213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmsub213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xae,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfnmsub213bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmsub213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfnmsub213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xae,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub213nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfnmsub213bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfnmsub213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfnmsub213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xae,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub213nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfnmsub213bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfnmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfnmsub213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xae,0x71,0x7f]
-          vfnmsub213nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfnmsub213bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfnmsub213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfnmsub213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xae,0x72,0x80]
-          vfnmsub213nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfnmsub213bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfnmsub213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmsub213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xae,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfnmsub213bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmsub213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmsub213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xae,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfnmsub213bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmsub213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfnmsub213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xae,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub213nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfnmsub213bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfnmsub213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfnmsub213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xae,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub213nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfnmsub213bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfnmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfnmsub213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xae,0x71,0x7f]
-          vfnmsub213nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfnmsub213bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfnmsub213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfnmsub213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xae,0x72,0x80]
-          vfnmsub213nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfnmsub213bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfnmsub213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmsub213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xae,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub213nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmsub213bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmsub213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmsub213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xae,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub213nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfnmsub213bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmsub213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfnmsub213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xae,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub213nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfnmsub213bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfnmsub213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfnmsub213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xae,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub213nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfnmsub213bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfnmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfnmsub213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xae,0x71,0x7f]
-          vfnmsub213nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfnmsub213bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfnmsub213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfnmsub213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xae,0x72,0x80]
-          vfnmsub213nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfnmsub213bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfnmsub231nepbf16 ymm22, ymm23, ymm24
+// CHECK: vfnmsub231bf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0xbe,0xf0]
-          vfnmsub231nepbf16 ymm22, ymm23, ymm24
+          vfnmsub231bf16 ymm22, ymm23, ymm24
 
-// CHECK: vfnmsub231nepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vfnmsub231bf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0xbe,0xf0]
-          vfnmsub231nepbf16 ymm22 {k7}, ymm23, ymm24
+          vfnmsub231bf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vfnmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vfnmsub231bf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0xbe,0xf0]
-          vfnmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vfnmsub231bf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vfnmsub231nepbf16 zmm22, zmm23, zmm24
+// CHECK: vfnmsub231bf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0xbe,0xf0]
-          vfnmsub231nepbf16 zmm22, zmm23, zmm24
+          vfnmsub231bf16 zmm22, zmm23, zmm24
 
-// CHECK: vfnmsub231nepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vfnmsub231bf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0xbe,0xf0]
-          vfnmsub231nepbf16 zmm22 {k7}, zmm23, zmm24
+          vfnmsub231bf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vfnmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vfnmsub231bf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0xbe,0xf0]
-          vfnmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vfnmsub231bf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vfnmsub231nepbf16 xmm22, xmm23, xmm24
+// CHECK: vfnmsub231bf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0xbe,0xf0]
-          vfnmsub231nepbf16 xmm22, xmm23, xmm24
+          vfnmsub231bf16 xmm22, xmm23, xmm24
 
-// CHECK: vfnmsub231nepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vfnmsub231bf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0xbe,0xf0]
-          vfnmsub231nepbf16 xmm22 {k7}, xmm23, xmm24
+          vfnmsub231bf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vfnmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vfnmsub231bf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0xbe,0xf0]
-          vfnmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vfnmsub231bf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vfnmsub231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmsub231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0xbe,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmsub231bf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmsub231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmsub231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0xbe,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vfnmsub231bf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmsub231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vfnmsub231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0xbe,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub231nepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vfnmsub231bf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vfnmsub231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vfnmsub231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0xbe,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vfnmsub231nepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vfnmsub231bf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vfnmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vfnmsub231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0xbe,0x71,0x7f]
-          vfnmsub231nepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vfnmsub231bf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vfnmsub231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vfnmsub231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0xbe,0x72,0x80]
-          vfnmsub231nepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vfnmsub231bf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vfnmsub231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmsub231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0xbe,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vfnmsub231bf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmsub231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmsub231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0xbe,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vfnmsub231bf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmsub231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vfnmsub231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0xbe,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub231nepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vfnmsub231bf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vfnmsub231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vfnmsub231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0xbe,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vfnmsub231nepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vfnmsub231bf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vfnmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vfnmsub231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0xbe,0x71,0x7f]
-          vfnmsub231nepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vfnmsub231bf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vfnmsub231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vfnmsub231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0xbe,0x72,0x80]
-          vfnmsub231nepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vfnmsub231bf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vfnmsub231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vfnmsub231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0xbe,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vfnmsub231nepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vfnmsub231bf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vfnmsub231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vfnmsub231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0xbe,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vfnmsub231nepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vfnmsub231bf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vfnmsub231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vfnmsub231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0xbe,0x35,0x00,0x00,0x00,0x00]
-          vfnmsub231nepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vfnmsub231bf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vfnmsub231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vfnmsub231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0xbe,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vfnmsub231nepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vfnmsub231bf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vfnmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vfnmsub231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0xbe,0x71,0x7f]
-          vfnmsub231nepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vfnmsub231bf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vfnmsub231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vfnmsub231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0xbe,0x72,0x80]
-          vfnmsub231nepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vfnmsub231bf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vfpclasspbf16 k5, zmm23, 123
+// CHECK: vfpclassbf16 k5, zmm23, 123
 // CHECK: encoding: [0x62,0xb3,0x7f,0x48,0x66,0xef,0x7b]
-          vfpclasspbf16 k5, zmm23, 123
+          vfpclassbf16 k5, zmm23, 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, zmm23, 123
+// CHECK: vfpclassbf16 k5 {k7}, zmm23, 123
 // CHECK: encoding: [0x62,0xb3,0x7f,0x4f,0x66,0xef,0x7b]
-          vfpclasspbf16 k5 {k7}, zmm23, 123
+          vfpclassbf16 k5 {k7}, zmm23, 123
 
-// CHECK: vfpclasspbf16 k5, ymm23, 123
+// CHECK: vfpclassbf16 k5, ymm23, 123
 // CHECK: encoding: [0x62,0xb3,0x7f,0x28,0x66,0xef,0x7b]
-          vfpclasspbf16 k5, ymm23, 123
+          vfpclassbf16 k5, ymm23, 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, ymm23, 123
+// CHECK: vfpclassbf16 k5 {k7}, ymm23, 123
 // CHECK: encoding: [0x62,0xb3,0x7f,0x2f,0x66,0xef,0x7b]
-          vfpclasspbf16 k5 {k7}, ymm23, 123
+          vfpclassbf16 k5 {k7}, ymm23, 123
 
-// CHECK: vfpclasspbf16 k5, xmm23, 123
+// CHECK: vfpclassbf16 k5, xmm23, 123
 // CHECK: encoding: [0x62,0xb3,0x7f,0x08,0x66,0xef,0x7b]
-          vfpclasspbf16 k5, xmm23, 123
+          vfpclassbf16 k5, xmm23, 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, xmm23, 123
+// CHECK: vfpclassbf16 k5 {k7}, xmm23, 123
 // CHECK: encoding: [0x62,0xb3,0x7f,0x0f,0x66,0xef,0x7b]
-          vfpclasspbf16 k5 {k7}, xmm23, 123
+          vfpclassbf16 k5 {k7}, xmm23, 123
 
-// CHECK: vfpclasspbf16 k5, xmmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vfpclassbf16 k5, xmmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xb3,0x7f,0x08,0x66,0xac,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vfpclasspbf16 k5, xmmword ptr [rbp + 8*r14 + 268435456], 123
+          vfpclassbf16 k5, xmmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vfpclassbf16 k5 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xd3,0x7f,0x0f,0x66,0xac,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vfpclasspbf16 k5 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+          vfpclassbf16 k5 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vfpclasspbf16 k5, word ptr [rip]{1to8}, 123
+// CHECK: vfpclassbf16 k5, word ptr [rip]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x18,0x66,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vfpclasspbf16 k5, word ptr [rip]{1to8}, 123
+          vfpclassbf16 k5, word ptr [rip]{1to8}, 123
 
-// CHECK: vfpclasspbf16 k5, xmmword ptr [2*rbp - 512], 123
+// CHECK: vfpclassbf16 k5, xmmword ptr [2*rbp - 512], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x08,0x66,0x2c,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vfpclasspbf16 k5, xmmword ptr [2*rbp - 512], 123
+          vfpclassbf16 k5, xmmword ptr [2*rbp - 512], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, xmmword ptr [rcx + 2032], 123
+// CHECK: vfpclassbf16 k5 {k7}, xmmword ptr [rcx + 2032], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x0f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16 k5 {k7}, xmmword ptr [rcx + 2032], 123
+          vfpclassbf16 k5 {k7}, xmmword ptr [rcx + 2032], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, word ptr [rdx - 256]{1to8}, 123
+// CHECK: vfpclassbf16 k5 {k7}, word ptr [rdx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x1f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16 k5 {k7}, word ptr [rdx - 256]{1to8}, 123
+          vfpclassbf16 k5 {k7}, word ptr [rdx - 256]{1to8}, 123
 
-// CHECK: vfpclasspbf16 k5, word ptr [rip]{1to16}, 123
+// CHECK: vfpclassbf16 k5, word ptr [rip]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x38,0x66,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vfpclasspbf16 k5, word ptr [rip]{1to16}, 123
+          vfpclassbf16 k5, word ptr [rip]{1to16}, 123
 
-// CHECK: vfpclasspbf16 k5, ymmword ptr [2*rbp - 1024], 123
+// CHECK: vfpclassbf16 k5, ymmword ptr [2*rbp - 1024], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x28,0x66,0x2c,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vfpclasspbf16 k5, ymmword ptr [2*rbp - 1024], 123
+          vfpclassbf16 k5, ymmword ptr [2*rbp - 1024], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, ymmword ptr [rcx + 4064], 123
+// CHECK: vfpclassbf16 k5 {k7}, ymmword ptr [rcx + 4064], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x2f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16 k5 {k7}, ymmword ptr [rcx + 4064], 123
+          vfpclassbf16 k5 {k7}, ymmword ptr [rcx + 4064], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, word ptr [rdx - 256]{1to16}, 123
+// CHECK: vfpclassbf16 k5 {k7}, word ptr [rdx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x3f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16 k5 {k7}, word ptr [rdx - 256]{1to16}, 123
+          vfpclassbf16 k5 {k7}, word ptr [rdx - 256]{1to16}, 123
 
-// CHECK: vfpclasspbf16 k5, word ptr [rip]{1to32}, 123
+// CHECK: vfpclassbf16 k5, word ptr [rip]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x58,0x66,0x2d,0x00,0x00,0x00,0x00,0x7b]
-          vfpclasspbf16 k5, word ptr [rip]{1to32}, 123
+          vfpclassbf16 k5, word ptr [rip]{1to32}, 123
 
-// CHECK: vfpclasspbf16 k5, zmmword ptr [2*rbp - 2048], 123
+// CHECK: vfpclassbf16 k5, zmmword ptr [2*rbp - 2048], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x48,0x66,0x2c,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vfpclasspbf16 k5, zmmword ptr [2*rbp - 2048], 123
+          vfpclassbf16 k5, zmmword ptr [2*rbp - 2048], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, zmmword ptr [rcx + 8128], 123
+// CHECK: vfpclassbf16 k5 {k7}, zmmword ptr [rcx + 8128], 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x4f,0x66,0x69,0x7f,0x7b]
-          vfpclasspbf16 k5 {k7}, zmmword ptr [rcx + 8128], 123
+          vfpclassbf16 k5 {k7}, zmmword ptr [rcx + 8128], 123
 
-// CHECK: vfpclasspbf16 k5 {k7}, word ptr [rdx - 256]{1to32}, 123
+// CHECK: vfpclassbf16 k5 {k7}, word ptr [rdx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xf3,0x7f,0x5f,0x66,0x6a,0x80,0x7b]
-          vfpclasspbf16 k5 {k7}, word ptr [rdx - 256]{1to32}, 123
+          vfpclassbf16 k5 {k7}, word ptr [rdx - 256]{1to32}, 123
 
-// CHECK: vgetexppbf16 xmm22, xmm23
+// CHECK: vgetexpbf16 xmm22, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x42,0xf7]
-          vgetexppbf16 xmm22, xmm23
+          vgetexpbf16 xmm22, xmm23
 
-// CHECK: vgetexppbf16 xmm22 {k7}, xmm23
+// CHECK: vgetexpbf16 xmm22 {k7}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x0f,0x42,0xf7]
-          vgetexppbf16 xmm22 {k7}, xmm23
+          vgetexpbf16 xmm22 {k7}, xmm23
 
-// CHECK: vgetexppbf16 xmm22 {k7} {z}, xmm23
+// CHECK: vgetexpbf16 xmm22 {k7} {z}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x8f,0x42,0xf7]
-          vgetexppbf16 xmm22 {k7} {z}, xmm23
+          vgetexpbf16 xmm22 {k7} {z}, xmm23
 
-// CHECK: vgetexppbf16 zmm22, zmm23
+// CHECK: vgetexpbf16 zmm22, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x48,0x42,0xf7]
-          vgetexppbf16 zmm22, zmm23
+          vgetexpbf16 zmm22, zmm23
 
-// CHECK: vgetexppbf16 zmm22 {k7}, zmm23
+// CHECK: vgetexpbf16 zmm22 {k7}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x4f,0x42,0xf7]
-          vgetexppbf16 zmm22 {k7}, zmm23
+          vgetexpbf16 zmm22 {k7}, zmm23
 
-// CHECK: vgetexppbf16 zmm22 {k7} {z}, zmm23
+// CHECK: vgetexpbf16 zmm22 {k7} {z}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0xcf,0x42,0xf7]
-          vgetexppbf16 zmm22 {k7} {z}, zmm23
+          vgetexpbf16 zmm22 {k7} {z}, zmm23
 
-// CHECK: vgetexppbf16 ymm22, ymm23
+// CHECK: vgetexpbf16 ymm22, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x28,0x42,0xf7]
-          vgetexppbf16 ymm22, ymm23
+          vgetexpbf16 ymm22, ymm23
 
-// CHECK: vgetexppbf16 ymm22 {k7}, ymm23
+// CHECK: vgetexpbf16 ymm22 {k7}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x2f,0x42,0xf7]
-          vgetexppbf16 ymm22 {k7}, ymm23
+          vgetexpbf16 ymm22 {k7}, ymm23
 
-// CHECK: vgetexppbf16 ymm22 {k7} {z}, ymm23
+// CHECK: vgetexpbf16 ymm22 {k7} {z}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0xaf,0x42,0xf7]
-          vgetexppbf16 ymm22 {k7} {z}, ymm23
+          vgetexpbf16 ymm22 {k7} {z}, ymm23
 
-// CHECK: vgetexppbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vgetexpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x42,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vgetexppbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+          vgetexpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vgetexppbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vgetexpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7d,0x0f,0x42,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vgetexppbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+          vgetexpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vgetexppbf16 xmm22, word ptr [rip]{1to8}
+// CHECK: vgetexpbf16 xmm22, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x18,0x42,0x35,0x00,0x00,0x00,0x00]
-          vgetexppbf16 xmm22, word ptr [rip]{1to8}
+          vgetexpbf16 xmm22, word ptr [rip]{1to8}
 
-// CHECK: vgetexppbf16 xmm22, xmmword ptr [2*rbp - 512]
+// CHECK: vgetexpbf16 xmm22, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x42,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vgetexppbf16 xmm22, xmmword ptr [2*rbp - 512]
+          vgetexpbf16 xmm22, xmmword ptr [2*rbp - 512]
 
-// CHECK: vgetexppbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+// CHECK: vgetexpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x8f,0x42,0x71,0x7f]
-          vgetexppbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+          vgetexpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 
-// CHECK: vgetexppbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+// CHECK: vgetexpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x9f,0x42,0x72,0x80]
-          vgetexppbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+          vgetexpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 
-// CHECK: vgetexppbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vgetexpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7d,0x28,0x42,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vgetexppbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+          vgetexpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vgetexppbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vgetexpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7d,0x2f,0x42,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vgetexppbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+          vgetexpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vgetexppbf16 ymm22, word ptr [rip]{1to16}
+// CHECK: vgetexpbf16 ymm22, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x38,0x42,0x35,0x00,0x00,0x00,0x00]
-          vgetexppbf16 ymm22, word ptr [rip]{1to16}
+          vgetexpbf16 ymm22, word ptr [rip]{1to16}
 
-// CHECK: vgetexppbf16 ymm22, ymmword ptr [2*rbp - 1024]
+// CHECK: vgetexpbf16 ymm22, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x28,0x42,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vgetexppbf16 ymm22, ymmword ptr [2*rbp - 1024]
+          vgetexpbf16 ymm22, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vgetexppbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+// CHECK: vgetexpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x7d,0xaf,0x42,0x71,0x7f]
-          vgetexppbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+          vgetexpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 
-// CHECK: vgetexppbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+// CHECK: vgetexpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xbf,0x42,0x72,0x80]
-          vgetexppbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+          vgetexpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 
-// CHECK: vgetexppbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vgetexpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7d,0x48,0x42,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vgetexppbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+          vgetexpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vgetexppbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vgetexpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7d,0x4f,0x42,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vgetexppbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+          vgetexpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vgetexppbf16 zmm22, word ptr [rip]{1to32}
+// CHECK: vgetexpbf16 zmm22, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x58,0x42,0x35,0x00,0x00,0x00,0x00]
-          vgetexppbf16 zmm22, word ptr [rip]{1to32}
+          vgetexpbf16 zmm22, word ptr [rip]{1to32}
 
-// CHECK: vgetexppbf16 zmm22, zmmword ptr [2*rbp - 2048]
+// CHECK: vgetexpbf16 zmm22, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x48,0x42,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vgetexppbf16 zmm22, zmmword ptr [2*rbp - 2048]
+          vgetexpbf16 zmm22, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vgetexppbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+// CHECK: vgetexpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x7d,0xcf,0x42,0x71,0x7f]
-          vgetexppbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+          vgetexpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 
-// CHECK: vgetexppbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+// CHECK: vgetexpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xdf,0x42,0x72,0x80]
-          vgetexppbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+          vgetexpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 
-// CHECK: vgetmantpbf16 zmm22, zmm23, 123
+// CHECK: vgetmantbf16 zmm22, zmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x26,0xf7,0x7b]
-          vgetmantpbf16 zmm22, zmm23, 123
+          vgetmantbf16 zmm22, zmm23, 123
 
-// CHECK: vgetmantpbf16 zmm22 {k7}, zmm23, 123
+// CHECK: vgetmantbf16 zmm22 {k7}, zmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x4f,0x26,0xf7,0x7b]
-          vgetmantpbf16 zmm22 {k7}, zmm23, 123
+          vgetmantbf16 zmm22 {k7}, zmm23, 123
 
-// CHECK: vgetmantpbf16 zmm22 {k7} {z}, zmm23, 123
+// CHECK: vgetmantbf16 zmm22 {k7} {z}, zmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0xcf,0x26,0xf7,0x7b]
-          vgetmantpbf16 zmm22 {k7} {z}, zmm23, 123
+          vgetmantbf16 zmm22 {k7} {z}, zmm23, 123
 
-// CHECK: vgetmantpbf16 ymm22, ymm23, 123
+// CHECK: vgetmantbf16 ymm22, ymm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x26,0xf7,0x7b]
-          vgetmantpbf16 ymm22, ymm23, 123
+          vgetmantbf16 ymm22, ymm23, 123
 
-// CHECK: vgetmantpbf16 ymm22 {k7}, ymm23, 123
+// CHECK: vgetmantbf16 ymm22 {k7}, ymm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x2f,0x26,0xf7,0x7b]
-          vgetmantpbf16 ymm22 {k7}, ymm23, 123
+          vgetmantbf16 ymm22 {k7}, ymm23, 123
 
-// CHECK: vgetmantpbf16 ymm22 {k7} {z}, ymm23, 123
+// CHECK: vgetmantbf16 ymm22 {k7} {z}, ymm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0xaf,0x26,0xf7,0x7b]
-          vgetmantpbf16 ymm22 {k7} {z}, ymm23, 123
+          vgetmantbf16 ymm22 {k7} {z}, ymm23, 123
 
-// CHECK: vgetmantpbf16 xmm22, xmm23, 123
+// CHECK: vgetmantbf16 xmm22, xmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x26,0xf7,0x7b]
-          vgetmantpbf16 xmm22, xmm23, 123
+          vgetmantbf16 xmm22, xmm23, 123
 
-// CHECK: vgetmantpbf16 xmm22 {k7}, xmm23, 123
+// CHECK: vgetmantbf16 xmm22 {k7}, xmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x0f,0x26,0xf7,0x7b]
-          vgetmantpbf16 xmm22 {k7}, xmm23, 123
+          vgetmantbf16 xmm22 {k7}, xmm23, 123
 
-// CHECK: vgetmantpbf16 xmm22 {k7} {z}, xmm23, 123
+// CHECK: vgetmantbf16 xmm22 {k7} {z}, xmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x8f,0x26,0xf7,0x7b]
-          vgetmantpbf16 xmm22 {k7} {z}, xmm23, 123
+          vgetmantbf16 xmm22 {k7} {z}, xmm23, 123
 
-// CHECK: vgetmantpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vgetmantbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x26,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
+          vgetmantbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vgetmantpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vgetmantbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xc3,0x7f,0x0f,0x26,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+          vgetmantbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vgetmantpbf16 xmm22, word ptr [rip]{1to8}, 123
+// CHECK: vgetmantbf16 xmm22, word ptr [rip]{1to8}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x18,0x26,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vgetmantpbf16 xmm22, word ptr [rip]{1to8}, 123
+          vgetmantbf16 xmm22, word ptr [rip]{1to8}, 123
 
-// CHECK: vgetmantpbf16 xmm22, xmmword ptr [2*rbp - 512], 123
+// CHECK: vgetmantbf16 xmm22, xmmword ptr [2*rbp - 512], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x08,0x26,0x34,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vgetmantpbf16 xmm22, xmmword ptr [2*rbp - 512], 123
+          vgetmantbf16 xmm22, xmmword ptr [2*rbp - 512], 123
 
-// CHECK: vgetmantpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
+// CHECK: vgetmantbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x8f,0x26,0x71,0x7f,0x7b]
-          vgetmantpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
+          vgetmantbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
 
-// CHECK: vgetmantpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
+// CHECK: vgetmantbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x9f,0x26,0x72,0x80,0x7b]
-          vgetmantpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
+          vgetmantbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
 
-// CHECK: vgetmantpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vgetmantbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x26,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
+          vgetmantbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vgetmantpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vgetmantbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xc3,0x7f,0x2f,0x26,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
+          vgetmantbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vgetmantpbf16 ymm22, word ptr [rip]{1to16}, 123
+// CHECK: vgetmantbf16 ymm22, word ptr [rip]{1to16}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x38,0x26,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vgetmantpbf16 ymm22, word ptr [rip]{1to16}, 123
+          vgetmantbf16 ymm22, word ptr [rip]{1to16}, 123
 
-// CHECK: vgetmantpbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
+// CHECK: vgetmantbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x28,0x26,0x34,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vgetmantpbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
+          vgetmantbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
 
-// CHECK: vgetmantpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
+// CHECK: vgetmantbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xaf,0x26,0x71,0x7f,0x7b]
-          vgetmantpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
+          vgetmantbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
 
-// CHECK: vgetmantpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
+// CHECK: vgetmantbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xbf,0x26,0x72,0x80,0x7b]
-          vgetmantpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
+          vgetmantbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
 
-// CHECK: vgetmantpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vgetmantbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x26,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vgetmantpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
+          vgetmantbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vgetmantpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vgetmantbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xc3,0x7f,0x4f,0x26,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vgetmantpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
+          vgetmantbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vgetmantpbf16 zmm22, word ptr [rip]{1to32}, 123
+// CHECK: vgetmantbf16 zmm22, word ptr [rip]{1to32}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x58,0x26,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vgetmantpbf16 zmm22, word ptr [rip]{1to32}, 123
+          vgetmantbf16 zmm22, word ptr [rip]{1to32}, 123
 
-// CHECK: vgetmantpbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
+// CHECK: vgetmantbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x48,0x26,0x34,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vgetmantpbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
+          vgetmantbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
 
-// CHECK: vgetmantpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
+// CHECK: vgetmantbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xcf,0x26,0x71,0x7f,0x7b]
-          vgetmantpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
+          vgetmantbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
 
-// CHECK: vgetmantpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
+// CHECK: vgetmantbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xdf,0x26,0x72,0x80,0x7b]
-          vgetmantpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
+          vgetmantbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
 
-// CHECK: vmaxpbf16 ymm22, ymm23, ymm24
+// CHECK: vmaxbf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x5f,0xf0]
-          vmaxpbf16 ymm22, ymm23, ymm24
+          vmaxbf16 ymm22, ymm23, ymm24
 
-// CHECK: vmaxpbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vmaxbf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x5f,0xf0]
-          vmaxpbf16 ymm22 {k7}, ymm23, ymm24
+          vmaxbf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vmaxpbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vmaxbf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x5f,0xf0]
-          vmaxpbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vmaxbf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vmaxpbf16 zmm22, zmm23, zmm24
+// CHECK: vmaxbf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x5f,0xf0]
-          vmaxpbf16 zmm22, zmm23, zmm24
+          vmaxbf16 zmm22, zmm23, zmm24
 
-// CHECK: vmaxpbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vmaxbf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x5f,0xf0]
-          vmaxpbf16 zmm22 {k7}, zmm23, zmm24
+          vmaxbf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vmaxpbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vmaxbf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x5f,0xf0]
-          vmaxpbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vmaxbf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vmaxpbf16 xmm22, xmm23, xmm24
+// CHECK: vmaxbf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x5f,0xf0]
-          vmaxpbf16 xmm22, xmm23, xmm24
+          vmaxbf16 xmm22, xmm23, xmm24
 
-// CHECK: vmaxpbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vmaxbf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x5f,0xf0]
-          vmaxpbf16 xmm22 {k7}, xmm23, xmm24
+          vmaxbf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vmaxpbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vmaxbf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x5f,0xf0]
-          vmaxpbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vmaxbf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vmaxpbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vmaxbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x5f,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmaxpbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vmaxbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vmaxpbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vmaxbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x5f,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmaxpbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vmaxbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vmaxpbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vmaxbf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x5f,0x35,0x00,0x00,0x00,0x00]
-          vmaxpbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vmaxbf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vmaxpbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vmaxbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x5f,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vmaxpbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vmaxbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vmaxpbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vmaxbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x5f,0x71,0x7f]
-          vmaxpbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vmaxbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vmaxpbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vmaxbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x5f,0x72,0x80]
-          vmaxpbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vmaxbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vmaxpbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vmaxbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x5f,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmaxpbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vmaxbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vmaxpbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vmaxbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x5f,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmaxpbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vmaxbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vmaxpbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vmaxbf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x5f,0x35,0x00,0x00,0x00,0x00]
-          vmaxpbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vmaxbf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vmaxpbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vmaxbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x5f,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vmaxpbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vmaxbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vmaxpbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vmaxbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x5f,0x71,0x7f]
-          vmaxpbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vmaxbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vmaxpbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vmaxbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x5f,0x72,0x80]
-          vmaxpbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vmaxbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vmaxpbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vmaxbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x5f,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmaxpbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vmaxbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vmaxpbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vmaxbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x5f,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmaxpbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vmaxbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vmaxpbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vmaxbf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x5f,0x35,0x00,0x00,0x00,0x00]
-          vmaxpbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vmaxbf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vmaxpbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vmaxbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x5f,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vmaxpbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vmaxbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vmaxpbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vmaxbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x5f,0x71,0x7f]
-          vmaxpbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vmaxbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vmaxpbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vmaxbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x5f,0x72,0x80]
-          vmaxpbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vmaxbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vminpbf16 ymm22, ymm23, ymm24
+// CHECK: vminbf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x5d,0xf0]
-          vminpbf16 ymm22, ymm23, ymm24
+          vminbf16 ymm22, ymm23, ymm24
 
-// CHECK: vminpbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vminbf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x5d,0xf0]
-          vminpbf16 ymm22 {k7}, ymm23, ymm24
+          vminbf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vminpbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vminbf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x5d,0xf0]
-          vminpbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vminbf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vminpbf16 zmm22, zmm23, zmm24
+// CHECK: vminbf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x5d,0xf0]
-          vminpbf16 zmm22, zmm23, zmm24
+          vminbf16 zmm22, zmm23, zmm24
 
-// CHECK: vminpbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vminbf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x5d,0xf0]
-          vminpbf16 zmm22 {k7}, zmm23, zmm24
+          vminbf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vminpbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vminbf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x5d,0xf0]
-          vminpbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vminbf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vminpbf16 xmm22, xmm23, xmm24
+// CHECK: vminbf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x5d,0xf0]
-          vminpbf16 xmm22, xmm23, xmm24
+          vminbf16 xmm22, xmm23, xmm24
 
-// CHECK: vminpbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vminbf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x5d,0xf0]
-          vminpbf16 xmm22 {k7}, xmm23, xmm24
+          vminbf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vminpbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vminbf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x5d,0xf0]
-          vminpbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vminbf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vminpbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vminbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x5d,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vminpbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vminbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vminpbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vminbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x5d,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vminpbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vminbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vminpbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vminbf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x5d,0x35,0x00,0x00,0x00,0x00]
-          vminpbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vminbf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vminpbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vminbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x5d,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vminpbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vminbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vminpbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vminbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x5d,0x71,0x7f]
-          vminpbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vminbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vminpbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vminbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x5d,0x72,0x80]
-          vminpbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vminbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vminpbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vminbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x5d,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vminpbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vminbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vminpbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vminbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x5d,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vminpbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vminbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vminpbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vminbf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x5d,0x35,0x00,0x00,0x00,0x00]
-          vminpbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vminbf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vminpbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vminbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x5d,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vminpbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vminbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vminpbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vminbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x5d,0x71,0x7f]
-          vminpbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vminbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vminpbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vminbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x5d,0x72,0x80]
-          vminpbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vminbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vminpbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vminbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x5d,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vminpbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vminbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vminpbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vminbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x5d,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vminpbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vminbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vminpbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vminbf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x5d,0x35,0x00,0x00,0x00,0x00]
-          vminpbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vminbf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vminpbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vminbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x5d,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vminpbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vminbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vminpbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vminbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x5d,0x71,0x7f]
-          vminpbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vminbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vminpbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vminbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x5d,0x72,0x80]
-          vminpbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vminbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vmulnepbf16 ymm22, ymm23, ymm24
+// CHECK: vmulbf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x59,0xf0]
-          vmulnepbf16 ymm22, ymm23, ymm24
+          vmulbf16 ymm22, ymm23, ymm24
 
-// CHECK: vmulnepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vmulbf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x59,0xf0]
-          vmulnepbf16 ymm22 {k7}, ymm23, ymm24
+          vmulbf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vmulnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vmulbf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x59,0xf0]
-          vmulnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vmulbf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vmulnepbf16 zmm22, zmm23, zmm24
+// CHECK: vmulbf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x59,0xf0]
-          vmulnepbf16 zmm22, zmm23, zmm24
+          vmulbf16 zmm22, zmm23, zmm24
 
-// CHECK: vmulnepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vmulbf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x59,0xf0]
-          vmulnepbf16 zmm22 {k7}, zmm23, zmm24
+          vmulbf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vmulnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vmulbf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x59,0xf0]
-          vmulnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vmulbf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vmulnepbf16 xmm22, xmm23, xmm24
+// CHECK: vmulbf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x59,0xf0]
-          vmulnepbf16 xmm22, xmm23, xmm24
+          vmulbf16 xmm22, xmm23, xmm24
 
-// CHECK: vmulnepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vmulbf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x59,0xf0]
-          vmulnepbf16 xmm22 {k7}, xmm23, xmm24
+          vmulbf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vmulnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vmulbf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x59,0xf0]
-          vmulnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vmulbf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vmulnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vmulbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x59,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmulnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vmulbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vmulnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vmulbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x59,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmulnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vmulbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vmulnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vmulbf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x59,0x35,0x00,0x00,0x00,0x00]
-          vmulnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vmulbf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vmulnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vmulbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x59,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vmulnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vmulbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vmulnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vmulbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x59,0x71,0x7f]
-          vmulnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vmulbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vmulnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vmulbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x59,0x72,0x80]
-          vmulnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vmulbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vmulnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vmulbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x59,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmulnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vmulbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vmulnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vmulbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x59,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmulnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vmulbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vmulnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vmulbf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x59,0x35,0x00,0x00,0x00,0x00]
-          vmulnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vmulbf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vmulnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vmulbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x59,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vmulnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vmulbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vmulnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vmulbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x59,0x71,0x7f]
-          vmulnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vmulbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vmulnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vmulbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x59,0x72,0x80]
-          vmulnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vmulbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vmulnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vmulbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x59,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vmulnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vmulbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vmulnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vmulbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x59,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vmulnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vmulbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vmulnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vmulbf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x59,0x35,0x00,0x00,0x00,0x00]
-          vmulnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vmulbf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vmulnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vmulbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x59,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vmulnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vmulbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vmulnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vmulbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x59,0x71,0x7f]
-          vmulnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vmulbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vmulnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vmulbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x59,0x72,0x80]
-          vmulnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vmulbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vrcppbf16 xmm22, xmm23
+// CHECK: vrcpbf16 xmm22, xmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x08,0x4c,0xf7]
-          vrcppbf16 xmm22, xmm23
+          vrcpbf16 xmm22, xmm23
 
-// CHECK: vrcppbf16 xmm22 {k7}, xmm23
+// CHECK: vrcpbf16 xmm22 {k7}, xmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x0f,0x4c,0xf7]
-          vrcppbf16 xmm22 {k7}, xmm23
+          vrcpbf16 xmm22 {k7}, xmm23
 
-// CHECK: vrcppbf16 xmm22 {k7} {z}, xmm23
+// CHECK: vrcpbf16 xmm22 {k7} {z}, xmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x8f,0x4c,0xf7]
-          vrcppbf16 xmm22 {k7} {z}, xmm23
+          vrcpbf16 xmm22 {k7} {z}, xmm23
 
-// CHECK: vrcppbf16 zmm22, zmm23
+// CHECK: vrcpbf16 zmm22, zmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x48,0x4c,0xf7]
-          vrcppbf16 zmm22, zmm23
+          vrcpbf16 zmm22, zmm23
 
-// CHECK: vrcppbf16 zmm22 {k7}, zmm23
+// CHECK: vrcpbf16 zmm22 {k7}, zmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x4f,0x4c,0xf7]
-          vrcppbf16 zmm22 {k7}, zmm23
+          vrcpbf16 zmm22 {k7}, zmm23
 
-// CHECK: vrcppbf16 zmm22 {k7} {z}, zmm23
+// CHECK: vrcpbf16 zmm22 {k7} {z}, zmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0xcf,0x4c,0xf7]
-          vrcppbf16 zmm22 {k7} {z}, zmm23
+          vrcpbf16 zmm22 {k7} {z}, zmm23
 
-// CHECK: vrcppbf16 ymm22, ymm23
+// CHECK: vrcpbf16 ymm22, ymm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x28,0x4c,0xf7]
-          vrcppbf16 ymm22, ymm23
+          vrcpbf16 ymm22, ymm23
 
-// CHECK: vrcppbf16 ymm22 {k7}, ymm23
+// CHECK: vrcpbf16 ymm22 {k7}, ymm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x2f,0x4c,0xf7]
-          vrcppbf16 ymm22 {k7}, ymm23
+          vrcpbf16 ymm22 {k7}, ymm23
 
-// CHECK: vrcppbf16 ymm22 {k7} {z}, ymm23
+// CHECK: vrcpbf16 ymm22 {k7} {z}, ymm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0xaf,0x4c,0xf7]
-          vrcppbf16 ymm22 {k7} {z}, ymm23
+          vrcpbf16 ymm22 {k7} {z}, ymm23
 
-// CHECK: vrcppbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vrcpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x7c,0x08,0x4c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrcppbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+          vrcpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vrcppbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vrcpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x7c,0x0f,0x4c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrcppbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+          vrcpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vrcppbf16 xmm22, word ptr [rip]{1to8}
+// CHECK: vrcpbf16 xmm22, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x18,0x4c,0x35,0x00,0x00,0x00,0x00]
-          vrcppbf16 xmm22, word ptr [rip]{1to8}
+          vrcpbf16 xmm22, word ptr [rip]{1to8}
 
-// CHECK: vrcppbf16 xmm22, xmmword ptr [2*rbp - 512]
+// CHECK: vrcpbf16 xmm22, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x7c,0x08,0x4c,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vrcppbf16 xmm22, xmmword ptr [2*rbp - 512]
+          vrcpbf16 xmm22, xmmword ptr [2*rbp - 512]
 
-// CHECK: vrcppbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+// CHECK: vrcpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x7c,0x8f,0x4c,0x71,0x7f]
-          vrcppbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+          vrcpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 
-// CHECK: vrcppbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+// CHECK: vrcpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x9f,0x4c,0x72,0x80]
-          vrcppbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+          vrcpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 
-// CHECK: vrcppbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vrcpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x7c,0x28,0x4c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrcppbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+          vrcpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vrcppbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vrcpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x7c,0x2f,0x4c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrcppbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+          vrcpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vrcppbf16 ymm22, word ptr [rip]{1to16}
+// CHECK: vrcpbf16 ymm22, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x38,0x4c,0x35,0x00,0x00,0x00,0x00]
-          vrcppbf16 ymm22, word ptr [rip]{1to16}
+          vrcpbf16 ymm22, word ptr [rip]{1to16}
 
-// CHECK: vrcppbf16 ymm22, ymmword ptr [2*rbp - 1024]
+// CHECK: vrcpbf16 ymm22, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x7c,0x28,0x4c,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vrcppbf16 ymm22, ymmword ptr [2*rbp - 1024]
+          vrcpbf16 ymm22, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vrcppbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+// CHECK: vrcpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x7c,0xaf,0x4c,0x71,0x7f]
-          vrcppbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+          vrcpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 
-// CHECK: vrcppbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+// CHECK: vrcpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xbf,0x4c,0x72,0x80]
-          vrcppbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+          vrcpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 
-// CHECK: vrcppbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vrcpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x7c,0x48,0x4c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrcppbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+          vrcpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vrcppbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vrcpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x7c,0x4f,0x4c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrcppbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+          vrcpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vrcppbf16 zmm22, word ptr [rip]{1to32}
+// CHECK: vrcpbf16 zmm22, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x58,0x4c,0x35,0x00,0x00,0x00,0x00]
-          vrcppbf16 zmm22, word ptr [rip]{1to32}
+          vrcpbf16 zmm22, word ptr [rip]{1to32}
 
-// CHECK: vrcppbf16 zmm22, zmmword ptr [2*rbp - 2048]
+// CHECK: vrcpbf16 zmm22, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x7c,0x48,0x4c,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vrcppbf16 zmm22, zmmword ptr [2*rbp - 2048]
+          vrcpbf16 zmm22, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vrcppbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+// CHECK: vrcpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x7c,0xcf,0x4c,0x71,0x7f]
-          vrcppbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+          vrcpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 
-// CHECK: vrcppbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+// CHECK: vrcpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xdf,0x4c,0x72,0x80]
-          vrcppbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+          vrcpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 
-// CHECK: vreducenepbf16 zmm22, zmm23, 123
+// CHECK: vreducebf16 zmm22, zmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x56,0xf7,0x7b]
-          vreducenepbf16 zmm22, zmm23, 123
+          vreducebf16 zmm22, zmm23, 123
 
-// CHECK: vreducenepbf16 zmm22 {k7}, zmm23, 123
+// CHECK: vreducebf16 zmm22 {k7}, zmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x4f,0x56,0xf7,0x7b]
-          vreducenepbf16 zmm22 {k7}, zmm23, 123
+          vreducebf16 zmm22 {k7}, zmm23, 123
 
-// CHECK: vreducenepbf16 zmm22 {k7} {z}, zmm23, 123
+// CHECK: vreducebf16 zmm22 {k7} {z}, zmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0xcf,0x56,0xf7,0x7b]
-          vreducenepbf16 zmm22 {k7} {z}, zmm23, 123
+          vreducebf16 zmm22 {k7} {z}, zmm23, 123
 
-// CHECK: vreducenepbf16 ymm22, ymm23, 123
+// CHECK: vreducebf16 ymm22, ymm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x56,0xf7,0x7b]
-          vreducenepbf16 ymm22, ymm23, 123
+          vreducebf16 ymm22, ymm23, 123
 
-// CHECK: vreducenepbf16 ymm22 {k7}, ymm23, 123
+// CHECK: vreducebf16 ymm22 {k7}, ymm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x2f,0x56,0xf7,0x7b]
-          vreducenepbf16 ymm22 {k7}, ymm23, 123
+          vreducebf16 ymm22 {k7}, ymm23, 123
 
-// CHECK: vreducenepbf16 ymm22 {k7} {z}, ymm23, 123
+// CHECK: vreducebf16 ymm22 {k7} {z}, ymm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0xaf,0x56,0xf7,0x7b]
-          vreducenepbf16 ymm22 {k7} {z}, ymm23, 123
+          vreducebf16 ymm22 {k7} {z}, ymm23, 123
 
-// CHECK: vreducenepbf16 xmm22, xmm23, 123
+// CHECK: vreducebf16 xmm22, xmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x56,0xf7,0x7b]
-          vreducenepbf16 xmm22, xmm23, 123
+          vreducebf16 xmm22, xmm23, 123
 
-// CHECK: vreducenepbf16 xmm22 {k7}, xmm23, 123
+// CHECK: vreducebf16 xmm22 {k7}, xmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x0f,0x56,0xf7,0x7b]
-          vreducenepbf16 xmm22 {k7}, xmm23, 123
+          vreducebf16 xmm22 {k7}, xmm23, 123
 
-// CHECK: vreducenepbf16 xmm22 {k7} {z}, xmm23, 123
+// CHECK: vreducebf16 xmm22 {k7} {z}, xmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x8f,0x56,0xf7,0x7b]
-          vreducenepbf16 xmm22 {k7} {z}, xmm23, 123
+          vreducebf16 xmm22 {k7} {z}, xmm23, 123
 
-// CHECK: vreducenepbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vreducebf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x56,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
+          vreducebf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vreducenepbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vreducebf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xc3,0x7f,0x0f,0x56,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+          vreducebf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vreducenepbf16 xmm22, word ptr [rip]{1to8}, 123
+// CHECK: vreducebf16 xmm22, word ptr [rip]{1to8}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x18,0x56,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vreducenepbf16 xmm22, word ptr [rip]{1to8}, 123
+          vreducebf16 xmm22, word ptr [rip]{1to8}, 123
 
-// CHECK: vreducenepbf16 xmm22, xmmword ptr [2*rbp - 512], 123
+// CHECK: vreducebf16 xmm22, xmmword ptr [2*rbp - 512], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x08,0x56,0x34,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vreducenepbf16 xmm22, xmmword ptr [2*rbp - 512], 123
+          vreducebf16 xmm22, xmmword ptr [2*rbp - 512], 123
 
-// CHECK: vreducenepbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
+// CHECK: vreducebf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x8f,0x56,0x71,0x7f,0x7b]
-          vreducenepbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
+          vreducebf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
 
-// CHECK: vreducenepbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
+// CHECK: vreducebf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x9f,0x56,0x72,0x80,0x7b]
-          vreducenepbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
+          vreducebf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
 
-// CHECK: vreducenepbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vreducebf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x56,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
+          vreducebf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vreducenepbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vreducebf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xc3,0x7f,0x2f,0x56,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
+          vreducebf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vreducenepbf16 ymm22, word ptr [rip]{1to16}, 123
+// CHECK: vreducebf16 ymm22, word ptr [rip]{1to16}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x38,0x56,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vreducenepbf16 ymm22, word ptr [rip]{1to16}, 123
+          vreducebf16 ymm22, word ptr [rip]{1to16}, 123
 
-// CHECK: vreducenepbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
+// CHECK: vreducebf16 ymm22, ymmword ptr [2*rbp - 1024], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x28,0x56,0x34,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vreducenepbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
+          vreducebf16 ymm22, ymmword ptr [2*rbp - 1024], 123
 
-// CHECK: vreducenepbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
+// CHECK: vreducebf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xaf,0x56,0x71,0x7f,0x7b]
-          vreducenepbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
+          vreducebf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
 
-// CHECK: vreducenepbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
+// CHECK: vreducebf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xbf,0x56,0x72,0x80,0x7b]
-          vreducenepbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
+          vreducebf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
 
-// CHECK: vreducenepbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vreducebf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x56,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vreducenepbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
+          vreducebf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vreducenepbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vreducebf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xc3,0x7f,0x4f,0x56,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vreducenepbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
+          vreducebf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vreducenepbf16 zmm22, word ptr [rip]{1to32}, 123
+// CHECK: vreducebf16 zmm22, word ptr [rip]{1to32}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x58,0x56,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vreducenepbf16 zmm22, word ptr [rip]{1to32}, 123
+          vreducebf16 zmm22, word ptr [rip]{1to32}, 123
 
-// CHECK: vreducenepbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
+// CHECK: vreducebf16 zmm22, zmmword ptr [2*rbp - 2048], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x48,0x56,0x34,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vreducenepbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
+          vreducebf16 zmm22, zmmword ptr [2*rbp - 2048], 123
 
-// CHECK: vreducenepbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
+// CHECK: vreducebf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xcf,0x56,0x71,0x7f,0x7b]
-          vreducenepbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
+          vreducebf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
 
-// CHECK: vreducenepbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
+// CHECK: vreducebf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xdf,0x56,0x72,0x80,0x7b]
-          vreducenepbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
+          vreducebf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
 
-// CHECK: vrndscalenepbf16 zmm22, zmm23, 123
+// CHECK: vrndscalebf16 zmm22, zmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x08,0xf7,0x7b]
-          vrndscalenepbf16 zmm22, zmm23, 123
+          vrndscalebf16 zmm22, zmm23, 123
 
-// CHECK: vrndscalenepbf16 zmm22 {k7}, zmm23, 123
+// CHECK: vrndscalebf16 zmm22 {k7}, zmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x4f,0x08,0xf7,0x7b]
-          vrndscalenepbf16 zmm22 {k7}, zmm23, 123
+          vrndscalebf16 zmm22 {k7}, zmm23, 123
 
-// CHECK: vrndscalenepbf16 zmm22 {k7} {z}, zmm23, 123
+// CHECK: vrndscalebf16 zmm22 {k7} {z}, zmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0xcf,0x08,0xf7,0x7b]
-          vrndscalenepbf16 zmm22 {k7} {z}, zmm23, 123
+          vrndscalebf16 zmm22 {k7} {z}, zmm23, 123
 
-// CHECK: vrndscalenepbf16 ymm22, ymm23, 123
+// CHECK: vrndscalebf16 ymm22, ymm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x08,0xf7,0x7b]
-          vrndscalenepbf16 ymm22, ymm23, 123
+          vrndscalebf16 ymm22, ymm23, 123
 
-// CHECK: vrndscalenepbf16 ymm22 {k7}, ymm23, 123
+// CHECK: vrndscalebf16 ymm22 {k7}, ymm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x2f,0x08,0xf7,0x7b]
-          vrndscalenepbf16 ymm22 {k7}, ymm23, 123
+          vrndscalebf16 ymm22 {k7}, ymm23, 123
 
-// CHECK: vrndscalenepbf16 ymm22 {k7} {z}, ymm23, 123
+// CHECK: vrndscalebf16 ymm22 {k7} {z}, ymm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0xaf,0x08,0xf7,0x7b]
-          vrndscalenepbf16 ymm22 {k7} {z}, ymm23, 123
+          vrndscalebf16 ymm22 {k7} {z}, ymm23, 123
 
-// CHECK: vrndscalenepbf16 xmm22, xmm23, 123
+// CHECK: vrndscalebf16 xmm22, xmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x08,0xf7,0x7b]
-          vrndscalenepbf16 xmm22, xmm23, 123
+          vrndscalebf16 xmm22, xmm23, 123
 
-// CHECK: vrndscalenepbf16 xmm22 {k7}, xmm23, 123
+// CHECK: vrndscalebf16 xmm22 {k7}, xmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x0f,0x08,0xf7,0x7b]
-          vrndscalenepbf16 xmm22 {k7}, xmm23, 123
+          vrndscalebf16 xmm22 {k7}, xmm23, 123
 
-// CHECK: vrndscalenepbf16 xmm22 {k7} {z}, xmm23, 123
+// CHECK: vrndscalebf16 xmm22 {k7} {z}, xmm23, 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x8f,0x08,0xf7,0x7b]
-          vrndscalenepbf16 xmm22 {k7} {z}, xmm23, 123
+          vrndscalebf16 xmm22 {k7} {z}, xmm23, 123
 
-// CHECK: vrndscalenepbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vrndscalebf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x08,0x08,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
+          vrndscalebf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vrndscalenepbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vrndscalebf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xc3,0x7f,0x0f,0x08,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
+          vrndscalebf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vrndscalenepbf16 xmm22, word ptr [rip]{1to8}, 123
+// CHECK: vrndscalebf16 xmm22, word ptr [rip]{1to8}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x18,0x08,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vrndscalenepbf16 xmm22, word ptr [rip]{1to8}, 123
+          vrndscalebf16 xmm22, word ptr [rip]{1to8}, 123
 
-// CHECK: vrndscalenepbf16 xmm22, xmmword ptr [2*rbp - 512], 123
+// CHECK: vrndscalebf16 xmm22, xmmword ptr [2*rbp - 512], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x08,0x08,0x34,0x6d,0x00,0xfe,0xff,0xff,0x7b]
-          vrndscalenepbf16 xmm22, xmmword ptr [2*rbp - 512], 123
+          vrndscalebf16 xmm22, xmmword ptr [2*rbp - 512], 123
 
-// CHECK: vrndscalenepbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
+// CHECK: vrndscalebf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x8f,0x08,0x71,0x7f,0x7b]
-          vrndscalenepbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
+          vrndscalebf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032], 123
 
-// CHECK: vrndscalenepbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
+// CHECK: vrndscalebf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x9f,0x08,0x72,0x80,0x7b]
-          vrndscalenepbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
+          vrndscalebf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}, 123
 
-// CHECK: vrndscalenepbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vrndscalebf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x28,0x08,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
+          vrndscalebf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vrndscalenepbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vrndscalebf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xc3,0x7f,0x2f,0x08,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
+          vrndscalebf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vrndscalenepbf16 ymm22, word ptr [rip]{1to16}, 123
+// CHECK: vrndscalebf16 ymm22, word ptr [rip]{1to16}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x38,0x08,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vrndscalenepbf16 ymm22, word ptr [rip]{1to16}, 123
+          vrndscalebf16 ymm22, word ptr [rip]{1to16}, 123
 
-// CHECK: vrndscalenepbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
+// CHECK: vrndscalebf16 ymm22, ymmword ptr [2*rbp - 1024], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x28,0x08,0x34,0x6d,0x00,0xfc,0xff,0xff,0x7b]
-          vrndscalenepbf16 ymm22, ymmword ptr [2*rbp - 1024], 123
+          vrndscalebf16 ymm22, ymmword ptr [2*rbp - 1024], 123
 
-// CHECK: vrndscalenepbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
+// CHECK: vrndscalebf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xaf,0x08,0x71,0x7f,0x7b]
-          vrndscalenepbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
+          vrndscalebf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064], 123
 
-// CHECK: vrndscalenepbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
+// CHECK: vrndscalebf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xbf,0x08,0x72,0x80,0x7b]
-          vrndscalenepbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
+          vrndscalebf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}, 123
 
-// CHECK: vrndscalenepbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
+// CHECK: vrndscalebf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
 // CHECK: encoding: [0x62,0xa3,0x7f,0x48,0x08,0xb4,0xf5,0x00,0x00,0x00,0x10,0x7b]
-          vrndscalenepbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
+          vrndscalebf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456], 123
 
-// CHECK: vrndscalenepbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
+// CHECK: vrndscalebf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
 // CHECK: encoding: [0x62,0xc3,0x7f,0x4f,0x08,0xb4,0x80,0x23,0x01,0x00,0x00,0x7b]
-          vrndscalenepbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
+          vrndscalebf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291], 123
 
-// CHECK: vrndscalenepbf16 zmm22, word ptr [rip]{1to32}, 123
+// CHECK: vrndscalebf16 zmm22, word ptr [rip]{1to32}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x58,0x08,0x35,0x00,0x00,0x00,0x00,0x7b]
-          vrndscalenepbf16 zmm22, word ptr [rip]{1to32}, 123
+          vrndscalebf16 zmm22, word ptr [rip]{1to32}, 123
 
-// CHECK: vrndscalenepbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
+// CHECK: vrndscalebf16 zmm22, zmmword ptr [2*rbp - 2048], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0x48,0x08,0x34,0x6d,0x00,0xf8,0xff,0xff,0x7b]
-          vrndscalenepbf16 zmm22, zmmword ptr [2*rbp - 2048], 123
+          vrndscalebf16 zmm22, zmmword ptr [2*rbp - 2048], 123
 
-// CHECK: vrndscalenepbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
+// CHECK: vrndscalebf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xcf,0x08,0x71,0x7f,0x7b]
-          vrndscalenepbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
+          vrndscalebf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128], 123
 
-// CHECK: vrndscalenepbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
+// CHECK: vrndscalebf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
 // CHECK: encoding: [0x62,0xe3,0x7f,0xdf,0x08,0x72,0x80,0x7b]
-          vrndscalenepbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
+          vrndscalebf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}, 123
 
-// CHECK: vrsqrtpbf16 xmm22, xmm23
+// CHECK: vrsqrtbf16 xmm22, xmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x08,0x4e,0xf7]
-          vrsqrtpbf16 xmm22, xmm23
+          vrsqrtbf16 xmm22, xmm23
 
-// CHECK: vrsqrtpbf16 xmm22 {k7}, xmm23
+// CHECK: vrsqrtbf16 xmm22 {k7}, xmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x0f,0x4e,0xf7]
-          vrsqrtpbf16 xmm22 {k7}, xmm23
+          vrsqrtbf16 xmm22 {k7}, xmm23
 
-// CHECK: vrsqrtpbf16 xmm22 {k7} {z}, xmm23
+// CHECK: vrsqrtbf16 xmm22 {k7} {z}, xmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x8f,0x4e,0xf7]
-          vrsqrtpbf16 xmm22 {k7} {z}, xmm23
+          vrsqrtbf16 xmm22 {k7} {z}, xmm23
 
-// CHECK: vrsqrtpbf16 zmm22, zmm23
+// CHECK: vrsqrtbf16 zmm22, zmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x48,0x4e,0xf7]
-          vrsqrtpbf16 zmm22, zmm23
+          vrsqrtbf16 zmm22, zmm23
 
-// CHECK: vrsqrtpbf16 zmm22 {k7}, zmm23
+// CHECK: vrsqrtbf16 zmm22 {k7}, zmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x4f,0x4e,0xf7]
-          vrsqrtpbf16 zmm22 {k7}, zmm23
+          vrsqrtbf16 zmm22 {k7}, zmm23
 
-// CHECK: vrsqrtpbf16 zmm22 {k7} {z}, zmm23
+// CHECK: vrsqrtbf16 zmm22 {k7} {z}, zmm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0xcf,0x4e,0xf7]
-          vrsqrtpbf16 zmm22 {k7} {z}, zmm23
+          vrsqrtbf16 zmm22 {k7} {z}, zmm23
 
-// CHECK: vrsqrtpbf16 ymm22, ymm23
+// CHECK: vrsqrtbf16 ymm22, ymm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x28,0x4e,0xf7]
-          vrsqrtpbf16 ymm22, ymm23
+          vrsqrtbf16 ymm22, ymm23
 
-// CHECK: vrsqrtpbf16 ymm22 {k7}, ymm23
+// CHECK: vrsqrtbf16 ymm22 {k7}, ymm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0x2f,0x4e,0xf7]
-          vrsqrtpbf16 ymm22 {k7}, ymm23
+          vrsqrtbf16 ymm22 {k7}, ymm23
 
-// CHECK: vrsqrtpbf16 ymm22 {k7} {z}, ymm23
+// CHECK: vrsqrtbf16 ymm22 {k7} {z}, ymm23
 // CHECK: encoding: [0x62,0xa6,0x7c,0xaf,0x4e,0xf7]
-          vrsqrtpbf16 ymm22 {k7} {z}, ymm23
+          vrsqrtbf16 ymm22 {k7} {z}, ymm23
 
-// CHECK: vrsqrtpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vrsqrtbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x7c,0x08,0x4e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+          vrsqrtbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vrsqrtpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vrsqrtbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x7c,0x0f,0x4e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+          vrsqrtbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vrsqrtpbf16 xmm22, word ptr [rip]{1to8}
+// CHECK: vrsqrtbf16 xmm22, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x18,0x4e,0x35,0x00,0x00,0x00,0x00]
-          vrsqrtpbf16 xmm22, word ptr [rip]{1to8}
+          vrsqrtbf16 xmm22, word ptr [rip]{1to8}
 
-// CHECK: vrsqrtpbf16 xmm22, xmmword ptr [2*rbp - 512]
+// CHECK: vrsqrtbf16 xmm22, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x7c,0x08,0x4e,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vrsqrtpbf16 xmm22, xmmword ptr [2*rbp - 512]
+          vrsqrtbf16 xmm22, xmmword ptr [2*rbp - 512]
 
-// CHECK: vrsqrtpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+// CHECK: vrsqrtbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x7c,0x8f,0x4e,0x71,0x7f]
-          vrsqrtpbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+          vrsqrtbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 
-// CHECK: vrsqrtpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+// CHECK: vrsqrtbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x9f,0x4e,0x72,0x80]
-          vrsqrtpbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+          vrsqrtbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 
-// CHECK: vrsqrtpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vrsqrtbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x7c,0x28,0x4e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+          vrsqrtbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vrsqrtpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vrsqrtbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x7c,0x2f,0x4e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+          vrsqrtbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vrsqrtpbf16 ymm22, word ptr [rip]{1to16}
+// CHECK: vrsqrtbf16 ymm22, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x38,0x4e,0x35,0x00,0x00,0x00,0x00]
-          vrsqrtpbf16 ymm22, word ptr [rip]{1to16}
+          vrsqrtbf16 ymm22, word ptr [rip]{1to16}
 
-// CHECK: vrsqrtpbf16 ymm22, ymmword ptr [2*rbp - 1024]
+// CHECK: vrsqrtbf16 ymm22, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x7c,0x28,0x4e,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vrsqrtpbf16 ymm22, ymmword ptr [2*rbp - 1024]
+          vrsqrtbf16 ymm22, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vrsqrtpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+// CHECK: vrsqrtbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x7c,0xaf,0x4e,0x71,0x7f]
-          vrsqrtpbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+          vrsqrtbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 
-// CHECK: vrsqrtpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+// CHECK: vrsqrtbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xbf,0x4e,0x72,0x80]
-          vrsqrtpbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+          vrsqrtbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 
-// CHECK: vrsqrtpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vrsqrtbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x7c,0x48,0x4e,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vrsqrtpbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+          vrsqrtbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vrsqrtpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vrsqrtbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x7c,0x4f,0x4e,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vrsqrtpbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+          vrsqrtbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vrsqrtpbf16 zmm22, word ptr [rip]{1to32}
+// CHECK: vrsqrtbf16 zmm22, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x7c,0x58,0x4e,0x35,0x00,0x00,0x00,0x00]
-          vrsqrtpbf16 zmm22, word ptr [rip]{1to32}
+          vrsqrtbf16 zmm22, word ptr [rip]{1to32}
 
-// CHECK: vrsqrtpbf16 zmm22, zmmword ptr [2*rbp - 2048]
+// CHECK: vrsqrtbf16 zmm22, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x7c,0x48,0x4e,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vrsqrtpbf16 zmm22, zmmword ptr [2*rbp - 2048]
+          vrsqrtbf16 zmm22, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vrsqrtpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+// CHECK: vrsqrtbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x7c,0xcf,0x4e,0x71,0x7f]
-          vrsqrtpbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+          vrsqrtbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 
-// CHECK: vrsqrtpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+// CHECK: vrsqrtbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x7c,0xdf,0x4e,0x72,0x80]
-          vrsqrtpbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+          vrsqrtbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 
-// CHECK: vscalefpbf16 ymm22, ymm23, ymm24
+// CHECK: vscalefbf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x20,0x2c,0xf0]
-          vscalefpbf16 ymm22, ymm23, ymm24
+          vscalefbf16 ymm22, ymm23, ymm24
 
-// CHECK: vscalefpbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vscalefbf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0x27,0x2c,0xf0]
-          vscalefpbf16 ymm22 {k7}, ymm23, ymm24
+          vscalefbf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vscalefpbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vscalefbf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x86,0x44,0xa7,0x2c,0xf0]
-          vscalefpbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vscalefbf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vscalefpbf16 zmm22, zmm23, zmm24
+// CHECK: vscalefbf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x40,0x2c,0xf0]
-          vscalefpbf16 zmm22, zmm23, zmm24
+          vscalefbf16 zmm22, zmm23, zmm24
 
-// CHECK: vscalefpbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vscalefbf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x47,0x2c,0xf0]
-          vscalefpbf16 zmm22 {k7}, zmm23, zmm24
+          vscalefbf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vscalefpbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vscalefbf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x86,0x44,0xc7,0x2c,0xf0]
-          vscalefpbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vscalefbf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vscalefpbf16 xmm22, xmm23, xmm24
+// CHECK: vscalefbf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x00,0x2c,0xf0]
-          vscalefpbf16 xmm22, xmm23, xmm24
+          vscalefbf16 xmm22, xmm23, xmm24
 
-// CHECK: vscalefpbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vscalefbf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x07,0x2c,0xf0]
-          vscalefpbf16 xmm22 {k7}, xmm23, xmm24
+          vscalefbf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vscalefpbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vscalefbf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x86,0x44,0x87,0x2c,0xf0]
-          vscalefpbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vscalefbf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vscalefpbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vscalefbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x40,0x2c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vscalefpbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vscalefbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vscalefpbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vscalefbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x47,0x2c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vscalefpbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vscalefbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vscalefpbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vscalefbf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0x50,0x2c,0x35,0x00,0x00,0x00,0x00]
-          vscalefpbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vscalefbf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vscalefpbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vscalefbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe6,0x44,0x40,0x2c,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vscalefpbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vscalefbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vscalefpbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vscalefbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe6,0x44,0xc7,0x2c,0x71,0x7f]
-          vscalefpbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vscalefbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vscalefpbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vscalefbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe6,0x44,0xd7,0x2c,0x72,0x80]
-          vscalefpbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vscalefbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vscalefpbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vscalefbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x20,0x2c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vscalefpbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vscalefbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vscalefpbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vscalefbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x27,0x2c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vscalefpbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vscalefbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vscalefpbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vscalefbf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0x30,0x2c,0x35,0x00,0x00,0x00,0x00]
-          vscalefpbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vscalefbf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vscalefpbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vscalefbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe6,0x44,0x20,0x2c,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vscalefpbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vscalefbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vscalefpbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vscalefbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe6,0x44,0xa7,0x2c,0x71,0x7f]
-          vscalefpbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vscalefbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vscalefpbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vscalefbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe6,0x44,0xb7,0x2c,0x72,0x80]
-          vscalefpbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vscalefbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vscalefpbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vscalefbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa6,0x44,0x00,0x2c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vscalefpbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vscalefbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vscalefpbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vscalefbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc6,0x44,0x07,0x2c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vscalefpbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vscalefbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vscalefpbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vscalefbf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x10,0x2c,0x35,0x00,0x00,0x00,0x00]
-          vscalefpbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vscalefbf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vscalefpbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vscalefbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe6,0x44,0x00,0x2c,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vscalefpbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vscalefbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vscalefpbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vscalefbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe6,0x44,0x87,0x2c,0x71,0x7f]
-          vscalefpbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vscalefbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vscalefpbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vscalefbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe6,0x44,0x97,0x2c,0x72,0x80]
-          vscalefpbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vscalefbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vsqrtnepbf16 xmm22, xmm23
+// CHECK: vsqrtbf16 xmm22, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x51,0xf7]
-          vsqrtnepbf16 xmm22, xmm23
+          vsqrtbf16 xmm22, xmm23
 
-// CHECK: vsqrtnepbf16 xmm22 {k7}, xmm23
+// CHECK: vsqrtbf16 xmm22 {k7}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x0f,0x51,0xf7]
-          vsqrtnepbf16 xmm22 {k7}, xmm23
+          vsqrtbf16 xmm22 {k7}, xmm23
 
-// CHECK: vsqrtnepbf16 xmm22 {k7} {z}, xmm23
+// CHECK: vsqrtbf16 xmm22 {k7} {z}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x8f,0x51,0xf7]
-          vsqrtnepbf16 xmm22 {k7} {z}, xmm23
+          vsqrtbf16 xmm22 {k7} {z}, xmm23
 
-// CHECK: vsqrtnepbf16 zmm22, zmm23
+// CHECK: vsqrtbf16 zmm22, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x48,0x51,0xf7]
-          vsqrtnepbf16 zmm22, zmm23
+          vsqrtbf16 zmm22, zmm23
 
-// CHECK: vsqrtnepbf16 zmm22 {k7}, zmm23
+// CHECK: vsqrtbf16 zmm22 {k7}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x4f,0x51,0xf7]
-          vsqrtnepbf16 zmm22 {k7}, zmm23
+          vsqrtbf16 zmm22 {k7}, zmm23
 
-// CHECK: vsqrtnepbf16 zmm22 {k7} {z}, zmm23
+// CHECK: vsqrtbf16 zmm22 {k7} {z}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0xcf,0x51,0xf7]
-          vsqrtnepbf16 zmm22 {k7} {z}, zmm23
+          vsqrtbf16 zmm22 {k7} {z}, zmm23
 
-// CHECK: vsqrtnepbf16 ymm22, ymm23
+// CHECK: vsqrtbf16 ymm22, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x28,0x51,0xf7]
-          vsqrtnepbf16 ymm22, ymm23
+          vsqrtbf16 ymm22, ymm23
 
-// CHECK: vsqrtnepbf16 ymm22 {k7}, ymm23
+// CHECK: vsqrtbf16 ymm22 {k7}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0x2f,0x51,0xf7]
-          vsqrtnepbf16 ymm22 {k7}, ymm23
+          vsqrtbf16 ymm22 {k7}, ymm23
 
-// CHECK: vsqrtnepbf16 ymm22 {k7} {z}, ymm23
+// CHECK: vsqrtbf16 ymm22 {k7} {z}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7d,0xaf,0x51,0xf7]
-          vsqrtnepbf16 ymm22 {k7} {z}, ymm23
+          vsqrtbf16 ymm22 {k7} {z}, ymm23
 
-// CHECK: vsqrtnepbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vsqrtbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7d,0x08,0x51,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+          vsqrtbf16 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vsqrtnepbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vsqrtbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7d,0x0f,0x51,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+          vsqrtbf16 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vsqrtnepbf16 xmm22, word ptr [rip]{1to8}
+// CHECK: vsqrtbf16 xmm22, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x18,0x51,0x35,0x00,0x00,0x00,0x00]
-          vsqrtnepbf16 xmm22, word ptr [rip]{1to8}
+          vsqrtbf16 xmm22, word ptr [rip]{1to8}
 
-// CHECK: vsqrtnepbf16 xmm22, xmmword ptr [2*rbp - 512]
+// CHECK: vsqrtbf16 xmm22, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x08,0x51,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vsqrtnepbf16 xmm22, xmmword ptr [2*rbp - 512]
+          vsqrtbf16 xmm22, xmmword ptr [2*rbp - 512]
 
-// CHECK: vsqrtnepbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+// CHECK: vsqrtbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x8f,0x51,0x71,0x7f]
-          vsqrtnepbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+          vsqrtbf16 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 
-// CHECK: vsqrtnepbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+// CHECK: vsqrtbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x9f,0x51,0x72,0x80]
-          vsqrtnepbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+          vsqrtbf16 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 
-// CHECK: vsqrtnepbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vsqrtbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7d,0x28,0x51,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
+          vsqrtbf16 ymm22, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vsqrtnepbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vsqrtbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7d,0x2f,0x51,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
+          vsqrtbf16 ymm22 {k7}, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vsqrtnepbf16 ymm22, word ptr [rip]{1to16}
+// CHECK: vsqrtbf16 ymm22, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x38,0x51,0x35,0x00,0x00,0x00,0x00]
-          vsqrtnepbf16 ymm22, word ptr [rip]{1to16}
+          vsqrtbf16 ymm22, word ptr [rip]{1to16}
 
-// CHECK: vsqrtnepbf16 ymm22, ymmword ptr [2*rbp - 1024]
+// CHECK: vsqrtbf16 ymm22, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x28,0x51,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vsqrtnepbf16 ymm22, ymmword ptr [2*rbp - 1024]
+          vsqrtbf16 ymm22, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vsqrtnepbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+// CHECK: vsqrtbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x7d,0xaf,0x51,0x71,0x7f]
-          vsqrtnepbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
+          vsqrtbf16 ymm22 {k7} {z}, ymmword ptr [rcx + 4064]
 
-// CHECK: vsqrtnepbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+// CHECK: vsqrtbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xbf,0x51,0x72,0x80]
-          vsqrtnepbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+          vsqrtbf16 ymm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 
-// CHECK: vsqrtnepbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vsqrtbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7d,0x48,0x51,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsqrtnepbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
+          vsqrtbf16 zmm22, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vsqrtnepbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vsqrtbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7d,0x4f,0x51,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsqrtnepbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+          vsqrtbf16 zmm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vsqrtnepbf16 zmm22, word ptr [rip]{1to32}
+// CHECK: vsqrtbf16 zmm22, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7d,0x58,0x51,0x35,0x00,0x00,0x00,0x00]
-          vsqrtnepbf16 zmm22, word ptr [rip]{1to32}
+          vsqrtbf16 zmm22, word ptr [rip]{1to32}
 
-// CHECK: vsqrtnepbf16 zmm22, zmmword ptr [2*rbp - 2048]
+// CHECK: vsqrtbf16 zmm22, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x7d,0x48,0x51,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vsqrtnepbf16 zmm22, zmmword ptr [2*rbp - 2048]
+          vsqrtbf16 zmm22, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vsqrtnepbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+// CHECK: vsqrtbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x7d,0xcf,0x51,0x71,0x7f]
-          vsqrtnepbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
+          vsqrtbf16 zmm22 {k7} {z}, zmmword ptr [rcx + 8128]
 
-// CHECK: vsqrtnepbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+// CHECK: vsqrtbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7d,0xdf,0x51,0x72,0x80]
-          vsqrtnepbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+          vsqrtbf16 zmm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 
-// CHECK: vsubnepbf16 ymm22, ymm23, ymm24
+// CHECK: vsubbf16 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x20,0x5c,0xf0]
-          vsubnepbf16 ymm22, ymm23, ymm24
+          vsubbf16 ymm22, ymm23, ymm24
 
-// CHECK: vsubnepbf16 ymm22 {k7}, ymm23, ymm24
+// CHECK: vsubbf16 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0x27,0x5c,0xf0]
-          vsubnepbf16 ymm22 {k7}, ymm23, ymm24
+          vsubbf16 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vsubnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vsubbf16 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x45,0xa7,0x5c,0xf0]
-          vsubnepbf16 ymm22 {k7} {z}, ymm23, ymm24
+          vsubbf16 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vsubnepbf16 zmm22, zmm23, zmm24
+// CHECK: vsubbf16 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x40,0x5c,0xf0]
-          vsubnepbf16 zmm22, zmm23, zmm24
+          vsubbf16 zmm22, zmm23, zmm24
 
-// CHECK: vsubnepbf16 zmm22 {k7}, zmm23, zmm24
+// CHECK: vsubbf16 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x47,0x5c,0xf0]
-          vsubnepbf16 zmm22 {k7}, zmm23, zmm24
+          vsubbf16 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vsubnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vsubbf16 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x45,0xc7,0x5c,0xf0]
-          vsubnepbf16 zmm22 {k7} {z}, zmm23, zmm24
+          vsubbf16 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vsubnepbf16 xmm22, xmm23, xmm24
+// CHECK: vsubbf16 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x00,0x5c,0xf0]
-          vsubnepbf16 xmm22, xmm23, xmm24
+          vsubbf16 xmm22, xmm23, xmm24
 
-// CHECK: vsubnepbf16 xmm22 {k7}, xmm23, xmm24
+// CHECK: vsubbf16 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x07,0x5c,0xf0]
-          vsubnepbf16 xmm22 {k7}, xmm23, xmm24
+          vsubbf16 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vsubnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vsubbf16 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x45,0x87,0x5c,0xf0]
-          vsubnepbf16 xmm22 {k7} {z}, xmm23, xmm24
+          vsubbf16 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vsubnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vsubbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x40,0x5c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsubnepbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vsubbf16 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vsubnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vsubbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x47,0x5c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsubnepbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vsubbf16 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vsubnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vsubbf16 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0x50,0x5c,0x35,0x00,0x00,0x00,0x00]
-          vsubnepbf16 zmm22, zmm23, word ptr [rip]{1to32}
+          vsubbf16 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vsubnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vsubbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x45,0x40,0x5c,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vsubnepbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vsubbf16 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vsubnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vsubbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x45,0xc7,0x5c,0x71,0x7f]
-          vsubnepbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vsubbf16 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vsubnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vsubbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x45,0xd7,0x5c,0x72,0x80]
-          vsubnepbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vsubbf16 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vsubnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vsubbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x20,0x5c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsubnepbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vsubbf16 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vsubnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vsubbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x27,0x5c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsubnepbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vsubbf16 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vsubnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vsubbf16 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0x30,0x5c,0x35,0x00,0x00,0x00,0x00]
-          vsubnepbf16 ymm22, ymm23, word ptr [rip]{1to16}
+          vsubbf16 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vsubnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vsubbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x45,0x20,0x5c,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vsubnepbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vsubbf16 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vsubnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vsubbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x45,0xa7,0x5c,0x71,0x7f]
-          vsubnepbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vsubbf16 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vsubnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vsubbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x45,0xb7,0x5c,0x72,0x80]
-          vsubnepbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vsubbf16 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vsubnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vsubbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x45,0x00,0x5c,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vsubnepbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vsubbf16 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vsubnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vsubbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x45,0x07,0x5c,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vsubnepbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vsubbf16 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vsubnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vsubbf16 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x10,0x5c,0x35,0x00,0x00,0x00,0x00]
-          vsubnepbf16 xmm22, xmm23, word ptr [rip]{1to8}
+          vsubbf16 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vsubnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vsubbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x45,0x00,0x5c,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vsubnepbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vsubbf16 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vsubnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vsubbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x45,0x87,0x5c,0x71,0x7f]
-          vsubnepbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vsubbf16 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vsubnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vsubbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x45,0x97,0x5c,0x72,0x80]
-          vsubnepbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vsubbf16 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
diff --git a/llvm/test/MC/X86/avx10.2convert-32-att.s b/llvm/test/MC/X86/avx10.2convert-32-att.s
index beb4824557801..940279388e6ac 100644
--- a/llvm/test/MC/X86/avx10.2convert-32-att.s
+++ b/llvm/test/MC/X86/avx10.2convert-32-att.s
@@ -656,835 +656,835 @@
 // CHECK: encoding: [0x62,0xf5,0x7f,0xcf,0x1e,0x52,0x80]
           vcvthf82ph  -4096(%edx), %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8 %ymm4, %ymm3, %ymm2
+// CHECK: vcvt2ph2bf8 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x28,0x74,0xd4]
-          vcvtne2ph2bf8 %ymm4, %ymm3, %ymm2
+          vcvt2ph2bf8 %ymm4, %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vcvt2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x67,0x2f,0x74,0xd4]
-          vcvtne2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7}
+          vcvt2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x67,0xaf,0x74,0xd4]
-          vcvtne2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2bf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8 %zmm4, %zmm3, %zmm2
+// CHECK: vcvt2ph2bf8 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x48,0x74,0xd4]
-          vcvtne2ph2bf8 %zmm4, %zmm3, %zmm2
+          vcvt2ph2bf8 %zmm4, %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vcvt2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x67,0x4f,0x74,0xd4]
-          vcvtne2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7}
+          vcvt2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x67,0xcf,0x74,0xd4]
-          vcvtne2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2bf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8 %xmm4, %xmm3, %xmm2
+// CHECK: vcvt2ph2bf8 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x08,0x74,0xd4]
-          vcvtne2ph2bf8 %xmm4, %xmm3, %xmm2
+          vcvt2ph2bf8 %xmm4, %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vcvt2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x67,0x0f,0x74,0xd4]
-          vcvtne2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7}
+          vcvt2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x67,0x8f,0x74,0xd4]
-          vcvtne2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2bf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vcvt2ph2bf8  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vcvt2ph2bf8  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2bf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vcvt2ph2bf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x67,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vcvt2ph2bf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vcvt2ph2bf8  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x58,0x74,0x10]
-          vcvtne2ph2bf8  (%eax){1to32}, %zmm3, %zmm2
+          vcvt2ph2bf8  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2bf8  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vcvt2ph2bf8  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2bf8  -2048(,%ebp,2), %zmm3, %zmm2
+          vcvt2ph2bf8  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2bf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x67,0xcf,0x74,0x51,0x7f]
-          vcvtne2ph2bf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2bf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x67,0xdf,0x74,0x52,0x80]
-          vcvtne2ph2bf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2bf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vcvt2ph2bf8  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x28,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vcvt2ph2bf8  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2bf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vcvt2ph2bf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x67,0x2f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vcvt2ph2bf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vcvt2ph2bf8  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x38,0x74,0x10]
-          vcvtne2ph2bf8  (%eax){1to16}, %ymm3, %ymm2
+          vcvt2ph2bf8  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2bf8  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vcvt2ph2bf8  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2bf8  -1024(,%ebp,2), %ymm3, %ymm2
+          vcvt2ph2bf8  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2bf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x67,0xaf,0x74,0x51,0x7f]
-          vcvtne2ph2bf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2bf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x67,0xbf,0x74,0x52,0x80]
-          vcvtne2ph2bf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2bf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vcvt2ph2bf8  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vcvt2ph2bf8  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2bf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vcvt2ph2bf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x67,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vcvt2ph2bf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vcvt2ph2bf8  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x18,0x74,0x10]
-          vcvtne2ph2bf8  (%eax){1to8}, %xmm3, %xmm2
+          vcvt2ph2bf8  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2bf8  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vcvt2ph2bf8  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf2,0x67,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2bf8  -512(,%ebp,2), %xmm3, %xmm2
+          vcvt2ph2bf8  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2bf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x67,0x8f,0x74,0x51,0x7f]
-          vcvtne2ph2bf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2bf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x67,0x9f,0x74,0x52,0x80]
-          vcvtne2ph2bf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2bf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s %ymm4, %ymm3, %ymm2
+// CHECK: vcvt2ph2bf8s %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x74,0xd4]
-          vcvtne2ph2bf8s %ymm4, %ymm3, %ymm2
+          vcvt2ph2bf8s %ymm4, %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vcvt2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x74,0xd4]
-          vcvtne2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7}
+          vcvt2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x74,0xd4]
-          vcvtne2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2bf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s %zmm4, %zmm3, %zmm2
+// CHECK: vcvt2ph2bf8s %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x74,0xd4]
-          vcvtne2ph2bf8s %zmm4, %zmm3, %zmm2
+          vcvt2ph2bf8s %zmm4, %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vcvt2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x74,0xd4]
-          vcvtne2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7}
+          vcvt2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x74,0xd4]
-          vcvtne2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2bf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s %xmm4, %xmm3, %xmm2
+// CHECK: vcvt2ph2bf8s %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x74,0xd4]
-          vcvtne2ph2bf8s %xmm4, %xmm3, %xmm2
+          vcvt2ph2bf8s %xmm4, %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vcvt2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x74,0xd4]
-          vcvtne2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7}
+          vcvt2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x74,0xd4]
-          vcvtne2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2bf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vcvt2ph2bf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vcvt2ph2bf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2bf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vcvt2ph2bf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vcvt2ph2bf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8s  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vcvt2ph2bf8s  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x58,0x74,0x10]
-          vcvtne2ph2bf8s  (%eax){1to32}, %zmm3, %zmm2
+          vcvt2ph2bf8s  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2bf8s  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vcvt2ph2bf8s  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2bf8s  -2048(,%ebp,2), %zmm3, %zmm2
+          vcvt2ph2bf8s  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2bf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x74,0x51,0x7f]
-          vcvtne2ph2bf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2bf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xdf,0x74,0x52,0x80]
-          vcvtne2ph2bf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2bf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vcvt2ph2bf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vcvt2ph2bf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2bf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vcvt2ph2bf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vcvt2ph2bf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8s  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vcvt2ph2bf8s  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x38,0x74,0x10]
-          vcvtne2ph2bf8s  (%eax){1to16}, %ymm3, %ymm2
+          vcvt2ph2bf8s  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2bf8s  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vcvt2ph2bf8s  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2bf8s  -1024(,%ebp,2), %ymm3, %ymm2
+          vcvt2ph2bf8s  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2bf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x74,0x51,0x7f]
-          vcvtne2ph2bf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2bf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xbf,0x74,0x52,0x80]
-          vcvtne2ph2bf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2bf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vcvt2ph2bf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vcvt2ph2bf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2bf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vcvt2ph2bf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vcvt2ph2bf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtne2ph2bf8s  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vcvt2ph2bf8s  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x18,0x74,0x10]
-          vcvtne2ph2bf8s  (%eax){1to8}, %xmm3, %xmm2
+          vcvt2ph2bf8s  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2bf8s  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vcvt2ph2bf8s  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2bf8s  -512(,%ebp,2), %xmm3, %xmm2
+          vcvt2ph2bf8s  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2bf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x74,0x51,0x7f]
-          vcvtne2ph2bf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2bf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0x9f,0x74,0x52,0x80]
-          vcvtne2ph2bf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2bf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8 %ymm4, %ymm3, %ymm2
+// CHECK: vcvt2ph2hf8 %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x18,0xd4]
-          vcvtne2ph2hf8 %ymm4, %ymm3, %ymm2
+          vcvt2ph2hf8 %ymm4, %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vcvt2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x18,0xd4]
-          vcvtne2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7}
+          vcvt2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x18,0xd4]
-          vcvtne2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2hf8 %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8 %zmm4, %zmm3, %zmm2
+// CHECK: vcvt2ph2hf8 %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x18,0xd4]
-          vcvtne2ph2hf8 %zmm4, %zmm3, %zmm2
+          vcvt2ph2hf8 %zmm4, %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vcvt2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x18,0xd4]
-          vcvtne2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7}
+          vcvt2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x18,0xd4]
-          vcvtne2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2hf8 %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8 %xmm4, %xmm3, %xmm2
+// CHECK: vcvt2ph2hf8 %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x18,0xd4]
-          vcvtne2ph2hf8 %xmm4, %xmm3, %xmm2
+          vcvt2ph2hf8 %xmm4, %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vcvt2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x18,0xd4]
-          vcvtne2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7}
+          vcvt2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x18,0xd4]
-          vcvtne2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2hf8 %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vcvt2ph2hf8  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vcvt2ph2hf8  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2hf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vcvt2ph2hf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vcvt2ph2hf8  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vcvt2ph2hf8  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x58,0x18,0x10]
-          vcvtne2ph2hf8  (%eax){1to32}, %zmm3, %zmm2
+          vcvt2ph2hf8  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2hf8  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vcvt2ph2hf8  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x18,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2hf8  -2048(,%ebp,2), %zmm3, %zmm2
+          vcvt2ph2hf8  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2hf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x18,0x51,0x7f]
-          vcvtne2ph2hf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2hf8  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xdf,0x18,0x52,0x80]
-          vcvtne2ph2hf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2hf8  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vcvt2ph2hf8  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vcvt2ph2hf8  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2hf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vcvt2ph2hf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vcvt2ph2hf8  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vcvt2ph2hf8  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x38,0x18,0x10]
-          vcvtne2ph2hf8  (%eax){1to16}, %ymm3, %ymm2
+          vcvt2ph2hf8  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2hf8  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vcvt2ph2hf8  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x18,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2hf8  -1024(,%ebp,2), %ymm3, %ymm2
+          vcvt2ph2hf8  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2hf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x18,0x51,0x7f]
-          vcvtne2ph2hf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2hf8  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xbf,0x18,0x52,0x80]
-          vcvtne2ph2hf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2hf8  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vcvt2ph2hf8  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vcvt2ph2hf8  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2hf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vcvt2ph2hf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vcvt2ph2hf8  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vcvt2ph2hf8  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x18,0x18,0x10]
-          vcvtne2ph2hf8  (%eax){1to8}, %xmm3, %xmm2
+          vcvt2ph2hf8  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2hf8  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vcvt2ph2hf8  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x18,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2hf8  -512(,%ebp,2), %xmm3, %xmm2
+          vcvt2ph2hf8  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2hf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x18,0x51,0x7f]
-          vcvtne2ph2hf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2hf8  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0x9f,0x18,0x52,0x80]
-          vcvtne2ph2hf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2hf8  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s %ymm4, %ymm3, %ymm2
+// CHECK: vcvt2ph2hf8s %ymm4, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x1b,0xd4]
-          vcvtne2ph2hf8s %ymm4, %ymm3, %ymm2
+          vcvt2ph2hf8s %ymm4, %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7}
+// CHECK: vcvt2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x1b,0xd4]
-          vcvtne2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7}
+          vcvt2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x1b,0xd4]
-          vcvtne2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2hf8s %ymm4, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s %zmm4, %zmm3, %zmm2
+// CHECK: vcvt2ph2hf8s %zmm4, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x1b,0xd4]
-          vcvtne2ph2hf8s %zmm4, %zmm3, %zmm2
+          vcvt2ph2hf8s %zmm4, %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7}
+// CHECK: vcvt2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x1b,0xd4]
-          vcvtne2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7}
+          vcvt2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x1b,0xd4]
-          vcvtne2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2hf8s %zmm4, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s %xmm4, %xmm3, %xmm2
+// CHECK: vcvt2ph2hf8s %xmm4, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x1b,0xd4]
-          vcvtne2ph2hf8s %xmm4, %xmm3, %xmm2
+          vcvt2ph2hf8s %xmm4, %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7}
+// CHECK: vcvt2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x1b,0xd4]
-          vcvtne2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7}
+          vcvt2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x1b,0xd4]
-          vcvtne2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2hf8s %xmm4, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
+// CHECK: vcvt2ph2hf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
+          vcvt2ph2hf8s  268435456(%esp,%esi,8), %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2hf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+// CHECK: vcvt2ph2hf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
+          vcvt2ph2hf8s  291(%edi,%eax,4), %zmm3, %zmm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8s  (%eax){1to32}, %zmm3, %zmm2
+// CHECK: vcvt2ph2hf8s  (%eax){1to32}, %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x58,0x1b,0x10]
-          vcvtne2ph2hf8s  (%eax){1to32}, %zmm3, %zmm2
+          vcvt2ph2hf8s  (%eax){1to32}, %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2hf8s  -2048(,%ebp,2), %zmm3, %zmm2
+// CHECK: vcvt2ph2hf8s  -2048(,%ebp,2), %zmm3, %zmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x1b,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2hf8s  -2048(,%ebp,2), %zmm3, %zmm2
+          vcvt2ph2hf8s  -2048(,%ebp,2), %zmm3, %zmm2
 
-// CHECK: vcvtne2ph2hf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x1b,0x51,0x7f]
-          vcvtne2ph2hf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2hf8s  8128(%ecx), %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xdf,0x1b,0x52,0x80]
-          vcvtne2ph2hf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
+          vcvt2ph2hf8s  -256(%edx){1to32}, %zmm3, %zmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
+// CHECK: vcvt2ph2hf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
+          vcvt2ph2hf8s  268435456(%esp,%esi,8), %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2hf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+// CHECK: vcvt2ph2hf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
+          vcvt2ph2hf8s  291(%edi,%eax,4), %ymm3, %ymm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8s  (%eax){1to16}, %ymm3, %ymm2
+// CHECK: vcvt2ph2hf8s  (%eax){1to16}, %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x38,0x1b,0x10]
-          vcvtne2ph2hf8s  (%eax){1to16}, %ymm3, %ymm2
+          vcvt2ph2hf8s  (%eax){1to16}, %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2hf8s  -1024(,%ebp,2), %ymm3, %ymm2
+// CHECK: vcvt2ph2hf8s  -1024(,%ebp,2), %ymm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x1b,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2hf8s  -1024(,%ebp,2), %ymm3, %ymm2
+          vcvt2ph2hf8s  -1024(,%ebp,2), %ymm3, %ymm2
 
-// CHECK: vcvtne2ph2hf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x1b,0x51,0x7f]
-          vcvtne2ph2hf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2hf8s  4064(%ecx), %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0xbf,0x1b,0x52,0x80]
-          vcvtne2ph2hf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
+          vcvt2ph2hf8s  -256(%edx){1to16}, %ymm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
+// CHECK: vcvt2ph2hf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
+          vcvt2ph2hf8s  268435456(%esp,%esi,8), %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2hf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+// CHECK: vcvt2ph2hf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
+          vcvt2ph2hf8s  291(%edi,%eax,4), %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtne2ph2hf8s  (%eax){1to8}, %xmm3, %xmm2
+// CHECK: vcvt2ph2hf8s  (%eax){1to8}, %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x18,0x1b,0x10]
-          vcvtne2ph2hf8s  (%eax){1to8}, %xmm3, %xmm2
+          vcvt2ph2hf8s  (%eax){1to8}, %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2hf8s  -512(,%ebp,2), %xmm3, %xmm2
+// CHECK: vcvt2ph2hf8s  -512(,%ebp,2), %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x1b,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2hf8s  -512(,%ebp,2), %xmm3, %xmm2
+          vcvt2ph2hf8s  -512(,%ebp,2), %xmm3, %xmm2
 
-// CHECK: vcvtne2ph2hf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x1b,0x51,0x7f]
-          vcvtne2ph2hf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2hf8s  2032(%ecx), %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x67,0x9f,0x1b,0x52,0x80]
-          vcvtne2ph2hf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
+          vcvt2ph2hf8s  -256(%edx){1to8}, %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8 %xmm3, %xmm2
+// CHECK: vcvtph2bf8 %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x08,0x74,0xd3]
-          vcvtneph2bf8 %xmm3, %xmm2
+          vcvtph2bf8 %xmm3, %xmm2
 
-// CHECK: vcvtneph2bf8 %xmm3, %xmm2 {%k7}
+// CHECK: vcvtph2bf8 %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x0f,0x74,0xd3]
-          vcvtneph2bf8 %xmm3, %xmm2 {%k7}
+          vcvtph2bf8 %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtneph2bf8 %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8 %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x8f,0x74,0xd3]
-          vcvtneph2bf8 %xmm3, %xmm2 {%k7} {z}
+          vcvtph2bf8 %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8 %zmm3, %ymm2
+// CHECK: vcvtph2bf8 %zmm3, %ymm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x48,0x74,0xd3]
-          vcvtneph2bf8 %zmm3, %ymm2
+          vcvtph2bf8 %zmm3, %ymm2
 
-// CHECK: vcvtneph2bf8 %zmm3, %ymm2 {%k7}
+// CHECK: vcvtph2bf8 %zmm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x4f,0x74,0xd3]
-          vcvtneph2bf8 %zmm3, %ymm2 {%k7}
+          vcvtph2bf8 %zmm3, %ymm2 {%k7}
 
-// CHECK: vcvtneph2bf8 %zmm3, %ymm2 {%k7} {z}
+// CHECK: vcvtph2bf8 %zmm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x7e,0xcf,0x74,0xd3]
-          vcvtneph2bf8 %zmm3, %ymm2 {%k7} {z}
+          vcvtph2bf8 %zmm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8 %ymm3, %xmm2
+// CHECK: vcvtph2bf8 %ymm3, %xmm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x28,0x74,0xd3]
-          vcvtneph2bf8 %ymm3, %xmm2
+          vcvtph2bf8 %ymm3, %xmm2
 
-// CHECK: vcvtneph2bf8 %ymm3, %xmm2 {%k7}
+// CHECK: vcvtph2bf8 %ymm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x2f,0x74,0xd3]
-          vcvtneph2bf8 %ymm3, %xmm2 {%k7}
+          vcvtph2bf8 %ymm3, %xmm2 {%k7}
 
-// CHECK: vcvtneph2bf8 %ymm3, %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8 %ymm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x7e,0xaf,0x74,0xd3]
-          vcvtneph2bf8 %ymm3, %xmm2 {%k7} {z}
+          vcvtph2bf8 %ymm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8x  268435456(%esp,%esi,8), %xmm2
+// CHECK: vcvtph2bf8x  268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8x  268435456(%esp,%esi,8), %xmm2
+          vcvtph2bf8x  268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vcvtneph2bf8x  291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vcvtph2bf8x  291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8x  291(%edi,%eax,4), %xmm2 {%k7}
+          vcvtph2bf8x  291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vcvtneph2bf8  (%eax){1to8}, %xmm2
+// CHECK: vcvtph2bf8  (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x18,0x74,0x10]
-          vcvtneph2bf8  (%eax){1to8}, %xmm2
+          vcvtph2bf8  (%eax){1to8}, %xmm2
 
-// CHECK: vcvtneph2bf8x  -512(,%ebp,2), %xmm2
+// CHECK: vcvtph2bf8x  -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2bf8x  -512(,%ebp,2), %xmm2
+          vcvtph2bf8x  -512(,%ebp,2), %xmm2
 
-// CHECK: vcvtneph2bf8x  2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8x  2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x8f,0x74,0x51,0x7f]
-          vcvtneph2bf8x  2032(%ecx), %xmm2 {%k7} {z}
+          vcvtph2bf8x  2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x9f,0x74,0x52,0x80]
-          vcvtneph2bf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vcvtph2bf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  (%eax){1to16}, %xmm2
+// CHECK: vcvtph2bf8  (%eax){1to16}, %xmm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x38,0x74,0x10]
-          vcvtneph2bf8  (%eax){1to16}, %xmm2
+          vcvtph2bf8  (%eax){1to16}, %xmm2
 
-// CHECK: vcvtneph2bf8y  -1024(,%ebp,2), %xmm2
+// CHECK: vcvtph2bf8y  -1024(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2bf8y  -1024(,%ebp,2), %xmm2
+          vcvtph2bf8y  -1024(,%ebp,2), %xmm2
 
-// CHECK: vcvtneph2bf8y  4064(%ecx), %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8y  4064(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x7e,0xaf,0x74,0x51,0x7f]
-          vcvtneph2bf8y  4064(%ecx), %xmm2 {%k7} {z}
+          vcvtph2bf8y  4064(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x7e,0xbf,0x74,0x52,0x80]
-          vcvtneph2bf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
+          vcvtph2bf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  268435456(%esp,%esi,8), %ymm2
+// CHECK: vcvtph2bf8  268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8  268435456(%esp,%esi,8), %ymm2
+          vcvtph2bf8  268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vcvtneph2bf8  291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vcvtph2bf8  291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8  291(%edi,%eax,4), %ymm2 {%k7}
+          vcvtph2bf8  291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vcvtneph2bf8  (%eax){1to32}, %ymm2
+// CHECK: vcvtph2bf8  (%eax){1to32}, %ymm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x58,0x74,0x10]
-          vcvtneph2bf8  (%eax){1to32}, %ymm2
+          vcvtph2bf8  (%eax){1to32}, %ymm2
 
-// CHECK: vcvtneph2bf8  -2048(,%ebp,2), %ymm2
+// CHECK: vcvtph2bf8  -2048(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf2,0x7e,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2bf8  -2048(,%ebp,2), %ymm2
+          vcvtph2bf8  -2048(,%ebp,2), %ymm2
 
-// CHECK: vcvtneph2bf8  8128(%ecx), %ymm2 {%k7} {z}
+// CHECK: vcvtph2bf8  8128(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x7e,0xcf,0x74,0x51,0x7f]
-          vcvtneph2bf8  8128(%ecx), %ymm2 {%k7} {z}
+          vcvtph2bf8  8128(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
+// CHECK: vcvtph2bf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf2,0x7e,0xdf,0x74,0x52,0x80]
-          vcvtneph2bf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
+          vcvtph2bf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s %xmm3, %xmm2
+// CHECK: vcvtph2bf8s %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x74,0xd3]
-          vcvtneph2bf8s %xmm3, %xmm2
+          vcvtph2bf8s %xmm3, %xmm2
 
-// CHECK: vcvtneph2bf8s %xmm3, %xmm2 {%k7}
+// CHECK: vcvtph2bf8s %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x74,0xd3]
-          vcvtneph2bf8s %xmm3, %xmm2 {%k7}
+          vcvtph2bf8s %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtneph2bf8s %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8s %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x74,0xd3]
-          vcvtneph2bf8s %xmm3, %xmm2 {%k7} {z}
+          vcvtph2bf8s %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s %zmm3, %ymm2
+// CHECK: vcvtph2bf8s %zmm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x74,0xd3]
-          vcvtneph2bf8s %zmm3, %ymm2
+          vcvtph2bf8s %zmm3, %ymm2
 
-// CHECK: vcvtneph2bf8s %zmm3, %ymm2 {%k7}
+// CHECK: vcvtph2bf8s %zmm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x74,0xd3]
-          vcvtneph2bf8s %zmm3, %ymm2 {%k7}
+          vcvtph2bf8s %zmm3, %ymm2 {%k7}
 
-// CHECK: vcvtneph2bf8s %zmm3, %ymm2 {%k7} {z}
+// CHECK: vcvtph2bf8s %zmm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x74,0xd3]
-          vcvtneph2bf8s %zmm3, %ymm2 {%k7} {z}
+          vcvtph2bf8s %zmm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s %ymm3, %xmm2
+// CHECK: vcvtph2bf8s %ymm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x74,0xd3]
-          vcvtneph2bf8s %ymm3, %xmm2
+          vcvtph2bf8s %ymm3, %xmm2
 
-// CHECK: vcvtneph2bf8s %ymm3, %xmm2 {%k7}
+// CHECK: vcvtph2bf8s %ymm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x2f,0x74,0xd3]
-          vcvtneph2bf8s %ymm3, %xmm2 {%k7}
+          vcvtph2bf8s %ymm3, %xmm2 {%k7}
 
-// CHECK: vcvtneph2bf8s %ymm3, %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8s %ymm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x74,0xd3]
-          vcvtneph2bf8s %ymm3, %xmm2 {%k7} {z}
+          vcvtph2bf8s %ymm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8sx  268435456(%esp,%esi,8), %xmm2
+// CHECK: vcvtph2bf8sx  268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8sx  268435456(%esp,%esi,8), %xmm2
+          vcvtph2bf8sx  268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vcvtneph2bf8sx  291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vcvtph2bf8sx  291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8sx  291(%edi,%eax,4), %xmm2 {%k7}
+          vcvtph2bf8sx  291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vcvtneph2bf8s  (%eax){1to8}, %xmm2
+// CHECK: vcvtph2bf8s  (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x18,0x74,0x10]
-          vcvtneph2bf8s  (%eax){1to8}, %xmm2
+          vcvtph2bf8s  (%eax){1to8}, %xmm2
 
-// CHECK: vcvtneph2bf8sx  -512(,%ebp,2), %xmm2
+// CHECK: vcvtph2bf8sx  -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2bf8sx  -512(,%ebp,2), %xmm2
+          vcvtph2bf8sx  -512(,%ebp,2), %xmm2
 
-// CHECK: vcvtneph2bf8sx  2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8sx  2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x74,0x51,0x7f]
-          vcvtneph2bf8sx  2032(%ecx), %xmm2 {%k7} {z}
+          vcvtph2bf8sx  2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x9f,0x74,0x52,0x80]
-          vcvtneph2bf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vcvtph2bf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  (%eax){1to16}, %xmm2
+// CHECK: vcvtph2bf8s  (%eax){1to16}, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x38,0x74,0x10]
-          vcvtneph2bf8s  (%eax){1to16}, %xmm2
+          vcvtph2bf8s  (%eax){1to16}, %xmm2
 
-// CHECK: vcvtneph2bf8sy  -1024(,%ebp,2), %xmm2
+// CHECK: vcvtph2bf8sy  -1024(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2bf8sy  -1024(,%ebp,2), %xmm2
+          vcvtph2bf8sy  -1024(,%ebp,2), %xmm2
 
-// CHECK: vcvtneph2bf8sy  4064(%ecx), %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8sy  4064(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x74,0x51,0x7f]
-          vcvtneph2bf8sy  4064(%ecx), %xmm2 {%k7} {z}
+          vcvtph2bf8sy  4064(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
+// CHECK: vcvtph2bf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xbf,0x74,0x52,0x80]
-          vcvtneph2bf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
+          vcvtph2bf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  268435456(%esp,%esi,8), %ymm2
+// CHECK: vcvtph2bf8s  268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8s  268435456(%esp,%esi,8), %ymm2
+          vcvtph2bf8s  268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vcvtneph2bf8s  291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vcvtph2bf8s  291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8s  291(%edi,%eax,4), %ymm2 {%k7}
+          vcvtph2bf8s  291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vcvtneph2bf8s  (%eax){1to32}, %ymm2
+// CHECK: vcvtph2bf8s  (%eax){1to32}, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x58,0x74,0x10]
-          vcvtneph2bf8s  (%eax){1to32}, %ymm2
+          vcvtph2bf8s  (%eax){1to32}, %ymm2
 
-// CHECK: vcvtneph2bf8s  -2048(,%ebp,2), %ymm2
+// CHECK: vcvtph2bf8s  -2048(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2bf8s  -2048(,%ebp,2), %ymm2
+          vcvtph2bf8s  -2048(,%ebp,2), %ymm2
 
-// CHECK: vcvtneph2bf8s  8128(%ecx), %ymm2 {%k7} {z}
+// CHECK: vcvtph2bf8s  8128(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x74,0x51,0x7f]
-          vcvtneph2bf8s  8128(%ecx), %ymm2 {%k7} {z}
+          vcvtph2bf8s  8128(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
+// CHECK: vcvtph2bf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xdf,0x74,0x52,0x80]
-          vcvtneph2bf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
+          vcvtph2bf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8 %xmm3, %xmm2
+// CHECK: vcvtph2hf8 %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x18,0xd3]
-          vcvtneph2hf8 %xmm3, %xmm2
+          vcvtph2hf8 %xmm3, %xmm2
 
-// CHECK: vcvtneph2hf8 %xmm3, %xmm2 {%k7}
+// CHECK: vcvtph2hf8 %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x18,0xd3]
-          vcvtneph2hf8 %xmm3, %xmm2 {%k7}
+          vcvtph2hf8 %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtneph2hf8 %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8 %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x18,0xd3]
-          vcvtneph2hf8 %xmm3, %xmm2 {%k7} {z}
+          vcvtph2hf8 %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8 %zmm3, %ymm2
+// CHECK: vcvtph2hf8 %zmm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x18,0xd3]
-          vcvtneph2hf8 %zmm3, %ymm2
+          vcvtph2hf8 %zmm3, %ymm2
 
-// CHECK: vcvtneph2hf8 %zmm3, %ymm2 {%k7}
+// CHECK: vcvtph2hf8 %zmm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x18,0xd3]
-          vcvtneph2hf8 %zmm3, %ymm2 {%k7}
+          vcvtph2hf8 %zmm3, %ymm2 {%k7}
 
-// CHECK: vcvtneph2hf8 %zmm3, %ymm2 {%k7} {z}
+// CHECK: vcvtph2hf8 %zmm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x18,0xd3]
-          vcvtneph2hf8 %zmm3, %ymm2 {%k7} {z}
+          vcvtph2hf8 %zmm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8 %ymm3, %xmm2
+// CHECK: vcvtph2hf8 %ymm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x18,0xd3]
-          vcvtneph2hf8 %ymm3, %xmm2
+          vcvtph2hf8 %ymm3, %xmm2
 
-// CHECK: vcvtneph2hf8 %ymm3, %xmm2 {%k7}
+// CHECK: vcvtph2hf8 %ymm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x2f,0x18,0xd3]
-          vcvtneph2hf8 %ymm3, %xmm2 {%k7}
+          vcvtph2hf8 %ymm3, %xmm2 {%k7}
 
-// CHECK: vcvtneph2hf8 %ymm3, %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8 %ymm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x18,0xd3]
-          vcvtneph2hf8 %ymm3, %xmm2 {%k7} {z}
+          vcvtph2hf8 %ymm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8x  268435456(%esp,%esi,8), %xmm2
+// CHECK: vcvtph2hf8x  268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8x  268435456(%esp,%esi,8), %xmm2
+          vcvtph2hf8x  268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vcvtneph2hf8x  291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vcvtph2hf8x  291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8x  291(%edi,%eax,4), %xmm2 {%k7}
+          vcvtph2hf8x  291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vcvtneph2hf8  (%eax){1to8}, %xmm2
+// CHECK: vcvtph2hf8  (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x18,0x18,0x10]
-          vcvtneph2hf8  (%eax){1to8}, %xmm2
+          vcvtph2hf8  (%eax){1to8}, %xmm2
 
-// CHECK: vcvtneph2hf8x  -512(,%ebp,2), %xmm2
+// CHECK: vcvtph2hf8x  -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x18,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2hf8x  -512(,%ebp,2), %xmm2
+          vcvtph2hf8x  -512(,%ebp,2), %xmm2
 
-// CHECK: vcvtneph2hf8x  2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8x  2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x18,0x51,0x7f]
-          vcvtneph2hf8x  2032(%ecx), %xmm2 {%k7} {z}
+          vcvtph2hf8x  2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x9f,0x18,0x52,0x80]
-          vcvtneph2hf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vcvtph2hf8  -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  (%eax){1to16}, %xmm2
+// CHECK: vcvtph2hf8  (%eax){1to16}, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x38,0x18,0x10]
-          vcvtneph2hf8  (%eax){1to16}, %xmm2
+          vcvtph2hf8  (%eax){1to16}, %xmm2
 
-// CHECK: vcvtneph2hf8y  -1024(,%ebp,2), %xmm2
+// CHECK: vcvtph2hf8y  -1024(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x18,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2hf8y  -1024(,%ebp,2), %xmm2
+          vcvtph2hf8y  -1024(,%ebp,2), %xmm2
 
-// CHECK: vcvtneph2hf8y  4064(%ecx), %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8y  4064(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x18,0x51,0x7f]
-          vcvtneph2hf8y  4064(%ecx), %xmm2 {%k7} {z}
+          vcvtph2hf8y  4064(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xbf,0x18,0x52,0x80]
-          vcvtneph2hf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
+          vcvtph2hf8  -256(%edx){1to16}, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  268435456(%esp,%esi,8), %ymm2
+// CHECK: vcvtph2hf8  268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8  268435456(%esp,%esi,8), %ymm2
+          vcvtph2hf8  268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vcvtneph2hf8  291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vcvtph2hf8  291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8  291(%edi,%eax,4), %ymm2 {%k7}
+          vcvtph2hf8  291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vcvtneph2hf8  (%eax){1to32}, %ymm2
+// CHECK: vcvtph2hf8  (%eax){1to32}, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x58,0x18,0x10]
-          vcvtneph2hf8  (%eax){1to32}, %ymm2
+          vcvtph2hf8  (%eax){1to32}, %ymm2
 
-// CHECK: vcvtneph2hf8  -2048(,%ebp,2), %ymm2
+// CHECK: vcvtph2hf8  -2048(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x18,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2hf8  -2048(,%ebp,2), %ymm2
+          vcvtph2hf8  -2048(,%ebp,2), %ymm2
 
-// CHECK: vcvtneph2hf8  8128(%ecx), %ymm2 {%k7} {z}
+// CHECK: vcvtph2hf8  8128(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x18,0x51,0x7f]
-          vcvtneph2hf8  8128(%ecx), %ymm2 {%k7} {z}
+          vcvtph2hf8  8128(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
+// CHECK: vcvtph2hf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xdf,0x18,0x52,0x80]
-          vcvtneph2hf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
+          vcvtph2hf8  -256(%edx){1to32}, %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s %xmm3, %xmm2
+// CHECK: vcvtph2hf8s %xmm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x1b,0xd3]
-          vcvtneph2hf8s %xmm3, %xmm2
+          vcvtph2hf8s %xmm3, %xmm2
 
-// CHECK: vcvtneph2hf8s %xmm3, %xmm2 {%k7}
+// CHECK: vcvtph2hf8s %xmm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x1b,0xd3]
-          vcvtneph2hf8s %xmm3, %xmm2 {%k7}
+          vcvtph2hf8s %xmm3, %xmm2 {%k7}
 
-// CHECK: vcvtneph2hf8s %xmm3, %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8s %xmm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x1b,0xd3]
-          vcvtneph2hf8s %xmm3, %xmm2 {%k7} {z}
+          vcvtph2hf8s %xmm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s %zmm3, %ymm2
+// CHECK: vcvtph2hf8s %zmm3, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x1b,0xd3]
-          vcvtneph2hf8s %zmm3, %ymm2
+          vcvtph2hf8s %zmm3, %ymm2
 
-// CHECK: vcvtneph2hf8s %zmm3, %ymm2 {%k7}
+// CHECK: vcvtph2hf8s %zmm3, %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x1b,0xd3]
-          vcvtneph2hf8s %zmm3, %ymm2 {%k7}
+          vcvtph2hf8s %zmm3, %ymm2 {%k7}
 
-// CHECK: vcvtneph2hf8s %zmm3, %ymm2 {%k7} {z}
+// CHECK: vcvtph2hf8s %zmm3, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x1b,0xd3]
-          vcvtneph2hf8s %zmm3, %ymm2 {%k7} {z}
+          vcvtph2hf8s %zmm3, %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s %ymm3, %xmm2
+// CHECK: vcvtph2hf8s %ymm3, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x1b,0xd3]
-          vcvtneph2hf8s %ymm3, %xmm2
+          vcvtph2hf8s %ymm3, %xmm2
 
-// CHECK: vcvtneph2hf8s %ymm3, %xmm2 {%k7}
+// CHECK: vcvtph2hf8s %ymm3, %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x2f,0x1b,0xd3]
-          vcvtneph2hf8s %ymm3, %xmm2 {%k7}
+          vcvtph2hf8s %ymm3, %xmm2 {%k7}
 
-// CHECK: vcvtneph2hf8s %ymm3, %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8s %ymm3, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x1b,0xd3]
-          vcvtneph2hf8s %ymm3, %xmm2 {%k7} {z}
+          vcvtph2hf8s %ymm3, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8sx  268435456(%esp,%esi,8), %xmm2
+// CHECK: vcvtph2hf8sx  268435456(%esp,%esi,8), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8sx  268435456(%esp,%esi,8), %xmm2
+          vcvtph2hf8sx  268435456(%esp,%esi,8), %xmm2
 
-// CHECK: vcvtneph2hf8sx  291(%edi,%eax,4), %xmm2 {%k7}
+// CHECK: vcvtph2hf8sx  291(%edi,%eax,4), %xmm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8sx  291(%edi,%eax,4), %xmm2 {%k7}
+          vcvtph2hf8sx  291(%edi,%eax,4), %xmm2 {%k7}
 
-// CHECK: vcvtneph2hf8s  (%eax){1to8}, %xmm2
+// CHECK: vcvtph2hf8s  (%eax){1to8}, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x18,0x1b,0x10]
-          vcvtneph2hf8s  (%eax){1to8}, %xmm2
+          vcvtph2hf8s  (%eax){1to8}, %xmm2
 
-// CHECK: vcvtneph2hf8sx  -512(,%ebp,2), %xmm2
+// CHECK: vcvtph2hf8sx  -512(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x1b,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2hf8sx  -512(,%ebp,2), %xmm2
+          vcvtph2hf8sx  -512(,%ebp,2), %xmm2
 
-// CHECK: vcvtneph2hf8sx  2032(%ecx), %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8sx  2032(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x1b,0x51,0x7f]
-          vcvtneph2hf8sx  2032(%ecx), %xmm2 {%k7} {z}
+          vcvtph2hf8sx  2032(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x9f,0x1b,0x52,0x80]
-          vcvtneph2hf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
+          vcvtph2hf8s  -256(%edx){1to8}, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  (%eax){1to16}, %xmm2
+// CHECK: vcvtph2hf8s  (%eax){1to16}, %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x38,0x1b,0x10]
-          vcvtneph2hf8s  (%eax){1to16}, %xmm2
+          vcvtph2hf8s  (%eax){1to16}, %xmm2
 
-// CHECK: vcvtneph2hf8sy  -1024(,%ebp,2), %xmm2
+// CHECK: vcvtph2hf8sy  -1024(,%ebp,2), %xmm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x1b,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2hf8sy  -1024(,%ebp,2), %xmm2
+          vcvtph2hf8sy  -1024(,%ebp,2), %xmm2
 
-// CHECK: vcvtneph2hf8sy  4064(%ecx), %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8sy  4064(%ecx), %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x1b,0x51,0x7f]
-          vcvtneph2hf8sy  4064(%ecx), %xmm2 {%k7} {z}
+          vcvtph2hf8sy  4064(%ecx), %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
+// CHECK: vcvtph2hf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xbf,0x1b,0x52,0x80]
-          vcvtneph2hf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
+          vcvtph2hf8s  -256(%edx){1to16}, %xmm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  268435456(%esp,%esi,8), %ymm2
+// CHECK: vcvtph2hf8s  268435456(%esp,%esi,8), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8s  268435456(%esp,%esi,8), %ymm2
+          vcvtph2hf8s  268435456(%esp,%esi,8), %ymm2
 
-// CHECK: vcvtneph2hf8s  291(%edi,%eax,4), %ymm2 {%k7}
+// CHECK: vcvtph2hf8s  291(%edi,%eax,4), %ymm2 {%k7}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8s  291(%edi,%eax,4), %ymm2 {%k7}
+          vcvtph2hf8s  291(%edi,%eax,4), %ymm2 {%k7}
 
-// CHECK: vcvtneph2hf8s  (%eax){1to32}, %ymm2
+// CHECK: vcvtph2hf8s  (%eax){1to32}, %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x58,0x1b,0x10]
-          vcvtneph2hf8s  (%eax){1to32}, %ymm2
+          vcvtph2hf8s  (%eax){1to32}, %ymm2
 
-// CHECK: vcvtneph2hf8s  -2048(,%ebp,2), %ymm2
+// CHECK: vcvtph2hf8s  -2048(,%ebp,2), %ymm2
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x1b,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2hf8s  -2048(,%ebp,2), %ymm2
+          vcvtph2hf8s  -2048(,%ebp,2), %ymm2
 
-// CHECK: vcvtneph2hf8s  8128(%ecx), %ymm2 {%k7} {z}
+// CHECK: vcvtph2hf8s  8128(%ecx), %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x1b,0x51,0x7f]
-          vcvtneph2hf8s  8128(%ecx), %ymm2 {%k7} {z}
+          vcvtph2hf8s  8128(%ecx), %ymm2 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
+// CHECK: vcvtph2hf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xdf,0x1b,0x52,0x80]
-          vcvtneph2hf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
+          vcvtph2hf8s  -256(%edx){1to32}, %ymm2 {%k7} {z}
 
diff --git a/llvm/test/MC/X86/avx10.2convert-32-intel.s b/llvm/test/MC/X86/avx10.2convert-32-intel.s
index 493cdae7a6425..52a02f7ff963c 100644
--- a/llvm/test/MC/X86/avx10.2convert-32-intel.s
+++ b/llvm/test/MC/X86/avx10.2convert-32-intel.s
@@ -656,835 +656,835 @@
 // CHECK: encoding: [0x62,0xf5,0x7f,0xcf,0x1e,0x52,0x80]
           vcvthf82ph zmm2 {k7} {z}, ymmword ptr [edx - 4096]
 
-// CHECK: vcvtne2ph2bf8 ymm2, ymm3, ymm4
+// CHECK: vcvt2ph2bf8 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf2,0x67,0x28,0x74,0xd4]
-          vcvtne2ph2bf8 ymm2, ymm3, ymm4
+          vcvt2ph2bf8 ymm2, ymm3, ymm4
 
-// CHECK: vcvtne2ph2bf8 ymm2 {k7}, ymm3, ymm4
+// CHECK: vcvt2ph2bf8 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf2,0x67,0x2f,0x74,0xd4]
-          vcvtne2ph2bf8 ymm2 {k7}, ymm3, ymm4
+          vcvt2ph2bf8 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vcvtne2ph2bf8 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vcvt2ph2bf8 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf2,0x67,0xaf,0x74,0xd4]
-          vcvtne2ph2bf8 ymm2 {k7} {z}, ymm3, ymm4
+          vcvt2ph2bf8 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vcvtne2ph2bf8 zmm2, zmm3, zmm4
+// CHECK: vcvt2ph2bf8 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf2,0x67,0x48,0x74,0xd4]
-          vcvtne2ph2bf8 zmm2, zmm3, zmm4
+          vcvt2ph2bf8 zmm2, zmm3, zmm4
 
-// CHECK: vcvtne2ph2bf8 zmm2 {k7}, zmm3, zmm4
+// CHECK: vcvt2ph2bf8 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf2,0x67,0x4f,0x74,0xd4]
-          vcvtne2ph2bf8 zmm2 {k7}, zmm3, zmm4
+          vcvt2ph2bf8 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vcvtne2ph2bf8 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vcvt2ph2bf8 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf2,0x67,0xcf,0x74,0xd4]
-          vcvtne2ph2bf8 zmm2 {k7} {z}, zmm3, zmm4
+          vcvt2ph2bf8 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vcvtne2ph2bf8 xmm2, xmm3, xmm4
+// CHECK: vcvt2ph2bf8 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf2,0x67,0x08,0x74,0xd4]
-          vcvtne2ph2bf8 xmm2, xmm3, xmm4
+          vcvt2ph2bf8 xmm2, xmm3, xmm4
 
-// CHECK: vcvtne2ph2bf8 xmm2 {k7}, xmm3, xmm4
+// CHECK: vcvt2ph2bf8 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf2,0x67,0x0f,0x74,0xd4]
-          vcvtne2ph2bf8 xmm2 {k7}, xmm3, xmm4
+          vcvt2ph2bf8 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vcvtne2ph2bf8 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vcvt2ph2bf8 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf2,0x67,0x8f,0x74,0xd4]
-          vcvtne2ph2bf8 xmm2 {k7} {z}, xmm3, xmm4
+          vcvt2ph2bf8 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vcvtne2ph2bf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2bf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf2,0x67,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2bf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2bf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2bf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf2,0x67,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vcvt2ph2bf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2bf8 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vcvt2ph2bf8 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf2,0x67,0x58,0x74,0x10]
-          vcvtne2ph2bf8 zmm2, zmm3, word ptr [eax]{1to32}
+          vcvt2ph2bf8 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vcvtne2ph2bf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vcvt2ph2bf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf2,0x67,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2bf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vcvt2ph2bf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vcvtne2ph2bf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vcvt2ph2bf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf2,0x67,0xcf,0x74,0x51,0x7f]
-          vcvtne2ph2bf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vcvt2ph2bf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vcvtne2ph2bf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vcvt2ph2bf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf2,0x67,0xdf,0x74,0x52,0x80]
-          vcvtne2ph2bf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vcvt2ph2bf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vcvtne2ph2bf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2bf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf2,0x67,0x28,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2bf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2bf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2bf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf2,0x67,0x2f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vcvt2ph2bf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2bf8 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vcvt2ph2bf8 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf2,0x67,0x38,0x74,0x10]
-          vcvtne2ph2bf8 ymm2, ymm3, word ptr [eax]{1to16}
+          vcvt2ph2bf8 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vcvtne2ph2bf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vcvt2ph2bf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf2,0x67,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2bf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vcvt2ph2bf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vcvtne2ph2bf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vcvt2ph2bf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf2,0x67,0xaf,0x74,0x51,0x7f]
-          vcvtne2ph2bf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vcvt2ph2bf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vcvtne2ph2bf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vcvt2ph2bf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf2,0x67,0xbf,0x74,0x52,0x80]
-          vcvtne2ph2bf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vcvt2ph2bf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vcvtne2ph2bf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2bf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf2,0x67,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2bf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2bf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2bf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf2,0x67,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vcvt2ph2bf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2bf8 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vcvt2ph2bf8 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf2,0x67,0x18,0x74,0x10]
-          vcvtne2ph2bf8 xmm2, xmm3, word ptr [eax]{1to8}
+          vcvt2ph2bf8 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vcvtne2ph2bf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vcvt2ph2bf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf2,0x67,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2bf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vcvt2ph2bf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vcvtne2ph2bf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vcvt2ph2bf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf2,0x67,0x8f,0x74,0x51,0x7f]
-          vcvtne2ph2bf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vcvt2ph2bf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vcvtne2ph2bf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vcvt2ph2bf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf2,0x67,0x9f,0x74,0x52,0x80]
-          vcvtne2ph2bf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vcvt2ph2bf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vcvtne2ph2bf8s ymm2, ymm3, ymm4
+// CHECK: vcvt2ph2bf8s ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x74,0xd4]
-          vcvtne2ph2bf8s ymm2, ymm3, ymm4
+          vcvt2ph2bf8s ymm2, ymm3, ymm4
 
-// CHECK: vcvtne2ph2bf8s ymm2 {k7}, ymm3, ymm4
+// CHECK: vcvt2ph2bf8s ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x74,0xd4]
-          vcvtne2ph2bf8s ymm2 {k7}, ymm3, ymm4
+          vcvt2ph2bf8s ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vcvtne2ph2bf8s ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vcvt2ph2bf8s ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x74,0xd4]
-          vcvtne2ph2bf8s ymm2 {k7} {z}, ymm3, ymm4
+          vcvt2ph2bf8s ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vcvtne2ph2bf8s zmm2, zmm3, zmm4
+// CHECK: vcvt2ph2bf8s zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x74,0xd4]
-          vcvtne2ph2bf8s zmm2, zmm3, zmm4
+          vcvt2ph2bf8s zmm2, zmm3, zmm4
 
-// CHECK: vcvtne2ph2bf8s zmm2 {k7}, zmm3, zmm4
+// CHECK: vcvt2ph2bf8s zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x74,0xd4]
-          vcvtne2ph2bf8s zmm2 {k7}, zmm3, zmm4
+          vcvt2ph2bf8s zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vcvtne2ph2bf8s zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vcvt2ph2bf8s zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x74,0xd4]
-          vcvtne2ph2bf8s zmm2 {k7} {z}, zmm3, zmm4
+          vcvt2ph2bf8s zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vcvtne2ph2bf8s xmm2, xmm3, xmm4
+// CHECK: vcvt2ph2bf8s xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x74,0xd4]
-          vcvtne2ph2bf8s xmm2, xmm3, xmm4
+          vcvt2ph2bf8s xmm2, xmm3, xmm4
 
-// CHECK: vcvtne2ph2bf8s xmm2 {k7}, xmm3, xmm4
+// CHECK: vcvt2ph2bf8s xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x74,0xd4]
-          vcvtne2ph2bf8s xmm2 {k7}, xmm3, xmm4
+          vcvt2ph2bf8s xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vcvtne2ph2bf8s xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vcvt2ph2bf8s xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x74,0xd4]
-          vcvtne2ph2bf8s xmm2 {k7} {z}, xmm3, xmm4
+          vcvt2ph2bf8s xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vcvtne2ph2bf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2bf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2bf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2bf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2bf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vcvt2ph2bf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2bf8s zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vcvt2ph2bf8s zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x67,0x58,0x74,0x10]
-          vcvtne2ph2bf8s zmm2, zmm3, word ptr [eax]{1to32}
+          vcvt2ph2bf8s zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vcvtne2ph2bf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vcvt2ph2bf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2bf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vcvt2ph2bf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vcvtne2ph2bf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vcvt2ph2bf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x74,0x51,0x7f]
-          vcvtne2ph2bf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vcvt2ph2bf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vcvtne2ph2bf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vcvt2ph2bf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x67,0xdf,0x74,0x52,0x80]
-          vcvtne2ph2bf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vcvt2ph2bf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vcvtne2ph2bf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2bf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2bf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2bf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2bf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vcvt2ph2bf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2bf8s ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vcvt2ph2bf8s ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x67,0x38,0x74,0x10]
-          vcvtne2ph2bf8s ymm2, ymm3, word ptr [eax]{1to16}
+          vcvt2ph2bf8s ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vcvtne2ph2bf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vcvt2ph2bf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2bf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vcvt2ph2bf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vcvtne2ph2bf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vcvt2ph2bf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x74,0x51,0x7f]
-          vcvtne2ph2bf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vcvt2ph2bf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vcvtne2ph2bf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vcvt2ph2bf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x67,0xbf,0x74,0x52,0x80]
-          vcvtne2ph2bf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vcvt2ph2bf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vcvtne2ph2bf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2bf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2bf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2bf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2bf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vcvt2ph2bf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2bf8s xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vcvt2ph2bf8s xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x67,0x18,0x74,0x10]
-          vcvtne2ph2bf8s xmm2, xmm3, word ptr [eax]{1to8}
+          vcvt2ph2bf8s xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vcvtne2ph2bf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vcvt2ph2bf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2bf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vcvt2ph2bf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vcvtne2ph2bf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vcvt2ph2bf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x74,0x51,0x7f]
-          vcvtne2ph2bf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vcvt2ph2bf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vcvtne2ph2bf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vcvt2ph2bf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x67,0x9f,0x74,0x52,0x80]
-          vcvtne2ph2bf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vcvt2ph2bf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vcvtne2ph2hf8 ymm2, ymm3, ymm4
+// CHECK: vcvt2ph2hf8 ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x18,0xd4]
-          vcvtne2ph2hf8 ymm2, ymm3, ymm4
+          vcvt2ph2hf8 ymm2, ymm3, ymm4
 
-// CHECK: vcvtne2ph2hf8 ymm2 {k7}, ymm3, ymm4
+// CHECK: vcvt2ph2hf8 ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x18,0xd4]
-          vcvtne2ph2hf8 ymm2 {k7}, ymm3, ymm4
+          vcvt2ph2hf8 ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vcvtne2ph2hf8 ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vcvt2ph2hf8 ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x18,0xd4]
-          vcvtne2ph2hf8 ymm2 {k7} {z}, ymm3, ymm4
+          vcvt2ph2hf8 ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vcvtne2ph2hf8 zmm2, zmm3, zmm4
+// CHECK: vcvt2ph2hf8 zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x18,0xd4]
-          vcvtne2ph2hf8 zmm2, zmm3, zmm4
+          vcvt2ph2hf8 zmm2, zmm3, zmm4
 
-// CHECK: vcvtne2ph2hf8 zmm2 {k7}, zmm3, zmm4
+// CHECK: vcvt2ph2hf8 zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x18,0xd4]
-          vcvtne2ph2hf8 zmm2 {k7}, zmm3, zmm4
+          vcvt2ph2hf8 zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vcvtne2ph2hf8 zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vcvt2ph2hf8 zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x18,0xd4]
-          vcvtne2ph2hf8 zmm2 {k7} {z}, zmm3, zmm4
+          vcvt2ph2hf8 zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vcvtne2ph2hf8 xmm2, xmm3, xmm4
+// CHECK: vcvt2ph2hf8 xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x18,0xd4]
-          vcvtne2ph2hf8 xmm2, xmm3, xmm4
+          vcvt2ph2hf8 xmm2, xmm3, xmm4
 
-// CHECK: vcvtne2ph2hf8 xmm2 {k7}, xmm3, xmm4
+// CHECK: vcvt2ph2hf8 xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x18,0xd4]
-          vcvtne2ph2hf8 xmm2 {k7}, xmm3, xmm4
+          vcvt2ph2hf8 xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vcvtne2ph2hf8 xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vcvt2ph2hf8 xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x18,0xd4]
-          vcvtne2ph2hf8 xmm2 {k7} {z}, xmm3, xmm4
+          vcvt2ph2hf8 xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vcvtne2ph2hf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2hf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2hf8 zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2hf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2hf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vcvt2ph2hf8 zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2hf8 zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vcvt2ph2hf8 zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x67,0x58,0x18,0x10]
-          vcvtne2ph2hf8 zmm2, zmm3, word ptr [eax]{1to32}
+          vcvt2ph2hf8 zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vcvtne2ph2hf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vcvt2ph2hf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x18,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2hf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vcvt2ph2hf8 zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vcvtne2ph2hf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vcvt2ph2hf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x18,0x51,0x7f]
-          vcvtne2ph2hf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vcvt2ph2hf8 zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vcvtne2ph2hf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vcvt2ph2hf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x67,0xdf,0x18,0x52,0x80]
-          vcvtne2ph2hf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vcvt2ph2hf8 zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vcvtne2ph2hf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2hf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2hf8 ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2hf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2hf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vcvt2ph2hf8 ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2hf8 ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vcvt2ph2hf8 ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x67,0x38,0x18,0x10]
-          vcvtne2ph2hf8 ymm2, ymm3, word ptr [eax]{1to16}
+          vcvt2ph2hf8 ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vcvtne2ph2hf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vcvt2ph2hf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x18,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2hf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vcvt2ph2hf8 ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vcvtne2ph2hf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vcvt2ph2hf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x18,0x51,0x7f]
-          vcvtne2ph2hf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vcvt2ph2hf8 ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vcvtne2ph2hf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vcvt2ph2hf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x67,0xbf,0x18,0x52,0x80]
-          vcvtne2ph2hf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vcvt2ph2hf8 ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vcvtne2ph2hf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2hf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2hf8 xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2hf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2hf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vcvt2ph2hf8 xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2hf8 xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vcvt2ph2hf8 xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x67,0x18,0x18,0x10]
-          vcvtne2ph2hf8 xmm2, xmm3, word ptr [eax]{1to8}
+          vcvt2ph2hf8 xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vcvtne2ph2hf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vcvt2ph2hf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x18,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2hf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vcvt2ph2hf8 xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vcvtne2ph2hf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vcvt2ph2hf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x18,0x51,0x7f]
-          vcvtne2ph2hf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vcvt2ph2hf8 xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vcvtne2ph2hf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vcvt2ph2hf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x67,0x9f,0x18,0x52,0x80]
-          vcvtne2ph2hf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vcvt2ph2hf8 xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vcvtne2ph2hf8s ymm2, ymm3, ymm4
+// CHECK: vcvt2ph2hf8s ymm2, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x1b,0xd4]
-          vcvtne2ph2hf8s ymm2, ymm3, ymm4
+          vcvt2ph2hf8s ymm2, ymm3, ymm4
 
-// CHECK: vcvtne2ph2hf8s ymm2 {k7}, ymm3, ymm4
+// CHECK: vcvt2ph2hf8s ymm2 {k7}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x1b,0xd4]
-          vcvtne2ph2hf8s ymm2 {k7}, ymm3, ymm4
+          vcvt2ph2hf8s ymm2 {k7}, ymm3, ymm4
 
-// CHECK: vcvtne2ph2hf8s ymm2 {k7} {z}, ymm3, ymm4
+// CHECK: vcvt2ph2hf8s ymm2 {k7} {z}, ymm3, ymm4
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x1b,0xd4]
-          vcvtne2ph2hf8s ymm2 {k7} {z}, ymm3, ymm4
+          vcvt2ph2hf8s ymm2 {k7} {z}, ymm3, ymm4
 
-// CHECK: vcvtne2ph2hf8s zmm2, zmm3, zmm4
+// CHECK: vcvt2ph2hf8s zmm2, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x1b,0xd4]
-          vcvtne2ph2hf8s zmm2, zmm3, zmm4
+          vcvt2ph2hf8s zmm2, zmm3, zmm4
 
-// CHECK: vcvtne2ph2hf8s zmm2 {k7}, zmm3, zmm4
+// CHECK: vcvt2ph2hf8s zmm2 {k7}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x1b,0xd4]
-          vcvtne2ph2hf8s zmm2 {k7}, zmm3, zmm4
+          vcvt2ph2hf8s zmm2 {k7}, zmm3, zmm4
 
-// CHECK: vcvtne2ph2hf8s zmm2 {k7} {z}, zmm3, zmm4
+// CHECK: vcvt2ph2hf8s zmm2 {k7} {z}, zmm3, zmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x1b,0xd4]
-          vcvtne2ph2hf8s zmm2 {k7} {z}, zmm3, zmm4
+          vcvt2ph2hf8s zmm2 {k7} {z}, zmm3, zmm4
 
-// CHECK: vcvtne2ph2hf8s xmm2, xmm3, xmm4
+// CHECK: vcvt2ph2hf8s xmm2, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x1b,0xd4]
-          vcvtne2ph2hf8s xmm2, xmm3, xmm4
+          vcvt2ph2hf8s xmm2, xmm3, xmm4
 
-// CHECK: vcvtne2ph2hf8s xmm2 {k7}, xmm3, xmm4
+// CHECK: vcvt2ph2hf8s xmm2 {k7}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x1b,0xd4]
-          vcvtne2ph2hf8s xmm2 {k7}, xmm3, xmm4
+          vcvt2ph2hf8s xmm2 {k7}, xmm3, xmm4
 
-// CHECK: vcvtne2ph2hf8s xmm2 {k7} {z}, xmm3, xmm4
+// CHECK: vcvt2ph2hf8s xmm2 {k7} {z}, xmm3, xmm4
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x1b,0xd4]
-          vcvtne2ph2hf8s xmm2 {k7} {z}, xmm3, xmm4
+          vcvt2ph2hf8s xmm2 {k7} {z}, xmm3, xmm4
 
-// CHECK: vcvtne2ph2hf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2hf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2hf8s zmm2, zmm3, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2hf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2hf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x67,0x4f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
+          vcvt2ph2hf8s zmm2 {k7}, zmm3, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2hf8s zmm2, zmm3, word ptr [eax]{1to32}
+// CHECK: vcvt2ph2hf8s zmm2, zmm3, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x67,0x58,0x1b,0x10]
-          vcvtne2ph2hf8s zmm2, zmm3, word ptr [eax]{1to32}
+          vcvt2ph2hf8s zmm2, zmm3, word ptr [eax]{1to32}
 
-// CHECK: vcvtne2ph2hf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+// CHECK: vcvt2ph2hf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x67,0x48,0x1b,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2hf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
+          vcvt2ph2hf8s zmm2, zmm3, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vcvtne2ph2hf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+// CHECK: vcvt2ph2hf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x67,0xcf,0x1b,0x51,0x7f]
-          vcvtne2ph2hf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
+          vcvt2ph2hf8s zmm2 {k7} {z}, zmm3, zmmword ptr [ecx + 8128]
 
-// CHECK: vcvtne2ph2hf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+// CHECK: vcvt2ph2hf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x67,0xdf,0x1b,0x52,0x80]
-          vcvtne2ph2hf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
+          vcvt2ph2hf8s zmm2 {k7} {z}, zmm3, word ptr [edx - 256]{1to32}
 
-// CHECK: vcvtne2ph2hf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2hf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2hf8s ymm2, ymm3, ymmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2hf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2hf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x67,0x2f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
+          vcvt2ph2hf8s ymm2 {k7}, ymm3, ymmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2hf8s ymm2, ymm3, word ptr [eax]{1to16}
+// CHECK: vcvt2ph2hf8s ymm2, ymm3, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x67,0x38,0x1b,0x10]
-          vcvtne2ph2hf8s ymm2, ymm3, word ptr [eax]{1to16}
+          vcvt2ph2hf8s ymm2, ymm3, word ptr [eax]{1to16}
 
-// CHECK: vcvtne2ph2hf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+// CHECK: vcvt2ph2hf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x67,0x28,0x1b,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2hf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
+          vcvt2ph2hf8s ymm2, ymm3, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vcvtne2ph2hf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+// CHECK: vcvt2ph2hf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x67,0xaf,0x1b,0x51,0x7f]
-          vcvtne2ph2hf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
+          vcvt2ph2hf8s ymm2 {k7} {z}, ymm3, ymmword ptr [ecx + 4064]
 
-// CHECK: vcvtne2ph2hf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+// CHECK: vcvt2ph2hf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x67,0xbf,0x1b,0x52,0x80]
-          vcvtne2ph2hf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
+          vcvt2ph2hf8s ymm2 {k7} {z}, ymm3, word ptr [edx - 256]{1to16}
 
-// CHECK: vcvtne2ph2hf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvt2ph2hf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
+          vcvt2ph2hf8s xmm2, xmm3, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtne2ph2hf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvt2ph2hf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x67,0x0f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
+          vcvt2ph2hf8s xmm2 {k7}, xmm3, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtne2ph2hf8s xmm2, xmm3, word ptr [eax]{1to8}
+// CHECK: vcvt2ph2hf8s xmm2, xmm3, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x67,0x18,0x1b,0x10]
-          vcvtne2ph2hf8s xmm2, xmm3, word ptr [eax]{1to8}
+          vcvt2ph2hf8s xmm2, xmm3, word ptr [eax]{1to8}
 
-// CHECK: vcvtne2ph2hf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
+// CHECK: vcvt2ph2hf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x67,0x08,0x1b,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2hf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
+          vcvt2ph2hf8s xmm2, xmm3, xmmword ptr [2*ebp - 512]
 
-// CHECK: vcvtne2ph2hf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+// CHECK: vcvt2ph2hf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x67,0x8f,0x1b,0x51,0x7f]
-          vcvtne2ph2hf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
+          vcvt2ph2hf8s xmm2 {k7} {z}, xmm3, xmmword ptr [ecx + 2032]
 
-// CHECK: vcvtne2ph2hf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+// CHECK: vcvt2ph2hf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x67,0x9f,0x1b,0x52,0x80]
-          vcvtne2ph2hf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
+          vcvt2ph2hf8s xmm2 {k7} {z}, xmm3, word ptr [edx - 256]{1to8}
 
-// CHECK: vcvtneph2bf8 xmm2, xmm3
+// CHECK: vcvtph2bf8 xmm2, xmm3
 // CHECK: encoding: [0x62,0xf2,0x7e,0x08,0x74,0xd3]
-          vcvtneph2bf8 xmm2, xmm3
+          vcvtph2bf8 xmm2, xmm3
 
-// CHECK: vcvtneph2bf8 xmm2 {k7}, xmm3
+// CHECK: vcvtph2bf8 xmm2 {k7}, xmm3
 // CHECK: encoding: [0x62,0xf2,0x7e,0x0f,0x74,0xd3]
-          vcvtneph2bf8 xmm2 {k7}, xmm3
+          vcvtph2bf8 xmm2 {k7}, xmm3
 
-// CHECK: vcvtneph2bf8 xmm2 {k7} {z}, xmm3
+// CHECK: vcvtph2bf8 xmm2 {k7} {z}, xmm3
 // CHECK: encoding: [0x62,0xf2,0x7e,0x8f,0x74,0xd3]
-          vcvtneph2bf8 xmm2 {k7} {z}, xmm3
+          vcvtph2bf8 xmm2 {k7} {z}, xmm3
 
-// CHECK: vcvtneph2bf8 ymm2, zmm3
+// CHECK: vcvtph2bf8 ymm2, zmm3
 // CHECK: encoding: [0x62,0xf2,0x7e,0x48,0x74,0xd3]
-          vcvtneph2bf8 ymm2, zmm3
+          vcvtph2bf8 ymm2, zmm3
 
-// CHECK: vcvtneph2bf8 ymm2 {k7}, zmm3
+// CHECK: vcvtph2bf8 ymm2 {k7}, zmm3
 // CHECK: encoding: [0x62,0xf2,0x7e,0x4f,0x74,0xd3]
-          vcvtneph2bf8 ymm2 {k7}, zmm3
+          vcvtph2bf8 ymm2 {k7}, zmm3
 
-// CHECK: vcvtneph2bf8 ymm2 {k7} {z}, zmm3
+// CHECK: vcvtph2bf8 ymm2 {k7} {z}, zmm3
 // CHECK: encoding: [0x62,0xf2,0x7e,0xcf,0x74,0xd3]
-          vcvtneph2bf8 ymm2 {k7} {z}, zmm3
+          vcvtph2bf8 ymm2 {k7} {z}, zmm3
 
-// CHECK: vcvtneph2bf8 xmm2, ymm3
+// CHECK: vcvtph2bf8 xmm2, ymm3
 // CHECK: encoding: [0x62,0xf2,0x7e,0x28,0x74,0xd3]
-          vcvtneph2bf8 xmm2, ymm3
+          vcvtph2bf8 xmm2, ymm3
 
-// CHECK: vcvtneph2bf8 xmm2 {k7}, ymm3
+// CHECK: vcvtph2bf8 xmm2 {k7}, ymm3
 // CHECK: encoding: [0x62,0xf2,0x7e,0x2f,0x74,0xd3]
-          vcvtneph2bf8 xmm2 {k7}, ymm3
+          vcvtph2bf8 xmm2 {k7}, ymm3
 
-// CHECK: vcvtneph2bf8 xmm2 {k7} {z}, ymm3
+// CHECK: vcvtph2bf8 xmm2 {k7} {z}, ymm3
 // CHECK: encoding: [0x62,0xf2,0x7e,0xaf,0x74,0xd3]
-          vcvtneph2bf8 xmm2 {k7} {z}, ymm3
+          vcvtph2bf8 xmm2 {k7} {z}, ymm3
 
-// CHECK: vcvtneph2bf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvtph2bf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf2,0x7e,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+          vcvtph2bf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtneph2bf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvtph2bf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf2,0x7e,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+          vcvtph2bf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtneph2bf8 xmm2, word ptr [eax]{1to8}
+// CHECK: vcvtph2bf8 xmm2, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x18,0x74,0x10]
-          vcvtneph2bf8 xmm2, word ptr [eax]{1to8}
+          vcvtph2bf8 xmm2, word ptr [eax]{1to8}
 
-// CHECK: vcvtneph2bf8 xmm2, xmmword ptr [2*ebp - 512]
+// CHECK: vcvtph2bf8 xmm2, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf2,0x7e,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2bf8 xmm2, xmmword ptr [2*ebp - 512]
+          vcvtph2bf8 xmm2, xmmword ptr [2*ebp - 512]
 
-// CHECK: vcvtneph2bf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+// CHECK: vcvtph2bf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf2,0x7e,0x8f,0x74,0x51,0x7f]
-          vcvtneph2bf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+          vcvtph2bf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 
-// CHECK: vcvtneph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+// CHECK: vcvtph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x9f,0x74,0x52,0x80]
-          vcvtneph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+          vcvtph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 
-// CHECK: vcvtneph2bf8 xmm2, word ptr [eax]{1to16}
+// CHECK: vcvtph2bf8 xmm2, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x38,0x74,0x10]
-          vcvtneph2bf8 xmm2, word ptr [eax]{1to16}
+          vcvtph2bf8 xmm2, word ptr [eax]{1to16}
 
-// CHECK: vcvtneph2bf8 xmm2, ymmword ptr [2*ebp - 1024]
+// CHECK: vcvtph2bf8 xmm2, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf2,0x7e,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2bf8 xmm2, ymmword ptr [2*ebp - 1024]
+          vcvtph2bf8 xmm2, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vcvtneph2bf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+// CHECK: vcvtph2bf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf2,0x7e,0xaf,0x74,0x51,0x7f]
-          vcvtneph2bf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+          vcvtph2bf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 
-// CHECK: vcvtneph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+// CHECK: vcvtph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf2,0x7e,0xbf,0x74,0x52,0x80]
-          vcvtneph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+          vcvtph2bf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 
-// CHECK: vcvtneph2bf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvtph2bf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf2,0x7e,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
+          vcvtph2bf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtneph2bf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvtph2bf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf2,0x7e,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+          vcvtph2bf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtneph2bf8 ymm2, word ptr [eax]{1to32}
+// CHECK: vcvtph2bf8 ymm2, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf2,0x7e,0x58,0x74,0x10]
-          vcvtneph2bf8 ymm2, word ptr [eax]{1to32}
+          vcvtph2bf8 ymm2, word ptr [eax]{1to32}
 
-// CHECK: vcvtneph2bf8 ymm2, zmmword ptr [2*ebp - 2048]
+// CHECK: vcvtph2bf8 ymm2, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf2,0x7e,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2bf8 ymm2, zmmword ptr [2*ebp - 2048]
+          vcvtph2bf8 ymm2, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vcvtneph2bf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+// CHECK: vcvtph2bf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf2,0x7e,0xcf,0x74,0x51,0x7f]
-          vcvtneph2bf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+          vcvtph2bf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 
-// CHECK: vcvtneph2bf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+// CHECK: vcvtph2bf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf2,0x7e,0xdf,0x74,0x52,0x80]
-          vcvtneph2bf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+          vcvtph2bf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 
-// CHECK: vcvtneph2bf8s xmm2, xmm3
+// CHECK: vcvtph2bf8s xmm2, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x74,0xd3]
-          vcvtneph2bf8s xmm2, xmm3
+          vcvtph2bf8s xmm2, xmm3
 
-// CHECK: vcvtneph2bf8s xmm2 {k7}, xmm3
+// CHECK: vcvtph2bf8s xmm2 {k7}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x74,0xd3]
-          vcvtneph2bf8s xmm2 {k7}, xmm3
+          vcvtph2bf8s xmm2 {k7}, xmm3
 
-// CHECK: vcvtneph2bf8s xmm2 {k7} {z}, xmm3
+// CHECK: vcvtph2bf8s xmm2 {k7} {z}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x74,0xd3]
-          vcvtneph2bf8s xmm2 {k7} {z}, xmm3
+          vcvtph2bf8s xmm2 {k7} {z}, xmm3
 
-// CHECK: vcvtneph2bf8s ymm2, zmm3
+// CHECK: vcvtph2bf8s ymm2, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x74,0xd3]
-          vcvtneph2bf8s ymm2, zmm3
+          vcvtph2bf8s ymm2, zmm3
 
-// CHECK: vcvtneph2bf8s ymm2 {k7}, zmm3
+// CHECK: vcvtph2bf8s ymm2 {k7}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x74,0xd3]
-          vcvtneph2bf8s ymm2 {k7}, zmm3
+          vcvtph2bf8s ymm2 {k7}, zmm3
 
-// CHECK: vcvtneph2bf8s ymm2 {k7} {z}, zmm3
+// CHECK: vcvtph2bf8s ymm2 {k7} {z}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x74,0xd3]
-          vcvtneph2bf8s ymm2 {k7} {z}, zmm3
+          vcvtph2bf8s ymm2 {k7} {z}, zmm3
 
-// CHECK: vcvtneph2bf8s xmm2, ymm3
+// CHECK: vcvtph2bf8s xmm2, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x74,0xd3]
-          vcvtneph2bf8s xmm2, ymm3
+          vcvtph2bf8s xmm2, ymm3
 
-// CHECK: vcvtneph2bf8s xmm2 {k7}, ymm3
+// CHECK: vcvtph2bf8s xmm2 {k7}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x2f,0x74,0xd3]
-          vcvtneph2bf8s xmm2 {k7}, ymm3
+          vcvtph2bf8s xmm2 {k7}, ymm3
 
-// CHECK: vcvtneph2bf8s xmm2 {k7} {z}, ymm3
+// CHECK: vcvtph2bf8s xmm2 {k7} {z}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x74,0xd3]
-          vcvtneph2bf8s xmm2 {k7} {z}, ymm3
+          vcvtph2bf8s xmm2 {k7} {z}, ymm3
 
-// CHECK: vcvtneph2bf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvtph2bf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
+          vcvtph2bf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtneph2bf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvtph2bf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+          vcvtph2bf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtneph2bf8s xmm2, word ptr [eax]{1to8}
+// CHECK: vcvtph2bf8s xmm2, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x18,0x74,0x10]
-          vcvtneph2bf8s xmm2, word ptr [eax]{1to8}
+          vcvtph2bf8s xmm2, word ptr [eax]{1to8}
 
-// CHECK: vcvtneph2bf8s xmm2, xmmword ptr [2*ebp - 512]
+// CHECK: vcvtph2bf8s xmm2, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x74,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2bf8s xmm2, xmmword ptr [2*ebp - 512]
+          vcvtph2bf8s xmm2, xmmword ptr [2*ebp - 512]
 
-// CHECK: vcvtneph2bf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+// CHECK: vcvtph2bf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x74,0x51,0x7f]
-          vcvtneph2bf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+          vcvtph2bf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 
-// CHECK: vcvtneph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+// CHECK: vcvtph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x9f,0x74,0x52,0x80]
-          vcvtneph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+          vcvtph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 
-// CHECK: vcvtneph2bf8s xmm2, word ptr [eax]{1to16}
+// CHECK: vcvtph2bf8s xmm2, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x38,0x74,0x10]
-          vcvtneph2bf8s xmm2, word ptr [eax]{1to16}
+          vcvtph2bf8s xmm2, word ptr [eax]{1to16}
 
-// CHECK: vcvtneph2bf8s xmm2, ymmword ptr [2*ebp - 1024]
+// CHECK: vcvtph2bf8s xmm2, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x74,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2bf8s xmm2, ymmword ptr [2*ebp - 1024]
+          vcvtph2bf8s xmm2, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vcvtneph2bf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+// CHECK: vcvtph2bf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x74,0x51,0x7f]
-          vcvtneph2bf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+          vcvtph2bf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 
-// CHECK: vcvtneph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+// CHECK: vcvtph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xbf,0x74,0x52,0x80]
-          vcvtneph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+          vcvtph2bf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 
-// CHECK: vcvtneph2bf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvtph2bf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x74,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
+          vcvtph2bf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtneph2bf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvtph2bf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x74,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+          vcvtph2bf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtneph2bf8s ymm2, word ptr [eax]{1to32}
+// CHECK: vcvtph2bf8s ymm2, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x58,0x74,0x10]
-          vcvtneph2bf8s ymm2, word ptr [eax]{1to32}
+          vcvtph2bf8s ymm2, word ptr [eax]{1to32}
 
-// CHECK: vcvtneph2bf8s ymm2, zmmword ptr [2*ebp - 2048]
+// CHECK: vcvtph2bf8s ymm2, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x74,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2bf8s ymm2, zmmword ptr [2*ebp - 2048]
+          vcvtph2bf8s ymm2, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vcvtneph2bf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+// CHECK: vcvtph2bf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x74,0x51,0x7f]
-          vcvtneph2bf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+          vcvtph2bf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 
-// CHECK: vcvtneph2bf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+// CHECK: vcvtph2bf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xdf,0x74,0x52,0x80]
-          vcvtneph2bf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+          vcvtph2bf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 
-// CHECK: vcvtneph2hf8 xmm2, xmm3
+// CHECK: vcvtph2hf8 xmm2, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x18,0xd3]
-          vcvtneph2hf8 xmm2, xmm3
+          vcvtph2hf8 xmm2, xmm3
 
-// CHECK: vcvtneph2hf8 xmm2 {k7}, xmm3
+// CHECK: vcvtph2hf8 xmm2 {k7}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x18,0xd3]
-          vcvtneph2hf8 xmm2 {k7}, xmm3
+          vcvtph2hf8 xmm2 {k7}, xmm3
 
-// CHECK: vcvtneph2hf8 xmm2 {k7} {z}, xmm3
+// CHECK: vcvtph2hf8 xmm2 {k7} {z}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x18,0xd3]
-          vcvtneph2hf8 xmm2 {k7} {z}, xmm3
+          vcvtph2hf8 xmm2 {k7} {z}, xmm3
 
-// CHECK: vcvtneph2hf8 ymm2, zmm3
+// CHECK: vcvtph2hf8 ymm2, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x18,0xd3]
-          vcvtneph2hf8 ymm2, zmm3
+          vcvtph2hf8 ymm2, zmm3
 
-// CHECK: vcvtneph2hf8 ymm2 {k7}, zmm3
+// CHECK: vcvtph2hf8 ymm2 {k7}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x18,0xd3]
-          vcvtneph2hf8 ymm2 {k7}, zmm3
+          vcvtph2hf8 ymm2 {k7}, zmm3
 
-// CHECK: vcvtneph2hf8 ymm2 {k7} {z}, zmm3
+// CHECK: vcvtph2hf8 ymm2 {k7} {z}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x18,0xd3]
-          vcvtneph2hf8 ymm2 {k7} {z}, zmm3
+          vcvtph2hf8 ymm2 {k7} {z}, zmm3
 
-// CHECK: vcvtneph2hf8 xmm2, ymm3
+// CHECK: vcvtph2hf8 xmm2, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x18,0xd3]
-          vcvtneph2hf8 xmm2, ymm3
+          vcvtph2hf8 xmm2, ymm3
 
-// CHECK: vcvtneph2hf8 xmm2 {k7}, ymm3
+// CHECK: vcvtph2hf8 xmm2 {k7}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x2f,0x18,0xd3]
-          vcvtneph2hf8 xmm2 {k7}, ymm3
+          vcvtph2hf8 xmm2 {k7}, ymm3
 
-// CHECK: vcvtneph2hf8 xmm2 {k7} {z}, ymm3
+// CHECK: vcvtph2hf8 xmm2 {k7} {z}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x18,0xd3]
-          vcvtneph2hf8 xmm2 {k7} {z}, ymm3
+          vcvtph2hf8 xmm2 {k7} {z}, ymm3
 
-// CHECK: vcvtneph2hf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvtph2hf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
+          vcvtph2hf8 xmm2, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtneph2hf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvtph2hf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+          vcvtph2hf8 xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtneph2hf8 xmm2, word ptr [eax]{1to8}
+// CHECK: vcvtph2hf8 xmm2, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x18,0x18,0x10]
-          vcvtneph2hf8 xmm2, word ptr [eax]{1to8}
+          vcvtph2hf8 xmm2, word ptr [eax]{1to8}
 
-// CHECK: vcvtneph2hf8 xmm2, xmmword ptr [2*ebp - 512]
+// CHECK: vcvtph2hf8 xmm2, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x18,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2hf8 xmm2, xmmword ptr [2*ebp - 512]
+          vcvtph2hf8 xmm2, xmmword ptr [2*ebp - 512]
 
-// CHECK: vcvtneph2hf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+// CHECK: vcvtph2hf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x18,0x51,0x7f]
-          vcvtneph2hf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+          vcvtph2hf8 xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 
-// CHECK: vcvtneph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+// CHECK: vcvtph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x9f,0x18,0x52,0x80]
-          vcvtneph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+          vcvtph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 
-// CHECK: vcvtneph2hf8 xmm2, word ptr [eax]{1to16}
+// CHECK: vcvtph2hf8 xmm2, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x38,0x18,0x10]
-          vcvtneph2hf8 xmm2, word ptr [eax]{1to16}
+          vcvtph2hf8 xmm2, word ptr [eax]{1to16}
 
-// CHECK: vcvtneph2hf8 xmm2, ymmword ptr [2*ebp - 1024]
+// CHECK: vcvtph2hf8 xmm2, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x18,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2hf8 xmm2, ymmword ptr [2*ebp - 1024]
+          vcvtph2hf8 xmm2, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vcvtneph2hf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+// CHECK: vcvtph2hf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x18,0x51,0x7f]
-          vcvtneph2hf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+          vcvtph2hf8 xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 
-// CHECK: vcvtneph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+// CHECK: vcvtph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xbf,0x18,0x52,0x80]
-          vcvtneph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+          vcvtph2hf8 xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 
-// CHECK: vcvtneph2hf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvtph2hf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x18,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
+          vcvtph2hf8 ymm2, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtneph2hf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvtph2hf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x18,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+          vcvtph2hf8 ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtneph2hf8 ymm2, word ptr [eax]{1to32}
+// CHECK: vcvtph2hf8 ymm2, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x58,0x18,0x10]
-          vcvtneph2hf8 ymm2, word ptr [eax]{1to32}
+          vcvtph2hf8 ymm2, word ptr [eax]{1to32}
 
-// CHECK: vcvtneph2hf8 ymm2, zmmword ptr [2*ebp - 2048]
+// CHECK: vcvtph2hf8 ymm2, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x18,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2hf8 ymm2, zmmword ptr [2*ebp - 2048]
+          vcvtph2hf8 ymm2, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vcvtneph2hf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+// CHECK: vcvtph2hf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x18,0x51,0x7f]
-          vcvtneph2hf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+          vcvtph2hf8 ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 
-// CHECK: vcvtneph2hf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+// CHECK: vcvtph2hf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xdf,0x18,0x52,0x80]
-          vcvtneph2hf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+          vcvtph2hf8 ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 
-// CHECK: vcvtneph2hf8s xmm2, xmm3
+// CHECK: vcvtph2hf8s xmm2, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x1b,0xd3]
-          vcvtneph2hf8s xmm2, xmm3
+          vcvtph2hf8s xmm2, xmm3
 
-// CHECK: vcvtneph2hf8s xmm2 {k7}, xmm3
+// CHECK: vcvtph2hf8s xmm2 {k7}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x1b,0xd3]
-          vcvtneph2hf8s xmm2 {k7}, xmm3
+          vcvtph2hf8s xmm2 {k7}, xmm3
 
-// CHECK: vcvtneph2hf8s xmm2 {k7} {z}, xmm3
+// CHECK: vcvtph2hf8s xmm2 {k7} {z}, xmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x1b,0xd3]
-          vcvtneph2hf8s xmm2 {k7} {z}, xmm3
+          vcvtph2hf8s xmm2 {k7} {z}, xmm3
 
-// CHECK: vcvtneph2hf8s ymm2, zmm3
+// CHECK: vcvtph2hf8s ymm2, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x1b,0xd3]
-          vcvtneph2hf8s ymm2, zmm3
+          vcvtph2hf8s ymm2, zmm3
 
-// CHECK: vcvtneph2hf8s ymm2 {k7}, zmm3
+// CHECK: vcvtph2hf8s ymm2 {k7}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x1b,0xd3]
-          vcvtneph2hf8s ymm2 {k7}, zmm3
+          vcvtph2hf8s ymm2 {k7}, zmm3
 
-// CHECK: vcvtneph2hf8s ymm2 {k7} {z}, zmm3
+// CHECK: vcvtph2hf8s ymm2 {k7} {z}, zmm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x1b,0xd3]
-          vcvtneph2hf8s ymm2 {k7} {z}, zmm3
+          vcvtph2hf8s ymm2 {k7} {z}, zmm3
 
-// CHECK: vcvtneph2hf8s xmm2, ymm3
+// CHECK: vcvtph2hf8s xmm2, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x1b,0xd3]
-          vcvtneph2hf8s xmm2, ymm3
+          vcvtph2hf8s xmm2, ymm3
 
-// CHECK: vcvtneph2hf8s xmm2 {k7}, ymm3
+// CHECK: vcvtph2hf8s xmm2 {k7}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0x2f,0x1b,0xd3]
-          vcvtneph2hf8s xmm2 {k7}, ymm3
+          vcvtph2hf8s xmm2 {k7}, ymm3
 
-// CHECK: vcvtneph2hf8s xmm2 {k7} {z}, ymm3
+// CHECK: vcvtph2hf8s xmm2 {k7} {z}, ymm3
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x1b,0xd3]
-          vcvtneph2hf8s xmm2 {k7} {z}, ymm3
+          vcvtph2hf8s xmm2 {k7} {z}, ymm3
 
-// CHECK: vcvtneph2hf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvtph2hf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
+          vcvtph2hf8s xmm2, xmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtneph2hf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvtph2hf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x0f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
+          vcvtph2hf8s xmm2 {k7}, xmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtneph2hf8s xmm2, word ptr [eax]{1to8}
+// CHECK: vcvtph2hf8s xmm2, word ptr [eax]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x18,0x1b,0x10]
-          vcvtneph2hf8s xmm2, word ptr [eax]{1to8}
+          vcvtph2hf8s xmm2, word ptr [eax]{1to8}
 
-// CHECK: vcvtneph2hf8s xmm2, xmmword ptr [2*ebp - 512]
+// CHECK: vcvtph2hf8s xmm2, xmmword ptr [2*ebp - 512]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x08,0x1b,0x14,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2hf8s xmm2, xmmword ptr [2*ebp - 512]
+          vcvtph2hf8s xmm2, xmmword ptr [2*ebp - 512]
 
-// CHECK: vcvtneph2hf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+// CHECK: vcvtph2hf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x8f,0x1b,0x51,0x7f]
-          vcvtneph2hf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
+          vcvtph2hf8s xmm2 {k7} {z}, xmmword ptr [ecx + 2032]
 
-// CHECK: vcvtneph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+// CHECK: vcvtph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x9f,0x1b,0x52,0x80]
-          vcvtneph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
+          vcvtph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to8}
 
-// CHECK: vcvtneph2hf8s xmm2, word ptr [eax]{1to16}
+// CHECK: vcvtph2hf8s xmm2, word ptr [eax]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x38,0x1b,0x10]
-          vcvtneph2hf8s xmm2, word ptr [eax]{1to16}
+          vcvtph2hf8s xmm2, word ptr [eax]{1to16}
 
-// CHECK: vcvtneph2hf8s xmm2, ymmword ptr [2*ebp - 1024]
+// CHECK: vcvtph2hf8s xmm2, ymmword ptr [2*ebp - 1024]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x28,0x1b,0x14,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2hf8s xmm2, ymmword ptr [2*ebp - 1024]
+          vcvtph2hf8s xmm2, ymmword ptr [2*ebp - 1024]
 
-// CHECK: vcvtneph2hf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+// CHECK: vcvtph2hf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 // CHECK: encoding: [0x62,0xf5,0x7e,0xaf,0x1b,0x51,0x7f]
-          vcvtneph2hf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
+          vcvtph2hf8s xmm2 {k7} {z}, ymmword ptr [ecx + 4064]
 
-// CHECK: vcvtneph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+// CHECK: vcvtph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xbf,0x1b,0x52,0x80]
-          vcvtneph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
+          vcvtph2hf8s xmm2 {k7} {z}, word ptr [edx - 256]{1to16}
 
-// CHECK: vcvtneph2hf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
+// CHECK: vcvtph2hf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x1b,0x94,0xf4,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
+          vcvtph2hf8s ymm2, zmmword ptr [esp + 8*esi + 268435456]
 
-// CHECK: vcvtneph2hf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+// CHECK: vcvtph2hf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x4f,0x1b,0x94,0x87,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
+          vcvtph2hf8s ymm2 {k7}, zmmword ptr [edi + 4*eax + 291]
 
-// CHECK: vcvtneph2hf8s ymm2, word ptr [eax]{1to32}
+// CHECK: vcvtph2hf8s ymm2, word ptr [eax]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7e,0x58,0x1b,0x10]
-          vcvtneph2hf8s ymm2, word ptr [eax]{1to32}
+          vcvtph2hf8s ymm2, word ptr [eax]{1to32}
 
-// CHECK: vcvtneph2hf8s ymm2, zmmword ptr [2*ebp - 2048]
+// CHECK: vcvtph2hf8s ymm2, zmmword ptr [2*ebp - 2048]
 // CHECK: encoding: [0x62,0xf5,0x7e,0x48,0x1b,0x14,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2hf8s ymm2, zmmword ptr [2*ebp - 2048]
+          vcvtph2hf8s ymm2, zmmword ptr [2*ebp - 2048]
 
-// CHECK: vcvtneph2hf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+// CHECK: vcvtph2hf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 // CHECK: encoding: [0x62,0xf5,0x7e,0xcf,0x1b,0x51,0x7f]
-          vcvtneph2hf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
+          vcvtph2hf8s ymm2 {k7} {z}, zmmword ptr [ecx + 8128]
 
-// CHECK: vcvtneph2hf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+// CHECK: vcvtph2hf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 // CHECK: encoding: [0x62,0xf5,0x7e,0xdf,0x1b,0x52,0x80]
-          vcvtneph2hf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
+          vcvtph2hf8s ymm2 {k7} {z}, word ptr [edx - 256]{1to32}
 
diff --git a/llvm/test/MC/X86/avx10.2convert-64-att.s b/llvm/test/MC/X86/avx10.2convert-64-att.s
index ccf1e004c07f2..c39584ec09644 100644
--- a/llvm/test/MC/X86/avx10.2convert-64-att.s
+++ b/llvm/test/MC/X86/avx10.2convert-64-att.s
@@ -656,835 +656,835 @@
 // CHECK: encoding: [0x62,0xe5,0x7f,0xcf,0x1e,0x72,0x80]
           vcvthf82ph  -4096(%rdx), %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8 %ymm24, %ymm23, %ymm22
+// CHECK: vcvt2ph2bf8 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x82,0x47,0x20,0x74,0xf0]
-          vcvtne2ph2bf8 %ymm24, %ymm23, %ymm22
+          vcvt2ph2bf8 %ymm24, %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vcvt2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x82,0x47,0x27,0x74,0xf0]
-          vcvtne2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7}
+          vcvt2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x82,0x47,0xa7,0x74,0xf0]
-          vcvtne2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2bf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8 %zmm24, %zmm23, %zmm22
+// CHECK: vcvt2ph2bf8 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x82,0x47,0x40,0x74,0xf0]
-          vcvtne2ph2bf8 %zmm24, %zmm23, %zmm22
+          vcvt2ph2bf8 %zmm24, %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vcvt2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x82,0x47,0x47,0x74,0xf0]
-          vcvtne2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7}
+          vcvt2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x82,0x47,0xc7,0x74,0xf0]
-          vcvtne2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2bf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8 %xmm24, %xmm23, %xmm22
+// CHECK: vcvt2ph2bf8 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x82,0x47,0x00,0x74,0xf0]
-          vcvtne2ph2bf8 %xmm24, %xmm23, %xmm22
+          vcvt2ph2bf8 %xmm24, %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vcvt2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x82,0x47,0x07,0x74,0xf0]
-          vcvtne2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7}
+          vcvt2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x82,0x47,0x87,0x74,0xf0]
-          vcvtne2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2bf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vcvt2ph2bf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa2,0x47,0x40,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vcvt2ph2bf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2bf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vcvt2ph2bf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc2,0x47,0x47,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vcvt2ph2bf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vcvt2ph2bf8  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe2,0x47,0x50,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8  (%rip){1to32}, %zmm23, %zmm22
+          vcvt2ph2bf8  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2bf8  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vcvt2ph2bf8  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe2,0x47,0x40,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2bf8  -2048(,%rbp,2), %zmm23, %zmm22
+          vcvt2ph2bf8  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2bf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x47,0xc7,0x74,0x71,0x7f]
-          vcvtne2ph2bf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2bf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x47,0xd7,0x74,0x72,0x80]
-          vcvtne2ph2bf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2bf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vcvt2ph2bf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa2,0x47,0x20,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vcvt2ph2bf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2bf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vcvt2ph2bf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc2,0x47,0x27,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vcvt2ph2bf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vcvt2ph2bf8  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe2,0x47,0x30,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8  (%rip){1to16}, %ymm23, %ymm22
+          vcvt2ph2bf8  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2bf8  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vcvt2ph2bf8  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe2,0x47,0x20,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2bf8  -1024(,%rbp,2), %ymm23, %ymm22
+          vcvt2ph2bf8  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2bf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x47,0xa7,0x74,0x71,0x7f]
-          vcvtne2ph2bf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2bf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x47,0xb7,0x74,0x72,0x80]
-          vcvtne2ph2bf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2bf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vcvt2ph2bf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa2,0x47,0x00,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vcvt2ph2bf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2bf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vcvt2ph2bf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc2,0x47,0x07,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vcvt2ph2bf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vcvt2ph2bf8  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe2,0x47,0x10,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8  (%rip){1to8}, %xmm23, %xmm22
+          vcvt2ph2bf8  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2bf8  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vcvt2ph2bf8  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe2,0x47,0x00,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2bf8  -512(,%rbp,2), %xmm23, %xmm22
+          vcvt2ph2bf8  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2bf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x47,0x87,0x74,0x71,0x7f]
-          vcvtne2ph2bf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2bf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x47,0x97,0x74,0x72,0x80]
-          vcvtne2ph2bf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2bf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s %ymm24, %ymm23, %ymm22
+// CHECK: vcvt2ph2bf8s %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x85,0x47,0x20,0x74,0xf0]
-          vcvtne2ph2bf8s %ymm24, %ymm23, %ymm22
+          vcvt2ph2bf8s %ymm24, %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vcvt2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x47,0x27,0x74,0xf0]
-          vcvtne2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7}
+          vcvt2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x47,0xa7,0x74,0xf0]
-          vcvtne2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2bf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s %zmm24, %zmm23, %zmm22
+// CHECK: vcvt2ph2bf8s %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x85,0x47,0x40,0x74,0xf0]
-          vcvtne2ph2bf8s %zmm24, %zmm23, %zmm22
+          vcvt2ph2bf8s %zmm24, %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vcvt2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x47,0x47,0x74,0xf0]
-          vcvtne2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7}
+          vcvt2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x47,0xc7,0x74,0xf0]
-          vcvtne2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2bf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s %xmm24, %xmm23, %xmm22
+// CHECK: vcvt2ph2bf8s %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x85,0x47,0x00,0x74,0xf0]
-          vcvtne2ph2bf8s %xmm24, %xmm23, %xmm22
+          vcvt2ph2bf8s %xmm24, %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vcvt2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x47,0x07,0x74,0xf0]
-          vcvtne2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7}
+          vcvt2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x47,0x87,0x74,0xf0]
-          vcvtne2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2bf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vcvt2ph2bf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x47,0x40,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vcvt2ph2bf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2bf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vcvt2ph2bf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x47,0x47,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vcvt2ph2bf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8s  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vcvt2ph2bf8s  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x50,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8s  (%rip){1to32}, %zmm23, %zmm22
+          vcvt2ph2bf8s  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2bf8s  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vcvt2ph2bf8s  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x40,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2bf8s  -2048(,%rbp,2), %zmm23, %zmm22
+          vcvt2ph2bf8s  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2bf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xc7,0x74,0x71,0x7f]
-          vcvtne2ph2bf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2bf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xd7,0x74,0x72,0x80]
-          vcvtne2ph2bf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2bf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vcvt2ph2bf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x47,0x20,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vcvt2ph2bf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2bf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vcvt2ph2bf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x47,0x27,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vcvt2ph2bf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8s  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vcvt2ph2bf8s  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x30,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8s  (%rip){1to16}, %ymm23, %ymm22
+          vcvt2ph2bf8s  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2bf8s  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vcvt2ph2bf8s  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x20,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2bf8s  -1024(,%rbp,2), %ymm23, %ymm22
+          vcvt2ph2bf8s  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2bf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xa7,0x74,0x71,0x7f]
-          vcvtne2ph2bf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2bf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xb7,0x74,0x72,0x80]
-          vcvtne2ph2bf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2bf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vcvt2ph2bf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x47,0x00,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vcvt2ph2bf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2bf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vcvt2ph2bf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x47,0x07,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vcvt2ph2bf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtne2ph2bf8s  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vcvt2ph2bf8s  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x10,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8s  (%rip){1to8}, %xmm23, %xmm22
+          vcvt2ph2bf8s  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2bf8s  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vcvt2ph2bf8s  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x00,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2bf8s  -512(,%rbp,2), %xmm23, %xmm22
+          vcvt2ph2bf8s  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2bf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0x87,0x74,0x71,0x7f]
-          vcvtne2ph2bf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2bf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2bf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2bf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0x97,0x74,0x72,0x80]
-          vcvtne2ph2bf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2bf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8 %ymm24, %ymm23, %ymm22
+// CHECK: vcvt2ph2hf8 %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x85,0x47,0x20,0x18,0xf0]
-          vcvtne2ph2hf8 %ymm24, %ymm23, %ymm22
+          vcvt2ph2hf8 %ymm24, %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vcvt2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x47,0x27,0x18,0xf0]
-          vcvtne2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7}
+          vcvt2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x47,0xa7,0x18,0xf0]
-          vcvtne2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2hf8 %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8 %zmm24, %zmm23, %zmm22
+// CHECK: vcvt2ph2hf8 %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x85,0x47,0x40,0x18,0xf0]
-          vcvtne2ph2hf8 %zmm24, %zmm23, %zmm22
+          vcvt2ph2hf8 %zmm24, %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vcvt2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x47,0x47,0x18,0xf0]
-          vcvtne2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7}
+          vcvt2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x47,0xc7,0x18,0xf0]
-          vcvtne2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2hf8 %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8 %xmm24, %xmm23, %xmm22
+// CHECK: vcvt2ph2hf8 %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x85,0x47,0x00,0x18,0xf0]
-          vcvtne2ph2hf8 %xmm24, %xmm23, %xmm22
+          vcvt2ph2hf8 %xmm24, %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vcvt2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x47,0x07,0x18,0xf0]
-          vcvtne2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7}
+          vcvt2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x47,0x87,0x18,0xf0]
-          vcvtne2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2hf8 %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vcvt2ph2hf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x47,0x40,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vcvt2ph2hf8  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2hf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vcvt2ph2hf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x47,0x47,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vcvt2ph2hf8  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vcvt2ph2hf8  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x50,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8  (%rip){1to32}, %zmm23, %zmm22
+          vcvt2ph2hf8  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2hf8  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vcvt2ph2hf8  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x40,0x18,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2hf8  -2048(,%rbp,2), %zmm23, %zmm22
+          vcvt2ph2hf8  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2hf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xc7,0x18,0x71,0x7f]
-          vcvtne2ph2hf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2hf8  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xd7,0x18,0x72,0x80]
-          vcvtne2ph2hf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2hf8  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vcvt2ph2hf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x47,0x20,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vcvt2ph2hf8  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2hf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vcvt2ph2hf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x47,0x27,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vcvt2ph2hf8  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vcvt2ph2hf8  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x30,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8  (%rip){1to16}, %ymm23, %ymm22
+          vcvt2ph2hf8  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2hf8  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vcvt2ph2hf8  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x20,0x18,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2hf8  -1024(,%rbp,2), %ymm23, %ymm22
+          vcvt2ph2hf8  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2hf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xa7,0x18,0x71,0x7f]
-          vcvtne2ph2hf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2hf8  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xb7,0x18,0x72,0x80]
-          vcvtne2ph2hf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2hf8  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vcvt2ph2hf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x47,0x00,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vcvt2ph2hf8  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2hf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vcvt2ph2hf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x47,0x07,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vcvt2ph2hf8  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vcvt2ph2hf8  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x10,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8  (%rip){1to8}, %xmm23, %xmm22
+          vcvt2ph2hf8  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2hf8  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vcvt2ph2hf8  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x00,0x18,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2hf8  -512(,%rbp,2), %xmm23, %xmm22
+          vcvt2ph2hf8  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2hf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0x87,0x18,0x71,0x7f]
-          vcvtne2ph2hf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2hf8  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0x97,0x18,0x72,0x80]
-          vcvtne2ph2hf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2hf8  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s %ymm24, %ymm23, %ymm22
+// CHECK: vcvt2ph2hf8s %ymm24, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0x85,0x47,0x20,0x1b,0xf0]
-          vcvtne2ph2hf8s %ymm24, %ymm23, %ymm22
+          vcvt2ph2hf8s %ymm24, %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7}
+// CHECK: vcvt2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x47,0x27,0x1b,0xf0]
-          vcvtne2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7}
+          vcvt2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x47,0xa7,0x1b,0xf0]
-          vcvtne2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2hf8s %ymm24, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s %zmm24, %zmm23, %zmm22
+// CHECK: vcvt2ph2hf8s %zmm24, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0x85,0x47,0x40,0x1b,0xf0]
-          vcvtne2ph2hf8s %zmm24, %zmm23, %zmm22
+          vcvt2ph2hf8s %zmm24, %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7}
+// CHECK: vcvt2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x47,0x47,0x1b,0xf0]
-          vcvtne2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7}
+          vcvt2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x47,0xc7,0x1b,0xf0]
-          vcvtne2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2hf8s %zmm24, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s %xmm24, %xmm23, %xmm22
+// CHECK: vcvt2ph2hf8s %xmm24, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0x85,0x47,0x00,0x1b,0xf0]
-          vcvtne2ph2hf8s %xmm24, %xmm23, %xmm22
+          vcvt2ph2hf8s %xmm24, %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7}
+// CHECK: vcvt2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0x85,0x47,0x07,0x1b,0xf0]
-          vcvtne2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7}
+          vcvt2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0x85,0x47,0x87,0x1b,0xf0]
-          vcvtne2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2hf8s %xmm24, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
+// CHECK: vcvt2ph2hf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xa5,0x47,0x40,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
+          vcvt2ph2hf8s  268435456(%rbp,%r14,8), %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2hf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+// CHECK: vcvt2ph2hf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x47,0x47,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
+          vcvt2ph2hf8s  291(%r8,%rax,4), %zmm23, %zmm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8s  (%rip){1to32}, %zmm23, %zmm22
+// CHECK: vcvt2ph2hf8s  (%rip){1to32}, %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x50,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8s  (%rip){1to32}, %zmm23, %zmm22
+          vcvt2ph2hf8s  (%rip){1to32}, %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2hf8s  -2048(,%rbp,2), %zmm23, %zmm22
+// CHECK: vcvt2ph2hf8s  -2048(,%rbp,2), %zmm23, %zmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x40,0x1b,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2hf8s  -2048(,%rbp,2), %zmm23, %zmm22
+          vcvt2ph2hf8s  -2048(,%rbp,2), %zmm23, %zmm22
 
-// CHECK: vcvtne2ph2hf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xc7,0x1b,0x71,0x7f]
-          vcvtne2ph2hf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2hf8s  8128(%rcx), %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xd7,0x1b,0x72,0x80]
-          vcvtne2ph2hf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
+          vcvt2ph2hf8s  -256(%rdx){1to32}, %zmm23, %zmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
+// CHECK: vcvt2ph2hf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x47,0x20,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
+          vcvt2ph2hf8s  268435456(%rbp,%r14,8), %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2hf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+// CHECK: vcvt2ph2hf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x47,0x27,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
+          vcvt2ph2hf8s  291(%r8,%rax,4), %ymm23, %ymm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8s  (%rip){1to16}, %ymm23, %ymm22
+// CHECK: vcvt2ph2hf8s  (%rip){1to16}, %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x30,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8s  (%rip){1to16}, %ymm23, %ymm22
+          vcvt2ph2hf8s  (%rip){1to16}, %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2hf8s  -1024(,%rbp,2), %ymm23, %ymm22
+// CHECK: vcvt2ph2hf8s  -1024(,%rbp,2), %ymm23, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x20,0x1b,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2hf8s  -1024(,%rbp,2), %ymm23, %ymm22
+          vcvt2ph2hf8s  -1024(,%rbp,2), %ymm23, %ymm22
 
-// CHECK: vcvtne2ph2hf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xa7,0x1b,0x71,0x7f]
-          vcvtne2ph2hf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2hf8s  4064(%rcx), %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0xb7,0x1b,0x72,0x80]
-          vcvtne2ph2hf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
+          vcvt2ph2hf8s  -256(%rdx){1to16}, %ymm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
+// CHECK: vcvt2ph2hf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x47,0x00,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
+          vcvt2ph2hf8s  268435456(%rbp,%r14,8), %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2hf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+// CHECK: vcvt2ph2hf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x47,0x07,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
+          vcvt2ph2hf8s  291(%r8,%rax,4), %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtne2ph2hf8s  (%rip){1to8}, %xmm23, %xmm22
+// CHECK: vcvt2ph2hf8s  (%rip){1to8}, %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x10,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8s  (%rip){1to8}, %xmm23, %xmm22
+          vcvt2ph2hf8s  (%rip){1to8}, %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2hf8s  -512(,%rbp,2), %xmm23, %xmm22
+// CHECK: vcvt2ph2hf8s  -512(,%rbp,2), %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x47,0x00,0x1b,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2hf8s  -512(,%rbp,2), %xmm23, %xmm22
+          vcvt2ph2hf8s  -512(,%rbp,2), %xmm23, %xmm22
 
-// CHECK: vcvtne2ph2hf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0x87,0x1b,0x71,0x7f]
-          vcvtne2ph2hf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2hf8s  2032(%rcx), %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtne2ph2hf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvt2ph2hf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x47,0x97,0x1b,0x72,0x80]
-          vcvtne2ph2hf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
+          vcvt2ph2hf8s  -256(%rdx){1to8}, %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8 %xmm23, %xmm22
+// CHECK: vcvtph2bf8 %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa2,0x7e,0x08,0x74,0xf7]
-          vcvtneph2bf8 %xmm23, %xmm22
+          vcvtph2bf8 %xmm23, %xmm22
 
-// CHECK: vcvtneph2bf8 %xmm23, %xmm22 {%k7}
+// CHECK: vcvtph2bf8 %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa2,0x7e,0x0f,0x74,0xf7]
-          vcvtneph2bf8 %xmm23, %xmm22 {%k7}
+          vcvtph2bf8 %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtneph2bf8 %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8 %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa2,0x7e,0x8f,0x74,0xf7]
-          vcvtneph2bf8 %xmm23, %xmm22 {%k7} {z}
+          vcvtph2bf8 %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8 %zmm23, %ymm22
+// CHECK: vcvtph2bf8 %zmm23, %ymm22
 // CHECK: encoding: [0x62,0xa2,0x7e,0x48,0x74,0xf7]
-          vcvtneph2bf8 %zmm23, %ymm22
+          vcvtph2bf8 %zmm23, %ymm22
 
-// CHECK: vcvtneph2bf8 %zmm23, %ymm22 {%k7}
+// CHECK: vcvtph2bf8 %zmm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa2,0x7e,0x4f,0x74,0xf7]
-          vcvtneph2bf8 %zmm23, %ymm22 {%k7}
+          vcvtph2bf8 %zmm23, %ymm22 {%k7}
 
-// CHECK: vcvtneph2bf8 %zmm23, %ymm22 {%k7} {z}
+// CHECK: vcvtph2bf8 %zmm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa2,0x7e,0xcf,0x74,0xf7]
-          vcvtneph2bf8 %zmm23, %ymm22 {%k7} {z}
+          vcvtph2bf8 %zmm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8 %ymm23, %xmm22
+// CHECK: vcvtph2bf8 %ymm23, %xmm22
 // CHECK: encoding: [0x62,0xa2,0x7e,0x28,0x74,0xf7]
-          vcvtneph2bf8 %ymm23, %xmm22
+          vcvtph2bf8 %ymm23, %xmm22
 
-// CHECK: vcvtneph2bf8 %ymm23, %xmm22 {%k7}
+// CHECK: vcvtph2bf8 %ymm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa2,0x7e,0x2f,0x74,0xf7]
-          vcvtneph2bf8 %ymm23, %xmm22 {%k7}
+          vcvtph2bf8 %ymm23, %xmm22 {%k7}
 
-// CHECK: vcvtneph2bf8 %ymm23, %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8 %ymm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa2,0x7e,0xaf,0x74,0xf7]
-          vcvtneph2bf8 %ymm23, %xmm22 {%k7} {z}
+          vcvtph2bf8 %ymm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8x  268435456(%rbp,%r14,8), %xmm22
+// CHECK: vcvtph2bf8x  268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa2,0x7e,0x08,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8x  268435456(%rbp,%r14,8), %xmm22
+          vcvtph2bf8x  268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vcvtneph2bf8x  291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vcvtph2bf8x  291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc2,0x7e,0x0f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8x  291(%r8,%rax,4), %xmm22 {%k7}
+          vcvtph2bf8x  291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vcvtneph2bf8  (%rip){1to8}, %xmm22
+// CHECK: vcvtph2bf8  (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe2,0x7e,0x18,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8  (%rip){1to8}, %xmm22
+          vcvtph2bf8  (%rip){1to8}, %xmm22
 
-// CHECK: vcvtneph2bf8x  -512(,%rbp,2), %xmm22
+// CHECK: vcvtph2bf8x  -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe2,0x7e,0x08,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2bf8x  -512(,%rbp,2), %xmm22
+          vcvtph2bf8x  -512(,%rbp,2), %xmm22
 
-// CHECK: vcvtneph2bf8x  2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8x  2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x7e,0x8f,0x74,0x71,0x7f]
-          vcvtneph2bf8x  2032(%rcx), %xmm22 {%k7} {z}
+          vcvtph2bf8x  2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x7e,0x9f,0x74,0x72,0x80]
-          vcvtneph2bf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vcvtph2bf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  (%rip){1to16}, %xmm22
+// CHECK: vcvtph2bf8  (%rip){1to16}, %xmm22
 // CHECK: encoding: [0x62,0xe2,0x7e,0x38,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8  (%rip){1to16}, %xmm22
+          vcvtph2bf8  (%rip){1to16}, %xmm22
 
-// CHECK: vcvtneph2bf8y  -1024(,%rbp,2), %xmm22
+// CHECK: vcvtph2bf8y  -1024(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe2,0x7e,0x28,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2bf8y  -1024(,%rbp,2), %xmm22
+          vcvtph2bf8y  -1024(,%rbp,2), %xmm22
 
-// CHECK: vcvtneph2bf8y  4064(%rcx), %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8y  4064(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x7e,0xaf,0x74,0x71,0x7f]
-          vcvtneph2bf8y  4064(%rcx), %xmm22 {%k7} {z}
+          vcvtph2bf8y  4064(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x7e,0xbf,0x74,0x72,0x80]
-          vcvtneph2bf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+          vcvtph2bf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  268435456(%rbp,%r14,8), %ymm22
+// CHECK: vcvtph2bf8  268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa2,0x7e,0x48,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8  268435456(%rbp,%r14,8), %ymm22
+          vcvtph2bf8  268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vcvtneph2bf8  291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vcvtph2bf8  291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc2,0x7e,0x4f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8  291(%r8,%rax,4), %ymm22 {%k7}
+          vcvtph2bf8  291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vcvtneph2bf8  (%rip){1to32}, %ymm22
+// CHECK: vcvtph2bf8  (%rip){1to32}, %ymm22
 // CHECK: encoding: [0x62,0xe2,0x7e,0x58,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8  (%rip){1to32}, %ymm22
+          vcvtph2bf8  (%rip){1to32}, %ymm22
 
-// CHECK: vcvtneph2bf8  -2048(,%rbp,2), %ymm22
+// CHECK: vcvtph2bf8  -2048(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe2,0x7e,0x48,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2bf8  -2048(,%rbp,2), %ymm22
+          vcvtph2bf8  -2048(,%rbp,2), %ymm22
 
-// CHECK: vcvtneph2bf8  8128(%rcx), %ymm22 {%k7} {z}
+// CHECK: vcvtph2bf8  8128(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x7e,0xcf,0x74,0x71,0x7f]
-          vcvtneph2bf8  8128(%rcx), %ymm22 {%k7} {z}
+          vcvtph2bf8  8128(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+// CHECK: vcvtph2bf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe2,0x7e,0xdf,0x74,0x72,0x80]
-          vcvtneph2bf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+          vcvtph2bf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s %xmm23, %xmm22
+// CHECK: vcvtph2bf8s %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x74,0xf7]
-          vcvtneph2bf8s %xmm23, %xmm22
+          vcvtph2bf8s %xmm23, %xmm22
 
-// CHECK: vcvtneph2bf8s %xmm23, %xmm22 {%k7}
+// CHECK: vcvtph2bf8s %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x0f,0x74,0xf7]
-          vcvtneph2bf8s %xmm23, %xmm22 {%k7}
+          vcvtph2bf8s %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtneph2bf8s %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8s %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x8f,0x74,0xf7]
-          vcvtneph2bf8s %xmm23, %xmm22 {%k7} {z}
+          vcvtph2bf8s %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s %zmm23, %ymm22
+// CHECK: vcvtph2bf8s %zmm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x74,0xf7]
-          vcvtneph2bf8s %zmm23, %ymm22
+          vcvtph2bf8s %zmm23, %ymm22
 
-// CHECK: vcvtneph2bf8s %zmm23, %ymm22 {%k7}
+// CHECK: vcvtph2bf8s %zmm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x4f,0x74,0xf7]
-          vcvtneph2bf8s %zmm23, %ymm22 {%k7}
+          vcvtph2bf8s %zmm23, %ymm22 {%k7}
 
-// CHECK: vcvtneph2bf8s %zmm23, %ymm22 {%k7} {z}
+// CHECK: vcvtph2bf8s %zmm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7e,0xcf,0x74,0xf7]
-          vcvtneph2bf8s %zmm23, %ymm22 {%k7} {z}
+          vcvtph2bf8s %zmm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s %ymm23, %xmm22
+// CHECK: vcvtph2bf8s %ymm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x28,0x74,0xf7]
-          vcvtneph2bf8s %ymm23, %xmm22
+          vcvtph2bf8s %ymm23, %xmm22
 
-// CHECK: vcvtneph2bf8s %ymm23, %xmm22 {%k7}
+// CHECK: vcvtph2bf8s %ymm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x2f,0x74,0xf7]
-          vcvtneph2bf8s %ymm23, %xmm22 {%k7}
+          vcvtph2bf8s %ymm23, %xmm22 {%k7}
 
-// CHECK: vcvtneph2bf8s %ymm23, %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8s %ymm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7e,0xaf,0x74,0xf7]
-          vcvtneph2bf8s %ymm23, %xmm22 {%k7} {z}
+          vcvtph2bf8s %ymm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8sx  268435456(%rbp,%r14,8), %xmm22
+// CHECK: vcvtph2bf8sx  268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8sx  268435456(%rbp,%r14,8), %xmm22
+          vcvtph2bf8sx  268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vcvtneph2bf8sx  291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vcvtph2bf8sx  291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7e,0x0f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8sx  291(%r8,%rax,4), %xmm22 {%k7}
+          vcvtph2bf8sx  291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vcvtneph2bf8s  (%rip){1to8}, %xmm22
+// CHECK: vcvtph2bf8s  (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x18,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8s  (%rip){1to8}, %xmm22
+          vcvtph2bf8s  (%rip){1to8}, %xmm22
 
-// CHECK: vcvtneph2bf8sx  -512(,%rbp,2), %xmm22
+// CHECK: vcvtph2bf8sx  -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x08,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2bf8sx  -512(,%rbp,2), %xmm22
+          vcvtph2bf8sx  -512(,%rbp,2), %xmm22
 
-// CHECK: vcvtneph2bf8sx  2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8sx  2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x8f,0x74,0x71,0x7f]
-          vcvtneph2bf8sx  2032(%rcx), %xmm22 {%k7} {z}
+          vcvtph2bf8sx  2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x9f,0x74,0x72,0x80]
-          vcvtneph2bf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vcvtph2bf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  (%rip){1to16}, %xmm22
+// CHECK: vcvtph2bf8s  (%rip){1to16}, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x38,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8s  (%rip){1to16}, %xmm22
+          vcvtph2bf8s  (%rip){1to16}, %xmm22
 
-// CHECK: vcvtneph2bf8sy  -1024(,%rbp,2), %xmm22
+// CHECK: vcvtph2bf8sy  -1024(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x28,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2bf8sy  -1024(,%rbp,2), %xmm22
+          vcvtph2bf8sy  -1024(,%rbp,2), %xmm22
 
-// CHECK: vcvtneph2bf8sy  4064(%rcx), %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8sy  4064(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xaf,0x74,0x71,0x7f]
-          vcvtneph2bf8sy  4064(%rcx), %xmm22 {%k7} {z}
+          vcvtph2bf8sy  4064(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+// CHECK: vcvtph2bf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xbf,0x74,0x72,0x80]
-          vcvtneph2bf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+          vcvtph2bf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  268435456(%rbp,%r14,8), %ymm22
+// CHECK: vcvtph2bf8s  268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8s  268435456(%rbp,%r14,8), %ymm22
+          vcvtph2bf8s  268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vcvtneph2bf8s  291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vcvtph2bf8s  291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7e,0x4f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8s  291(%r8,%rax,4), %ymm22 {%k7}
+          vcvtph2bf8s  291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vcvtneph2bf8s  (%rip){1to32}, %ymm22
+// CHECK: vcvtph2bf8s  (%rip){1to32}, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x58,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8s  (%rip){1to32}, %ymm22
+          vcvtph2bf8s  (%rip){1to32}, %ymm22
 
-// CHECK: vcvtneph2bf8s  -2048(,%rbp,2), %ymm22
+// CHECK: vcvtph2bf8s  -2048(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x48,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2bf8s  -2048(,%rbp,2), %ymm22
+          vcvtph2bf8s  -2048(,%rbp,2), %ymm22
 
-// CHECK: vcvtneph2bf8s  8128(%rcx), %ymm22 {%k7} {z}
+// CHECK: vcvtph2bf8s  8128(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xcf,0x74,0x71,0x7f]
-          vcvtneph2bf8s  8128(%rcx), %ymm22 {%k7} {z}
+          vcvtph2bf8s  8128(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2bf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+// CHECK: vcvtph2bf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xdf,0x74,0x72,0x80]
-          vcvtneph2bf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+          vcvtph2bf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8 %xmm23, %xmm22
+// CHECK: vcvtph2hf8 %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x18,0xf7]
-          vcvtneph2hf8 %xmm23, %xmm22
+          vcvtph2hf8 %xmm23, %xmm22
 
-// CHECK: vcvtneph2hf8 %xmm23, %xmm22 {%k7}
+// CHECK: vcvtph2hf8 %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x0f,0x18,0xf7]
-          vcvtneph2hf8 %xmm23, %xmm22 {%k7}
+          vcvtph2hf8 %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtneph2hf8 %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8 %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x8f,0x18,0xf7]
-          vcvtneph2hf8 %xmm23, %xmm22 {%k7} {z}
+          vcvtph2hf8 %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8 %zmm23, %ymm22
+// CHECK: vcvtph2hf8 %zmm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x18,0xf7]
-          vcvtneph2hf8 %zmm23, %ymm22
+          vcvtph2hf8 %zmm23, %ymm22
 
-// CHECK: vcvtneph2hf8 %zmm23, %ymm22 {%k7}
+// CHECK: vcvtph2hf8 %zmm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x4f,0x18,0xf7]
-          vcvtneph2hf8 %zmm23, %ymm22 {%k7}
+          vcvtph2hf8 %zmm23, %ymm22 {%k7}
 
-// CHECK: vcvtneph2hf8 %zmm23, %ymm22 {%k7} {z}
+// CHECK: vcvtph2hf8 %zmm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7e,0xcf,0x18,0xf7]
-          vcvtneph2hf8 %zmm23, %ymm22 {%k7} {z}
+          vcvtph2hf8 %zmm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8 %ymm23, %xmm22
+// CHECK: vcvtph2hf8 %ymm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x28,0x18,0xf7]
-          vcvtneph2hf8 %ymm23, %xmm22
+          vcvtph2hf8 %ymm23, %xmm22
 
-// CHECK: vcvtneph2hf8 %ymm23, %xmm22 {%k7}
+// CHECK: vcvtph2hf8 %ymm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x2f,0x18,0xf7]
-          vcvtneph2hf8 %ymm23, %xmm22 {%k7}
+          vcvtph2hf8 %ymm23, %xmm22 {%k7}
 
-// CHECK: vcvtneph2hf8 %ymm23, %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8 %ymm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7e,0xaf,0x18,0xf7]
-          vcvtneph2hf8 %ymm23, %xmm22 {%k7} {z}
+          vcvtph2hf8 %ymm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8x  268435456(%rbp,%r14,8), %xmm22
+// CHECK: vcvtph2hf8x  268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8x  268435456(%rbp,%r14,8), %xmm22
+          vcvtph2hf8x  268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vcvtneph2hf8x  291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vcvtph2hf8x  291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7e,0x0f,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8x  291(%r8,%rax,4), %xmm22 {%k7}
+          vcvtph2hf8x  291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vcvtneph2hf8  (%rip){1to8}, %xmm22
+// CHECK: vcvtph2hf8  (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x18,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8  (%rip){1to8}, %xmm22
+          vcvtph2hf8  (%rip){1to8}, %xmm22
 
-// CHECK: vcvtneph2hf8x  -512(,%rbp,2), %xmm22
+// CHECK: vcvtph2hf8x  -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x08,0x18,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2hf8x  -512(,%rbp,2), %xmm22
+          vcvtph2hf8x  -512(,%rbp,2), %xmm22
 
-// CHECK: vcvtneph2hf8x  2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8x  2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x8f,0x18,0x71,0x7f]
-          vcvtneph2hf8x  2032(%rcx), %xmm22 {%k7} {z}
+          vcvtph2hf8x  2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x9f,0x18,0x72,0x80]
-          vcvtneph2hf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vcvtph2hf8  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  (%rip){1to16}, %xmm22
+// CHECK: vcvtph2hf8  (%rip){1to16}, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x38,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8  (%rip){1to16}, %xmm22
+          vcvtph2hf8  (%rip){1to16}, %xmm22
 
-// CHECK: vcvtneph2hf8y  -1024(,%rbp,2), %xmm22
+// CHECK: vcvtph2hf8y  -1024(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x28,0x18,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2hf8y  -1024(,%rbp,2), %xmm22
+          vcvtph2hf8y  -1024(,%rbp,2), %xmm22
 
-// CHECK: vcvtneph2hf8y  4064(%rcx), %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8y  4064(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xaf,0x18,0x71,0x7f]
-          vcvtneph2hf8y  4064(%rcx), %xmm22 {%k7} {z}
+          vcvtph2hf8y  4064(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xbf,0x18,0x72,0x80]
-          vcvtneph2hf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+          vcvtph2hf8  -256(%rdx){1to16}, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  268435456(%rbp,%r14,8), %ymm22
+// CHECK: vcvtph2hf8  268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8  268435456(%rbp,%r14,8), %ymm22
+          vcvtph2hf8  268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vcvtneph2hf8  291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vcvtph2hf8  291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7e,0x4f,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8  291(%r8,%rax,4), %ymm22 {%k7}
+          vcvtph2hf8  291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vcvtneph2hf8  (%rip){1to32}, %ymm22
+// CHECK: vcvtph2hf8  (%rip){1to32}, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x58,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8  (%rip){1to32}, %ymm22
+          vcvtph2hf8  (%rip){1to32}, %ymm22
 
-// CHECK: vcvtneph2hf8  -2048(,%rbp,2), %ymm22
+// CHECK: vcvtph2hf8  -2048(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x48,0x18,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2hf8  -2048(,%rbp,2), %ymm22
+          vcvtph2hf8  -2048(,%rbp,2), %ymm22
 
-// CHECK: vcvtneph2hf8  8128(%rcx), %ymm22 {%k7} {z}
+// CHECK: vcvtph2hf8  8128(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xcf,0x18,0x71,0x7f]
-          vcvtneph2hf8  8128(%rcx), %ymm22 {%k7} {z}
+          vcvtph2hf8  8128(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+// CHECK: vcvtph2hf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xdf,0x18,0x72,0x80]
-          vcvtneph2hf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+          vcvtph2hf8  -256(%rdx){1to32}, %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s %xmm23, %xmm22
+// CHECK: vcvtph2hf8s %xmm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x1b,0xf7]
-          vcvtneph2hf8s %xmm23, %xmm22
+          vcvtph2hf8s %xmm23, %xmm22
 
-// CHECK: vcvtneph2hf8s %xmm23, %xmm22 {%k7}
+// CHECK: vcvtph2hf8s %xmm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x0f,0x1b,0xf7]
-          vcvtneph2hf8s %xmm23, %xmm22 {%k7}
+          vcvtph2hf8s %xmm23, %xmm22 {%k7}
 
-// CHECK: vcvtneph2hf8s %xmm23, %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8s %xmm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x8f,0x1b,0xf7]
-          vcvtneph2hf8s %xmm23, %xmm22 {%k7} {z}
+          vcvtph2hf8s %xmm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s %zmm23, %ymm22
+// CHECK: vcvtph2hf8s %zmm23, %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x1b,0xf7]
-          vcvtneph2hf8s %zmm23, %ymm22
+          vcvtph2hf8s %zmm23, %ymm22
 
-// CHECK: vcvtneph2hf8s %zmm23, %ymm22 {%k7}
+// CHECK: vcvtph2hf8s %zmm23, %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x4f,0x1b,0xf7]
-          vcvtneph2hf8s %zmm23, %ymm22 {%k7}
+          vcvtph2hf8s %zmm23, %ymm22 {%k7}
 
-// CHECK: vcvtneph2hf8s %zmm23, %ymm22 {%k7} {z}
+// CHECK: vcvtph2hf8s %zmm23, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7e,0xcf,0x1b,0xf7]
-          vcvtneph2hf8s %zmm23, %ymm22 {%k7} {z}
+          vcvtph2hf8s %zmm23, %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s %ymm23, %xmm22
+// CHECK: vcvtph2hf8s %ymm23, %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x28,0x1b,0xf7]
-          vcvtneph2hf8s %ymm23, %xmm22
+          vcvtph2hf8s %ymm23, %xmm22
 
-// CHECK: vcvtneph2hf8s %ymm23, %xmm22 {%k7}
+// CHECK: vcvtph2hf8s %ymm23, %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xa5,0x7e,0x2f,0x1b,0xf7]
-          vcvtneph2hf8s %ymm23, %xmm22 {%k7}
+          vcvtph2hf8s %ymm23, %xmm22 {%k7}
 
-// CHECK: vcvtneph2hf8s %ymm23, %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8s %ymm23, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xa5,0x7e,0xaf,0x1b,0xf7]
-          vcvtneph2hf8s %ymm23, %xmm22 {%k7} {z}
+          vcvtph2hf8s %ymm23, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8sx  268435456(%rbp,%r14,8), %xmm22
+// CHECK: vcvtph2hf8sx  268435456(%rbp,%r14,8), %xmm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8sx  268435456(%rbp,%r14,8), %xmm22
+          vcvtph2hf8sx  268435456(%rbp,%r14,8), %xmm22
 
-// CHECK: vcvtneph2hf8sx  291(%r8,%rax,4), %xmm22 {%k7}
+// CHECK: vcvtph2hf8sx  291(%r8,%rax,4), %xmm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7e,0x0f,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8sx  291(%r8,%rax,4), %xmm22 {%k7}
+          vcvtph2hf8sx  291(%r8,%rax,4), %xmm22 {%k7}
 
-// CHECK: vcvtneph2hf8s  (%rip){1to8}, %xmm22
+// CHECK: vcvtph2hf8s  (%rip){1to8}, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x18,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8s  (%rip){1to8}, %xmm22
+          vcvtph2hf8s  (%rip){1to8}, %xmm22
 
-// CHECK: vcvtneph2hf8sx  -512(,%rbp,2), %xmm22
+// CHECK: vcvtph2hf8sx  -512(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x08,0x1b,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2hf8sx  -512(,%rbp,2), %xmm22
+          vcvtph2hf8sx  -512(,%rbp,2), %xmm22
 
-// CHECK: vcvtneph2hf8sx  2032(%rcx), %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8sx  2032(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x8f,0x1b,0x71,0x7f]
-          vcvtneph2hf8sx  2032(%rcx), %xmm22 {%k7} {z}
+          vcvtph2hf8sx  2032(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x9f,0x1b,0x72,0x80]
-          vcvtneph2hf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
+          vcvtph2hf8s  -256(%rdx){1to8}, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  (%rip){1to16}, %xmm22
+// CHECK: vcvtph2hf8s  (%rip){1to16}, %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x38,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8s  (%rip){1to16}, %xmm22
+          vcvtph2hf8s  (%rip){1to16}, %xmm22
 
-// CHECK: vcvtneph2hf8sy  -1024(,%rbp,2), %xmm22
+// CHECK: vcvtph2hf8sy  -1024(,%rbp,2), %xmm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x28,0x1b,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2hf8sy  -1024(,%rbp,2), %xmm22
+          vcvtph2hf8sy  -1024(,%rbp,2), %xmm22
 
-// CHECK: vcvtneph2hf8sy  4064(%rcx), %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8sy  4064(%rcx), %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xaf,0x1b,0x71,0x7f]
-          vcvtneph2hf8sy  4064(%rcx), %xmm22 {%k7} {z}
+          vcvtph2hf8sy  4064(%rcx), %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+// CHECK: vcvtph2hf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xbf,0x1b,0x72,0x80]
-          vcvtneph2hf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
+          vcvtph2hf8s  -256(%rdx){1to16}, %xmm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  268435456(%rbp,%r14,8), %ymm22
+// CHECK: vcvtph2hf8s  268435456(%rbp,%r14,8), %ymm22
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8s  268435456(%rbp,%r14,8), %ymm22
+          vcvtph2hf8s  268435456(%rbp,%r14,8), %ymm22
 
-// CHECK: vcvtneph2hf8s  291(%r8,%rax,4), %ymm22 {%k7}
+// CHECK: vcvtph2hf8s  291(%r8,%rax,4), %ymm22 {%k7}
 // CHECK: encoding: [0x62,0xc5,0x7e,0x4f,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8s  291(%r8,%rax,4), %ymm22 {%k7}
+          vcvtph2hf8s  291(%r8,%rax,4), %ymm22 {%k7}
 
-// CHECK: vcvtneph2hf8s  (%rip){1to32}, %ymm22
+// CHECK: vcvtph2hf8s  (%rip){1to32}, %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x58,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8s  (%rip){1to32}, %ymm22
+          vcvtph2hf8s  (%rip){1to32}, %ymm22
 
-// CHECK: vcvtneph2hf8s  -2048(,%rbp,2), %ymm22
+// CHECK: vcvtph2hf8s  -2048(,%rbp,2), %ymm22
 // CHECK: encoding: [0x62,0xe5,0x7e,0x48,0x1b,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2hf8s  -2048(,%rbp,2), %ymm22
+          vcvtph2hf8s  -2048(,%rbp,2), %ymm22
 
-// CHECK: vcvtneph2hf8s  8128(%rcx), %ymm22 {%k7} {z}
+// CHECK: vcvtph2hf8s  8128(%rcx), %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xcf,0x1b,0x71,0x7f]
-          vcvtneph2hf8s  8128(%rcx), %ymm22 {%k7} {z}
+          vcvtph2hf8s  8128(%rcx), %ymm22 {%k7} {z}
 
-// CHECK: vcvtneph2hf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+// CHECK: vcvtph2hf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xdf,0x1b,0x72,0x80]
-          vcvtneph2hf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
+          vcvtph2hf8s  -256(%rdx){1to32}, %ymm22 {%k7} {z}
 
diff --git a/llvm/test/MC/X86/avx10.2convert-64-intel.s b/llvm/test/MC/X86/avx10.2convert-64-intel.s
index 2f0cd1b280935..35f3b4a8f1a1a 100644
--- a/llvm/test/MC/X86/avx10.2convert-64-intel.s
+++ b/llvm/test/MC/X86/avx10.2convert-64-intel.s
@@ -656,835 +656,835 @@
 // CHECK: encoding: [0x62,0xe5,0x7f,0xcf,0x1e,0x72,0x80]
           vcvthf82ph zmm22 {k7} {z}, ymmword ptr [rdx - 4096]
 
-// CHECK: vcvtne2ph2bf8 ymm22, ymm23, ymm24
+// CHECK: vcvt2ph2bf8 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x82,0x47,0x20,0x74,0xf0]
-          vcvtne2ph2bf8 ymm22, ymm23, ymm24
+          vcvt2ph2bf8 ymm22, ymm23, ymm24
 
-// CHECK: vcvtne2ph2bf8 ymm22 {k7}, ymm23, ymm24
+// CHECK: vcvt2ph2bf8 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x82,0x47,0x27,0x74,0xf0]
-          vcvtne2ph2bf8 ymm22 {k7}, ymm23, ymm24
+          vcvt2ph2bf8 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vcvtne2ph2bf8 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vcvt2ph2bf8 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x82,0x47,0xa7,0x74,0xf0]
-          vcvtne2ph2bf8 ymm22 {k7} {z}, ymm23, ymm24
+          vcvt2ph2bf8 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vcvtne2ph2bf8 zmm22, zmm23, zmm24
+// CHECK: vcvt2ph2bf8 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x82,0x47,0x40,0x74,0xf0]
-          vcvtne2ph2bf8 zmm22, zmm23, zmm24
+          vcvt2ph2bf8 zmm22, zmm23, zmm24
 
-// CHECK: vcvtne2ph2bf8 zmm22 {k7}, zmm23, zmm24
+// CHECK: vcvt2ph2bf8 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x82,0x47,0x47,0x74,0xf0]
-          vcvtne2ph2bf8 zmm22 {k7}, zmm23, zmm24
+          vcvt2ph2bf8 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vcvtne2ph2bf8 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vcvt2ph2bf8 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x82,0x47,0xc7,0x74,0xf0]
-          vcvtne2ph2bf8 zmm22 {k7} {z}, zmm23, zmm24
+          vcvt2ph2bf8 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vcvtne2ph2bf8 xmm22, xmm23, xmm24
+// CHECK: vcvt2ph2bf8 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x82,0x47,0x00,0x74,0xf0]
-          vcvtne2ph2bf8 xmm22, xmm23, xmm24
+          vcvt2ph2bf8 xmm22, xmm23, xmm24
 
-// CHECK: vcvtne2ph2bf8 xmm22 {k7}, xmm23, xmm24
+// CHECK: vcvt2ph2bf8 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x82,0x47,0x07,0x74,0xf0]
-          vcvtne2ph2bf8 xmm22 {k7}, xmm23, xmm24
+          vcvt2ph2bf8 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vcvtne2ph2bf8 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vcvt2ph2bf8 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x82,0x47,0x87,0x74,0xf0]
-          vcvtne2ph2bf8 xmm22 {k7} {z}, xmm23, xmm24
+          vcvt2ph2bf8 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vcvtne2ph2bf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2bf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa2,0x47,0x40,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2bf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2bf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2bf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc2,0x47,0x47,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2bf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2bf8 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vcvt2ph2bf8 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe2,0x47,0x50,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8 zmm22, zmm23, word ptr [rip]{1to32}
+          vcvt2ph2bf8 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vcvtne2ph2bf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vcvt2ph2bf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe2,0x47,0x40,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2bf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vcvt2ph2bf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vcvtne2ph2bf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vcvt2ph2bf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe2,0x47,0xc7,0x74,0x71,0x7f]
-          vcvtne2ph2bf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vcvt2ph2bf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vcvtne2ph2bf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vcvt2ph2bf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe2,0x47,0xd7,0x74,0x72,0x80]
-          vcvtne2ph2bf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vcvt2ph2bf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vcvtne2ph2bf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2bf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa2,0x47,0x20,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2bf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2bf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2bf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc2,0x47,0x27,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2bf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2bf8 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vcvt2ph2bf8 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe2,0x47,0x30,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8 ymm22, ymm23, word ptr [rip]{1to16}
+          vcvt2ph2bf8 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vcvtne2ph2bf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vcvt2ph2bf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe2,0x47,0x20,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2bf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vcvt2ph2bf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vcvtne2ph2bf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vcvt2ph2bf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe2,0x47,0xa7,0x74,0x71,0x7f]
-          vcvtne2ph2bf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vcvt2ph2bf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vcvtne2ph2bf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vcvt2ph2bf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe2,0x47,0xb7,0x74,0x72,0x80]
-          vcvtne2ph2bf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vcvt2ph2bf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vcvtne2ph2bf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2bf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa2,0x47,0x00,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2bf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2bf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2bf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc2,0x47,0x07,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2bf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2bf8 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vcvt2ph2bf8 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe2,0x47,0x10,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8 xmm22, xmm23, word ptr [rip]{1to8}
+          vcvt2ph2bf8 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vcvtne2ph2bf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vcvt2ph2bf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe2,0x47,0x00,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2bf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vcvt2ph2bf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vcvtne2ph2bf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vcvt2ph2bf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe2,0x47,0x87,0x74,0x71,0x7f]
-          vcvtne2ph2bf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vcvt2ph2bf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vcvtne2ph2bf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vcvt2ph2bf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe2,0x47,0x97,0x74,0x72,0x80]
-          vcvtne2ph2bf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vcvt2ph2bf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vcvtne2ph2bf8s ymm22, ymm23, ymm24
+// CHECK: vcvt2ph2bf8s ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x47,0x20,0x74,0xf0]
-          vcvtne2ph2bf8s ymm22, ymm23, ymm24
+          vcvt2ph2bf8s ymm22, ymm23, ymm24
 
-// CHECK: vcvtne2ph2bf8s ymm22 {k7}, ymm23, ymm24
+// CHECK: vcvt2ph2bf8s ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x47,0x27,0x74,0xf0]
-          vcvtne2ph2bf8s ymm22 {k7}, ymm23, ymm24
+          vcvt2ph2bf8s ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vcvtne2ph2bf8s ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vcvt2ph2bf8s ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x47,0xa7,0x74,0xf0]
-          vcvtne2ph2bf8s ymm22 {k7} {z}, ymm23, ymm24
+          vcvt2ph2bf8s ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vcvtne2ph2bf8s zmm22, zmm23, zmm24
+// CHECK: vcvt2ph2bf8s zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x40,0x74,0xf0]
-          vcvtne2ph2bf8s zmm22, zmm23, zmm24
+          vcvt2ph2bf8s zmm22, zmm23, zmm24
 
-// CHECK: vcvtne2ph2bf8s zmm22 {k7}, zmm23, zmm24
+// CHECK: vcvt2ph2bf8s zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x47,0x74,0xf0]
-          vcvtne2ph2bf8s zmm22 {k7}, zmm23, zmm24
+          vcvt2ph2bf8s zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vcvtne2ph2bf8s zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vcvt2ph2bf8s zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x47,0xc7,0x74,0xf0]
-          vcvtne2ph2bf8s zmm22 {k7} {z}, zmm23, zmm24
+          vcvt2ph2bf8s zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vcvtne2ph2bf8s xmm22, xmm23, xmm24
+// CHECK: vcvt2ph2bf8s xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x00,0x74,0xf0]
-          vcvtne2ph2bf8s xmm22, xmm23, xmm24
+          vcvt2ph2bf8s xmm22, xmm23, xmm24
 
-// CHECK: vcvtne2ph2bf8s xmm22 {k7}, xmm23, xmm24
+// CHECK: vcvt2ph2bf8s xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x07,0x74,0xf0]
-          vcvtne2ph2bf8s xmm22 {k7}, xmm23, xmm24
+          vcvt2ph2bf8s xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vcvtne2ph2bf8s xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vcvt2ph2bf8s xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x87,0x74,0xf0]
-          vcvtne2ph2bf8s xmm22 {k7} {z}, xmm23, xmm24
+          vcvt2ph2bf8s xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vcvtne2ph2bf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2bf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x47,0x40,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2bf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2bf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2bf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x47,0x47,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2bf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2bf8s zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vcvt2ph2bf8s zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x47,0x50,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8s zmm22, zmm23, word ptr [rip]{1to32}
+          vcvt2ph2bf8s zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vcvtne2ph2bf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vcvt2ph2bf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x47,0x40,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2bf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vcvt2ph2bf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vcvtne2ph2bf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vcvt2ph2bf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x47,0xc7,0x74,0x71,0x7f]
-          vcvtne2ph2bf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vcvt2ph2bf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vcvtne2ph2bf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vcvt2ph2bf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x47,0xd7,0x74,0x72,0x80]
-          vcvtne2ph2bf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vcvt2ph2bf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vcvtne2ph2bf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2bf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x47,0x20,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2bf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2bf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2bf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x47,0x27,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2bf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2bf8s ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vcvt2ph2bf8s ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x47,0x30,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8s ymm22, ymm23, word ptr [rip]{1to16}
+          vcvt2ph2bf8s ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vcvtne2ph2bf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vcvt2ph2bf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x47,0x20,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2bf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vcvt2ph2bf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vcvtne2ph2bf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vcvt2ph2bf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x47,0xa7,0x74,0x71,0x7f]
-          vcvtne2ph2bf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vcvt2ph2bf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vcvtne2ph2bf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vcvt2ph2bf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x47,0xb7,0x74,0x72,0x80]
-          vcvtne2ph2bf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vcvt2ph2bf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vcvtne2ph2bf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2bf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x47,0x00,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2bf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2bf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2bf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2bf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x47,0x07,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2bf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2bf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2bf8s xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vcvt2ph2bf8s xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x47,0x10,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2bf8s xmm22, xmm23, word ptr [rip]{1to8}
+          vcvt2ph2bf8s xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vcvtne2ph2bf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vcvt2ph2bf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x47,0x00,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2bf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vcvt2ph2bf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vcvtne2ph2bf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vcvt2ph2bf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x47,0x87,0x74,0x71,0x7f]
-          vcvtne2ph2bf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vcvt2ph2bf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vcvtne2ph2bf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vcvt2ph2bf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x47,0x97,0x74,0x72,0x80]
-          vcvtne2ph2bf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vcvt2ph2bf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vcvtne2ph2hf8 ymm22, ymm23, ymm24
+// CHECK: vcvt2ph2hf8 ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x47,0x20,0x18,0xf0]
-          vcvtne2ph2hf8 ymm22, ymm23, ymm24
+          vcvt2ph2hf8 ymm22, ymm23, ymm24
 
-// CHECK: vcvtne2ph2hf8 ymm22 {k7}, ymm23, ymm24
+// CHECK: vcvt2ph2hf8 ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x47,0x27,0x18,0xf0]
-          vcvtne2ph2hf8 ymm22 {k7}, ymm23, ymm24
+          vcvt2ph2hf8 ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vcvtne2ph2hf8 ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vcvt2ph2hf8 ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x47,0xa7,0x18,0xf0]
-          vcvtne2ph2hf8 ymm22 {k7} {z}, ymm23, ymm24
+          vcvt2ph2hf8 ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vcvtne2ph2hf8 zmm22, zmm23, zmm24
+// CHECK: vcvt2ph2hf8 zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x40,0x18,0xf0]
-          vcvtne2ph2hf8 zmm22, zmm23, zmm24
+          vcvt2ph2hf8 zmm22, zmm23, zmm24
 
-// CHECK: vcvtne2ph2hf8 zmm22 {k7}, zmm23, zmm24
+// CHECK: vcvt2ph2hf8 zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x47,0x18,0xf0]
-          vcvtne2ph2hf8 zmm22 {k7}, zmm23, zmm24
+          vcvt2ph2hf8 zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vcvtne2ph2hf8 zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vcvt2ph2hf8 zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x47,0xc7,0x18,0xf0]
-          vcvtne2ph2hf8 zmm22 {k7} {z}, zmm23, zmm24
+          vcvt2ph2hf8 zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vcvtne2ph2hf8 xmm22, xmm23, xmm24
+// CHECK: vcvt2ph2hf8 xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x00,0x18,0xf0]
-          vcvtne2ph2hf8 xmm22, xmm23, xmm24
+          vcvt2ph2hf8 xmm22, xmm23, xmm24
 
-// CHECK: vcvtne2ph2hf8 xmm22 {k7}, xmm23, xmm24
+// CHECK: vcvt2ph2hf8 xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x07,0x18,0xf0]
-          vcvtne2ph2hf8 xmm22 {k7}, xmm23, xmm24
+          vcvt2ph2hf8 xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vcvtne2ph2hf8 xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vcvt2ph2hf8 xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x87,0x18,0xf0]
-          vcvtne2ph2hf8 xmm22 {k7} {z}, xmm23, xmm24
+          vcvt2ph2hf8 xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vcvtne2ph2hf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2hf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x47,0x40,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2hf8 zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2hf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2hf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x47,0x47,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2hf8 zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2hf8 zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vcvt2ph2hf8 zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x47,0x50,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8 zmm22, zmm23, word ptr [rip]{1to32}
+          vcvt2ph2hf8 zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vcvtne2ph2hf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vcvt2ph2hf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x47,0x40,0x18,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2hf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vcvt2ph2hf8 zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vcvtne2ph2hf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vcvt2ph2hf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x47,0xc7,0x18,0x71,0x7f]
-          vcvtne2ph2hf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vcvt2ph2hf8 zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vcvtne2ph2hf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vcvt2ph2hf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x47,0xd7,0x18,0x72,0x80]
-          vcvtne2ph2hf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vcvt2ph2hf8 zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vcvtne2ph2hf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2hf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x47,0x20,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2hf8 ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2hf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2hf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x47,0x27,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2hf8 ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2hf8 ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vcvt2ph2hf8 ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x47,0x30,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8 ymm22, ymm23, word ptr [rip]{1to16}
+          vcvt2ph2hf8 ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vcvtne2ph2hf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vcvt2ph2hf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x47,0x20,0x18,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2hf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vcvt2ph2hf8 ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vcvtne2ph2hf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vcvt2ph2hf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x47,0xa7,0x18,0x71,0x7f]
-          vcvtne2ph2hf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vcvt2ph2hf8 ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vcvtne2ph2hf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vcvt2ph2hf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x47,0xb7,0x18,0x72,0x80]
-          vcvtne2ph2hf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vcvt2ph2hf8 ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vcvtne2ph2hf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2hf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x47,0x00,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2hf8 xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2hf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2hf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x47,0x07,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2hf8 xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2hf8 xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vcvt2ph2hf8 xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x47,0x10,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8 xmm22, xmm23, word ptr [rip]{1to8}
+          vcvt2ph2hf8 xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vcvtne2ph2hf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vcvt2ph2hf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x47,0x00,0x18,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2hf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vcvt2ph2hf8 xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vcvtne2ph2hf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vcvt2ph2hf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x47,0x87,0x18,0x71,0x7f]
-          vcvtne2ph2hf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vcvt2ph2hf8 xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vcvtne2ph2hf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vcvt2ph2hf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x47,0x97,0x18,0x72,0x80]
-          vcvtne2ph2hf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vcvt2ph2hf8 xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vcvtne2ph2hf8s ymm22, ymm23, ymm24
+// CHECK: vcvt2ph2hf8s ymm22, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x47,0x20,0x1b,0xf0]
-          vcvtne2ph2hf8s ymm22, ymm23, ymm24
+          vcvt2ph2hf8s ymm22, ymm23, ymm24
 
-// CHECK: vcvtne2ph2hf8s ymm22 {k7}, ymm23, ymm24
+// CHECK: vcvt2ph2hf8s ymm22 {k7}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x47,0x27,0x1b,0xf0]
-          vcvtne2ph2hf8s ymm22 {k7}, ymm23, ymm24
+          vcvt2ph2hf8s ymm22 {k7}, ymm23, ymm24
 
-// CHECK: vcvtne2ph2hf8s ymm22 {k7} {z}, ymm23, ymm24
+// CHECK: vcvt2ph2hf8s ymm22 {k7} {z}, ymm23, ymm24
 // CHECK: encoding: [0x62,0x85,0x47,0xa7,0x1b,0xf0]
-          vcvtne2ph2hf8s ymm22 {k7} {z}, ymm23, ymm24
+          vcvt2ph2hf8s ymm22 {k7} {z}, ymm23, ymm24
 
-// CHECK: vcvtne2ph2hf8s zmm22, zmm23, zmm24
+// CHECK: vcvt2ph2hf8s zmm22, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x40,0x1b,0xf0]
-          vcvtne2ph2hf8s zmm22, zmm23, zmm24
+          vcvt2ph2hf8s zmm22, zmm23, zmm24
 
-// CHECK: vcvtne2ph2hf8s zmm22 {k7}, zmm23, zmm24
+// CHECK: vcvt2ph2hf8s zmm22 {k7}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x47,0x1b,0xf0]
-          vcvtne2ph2hf8s zmm22 {k7}, zmm23, zmm24
+          vcvt2ph2hf8s zmm22 {k7}, zmm23, zmm24
 
-// CHECK: vcvtne2ph2hf8s zmm22 {k7} {z}, zmm23, zmm24
+// CHECK: vcvt2ph2hf8s zmm22 {k7} {z}, zmm23, zmm24
 // CHECK: encoding: [0x62,0x85,0x47,0xc7,0x1b,0xf0]
-          vcvtne2ph2hf8s zmm22 {k7} {z}, zmm23, zmm24
+          vcvt2ph2hf8s zmm22 {k7} {z}, zmm23, zmm24
 
-// CHECK: vcvtne2ph2hf8s xmm22, xmm23, xmm24
+// CHECK: vcvt2ph2hf8s xmm22, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x00,0x1b,0xf0]
-          vcvtne2ph2hf8s xmm22, xmm23, xmm24
+          vcvt2ph2hf8s xmm22, xmm23, xmm24
 
-// CHECK: vcvtne2ph2hf8s xmm22 {k7}, xmm23, xmm24
+// CHECK: vcvt2ph2hf8s xmm22 {k7}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x07,0x1b,0xf0]
-          vcvtne2ph2hf8s xmm22 {k7}, xmm23, xmm24
+          vcvt2ph2hf8s xmm22 {k7}, xmm23, xmm24
 
-// CHECK: vcvtne2ph2hf8s xmm22 {k7} {z}, xmm23, xmm24
+// CHECK: vcvt2ph2hf8s xmm22 {k7} {z}, xmm23, xmm24
 // CHECK: encoding: [0x62,0x85,0x47,0x87,0x1b,0xf0]
-          vcvtne2ph2hf8s xmm22 {k7} {z}, xmm23, xmm24
+          vcvt2ph2hf8s xmm22 {k7} {z}, xmm23, xmm24
 
-// CHECK: vcvtne2ph2hf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2hf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x47,0x40,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2hf8s zmm22, zmm23, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2hf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2hf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x47,0x47,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2hf8s zmm22 {k7}, zmm23, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2hf8s zmm22, zmm23, word ptr [rip]{1to32}
+// CHECK: vcvt2ph2hf8s zmm22, zmm23, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x47,0x50,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8s zmm22, zmm23, word ptr [rip]{1to32}
+          vcvt2ph2hf8s zmm22, zmm23, word ptr [rip]{1to32}
 
-// CHECK: vcvtne2ph2hf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+// CHECK: vcvt2ph2hf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x47,0x40,0x1b,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtne2ph2hf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
+          vcvt2ph2hf8s zmm22, zmm23, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vcvtne2ph2hf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+// CHECK: vcvt2ph2hf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x47,0xc7,0x1b,0x71,0x7f]
-          vcvtne2ph2hf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
+          vcvt2ph2hf8s zmm22 {k7} {z}, zmm23, zmmword ptr [rcx + 8128]
 
-// CHECK: vcvtne2ph2hf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+// CHECK: vcvt2ph2hf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x47,0xd7,0x1b,0x72,0x80]
-          vcvtne2ph2hf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
+          vcvt2ph2hf8s zmm22 {k7} {z}, zmm23, word ptr [rdx - 256]{1to32}
 
-// CHECK: vcvtne2ph2hf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2hf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x47,0x20,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2hf8s ymm22, ymm23, ymmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2hf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2hf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x47,0x27,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2hf8s ymm22 {k7}, ymm23, ymmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2hf8s ymm22, ymm23, word ptr [rip]{1to16}
+// CHECK: vcvt2ph2hf8s ymm22, ymm23, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x47,0x30,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8s ymm22, ymm23, word ptr [rip]{1to16}
+          vcvt2ph2hf8s ymm22, ymm23, word ptr [rip]{1to16}
 
-// CHECK: vcvtne2ph2hf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+// CHECK: vcvt2ph2hf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x47,0x20,0x1b,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtne2ph2hf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
+          vcvt2ph2hf8s ymm22, ymm23, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vcvtne2ph2hf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+// CHECK: vcvt2ph2hf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x47,0xa7,0x1b,0x71,0x7f]
-          vcvtne2ph2hf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
+          vcvt2ph2hf8s ymm22 {k7} {z}, ymm23, ymmword ptr [rcx + 4064]
 
-// CHECK: vcvtne2ph2hf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+// CHECK: vcvt2ph2hf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x47,0xb7,0x1b,0x72,0x80]
-          vcvtne2ph2hf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
+          vcvt2ph2hf8s ymm22 {k7} {z}, ymm23, word ptr [rdx - 256]{1to16}
 
-// CHECK: vcvtne2ph2hf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvt2ph2hf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x47,0x00,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtne2ph2hf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
+          vcvt2ph2hf8s xmm22, xmm23, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtne2ph2hf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvt2ph2hf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x47,0x07,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtne2ph2hf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
+          vcvt2ph2hf8s xmm22 {k7}, xmm23, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtne2ph2hf8s xmm22, xmm23, word ptr [rip]{1to8}
+// CHECK: vcvt2ph2hf8s xmm22, xmm23, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x47,0x10,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtne2ph2hf8s xmm22, xmm23, word ptr [rip]{1to8}
+          vcvt2ph2hf8s xmm22, xmm23, word ptr [rip]{1to8}
 
-// CHECK: vcvtne2ph2hf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
+// CHECK: vcvt2ph2hf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x47,0x00,0x1b,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtne2ph2hf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
+          vcvt2ph2hf8s xmm22, xmm23, xmmword ptr [2*rbp - 512]
 
-// CHECK: vcvtne2ph2hf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+// CHECK: vcvt2ph2hf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x47,0x87,0x1b,0x71,0x7f]
-          vcvtne2ph2hf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
+          vcvt2ph2hf8s xmm22 {k7} {z}, xmm23, xmmword ptr [rcx + 2032]
 
-// CHECK: vcvtne2ph2hf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+// CHECK: vcvt2ph2hf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x47,0x97,0x1b,0x72,0x80]
-          vcvtne2ph2hf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
+          vcvt2ph2hf8s xmm22 {k7} {z}, xmm23, word ptr [rdx - 256]{1to8}
 
-// CHECK: vcvtneph2bf8 xmm22, xmm23
+// CHECK: vcvtph2bf8 xmm22, xmm23
 // CHECK: encoding: [0x62,0xa2,0x7e,0x08,0x74,0xf7]
-          vcvtneph2bf8 xmm22, xmm23
+          vcvtph2bf8 xmm22, xmm23
 
-// CHECK: vcvtneph2bf8 xmm22 {k7}, xmm23
+// CHECK: vcvtph2bf8 xmm22 {k7}, xmm23
 // CHECK: encoding: [0x62,0xa2,0x7e,0x0f,0x74,0xf7]
-          vcvtneph2bf8 xmm22 {k7}, xmm23
+          vcvtph2bf8 xmm22 {k7}, xmm23
 
-// CHECK: vcvtneph2bf8 xmm22 {k7} {z}, xmm23
+// CHECK: vcvtph2bf8 xmm22 {k7} {z}, xmm23
 // CHECK: encoding: [0x62,0xa2,0x7e,0x8f,0x74,0xf7]
-          vcvtneph2bf8 xmm22 {k7} {z}, xmm23
+          vcvtph2bf8 xmm22 {k7} {z}, xmm23
 
-// CHECK: vcvtneph2bf8 ymm22, zmm23
+// CHECK: vcvtph2bf8 ymm22, zmm23
 // CHECK: encoding: [0x62,0xa2,0x7e,0x48,0x74,0xf7]
-          vcvtneph2bf8 ymm22, zmm23
+          vcvtph2bf8 ymm22, zmm23
 
-// CHECK: vcvtneph2bf8 ymm22 {k7}, zmm23
+// CHECK: vcvtph2bf8 ymm22 {k7}, zmm23
 // CHECK: encoding: [0x62,0xa2,0x7e,0x4f,0x74,0xf7]
-          vcvtneph2bf8 ymm22 {k7}, zmm23
+          vcvtph2bf8 ymm22 {k7}, zmm23
 
-// CHECK: vcvtneph2bf8 ymm22 {k7} {z}, zmm23
+// CHECK: vcvtph2bf8 ymm22 {k7} {z}, zmm23
 // CHECK: encoding: [0x62,0xa2,0x7e,0xcf,0x74,0xf7]
-          vcvtneph2bf8 ymm22 {k7} {z}, zmm23
+          vcvtph2bf8 ymm22 {k7} {z}, zmm23
 
-// CHECK: vcvtneph2bf8 xmm22, ymm23
+// CHECK: vcvtph2bf8 xmm22, ymm23
 // CHECK: encoding: [0x62,0xa2,0x7e,0x28,0x74,0xf7]
-          vcvtneph2bf8 xmm22, ymm23
+          vcvtph2bf8 xmm22, ymm23
 
-// CHECK: vcvtneph2bf8 xmm22 {k7}, ymm23
+// CHECK: vcvtph2bf8 xmm22 {k7}, ymm23
 // CHECK: encoding: [0x62,0xa2,0x7e,0x2f,0x74,0xf7]
-          vcvtneph2bf8 xmm22 {k7}, ymm23
+          vcvtph2bf8 xmm22 {k7}, ymm23
 
-// CHECK: vcvtneph2bf8 xmm22 {k7} {z}, ymm23
+// CHECK: vcvtph2bf8 xmm22 {k7} {z}, ymm23
 // CHECK: encoding: [0x62,0xa2,0x7e,0xaf,0x74,0xf7]
-          vcvtneph2bf8 xmm22 {k7} {z}, ymm23
+          vcvtph2bf8 xmm22 {k7} {z}, ymm23
 
-// CHECK: vcvtneph2bf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvtph2bf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa2,0x7e,0x08,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+          vcvtph2bf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtneph2bf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvtph2bf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc2,0x7e,0x0f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+          vcvtph2bf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtneph2bf8 xmm22, word ptr [rip]{1to8}
+// CHECK: vcvtph2bf8 xmm22, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe2,0x7e,0x18,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8 xmm22, word ptr [rip]{1to8}
+          vcvtph2bf8 xmm22, word ptr [rip]{1to8}
 
-// CHECK: vcvtneph2bf8 xmm22, xmmword ptr [2*rbp - 512]
+// CHECK: vcvtph2bf8 xmm22, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe2,0x7e,0x08,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2bf8 xmm22, xmmword ptr [2*rbp - 512]
+          vcvtph2bf8 xmm22, xmmword ptr [2*rbp - 512]
 
-// CHECK: vcvtneph2bf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+// CHECK: vcvtph2bf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe2,0x7e,0x8f,0x74,0x71,0x7f]
-          vcvtneph2bf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+          vcvtph2bf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 
-// CHECK: vcvtneph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+// CHECK: vcvtph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe2,0x7e,0x9f,0x74,0x72,0x80]
-          vcvtneph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+          vcvtph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 
-// CHECK: vcvtneph2bf8 xmm22, word ptr [rip]{1to16}
+// CHECK: vcvtph2bf8 xmm22, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe2,0x7e,0x38,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8 xmm22, word ptr [rip]{1to16}
+          vcvtph2bf8 xmm22, word ptr [rip]{1to16}
 
-// CHECK: vcvtneph2bf8 xmm22, ymmword ptr [2*rbp - 1024]
+// CHECK: vcvtph2bf8 xmm22, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe2,0x7e,0x28,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2bf8 xmm22, ymmword ptr [2*rbp - 1024]
+          vcvtph2bf8 xmm22, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vcvtneph2bf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+// CHECK: vcvtph2bf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe2,0x7e,0xaf,0x74,0x71,0x7f]
-          vcvtneph2bf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+          vcvtph2bf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 
-// CHECK: vcvtneph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+// CHECK: vcvtph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe2,0x7e,0xbf,0x74,0x72,0x80]
-          vcvtneph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+          vcvtph2bf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 
-// CHECK: vcvtneph2bf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvtph2bf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa2,0x7e,0x48,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+          vcvtph2bf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtneph2bf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvtph2bf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc2,0x7e,0x4f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+          vcvtph2bf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtneph2bf8 ymm22, word ptr [rip]{1to32}
+// CHECK: vcvtph2bf8 ymm22, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe2,0x7e,0x58,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8 ymm22, word ptr [rip]{1to32}
+          vcvtph2bf8 ymm22, word ptr [rip]{1to32}
 
-// CHECK: vcvtneph2bf8 ymm22, zmmword ptr [2*rbp - 2048]
+// CHECK: vcvtph2bf8 ymm22, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe2,0x7e,0x48,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2bf8 ymm22, zmmword ptr [2*rbp - 2048]
+          vcvtph2bf8 ymm22, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vcvtneph2bf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+// CHECK: vcvtph2bf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe2,0x7e,0xcf,0x74,0x71,0x7f]
-          vcvtneph2bf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+          vcvtph2bf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 
-// CHECK: vcvtneph2bf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+// CHECK: vcvtph2bf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe2,0x7e,0xdf,0x74,0x72,0x80]
-          vcvtneph2bf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+          vcvtph2bf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 
-// CHECK: vcvtneph2bf8s xmm22, xmm23
+// CHECK: vcvtph2bf8s xmm22, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x74,0xf7]
-          vcvtneph2bf8s xmm22, xmm23
+          vcvtph2bf8s xmm22, xmm23
 
-// CHECK: vcvtneph2bf8s xmm22 {k7}, xmm23
+// CHECK: vcvtph2bf8s xmm22 {k7}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x0f,0x74,0xf7]
-          vcvtneph2bf8s xmm22 {k7}, xmm23
+          vcvtph2bf8s xmm22 {k7}, xmm23
 
-// CHECK: vcvtneph2bf8s xmm22 {k7} {z}, xmm23
+// CHECK: vcvtph2bf8s xmm22 {k7} {z}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x8f,0x74,0xf7]
-          vcvtneph2bf8s xmm22 {k7} {z}, xmm23
+          vcvtph2bf8s xmm22 {k7} {z}, xmm23
 
-// CHECK: vcvtneph2bf8s ymm22, zmm23
+// CHECK: vcvtph2bf8s ymm22, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x74,0xf7]
-          vcvtneph2bf8s ymm22, zmm23
+          vcvtph2bf8s ymm22, zmm23
 
-// CHECK: vcvtneph2bf8s ymm22 {k7}, zmm23
+// CHECK: vcvtph2bf8s ymm22 {k7}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x4f,0x74,0xf7]
-          vcvtneph2bf8s ymm22 {k7}, zmm23
+          vcvtph2bf8s ymm22 {k7}, zmm23
 
-// CHECK: vcvtneph2bf8s ymm22 {k7} {z}, zmm23
+// CHECK: vcvtph2bf8s ymm22 {k7} {z}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0xcf,0x74,0xf7]
-          vcvtneph2bf8s ymm22 {k7} {z}, zmm23
+          vcvtph2bf8s ymm22 {k7} {z}, zmm23
 
-// CHECK: vcvtneph2bf8s xmm22, ymm23
+// CHECK: vcvtph2bf8s xmm22, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x28,0x74,0xf7]
-          vcvtneph2bf8s xmm22, ymm23
+          vcvtph2bf8s xmm22, ymm23
 
-// CHECK: vcvtneph2bf8s xmm22 {k7}, ymm23
+// CHECK: vcvtph2bf8s xmm22 {k7}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x2f,0x74,0xf7]
-          vcvtneph2bf8s xmm22 {k7}, ymm23
+          vcvtph2bf8s xmm22 {k7}, ymm23
 
-// CHECK: vcvtneph2bf8s xmm22 {k7} {z}, ymm23
+// CHECK: vcvtph2bf8s xmm22 {k7} {z}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0xaf,0x74,0xf7]
-          vcvtneph2bf8s xmm22 {k7} {z}, ymm23
+          vcvtph2bf8s xmm22 {k7} {z}, ymm23
 
-// CHECK: vcvtneph2bf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvtph2bf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+          vcvtph2bf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtneph2bf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvtph2bf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7e,0x0f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+          vcvtph2bf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtneph2bf8s xmm22, word ptr [rip]{1to8}
+// CHECK: vcvtph2bf8s xmm22, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x18,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8s xmm22, word ptr [rip]{1to8}
+          vcvtph2bf8s xmm22, word ptr [rip]{1to8}
 
-// CHECK: vcvtneph2bf8s xmm22, xmmword ptr [2*rbp - 512]
+// CHECK: vcvtph2bf8s xmm22, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x08,0x74,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2bf8s xmm22, xmmword ptr [2*rbp - 512]
+          vcvtph2bf8s xmm22, xmmword ptr [2*rbp - 512]
 
-// CHECK: vcvtneph2bf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+// CHECK: vcvtph2bf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x8f,0x74,0x71,0x7f]
-          vcvtneph2bf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+          vcvtph2bf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 
-// CHECK: vcvtneph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+// CHECK: vcvtph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x9f,0x74,0x72,0x80]
-          vcvtneph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+          vcvtph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 
-// CHECK: vcvtneph2bf8s xmm22, word ptr [rip]{1to16}
+// CHECK: vcvtph2bf8s xmm22, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x38,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8s xmm22, word ptr [rip]{1to16}
+          vcvtph2bf8s xmm22, word ptr [rip]{1to16}
 
-// CHECK: vcvtneph2bf8s xmm22, ymmword ptr [2*rbp - 1024]
+// CHECK: vcvtph2bf8s xmm22, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x28,0x74,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2bf8s xmm22, ymmword ptr [2*rbp - 1024]
+          vcvtph2bf8s xmm22, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vcvtneph2bf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+// CHECK: vcvtph2bf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x7e,0xaf,0x74,0x71,0x7f]
-          vcvtneph2bf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+          vcvtph2bf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 
-// CHECK: vcvtneph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+// CHECK: vcvtph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xbf,0x74,0x72,0x80]
-          vcvtneph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+          vcvtph2bf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 
-// CHECK: vcvtneph2bf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvtph2bf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x74,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2bf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+          vcvtph2bf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtneph2bf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvtph2bf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7e,0x4f,0x74,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2bf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+          vcvtph2bf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtneph2bf8s ymm22, word ptr [rip]{1to32}
+// CHECK: vcvtph2bf8s ymm22, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x58,0x74,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2bf8s ymm22, word ptr [rip]{1to32}
+          vcvtph2bf8s ymm22, word ptr [rip]{1to32}
 
-// CHECK: vcvtneph2bf8s ymm22, zmmword ptr [2*rbp - 2048]
+// CHECK: vcvtph2bf8s ymm22, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x48,0x74,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2bf8s ymm22, zmmword ptr [2*rbp - 2048]
+          vcvtph2bf8s ymm22, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vcvtneph2bf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+// CHECK: vcvtph2bf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x7e,0xcf,0x74,0x71,0x7f]
-          vcvtneph2bf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+          vcvtph2bf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 
-// CHECK: vcvtneph2bf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+// CHECK: vcvtph2bf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xdf,0x74,0x72,0x80]
-          vcvtneph2bf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+          vcvtph2bf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 
-// CHECK: vcvtneph2hf8 xmm22, xmm23
+// CHECK: vcvtph2hf8 xmm22, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x18,0xf7]
-          vcvtneph2hf8 xmm22, xmm23
+          vcvtph2hf8 xmm22, xmm23
 
-// CHECK: vcvtneph2hf8 xmm22 {k7}, xmm23
+// CHECK: vcvtph2hf8 xmm22 {k7}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x0f,0x18,0xf7]
-          vcvtneph2hf8 xmm22 {k7}, xmm23
+          vcvtph2hf8 xmm22 {k7}, xmm23
 
-// CHECK: vcvtneph2hf8 xmm22 {k7} {z}, xmm23
+// CHECK: vcvtph2hf8 xmm22 {k7} {z}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x8f,0x18,0xf7]
-          vcvtneph2hf8 xmm22 {k7} {z}, xmm23
+          vcvtph2hf8 xmm22 {k7} {z}, xmm23
 
-// CHECK: vcvtneph2hf8 ymm22, zmm23
+// CHECK: vcvtph2hf8 ymm22, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x18,0xf7]
-          vcvtneph2hf8 ymm22, zmm23
+          vcvtph2hf8 ymm22, zmm23
 
-// CHECK: vcvtneph2hf8 ymm22 {k7}, zmm23
+// CHECK: vcvtph2hf8 ymm22 {k7}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x4f,0x18,0xf7]
-          vcvtneph2hf8 ymm22 {k7}, zmm23
+          vcvtph2hf8 ymm22 {k7}, zmm23
 
-// CHECK: vcvtneph2hf8 ymm22 {k7} {z}, zmm23
+// CHECK: vcvtph2hf8 ymm22 {k7} {z}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0xcf,0x18,0xf7]
-          vcvtneph2hf8 ymm22 {k7} {z}, zmm23
+          vcvtph2hf8 ymm22 {k7} {z}, zmm23
 
-// CHECK: vcvtneph2hf8 xmm22, ymm23
+// CHECK: vcvtph2hf8 xmm22, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x28,0x18,0xf7]
-          vcvtneph2hf8 xmm22, ymm23
+          vcvtph2hf8 xmm22, ymm23
 
-// CHECK: vcvtneph2hf8 xmm22 {k7}, ymm23
+// CHECK: vcvtph2hf8 xmm22 {k7}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x2f,0x18,0xf7]
-          vcvtneph2hf8 xmm22 {k7}, ymm23
+          vcvtph2hf8 xmm22 {k7}, ymm23
 
-// CHECK: vcvtneph2hf8 xmm22 {k7} {z}, ymm23
+// CHECK: vcvtph2hf8 xmm22 {k7} {z}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0xaf,0x18,0xf7]
-          vcvtneph2hf8 xmm22 {k7} {z}, ymm23
+          vcvtph2hf8 xmm22 {k7} {z}, ymm23
 
-// CHECK: vcvtneph2hf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvtph2hf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+          vcvtph2hf8 xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtneph2hf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvtph2hf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7e,0x0f,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+          vcvtph2hf8 xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtneph2hf8 xmm22, word ptr [rip]{1to8}
+// CHECK: vcvtph2hf8 xmm22, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x18,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8 xmm22, word ptr [rip]{1to8}
+          vcvtph2hf8 xmm22, word ptr [rip]{1to8}
 
-// CHECK: vcvtneph2hf8 xmm22, xmmword ptr [2*rbp - 512]
+// CHECK: vcvtph2hf8 xmm22, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x08,0x18,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2hf8 xmm22, xmmword ptr [2*rbp - 512]
+          vcvtph2hf8 xmm22, xmmword ptr [2*rbp - 512]
 
-// CHECK: vcvtneph2hf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+// CHECK: vcvtph2hf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x8f,0x18,0x71,0x7f]
-          vcvtneph2hf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+          vcvtph2hf8 xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 
-// CHECK: vcvtneph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+// CHECK: vcvtph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x9f,0x18,0x72,0x80]
-          vcvtneph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+          vcvtph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 
-// CHECK: vcvtneph2hf8 xmm22, word ptr [rip]{1to16}
+// CHECK: vcvtph2hf8 xmm22, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x38,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8 xmm22, word ptr [rip]{1to16}
+          vcvtph2hf8 xmm22, word ptr [rip]{1to16}
 
-// CHECK: vcvtneph2hf8 xmm22, ymmword ptr [2*rbp - 1024]
+// CHECK: vcvtph2hf8 xmm22, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x28,0x18,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2hf8 xmm22, ymmword ptr [2*rbp - 1024]
+          vcvtph2hf8 xmm22, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vcvtneph2hf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+// CHECK: vcvtph2hf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x7e,0xaf,0x18,0x71,0x7f]
-          vcvtneph2hf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+          vcvtph2hf8 xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 
-// CHECK: vcvtneph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+// CHECK: vcvtph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xbf,0x18,0x72,0x80]
-          vcvtneph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+          vcvtph2hf8 xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 
-// CHECK: vcvtneph2hf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvtph2hf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x18,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+          vcvtph2hf8 ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtneph2hf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvtph2hf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7e,0x4f,0x18,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+          vcvtph2hf8 ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtneph2hf8 ymm22, word ptr [rip]{1to32}
+// CHECK: vcvtph2hf8 ymm22, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x58,0x18,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8 ymm22, word ptr [rip]{1to32}
+          vcvtph2hf8 ymm22, word ptr [rip]{1to32}
 
-// CHECK: vcvtneph2hf8 ymm22, zmmword ptr [2*rbp - 2048]
+// CHECK: vcvtph2hf8 ymm22, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x48,0x18,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2hf8 ymm22, zmmword ptr [2*rbp - 2048]
+          vcvtph2hf8 ymm22, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vcvtneph2hf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+// CHECK: vcvtph2hf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x7e,0xcf,0x18,0x71,0x7f]
-          vcvtneph2hf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+          vcvtph2hf8 ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 
-// CHECK: vcvtneph2hf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+// CHECK: vcvtph2hf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xdf,0x18,0x72,0x80]
-          vcvtneph2hf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+          vcvtph2hf8 ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 
-// CHECK: vcvtneph2hf8s xmm22, xmm23
+// CHECK: vcvtph2hf8s xmm22, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x1b,0xf7]
-          vcvtneph2hf8s xmm22, xmm23
+          vcvtph2hf8s xmm22, xmm23
 
-// CHECK: vcvtneph2hf8s xmm22 {k7}, xmm23
+// CHECK: vcvtph2hf8s xmm22 {k7}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x0f,0x1b,0xf7]
-          vcvtneph2hf8s xmm22 {k7}, xmm23
+          vcvtph2hf8s xmm22 {k7}, xmm23
 
-// CHECK: vcvtneph2hf8s xmm22 {k7} {z}, xmm23
+// CHECK: vcvtph2hf8s xmm22 {k7} {z}, xmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x8f,0x1b,0xf7]
-          vcvtneph2hf8s xmm22 {k7} {z}, xmm23
+          vcvtph2hf8s xmm22 {k7} {z}, xmm23
 
-// CHECK: vcvtneph2hf8s ymm22, zmm23
+// CHECK: vcvtph2hf8s ymm22, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x1b,0xf7]
-          vcvtneph2hf8s ymm22, zmm23
+          vcvtph2hf8s ymm22, zmm23
 
-// CHECK: vcvtneph2hf8s ymm22 {k7}, zmm23
+// CHECK: vcvtph2hf8s ymm22 {k7}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x4f,0x1b,0xf7]
-          vcvtneph2hf8s ymm22 {k7}, zmm23
+          vcvtph2hf8s ymm22 {k7}, zmm23
 
-// CHECK: vcvtneph2hf8s ymm22 {k7} {z}, zmm23
+// CHECK: vcvtph2hf8s ymm22 {k7} {z}, zmm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0xcf,0x1b,0xf7]
-          vcvtneph2hf8s ymm22 {k7} {z}, zmm23
+          vcvtph2hf8s ymm22 {k7} {z}, zmm23
 
-// CHECK: vcvtneph2hf8s xmm22, ymm23
+// CHECK: vcvtph2hf8s xmm22, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x28,0x1b,0xf7]
-          vcvtneph2hf8s xmm22, ymm23
+          vcvtph2hf8s xmm22, ymm23
 
-// CHECK: vcvtneph2hf8s xmm22 {k7}, ymm23
+// CHECK: vcvtph2hf8s xmm22 {k7}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0x2f,0x1b,0xf7]
-          vcvtneph2hf8s xmm22 {k7}, ymm23
+          vcvtph2hf8s xmm22 {k7}, ymm23
 
-// CHECK: vcvtneph2hf8s xmm22 {k7} {z}, ymm23
+// CHECK: vcvtph2hf8s xmm22 {k7} {z}, ymm23
 // CHECK: encoding: [0x62,0xa5,0x7e,0xaf,0x1b,0xf7]
-          vcvtneph2hf8s xmm22 {k7} {z}, ymm23
+          vcvtph2hf8s xmm22 {k7} {z}, ymm23
 
-// CHECK: vcvtneph2hf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvtph2hf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7e,0x08,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
+          vcvtph2hf8s xmm22, xmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtneph2hf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvtph2hf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7e,0x0f,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
+          vcvtph2hf8s xmm22 {k7}, xmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtneph2hf8s xmm22, word ptr [rip]{1to8}
+// CHECK: vcvtph2hf8s xmm22, word ptr [rip]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x18,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8s xmm22, word ptr [rip]{1to8}
+          vcvtph2hf8s xmm22, word ptr [rip]{1to8}
 
-// CHECK: vcvtneph2hf8s xmm22, xmmword ptr [2*rbp - 512]
+// CHECK: vcvtph2hf8s xmm22, xmmword ptr [2*rbp - 512]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x08,0x1b,0x34,0x6d,0x00,0xfe,0xff,0xff]
-          vcvtneph2hf8s xmm22, xmmword ptr [2*rbp - 512]
+          vcvtph2hf8s xmm22, xmmword ptr [2*rbp - 512]
 
-// CHECK: vcvtneph2hf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+// CHECK: vcvtph2hf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x8f,0x1b,0x71,0x7f]
-          vcvtneph2hf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
+          vcvtph2hf8s xmm22 {k7} {z}, xmmword ptr [rcx + 2032]
 
-// CHECK: vcvtneph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+// CHECK: vcvtph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x9f,0x1b,0x72,0x80]
-          vcvtneph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
+          vcvtph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to8}
 
-// CHECK: vcvtneph2hf8s xmm22, word ptr [rip]{1to16}
+// CHECK: vcvtph2hf8s xmm22, word ptr [rip]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x38,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8s xmm22, word ptr [rip]{1to16}
+          vcvtph2hf8s xmm22, word ptr [rip]{1to16}
 
-// CHECK: vcvtneph2hf8s xmm22, ymmword ptr [2*rbp - 1024]
+// CHECK: vcvtph2hf8s xmm22, ymmword ptr [2*rbp - 1024]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x28,0x1b,0x34,0x6d,0x00,0xfc,0xff,0xff]
-          vcvtneph2hf8s xmm22, ymmword ptr [2*rbp - 1024]
+          vcvtph2hf8s xmm22, ymmword ptr [2*rbp - 1024]
 
-// CHECK: vcvtneph2hf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+// CHECK: vcvtph2hf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 // CHECK: encoding: [0x62,0xe5,0x7e,0xaf,0x1b,0x71,0x7f]
-          vcvtneph2hf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
+          vcvtph2hf8s xmm22 {k7} {z}, ymmword ptr [rcx + 4064]
 
-// CHECK: vcvtneph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+// CHECK: vcvtph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xbf,0x1b,0x72,0x80]
-          vcvtneph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
+          vcvtph2hf8s xmm22 {k7} {z}, word ptr [rdx - 256]{1to16}
 
-// CHECK: vcvtneph2hf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+// CHECK: vcvtph2hf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 // CHECK: encoding: [0x62,0xa5,0x7e,0x48,0x1b,0xb4,0xf5,0x00,0x00,0x00,0x10]
-          vcvtneph2hf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
+          vcvtph2hf8s ymm22, zmmword ptr [rbp + 8*r14 + 268435456]
 
-// CHECK: vcvtneph2hf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+// CHECK: vcvtph2hf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 // CHECK: encoding: [0x62,0xc5,0x7e,0x4f,0x1b,0xb4,0x80,0x23,0x01,0x00,0x00]
-          vcvtneph2hf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
+          vcvtph2hf8s ymm22 {k7}, zmmword ptr [r8 + 4*rax + 291]
 
-// CHECK: vcvtneph2hf8s ymm22, word ptr [rip]{1to32}
+// CHECK: vcvtph2hf8s ymm22, word ptr [rip]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7e,0x58,0x1b,0x35,0x00,0x00,0x00,0x00]
-          vcvtneph2hf8s ymm22, word ptr [rip]{1to32}
+          vcvtph2hf8s ymm22, word ptr [rip]{1to32}
 
-// CHECK: vcvtneph2hf8s ymm22, zmmword ptr [2*rbp - 2048]
+// CHECK: vcvtph2hf8s ymm22, zmmword ptr [2*rbp - 2048]
 // CHECK: encoding: [0x62,0xe5,0x7e,0x48,0x1b,0x34,0x6d,0x00,0xf8,0xff,0xff]
-          vcvtneph2hf8s ymm22, zmmword ptr [2*rbp - 2048]
+          vcvtph2hf8s ymm22, zmmword ptr [2*rbp - 2048]
 
-// CHECK: vcvtneph2hf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+// CHECK: vcvtph2hf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 // CHECK: encoding: [0x62,0xe5,0x7e,0xcf,0x1b,0x71,0x7f]
-          vcvtneph2hf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
+          vcvtph2hf8s ymm22 {k7} {z}, zmmword ptr [rcx + 8128]
 
-// CHECK: vcvtneph2hf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+// CHECK: vcvtph2hf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 // CHECK: encoding: [0x62,0xe5,0x7e,0xdf,0x1b,0x72,0x80]
-          vcvtneph2hf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
+          vcvtph2hf8s ymm22 {k7} {z}, word ptr [rdx - 256]{1to32}
 
diff --git a/llvm/test/ObjectYAML/MachO/section_data.yaml b/llvm/test/ObjectYAML/MachO/section_data.yaml
index 87c5bc803ee1a..a2d9a3b7e1675 100644
--- a/llvm/test/ObjectYAML/MachO/section_data.yaml
+++ b/llvm/test/ObjectYAML/MachO/section_data.yaml
@@ -159,3 +159,44 @@ LoadCommands:
         reserved2:       0x00000000
         reserved3:       0x00000000
         content:         AA
+
+## Case 4: Don't validate if size is missing.
+# RUN: not yaml2obj --docnum=4 %s -o %t1 2>&1 | FileCheck %s --check-prefix=CASE4 --implicit-check-not=error:
+# CASE4: error: missing required key 'size'
+# CASE4: error: failed to parse YAML
+
+--- !mach-o
+FileHeader:
+  magic:           0xFEEDFACF
+  cputype:         0x01000007
+  cpusubtype:      0x00000003
+  filetype:        0x00000001
+  ncmds:           1
+  sizeofcmds:      232
+  flags:           0x00002000
+  reserved:        0x00000000
+LoadCommands:
+  - cmd:             LC_SEGMENT_64
+    cmdsize:         232
+    segname:         ''
+    vmaddr:          0
+    vmsize:          4
+    fileoff:         392
+    filesize:        4
+    maxprot:         7
+    initprot:        7
+    nsects:          1
+    flags:           0
+    Sections:
+      - sectname:        __data
+        segname:         __DATA
+        addr:            0x0000000000000000
+        content:         AA
+        offset:          0x00000188
+        align:           2
+        reloff:          0x00000000
+        nreloc:          0
+        flags:           0x00000000
+        reserved1:       0x00000000
+        reserved2:       0x00000000
+        reserved3:       0x00000000
diff --git a/llvm/test/TableGen/x86-fold-tables.inc b/llvm/test/TableGen/x86-fold-tables.inc
index 74017ea66529b..18b138f86f778 100644
--- a/llvm/test/TableGen/x86-fold-tables.inc
+++ b/llvm/test/TableGen/x86-fold-tables.inc
@@ -684,12 +684,6 @@ static const X86FoldTableEntry Table1[] = {
   {X86::BLSR64rr, X86::BLSR64rm, 0},
   {X86::BLSR64rr_EVEX, X86::BLSR64rm_EVEX, 0},
   {X86::BLSR64rr_NF, X86::BLSR64rm_NF, 0},
-  {X86::BSF16rr, X86::BSF16rm, 0},
-  {X86::BSF32rr, X86::BSF32rm, 0},
-  {X86::BSF64rr, X86::BSF64rm, 0},
-  {X86::BSR16rr, X86::BSR16rm, 0},
-  {X86::BSR32rr, X86::BSR32rm, 0},
-  {X86::BSR64rr, X86::BSR64rm, 0},
   {X86::BZHI32rr, X86::BZHI32rm, 0},
   {X86::BZHI32rr_EVEX, X86::BZHI32rm_EVEX, 0},
   {X86::BZHI32rr_NF, X86::BZHI32rm_NF, 0},
@@ -1166,6 +1160,8 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VBROADCASTSSZ256rr, X86::VBROADCASTSSZ256rm, TB_NO_REVERSE},
   {X86::VBROADCASTSSZrr, X86::VBROADCASTSSZrm, TB_NO_REVERSE},
   {X86::VBROADCASTSSrr, X86::VBROADCASTSSrm, TB_NO_REVERSE},
+  {X86::VCOMISBF16Zrr, X86::VCOMISBF16Zrm, 0},
+  {X86::VCOMISBF16Zrr_Int, X86::VCOMISBF16Zrm_Int, TB_NO_REVERSE},
   {X86::VCOMISDZrr, X86::VCOMISDZrm, 0},
   {X86::VCOMISDZrr_Int, X86::VCOMISDZrm_Int, TB_NO_REVERSE},
   {X86::VCOMISDrr, X86::VCOMISDrm, 0},
@@ -1176,8 +1172,6 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VCOMISSZrr_Int, X86::VCOMISSZrm_Int, TB_NO_REVERSE},
   {X86::VCOMISSrr, X86::VCOMISSrm, 0},
   {X86::VCOMISSrr_Int, X86::VCOMISSrm_Int, TB_NO_REVERSE},
-  {X86::VCOMSBF16Zrr, X86::VCOMSBF16Zrm, 0},
-  {X86::VCOMSBF16Zrr_Int, X86::VCOMSBF16Zrm_Int, TB_NO_REVERSE},
   {X86::VCOMXSDZrr_Int, X86::VCOMXSDZrm_Int, TB_NO_REVERSE},
   {X86::VCOMXSHZrr_Int, X86::VCOMXSHZrm_Int, TB_NO_REVERSE},
   {X86::VCOMXSSZrr_Int, X86::VCOMXSSZrm_Int, TB_NO_REVERSE},
@@ -1203,18 +1197,6 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VCVTHF82PHZ128rr, X86::VCVTHF82PHZ128rm, TB_NO_REVERSE},
   {X86::VCVTHF82PHZ256rr, X86::VCVTHF82PHZ256rm, 0},
   {X86::VCVTHF82PHZrr, X86::VCVTHF82PHZrm, 0},
-  {X86::VCVTNEPH2BF8SZ128rr, X86::VCVTNEPH2BF8SZ128rm, 0},
-  {X86::VCVTNEPH2BF8SZ256rr, X86::VCVTNEPH2BF8SZ256rm, 0},
-  {X86::VCVTNEPH2BF8SZrr, X86::VCVTNEPH2BF8SZrm, 0},
-  {X86::VCVTNEPH2BF8Z128rr, X86::VCVTNEPH2BF8Z128rm, 0},
-  {X86::VCVTNEPH2BF8Z256rr, X86::VCVTNEPH2BF8Z256rm, 0},
-  {X86::VCVTNEPH2BF8Zrr, X86::VCVTNEPH2BF8Zrm, 0},
-  {X86::VCVTNEPH2HF8SZ128rr, X86::VCVTNEPH2HF8SZ128rm, 0},
-  {X86::VCVTNEPH2HF8SZ256rr, X86::VCVTNEPH2HF8SZ256rm, 0},
-  {X86::VCVTNEPH2HF8SZrr, X86::VCVTNEPH2HF8SZrm, 0},
-  {X86::VCVTNEPH2HF8Z128rr, X86::VCVTNEPH2HF8Z128rm, 0},
-  {X86::VCVTNEPH2HF8Z256rr, X86::VCVTNEPH2HF8Z256rm, 0},
-  {X86::VCVTNEPH2HF8Zrr, X86::VCVTNEPH2HF8Zrm, 0},
   {X86::VCVTNEPS2BF16Yrr, X86::VCVTNEPS2BF16Yrm, 0},
   {X86::VCVTNEPS2BF16Z128rr, X86::VCVTNEPS2BF16Z128rm, 0},
   {X86::VCVTNEPS2BF16Z256rr, X86::VCVTNEPS2BF16Z256rm, 0},
@@ -1242,9 +1224,21 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VCVTPD2UQQZ128rr, X86::VCVTPD2UQQZ128rm, 0},
   {X86::VCVTPD2UQQZ256rr, X86::VCVTPD2UQQZ256rm, 0},
   {X86::VCVTPD2UQQZrr, X86::VCVTPD2UQQZrm, 0},
+  {X86::VCVTPH2BF8SZ128rr, X86::VCVTPH2BF8SZ128rm, 0},
+  {X86::VCVTPH2BF8SZ256rr, X86::VCVTPH2BF8SZ256rm, 0},
+  {X86::VCVTPH2BF8SZrr, X86::VCVTPH2BF8SZrm, 0},
+  {X86::VCVTPH2BF8Z128rr, X86::VCVTPH2BF8Z128rm, 0},
+  {X86::VCVTPH2BF8Z256rr, X86::VCVTPH2BF8Z256rm, 0},
+  {X86::VCVTPH2BF8Zrr, X86::VCVTPH2BF8Zrm, 0},
   {X86::VCVTPH2DQZ128rr, X86::VCVTPH2DQZ128rm, TB_NO_REVERSE},
   {X86::VCVTPH2DQZ256rr, X86::VCVTPH2DQZ256rm, 0},
   {X86::VCVTPH2DQZrr, X86::VCVTPH2DQZrm, 0},
+  {X86::VCVTPH2HF8SZ128rr, X86::VCVTPH2HF8SZ128rm, 0},
+  {X86::VCVTPH2HF8SZ256rr, X86::VCVTPH2HF8SZ256rm, 0},
+  {X86::VCVTPH2HF8SZrr, X86::VCVTPH2HF8SZrm, 0},
+  {X86::VCVTPH2HF8Z128rr, X86::VCVTPH2HF8Z128rm, 0},
+  {X86::VCVTPH2HF8Z256rr, X86::VCVTPH2HF8Z256rm, 0},
+  {X86::VCVTPH2HF8Zrr, X86::VCVTPH2HF8Zrm, 0},
   {X86::VCVTPH2IBSZ128rr, X86::VCVTPH2IBSZ128rm, 0},
   {X86::VCVTPH2IBSZ256rr, X86::VCVTPH2IBSZ256rm, 0},
   {X86::VCVTPH2IBSZrr, X86::VCVTPH2IBSZrm, 0},
@@ -1506,9 +1500,9 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VEXPANDPSZ128rr, X86::VEXPANDPSZ128rm, TB_NO_REVERSE},
   {X86::VEXPANDPSZ256rr, X86::VEXPANDPSZ256rm, TB_NO_REVERSE},
   {X86::VEXPANDPSZrr, X86::VEXPANDPSZrm, TB_NO_REVERSE},
-  {X86::VFPCLASSPBF16Z128ri, X86::VFPCLASSPBF16Z128mi, 0},
-  {X86::VFPCLASSPBF16Z256ri, X86::VFPCLASSPBF16Z256mi, 0},
-  {X86::VFPCLASSPBF16Zri, X86::VFPCLASSPBF16Zmi, 0},
+  {X86::VFPCLASSBF16Z128ri, X86::VFPCLASSBF16Z128mi, 0},
+  {X86::VFPCLASSBF16Z256ri, X86::VFPCLASSBF16Z256mi, 0},
+  {X86::VFPCLASSBF16Zri, X86::VFPCLASSBF16Zmi, 0},
   {X86::VFPCLASSPDZ128ri, X86::VFPCLASSPDZ128mi, 0},
   {X86::VFPCLASSPDZ256ri, X86::VFPCLASSPDZ256mi, 0},
   {X86::VFPCLASSPDZri, X86::VFPCLASSPDZmi, 0},
@@ -1527,9 +1521,9 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VFRCZPSrr, X86::VFRCZPSrm, 0},
   {X86::VFRCZSDrr, X86::VFRCZSDrm, TB_NO_REVERSE},
   {X86::VFRCZSSrr, X86::VFRCZSSrm, TB_NO_REVERSE},
-  {X86::VGETEXPPBF16Z128r, X86::VGETEXPPBF16Z128m, 0},
-  {X86::VGETEXPPBF16Z256r, X86::VGETEXPPBF16Z256m, 0},
-  {X86::VGETEXPPBF16Zr, X86::VGETEXPPBF16Zm, 0},
+  {X86::VGETEXPBF16Z128r, X86::VGETEXPBF16Z128m, 0},
+  {X86::VGETEXPBF16Z256r, X86::VGETEXPBF16Z256m, 0},
+  {X86::VGETEXPBF16Zr, X86::VGETEXPBF16Zm, 0},
   {X86::VGETEXPPDZ128r, X86::VGETEXPPDZ128m, 0},
   {X86::VGETEXPPDZ256r, X86::VGETEXPPDZ256m, 0},
   {X86::VGETEXPPDZr, X86::VGETEXPPDZm, 0},
@@ -1539,9 +1533,9 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VGETEXPPSZ128r, X86::VGETEXPPSZ128m, 0},
   {X86::VGETEXPPSZ256r, X86::VGETEXPPSZ256m, 0},
   {X86::VGETEXPPSZr, X86::VGETEXPPSZm, 0},
-  {X86::VGETMANTPBF16Z128rri, X86::VGETMANTPBF16Z128rmi, 0},
-  {X86::VGETMANTPBF16Z256rri, X86::VGETMANTPBF16Z256rmi, 0},
-  {X86::VGETMANTPBF16Zrri, X86::VGETMANTPBF16Zrmi, 0},
+  {X86::VGETMANTBF16Z128rri, X86::VGETMANTBF16Z128rmi, 0},
+  {X86::VGETMANTBF16Z256rri, X86::VGETMANTBF16Z256rmi, 0},
+  {X86::VGETMANTBF16Zrri, X86::VGETMANTBF16Zrmi, 0},
   {X86::VGETMANTPDZ128rri, X86::VGETMANTPDZ128rmi, 0},
   {X86::VGETMANTPDZ256rri, X86::VGETMANTPDZ256rmi, 0},
   {X86::VGETMANTPDZrri, X86::VGETMANTPDZrmi, 0},
@@ -1877,17 +1871,17 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VRCP14PSZr, X86::VRCP14PSZm, 0},
   {X86::VRCP28PDZr, X86::VRCP28PDZm, 0},
   {X86::VRCP28PSZr, X86::VRCP28PSZm, 0},
-  {X86::VRCPPBF16Z128r, X86::VRCPPBF16Z128m, 0},
-  {X86::VRCPPBF16Z256r, X86::VRCPPBF16Z256m, 0},
-  {X86::VRCPPBF16Zr, X86::VRCPPBF16Zm, 0},
+  {X86::VRCPBF16Z128r, X86::VRCPBF16Z128m, 0},
+  {X86::VRCPBF16Z256r, X86::VRCPBF16Z256m, 0},
+  {X86::VRCPBF16Zr, X86::VRCPBF16Zm, 0},
   {X86::VRCPPHZ128r, X86::VRCPPHZ128m, 0},
   {X86::VRCPPHZ256r, X86::VRCPPHZ256m, 0},
   {X86::VRCPPHZr, X86::VRCPPHZm, 0},
   {X86::VRCPPSYr, X86::VRCPPSYm, 0},
   {X86::VRCPPSr, X86::VRCPPSm, 0},
-  {X86::VREDUCENEPBF16Z128rri, X86::VREDUCENEPBF16Z128rmi, 0},
-  {X86::VREDUCENEPBF16Z256rri, X86::VREDUCENEPBF16Z256rmi, 0},
-  {X86::VREDUCENEPBF16Zrri, X86::VREDUCENEPBF16Zrmi, 0},
+  {X86::VREDUCEBF16Z128rri, X86::VREDUCEBF16Z128rmi, 0},
+  {X86::VREDUCEBF16Z256rri, X86::VREDUCEBF16Z256rmi, 0},
+  {X86::VREDUCEBF16Zrri, X86::VREDUCEBF16Zrmi, 0},
   {X86::VREDUCEPDZ128rri, X86::VREDUCEPDZ128rmi, 0},
   {X86::VREDUCEPDZ256rri, X86::VREDUCEPDZ256rmi, 0},
   {X86::VREDUCEPDZrri, X86::VREDUCEPDZrmi, 0},
@@ -1897,9 +1891,9 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VREDUCEPSZ128rri, X86::VREDUCEPSZ128rmi, 0},
   {X86::VREDUCEPSZ256rri, X86::VREDUCEPSZ256rmi, 0},
   {X86::VREDUCEPSZrri, X86::VREDUCEPSZrmi, 0},
-  {X86::VRNDSCALENEPBF16Z128rri, X86::VRNDSCALENEPBF16Z128rmi, 0},
-  {X86::VRNDSCALENEPBF16Z256rri, X86::VRNDSCALENEPBF16Z256rmi, 0},
-  {X86::VRNDSCALENEPBF16Zrri, X86::VRNDSCALENEPBF16Zrmi, 0},
+  {X86::VRNDSCALEBF16Z128rri, X86::VRNDSCALEBF16Z128rmi, 0},
+  {X86::VRNDSCALEBF16Z256rri, X86::VRNDSCALEBF16Z256rmi, 0},
+  {X86::VRNDSCALEBF16Zrri, X86::VRNDSCALEBF16Zrmi, 0},
   {X86::VRNDSCALEPDZ128rri, X86::VRNDSCALEPDZ128rmi, 0},
   {X86::VRNDSCALEPDZ256rri, X86::VRNDSCALEPDZ256rmi, 0},
   {X86::VRNDSCALEPDZrri, X86::VRNDSCALEPDZrmi, 0},
@@ -1921,17 +1915,17 @@ static const X86FoldTableEntry Table1[] = {
   {X86::VRSQRT14PSZr, X86::VRSQRT14PSZm, 0},
   {X86::VRSQRT28PDZr, X86::VRSQRT28PDZm, 0},
   {X86::VRSQRT28PSZr, X86::VRSQRT28PSZm, 0},
-  {X86::VRSQRTPBF16Z128r, X86::VRSQRTPBF16Z128m, 0},
-  {X86::VRSQRTPBF16Z256r, X86::VRSQRTPBF16Z256m, 0},
-  {X86::VRSQRTPBF16Zr, X86::VRSQRTPBF16Zm, 0},
+  {X86::VRSQRTBF16Z128r, X86::VRSQRTBF16Z128m, 0},
+  {X86::VRSQRTBF16Z256r, X86::VRSQRTBF16Z256m, 0},
+  {X86::VRSQRTBF16Zr, X86::VRSQRTBF16Zm, 0},
   {X86::VRSQRTPHZ128r, X86::VRSQRTPHZ128m, 0},
   {X86::VRSQRTPHZ256r, X86::VRSQRTPHZ256m, 0},
   {X86::VRSQRTPHZr, X86::VRSQRTPHZm, 0},
   {X86::VRSQRTPSYr, X86::VRSQRTPSYm, 0},
   {X86::VRSQRTPSr, X86::VRSQRTPSm, 0},
-  {X86::VSQRTNEPBF16Z128r, X86::VSQRTNEPBF16Z128m, 0},
-  {X86::VSQRTNEPBF16Z256r, X86::VSQRTNEPBF16Z256m, 0},
-  {X86::VSQRTNEPBF16Zr, X86::VSQRTNEPBF16Zm, 0},
+  {X86::VSQRTBF16Z128r, X86::VSQRTBF16Z128m, 0},
+  {X86::VSQRTBF16Z256r, X86::VSQRTBF16Z256m, 0},
+  {X86::VSQRTBF16Zr, X86::VSQRTBF16Zm, 0},
   {X86::VSQRTPDYr, X86::VSQRTPDYm, 0},
   {X86::VSQRTPDZ128r, X86::VSQRTPDZ128m, 0},
   {X86::VSQRTPDZ256r, X86::VSQRTPDZ256m, 0},
@@ -2072,6 +2066,12 @@ static const X86FoldTableEntry Table2[] = {
   {X86::BLENDPSrri, X86::BLENDPSrmi, TB_ALIGN_16},
   {X86::BLENDVPDrr0, X86::BLENDVPDrm0, TB_ALIGN_16},
   {X86::BLENDVPSrr0, X86::BLENDVPSrm0, TB_ALIGN_16},
+  {X86::BSF16rr, X86::BSF16rm, 0},
+  {X86::BSF32rr, X86::BSF32rm, 0},
+  {X86::BSF64rr, X86::BSF64rm, 0},
+  {X86::BSR16rr, X86::BSR16rm, 0},
+  {X86::BSR32rr, X86::BSR32rm, 0},
+  {X86::BSR64rr, X86::BSR64rm, 0},
   {X86::CMOV16rr, X86::CMOV16rm, 0},
   {X86::CMOV16rr_ND, X86::CMOV16rm_ND, 0},
   {X86::CMOV32rr, X86::CMOV32rm, 0},
@@ -2412,9 +2412,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::UNPCKHPSrr, X86::UNPCKHPSrm, TB_ALIGN_16},
   {X86::UNPCKLPDrr, X86::UNPCKLPDrm, TB_ALIGN_16},
   {X86::UNPCKLPSrr, X86::UNPCKLPSrm, TB_ALIGN_16},
-  {X86::VADDNEPBF16Z128rr, X86::VADDNEPBF16Z128rm, 0},
-  {X86::VADDNEPBF16Z256rr, X86::VADDNEPBF16Z256rm, 0},
-  {X86::VADDNEPBF16Zrr, X86::VADDNEPBF16Zrm, 0},
+  {X86::VADDBF16Z128rr, X86::VADDBF16Z128rm, 0},
+  {X86::VADDBF16Z256rr, X86::VADDBF16Z256rm, 0},
+  {X86::VADDBF16Zrr, X86::VADDBF16Zrm, 0},
   {X86::VADDPDYrr, X86::VADDPDYrm, 0},
   {X86::VADDPDZ128rr, X86::VADDPDZ128rm, 0},
   {X86::VADDPDZ256rr, X86::VADDPDZ256rm, 0},
@@ -2512,9 +2512,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VBROADCASTSSZ128rrkz, X86::VBROADCASTSSZ128rmkz, TB_NO_REVERSE},
   {X86::VBROADCASTSSZ256rrkz, X86::VBROADCASTSSZ256rmkz, TB_NO_REVERSE},
   {X86::VBROADCASTSSZrrkz, X86::VBROADCASTSSZrmkz, TB_NO_REVERSE},
-  {X86::VCMPPBF16Z128rri, X86::VCMPPBF16Z128rmi, 0},
-  {X86::VCMPPBF16Z256rri, X86::VCMPPBF16Z256rmi, 0},
-  {X86::VCMPPBF16Zrri, X86::VCMPPBF16Zrmi, 0},
+  {X86::VCMPBF16Z128rri, X86::VCMPBF16Z128rmi, 0},
+  {X86::VCMPBF16Z256rri, X86::VCMPBF16Z256rmi, 0},
+  {X86::VCMPBF16Zrri, X86::VCMPBF16Zrmi, 0},
   {X86::VCMPPDYrri, X86::VCMPPDYrmi, 0},
   {X86::VCMPPDZ128rri, X86::VCMPPDZ128rmi, 0},
   {X86::VCMPPDZ256rri, X86::VCMPPDZ256rmi, 0},
@@ -2538,6 +2538,18 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VCMPSSZrri_Int, X86::VCMPSSZrmi_Int, TB_NO_REVERSE},
   {X86::VCMPSSrri, X86::VCMPSSrmi, 0},
   {X86::VCMPSSrri_Int, X86::VCMPSSrmi_Int, TB_NO_REVERSE},
+  {X86::VCVT2PH2BF8SZ128rr, X86::VCVT2PH2BF8SZ128rm, 0},
+  {X86::VCVT2PH2BF8SZ256rr, X86::VCVT2PH2BF8SZ256rm, 0},
+  {X86::VCVT2PH2BF8SZrr, X86::VCVT2PH2BF8SZrm, 0},
+  {X86::VCVT2PH2BF8Z128rr, X86::VCVT2PH2BF8Z128rm, 0},
+  {X86::VCVT2PH2BF8Z256rr, X86::VCVT2PH2BF8Z256rm, 0},
+  {X86::VCVT2PH2BF8Zrr, X86::VCVT2PH2BF8Zrm, 0},
+  {X86::VCVT2PH2HF8SZ128rr, X86::VCVT2PH2HF8SZ128rm, 0},
+  {X86::VCVT2PH2HF8SZ256rr, X86::VCVT2PH2HF8SZ256rm, 0},
+  {X86::VCVT2PH2HF8SZrr, X86::VCVT2PH2HF8SZrm, 0},
+  {X86::VCVT2PH2HF8Z128rr, X86::VCVT2PH2HF8Z128rm, 0},
+  {X86::VCVT2PH2HF8Z256rr, X86::VCVT2PH2HF8Z256rm, 0},
+  {X86::VCVT2PH2HF8Zrr, X86::VCVT2PH2HF8Zrm, 0},
   {X86::VCVT2PS2PHXZ128rr, X86::VCVT2PS2PHXZ128rm, 0},
   {X86::VCVT2PS2PHXZ256rr, X86::VCVT2PS2PHXZ256rm, 0},
   {X86::VCVT2PS2PHXZrr, X86::VCVT2PS2PHXZrm, 0},
@@ -2571,33 +2583,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VCVTHF82PHZ128rrkz, X86::VCVTHF82PHZ128rmkz, TB_NO_REVERSE},
   {X86::VCVTHF82PHZ256rrkz, X86::VCVTHF82PHZ256rmkz, 0},
   {X86::VCVTHF82PHZrrkz, X86::VCVTHF82PHZrmkz, 0},
-  {X86::VCVTNE2PH2BF8SZ128rr, X86::VCVTNE2PH2BF8SZ128rm, 0},
-  {X86::VCVTNE2PH2BF8SZ256rr, X86::VCVTNE2PH2BF8SZ256rm, 0},
-  {X86::VCVTNE2PH2BF8SZrr, X86::VCVTNE2PH2BF8SZrm, 0},
-  {X86::VCVTNE2PH2BF8Z128rr, X86::VCVTNE2PH2BF8Z128rm, 0},
-  {X86::VCVTNE2PH2BF8Z256rr, X86::VCVTNE2PH2BF8Z256rm, 0},
-  {X86::VCVTNE2PH2BF8Zrr, X86::VCVTNE2PH2BF8Zrm, 0},
-  {X86::VCVTNE2PH2HF8SZ128rr, X86::VCVTNE2PH2HF8SZ128rm, 0},
-  {X86::VCVTNE2PH2HF8SZ256rr, X86::VCVTNE2PH2HF8SZ256rm, 0},
-  {X86::VCVTNE2PH2HF8SZrr, X86::VCVTNE2PH2HF8SZrm, 0},
-  {X86::VCVTNE2PH2HF8Z128rr, X86::VCVTNE2PH2HF8Z128rm, 0},
-  {X86::VCVTNE2PH2HF8Z256rr, X86::VCVTNE2PH2HF8Z256rm, 0},
-  {X86::VCVTNE2PH2HF8Zrr, X86::VCVTNE2PH2HF8Zrm, 0},
   {X86::VCVTNE2PS2BF16Z128rr, X86::VCVTNE2PS2BF16Z128rm, 0},
   {X86::VCVTNE2PS2BF16Z256rr, X86::VCVTNE2PS2BF16Z256rm, 0},
   {X86::VCVTNE2PS2BF16Zrr, X86::VCVTNE2PS2BF16Zrm, 0},
-  {X86::VCVTNEPH2BF8SZ128rrkz, X86::VCVTNEPH2BF8SZ128rmkz, 0},
-  {X86::VCVTNEPH2BF8SZ256rrkz, X86::VCVTNEPH2BF8SZ256rmkz, 0},
-  {X86::VCVTNEPH2BF8SZrrkz, X86::VCVTNEPH2BF8SZrmkz, 0},
-  {X86::VCVTNEPH2BF8Z128rrkz, X86::VCVTNEPH2BF8Z128rmkz, 0},
-  {X86::VCVTNEPH2BF8Z256rrkz, X86::VCVTNEPH2BF8Z256rmkz, 0},
-  {X86::VCVTNEPH2BF8Zrrkz, X86::VCVTNEPH2BF8Zrmkz, 0},
-  {X86::VCVTNEPH2HF8SZ128rrkz, X86::VCVTNEPH2HF8SZ128rmkz, 0},
-  {X86::VCVTNEPH2HF8SZ256rrkz, X86::VCVTNEPH2HF8SZ256rmkz, 0},
-  {X86::VCVTNEPH2HF8SZrrkz, X86::VCVTNEPH2HF8SZrmkz, 0},
-  {X86::VCVTNEPH2HF8Z128rrkz, X86::VCVTNEPH2HF8Z128rmkz, 0},
-  {X86::VCVTNEPH2HF8Z256rrkz, X86::VCVTNEPH2HF8Z256rmkz, 0},
-  {X86::VCVTNEPH2HF8Zrrkz, X86::VCVTNEPH2HF8Zrmkz, 0},
   {X86::VCVTNEPS2BF16Z128rrkz, X86::VCVTNEPS2BF16Z128rmkz, 0},
   {X86::VCVTNEPS2BF16Z256rrkz, X86::VCVTNEPS2BF16Z256rmkz, 0},
   {X86::VCVTNEPS2BF16Zrrkz, X86::VCVTNEPS2BF16Zrmkz, 0},
@@ -2619,9 +2607,21 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VCVTPD2UQQZ128rrkz, X86::VCVTPD2UQQZ128rmkz, 0},
   {X86::VCVTPD2UQQZ256rrkz, X86::VCVTPD2UQQZ256rmkz, 0},
   {X86::VCVTPD2UQQZrrkz, X86::VCVTPD2UQQZrmkz, 0},
+  {X86::VCVTPH2BF8SZ128rrkz, X86::VCVTPH2BF8SZ128rmkz, 0},
+  {X86::VCVTPH2BF8SZ256rrkz, X86::VCVTPH2BF8SZ256rmkz, 0},
+  {X86::VCVTPH2BF8SZrrkz, X86::VCVTPH2BF8SZrmkz, 0},
+  {X86::VCVTPH2BF8Z128rrkz, X86::VCVTPH2BF8Z128rmkz, 0},
+  {X86::VCVTPH2BF8Z256rrkz, X86::VCVTPH2BF8Z256rmkz, 0},
+  {X86::VCVTPH2BF8Zrrkz, X86::VCVTPH2BF8Zrmkz, 0},
   {X86::VCVTPH2DQZ128rrkz, X86::VCVTPH2DQZ128rmkz, TB_NO_REVERSE},
   {X86::VCVTPH2DQZ256rrkz, X86::VCVTPH2DQZ256rmkz, 0},
   {X86::VCVTPH2DQZrrkz, X86::VCVTPH2DQZrmkz, 0},
+  {X86::VCVTPH2HF8SZ128rrkz, X86::VCVTPH2HF8SZ128rmkz, 0},
+  {X86::VCVTPH2HF8SZ256rrkz, X86::VCVTPH2HF8SZ256rmkz, 0},
+  {X86::VCVTPH2HF8SZrrkz, X86::VCVTPH2HF8SZrmkz, 0},
+  {X86::VCVTPH2HF8Z128rrkz, X86::VCVTPH2HF8Z128rmkz, 0},
+  {X86::VCVTPH2HF8Z256rrkz, X86::VCVTPH2HF8Z256rmkz, 0},
+  {X86::VCVTPH2HF8Zrrkz, X86::VCVTPH2HF8Zrmkz, 0},
   {X86::VCVTPH2IBSZ128rrkz, X86::VCVTPH2IBSZ128rmkz, 0},
   {X86::VCVTPH2IBSZ256rrkz, X86::VCVTPH2IBSZ256rmkz, 0},
   {X86::VCVTPH2IBSZrrkz, X86::VCVTPH2IBSZrmkz, 0},
@@ -2844,9 +2844,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VDBPSADBWZ128rri, X86::VDBPSADBWZ128rmi, 0},
   {X86::VDBPSADBWZ256rri, X86::VDBPSADBWZ256rmi, 0},
   {X86::VDBPSADBWZrri, X86::VDBPSADBWZrmi, 0},
-  {X86::VDIVNEPBF16Z128rr, X86::VDIVNEPBF16Z128rm, 0},
-  {X86::VDIVNEPBF16Z256rr, X86::VDIVNEPBF16Z256rm, 0},
-  {X86::VDIVNEPBF16Zrr, X86::VDIVNEPBF16Zrm, 0},
+  {X86::VDIVBF16Z128rr, X86::VDIVBF16Z128rm, 0},
+  {X86::VDIVBF16Z256rr, X86::VDIVBF16Z256rm, 0},
+  {X86::VDIVBF16Zrr, X86::VDIVBF16Zrm, 0},
   {X86::VDIVPDYrr, X86::VDIVPDYrm, 0},
   {X86::VDIVPDZ128rr, X86::VDIVPDZ128rm, 0},
   {X86::VDIVPDZ256rr, X86::VDIVPDZ256rm, 0},
@@ -2929,9 +2929,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VFNMSUBSD4rr_Int, X86::VFNMSUBSD4mr_Int, TB_NO_REVERSE},
   {X86::VFNMSUBSS4rr, X86::VFNMSUBSS4mr, 0},
   {X86::VFNMSUBSS4rr_Int, X86::VFNMSUBSS4mr_Int, TB_NO_REVERSE},
-  {X86::VFPCLASSPBF16Z128rik, X86::VFPCLASSPBF16Z128mik, 0},
-  {X86::VFPCLASSPBF16Z256rik, X86::VFPCLASSPBF16Z256mik, 0},
-  {X86::VFPCLASSPBF16Zrik, X86::VFPCLASSPBF16Zmik, 0},
+  {X86::VFPCLASSBF16Z128rik, X86::VFPCLASSBF16Z128mik, 0},
+  {X86::VFPCLASSBF16Z256rik, X86::VFPCLASSBF16Z256mik, 0},
+  {X86::VFPCLASSBF16Zrik, X86::VFPCLASSBF16Zmik, 0},
   {X86::VFPCLASSPDZ128rik, X86::VFPCLASSPDZ128mik, 0},
   {X86::VFPCLASSPDZ256rik, X86::VFPCLASSPDZ256mik, 0},
   {X86::VFPCLASSPDZrik, X86::VFPCLASSPDZmik, 0},
@@ -2944,9 +2944,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VFPCLASSSDZrik, X86::VFPCLASSSDZmik, TB_NO_REVERSE},
   {X86::VFPCLASSSHZrik, X86::VFPCLASSSHZmik, TB_NO_REVERSE},
   {X86::VFPCLASSSSZrik, X86::VFPCLASSSSZmik, TB_NO_REVERSE},
-  {X86::VGETEXPPBF16Z128rkz, X86::VGETEXPPBF16Z128mkz, 0},
-  {X86::VGETEXPPBF16Z256rkz, X86::VGETEXPPBF16Z256mkz, 0},
-  {X86::VGETEXPPBF16Zrkz, X86::VGETEXPPBF16Zmkz, 0},
+  {X86::VGETEXPBF16Z128rkz, X86::VGETEXPBF16Z128mkz, 0},
+  {X86::VGETEXPBF16Z256rkz, X86::VGETEXPBF16Z256mkz, 0},
+  {X86::VGETEXPBF16Zrkz, X86::VGETEXPBF16Zmkz, 0},
   {X86::VGETEXPPDZ128rkz, X86::VGETEXPPDZ128mkz, 0},
   {X86::VGETEXPPDZ256rkz, X86::VGETEXPPDZ256mkz, 0},
   {X86::VGETEXPPDZrkz, X86::VGETEXPPDZmkz, 0},
@@ -2959,9 +2959,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VGETEXPSDZr, X86::VGETEXPSDZm, TB_NO_REVERSE},
   {X86::VGETEXPSHZr, X86::VGETEXPSHZm, TB_NO_REVERSE},
   {X86::VGETEXPSSZr, X86::VGETEXPSSZm, TB_NO_REVERSE},
-  {X86::VGETMANTPBF16Z128rrikz, X86::VGETMANTPBF16Z128rmikz, 0},
-  {X86::VGETMANTPBF16Z256rrikz, X86::VGETMANTPBF16Z256rmikz, 0},
-  {X86::VGETMANTPBF16Zrrikz, X86::VGETMANTPBF16Zrmikz, 0},
+  {X86::VGETMANTBF16Z128rrikz, X86::VGETMANTBF16Z128rmikz, 0},
+  {X86::VGETMANTBF16Z256rrikz, X86::VGETMANTBF16Z256rmikz, 0},
+  {X86::VGETMANTBF16Zrrikz, X86::VGETMANTBF16Zrmikz, 0},
   {X86::VGETMANTPDZ128rrikz, X86::VGETMANTPDZ128rmikz, 0},
   {X86::VGETMANTPDZ256rrikz, X86::VGETMANTPDZ256rmikz, 0},
   {X86::VGETMANTPDZrrikz, X86::VGETMANTPDZrmikz, 0},
@@ -3011,6 +3011,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VINSERTI64X2Z256rri, X86::VINSERTI64X2Z256rmi, 0},
   {X86::VINSERTI64X2Zrri, X86::VINSERTI64X2Zrmi, 0},
   {X86::VINSERTI64X4Zrri, X86::VINSERTI64X4Zrmi, 0},
+  {X86::VMAXBF16Z128rr, X86::VMAXBF16Z128rm, 0},
+  {X86::VMAXBF16Z256rr, X86::VMAXBF16Z256rm, 0},
+  {X86::VMAXBF16Zrr, X86::VMAXBF16Zrm, 0},
   {X86::VMAXCPDYrr, X86::VMAXCPDYrm, 0},
   {X86::VMAXCPDZ128rr, X86::VMAXCPDZ128rm, 0},
   {X86::VMAXCPDZ256rr, X86::VMAXCPDZ256rm, 0},
@@ -3029,9 +3032,6 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VMAXCSHZrr, X86::VMAXCSHZrm, 0},
   {X86::VMAXCSSZrr, X86::VMAXCSSZrm, 0},
   {X86::VMAXCSSrr, X86::VMAXCSSrm, 0},
-  {X86::VMAXPBF16Z128rr, X86::VMAXPBF16Z128rm, 0},
-  {X86::VMAXPBF16Z256rr, X86::VMAXPBF16Z256rm, 0},
-  {X86::VMAXPBF16Zrr, X86::VMAXPBF16Zrm, 0},
   {X86::VMAXPDYrr, X86::VMAXPDYrm, 0},
   {X86::VMAXPDZ128rr, X86::VMAXPDZ128rm, 0},
   {X86::VMAXPDZ256rr, X86::VMAXPDZ256rm, 0},
@@ -3055,6 +3055,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VMAXSSZrr_Int, X86::VMAXSSZrm_Int, TB_NO_REVERSE},
   {X86::VMAXSSrr, X86::VMAXSSrm, 0},
   {X86::VMAXSSrr_Int, X86::VMAXSSrm_Int, TB_NO_REVERSE},
+  {X86::VMINBF16Z128rr, X86::VMINBF16Z128rm, 0},
+  {X86::VMINBF16Z256rr, X86::VMINBF16Z256rm, 0},
+  {X86::VMINBF16Zrr, X86::VMINBF16Zrm, 0},
   {X86::VMINCPDYrr, X86::VMINCPDYrm, 0},
   {X86::VMINCPDZ128rr, X86::VMINCPDZ128rm, 0},
   {X86::VMINCPDZ256rr, X86::VMINCPDZ256rm, 0},
@@ -3091,9 +3094,6 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VMINMAXSHrri_Int, X86::VMINMAXSHrmi_Int, TB_NO_REVERSE},
   {X86::VMINMAXSSrri, X86::VMINMAXSSrmi, 0},
   {X86::VMINMAXSSrri_Int, X86::VMINMAXSSrmi_Int, TB_NO_REVERSE},
-  {X86::VMINPBF16Z128rr, X86::VMINPBF16Z128rm, 0},
-  {X86::VMINPBF16Z256rr, X86::VMINPBF16Z256rm, 0},
-  {X86::VMINPBF16Zrr, X86::VMINPBF16Zrm, 0},
   {X86::VMINPDYrr, X86::VMINPDYrm, 0},
   {X86::VMINPDZ128rr, X86::VMINPDZ128rm, 0},
   {X86::VMINPDZ256rr, X86::VMINPDZ256rm, 0},
@@ -3165,9 +3165,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VMPSADBWZ256rri, X86::VMPSADBWZ256rmi, 0},
   {X86::VMPSADBWZrri, X86::VMPSADBWZrmi, 0},
   {X86::VMPSADBWrri, X86::VMPSADBWrmi, 0},
-  {X86::VMULNEPBF16Z128rr, X86::VMULNEPBF16Z128rm, 0},
-  {X86::VMULNEPBF16Z256rr, X86::VMULNEPBF16Z256rm, 0},
-  {X86::VMULNEPBF16Zrr, X86::VMULNEPBF16Zrm, 0},
+  {X86::VMULBF16Z128rr, X86::VMULBF16Z128rm, 0},
+  {X86::VMULBF16Z256rr, X86::VMULBF16Z256rm, 0},
+  {X86::VMULBF16Zrr, X86::VMULBF16Zrm, 0},
   {X86::VMULPDYrr, X86::VMULPDYrm, 0},
   {X86::VMULPDZ128rr, X86::VMULPDZ128rm, 0},
   {X86::VMULPDZ256rr, X86::VMULPDZ256rm, 0},
@@ -4018,18 +4018,18 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VRCP28PSZrkz, X86::VRCP28PSZmkz, 0},
   {X86::VRCP28SDZr, X86::VRCP28SDZm, TB_NO_REVERSE},
   {X86::VRCP28SSZr, X86::VRCP28SSZm, TB_NO_REVERSE},
-  {X86::VRCPPBF16Z128rkz, X86::VRCPPBF16Z128mkz, 0},
-  {X86::VRCPPBF16Z256rkz, X86::VRCPPBF16Z256mkz, 0},
-  {X86::VRCPPBF16Zrkz, X86::VRCPPBF16Zmkz, 0},
+  {X86::VRCPBF16Z128rkz, X86::VRCPBF16Z128mkz, 0},
+  {X86::VRCPBF16Z256rkz, X86::VRCPBF16Z256mkz, 0},
+  {X86::VRCPBF16Zrkz, X86::VRCPBF16Zmkz, 0},
   {X86::VRCPPHZ128rkz, X86::VRCPPHZ128mkz, 0},
   {X86::VRCPPHZ256rkz, X86::VRCPPHZ256mkz, 0},
   {X86::VRCPPHZrkz, X86::VRCPPHZmkz, 0},
   {X86::VRCPSHZrr, X86::VRCPSHZrm, TB_NO_REVERSE},
   {X86::VRCPSSr, X86::VRCPSSm, 0},
   {X86::VRCPSSr_Int, X86::VRCPSSm_Int, TB_NO_REVERSE},
-  {X86::VREDUCENEPBF16Z128rrikz, X86::VREDUCENEPBF16Z128rmikz, 0},
-  {X86::VREDUCENEPBF16Z256rrikz, X86::VREDUCENEPBF16Z256rmikz, 0},
-  {X86::VREDUCENEPBF16Zrrikz, X86::VREDUCENEPBF16Zrmikz, 0},
+  {X86::VREDUCEBF16Z128rrikz, X86::VREDUCEBF16Z128rmikz, 0},
+  {X86::VREDUCEBF16Z256rrikz, X86::VREDUCEBF16Z256rmikz, 0},
+  {X86::VREDUCEBF16Zrrikz, X86::VREDUCEBF16Zrmikz, 0},
   {X86::VREDUCEPDZ128rrikz, X86::VREDUCEPDZ128rmikz, 0},
   {X86::VREDUCEPDZ256rrikz, X86::VREDUCEPDZ256rmikz, 0},
   {X86::VREDUCEPDZrrikz, X86::VREDUCEPDZrmikz, 0},
@@ -4042,9 +4042,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VREDUCESDZrri, X86::VREDUCESDZrmi, TB_NO_REVERSE},
   {X86::VREDUCESHZrri, X86::VREDUCESHZrmi, TB_NO_REVERSE},
   {X86::VREDUCESSZrri, X86::VREDUCESSZrmi, TB_NO_REVERSE},
-  {X86::VRNDSCALENEPBF16Z128rrikz, X86::VRNDSCALENEPBF16Z128rmikz, 0},
-  {X86::VRNDSCALENEPBF16Z256rrikz, X86::VRNDSCALENEPBF16Z256rmikz, 0},
-  {X86::VRNDSCALENEPBF16Zrrikz, X86::VRNDSCALENEPBF16Zrmikz, 0},
+  {X86::VRNDSCALEBF16Z128rrikz, X86::VRNDSCALEBF16Z128rmikz, 0},
+  {X86::VRNDSCALEBF16Z256rrikz, X86::VRNDSCALEBF16Z256rmikz, 0},
+  {X86::VRNDSCALEBF16Zrrikz, X86::VRNDSCALEBF16Zrmikz, 0},
   {X86::VRNDSCALEPDZ128rrikz, X86::VRNDSCALEPDZ128rmikz, 0},
   {X86::VRNDSCALEPDZ256rrikz, X86::VRNDSCALEPDZ256rmikz, 0},
   {X86::VRNDSCALEPDZrrikz, X86::VRNDSCALEPDZrmikz, 0},
@@ -4076,18 +4076,18 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VRSQRT28PSZrkz, X86::VRSQRT28PSZmkz, 0},
   {X86::VRSQRT28SDZr, X86::VRSQRT28SDZm, TB_NO_REVERSE},
   {X86::VRSQRT28SSZr, X86::VRSQRT28SSZm, TB_NO_REVERSE},
-  {X86::VRSQRTPBF16Z128rkz, X86::VRSQRTPBF16Z128mkz, 0},
-  {X86::VRSQRTPBF16Z256rkz, X86::VRSQRTPBF16Z256mkz, 0},
-  {X86::VRSQRTPBF16Zrkz, X86::VRSQRTPBF16Zmkz, 0},
+  {X86::VRSQRTBF16Z128rkz, X86::VRSQRTBF16Z128mkz, 0},
+  {X86::VRSQRTBF16Z256rkz, X86::VRSQRTBF16Z256mkz, 0},
+  {X86::VRSQRTBF16Zrkz, X86::VRSQRTBF16Zmkz, 0},
   {X86::VRSQRTPHZ128rkz, X86::VRSQRTPHZ128mkz, 0},
   {X86::VRSQRTPHZ256rkz, X86::VRSQRTPHZ256mkz, 0},
   {X86::VRSQRTPHZrkz, X86::VRSQRTPHZmkz, 0},
   {X86::VRSQRTSHZrr, X86::VRSQRTSHZrm, TB_NO_REVERSE},
   {X86::VRSQRTSSr, X86::VRSQRTSSm, 0},
   {X86::VRSQRTSSr_Int, X86::VRSQRTSSm_Int, TB_NO_REVERSE},
-  {X86::VSCALEFPBF16Z128rr, X86::VSCALEFPBF16Z128rm, 0},
-  {X86::VSCALEFPBF16Z256rr, X86::VSCALEFPBF16Z256rm, 0},
-  {X86::VSCALEFPBF16Zrr, X86::VSCALEFPBF16Zrm, 0},
+  {X86::VSCALEFBF16Z128rr, X86::VSCALEFBF16Z128rm, 0},
+  {X86::VSCALEFBF16Z256rr, X86::VSCALEFBF16Z256rm, 0},
+  {X86::VSCALEFBF16Zrr, X86::VSCALEFBF16Zrm, 0},
   {X86::VSCALEFPDZ128rr, X86::VSCALEFPDZ128rm, 0},
   {X86::VSCALEFPDZ256rr, X86::VSCALEFPDZ256rm, 0},
   {X86::VSCALEFPDZrr, X86::VSCALEFPDZrm, 0},
@@ -4128,9 +4128,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VSM4RNDS4Z256rr, X86::VSM4RNDS4Z256rm, 0},
   {X86::VSM4RNDS4Zrr, X86::VSM4RNDS4Zrm, 0},
   {X86::VSM4RNDS4rr, X86::VSM4RNDS4rm, 0},
-  {X86::VSQRTNEPBF16Z128rkz, X86::VSQRTNEPBF16Z128mkz, 0},
-  {X86::VSQRTNEPBF16Z256rkz, X86::VSQRTNEPBF16Z256mkz, 0},
-  {X86::VSQRTNEPBF16Zrkz, X86::VSQRTNEPBF16Zmkz, 0},
+  {X86::VSQRTBF16Z128rkz, X86::VSQRTBF16Z128mkz, 0},
+  {X86::VSQRTBF16Z256rkz, X86::VSQRTBF16Z256mkz, 0},
+  {X86::VSQRTBF16Zrkz, X86::VSQRTBF16Zmkz, 0},
   {X86::VSQRTPDZ128rkz, X86::VSQRTPDZ128mkz, 0},
   {X86::VSQRTPDZ256rkz, X86::VSQRTPDZ256mkz, 0},
   {X86::VSQRTPDZrkz, X86::VSQRTPDZmkz, 0},
@@ -4150,9 +4150,9 @@ static const X86FoldTableEntry Table2[] = {
   {X86::VSQRTSSZr_Int, X86::VSQRTSSZm_Int, TB_NO_REVERSE},
   {X86::VSQRTSSr, X86::VSQRTSSm, 0},
   {X86::VSQRTSSr_Int, X86::VSQRTSSm_Int, TB_NO_REVERSE},
-  {X86::VSUBNEPBF16Z128rr, X86::VSUBNEPBF16Z128rm, 0},
-  {X86::VSUBNEPBF16Z256rr, X86::VSUBNEPBF16Z256rm, 0},
-  {X86::VSUBNEPBF16Zrr, X86::VSUBNEPBF16Zrm, 0},
+  {X86::VSUBBF16Z128rr, X86::VSUBBF16Z128rm, 0},
+  {X86::VSUBBF16Z256rr, X86::VSUBBF16Z256rm, 0},
+  {X86::VSUBBF16Zrr, X86::VSUBBF16Zrm, 0},
   {X86::VSUBPDYrr, X86::VSUBPDYrm, 0},
   {X86::VSUBPDZ128rr, X86::VSUBPDZ128rm, 0},
   {X86::VSUBPDZ256rr, X86::VSUBPDZ256rm, 0},
@@ -4227,9 +4227,9 @@ static const X86FoldTableEntry Table2[] = {
 };
 
 static const X86FoldTableEntry Table3[] = {
-  {X86::VADDNEPBF16Z128rrkz, X86::VADDNEPBF16Z128rmkz, 0},
-  {X86::VADDNEPBF16Z256rrkz, X86::VADDNEPBF16Z256rmkz, 0},
-  {X86::VADDNEPBF16Zrrkz, X86::VADDNEPBF16Zrmkz, 0},
+  {X86::VADDBF16Z128rrkz, X86::VADDBF16Z128rmkz, 0},
+  {X86::VADDBF16Z256rrkz, X86::VADDBF16Z256rmkz, 0},
+  {X86::VADDBF16Zrrkz, X86::VADDBF16Zrmkz, 0},
   {X86::VADDPDZ128rrkz, X86::VADDPDZ128rmkz, 0},
   {X86::VADDPDZ256rrkz, X86::VADDPDZ256rmkz, 0},
   {X86::VADDPDZrrkz, X86::VADDPDZrmkz, 0},
@@ -4276,9 +4276,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VBROADCASTSSZ128rrk, X86::VBROADCASTSSZ128rmk, TB_NO_REVERSE},
   {X86::VBROADCASTSSZ256rrk, X86::VBROADCASTSSZ256rmk, TB_NO_REVERSE},
   {X86::VBROADCASTSSZrrk, X86::VBROADCASTSSZrmk, TB_NO_REVERSE},
-  {X86::VCMPPBF16Z128rrik, X86::VCMPPBF16Z128rmik, 0},
-  {X86::VCMPPBF16Z256rrik, X86::VCMPPBF16Z256rmik, 0},
-  {X86::VCMPPBF16Zrrik, X86::VCMPPBF16Zrmik, 0},
+  {X86::VCMPBF16Z128rrik, X86::VCMPBF16Z128rmik, 0},
+  {X86::VCMPBF16Z256rrik, X86::VCMPBF16Z256rmik, 0},
+  {X86::VCMPBF16Zrrik, X86::VCMPBF16Zrmik, 0},
   {X86::VCMPPDZ128rrik, X86::VCMPPDZ128rmik, 0},
   {X86::VCMPPDZ256rrik, X86::VCMPPDZ256rmik, 0},
   {X86::VCMPPDZrrik, X86::VCMPPDZrmik, 0},
@@ -4291,6 +4291,18 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VCMPSDZrrik_Int, X86::VCMPSDZrmik_Int, TB_NO_REVERSE},
   {X86::VCMPSHZrrik_Int, X86::VCMPSHZrmik_Int, TB_NO_REVERSE},
   {X86::VCMPSSZrrik_Int, X86::VCMPSSZrmik_Int, TB_NO_REVERSE},
+  {X86::VCVT2PH2BF8SZ128rrkz, X86::VCVT2PH2BF8SZ128rmkz, 0},
+  {X86::VCVT2PH2BF8SZ256rrkz, X86::VCVT2PH2BF8SZ256rmkz, 0},
+  {X86::VCVT2PH2BF8SZrrkz, X86::VCVT2PH2BF8SZrmkz, 0},
+  {X86::VCVT2PH2BF8Z128rrkz, X86::VCVT2PH2BF8Z128rmkz, 0},
+  {X86::VCVT2PH2BF8Z256rrkz, X86::VCVT2PH2BF8Z256rmkz, 0},
+  {X86::VCVT2PH2BF8Zrrkz, X86::VCVT2PH2BF8Zrmkz, 0},
+  {X86::VCVT2PH2HF8SZ128rrkz, X86::VCVT2PH2HF8SZ128rmkz, 0},
+  {X86::VCVT2PH2HF8SZ256rrkz, X86::VCVT2PH2HF8SZ256rmkz, 0},
+  {X86::VCVT2PH2HF8SZrrkz, X86::VCVT2PH2HF8SZrmkz, 0},
+  {X86::VCVT2PH2HF8Z128rrkz, X86::VCVT2PH2HF8Z128rmkz, 0},
+  {X86::VCVT2PH2HF8Z256rrkz, X86::VCVT2PH2HF8Z256rmkz, 0},
+  {X86::VCVT2PH2HF8Zrrkz, X86::VCVT2PH2HF8Zrmkz, 0},
   {X86::VCVT2PS2PHXZ128rrkz, X86::VCVT2PS2PHXZ128rmkz, 0},
   {X86::VCVT2PS2PHXZ256rrkz, X86::VCVT2PS2PHXZ256rmkz, 0},
   {X86::VCVT2PS2PHXZrrkz, X86::VCVT2PS2PHXZrmkz, 0},
@@ -4324,33 +4336,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VCVTHF82PHZ128rrk, X86::VCVTHF82PHZ128rmk, TB_NO_REVERSE},
   {X86::VCVTHF82PHZ256rrk, X86::VCVTHF82PHZ256rmk, 0},
   {X86::VCVTHF82PHZrrk, X86::VCVTHF82PHZrmk, 0},
-  {X86::VCVTNE2PH2BF8SZ128rrkz, X86::VCVTNE2PH2BF8SZ128rmkz, 0},
-  {X86::VCVTNE2PH2BF8SZ256rrkz, X86::VCVTNE2PH2BF8SZ256rmkz, 0},
-  {X86::VCVTNE2PH2BF8SZrrkz, X86::VCVTNE2PH2BF8SZrmkz, 0},
-  {X86::VCVTNE2PH2BF8Z128rrkz, X86::VCVTNE2PH2BF8Z128rmkz, 0},
-  {X86::VCVTNE2PH2BF8Z256rrkz, X86::VCVTNE2PH2BF8Z256rmkz, 0},
-  {X86::VCVTNE2PH2BF8Zrrkz, X86::VCVTNE2PH2BF8Zrmkz, 0},
-  {X86::VCVTNE2PH2HF8SZ128rrkz, X86::VCVTNE2PH2HF8SZ128rmkz, 0},
-  {X86::VCVTNE2PH2HF8SZ256rrkz, X86::VCVTNE2PH2HF8SZ256rmkz, 0},
-  {X86::VCVTNE2PH2HF8SZrrkz, X86::VCVTNE2PH2HF8SZrmkz, 0},
-  {X86::VCVTNE2PH2HF8Z128rrkz, X86::VCVTNE2PH2HF8Z128rmkz, 0},
-  {X86::VCVTNE2PH2HF8Z256rrkz, X86::VCVTNE2PH2HF8Z256rmkz, 0},
-  {X86::VCVTNE2PH2HF8Zrrkz, X86::VCVTNE2PH2HF8Zrmkz, 0},
   {X86::VCVTNE2PS2BF16Z128rrkz, X86::VCVTNE2PS2BF16Z128rmkz, 0},
   {X86::VCVTNE2PS2BF16Z256rrkz, X86::VCVTNE2PS2BF16Z256rmkz, 0},
   {X86::VCVTNE2PS2BF16Zrrkz, X86::VCVTNE2PS2BF16Zrmkz, 0},
-  {X86::VCVTNEPH2BF8SZ128rrk, X86::VCVTNEPH2BF8SZ128rmk, 0},
-  {X86::VCVTNEPH2BF8SZ256rrk, X86::VCVTNEPH2BF8SZ256rmk, 0},
-  {X86::VCVTNEPH2BF8SZrrk, X86::VCVTNEPH2BF8SZrmk, 0},
-  {X86::VCVTNEPH2BF8Z128rrk, X86::VCVTNEPH2BF8Z128rmk, 0},
-  {X86::VCVTNEPH2BF8Z256rrk, X86::VCVTNEPH2BF8Z256rmk, 0},
-  {X86::VCVTNEPH2BF8Zrrk, X86::VCVTNEPH2BF8Zrmk, 0},
-  {X86::VCVTNEPH2HF8SZ128rrk, X86::VCVTNEPH2HF8SZ128rmk, 0},
-  {X86::VCVTNEPH2HF8SZ256rrk, X86::VCVTNEPH2HF8SZ256rmk, 0},
-  {X86::VCVTNEPH2HF8SZrrk, X86::VCVTNEPH2HF8SZrmk, 0},
-  {X86::VCVTNEPH2HF8Z128rrk, X86::VCVTNEPH2HF8Z128rmk, 0},
-  {X86::VCVTNEPH2HF8Z256rrk, X86::VCVTNEPH2HF8Z256rmk, 0},
-  {X86::VCVTNEPH2HF8Zrrk, X86::VCVTNEPH2HF8Zrmk, 0},
   {X86::VCVTNEPS2BF16Z128rrk, X86::VCVTNEPS2BF16Z128rmk, 0},
   {X86::VCVTNEPS2BF16Z256rrk, X86::VCVTNEPS2BF16Z256rmk, 0},
   {X86::VCVTNEPS2BF16Zrrk, X86::VCVTNEPS2BF16Zrmk, 0},
@@ -4372,9 +4360,21 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VCVTPD2UQQZ128rrk, X86::VCVTPD2UQQZ128rmk, 0},
   {X86::VCVTPD2UQQZ256rrk, X86::VCVTPD2UQQZ256rmk, 0},
   {X86::VCVTPD2UQQZrrk, X86::VCVTPD2UQQZrmk, 0},
+  {X86::VCVTPH2BF8SZ128rrk, X86::VCVTPH2BF8SZ128rmk, 0},
+  {X86::VCVTPH2BF8SZ256rrk, X86::VCVTPH2BF8SZ256rmk, 0},
+  {X86::VCVTPH2BF8SZrrk, X86::VCVTPH2BF8SZrmk, 0},
+  {X86::VCVTPH2BF8Z128rrk, X86::VCVTPH2BF8Z128rmk, 0},
+  {X86::VCVTPH2BF8Z256rrk, X86::VCVTPH2BF8Z256rmk, 0},
+  {X86::VCVTPH2BF8Zrrk, X86::VCVTPH2BF8Zrmk, 0},
   {X86::VCVTPH2DQZ128rrk, X86::VCVTPH2DQZ128rmk, TB_NO_REVERSE},
   {X86::VCVTPH2DQZ256rrk, X86::VCVTPH2DQZ256rmk, 0},
   {X86::VCVTPH2DQZrrk, X86::VCVTPH2DQZrmk, 0},
+  {X86::VCVTPH2HF8SZ128rrk, X86::VCVTPH2HF8SZ128rmk, 0},
+  {X86::VCVTPH2HF8SZ256rrk, X86::VCVTPH2HF8SZ256rmk, 0},
+  {X86::VCVTPH2HF8SZrrk, X86::VCVTPH2HF8SZrmk, 0},
+  {X86::VCVTPH2HF8Z128rrk, X86::VCVTPH2HF8Z128rmk, 0},
+  {X86::VCVTPH2HF8Z256rrk, X86::VCVTPH2HF8Z256rmk, 0},
+  {X86::VCVTPH2HF8Zrrk, X86::VCVTPH2HF8Zrmk, 0},
   {X86::VCVTPH2IBSZ128rrk, X86::VCVTPH2IBSZ128rmk, 0},
   {X86::VCVTPH2IBSZ256rrk, X86::VCVTPH2IBSZ256rmk, 0},
   {X86::VCVTPH2IBSZrrk, X86::VCVTPH2IBSZrmk, 0},
@@ -4555,9 +4555,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VDBPSADBWZ128rrikz, X86::VDBPSADBWZ128rmikz, 0},
   {X86::VDBPSADBWZ256rrikz, X86::VDBPSADBWZ256rmikz, 0},
   {X86::VDBPSADBWZrrikz, X86::VDBPSADBWZrmikz, 0},
-  {X86::VDIVNEPBF16Z128rrkz, X86::VDIVNEPBF16Z128rmkz, 0},
-  {X86::VDIVNEPBF16Z256rrkz, X86::VDIVNEPBF16Z256rmkz, 0},
-  {X86::VDIVNEPBF16Zrrkz, X86::VDIVNEPBF16Zrmkz, 0},
+  {X86::VDIVBF16Z128rrkz, X86::VDIVBF16Z128rmkz, 0},
+  {X86::VDIVBF16Z256rrkz, X86::VDIVBF16Z256rmkz, 0},
+  {X86::VDIVBF16Zrrkz, X86::VDIVBF16Zrmkz, 0},
   {X86::VDIVPDZ128rrkz, X86::VDIVPDZ128rmkz, 0},
   {X86::VDIVPDZ256rrkz, X86::VDIVPDZ256rmkz, 0},
   {X86::VDIVPDZrrkz, X86::VDIVPDZrmkz, 0},
@@ -4600,9 +4600,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFIXUPIMMPSZrri, X86::VFIXUPIMMPSZrmi, 0},
   {X86::VFIXUPIMMSDZrri, X86::VFIXUPIMMSDZrmi, TB_NO_REVERSE},
   {X86::VFIXUPIMMSSZrri, X86::VFIXUPIMMSSZrmi, TB_NO_REVERSE},
-  {X86::VFMADD132NEPBF16Z128r, X86::VFMADD132NEPBF16Z128m, 0},
-  {X86::VFMADD132NEPBF16Z256r, X86::VFMADD132NEPBF16Z256m, 0},
-  {X86::VFMADD132NEPBF16Zr, X86::VFMADD132NEPBF16Zm, 0},
+  {X86::VFMADD132BF16Z128r, X86::VFMADD132BF16Z128m, 0},
+  {X86::VFMADD132BF16Z256r, X86::VFMADD132BF16Z256m, 0},
+  {X86::VFMADD132BF16Zr, X86::VFMADD132BF16Zm, 0},
   {X86::VFMADD132PDYr, X86::VFMADD132PDYm, 0},
   {X86::VFMADD132PDZ128r, X86::VFMADD132PDZ128m, 0},
   {X86::VFMADD132PDZ256r, X86::VFMADD132PDZ256m, 0},
@@ -4626,9 +4626,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFMADD132SSZr_Int, X86::VFMADD132SSZm_Int, TB_NO_REVERSE},
   {X86::VFMADD132SSr, X86::VFMADD132SSm, 0},
   {X86::VFMADD132SSr_Int, X86::VFMADD132SSm_Int, TB_NO_REVERSE},
-  {X86::VFMADD213NEPBF16Z128r, X86::VFMADD213NEPBF16Z128m, 0},
-  {X86::VFMADD213NEPBF16Z256r, X86::VFMADD213NEPBF16Z256m, 0},
-  {X86::VFMADD213NEPBF16Zr, X86::VFMADD213NEPBF16Zm, 0},
+  {X86::VFMADD213BF16Z128r, X86::VFMADD213BF16Z128m, 0},
+  {X86::VFMADD213BF16Z256r, X86::VFMADD213BF16Z256m, 0},
+  {X86::VFMADD213BF16Zr, X86::VFMADD213BF16Zm, 0},
   {X86::VFMADD213PDYr, X86::VFMADD213PDYm, 0},
   {X86::VFMADD213PDZ128r, X86::VFMADD213PDZ128m, 0},
   {X86::VFMADD213PDZ256r, X86::VFMADD213PDZ256m, 0},
@@ -4652,9 +4652,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFMADD213SSZr_Int, X86::VFMADD213SSZm_Int, TB_NO_REVERSE},
   {X86::VFMADD213SSr, X86::VFMADD213SSm, 0},
   {X86::VFMADD213SSr_Int, X86::VFMADD213SSm_Int, TB_NO_REVERSE},
-  {X86::VFMADD231NEPBF16Z128r, X86::VFMADD231NEPBF16Z128m, 0},
-  {X86::VFMADD231NEPBF16Z256r, X86::VFMADD231NEPBF16Z256m, 0},
-  {X86::VFMADD231NEPBF16Zr, X86::VFMADD231NEPBF16Zm, 0},
+  {X86::VFMADD231BF16Z128r, X86::VFMADD231BF16Z128m, 0},
+  {X86::VFMADD231BF16Z256r, X86::VFMADD231BF16Z256m, 0},
+  {X86::VFMADD231BF16Zr, X86::VFMADD231BF16Zm, 0},
   {X86::VFMADD231PDYr, X86::VFMADD231PDYm, 0},
   {X86::VFMADD231PDZ128r, X86::VFMADD231PDZ128m, 0},
   {X86::VFMADD231PDZ256r, X86::VFMADD231PDZ256m, 0},
@@ -4733,9 +4733,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFMADDSUBPD4rr, X86::VFMADDSUBPD4rm, 0},
   {X86::VFMADDSUBPS4Yrr, X86::VFMADDSUBPS4Yrm, 0},
   {X86::VFMADDSUBPS4rr, X86::VFMADDSUBPS4rm, 0},
-  {X86::VFMSUB132NEPBF16Z128r, X86::VFMSUB132NEPBF16Z128m, 0},
-  {X86::VFMSUB132NEPBF16Z256r, X86::VFMSUB132NEPBF16Z256m, 0},
-  {X86::VFMSUB132NEPBF16Zr, X86::VFMSUB132NEPBF16Zm, 0},
+  {X86::VFMSUB132BF16Z128r, X86::VFMSUB132BF16Z128m, 0},
+  {X86::VFMSUB132BF16Z256r, X86::VFMSUB132BF16Z256m, 0},
+  {X86::VFMSUB132BF16Zr, X86::VFMSUB132BF16Zm, 0},
   {X86::VFMSUB132PDYr, X86::VFMSUB132PDYm, 0},
   {X86::VFMSUB132PDZ128r, X86::VFMSUB132PDZ128m, 0},
   {X86::VFMSUB132PDZ256r, X86::VFMSUB132PDZ256m, 0},
@@ -4759,9 +4759,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFMSUB132SSZr_Int, X86::VFMSUB132SSZm_Int, TB_NO_REVERSE},
   {X86::VFMSUB132SSr, X86::VFMSUB132SSm, 0},
   {X86::VFMSUB132SSr_Int, X86::VFMSUB132SSm_Int, TB_NO_REVERSE},
-  {X86::VFMSUB213NEPBF16Z128r, X86::VFMSUB213NEPBF16Z128m, 0},
-  {X86::VFMSUB213NEPBF16Z256r, X86::VFMSUB213NEPBF16Z256m, 0},
-  {X86::VFMSUB213NEPBF16Zr, X86::VFMSUB213NEPBF16Zm, 0},
+  {X86::VFMSUB213BF16Z128r, X86::VFMSUB213BF16Z128m, 0},
+  {X86::VFMSUB213BF16Z256r, X86::VFMSUB213BF16Z256m, 0},
+  {X86::VFMSUB213BF16Zr, X86::VFMSUB213BF16Zm, 0},
   {X86::VFMSUB213PDYr, X86::VFMSUB213PDYm, 0},
   {X86::VFMSUB213PDZ128r, X86::VFMSUB213PDZ128m, 0},
   {X86::VFMSUB213PDZ256r, X86::VFMSUB213PDZ256m, 0},
@@ -4785,9 +4785,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFMSUB213SSZr_Int, X86::VFMSUB213SSZm_Int, TB_NO_REVERSE},
   {X86::VFMSUB213SSr, X86::VFMSUB213SSm, 0},
   {X86::VFMSUB213SSr_Int, X86::VFMSUB213SSm_Int, TB_NO_REVERSE},
-  {X86::VFMSUB231NEPBF16Z128r, X86::VFMSUB231NEPBF16Z128m, 0},
-  {X86::VFMSUB231NEPBF16Z256r, X86::VFMSUB231NEPBF16Z256m, 0},
-  {X86::VFMSUB231NEPBF16Zr, X86::VFMSUB231NEPBF16Zm, 0},
+  {X86::VFMSUB231BF16Z128r, X86::VFMSUB231BF16Z128m, 0},
+  {X86::VFMSUB231BF16Z256r, X86::VFMSUB231BF16Z256m, 0},
+  {X86::VFMSUB231BF16Zr, X86::VFMSUB231BF16Zm, 0},
   {X86::VFMSUB231PDYr, X86::VFMSUB231PDYm, 0},
   {X86::VFMSUB231PDZ128r, X86::VFMSUB231PDZ128m, 0},
   {X86::VFMSUB231PDZ256r, X86::VFMSUB231PDZ256m, 0},
@@ -4866,9 +4866,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFMULCPHZ256rrkz, X86::VFMULCPHZ256rmkz, 0},
   {X86::VFMULCPHZrrkz, X86::VFMULCPHZrmkz, 0},
   {X86::VFMULCSHZrrkz, X86::VFMULCSHZrmkz, TB_NO_REVERSE},
-  {X86::VFNMADD132NEPBF16Z128r, X86::VFNMADD132NEPBF16Z128m, 0},
-  {X86::VFNMADD132NEPBF16Z256r, X86::VFNMADD132NEPBF16Z256m, 0},
-  {X86::VFNMADD132NEPBF16Zr, X86::VFNMADD132NEPBF16Zm, 0},
+  {X86::VFNMADD132BF16Z128r, X86::VFNMADD132BF16Z128m, 0},
+  {X86::VFNMADD132BF16Z256r, X86::VFNMADD132BF16Z256m, 0},
+  {X86::VFNMADD132BF16Zr, X86::VFNMADD132BF16Zm, 0},
   {X86::VFNMADD132PDYr, X86::VFNMADD132PDYm, 0},
   {X86::VFNMADD132PDZ128r, X86::VFNMADD132PDZ128m, 0},
   {X86::VFNMADD132PDZ256r, X86::VFNMADD132PDZ256m, 0},
@@ -4892,9 +4892,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFNMADD132SSZr_Int, X86::VFNMADD132SSZm_Int, TB_NO_REVERSE},
   {X86::VFNMADD132SSr, X86::VFNMADD132SSm, 0},
   {X86::VFNMADD132SSr_Int, X86::VFNMADD132SSm_Int, TB_NO_REVERSE},
-  {X86::VFNMADD213NEPBF16Z128r, X86::VFNMADD213NEPBF16Z128m, 0},
-  {X86::VFNMADD213NEPBF16Z256r, X86::VFNMADD213NEPBF16Z256m, 0},
-  {X86::VFNMADD213NEPBF16Zr, X86::VFNMADD213NEPBF16Zm, 0},
+  {X86::VFNMADD213BF16Z128r, X86::VFNMADD213BF16Z128m, 0},
+  {X86::VFNMADD213BF16Z256r, X86::VFNMADD213BF16Z256m, 0},
+  {X86::VFNMADD213BF16Zr, X86::VFNMADD213BF16Zm, 0},
   {X86::VFNMADD213PDYr, X86::VFNMADD213PDYm, 0},
   {X86::VFNMADD213PDZ128r, X86::VFNMADD213PDZ128m, 0},
   {X86::VFNMADD213PDZ256r, X86::VFNMADD213PDZ256m, 0},
@@ -4918,9 +4918,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFNMADD213SSZr_Int, X86::VFNMADD213SSZm_Int, TB_NO_REVERSE},
   {X86::VFNMADD213SSr, X86::VFNMADD213SSm, 0},
   {X86::VFNMADD213SSr_Int, X86::VFNMADD213SSm_Int, TB_NO_REVERSE},
-  {X86::VFNMADD231NEPBF16Z128r, X86::VFNMADD231NEPBF16Z128m, 0},
-  {X86::VFNMADD231NEPBF16Z256r, X86::VFNMADD231NEPBF16Z256m, 0},
-  {X86::VFNMADD231NEPBF16Zr, X86::VFNMADD231NEPBF16Zm, 0},
+  {X86::VFNMADD231BF16Z128r, X86::VFNMADD231BF16Z128m, 0},
+  {X86::VFNMADD231BF16Z256r, X86::VFNMADD231BF16Z256m, 0},
+  {X86::VFNMADD231BF16Zr, X86::VFNMADD231BF16Zm, 0},
   {X86::VFNMADD231PDYr, X86::VFNMADD231PDYm, 0},
   {X86::VFNMADD231PDZ128r, X86::VFNMADD231PDZ128m, 0},
   {X86::VFNMADD231PDZ256r, X86::VFNMADD231PDZ256m, 0},
@@ -4952,9 +4952,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFNMADDSD4rr_Int, X86::VFNMADDSD4rm_Int, TB_NO_REVERSE},
   {X86::VFNMADDSS4rr, X86::VFNMADDSS4rm, 0},
   {X86::VFNMADDSS4rr_Int, X86::VFNMADDSS4rm_Int, TB_NO_REVERSE},
-  {X86::VFNMSUB132NEPBF16Z128r, X86::VFNMSUB132NEPBF16Z128m, 0},
-  {X86::VFNMSUB132NEPBF16Z256r, X86::VFNMSUB132NEPBF16Z256m, 0},
-  {X86::VFNMSUB132NEPBF16Zr, X86::VFNMSUB132NEPBF16Zm, 0},
+  {X86::VFNMSUB132BF16Z128r, X86::VFNMSUB132BF16Z128m, 0},
+  {X86::VFNMSUB132BF16Z256r, X86::VFNMSUB132BF16Z256m, 0},
+  {X86::VFNMSUB132BF16Zr, X86::VFNMSUB132BF16Zm, 0},
   {X86::VFNMSUB132PDYr, X86::VFNMSUB132PDYm, 0},
   {X86::VFNMSUB132PDZ128r, X86::VFNMSUB132PDZ128m, 0},
   {X86::VFNMSUB132PDZ256r, X86::VFNMSUB132PDZ256m, 0},
@@ -4978,9 +4978,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFNMSUB132SSZr_Int, X86::VFNMSUB132SSZm_Int, TB_NO_REVERSE},
   {X86::VFNMSUB132SSr, X86::VFNMSUB132SSm, 0},
   {X86::VFNMSUB132SSr_Int, X86::VFNMSUB132SSm_Int, TB_NO_REVERSE},
-  {X86::VFNMSUB213NEPBF16Z128r, X86::VFNMSUB213NEPBF16Z128m, 0},
-  {X86::VFNMSUB213NEPBF16Z256r, X86::VFNMSUB213NEPBF16Z256m, 0},
-  {X86::VFNMSUB213NEPBF16Zr, X86::VFNMSUB213NEPBF16Zm, 0},
+  {X86::VFNMSUB213BF16Z128r, X86::VFNMSUB213BF16Z128m, 0},
+  {X86::VFNMSUB213BF16Z256r, X86::VFNMSUB213BF16Z256m, 0},
+  {X86::VFNMSUB213BF16Zr, X86::VFNMSUB213BF16Zm, 0},
   {X86::VFNMSUB213PDYr, X86::VFNMSUB213PDYm, 0},
   {X86::VFNMSUB213PDZ128r, X86::VFNMSUB213PDZ128m, 0},
   {X86::VFNMSUB213PDZ256r, X86::VFNMSUB213PDZ256m, 0},
@@ -5004,9 +5004,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFNMSUB213SSZr_Int, X86::VFNMSUB213SSZm_Int, TB_NO_REVERSE},
   {X86::VFNMSUB213SSr, X86::VFNMSUB213SSm, 0},
   {X86::VFNMSUB213SSr_Int, X86::VFNMSUB213SSm_Int, TB_NO_REVERSE},
-  {X86::VFNMSUB231NEPBF16Z128r, X86::VFNMSUB231NEPBF16Z128m, 0},
-  {X86::VFNMSUB231NEPBF16Z256r, X86::VFNMSUB231NEPBF16Z256m, 0},
-  {X86::VFNMSUB231NEPBF16Zr, X86::VFNMSUB231NEPBF16Zm, 0},
+  {X86::VFNMSUB231BF16Z128r, X86::VFNMSUB231BF16Z128m, 0},
+  {X86::VFNMSUB231BF16Z256r, X86::VFNMSUB231BF16Z256m, 0},
+  {X86::VFNMSUB231BF16Zr, X86::VFNMSUB231BF16Zm, 0},
   {X86::VFNMSUB231PDYr, X86::VFNMSUB231PDYm, 0},
   {X86::VFNMSUB231PDZ128r, X86::VFNMSUB231PDZ128m, 0},
   {X86::VFNMSUB231PDZ256r, X86::VFNMSUB231PDZ256m, 0},
@@ -5038,9 +5038,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VFNMSUBSD4rr_Int, X86::VFNMSUBSD4rm_Int, TB_NO_REVERSE},
   {X86::VFNMSUBSS4rr, X86::VFNMSUBSS4rm, 0},
   {X86::VFNMSUBSS4rr_Int, X86::VFNMSUBSS4rm_Int, TB_NO_REVERSE},
-  {X86::VGETEXPPBF16Z128rk, X86::VGETEXPPBF16Z128mk, 0},
-  {X86::VGETEXPPBF16Z256rk, X86::VGETEXPPBF16Z256mk, 0},
-  {X86::VGETEXPPBF16Zrk, X86::VGETEXPPBF16Zmk, 0},
+  {X86::VGETEXPBF16Z128rk, X86::VGETEXPBF16Z128mk, 0},
+  {X86::VGETEXPBF16Z256rk, X86::VGETEXPBF16Z256mk, 0},
+  {X86::VGETEXPBF16Zrk, X86::VGETEXPBF16Zmk, 0},
   {X86::VGETEXPPDZ128rk, X86::VGETEXPPDZ128mk, 0},
   {X86::VGETEXPPDZ256rk, X86::VGETEXPPDZ256mk, 0},
   {X86::VGETEXPPDZrk, X86::VGETEXPPDZmk, 0},
@@ -5053,9 +5053,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VGETEXPSDZrkz, X86::VGETEXPSDZmkz, TB_NO_REVERSE},
   {X86::VGETEXPSHZrkz, X86::VGETEXPSHZmkz, TB_NO_REVERSE},
   {X86::VGETEXPSSZrkz, X86::VGETEXPSSZmkz, TB_NO_REVERSE},
-  {X86::VGETMANTPBF16Z128rrik, X86::VGETMANTPBF16Z128rmik, 0},
-  {X86::VGETMANTPBF16Z256rrik, X86::VGETMANTPBF16Z256rmik, 0},
-  {X86::VGETMANTPBF16Zrrik, X86::VGETMANTPBF16Zrmik, 0},
+  {X86::VGETMANTBF16Z128rrik, X86::VGETMANTBF16Z128rmik, 0},
+  {X86::VGETMANTBF16Z256rrik, X86::VGETMANTBF16Z256rmik, 0},
+  {X86::VGETMANTBF16Zrrik, X86::VGETMANTBF16Zrmik, 0},
   {X86::VGETMANTPDZ128rrik, X86::VGETMANTPDZ128rmik, 0},
   {X86::VGETMANTPDZ256rrik, X86::VGETMANTPDZ256rmik, 0},
   {X86::VGETMANTPDZrrik, X86::VGETMANTPDZrmik, 0},
@@ -5089,6 +5089,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VINSERTI64X2Z256rrikz, X86::VINSERTI64X2Z256rmikz, 0},
   {X86::VINSERTI64X2Zrrikz, X86::VINSERTI64X2Zrmikz, 0},
   {X86::VINSERTI64X4Zrrikz, X86::VINSERTI64X4Zrmikz, 0},
+  {X86::VMAXBF16Z128rrkz, X86::VMAXBF16Z128rmkz, 0},
+  {X86::VMAXBF16Z256rrkz, X86::VMAXBF16Z256rmkz, 0},
+  {X86::VMAXBF16Zrrkz, X86::VMAXBF16Zrmkz, 0},
   {X86::VMAXCPDZ128rrkz, X86::VMAXCPDZ128rmkz, 0},
   {X86::VMAXCPDZ256rrkz, X86::VMAXCPDZ256rmkz, 0},
   {X86::VMAXCPDZrrkz, X86::VMAXCPDZrmkz, 0},
@@ -5098,9 +5101,6 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VMAXCPSZ128rrkz, X86::VMAXCPSZ128rmkz, 0},
   {X86::VMAXCPSZ256rrkz, X86::VMAXCPSZ256rmkz, 0},
   {X86::VMAXCPSZrrkz, X86::VMAXCPSZrmkz, 0},
-  {X86::VMAXPBF16Z128rrkz, X86::VMAXPBF16Z128rmkz, 0},
-  {X86::VMAXPBF16Z256rrkz, X86::VMAXPBF16Z256rmkz, 0},
-  {X86::VMAXPBF16Zrrkz, X86::VMAXPBF16Zrmkz, 0},
   {X86::VMAXPDZ128rrkz, X86::VMAXPDZ128rmkz, 0},
   {X86::VMAXPDZ256rrkz, X86::VMAXPDZ256rmkz, 0},
   {X86::VMAXPDZrrkz, X86::VMAXPDZrmkz, 0},
@@ -5113,6 +5113,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VMAXSDZrrkz_Int, X86::VMAXSDZrmkz_Int, TB_NO_REVERSE},
   {X86::VMAXSHZrrkz_Int, X86::VMAXSHZrmkz_Int, TB_NO_REVERSE},
   {X86::VMAXSSZrrkz_Int, X86::VMAXSSZrmkz_Int, TB_NO_REVERSE},
+  {X86::VMINBF16Z128rrkz, X86::VMINBF16Z128rmkz, 0},
+  {X86::VMINBF16Z256rrkz, X86::VMINBF16Z256rmkz, 0},
+  {X86::VMINBF16Zrrkz, X86::VMINBF16Zrmkz, 0},
   {X86::VMINCPDZ128rrkz, X86::VMINCPDZ128rmkz, 0},
   {X86::VMINCPDZ256rrkz, X86::VMINCPDZ256rmkz, 0},
   {X86::VMINCPDZrrkz, X86::VMINCPDZrmkz, 0},
@@ -5137,9 +5140,6 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VMINMAXSDrrikz_Int, X86::VMINMAXSDrmikz_Int, TB_NO_REVERSE},
   {X86::VMINMAXSHrrikz_Int, X86::VMINMAXSHrmikz_Int, TB_NO_REVERSE},
   {X86::VMINMAXSSrrikz_Int, X86::VMINMAXSSrmikz_Int, TB_NO_REVERSE},
-  {X86::VMINPBF16Z128rrkz, X86::VMINPBF16Z128rmkz, 0},
-  {X86::VMINPBF16Z256rrkz, X86::VMINPBF16Z256rmkz, 0},
-  {X86::VMINPBF16Zrrkz, X86::VMINPBF16Zrmkz, 0},
   {X86::VMINPDZ128rrkz, X86::VMINPDZ128rmkz, 0},
   {X86::VMINPDZ256rrkz, X86::VMINPDZ256rmkz, 0},
   {X86::VMINPDZrrkz, X86::VMINPDZrmkz, 0},
@@ -5194,9 +5194,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VMPSADBWZ128rrikz, X86::VMPSADBWZ128rmikz, 0},
   {X86::VMPSADBWZ256rrikz, X86::VMPSADBWZ256rmikz, 0},
   {X86::VMPSADBWZrrikz, X86::VMPSADBWZrmikz, 0},
-  {X86::VMULNEPBF16Z128rrkz, X86::VMULNEPBF16Z128rmkz, 0},
-  {X86::VMULNEPBF16Z256rrkz, X86::VMULNEPBF16Z256rmkz, 0},
-  {X86::VMULNEPBF16Zrrkz, X86::VMULNEPBF16Zrmkz, 0},
+  {X86::VMULBF16Z128rrkz, X86::VMULBF16Z128rmkz, 0},
+  {X86::VMULBF16Z256rrkz, X86::VMULBF16Z256rmkz, 0},
+  {X86::VMULBF16Zrrkz, X86::VMULBF16Zrmkz, 0},
   {X86::VMULPDZ128rrkz, X86::VMULPDZ128rmkz, 0},
   {X86::VMULPDZ256rrkz, X86::VMULPDZ256rmkz, 0},
   {X86::VMULPDZrrkz, X86::VMULPDZrmkz, 0},
@@ -5938,16 +5938,16 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VRCP28PSZrk, X86::VRCP28PSZmk, 0},
   {X86::VRCP28SDZrkz, X86::VRCP28SDZmkz, TB_NO_REVERSE},
   {X86::VRCP28SSZrkz, X86::VRCP28SSZmkz, TB_NO_REVERSE},
-  {X86::VRCPPBF16Z128rk, X86::VRCPPBF16Z128mk, 0},
-  {X86::VRCPPBF16Z256rk, X86::VRCPPBF16Z256mk, 0},
-  {X86::VRCPPBF16Zrk, X86::VRCPPBF16Zmk, 0},
+  {X86::VRCPBF16Z128rk, X86::VRCPBF16Z128mk, 0},
+  {X86::VRCPBF16Z256rk, X86::VRCPBF16Z256mk, 0},
+  {X86::VRCPBF16Zrk, X86::VRCPBF16Zmk, 0},
   {X86::VRCPPHZ128rk, X86::VRCPPHZ128mk, 0},
   {X86::VRCPPHZ256rk, X86::VRCPPHZ256mk, 0},
   {X86::VRCPPHZrk, X86::VRCPPHZmk, 0},
   {X86::VRCPSHZrrkz, X86::VRCPSHZrmkz, TB_NO_REVERSE},
-  {X86::VREDUCENEPBF16Z128rrik, X86::VREDUCENEPBF16Z128rmik, 0},
-  {X86::VREDUCENEPBF16Z256rrik, X86::VREDUCENEPBF16Z256rmik, 0},
-  {X86::VREDUCENEPBF16Zrrik, X86::VREDUCENEPBF16Zrmik, 0},
+  {X86::VREDUCEBF16Z128rrik, X86::VREDUCEBF16Z128rmik, 0},
+  {X86::VREDUCEBF16Z256rrik, X86::VREDUCEBF16Z256rmik, 0},
+  {X86::VREDUCEBF16Zrrik, X86::VREDUCEBF16Zrmik, 0},
   {X86::VREDUCEPDZ128rrik, X86::VREDUCEPDZ128rmik, 0},
   {X86::VREDUCEPDZ256rrik, X86::VREDUCEPDZ256rmik, 0},
   {X86::VREDUCEPDZrrik, X86::VREDUCEPDZrmik, 0},
@@ -5960,9 +5960,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VREDUCESDZrrikz, X86::VREDUCESDZrmikz, TB_NO_REVERSE},
   {X86::VREDUCESHZrrikz, X86::VREDUCESHZrmikz, TB_NO_REVERSE},
   {X86::VREDUCESSZrrikz, X86::VREDUCESSZrmikz, TB_NO_REVERSE},
-  {X86::VRNDSCALENEPBF16Z128rrik, X86::VRNDSCALENEPBF16Z128rmik, 0},
-  {X86::VRNDSCALENEPBF16Z256rrik, X86::VRNDSCALENEPBF16Z256rmik, 0},
-  {X86::VRNDSCALENEPBF16Zrrik, X86::VRNDSCALENEPBF16Zrmik, 0},
+  {X86::VRNDSCALEBF16Z128rrik, X86::VRNDSCALEBF16Z128rmik, 0},
+  {X86::VRNDSCALEBF16Z256rrik, X86::VRNDSCALEBF16Z256rmik, 0},
+  {X86::VRNDSCALEBF16Zrrik, X86::VRNDSCALEBF16Zrmik, 0},
   {X86::VRNDSCALEPDZ128rrik, X86::VRNDSCALEPDZ128rmik, 0},
   {X86::VRNDSCALEPDZ256rrik, X86::VRNDSCALEPDZ256rmik, 0},
   {X86::VRNDSCALEPDZrrik, X86::VRNDSCALEPDZrmik, 0},
@@ -5987,16 +5987,16 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VRSQRT28PSZrk, X86::VRSQRT28PSZmk, 0},
   {X86::VRSQRT28SDZrkz, X86::VRSQRT28SDZmkz, TB_NO_REVERSE},
   {X86::VRSQRT28SSZrkz, X86::VRSQRT28SSZmkz, TB_NO_REVERSE},
-  {X86::VRSQRTPBF16Z128rk, X86::VRSQRTPBF16Z128mk, 0},
-  {X86::VRSQRTPBF16Z256rk, X86::VRSQRTPBF16Z256mk, 0},
-  {X86::VRSQRTPBF16Zrk, X86::VRSQRTPBF16Zmk, 0},
+  {X86::VRSQRTBF16Z128rk, X86::VRSQRTBF16Z128mk, 0},
+  {X86::VRSQRTBF16Z256rk, X86::VRSQRTBF16Z256mk, 0},
+  {X86::VRSQRTBF16Zrk, X86::VRSQRTBF16Zmk, 0},
   {X86::VRSQRTPHZ128rk, X86::VRSQRTPHZ128mk, 0},
   {X86::VRSQRTPHZ256rk, X86::VRSQRTPHZ256mk, 0},
   {X86::VRSQRTPHZrk, X86::VRSQRTPHZmk, 0},
   {X86::VRSQRTSHZrrkz, X86::VRSQRTSHZrmkz, TB_NO_REVERSE},
-  {X86::VSCALEFPBF16Z128rrkz, X86::VSCALEFPBF16Z128rmkz, 0},
-  {X86::VSCALEFPBF16Z256rrkz, X86::VSCALEFPBF16Z256rmkz, 0},
-  {X86::VSCALEFPBF16Zrrkz, X86::VSCALEFPBF16Zrmkz, 0},
+  {X86::VSCALEFBF16Z128rrkz, X86::VSCALEFBF16Z128rmkz, 0},
+  {X86::VSCALEFBF16Z256rrkz, X86::VSCALEFBF16Z256rmkz, 0},
+  {X86::VSCALEFBF16Zrrkz, X86::VSCALEFBF16Zrmkz, 0},
   {X86::VSCALEFPDZ128rrkz, X86::VSCALEFPDZ128rmkz, 0},
   {X86::VSCALEFPDZ256rrkz, X86::VSCALEFPDZ256rmkz, 0},
   {X86::VSCALEFPDZrrkz, X86::VSCALEFPDZrmkz, 0},
@@ -6026,9 +6026,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VSM3MSG1rr, X86::VSM3MSG1rm, 0},
   {X86::VSM3MSG2rr, X86::VSM3MSG2rm, 0},
   {X86::VSM3RNDS2rr, X86::VSM3RNDS2rm, 0},
-  {X86::VSQRTNEPBF16Z128rk, X86::VSQRTNEPBF16Z128mk, 0},
-  {X86::VSQRTNEPBF16Z256rk, X86::VSQRTNEPBF16Z256mk, 0},
-  {X86::VSQRTNEPBF16Zrk, X86::VSQRTNEPBF16Zmk, 0},
+  {X86::VSQRTBF16Z128rk, X86::VSQRTBF16Z128mk, 0},
+  {X86::VSQRTBF16Z256rk, X86::VSQRTBF16Z256mk, 0},
+  {X86::VSQRTBF16Zrk, X86::VSQRTBF16Zmk, 0},
   {X86::VSQRTPDZ128rk, X86::VSQRTPDZ128mk, 0},
   {X86::VSQRTPDZ256rk, X86::VSQRTPDZ256mk, 0},
   {X86::VSQRTPDZrk, X86::VSQRTPDZmk, 0},
@@ -6041,9 +6041,9 @@ static const X86FoldTableEntry Table3[] = {
   {X86::VSQRTSDZrkz_Int, X86::VSQRTSDZmkz_Int, TB_NO_REVERSE},
   {X86::VSQRTSHZrkz_Int, X86::VSQRTSHZmkz_Int, TB_NO_REVERSE},
   {X86::VSQRTSSZrkz_Int, X86::VSQRTSSZmkz_Int, TB_NO_REVERSE},
-  {X86::VSUBNEPBF16Z128rrkz, X86::VSUBNEPBF16Z128rmkz, 0},
-  {X86::VSUBNEPBF16Z256rrkz, X86::VSUBNEPBF16Z256rmkz, 0},
-  {X86::VSUBNEPBF16Zrrkz, X86::VSUBNEPBF16Zrmkz, 0},
+  {X86::VSUBBF16Z128rrkz, X86::VSUBBF16Z128rmkz, 0},
+  {X86::VSUBBF16Z256rrkz, X86::VSUBBF16Z256rmkz, 0},
+  {X86::VSUBBF16Zrrkz, X86::VSUBBF16Zrmkz, 0},
   {X86::VSUBPDZ128rrkz, X86::VSUBPDZ128rmkz, 0},
   {X86::VSUBPDZ256rrkz, X86::VSUBPDZ256rmkz, 0},
   {X86::VSUBPDZrrkz, X86::VSUBPDZrmkz, 0},
@@ -6077,9 +6077,9 @@ static const X86FoldTableEntry Table3[] = {
 };
 
 static const X86FoldTableEntry Table4[] = {
-  {X86::VADDNEPBF16Z128rrk, X86::VADDNEPBF16Z128rmk, 0},
-  {X86::VADDNEPBF16Z256rrk, X86::VADDNEPBF16Z256rmk, 0},
-  {X86::VADDNEPBF16Zrrk, X86::VADDNEPBF16Zrmk, 0},
+  {X86::VADDBF16Z128rrk, X86::VADDBF16Z128rmk, 0},
+  {X86::VADDBF16Z256rrk, X86::VADDBF16Z256rmk, 0},
+  {X86::VADDBF16Zrrk, X86::VADDBF16Zrmk, 0},
   {X86::VADDPDZ128rrk, X86::VADDPDZ128rmk, 0},
   {X86::VADDPDZ256rrk, X86::VADDPDZ256rmk, 0},
   {X86::VADDPDZrrk, X86::VADDPDZrmk, 0},
@@ -6110,6 +6110,18 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VANDPSZ128rrk, X86::VANDPSZ128rmk, 0},
   {X86::VANDPSZ256rrk, X86::VANDPSZ256rmk, 0},
   {X86::VANDPSZrrk, X86::VANDPSZrmk, 0},
+  {X86::VCVT2PH2BF8SZ128rrk, X86::VCVT2PH2BF8SZ128rmk, 0},
+  {X86::VCVT2PH2BF8SZ256rrk, X86::VCVT2PH2BF8SZ256rmk, 0},
+  {X86::VCVT2PH2BF8SZrrk, X86::VCVT2PH2BF8SZrmk, 0},
+  {X86::VCVT2PH2BF8Z128rrk, X86::VCVT2PH2BF8Z128rmk, 0},
+  {X86::VCVT2PH2BF8Z256rrk, X86::VCVT2PH2BF8Z256rmk, 0},
+  {X86::VCVT2PH2BF8Zrrk, X86::VCVT2PH2BF8Zrmk, 0},
+  {X86::VCVT2PH2HF8SZ128rrk, X86::VCVT2PH2HF8SZ128rmk, 0},
+  {X86::VCVT2PH2HF8SZ256rrk, X86::VCVT2PH2HF8SZ256rmk, 0},
+  {X86::VCVT2PH2HF8SZrrk, X86::VCVT2PH2HF8SZrmk, 0},
+  {X86::VCVT2PH2HF8Z128rrk, X86::VCVT2PH2HF8Z128rmk, 0},
+  {X86::VCVT2PH2HF8Z256rrk, X86::VCVT2PH2HF8Z256rmk, 0},
+  {X86::VCVT2PH2HF8Zrrk, X86::VCVT2PH2HF8Zrmk, 0},
   {X86::VCVT2PS2PHXZ128rrk, X86::VCVT2PS2PHXZ128rmk, 0},
   {X86::VCVT2PS2PHXZ256rrk, X86::VCVT2PS2PHXZ256rmk, 0},
   {X86::VCVT2PS2PHXZrrk, X86::VCVT2PS2PHXZrmk, 0},
@@ -6125,18 +6137,6 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VCVTBIASPH2HF8Z128rrk, X86::VCVTBIASPH2HF8Z128rmk, 0},
   {X86::VCVTBIASPH2HF8Z256rrk, X86::VCVTBIASPH2HF8Z256rmk, 0},
   {X86::VCVTBIASPH2HF8Zrrk, X86::VCVTBIASPH2HF8Zrmk, 0},
-  {X86::VCVTNE2PH2BF8SZ128rrk, X86::VCVTNE2PH2BF8SZ128rmk, 0},
-  {X86::VCVTNE2PH2BF8SZ256rrk, X86::VCVTNE2PH2BF8SZ256rmk, 0},
-  {X86::VCVTNE2PH2BF8SZrrk, X86::VCVTNE2PH2BF8SZrmk, 0},
-  {X86::VCVTNE2PH2BF8Z128rrk, X86::VCVTNE2PH2BF8Z128rmk, 0},
-  {X86::VCVTNE2PH2BF8Z256rrk, X86::VCVTNE2PH2BF8Z256rmk, 0},
-  {X86::VCVTNE2PH2BF8Zrrk, X86::VCVTNE2PH2BF8Zrmk, 0},
-  {X86::VCVTNE2PH2HF8SZ128rrk, X86::VCVTNE2PH2HF8SZ128rmk, 0},
-  {X86::VCVTNE2PH2HF8SZ256rrk, X86::VCVTNE2PH2HF8SZ256rmk, 0},
-  {X86::VCVTNE2PH2HF8SZrrk, X86::VCVTNE2PH2HF8SZrmk, 0},
-  {X86::VCVTNE2PH2HF8Z128rrk, X86::VCVTNE2PH2HF8Z128rmk, 0},
-  {X86::VCVTNE2PH2HF8Z256rrk, X86::VCVTNE2PH2HF8Z256rmk, 0},
-  {X86::VCVTNE2PH2HF8Zrrk, X86::VCVTNE2PH2HF8Zrmk, 0},
   {X86::VCVTNE2PS2BF16Z128rrk, X86::VCVTNE2PS2BF16Z128rmk, 0},
   {X86::VCVTNE2PS2BF16Z256rrk, X86::VCVTNE2PS2BF16Z256rmk, 0},
   {X86::VCVTNE2PS2BF16Zrrk, X86::VCVTNE2PS2BF16Zrmk, 0},
@@ -6149,9 +6149,9 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VDBPSADBWZ128rrik, X86::VDBPSADBWZ128rmik, 0},
   {X86::VDBPSADBWZ256rrik, X86::VDBPSADBWZ256rmik, 0},
   {X86::VDBPSADBWZrrik, X86::VDBPSADBWZrmik, 0},
-  {X86::VDIVNEPBF16Z128rrk, X86::VDIVNEPBF16Z128rmk, 0},
-  {X86::VDIVNEPBF16Z256rrk, X86::VDIVNEPBF16Z256rmk, 0},
-  {X86::VDIVNEPBF16Zrrk, X86::VDIVNEPBF16Zrmk, 0},
+  {X86::VDIVBF16Z128rrk, X86::VDIVBF16Z128rmk, 0},
+  {X86::VDIVBF16Z256rrk, X86::VDIVBF16Z256rmk, 0},
+  {X86::VDIVBF16Zrrk, X86::VDIVBF16Zrmk, 0},
   {X86::VDIVPDZ128rrk, X86::VDIVPDZ128rmk, 0},
   {X86::VDIVPDZ256rrk, X86::VDIVPDZ256rmk, 0},
   {X86::VDIVPDZrrk, X86::VDIVPDZrmk, 0},
@@ -6204,12 +6204,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFIXUPIMMSDZrrikz, X86::VFIXUPIMMSDZrmikz, TB_NO_REVERSE},
   {X86::VFIXUPIMMSSZrrik, X86::VFIXUPIMMSSZrmik, TB_NO_REVERSE},
   {X86::VFIXUPIMMSSZrrikz, X86::VFIXUPIMMSSZrmikz, TB_NO_REVERSE},
-  {X86::VFMADD132NEPBF16Z128rk, X86::VFMADD132NEPBF16Z128mk, 0},
-  {X86::VFMADD132NEPBF16Z128rkz, X86::VFMADD132NEPBF16Z128mkz, 0},
-  {X86::VFMADD132NEPBF16Z256rk, X86::VFMADD132NEPBF16Z256mk, 0},
-  {X86::VFMADD132NEPBF16Z256rkz, X86::VFMADD132NEPBF16Z256mkz, 0},
-  {X86::VFMADD132NEPBF16Zrk, X86::VFMADD132NEPBF16Zmk, 0},
-  {X86::VFMADD132NEPBF16Zrkz, X86::VFMADD132NEPBF16Zmkz, 0},
+  {X86::VFMADD132BF16Z128rk, X86::VFMADD132BF16Z128mk, 0},
+  {X86::VFMADD132BF16Z128rkz, X86::VFMADD132BF16Z128mkz, 0},
+  {X86::VFMADD132BF16Z256rk, X86::VFMADD132BF16Z256mk, 0},
+  {X86::VFMADD132BF16Z256rkz, X86::VFMADD132BF16Z256mkz, 0},
+  {X86::VFMADD132BF16Zrk, X86::VFMADD132BF16Zmk, 0},
+  {X86::VFMADD132BF16Zrkz, X86::VFMADD132BF16Zmkz, 0},
   {X86::VFMADD132PDZ128rk, X86::VFMADD132PDZ128mk, 0},
   {X86::VFMADD132PDZ128rkz, X86::VFMADD132PDZ128mkz, 0},
   {X86::VFMADD132PDZ256rk, X86::VFMADD132PDZ256mk, 0},
@@ -6234,12 +6234,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFMADD132SHZrkz_Int, X86::VFMADD132SHZmkz_Int, TB_NO_REVERSE},
   {X86::VFMADD132SSZrk_Int, X86::VFMADD132SSZmk_Int, TB_NO_REVERSE},
   {X86::VFMADD132SSZrkz_Int, X86::VFMADD132SSZmkz_Int, TB_NO_REVERSE},
-  {X86::VFMADD213NEPBF16Z128rk, X86::VFMADD213NEPBF16Z128mk, 0},
-  {X86::VFMADD213NEPBF16Z128rkz, X86::VFMADD213NEPBF16Z128mkz, 0},
-  {X86::VFMADD213NEPBF16Z256rk, X86::VFMADD213NEPBF16Z256mk, 0},
-  {X86::VFMADD213NEPBF16Z256rkz, X86::VFMADD213NEPBF16Z256mkz, 0},
-  {X86::VFMADD213NEPBF16Zrk, X86::VFMADD213NEPBF16Zmk, 0},
-  {X86::VFMADD213NEPBF16Zrkz, X86::VFMADD213NEPBF16Zmkz, 0},
+  {X86::VFMADD213BF16Z128rk, X86::VFMADD213BF16Z128mk, 0},
+  {X86::VFMADD213BF16Z128rkz, X86::VFMADD213BF16Z128mkz, 0},
+  {X86::VFMADD213BF16Z256rk, X86::VFMADD213BF16Z256mk, 0},
+  {X86::VFMADD213BF16Z256rkz, X86::VFMADD213BF16Z256mkz, 0},
+  {X86::VFMADD213BF16Zrk, X86::VFMADD213BF16Zmk, 0},
+  {X86::VFMADD213BF16Zrkz, X86::VFMADD213BF16Zmkz, 0},
   {X86::VFMADD213PDZ128rk, X86::VFMADD213PDZ128mk, 0},
   {X86::VFMADD213PDZ128rkz, X86::VFMADD213PDZ128mkz, 0},
   {X86::VFMADD213PDZ256rk, X86::VFMADD213PDZ256mk, 0},
@@ -6264,12 +6264,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFMADD213SHZrkz_Int, X86::VFMADD213SHZmkz_Int, TB_NO_REVERSE},
   {X86::VFMADD213SSZrk_Int, X86::VFMADD213SSZmk_Int, TB_NO_REVERSE},
   {X86::VFMADD213SSZrkz_Int, X86::VFMADD213SSZmkz_Int, TB_NO_REVERSE},
-  {X86::VFMADD231NEPBF16Z128rk, X86::VFMADD231NEPBF16Z128mk, 0},
-  {X86::VFMADD231NEPBF16Z128rkz, X86::VFMADD231NEPBF16Z128mkz, 0},
-  {X86::VFMADD231NEPBF16Z256rk, X86::VFMADD231NEPBF16Z256mk, 0},
-  {X86::VFMADD231NEPBF16Z256rkz, X86::VFMADD231NEPBF16Z256mkz, 0},
-  {X86::VFMADD231NEPBF16Zrk, X86::VFMADD231NEPBF16Zmk, 0},
-  {X86::VFMADD231NEPBF16Zrkz, X86::VFMADD231NEPBF16Zmkz, 0},
+  {X86::VFMADD231BF16Z128rk, X86::VFMADD231BF16Z128mk, 0},
+  {X86::VFMADD231BF16Z128rkz, X86::VFMADD231BF16Z128mkz, 0},
+  {X86::VFMADD231BF16Z256rk, X86::VFMADD231BF16Z256mk, 0},
+  {X86::VFMADD231BF16Z256rkz, X86::VFMADD231BF16Z256mkz, 0},
+  {X86::VFMADD231BF16Zrk, X86::VFMADD231BF16Zmk, 0},
+  {X86::VFMADD231BF16Zrkz, X86::VFMADD231BF16Zmkz, 0},
   {X86::VFMADD231PDZ128rk, X86::VFMADD231PDZ128mk, 0},
   {X86::VFMADD231PDZ128rkz, X86::VFMADD231PDZ128mkz, 0},
   {X86::VFMADD231PDZ256rk, X86::VFMADD231PDZ256mk, 0},
@@ -6356,12 +6356,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFMADDSUB231PSZ256rkz, X86::VFMADDSUB231PSZ256mkz, 0},
   {X86::VFMADDSUB231PSZrk, X86::VFMADDSUB231PSZmk, 0},
   {X86::VFMADDSUB231PSZrkz, X86::VFMADDSUB231PSZmkz, 0},
-  {X86::VFMSUB132NEPBF16Z128rk, X86::VFMSUB132NEPBF16Z128mk, 0},
-  {X86::VFMSUB132NEPBF16Z128rkz, X86::VFMSUB132NEPBF16Z128mkz, 0},
-  {X86::VFMSUB132NEPBF16Z256rk, X86::VFMSUB132NEPBF16Z256mk, 0},
-  {X86::VFMSUB132NEPBF16Z256rkz, X86::VFMSUB132NEPBF16Z256mkz, 0},
-  {X86::VFMSUB132NEPBF16Zrk, X86::VFMSUB132NEPBF16Zmk, 0},
-  {X86::VFMSUB132NEPBF16Zrkz, X86::VFMSUB132NEPBF16Zmkz, 0},
+  {X86::VFMSUB132BF16Z128rk, X86::VFMSUB132BF16Z128mk, 0},
+  {X86::VFMSUB132BF16Z128rkz, X86::VFMSUB132BF16Z128mkz, 0},
+  {X86::VFMSUB132BF16Z256rk, X86::VFMSUB132BF16Z256mk, 0},
+  {X86::VFMSUB132BF16Z256rkz, X86::VFMSUB132BF16Z256mkz, 0},
+  {X86::VFMSUB132BF16Zrk, X86::VFMSUB132BF16Zmk, 0},
+  {X86::VFMSUB132BF16Zrkz, X86::VFMSUB132BF16Zmkz, 0},
   {X86::VFMSUB132PDZ128rk, X86::VFMSUB132PDZ128mk, 0},
   {X86::VFMSUB132PDZ128rkz, X86::VFMSUB132PDZ128mkz, 0},
   {X86::VFMSUB132PDZ256rk, X86::VFMSUB132PDZ256mk, 0},
@@ -6386,12 +6386,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFMSUB132SHZrkz_Int, X86::VFMSUB132SHZmkz_Int, TB_NO_REVERSE},
   {X86::VFMSUB132SSZrk_Int, X86::VFMSUB132SSZmk_Int, TB_NO_REVERSE},
   {X86::VFMSUB132SSZrkz_Int, X86::VFMSUB132SSZmkz_Int, TB_NO_REVERSE},
-  {X86::VFMSUB213NEPBF16Z128rk, X86::VFMSUB213NEPBF16Z128mk, 0},
-  {X86::VFMSUB213NEPBF16Z128rkz, X86::VFMSUB213NEPBF16Z128mkz, 0},
-  {X86::VFMSUB213NEPBF16Z256rk, X86::VFMSUB213NEPBF16Z256mk, 0},
-  {X86::VFMSUB213NEPBF16Z256rkz, X86::VFMSUB213NEPBF16Z256mkz, 0},
-  {X86::VFMSUB213NEPBF16Zrk, X86::VFMSUB213NEPBF16Zmk, 0},
-  {X86::VFMSUB213NEPBF16Zrkz, X86::VFMSUB213NEPBF16Zmkz, 0},
+  {X86::VFMSUB213BF16Z128rk, X86::VFMSUB213BF16Z128mk, 0},
+  {X86::VFMSUB213BF16Z128rkz, X86::VFMSUB213BF16Z128mkz, 0},
+  {X86::VFMSUB213BF16Z256rk, X86::VFMSUB213BF16Z256mk, 0},
+  {X86::VFMSUB213BF16Z256rkz, X86::VFMSUB213BF16Z256mkz, 0},
+  {X86::VFMSUB213BF16Zrk, X86::VFMSUB213BF16Zmk, 0},
+  {X86::VFMSUB213BF16Zrkz, X86::VFMSUB213BF16Zmkz, 0},
   {X86::VFMSUB213PDZ128rk, X86::VFMSUB213PDZ128mk, 0},
   {X86::VFMSUB213PDZ128rkz, X86::VFMSUB213PDZ128mkz, 0},
   {X86::VFMSUB213PDZ256rk, X86::VFMSUB213PDZ256mk, 0},
@@ -6416,12 +6416,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFMSUB213SHZrkz_Int, X86::VFMSUB213SHZmkz_Int, TB_NO_REVERSE},
   {X86::VFMSUB213SSZrk_Int, X86::VFMSUB213SSZmk_Int, TB_NO_REVERSE},
   {X86::VFMSUB213SSZrkz_Int, X86::VFMSUB213SSZmkz_Int, TB_NO_REVERSE},
-  {X86::VFMSUB231NEPBF16Z128rk, X86::VFMSUB231NEPBF16Z128mk, 0},
-  {X86::VFMSUB231NEPBF16Z128rkz, X86::VFMSUB231NEPBF16Z128mkz, 0},
-  {X86::VFMSUB231NEPBF16Z256rk, X86::VFMSUB231NEPBF16Z256mk, 0},
-  {X86::VFMSUB231NEPBF16Z256rkz, X86::VFMSUB231NEPBF16Z256mkz, 0},
-  {X86::VFMSUB231NEPBF16Zrk, X86::VFMSUB231NEPBF16Zmk, 0},
-  {X86::VFMSUB231NEPBF16Zrkz, X86::VFMSUB231NEPBF16Zmkz, 0},
+  {X86::VFMSUB231BF16Z128rk, X86::VFMSUB231BF16Z128mk, 0},
+  {X86::VFMSUB231BF16Z128rkz, X86::VFMSUB231BF16Z128mkz, 0},
+  {X86::VFMSUB231BF16Z256rk, X86::VFMSUB231BF16Z256mk, 0},
+  {X86::VFMSUB231BF16Z256rkz, X86::VFMSUB231BF16Z256mkz, 0},
+  {X86::VFMSUB231BF16Zrk, X86::VFMSUB231BF16Zmk, 0},
+  {X86::VFMSUB231BF16Zrkz, X86::VFMSUB231BF16Zmkz, 0},
   {X86::VFMSUB231PDZ128rk, X86::VFMSUB231PDZ128mk, 0},
   {X86::VFMSUB231PDZ128rkz, X86::VFMSUB231PDZ128mkz, 0},
   {X86::VFMSUB231PDZ256rk, X86::VFMSUB231PDZ256mk, 0},
@@ -6504,12 +6504,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFMULCPHZ256rrk, X86::VFMULCPHZ256rmk, 0},
   {X86::VFMULCPHZrrk, X86::VFMULCPHZrmk, 0},
   {X86::VFMULCSHZrrk, X86::VFMULCSHZrmk, TB_NO_REVERSE},
-  {X86::VFNMADD132NEPBF16Z128rk, X86::VFNMADD132NEPBF16Z128mk, 0},
-  {X86::VFNMADD132NEPBF16Z128rkz, X86::VFNMADD132NEPBF16Z128mkz, 0},
-  {X86::VFNMADD132NEPBF16Z256rk, X86::VFNMADD132NEPBF16Z256mk, 0},
-  {X86::VFNMADD132NEPBF16Z256rkz, X86::VFNMADD132NEPBF16Z256mkz, 0},
-  {X86::VFNMADD132NEPBF16Zrk, X86::VFNMADD132NEPBF16Zmk, 0},
-  {X86::VFNMADD132NEPBF16Zrkz, X86::VFNMADD132NEPBF16Zmkz, 0},
+  {X86::VFNMADD132BF16Z128rk, X86::VFNMADD132BF16Z128mk, 0},
+  {X86::VFNMADD132BF16Z128rkz, X86::VFNMADD132BF16Z128mkz, 0},
+  {X86::VFNMADD132BF16Z256rk, X86::VFNMADD132BF16Z256mk, 0},
+  {X86::VFNMADD132BF16Z256rkz, X86::VFNMADD132BF16Z256mkz, 0},
+  {X86::VFNMADD132BF16Zrk, X86::VFNMADD132BF16Zmk, 0},
+  {X86::VFNMADD132BF16Zrkz, X86::VFNMADD132BF16Zmkz, 0},
   {X86::VFNMADD132PDZ128rk, X86::VFNMADD132PDZ128mk, 0},
   {X86::VFNMADD132PDZ128rkz, X86::VFNMADD132PDZ128mkz, 0},
   {X86::VFNMADD132PDZ256rk, X86::VFNMADD132PDZ256mk, 0},
@@ -6534,12 +6534,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFNMADD132SHZrkz_Int, X86::VFNMADD132SHZmkz_Int, TB_NO_REVERSE},
   {X86::VFNMADD132SSZrk_Int, X86::VFNMADD132SSZmk_Int, TB_NO_REVERSE},
   {X86::VFNMADD132SSZrkz_Int, X86::VFNMADD132SSZmkz_Int, TB_NO_REVERSE},
-  {X86::VFNMADD213NEPBF16Z128rk, X86::VFNMADD213NEPBF16Z128mk, 0},
-  {X86::VFNMADD213NEPBF16Z128rkz, X86::VFNMADD213NEPBF16Z128mkz, 0},
-  {X86::VFNMADD213NEPBF16Z256rk, X86::VFNMADD213NEPBF16Z256mk, 0},
-  {X86::VFNMADD213NEPBF16Z256rkz, X86::VFNMADD213NEPBF16Z256mkz, 0},
-  {X86::VFNMADD213NEPBF16Zrk, X86::VFNMADD213NEPBF16Zmk, 0},
-  {X86::VFNMADD213NEPBF16Zrkz, X86::VFNMADD213NEPBF16Zmkz, 0},
+  {X86::VFNMADD213BF16Z128rk, X86::VFNMADD213BF16Z128mk, 0},
+  {X86::VFNMADD213BF16Z128rkz, X86::VFNMADD213BF16Z128mkz, 0},
+  {X86::VFNMADD213BF16Z256rk, X86::VFNMADD213BF16Z256mk, 0},
+  {X86::VFNMADD213BF16Z256rkz, X86::VFNMADD213BF16Z256mkz, 0},
+  {X86::VFNMADD213BF16Zrk, X86::VFNMADD213BF16Zmk, 0},
+  {X86::VFNMADD213BF16Zrkz, X86::VFNMADD213BF16Zmkz, 0},
   {X86::VFNMADD213PDZ128rk, X86::VFNMADD213PDZ128mk, 0},
   {X86::VFNMADD213PDZ128rkz, X86::VFNMADD213PDZ128mkz, 0},
   {X86::VFNMADD213PDZ256rk, X86::VFNMADD213PDZ256mk, 0},
@@ -6564,12 +6564,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFNMADD213SHZrkz_Int, X86::VFNMADD213SHZmkz_Int, TB_NO_REVERSE},
   {X86::VFNMADD213SSZrk_Int, X86::VFNMADD213SSZmk_Int, TB_NO_REVERSE},
   {X86::VFNMADD213SSZrkz_Int, X86::VFNMADD213SSZmkz_Int, TB_NO_REVERSE},
-  {X86::VFNMADD231NEPBF16Z128rk, X86::VFNMADD231NEPBF16Z128mk, 0},
-  {X86::VFNMADD231NEPBF16Z128rkz, X86::VFNMADD231NEPBF16Z128mkz, 0},
-  {X86::VFNMADD231NEPBF16Z256rk, X86::VFNMADD231NEPBF16Z256mk, 0},
-  {X86::VFNMADD231NEPBF16Z256rkz, X86::VFNMADD231NEPBF16Z256mkz, 0},
-  {X86::VFNMADD231NEPBF16Zrk, X86::VFNMADD231NEPBF16Zmk, 0},
-  {X86::VFNMADD231NEPBF16Zrkz, X86::VFNMADD231NEPBF16Zmkz, 0},
+  {X86::VFNMADD231BF16Z128rk, X86::VFNMADD231BF16Z128mk, 0},
+  {X86::VFNMADD231BF16Z128rkz, X86::VFNMADD231BF16Z128mkz, 0},
+  {X86::VFNMADD231BF16Z256rk, X86::VFNMADD231BF16Z256mk, 0},
+  {X86::VFNMADD231BF16Z256rkz, X86::VFNMADD231BF16Z256mkz, 0},
+  {X86::VFNMADD231BF16Zrk, X86::VFNMADD231BF16Zmk, 0},
+  {X86::VFNMADD231BF16Zrkz, X86::VFNMADD231BF16Zmkz, 0},
   {X86::VFNMADD231PDZ128rk, X86::VFNMADD231PDZ128mk, 0},
   {X86::VFNMADD231PDZ128rkz, X86::VFNMADD231PDZ128mkz, 0},
   {X86::VFNMADD231PDZ256rk, X86::VFNMADD231PDZ256mk, 0},
@@ -6594,12 +6594,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFNMADD231SHZrkz_Int, X86::VFNMADD231SHZmkz_Int, TB_NO_REVERSE},
   {X86::VFNMADD231SSZrk_Int, X86::VFNMADD231SSZmk_Int, TB_NO_REVERSE},
   {X86::VFNMADD231SSZrkz_Int, X86::VFNMADD231SSZmkz_Int, TB_NO_REVERSE},
-  {X86::VFNMSUB132NEPBF16Z128rk, X86::VFNMSUB132NEPBF16Z128mk, 0},
-  {X86::VFNMSUB132NEPBF16Z128rkz, X86::VFNMSUB132NEPBF16Z128mkz, 0},
-  {X86::VFNMSUB132NEPBF16Z256rk, X86::VFNMSUB132NEPBF16Z256mk, 0},
-  {X86::VFNMSUB132NEPBF16Z256rkz, X86::VFNMSUB132NEPBF16Z256mkz, 0},
-  {X86::VFNMSUB132NEPBF16Zrk, X86::VFNMSUB132NEPBF16Zmk, 0},
-  {X86::VFNMSUB132NEPBF16Zrkz, X86::VFNMSUB132NEPBF16Zmkz, 0},
+  {X86::VFNMSUB132BF16Z128rk, X86::VFNMSUB132BF16Z128mk, 0},
+  {X86::VFNMSUB132BF16Z128rkz, X86::VFNMSUB132BF16Z128mkz, 0},
+  {X86::VFNMSUB132BF16Z256rk, X86::VFNMSUB132BF16Z256mk, 0},
+  {X86::VFNMSUB132BF16Z256rkz, X86::VFNMSUB132BF16Z256mkz, 0},
+  {X86::VFNMSUB132BF16Zrk, X86::VFNMSUB132BF16Zmk, 0},
+  {X86::VFNMSUB132BF16Zrkz, X86::VFNMSUB132BF16Zmkz, 0},
   {X86::VFNMSUB132PDZ128rk, X86::VFNMSUB132PDZ128mk, 0},
   {X86::VFNMSUB132PDZ128rkz, X86::VFNMSUB132PDZ128mkz, 0},
   {X86::VFNMSUB132PDZ256rk, X86::VFNMSUB132PDZ256mk, 0},
@@ -6624,12 +6624,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFNMSUB132SHZrkz_Int, X86::VFNMSUB132SHZmkz_Int, TB_NO_REVERSE},
   {X86::VFNMSUB132SSZrk_Int, X86::VFNMSUB132SSZmk_Int, TB_NO_REVERSE},
   {X86::VFNMSUB132SSZrkz_Int, X86::VFNMSUB132SSZmkz_Int, TB_NO_REVERSE},
-  {X86::VFNMSUB213NEPBF16Z128rk, X86::VFNMSUB213NEPBF16Z128mk, 0},
-  {X86::VFNMSUB213NEPBF16Z128rkz, X86::VFNMSUB213NEPBF16Z128mkz, 0},
-  {X86::VFNMSUB213NEPBF16Z256rk, X86::VFNMSUB213NEPBF16Z256mk, 0},
-  {X86::VFNMSUB213NEPBF16Z256rkz, X86::VFNMSUB213NEPBF16Z256mkz, 0},
-  {X86::VFNMSUB213NEPBF16Zrk, X86::VFNMSUB213NEPBF16Zmk, 0},
-  {X86::VFNMSUB213NEPBF16Zrkz, X86::VFNMSUB213NEPBF16Zmkz, 0},
+  {X86::VFNMSUB213BF16Z128rk, X86::VFNMSUB213BF16Z128mk, 0},
+  {X86::VFNMSUB213BF16Z128rkz, X86::VFNMSUB213BF16Z128mkz, 0},
+  {X86::VFNMSUB213BF16Z256rk, X86::VFNMSUB213BF16Z256mk, 0},
+  {X86::VFNMSUB213BF16Z256rkz, X86::VFNMSUB213BF16Z256mkz, 0},
+  {X86::VFNMSUB213BF16Zrk, X86::VFNMSUB213BF16Zmk, 0},
+  {X86::VFNMSUB213BF16Zrkz, X86::VFNMSUB213BF16Zmkz, 0},
   {X86::VFNMSUB213PDZ128rk, X86::VFNMSUB213PDZ128mk, 0},
   {X86::VFNMSUB213PDZ128rkz, X86::VFNMSUB213PDZ128mkz, 0},
   {X86::VFNMSUB213PDZ256rk, X86::VFNMSUB213PDZ256mk, 0},
@@ -6654,12 +6654,12 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VFNMSUB213SHZrkz_Int, X86::VFNMSUB213SHZmkz_Int, TB_NO_REVERSE},
   {X86::VFNMSUB213SSZrk_Int, X86::VFNMSUB213SSZmk_Int, TB_NO_REVERSE},
   {X86::VFNMSUB213SSZrkz_Int, X86::VFNMSUB213SSZmkz_Int, TB_NO_REVERSE},
-  {X86::VFNMSUB231NEPBF16Z128rk, X86::VFNMSUB231NEPBF16Z128mk, 0},
-  {X86::VFNMSUB231NEPBF16Z128rkz, X86::VFNMSUB231NEPBF16Z128mkz, 0},
-  {X86::VFNMSUB231NEPBF16Z256rk, X86::VFNMSUB231NEPBF16Z256mk, 0},
-  {X86::VFNMSUB231NEPBF16Z256rkz, X86::VFNMSUB231NEPBF16Z256mkz, 0},
-  {X86::VFNMSUB231NEPBF16Zrk, X86::VFNMSUB231NEPBF16Zmk, 0},
-  {X86::VFNMSUB231NEPBF16Zrkz, X86::VFNMSUB231NEPBF16Zmkz, 0},
+  {X86::VFNMSUB231BF16Z128rk, X86::VFNMSUB231BF16Z128mk, 0},
+  {X86::VFNMSUB231BF16Z128rkz, X86::VFNMSUB231BF16Z128mkz, 0},
+  {X86::VFNMSUB231BF16Z256rk, X86::VFNMSUB231BF16Z256mk, 0},
+  {X86::VFNMSUB231BF16Z256rkz, X86::VFNMSUB231BF16Z256mkz, 0},
+  {X86::VFNMSUB231BF16Zrk, X86::VFNMSUB231BF16Zmk, 0},
+  {X86::VFNMSUB231BF16Zrkz, X86::VFNMSUB231BF16Zmkz, 0},
   {X86::VFNMSUB231PDZ128rk, X86::VFNMSUB231PDZ128mk, 0},
   {X86::VFNMSUB231PDZ128rkz, X86::VFNMSUB231PDZ128mkz, 0},
   {X86::VFNMSUB231PDZ256rk, X86::VFNMSUB231PDZ256mk, 0},
@@ -6711,6 +6711,9 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VINSERTI64X2Z256rrik, X86::VINSERTI64X2Z256rmik, 0},
   {X86::VINSERTI64X2Zrrik, X86::VINSERTI64X2Zrmik, 0},
   {X86::VINSERTI64X4Zrrik, X86::VINSERTI64X4Zrmik, 0},
+  {X86::VMAXBF16Z128rrk, X86::VMAXBF16Z128rmk, 0},
+  {X86::VMAXBF16Z256rrk, X86::VMAXBF16Z256rmk, 0},
+  {X86::VMAXBF16Zrrk, X86::VMAXBF16Zrmk, 0},
   {X86::VMAXCPDZ128rrk, X86::VMAXCPDZ128rmk, 0},
   {X86::VMAXCPDZ256rrk, X86::VMAXCPDZ256rmk, 0},
   {X86::VMAXCPDZrrk, X86::VMAXCPDZrmk, 0},
@@ -6720,9 +6723,6 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VMAXCPSZ128rrk, X86::VMAXCPSZ128rmk, 0},
   {X86::VMAXCPSZ256rrk, X86::VMAXCPSZ256rmk, 0},
   {X86::VMAXCPSZrrk, X86::VMAXCPSZrmk, 0},
-  {X86::VMAXPBF16Z128rrk, X86::VMAXPBF16Z128rmk, 0},
-  {X86::VMAXPBF16Z256rrk, X86::VMAXPBF16Z256rmk, 0},
-  {X86::VMAXPBF16Zrrk, X86::VMAXPBF16Zrmk, 0},
   {X86::VMAXPDZ128rrk, X86::VMAXPDZ128rmk, 0},
   {X86::VMAXPDZ256rrk, X86::VMAXPDZ256rmk, 0},
   {X86::VMAXPDZrrk, X86::VMAXPDZrmk, 0},
@@ -6735,6 +6735,9 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VMAXSDZrrk_Int, X86::VMAXSDZrmk_Int, TB_NO_REVERSE},
   {X86::VMAXSHZrrk_Int, X86::VMAXSHZrmk_Int, TB_NO_REVERSE},
   {X86::VMAXSSZrrk_Int, X86::VMAXSSZrmk_Int, TB_NO_REVERSE},
+  {X86::VMINBF16Z128rrk, X86::VMINBF16Z128rmk, 0},
+  {X86::VMINBF16Z256rrk, X86::VMINBF16Z256rmk, 0},
+  {X86::VMINBF16Zrrk, X86::VMINBF16Zrmk, 0},
   {X86::VMINCPDZ128rrk, X86::VMINCPDZ128rmk, 0},
   {X86::VMINCPDZ256rrk, X86::VMINCPDZ256rmk, 0},
   {X86::VMINCPDZrrk, X86::VMINCPDZrmk, 0},
@@ -6759,9 +6762,6 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VMINMAXSDrrik_Int, X86::VMINMAXSDrmik_Int, TB_NO_REVERSE},
   {X86::VMINMAXSHrrik_Int, X86::VMINMAXSHrmik_Int, TB_NO_REVERSE},
   {X86::VMINMAXSSrrik_Int, X86::VMINMAXSSrmik_Int, TB_NO_REVERSE},
-  {X86::VMINPBF16Z128rrk, X86::VMINPBF16Z128rmk, 0},
-  {X86::VMINPBF16Z256rrk, X86::VMINPBF16Z256rmk, 0},
-  {X86::VMINPBF16Zrrk, X86::VMINPBF16Zrmk, 0},
   {X86::VMINPDZ128rrk, X86::VMINPDZ128rmk, 0},
   {X86::VMINPDZ256rrk, X86::VMINPDZ256rmk, 0},
   {X86::VMINPDZrrk, X86::VMINPDZrmk, 0},
@@ -6777,9 +6777,9 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VMPSADBWZ128rrik, X86::VMPSADBWZ128rmik, 0},
   {X86::VMPSADBWZ256rrik, X86::VMPSADBWZ256rmik, 0},
   {X86::VMPSADBWZrrik, X86::VMPSADBWZrmik, 0},
-  {X86::VMULNEPBF16Z128rrk, X86::VMULNEPBF16Z128rmk, 0},
-  {X86::VMULNEPBF16Z256rrk, X86::VMULNEPBF16Z256rmk, 0},
-  {X86::VMULNEPBF16Zrrk, X86::VMULNEPBF16Zrmk, 0},
+  {X86::VMULBF16Z128rrk, X86::VMULBF16Z128rmk, 0},
+  {X86::VMULBF16Z256rrk, X86::VMULBF16Z256rmk, 0},
+  {X86::VMULBF16Zrrk, X86::VMULBF16Zrmk, 0},
   {X86::VMULPDZ128rrk, X86::VMULPDZ128rmk, 0},
   {X86::VMULPDZ256rrk, X86::VMULPDZ256rmk, 0},
   {X86::VMULPDZrrk, X86::VMULPDZrmk, 0},
@@ -7355,9 +7355,9 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VRSQRT28SDZrk, X86::VRSQRT28SDZmk, TB_NO_REVERSE},
   {X86::VRSQRT28SSZrk, X86::VRSQRT28SSZmk, TB_NO_REVERSE},
   {X86::VRSQRTSHZrrk, X86::VRSQRTSHZrmk, TB_NO_REVERSE},
-  {X86::VSCALEFPBF16Z128rrk, X86::VSCALEFPBF16Z128rmk, 0},
-  {X86::VSCALEFPBF16Z256rrk, X86::VSCALEFPBF16Z256rmk, 0},
-  {X86::VSCALEFPBF16Zrrk, X86::VSCALEFPBF16Zrmk, 0},
+  {X86::VSCALEFBF16Z128rrk, X86::VSCALEFBF16Z128rmk, 0},
+  {X86::VSCALEFBF16Z256rrk, X86::VSCALEFBF16Z256rmk, 0},
+  {X86::VSCALEFBF16Zrrk, X86::VSCALEFBF16Zrmk, 0},
   {X86::VSCALEFPDZ128rrk, X86::VSCALEFPDZ128rmk, 0},
   {X86::VSCALEFPDZ256rrk, X86::VSCALEFPDZ256rmk, 0},
   {X86::VSCALEFPDZrrk, X86::VSCALEFPDZrmk, 0},
@@ -7387,9 +7387,9 @@ static const X86FoldTableEntry Table4[] = {
   {X86::VSQRTSDZrk_Int, X86::VSQRTSDZmk_Int, TB_NO_REVERSE},
   {X86::VSQRTSHZrk_Int, X86::VSQRTSHZmk_Int, TB_NO_REVERSE},
   {X86::VSQRTSSZrk_Int, X86::VSQRTSSZmk_Int, TB_NO_REVERSE},
-  {X86::VSUBNEPBF16Z128rrk, X86::VSUBNEPBF16Z128rmk, 0},
-  {X86::VSUBNEPBF16Z256rrk, X86::VSUBNEPBF16Z256rmk, 0},
-  {X86::VSUBNEPBF16Zrrk, X86::VSUBNEPBF16Zrmk, 0},
+  {X86::VSUBBF16Z128rrk, X86::VSUBBF16Z128rmk, 0},
+  {X86::VSUBBF16Z256rrk, X86::VSUBBF16Z256rmk, 0},
+  {X86::VSUBBF16Zrrk, X86::VSUBBF16Zrmk, 0},
   {X86::VSUBPDZ128rrk, X86::VSUBPDZ128rmk, 0},
   {X86::VSUBPDZ256rrk, X86::VSUBPDZ256rmk, 0},
   {X86::VSUBPDZrrk, X86::VSUBPDZrmk, 0},
@@ -7438,18 +7438,6 @@ static const X86FoldTableEntry BroadcastTable1[] = {
   {X86::VCVTDQ2PSZ128rr, X86::VCVTDQ2PSZ128rmb, TB_BCAST_D},
   {X86::VCVTDQ2PSZ256rr, X86::VCVTDQ2PSZ256rmb, TB_BCAST_D},
   {X86::VCVTDQ2PSZrr, X86::VCVTDQ2PSZrmb, TB_BCAST_D},
-  {X86::VCVTNEPH2BF8SZ128rr, X86::VCVTNEPH2BF8SZ128rmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8SZ256rr, X86::VCVTNEPH2BF8SZ256rmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8SZrr, X86::VCVTNEPH2BF8SZrmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8Z128rr, X86::VCVTNEPH2BF8Z128rmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8Z256rr, X86::VCVTNEPH2BF8Z256rmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8Zrr, X86::VCVTNEPH2BF8Zrmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8SZ128rr, X86::VCVTNEPH2HF8SZ128rmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8SZ256rr, X86::VCVTNEPH2HF8SZ256rmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8SZrr, X86::VCVTNEPH2HF8SZrmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8Z128rr, X86::VCVTNEPH2HF8Z128rmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8Z256rr, X86::VCVTNEPH2HF8Z256rmb, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8Zrr, X86::VCVTNEPH2HF8Zrmb, TB_BCAST_SH},
   {X86::VCVTNEPS2BF16Z128rr, X86::VCVTNEPS2BF16Z128rmb, TB_BCAST_SS},
   {X86::VCVTNEPS2BF16Z256rr, X86::VCVTNEPS2BF16Z256rmb, TB_BCAST_SS},
   {X86::VCVTNEPS2BF16Zrr, X86::VCVTNEPS2BF16Zrmb, TB_BCAST_SS},
@@ -7471,9 +7459,21 @@ static const X86FoldTableEntry BroadcastTable1[] = {
   {X86::VCVTPD2UQQZ128rr, X86::VCVTPD2UQQZ128rmb, TB_BCAST_SD},
   {X86::VCVTPD2UQQZ256rr, X86::VCVTPD2UQQZ256rmb, TB_BCAST_SD},
   {X86::VCVTPD2UQQZrr, X86::VCVTPD2UQQZrmb, TB_BCAST_SD},
+  {X86::VCVTPH2BF8SZ128rr, X86::VCVTPH2BF8SZ128rmb, TB_BCAST_SH},
+  {X86::VCVTPH2BF8SZ256rr, X86::VCVTPH2BF8SZ256rmb, TB_BCAST_SH},
+  {X86::VCVTPH2BF8SZrr, X86::VCVTPH2BF8SZrmb, TB_BCAST_SH},
+  {X86::VCVTPH2BF8Z128rr, X86::VCVTPH2BF8Z128rmb, TB_BCAST_SH},
+  {X86::VCVTPH2BF8Z256rr, X86::VCVTPH2BF8Z256rmb, TB_BCAST_SH},
+  {X86::VCVTPH2BF8Zrr, X86::VCVTPH2BF8Zrmb, TB_BCAST_SH},
   {X86::VCVTPH2DQZ128rr, X86::VCVTPH2DQZ128rmb, TB_BCAST_SH},
   {X86::VCVTPH2DQZ256rr, X86::VCVTPH2DQZ256rmb, TB_BCAST_SH},
   {X86::VCVTPH2DQZrr, X86::VCVTPH2DQZrmb, TB_BCAST_SH},
+  {X86::VCVTPH2HF8SZ128rr, X86::VCVTPH2HF8SZ128rmb, TB_BCAST_SH},
+  {X86::VCVTPH2HF8SZ256rr, X86::VCVTPH2HF8SZ256rmb, TB_BCAST_SH},
+  {X86::VCVTPH2HF8SZrr, X86::VCVTPH2HF8SZrmb, TB_BCAST_SH},
+  {X86::VCVTPH2HF8Z128rr, X86::VCVTPH2HF8Z128rmb, TB_BCAST_SH},
+  {X86::VCVTPH2HF8Z256rr, X86::VCVTPH2HF8Z256rmb, TB_BCAST_SH},
+  {X86::VCVTPH2HF8Zrr, X86::VCVTPH2HF8Zrmb, TB_BCAST_SH},
   {X86::VCVTPH2IBSZ128rr, X86::VCVTPH2IBSZ128rmb, TB_BCAST_SH},
   {X86::VCVTPH2IBSZ256rr, X86::VCVTPH2IBSZ256rmb, TB_BCAST_SH},
   {X86::VCVTPH2IBSZrr, X86::VCVTPH2IBSZrmb, TB_BCAST_SH},
@@ -7644,9 +7644,9 @@ static const X86FoldTableEntry BroadcastTable1[] = {
   {X86::VCVTW2PHZrr, X86::VCVTW2PHZrmb, TB_BCAST_W},
   {X86::VEXP2PDZr, X86::VEXP2PDZmb, TB_BCAST_SD},
   {X86::VEXP2PSZr, X86::VEXP2PSZmb, TB_BCAST_SS},
-  {X86::VFPCLASSPBF16Z128ri, X86::VFPCLASSPBF16Z128mbi, TB_BCAST_SH},
-  {X86::VFPCLASSPBF16Z256ri, X86::VFPCLASSPBF16Z256mbi, TB_BCAST_SH},
-  {X86::VFPCLASSPBF16Zri, X86::VFPCLASSPBF16Zmbi, TB_BCAST_SH},
+  {X86::VFPCLASSBF16Z128ri, X86::VFPCLASSBF16Z128mbi, TB_BCAST_SH},
+  {X86::VFPCLASSBF16Z256ri, X86::VFPCLASSBF16Z256mbi, TB_BCAST_SH},
+  {X86::VFPCLASSBF16Zri, X86::VFPCLASSBF16Zmbi, TB_BCAST_SH},
   {X86::VFPCLASSPDZ128ri, X86::VFPCLASSPDZ128mbi, TB_BCAST_SD},
   {X86::VFPCLASSPDZ256ri, X86::VFPCLASSPDZ256mbi, TB_BCAST_SD},
   {X86::VFPCLASSPDZri, X86::VFPCLASSPDZmbi, TB_BCAST_SD},
@@ -7656,9 +7656,9 @@ static const X86FoldTableEntry BroadcastTable1[] = {
   {X86::VFPCLASSPSZ128ri, X86::VFPCLASSPSZ128mbi, TB_BCAST_SS},
   {X86::VFPCLASSPSZ256ri, X86::VFPCLASSPSZ256mbi, TB_BCAST_SS},
   {X86::VFPCLASSPSZri, X86::VFPCLASSPSZmbi, TB_BCAST_SS},
-  {X86::VGETEXPPBF16Z128r, X86::VGETEXPPBF16Z128mb, TB_BCAST_SH},
-  {X86::VGETEXPPBF16Z256r, X86::VGETEXPPBF16Z256mb, TB_BCAST_SH},
-  {X86::VGETEXPPBF16Zr, X86::VGETEXPPBF16Zmb, TB_BCAST_SH},
+  {X86::VGETEXPBF16Z128r, X86::VGETEXPBF16Z128mb, TB_BCAST_SH},
+  {X86::VGETEXPBF16Z256r, X86::VGETEXPBF16Z256mb, TB_BCAST_SH},
+  {X86::VGETEXPBF16Zr, X86::VGETEXPBF16Zmb, TB_BCAST_SH},
   {X86::VGETEXPPDZ128r, X86::VGETEXPPDZ128mb, TB_BCAST_SD},
   {X86::VGETEXPPDZ256r, X86::VGETEXPPDZ256mb, TB_BCAST_SD},
   {X86::VGETEXPPDZr, X86::VGETEXPPDZmb, TB_BCAST_SD},
@@ -7668,9 +7668,9 @@ static const X86FoldTableEntry BroadcastTable1[] = {
   {X86::VGETEXPPSZ128r, X86::VGETEXPPSZ128mb, TB_BCAST_SS},
   {X86::VGETEXPPSZ256r, X86::VGETEXPPSZ256mb, TB_BCAST_SS},
   {X86::VGETEXPPSZr, X86::VGETEXPPSZmb, TB_BCAST_SS},
-  {X86::VGETMANTPBF16Z128rri, X86::VGETMANTPBF16Z128rmbi, TB_BCAST_SH},
-  {X86::VGETMANTPBF16Z256rri, X86::VGETMANTPBF16Z256rmbi, TB_BCAST_SH},
-  {X86::VGETMANTPBF16Zrri, X86::VGETMANTPBF16Zrmbi, TB_BCAST_SH},
+  {X86::VGETMANTBF16Z128rri, X86::VGETMANTBF16Z128rmbi, TB_BCAST_SH},
+  {X86::VGETMANTBF16Z256rri, X86::VGETMANTBF16Z256rmbi, TB_BCAST_SH},
+  {X86::VGETMANTBF16Zrri, X86::VGETMANTBF16Zrmbi, TB_BCAST_SH},
   {X86::VGETMANTPDZ128rri, X86::VGETMANTPDZ128rmbi, TB_BCAST_SD},
   {X86::VGETMANTPDZ256rri, X86::VGETMANTPDZ256rmbi, TB_BCAST_SD},
   {X86::VGETMANTPDZrri, X86::VGETMANTPDZrmbi, TB_BCAST_SD},
@@ -7755,15 +7755,15 @@ static const X86FoldTableEntry BroadcastTable1[] = {
   {X86::VRCP14PSZr, X86::VRCP14PSZmb, TB_BCAST_SS},
   {X86::VRCP28PDZr, X86::VRCP28PDZmb, TB_BCAST_SD},
   {X86::VRCP28PSZr, X86::VRCP28PSZmb, TB_BCAST_SS},
-  {X86::VRCPPBF16Z128r, X86::VRCPPBF16Z128mb, TB_BCAST_SH},
-  {X86::VRCPPBF16Z256r, X86::VRCPPBF16Z256mb, TB_BCAST_SH},
-  {X86::VRCPPBF16Zr, X86::VRCPPBF16Zmb, TB_BCAST_SH},
+  {X86::VRCPBF16Z128r, X86::VRCPBF16Z128mb, TB_BCAST_SH},
+  {X86::VRCPBF16Z256r, X86::VRCPBF16Z256mb, TB_BCAST_SH},
+  {X86::VRCPBF16Zr, X86::VRCPBF16Zmb, TB_BCAST_SH},
   {X86::VRCPPHZ128r, X86::VRCPPHZ128mb, TB_BCAST_SH},
   {X86::VRCPPHZ256r, X86::VRCPPHZ256mb, TB_BCAST_SH},
   {X86::VRCPPHZr, X86::VRCPPHZmb, TB_BCAST_SH},
-  {X86::VREDUCENEPBF16Z128rri, X86::VREDUCENEPBF16Z128rmbi, TB_BCAST_SH},
-  {X86::VREDUCENEPBF16Z256rri, X86::VREDUCENEPBF16Z256rmbi, TB_BCAST_SH},
-  {X86::VREDUCENEPBF16Zrri, X86::VREDUCENEPBF16Zrmbi, TB_BCAST_SH},
+  {X86::VREDUCEBF16Z128rri, X86::VREDUCEBF16Z128rmbi, TB_BCAST_SH},
+  {X86::VREDUCEBF16Z256rri, X86::VREDUCEBF16Z256rmbi, TB_BCAST_SH},
+  {X86::VREDUCEBF16Zrri, X86::VREDUCEBF16Zrmbi, TB_BCAST_SH},
   {X86::VREDUCEPDZ128rri, X86::VREDUCEPDZ128rmbi, TB_BCAST_SD},
   {X86::VREDUCEPDZ256rri, X86::VREDUCEPDZ256rmbi, TB_BCAST_SD},
   {X86::VREDUCEPDZrri, X86::VREDUCEPDZrmbi, TB_BCAST_SD},
@@ -7773,9 +7773,9 @@ static const X86FoldTableEntry BroadcastTable1[] = {
   {X86::VREDUCEPSZ128rri, X86::VREDUCEPSZ128rmbi, TB_BCAST_SS},
   {X86::VREDUCEPSZ256rri, X86::VREDUCEPSZ256rmbi, TB_BCAST_SS},
   {X86::VREDUCEPSZrri, X86::VREDUCEPSZrmbi, TB_BCAST_SS},
-  {X86::VRNDSCALENEPBF16Z128rri, X86::VRNDSCALENEPBF16Z128rmbi, TB_BCAST_SH},
-  {X86::VRNDSCALENEPBF16Z256rri, X86::VRNDSCALENEPBF16Z256rmbi, TB_BCAST_SH},
-  {X86::VRNDSCALENEPBF16Zrri, X86::VRNDSCALENEPBF16Zrmbi, TB_BCAST_SH},
+  {X86::VRNDSCALEBF16Z128rri, X86::VRNDSCALEBF16Z128rmbi, TB_BCAST_SH},
+  {X86::VRNDSCALEBF16Z256rri, X86::VRNDSCALEBF16Z256rmbi, TB_BCAST_SH},
+  {X86::VRNDSCALEBF16Zrri, X86::VRNDSCALEBF16Zrmbi, TB_BCAST_SH},
   {X86::VRNDSCALEPDZ128rri, X86::VRNDSCALEPDZ128rmbi, TB_BCAST_SD},
   {X86::VRNDSCALEPDZ256rri, X86::VRNDSCALEPDZ256rmbi, TB_BCAST_SD},
   {X86::VRNDSCALEPDZrri, X86::VRNDSCALEPDZrmbi, TB_BCAST_SD},
@@ -7793,15 +7793,15 @@ static const X86FoldTableEntry BroadcastTable1[] = {
   {X86::VRSQRT14PSZr, X86::VRSQRT14PSZmb, TB_BCAST_SS},
   {X86::VRSQRT28PDZr, X86::VRSQRT28PDZmb, TB_BCAST_SD},
   {X86::VRSQRT28PSZr, X86::VRSQRT28PSZmb, TB_BCAST_SS},
-  {X86::VRSQRTPBF16Z128r, X86::VRSQRTPBF16Z128mb, TB_BCAST_SH},
-  {X86::VRSQRTPBF16Z256r, X86::VRSQRTPBF16Z256mb, TB_BCAST_SH},
-  {X86::VRSQRTPBF16Zr, X86::VRSQRTPBF16Zmb, TB_BCAST_SH},
+  {X86::VRSQRTBF16Z128r, X86::VRSQRTBF16Z128mb, TB_BCAST_SH},
+  {X86::VRSQRTBF16Z256r, X86::VRSQRTBF16Z256mb, TB_BCAST_SH},
+  {X86::VRSQRTBF16Zr, X86::VRSQRTBF16Zmb, TB_BCAST_SH},
   {X86::VRSQRTPHZ128r, X86::VRSQRTPHZ128mb, TB_BCAST_SH},
   {X86::VRSQRTPHZ256r, X86::VRSQRTPHZ256mb, TB_BCAST_SH},
   {X86::VRSQRTPHZr, X86::VRSQRTPHZmb, TB_BCAST_SH},
-  {X86::VSQRTNEPBF16Z128r, X86::VSQRTNEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VSQRTNEPBF16Z256r, X86::VSQRTNEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VSQRTNEPBF16Zr, X86::VSQRTNEPBF16Zmb, TB_BCAST_SH},
+  {X86::VSQRTBF16Z128r, X86::VSQRTBF16Z128mb, TB_BCAST_SH},
+  {X86::VSQRTBF16Z256r, X86::VSQRTBF16Z256mb, TB_BCAST_SH},
+  {X86::VSQRTBF16Zr, X86::VSQRTBF16Zmb, TB_BCAST_SH},
   {X86::VSQRTPDZ128r, X86::VSQRTPDZ128mb, TB_BCAST_SD},
   {X86::VSQRTPDZ256r, X86::VSQRTPDZ256mb, TB_BCAST_SD},
   {X86::VSQRTPDZr, X86::VSQRTPDZmb, TB_BCAST_SD},
@@ -7814,9 +7814,9 @@ static const X86FoldTableEntry BroadcastTable1[] = {
 };
 
 static const X86FoldTableEntry BroadcastTable2[] = {
-  {X86::VADDNEPBF16Z128rr, X86::VADDNEPBF16Z128rmb, TB_BCAST_SH},
-  {X86::VADDNEPBF16Z256rr, X86::VADDNEPBF16Z256rmb, TB_BCAST_SH},
-  {X86::VADDNEPBF16Zrr, X86::VADDNEPBF16Zrmb, TB_BCAST_SH},
+  {X86::VADDBF16Z128rr, X86::VADDBF16Z128rmb, TB_BCAST_SH},
+  {X86::VADDBF16Z256rr, X86::VADDBF16Z256rmb, TB_BCAST_SH},
+  {X86::VADDBF16Zrr, X86::VADDBF16Zrmb, TB_BCAST_SH},
   {X86::VADDPDZ128rr, X86::VADDPDZ128rmb, TB_BCAST_SD},
   {X86::VADDPDZ256rr, X86::VADDPDZ256rmb, TB_BCAST_SD},
   {X86::VADDPDZrr, X86::VADDPDZrmb, TB_BCAST_SD},
@@ -7850,9 +7850,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VBLENDMPSZ128rr, X86::VBLENDMPSZ128rmb, TB_BCAST_SS},
   {X86::VBLENDMPSZ256rr, X86::VBLENDMPSZ256rmb, TB_BCAST_SS},
   {X86::VBLENDMPSZrr, X86::VBLENDMPSZrmb, TB_BCAST_SS},
-  {X86::VCMPPBF16Z128rri, X86::VCMPPBF16Z128rmbi, TB_BCAST_SH},
-  {X86::VCMPPBF16Z256rri, X86::VCMPPBF16Z256rmbi, TB_BCAST_SH},
-  {X86::VCMPPBF16Zrri, X86::VCMPPBF16Zrmbi, TB_BCAST_SH},
+  {X86::VCMPBF16Z128rri, X86::VCMPBF16Z128rmbi, TB_BCAST_SH},
+  {X86::VCMPBF16Z256rri, X86::VCMPBF16Z256rmbi, TB_BCAST_SH},
+  {X86::VCMPBF16Zrri, X86::VCMPBF16Zrmbi, TB_BCAST_SH},
   {X86::VCMPPDZ128rri, X86::VCMPPDZ128rmbi, TB_BCAST_SD},
   {X86::VCMPPDZ256rri, X86::VCMPPDZ256rmbi, TB_BCAST_SD},
   {X86::VCMPPDZrri, X86::VCMPPDZrmbi, TB_BCAST_SD},
@@ -7862,6 +7862,18 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VCMPPSZ128rri, X86::VCMPPSZ128rmbi, TB_BCAST_SS},
   {X86::VCMPPSZ256rri, X86::VCMPPSZ256rmbi, TB_BCAST_SS},
   {X86::VCMPPSZrri, X86::VCMPPSZrmbi, TB_BCAST_SS},
+  {X86::VCVT2PH2BF8SZ128rr, X86::VCVT2PH2BF8SZ128rmb, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8SZ256rr, X86::VCVT2PH2BF8SZ256rmb, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8SZrr, X86::VCVT2PH2BF8SZrmb, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8Z128rr, X86::VCVT2PH2BF8Z128rmb, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8Z256rr, X86::VCVT2PH2BF8Z256rmb, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8Zrr, X86::VCVT2PH2BF8Zrmb, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8SZ128rr, X86::VCVT2PH2HF8SZ128rmb, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8SZ256rr, X86::VCVT2PH2HF8SZ256rmb, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8SZrr, X86::VCVT2PH2HF8SZrmb, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8Z128rr, X86::VCVT2PH2HF8Z128rmb, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8Z256rr, X86::VCVT2PH2HF8Z256rmb, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8Zrr, X86::VCVT2PH2HF8Zrmb, TB_BCAST_SH},
   {X86::VCVT2PS2PHXZ128rr, X86::VCVT2PS2PHXZ128rmb, TB_BCAST_SS},
   {X86::VCVT2PS2PHXZ256rr, X86::VCVT2PS2PHXZ256rmb, TB_BCAST_SS},
   {X86::VCVT2PS2PHXZrr, X86::VCVT2PS2PHXZrmb, TB_BCAST_SS},
@@ -7892,33 +7904,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VCVTDQ2PSZ128rrkz, X86::VCVTDQ2PSZ128rmbkz, TB_BCAST_D},
   {X86::VCVTDQ2PSZ256rrkz, X86::VCVTDQ2PSZ256rmbkz, TB_BCAST_D},
   {X86::VCVTDQ2PSZrrkz, X86::VCVTDQ2PSZrmbkz, TB_BCAST_D},
-  {X86::VCVTNE2PH2BF8SZ128rr, X86::VCVTNE2PH2BF8SZ128rmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8SZ256rr, X86::VCVTNE2PH2BF8SZ256rmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8SZrr, X86::VCVTNE2PH2BF8SZrmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8Z128rr, X86::VCVTNE2PH2BF8Z128rmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8Z256rr, X86::VCVTNE2PH2BF8Z256rmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8Zrr, X86::VCVTNE2PH2BF8Zrmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8SZ128rr, X86::VCVTNE2PH2HF8SZ128rmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8SZ256rr, X86::VCVTNE2PH2HF8SZ256rmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8SZrr, X86::VCVTNE2PH2HF8SZrmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8Z128rr, X86::VCVTNE2PH2HF8Z128rmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8Z256rr, X86::VCVTNE2PH2HF8Z256rmb, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8Zrr, X86::VCVTNE2PH2HF8Zrmb, TB_BCAST_SH},
   {X86::VCVTNE2PS2BF16Z128rr, X86::VCVTNE2PS2BF16Z128rmb, TB_BCAST_SS},
   {X86::VCVTNE2PS2BF16Z256rr, X86::VCVTNE2PS2BF16Z256rmb, TB_BCAST_SS},
   {X86::VCVTNE2PS2BF16Zrr, X86::VCVTNE2PS2BF16Zrmb, TB_BCAST_SS},
-  {X86::VCVTNEPH2BF8SZ128rrkz, X86::VCVTNEPH2BF8SZ128rmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8SZ256rrkz, X86::VCVTNEPH2BF8SZ256rmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8SZrrkz, X86::VCVTNEPH2BF8SZrmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8Z128rrkz, X86::VCVTNEPH2BF8Z128rmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8Z256rrkz, X86::VCVTNEPH2BF8Z256rmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8Zrrkz, X86::VCVTNEPH2BF8Zrmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8SZ128rrkz, X86::VCVTNEPH2HF8SZ128rmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8SZ256rrkz, X86::VCVTNEPH2HF8SZ256rmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8SZrrkz, X86::VCVTNEPH2HF8SZrmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8Z128rrkz, X86::VCVTNEPH2HF8Z128rmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8Z256rrkz, X86::VCVTNEPH2HF8Z256rmbkz, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8Zrrkz, X86::VCVTNEPH2HF8Zrmbkz, TB_BCAST_SH},
   {X86::VCVTNEPS2BF16Z128rrkz, X86::VCVTNEPS2BF16Z128rmbkz, TB_BCAST_SS},
   {X86::VCVTNEPS2BF16Z256rrkz, X86::VCVTNEPS2BF16Z256rmbkz, TB_BCAST_SS},
   {X86::VCVTNEPS2BF16Zrrkz, X86::VCVTNEPS2BF16Zrmbkz, TB_BCAST_SS},
@@ -7940,9 +7928,21 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VCVTPD2UQQZ128rrkz, X86::VCVTPD2UQQZ128rmbkz, TB_BCAST_SD},
   {X86::VCVTPD2UQQZ256rrkz, X86::VCVTPD2UQQZ256rmbkz, TB_BCAST_SD},
   {X86::VCVTPD2UQQZrrkz, X86::VCVTPD2UQQZrmbkz, TB_BCAST_SD},
+  {X86::VCVTPH2BF8SZ128rrkz, X86::VCVTPH2BF8SZ128rmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2BF8SZ256rrkz, X86::VCVTPH2BF8SZ256rmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2BF8SZrrkz, X86::VCVTPH2BF8SZrmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2BF8Z128rrkz, X86::VCVTPH2BF8Z128rmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2BF8Z256rrkz, X86::VCVTPH2BF8Z256rmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2BF8Zrrkz, X86::VCVTPH2BF8Zrmbkz, TB_BCAST_SH},
   {X86::VCVTPH2DQZ128rrkz, X86::VCVTPH2DQZ128rmbkz, TB_BCAST_SH},
   {X86::VCVTPH2DQZ256rrkz, X86::VCVTPH2DQZ256rmbkz, TB_BCAST_SH},
   {X86::VCVTPH2DQZrrkz, X86::VCVTPH2DQZrmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2HF8SZ128rrkz, X86::VCVTPH2HF8SZ128rmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2HF8SZ256rrkz, X86::VCVTPH2HF8SZ256rmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2HF8SZrrkz, X86::VCVTPH2HF8SZrmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2HF8Z128rrkz, X86::VCVTPH2HF8Z128rmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2HF8Z256rrkz, X86::VCVTPH2HF8Z256rmbkz, TB_BCAST_SH},
+  {X86::VCVTPH2HF8Zrrkz, X86::VCVTPH2HF8Zrmbkz, TB_BCAST_SH},
   {X86::VCVTPH2IBSZ128rrkz, X86::VCVTPH2IBSZ128rmbkz, TB_BCAST_SH},
   {X86::VCVTPH2IBSZ256rrkz, X86::VCVTPH2IBSZ256rmbkz, TB_BCAST_SH},
   {X86::VCVTPH2IBSZrrkz, X86::VCVTPH2IBSZrmbkz, TB_BCAST_SH},
@@ -8111,9 +8111,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VCVTW2PHZ128rrkz, X86::VCVTW2PHZ128rmbkz, TB_BCAST_W},
   {X86::VCVTW2PHZ256rrkz, X86::VCVTW2PHZ256rmbkz, TB_BCAST_W},
   {X86::VCVTW2PHZrrkz, X86::VCVTW2PHZrmbkz, TB_BCAST_W},
-  {X86::VDIVNEPBF16Z128rr, X86::VDIVNEPBF16Z128rmb, TB_BCAST_SH},
-  {X86::VDIVNEPBF16Z256rr, X86::VDIVNEPBF16Z256rmb, TB_BCAST_SH},
-  {X86::VDIVNEPBF16Zrr, X86::VDIVNEPBF16Zrmb, TB_BCAST_SH},
+  {X86::VDIVBF16Z128rr, X86::VDIVBF16Z128rmb, TB_BCAST_SH},
+  {X86::VDIVBF16Z256rr, X86::VDIVBF16Z256rmb, TB_BCAST_SH},
+  {X86::VDIVBF16Zrr, X86::VDIVBF16Zrmb, TB_BCAST_SH},
   {X86::VDIVPDZ128rr, X86::VDIVPDZ128rmb, TB_BCAST_SD},
   {X86::VDIVPDZ256rr, X86::VDIVPDZ256rmb, TB_BCAST_SD},
   {X86::VDIVPDZrr, X86::VDIVPDZrmb, TB_BCAST_SD},
@@ -8131,9 +8131,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VFMULCPHZ128rr, X86::VFMULCPHZ128rmb, TB_BCAST_SS},
   {X86::VFMULCPHZ256rr, X86::VFMULCPHZ256rmb, TB_BCAST_SS},
   {X86::VFMULCPHZrr, X86::VFMULCPHZrmb, TB_BCAST_SS},
-  {X86::VFPCLASSPBF16Z128rik, X86::VFPCLASSPBF16Z128mbik, TB_BCAST_SH},
-  {X86::VFPCLASSPBF16Z256rik, X86::VFPCLASSPBF16Z256mbik, TB_BCAST_SH},
-  {X86::VFPCLASSPBF16Zrik, X86::VFPCLASSPBF16Zmbik, TB_BCAST_SH},
+  {X86::VFPCLASSBF16Z128rik, X86::VFPCLASSBF16Z128mbik, TB_BCAST_SH},
+  {X86::VFPCLASSBF16Z256rik, X86::VFPCLASSBF16Z256mbik, TB_BCAST_SH},
+  {X86::VFPCLASSBF16Zrik, X86::VFPCLASSBF16Zmbik, TB_BCAST_SH},
   {X86::VFPCLASSPDZ128rik, X86::VFPCLASSPDZ128mbik, TB_BCAST_SD},
   {X86::VFPCLASSPDZ256rik, X86::VFPCLASSPDZ256mbik, TB_BCAST_SD},
   {X86::VFPCLASSPDZrik, X86::VFPCLASSPDZmbik, TB_BCAST_SD},
@@ -8143,9 +8143,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VFPCLASSPSZ128rik, X86::VFPCLASSPSZ128mbik, TB_BCAST_SS},
   {X86::VFPCLASSPSZ256rik, X86::VFPCLASSPSZ256mbik, TB_BCAST_SS},
   {X86::VFPCLASSPSZrik, X86::VFPCLASSPSZmbik, TB_BCAST_SS},
-  {X86::VGETEXPPBF16Z128rkz, X86::VGETEXPPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VGETEXPPBF16Z256rkz, X86::VGETEXPPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VGETEXPPBF16Zrkz, X86::VGETEXPPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VGETEXPBF16Z128rkz, X86::VGETEXPBF16Z128mbkz, TB_BCAST_SH},
+  {X86::VGETEXPBF16Z256rkz, X86::VGETEXPBF16Z256mbkz, TB_BCAST_SH},
+  {X86::VGETEXPBF16Zrkz, X86::VGETEXPBF16Zmbkz, TB_BCAST_SH},
   {X86::VGETEXPPDZ128rkz, X86::VGETEXPPDZ128mbkz, TB_BCAST_SD},
   {X86::VGETEXPPDZ256rkz, X86::VGETEXPPDZ256mbkz, TB_BCAST_SD},
   {X86::VGETEXPPDZrkz, X86::VGETEXPPDZmbkz, TB_BCAST_SD},
@@ -8155,9 +8155,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VGETEXPPSZ128rkz, X86::VGETEXPPSZ128mbkz, TB_BCAST_SS},
   {X86::VGETEXPPSZ256rkz, X86::VGETEXPPSZ256mbkz, TB_BCAST_SS},
   {X86::VGETEXPPSZrkz, X86::VGETEXPPSZmbkz, TB_BCAST_SS},
-  {X86::VGETMANTPBF16Z128rrikz, X86::VGETMANTPBF16Z128rmbikz, TB_BCAST_SH},
-  {X86::VGETMANTPBF16Z256rrikz, X86::VGETMANTPBF16Z256rmbikz, TB_BCAST_SH},
-  {X86::VGETMANTPBF16Zrrikz, X86::VGETMANTPBF16Zrmbikz, TB_BCAST_SH},
+  {X86::VGETMANTBF16Z128rrikz, X86::VGETMANTBF16Z128rmbikz, TB_BCAST_SH},
+  {X86::VGETMANTBF16Z256rrikz, X86::VGETMANTBF16Z256rmbikz, TB_BCAST_SH},
+  {X86::VGETMANTBF16Zrrikz, X86::VGETMANTBF16Zrmbikz, TB_BCAST_SH},
   {X86::VGETMANTPDZ128rrikz, X86::VGETMANTPDZ128rmbikz, TB_BCAST_SD},
   {X86::VGETMANTPDZ256rrikz, X86::VGETMANTPDZ256rmbikz, TB_BCAST_SD},
   {X86::VGETMANTPDZrrikz, X86::VGETMANTPDZrmbikz, TB_BCAST_SD},
@@ -8173,6 +8173,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VGF2P8AFFINEQBZ128rri, X86::VGF2P8AFFINEQBZ128rmbi, TB_BCAST_Q},
   {X86::VGF2P8AFFINEQBZ256rri, X86::VGF2P8AFFINEQBZ256rmbi, TB_BCAST_Q},
   {X86::VGF2P8AFFINEQBZrri, X86::VGF2P8AFFINEQBZrmbi, TB_BCAST_Q},
+  {X86::VMAXBF16Z128rr, X86::VMAXBF16Z128rmb, TB_BCAST_SH},
+  {X86::VMAXBF16Z256rr, X86::VMAXBF16Z256rmb, TB_BCAST_SH},
+  {X86::VMAXBF16Zrr, X86::VMAXBF16Zrmb, TB_BCAST_SH},
   {X86::VMAXCPDZ128rr, X86::VMAXCPDZ128rmb, TB_BCAST_SD},
   {X86::VMAXCPDZ256rr, X86::VMAXCPDZ256rmb, TB_BCAST_SD},
   {X86::VMAXCPDZrr, X86::VMAXCPDZrmb, TB_BCAST_SD},
@@ -8182,9 +8185,6 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VMAXCPSZ128rr, X86::VMAXCPSZ128rmb, TB_BCAST_SS},
   {X86::VMAXCPSZ256rr, X86::VMAXCPSZ256rmb, TB_BCAST_SS},
   {X86::VMAXCPSZrr, X86::VMAXCPSZrmb, TB_BCAST_SS},
-  {X86::VMAXPBF16Z128rr, X86::VMAXPBF16Z128rmb, TB_BCAST_SH},
-  {X86::VMAXPBF16Z256rr, X86::VMAXPBF16Z256rmb, TB_BCAST_SH},
-  {X86::VMAXPBF16Zrr, X86::VMAXPBF16Zrmb, TB_BCAST_SH},
   {X86::VMAXPDZ128rr, X86::VMAXPDZ128rmb, TB_BCAST_SD},
   {X86::VMAXPDZ256rr, X86::VMAXPDZ256rmb, TB_BCAST_SD},
   {X86::VMAXPDZrr, X86::VMAXPDZrmb, TB_BCAST_SD},
@@ -8194,6 +8194,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VMAXPSZ128rr, X86::VMAXPSZ128rmb, TB_BCAST_SS},
   {X86::VMAXPSZ256rr, X86::VMAXPSZ256rmb, TB_BCAST_SS},
   {X86::VMAXPSZrr, X86::VMAXPSZrmb, TB_BCAST_SS},
+  {X86::VMINBF16Z128rr, X86::VMINBF16Z128rmb, TB_BCAST_SH},
+  {X86::VMINBF16Z256rr, X86::VMINBF16Z256rmb, TB_BCAST_SH},
+  {X86::VMINBF16Zrr, X86::VMINBF16Zrmb, TB_BCAST_SH},
   {X86::VMINCPDZ128rr, X86::VMINCPDZ128rmb, TB_BCAST_SD},
   {X86::VMINCPDZ256rr, X86::VMINCPDZ256rmb, TB_BCAST_SD},
   {X86::VMINCPDZrr, X86::VMINCPDZrmb, TB_BCAST_SD},
@@ -8215,9 +8218,6 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VMINMAXPSZ128rri, X86::VMINMAXPSZ128rmbi, TB_BCAST_SS},
   {X86::VMINMAXPSZ256rri, X86::VMINMAXPSZ256rmbi, TB_BCAST_SS},
   {X86::VMINMAXPSZrri, X86::VMINMAXPSZrmbi, TB_BCAST_SS},
-  {X86::VMINPBF16Z128rr, X86::VMINPBF16Z128rmb, TB_BCAST_SH},
-  {X86::VMINPBF16Z256rr, X86::VMINPBF16Z256rmb, TB_BCAST_SH},
-  {X86::VMINPBF16Zrr, X86::VMINPBF16Zrmb, TB_BCAST_SH},
   {X86::VMINPDZ128rr, X86::VMINPDZ128rmb, TB_BCAST_SD},
   {X86::VMINPDZ256rr, X86::VMINPDZ256rmb, TB_BCAST_SD},
   {X86::VMINPDZrr, X86::VMINPDZrmb, TB_BCAST_SD},
@@ -8227,9 +8227,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VMINPSZ128rr, X86::VMINPSZ128rmb, TB_BCAST_SS},
   {X86::VMINPSZ256rr, X86::VMINPSZ256rmb, TB_BCAST_SS},
   {X86::VMINPSZrr, X86::VMINPSZrmb, TB_BCAST_SS},
-  {X86::VMULNEPBF16Z128rr, X86::VMULNEPBF16Z128rmb, TB_BCAST_SH},
-  {X86::VMULNEPBF16Z256rr, X86::VMULNEPBF16Z256rmb, TB_BCAST_SH},
-  {X86::VMULNEPBF16Zrr, X86::VMULNEPBF16Zrmb, TB_BCAST_SH},
+  {X86::VMULBF16Z128rr, X86::VMULBF16Z128rmb, TB_BCAST_SH},
+  {X86::VMULBF16Z256rr, X86::VMULBF16Z256rmb, TB_BCAST_SH},
+  {X86::VMULBF16Zrr, X86::VMULBF16Zrmb, TB_BCAST_SH},
   {X86::VMULPDZ128rr, X86::VMULPDZ128rmb, TB_BCAST_SD},
   {X86::VMULPDZ256rr, X86::VMULPDZ256rmb, TB_BCAST_SD},
   {X86::VMULPDZrr, X86::VMULPDZrmb, TB_BCAST_SD},
@@ -8523,15 +8523,15 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VRCP14PSZrkz, X86::VRCP14PSZmbkz, TB_BCAST_SS},
   {X86::VRCP28PDZrkz, X86::VRCP28PDZmbkz, TB_BCAST_SD},
   {X86::VRCP28PSZrkz, X86::VRCP28PSZmbkz, TB_BCAST_SS},
-  {X86::VRCPPBF16Z128rkz, X86::VRCPPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VRCPPBF16Z256rkz, X86::VRCPPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VRCPPBF16Zrkz, X86::VRCPPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VRCPBF16Z128rkz, X86::VRCPBF16Z128mbkz, TB_BCAST_SH},
+  {X86::VRCPBF16Z256rkz, X86::VRCPBF16Z256mbkz, TB_BCAST_SH},
+  {X86::VRCPBF16Zrkz, X86::VRCPBF16Zmbkz, TB_BCAST_SH},
   {X86::VRCPPHZ128rkz, X86::VRCPPHZ128mbkz, TB_BCAST_SH},
   {X86::VRCPPHZ256rkz, X86::VRCPPHZ256mbkz, TB_BCAST_SH},
   {X86::VRCPPHZrkz, X86::VRCPPHZmbkz, TB_BCAST_SH},
-  {X86::VREDUCENEPBF16Z128rrikz, X86::VREDUCENEPBF16Z128rmbikz, TB_BCAST_SH},
-  {X86::VREDUCENEPBF16Z256rrikz, X86::VREDUCENEPBF16Z256rmbikz, TB_BCAST_SH},
-  {X86::VREDUCENEPBF16Zrrikz, X86::VREDUCENEPBF16Zrmbikz, TB_BCAST_SH},
+  {X86::VREDUCEBF16Z128rrikz, X86::VREDUCEBF16Z128rmbikz, TB_BCAST_SH},
+  {X86::VREDUCEBF16Z256rrikz, X86::VREDUCEBF16Z256rmbikz, TB_BCAST_SH},
+  {X86::VREDUCEBF16Zrrikz, X86::VREDUCEBF16Zrmbikz, TB_BCAST_SH},
   {X86::VREDUCEPDZ128rrikz, X86::VREDUCEPDZ128rmbikz, TB_BCAST_SD},
   {X86::VREDUCEPDZ256rrikz, X86::VREDUCEPDZ256rmbikz, TB_BCAST_SD},
   {X86::VREDUCEPDZrrikz, X86::VREDUCEPDZrmbikz, TB_BCAST_SD},
@@ -8541,9 +8541,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VREDUCEPSZ128rrikz, X86::VREDUCEPSZ128rmbikz, TB_BCAST_SS},
   {X86::VREDUCEPSZ256rrikz, X86::VREDUCEPSZ256rmbikz, TB_BCAST_SS},
   {X86::VREDUCEPSZrrikz, X86::VREDUCEPSZrmbikz, TB_BCAST_SS},
-  {X86::VRNDSCALENEPBF16Z128rrikz, X86::VRNDSCALENEPBF16Z128rmbikz, TB_BCAST_SH},
-  {X86::VRNDSCALENEPBF16Z256rrikz, X86::VRNDSCALENEPBF16Z256rmbikz, TB_BCAST_SH},
-  {X86::VRNDSCALENEPBF16Zrrikz, X86::VRNDSCALENEPBF16Zrmbikz, TB_BCAST_SH},
+  {X86::VRNDSCALEBF16Z128rrikz, X86::VRNDSCALEBF16Z128rmbikz, TB_BCAST_SH},
+  {X86::VRNDSCALEBF16Z256rrikz, X86::VRNDSCALEBF16Z256rmbikz, TB_BCAST_SH},
+  {X86::VRNDSCALEBF16Zrrikz, X86::VRNDSCALEBF16Zrmbikz, TB_BCAST_SH},
   {X86::VRNDSCALEPDZ128rrikz, X86::VRNDSCALEPDZ128rmbikz, TB_BCAST_SD},
   {X86::VRNDSCALEPDZ256rrikz, X86::VRNDSCALEPDZ256rmbikz, TB_BCAST_SD},
   {X86::VRNDSCALEPDZrrikz, X86::VRNDSCALEPDZrmbikz, TB_BCAST_SD},
@@ -8561,15 +8561,15 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VRSQRT14PSZrkz, X86::VRSQRT14PSZmbkz, TB_BCAST_SS},
   {X86::VRSQRT28PDZrkz, X86::VRSQRT28PDZmbkz, TB_BCAST_SD},
   {X86::VRSQRT28PSZrkz, X86::VRSQRT28PSZmbkz, TB_BCAST_SS},
-  {X86::VRSQRTPBF16Z128rkz, X86::VRSQRTPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VRSQRTPBF16Z256rkz, X86::VRSQRTPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VRSQRTPBF16Zrkz, X86::VRSQRTPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VRSQRTBF16Z128rkz, X86::VRSQRTBF16Z128mbkz, TB_BCAST_SH},
+  {X86::VRSQRTBF16Z256rkz, X86::VRSQRTBF16Z256mbkz, TB_BCAST_SH},
+  {X86::VRSQRTBF16Zrkz, X86::VRSQRTBF16Zmbkz, TB_BCAST_SH},
   {X86::VRSQRTPHZ128rkz, X86::VRSQRTPHZ128mbkz, TB_BCAST_SH},
   {X86::VRSQRTPHZ256rkz, X86::VRSQRTPHZ256mbkz, TB_BCAST_SH},
   {X86::VRSQRTPHZrkz, X86::VRSQRTPHZmbkz, TB_BCAST_SH},
-  {X86::VSCALEFPBF16Z128rr, X86::VSCALEFPBF16Z128rmb, TB_BCAST_SH},
-  {X86::VSCALEFPBF16Z256rr, X86::VSCALEFPBF16Z256rmb, TB_BCAST_SH},
-  {X86::VSCALEFPBF16Zrr, X86::VSCALEFPBF16Zrmb, TB_BCAST_SH},
+  {X86::VSCALEFBF16Z128rr, X86::VSCALEFBF16Z128rmb, TB_BCAST_SH},
+  {X86::VSCALEFBF16Z256rr, X86::VSCALEFBF16Z256rmb, TB_BCAST_SH},
+  {X86::VSCALEFBF16Zrr, X86::VSCALEFBF16Zrmb, TB_BCAST_SH},
   {X86::VSCALEFPDZ128rr, X86::VSCALEFPDZ128rmb, TB_BCAST_SD},
   {X86::VSCALEFPDZ256rr, X86::VSCALEFPDZ256rmb, TB_BCAST_SD},
   {X86::VSCALEFPDZrr, X86::VSCALEFPDZrmb, TB_BCAST_SD},
@@ -8593,9 +8593,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VSHUFPSZ128rri, X86::VSHUFPSZ128rmbi, TB_BCAST_SS},
   {X86::VSHUFPSZ256rri, X86::VSHUFPSZ256rmbi, TB_BCAST_SS},
   {X86::VSHUFPSZrri, X86::VSHUFPSZrmbi, TB_BCAST_SS},
-  {X86::VSQRTNEPBF16Z128rkz, X86::VSQRTNEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VSQRTNEPBF16Z256rkz, X86::VSQRTNEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VSQRTNEPBF16Zrkz, X86::VSQRTNEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VSQRTBF16Z128rkz, X86::VSQRTBF16Z128mbkz, TB_BCAST_SH},
+  {X86::VSQRTBF16Z256rkz, X86::VSQRTBF16Z256mbkz, TB_BCAST_SH},
+  {X86::VSQRTBF16Zrkz, X86::VSQRTBF16Zmbkz, TB_BCAST_SH},
   {X86::VSQRTPDZ128rkz, X86::VSQRTPDZ128mbkz, TB_BCAST_SD},
   {X86::VSQRTPDZ256rkz, X86::VSQRTPDZ256mbkz, TB_BCAST_SD},
   {X86::VSQRTPDZrkz, X86::VSQRTPDZmbkz, TB_BCAST_SD},
@@ -8605,9 +8605,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
   {X86::VSQRTPSZ128rkz, X86::VSQRTPSZ128mbkz, TB_BCAST_SS},
   {X86::VSQRTPSZ256rkz, X86::VSQRTPSZ256mbkz, TB_BCAST_SS},
   {X86::VSQRTPSZrkz, X86::VSQRTPSZmbkz, TB_BCAST_SS},
-  {X86::VSUBNEPBF16Z128rr, X86::VSUBNEPBF16Z128rmb, TB_BCAST_SH},
-  {X86::VSUBNEPBF16Z256rr, X86::VSUBNEPBF16Z256rmb, TB_BCAST_SH},
-  {X86::VSUBNEPBF16Zrr, X86::VSUBNEPBF16Zrmb, TB_BCAST_SH},
+  {X86::VSUBBF16Z128rr, X86::VSUBBF16Z128rmb, TB_BCAST_SH},
+  {X86::VSUBBF16Z256rr, X86::VSUBBF16Z256rmb, TB_BCAST_SH},
+  {X86::VSUBBF16Zrr, X86::VSUBBF16Zrmb, TB_BCAST_SH},
   {X86::VSUBPDZ128rr, X86::VSUBPDZ128rmb, TB_BCAST_SD},
   {X86::VSUBPDZ256rr, X86::VSUBPDZ256rmb, TB_BCAST_SD},
   {X86::VSUBPDZrr, X86::VSUBPDZrmb, TB_BCAST_SD},
@@ -8638,9 +8638,9 @@ static const X86FoldTableEntry BroadcastTable2[] = {
 };
 
 static const X86FoldTableEntry BroadcastTable3[] = {
-  {X86::VADDNEPBF16Z128rrkz, X86::VADDNEPBF16Z128rmbkz, TB_BCAST_SH},
-  {X86::VADDNEPBF16Z256rrkz, X86::VADDNEPBF16Z256rmbkz, TB_BCAST_SH},
-  {X86::VADDNEPBF16Zrrkz, X86::VADDNEPBF16Zrmbkz, TB_BCAST_SH},
+  {X86::VADDBF16Z128rrkz, X86::VADDBF16Z128rmbkz, TB_BCAST_SH},
+  {X86::VADDBF16Z256rrkz, X86::VADDBF16Z256rmbkz, TB_BCAST_SH},
+  {X86::VADDBF16Zrrkz, X86::VADDBF16Zrmbkz, TB_BCAST_SH},
   {X86::VADDPDZ128rrkz, X86::VADDPDZ128rmbkz, TB_BCAST_SD},
   {X86::VADDPDZ256rrkz, X86::VADDPDZ256rmbkz, TB_BCAST_SD},
   {X86::VADDPDZrrkz, X86::VADDPDZrmbkz, TB_BCAST_SD},
@@ -8674,9 +8674,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VBLENDMPSZ128rrk, X86::VBLENDMPSZ128rmbk, TB_BCAST_SS},
   {X86::VBLENDMPSZ256rrk, X86::VBLENDMPSZ256rmbk, TB_BCAST_SS},
   {X86::VBLENDMPSZrrk, X86::VBLENDMPSZrmbk, TB_BCAST_SS},
-  {X86::VCMPPBF16Z128rrik, X86::VCMPPBF16Z128rmbik, TB_BCAST_SH},
-  {X86::VCMPPBF16Z256rrik, X86::VCMPPBF16Z256rmbik, TB_BCAST_SH},
-  {X86::VCMPPBF16Zrrik, X86::VCMPPBF16Zrmbik, TB_BCAST_SH},
+  {X86::VCMPBF16Z128rrik, X86::VCMPBF16Z128rmbik, TB_BCAST_SH},
+  {X86::VCMPBF16Z256rrik, X86::VCMPBF16Z256rmbik, TB_BCAST_SH},
+  {X86::VCMPBF16Zrrik, X86::VCMPBF16Zrmbik, TB_BCAST_SH},
   {X86::VCMPPDZ128rrik, X86::VCMPPDZ128rmbik, TB_BCAST_SD},
   {X86::VCMPPDZ256rrik, X86::VCMPPDZ256rmbik, TB_BCAST_SD},
   {X86::VCMPPDZrrik, X86::VCMPPDZrmbik, TB_BCAST_SD},
@@ -8686,6 +8686,18 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VCMPPSZ128rrik, X86::VCMPPSZ128rmbik, TB_BCAST_SS},
   {X86::VCMPPSZ256rrik, X86::VCMPPSZ256rmbik, TB_BCAST_SS},
   {X86::VCMPPSZrrik, X86::VCMPPSZrmbik, TB_BCAST_SS},
+  {X86::VCVT2PH2BF8SZ128rrkz, X86::VCVT2PH2BF8SZ128rmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8SZ256rrkz, X86::VCVT2PH2BF8SZ256rmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8SZrrkz, X86::VCVT2PH2BF8SZrmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8Z128rrkz, X86::VCVT2PH2BF8Z128rmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8Z256rrkz, X86::VCVT2PH2BF8Z256rmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8Zrrkz, X86::VCVT2PH2BF8Zrmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8SZ128rrkz, X86::VCVT2PH2HF8SZ128rmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8SZ256rrkz, X86::VCVT2PH2HF8SZ256rmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8SZrrkz, X86::VCVT2PH2HF8SZrmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8Z128rrkz, X86::VCVT2PH2HF8Z128rmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8Z256rrkz, X86::VCVT2PH2HF8Z256rmbkz, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8Zrrkz, X86::VCVT2PH2HF8Zrmbkz, TB_BCAST_SH},
   {X86::VCVT2PS2PHXZ128rrkz, X86::VCVT2PS2PHXZ128rmbkz, TB_BCAST_SS},
   {X86::VCVT2PS2PHXZ256rrkz, X86::VCVT2PS2PHXZ256rmbkz, TB_BCAST_SS},
   {X86::VCVT2PS2PHXZrrkz, X86::VCVT2PS2PHXZrmbkz, TB_BCAST_SS},
@@ -8716,33 +8728,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VCVTDQ2PSZ128rrk, X86::VCVTDQ2PSZ128rmbk, TB_BCAST_D},
   {X86::VCVTDQ2PSZ256rrk, X86::VCVTDQ2PSZ256rmbk, TB_BCAST_D},
   {X86::VCVTDQ2PSZrrk, X86::VCVTDQ2PSZrmbk, TB_BCAST_D},
-  {X86::VCVTNE2PH2BF8SZ128rrkz, X86::VCVTNE2PH2BF8SZ128rmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8SZ256rrkz, X86::VCVTNE2PH2BF8SZ256rmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8SZrrkz, X86::VCVTNE2PH2BF8SZrmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8Z128rrkz, X86::VCVTNE2PH2BF8Z128rmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8Z256rrkz, X86::VCVTNE2PH2BF8Z256rmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8Zrrkz, X86::VCVTNE2PH2BF8Zrmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8SZ128rrkz, X86::VCVTNE2PH2HF8SZ128rmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8SZ256rrkz, X86::VCVTNE2PH2HF8SZ256rmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8SZrrkz, X86::VCVTNE2PH2HF8SZrmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8Z128rrkz, X86::VCVTNE2PH2HF8Z128rmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8Z256rrkz, X86::VCVTNE2PH2HF8Z256rmbkz, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8Zrrkz, X86::VCVTNE2PH2HF8Zrmbkz, TB_BCAST_SH},
   {X86::VCVTNE2PS2BF16Z128rrkz, X86::VCVTNE2PS2BF16Z128rmbkz, TB_BCAST_SS},
   {X86::VCVTNE2PS2BF16Z256rrkz, X86::VCVTNE2PS2BF16Z256rmbkz, TB_BCAST_SS},
   {X86::VCVTNE2PS2BF16Zrrkz, X86::VCVTNE2PS2BF16Zrmbkz, TB_BCAST_SS},
-  {X86::VCVTNEPH2BF8SZ128rrk, X86::VCVTNEPH2BF8SZ128rmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8SZ256rrk, X86::VCVTNEPH2BF8SZ256rmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8SZrrk, X86::VCVTNEPH2BF8SZrmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8Z128rrk, X86::VCVTNEPH2BF8Z128rmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8Z256rrk, X86::VCVTNEPH2BF8Z256rmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2BF8Zrrk, X86::VCVTNEPH2BF8Zrmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8SZ128rrk, X86::VCVTNEPH2HF8SZ128rmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8SZ256rrk, X86::VCVTNEPH2HF8SZ256rmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8SZrrk, X86::VCVTNEPH2HF8SZrmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8Z128rrk, X86::VCVTNEPH2HF8Z128rmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8Z256rrk, X86::VCVTNEPH2HF8Z256rmbk, TB_BCAST_SH},
-  {X86::VCVTNEPH2HF8Zrrk, X86::VCVTNEPH2HF8Zrmbk, TB_BCAST_SH},
   {X86::VCVTNEPS2BF16Z128rrk, X86::VCVTNEPS2BF16Z128rmbk, TB_BCAST_SS},
   {X86::VCVTNEPS2BF16Z256rrk, X86::VCVTNEPS2BF16Z256rmbk, TB_BCAST_SS},
   {X86::VCVTNEPS2BF16Zrrk, X86::VCVTNEPS2BF16Zrmbk, TB_BCAST_SS},
@@ -8764,9 +8752,21 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VCVTPD2UQQZ128rrk, X86::VCVTPD2UQQZ128rmbk, TB_BCAST_SD},
   {X86::VCVTPD2UQQZ256rrk, X86::VCVTPD2UQQZ256rmbk, TB_BCAST_SD},
   {X86::VCVTPD2UQQZrrk, X86::VCVTPD2UQQZrmbk, TB_BCAST_SD},
+  {X86::VCVTPH2BF8SZ128rrk, X86::VCVTPH2BF8SZ128rmbk, TB_BCAST_SH},
+  {X86::VCVTPH2BF8SZ256rrk, X86::VCVTPH2BF8SZ256rmbk, TB_BCAST_SH},
+  {X86::VCVTPH2BF8SZrrk, X86::VCVTPH2BF8SZrmbk, TB_BCAST_SH},
+  {X86::VCVTPH2BF8Z128rrk, X86::VCVTPH2BF8Z128rmbk, TB_BCAST_SH},
+  {X86::VCVTPH2BF8Z256rrk, X86::VCVTPH2BF8Z256rmbk, TB_BCAST_SH},
+  {X86::VCVTPH2BF8Zrrk, X86::VCVTPH2BF8Zrmbk, TB_BCAST_SH},
   {X86::VCVTPH2DQZ128rrk, X86::VCVTPH2DQZ128rmbk, TB_BCAST_SH},
   {X86::VCVTPH2DQZ256rrk, X86::VCVTPH2DQZ256rmbk, TB_BCAST_SH},
   {X86::VCVTPH2DQZrrk, X86::VCVTPH2DQZrmbk, TB_BCAST_SH},
+  {X86::VCVTPH2HF8SZ128rrk, X86::VCVTPH2HF8SZ128rmbk, TB_BCAST_SH},
+  {X86::VCVTPH2HF8SZ256rrk, X86::VCVTPH2HF8SZ256rmbk, TB_BCAST_SH},
+  {X86::VCVTPH2HF8SZrrk, X86::VCVTPH2HF8SZrmbk, TB_BCAST_SH},
+  {X86::VCVTPH2HF8Z128rrk, X86::VCVTPH2HF8Z128rmbk, TB_BCAST_SH},
+  {X86::VCVTPH2HF8Z256rrk, X86::VCVTPH2HF8Z256rmbk, TB_BCAST_SH},
+  {X86::VCVTPH2HF8Zrrk, X86::VCVTPH2HF8Zrmbk, TB_BCAST_SH},
   {X86::VCVTPH2IBSZ128rrk, X86::VCVTPH2IBSZ128rmbk, TB_BCAST_SH},
   {X86::VCVTPH2IBSZ256rrk, X86::VCVTPH2IBSZ256rmbk, TB_BCAST_SH},
   {X86::VCVTPH2IBSZrrk, X86::VCVTPH2IBSZrmbk, TB_BCAST_SH},
@@ -8935,9 +8935,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VCVTW2PHZ128rrk, X86::VCVTW2PHZ128rmbk, TB_BCAST_W},
   {X86::VCVTW2PHZ256rrk, X86::VCVTW2PHZ256rmbk, TB_BCAST_W},
   {X86::VCVTW2PHZrrk, X86::VCVTW2PHZrmbk, TB_BCAST_W},
-  {X86::VDIVNEPBF16Z128rrkz, X86::VDIVNEPBF16Z128rmbkz, TB_BCAST_SH},
-  {X86::VDIVNEPBF16Z256rrkz, X86::VDIVNEPBF16Z256rmbkz, TB_BCAST_SH},
-  {X86::VDIVNEPBF16Zrrkz, X86::VDIVNEPBF16Zrmbkz, TB_BCAST_SH},
+  {X86::VDIVBF16Z128rrkz, X86::VDIVBF16Z128rmbkz, TB_BCAST_SH},
+  {X86::VDIVBF16Z256rrkz, X86::VDIVBF16Z256rmbkz, TB_BCAST_SH},
+  {X86::VDIVBF16Zrrkz, X86::VDIVBF16Zrmbkz, TB_BCAST_SH},
   {X86::VDIVPDZ128rrkz, X86::VDIVPDZ128rmbkz, TB_BCAST_SD},
   {X86::VDIVPDZ256rrkz, X86::VDIVPDZ256rmbkz, TB_BCAST_SD},
   {X86::VDIVPDZrrkz, X86::VDIVPDZrmbkz, TB_BCAST_SD},
@@ -8967,9 +8967,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFIXUPIMMPSZ128rri, X86::VFIXUPIMMPSZ128rmbi, TB_BCAST_SS},
   {X86::VFIXUPIMMPSZ256rri, X86::VFIXUPIMMPSZ256rmbi, TB_BCAST_SS},
   {X86::VFIXUPIMMPSZrri, X86::VFIXUPIMMPSZrmbi, TB_BCAST_SS},
-  {X86::VFMADD132NEPBF16Z128r, X86::VFMADD132NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFMADD132NEPBF16Z256r, X86::VFMADD132NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFMADD132NEPBF16Zr, X86::VFMADD132NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFMADD132BF16Z128r, X86::VFMADD132BF16Z128mb, TB_BCAST_SH},
+  {X86::VFMADD132BF16Z256r, X86::VFMADD132BF16Z256mb, TB_BCAST_SH},
+  {X86::VFMADD132BF16Zr, X86::VFMADD132BF16Zmb, TB_BCAST_SH},
   {X86::VFMADD132PDZ128r, X86::VFMADD132PDZ128mb, TB_BCAST_SD},
   {X86::VFMADD132PDZ256r, X86::VFMADD132PDZ256mb, TB_BCAST_SD},
   {X86::VFMADD132PDZr, X86::VFMADD132PDZmb, TB_BCAST_SD},
@@ -8979,9 +8979,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFMADD132PSZ128r, X86::VFMADD132PSZ128mb, TB_BCAST_SS},
   {X86::VFMADD132PSZ256r, X86::VFMADD132PSZ256mb, TB_BCAST_SS},
   {X86::VFMADD132PSZr, X86::VFMADD132PSZmb, TB_BCAST_SS},
-  {X86::VFMADD213NEPBF16Z128r, X86::VFMADD213NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFMADD213NEPBF16Z256r, X86::VFMADD213NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFMADD213NEPBF16Zr, X86::VFMADD213NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFMADD213BF16Z128r, X86::VFMADD213BF16Z128mb, TB_BCAST_SH},
+  {X86::VFMADD213BF16Z256r, X86::VFMADD213BF16Z256mb, TB_BCAST_SH},
+  {X86::VFMADD213BF16Zr, X86::VFMADD213BF16Zmb, TB_BCAST_SH},
   {X86::VFMADD213PDZ128r, X86::VFMADD213PDZ128mb, TB_BCAST_SD},
   {X86::VFMADD213PDZ256r, X86::VFMADD213PDZ256mb, TB_BCAST_SD},
   {X86::VFMADD213PDZr, X86::VFMADD213PDZmb, TB_BCAST_SD},
@@ -8991,9 +8991,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFMADD213PSZ128r, X86::VFMADD213PSZ128mb, TB_BCAST_SS},
   {X86::VFMADD213PSZ256r, X86::VFMADD213PSZ256mb, TB_BCAST_SS},
   {X86::VFMADD213PSZr, X86::VFMADD213PSZmb, TB_BCAST_SS},
-  {X86::VFMADD231NEPBF16Z128r, X86::VFMADD231NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFMADD231NEPBF16Z256r, X86::VFMADD231NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFMADD231NEPBF16Zr, X86::VFMADD231NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFMADD231BF16Z128r, X86::VFMADD231BF16Z128mb, TB_BCAST_SH},
+  {X86::VFMADD231BF16Z256r, X86::VFMADD231BF16Z256mb, TB_BCAST_SH},
+  {X86::VFMADD231BF16Zr, X86::VFMADD231BF16Zmb, TB_BCAST_SH},
   {X86::VFMADD231PDZ128r, X86::VFMADD231PDZ128mb, TB_BCAST_SD},
   {X86::VFMADD231PDZ256r, X86::VFMADD231PDZ256mb, TB_BCAST_SD},
   {X86::VFMADD231PDZr, X86::VFMADD231PDZmb, TB_BCAST_SD},
@@ -9033,9 +9033,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFMADDSUB231PSZ128r, X86::VFMADDSUB231PSZ128mb, TB_BCAST_SS},
   {X86::VFMADDSUB231PSZ256r, X86::VFMADDSUB231PSZ256mb, TB_BCAST_SS},
   {X86::VFMADDSUB231PSZr, X86::VFMADDSUB231PSZmb, TB_BCAST_SS},
-  {X86::VFMSUB132NEPBF16Z128r, X86::VFMSUB132NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFMSUB132NEPBF16Z256r, X86::VFMSUB132NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFMSUB132NEPBF16Zr, X86::VFMSUB132NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFMSUB132BF16Z128r, X86::VFMSUB132BF16Z128mb, TB_BCAST_SH},
+  {X86::VFMSUB132BF16Z256r, X86::VFMSUB132BF16Z256mb, TB_BCAST_SH},
+  {X86::VFMSUB132BF16Zr, X86::VFMSUB132BF16Zmb, TB_BCAST_SH},
   {X86::VFMSUB132PDZ128r, X86::VFMSUB132PDZ128mb, TB_BCAST_SD},
   {X86::VFMSUB132PDZ256r, X86::VFMSUB132PDZ256mb, TB_BCAST_SD},
   {X86::VFMSUB132PDZr, X86::VFMSUB132PDZmb, TB_BCAST_SD},
@@ -9045,9 +9045,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFMSUB132PSZ128r, X86::VFMSUB132PSZ128mb, TB_BCAST_SS},
   {X86::VFMSUB132PSZ256r, X86::VFMSUB132PSZ256mb, TB_BCAST_SS},
   {X86::VFMSUB132PSZr, X86::VFMSUB132PSZmb, TB_BCAST_SS},
-  {X86::VFMSUB213NEPBF16Z128r, X86::VFMSUB213NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFMSUB213NEPBF16Z256r, X86::VFMSUB213NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFMSUB213NEPBF16Zr, X86::VFMSUB213NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFMSUB213BF16Z128r, X86::VFMSUB213BF16Z128mb, TB_BCAST_SH},
+  {X86::VFMSUB213BF16Z256r, X86::VFMSUB213BF16Z256mb, TB_BCAST_SH},
+  {X86::VFMSUB213BF16Zr, X86::VFMSUB213BF16Zmb, TB_BCAST_SH},
   {X86::VFMSUB213PDZ128r, X86::VFMSUB213PDZ128mb, TB_BCAST_SD},
   {X86::VFMSUB213PDZ256r, X86::VFMSUB213PDZ256mb, TB_BCAST_SD},
   {X86::VFMSUB213PDZr, X86::VFMSUB213PDZmb, TB_BCAST_SD},
@@ -9057,9 +9057,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFMSUB213PSZ128r, X86::VFMSUB213PSZ128mb, TB_BCAST_SS},
   {X86::VFMSUB213PSZ256r, X86::VFMSUB213PSZ256mb, TB_BCAST_SS},
   {X86::VFMSUB213PSZr, X86::VFMSUB213PSZmb, TB_BCAST_SS},
-  {X86::VFMSUB231NEPBF16Z128r, X86::VFMSUB231NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFMSUB231NEPBF16Z256r, X86::VFMSUB231NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFMSUB231NEPBF16Zr, X86::VFMSUB231NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFMSUB231BF16Z128r, X86::VFMSUB231BF16Z128mb, TB_BCAST_SH},
+  {X86::VFMSUB231BF16Z256r, X86::VFMSUB231BF16Z256mb, TB_BCAST_SH},
+  {X86::VFMSUB231BF16Zr, X86::VFMSUB231BF16Zmb, TB_BCAST_SH},
   {X86::VFMSUB231PDZ128r, X86::VFMSUB231PDZ128mb, TB_BCAST_SD},
   {X86::VFMSUB231PDZ256r, X86::VFMSUB231PDZ256mb, TB_BCAST_SD},
   {X86::VFMSUB231PDZr, X86::VFMSUB231PDZmb, TB_BCAST_SD},
@@ -9099,9 +9099,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFMULCPHZ128rrkz, X86::VFMULCPHZ128rmbkz, TB_BCAST_SS},
   {X86::VFMULCPHZ256rrkz, X86::VFMULCPHZ256rmbkz, TB_BCAST_SS},
   {X86::VFMULCPHZrrkz, X86::VFMULCPHZrmbkz, TB_BCAST_SS},
-  {X86::VFNMADD132NEPBF16Z128r, X86::VFNMADD132NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFNMADD132NEPBF16Z256r, X86::VFNMADD132NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFNMADD132NEPBF16Zr, X86::VFNMADD132NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFNMADD132BF16Z128r, X86::VFNMADD132BF16Z128mb, TB_BCAST_SH},
+  {X86::VFNMADD132BF16Z256r, X86::VFNMADD132BF16Z256mb, TB_BCAST_SH},
+  {X86::VFNMADD132BF16Zr, X86::VFNMADD132BF16Zmb, TB_BCAST_SH},
   {X86::VFNMADD132PDZ128r, X86::VFNMADD132PDZ128mb, TB_BCAST_SD},
   {X86::VFNMADD132PDZ256r, X86::VFNMADD132PDZ256mb, TB_BCAST_SD},
   {X86::VFNMADD132PDZr, X86::VFNMADD132PDZmb, TB_BCAST_SD},
@@ -9111,9 +9111,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFNMADD132PSZ128r, X86::VFNMADD132PSZ128mb, TB_BCAST_SS},
   {X86::VFNMADD132PSZ256r, X86::VFNMADD132PSZ256mb, TB_BCAST_SS},
   {X86::VFNMADD132PSZr, X86::VFNMADD132PSZmb, TB_BCAST_SS},
-  {X86::VFNMADD213NEPBF16Z128r, X86::VFNMADD213NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFNMADD213NEPBF16Z256r, X86::VFNMADD213NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFNMADD213NEPBF16Zr, X86::VFNMADD213NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFNMADD213BF16Z128r, X86::VFNMADD213BF16Z128mb, TB_BCAST_SH},
+  {X86::VFNMADD213BF16Z256r, X86::VFNMADD213BF16Z256mb, TB_BCAST_SH},
+  {X86::VFNMADD213BF16Zr, X86::VFNMADD213BF16Zmb, TB_BCAST_SH},
   {X86::VFNMADD213PDZ128r, X86::VFNMADD213PDZ128mb, TB_BCAST_SD},
   {X86::VFNMADD213PDZ256r, X86::VFNMADD213PDZ256mb, TB_BCAST_SD},
   {X86::VFNMADD213PDZr, X86::VFNMADD213PDZmb, TB_BCAST_SD},
@@ -9123,9 +9123,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFNMADD213PSZ128r, X86::VFNMADD213PSZ128mb, TB_BCAST_SS},
   {X86::VFNMADD213PSZ256r, X86::VFNMADD213PSZ256mb, TB_BCAST_SS},
   {X86::VFNMADD213PSZr, X86::VFNMADD213PSZmb, TB_BCAST_SS},
-  {X86::VFNMADD231NEPBF16Z128r, X86::VFNMADD231NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFNMADD231NEPBF16Z256r, X86::VFNMADD231NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFNMADD231NEPBF16Zr, X86::VFNMADD231NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFNMADD231BF16Z128r, X86::VFNMADD231BF16Z128mb, TB_BCAST_SH},
+  {X86::VFNMADD231BF16Z256r, X86::VFNMADD231BF16Z256mb, TB_BCAST_SH},
+  {X86::VFNMADD231BF16Zr, X86::VFNMADD231BF16Zmb, TB_BCAST_SH},
   {X86::VFNMADD231PDZ128r, X86::VFNMADD231PDZ128mb, TB_BCAST_SD},
   {X86::VFNMADD231PDZ256r, X86::VFNMADD231PDZ256mb, TB_BCAST_SD},
   {X86::VFNMADD231PDZr, X86::VFNMADD231PDZmb, TB_BCAST_SD},
@@ -9135,9 +9135,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFNMADD231PSZ128r, X86::VFNMADD231PSZ128mb, TB_BCAST_SS},
   {X86::VFNMADD231PSZ256r, X86::VFNMADD231PSZ256mb, TB_BCAST_SS},
   {X86::VFNMADD231PSZr, X86::VFNMADD231PSZmb, TB_BCAST_SS},
-  {X86::VFNMSUB132NEPBF16Z128r, X86::VFNMSUB132NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFNMSUB132NEPBF16Z256r, X86::VFNMSUB132NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFNMSUB132NEPBF16Zr, X86::VFNMSUB132NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFNMSUB132BF16Z128r, X86::VFNMSUB132BF16Z128mb, TB_BCAST_SH},
+  {X86::VFNMSUB132BF16Z256r, X86::VFNMSUB132BF16Z256mb, TB_BCAST_SH},
+  {X86::VFNMSUB132BF16Zr, X86::VFNMSUB132BF16Zmb, TB_BCAST_SH},
   {X86::VFNMSUB132PDZ128r, X86::VFNMSUB132PDZ128mb, TB_BCAST_SD},
   {X86::VFNMSUB132PDZ256r, X86::VFNMSUB132PDZ256mb, TB_BCAST_SD},
   {X86::VFNMSUB132PDZr, X86::VFNMSUB132PDZmb, TB_BCAST_SD},
@@ -9147,9 +9147,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFNMSUB132PSZ128r, X86::VFNMSUB132PSZ128mb, TB_BCAST_SS},
   {X86::VFNMSUB132PSZ256r, X86::VFNMSUB132PSZ256mb, TB_BCAST_SS},
   {X86::VFNMSUB132PSZr, X86::VFNMSUB132PSZmb, TB_BCAST_SS},
-  {X86::VFNMSUB213NEPBF16Z128r, X86::VFNMSUB213NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFNMSUB213NEPBF16Z256r, X86::VFNMSUB213NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFNMSUB213NEPBF16Zr, X86::VFNMSUB213NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFNMSUB213BF16Z128r, X86::VFNMSUB213BF16Z128mb, TB_BCAST_SH},
+  {X86::VFNMSUB213BF16Z256r, X86::VFNMSUB213BF16Z256mb, TB_BCAST_SH},
+  {X86::VFNMSUB213BF16Zr, X86::VFNMSUB213BF16Zmb, TB_BCAST_SH},
   {X86::VFNMSUB213PDZ128r, X86::VFNMSUB213PDZ128mb, TB_BCAST_SD},
   {X86::VFNMSUB213PDZ256r, X86::VFNMSUB213PDZ256mb, TB_BCAST_SD},
   {X86::VFNMSUB213PDZr, X86::VFNMSUB213PDZmb, TB_BCAST_SD},
@@ -9159,9 +9159,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFNMSUB213PSZ128r, X86::VFNMSUB213PSZ128mb, TB_BCAST_SS},
   {X86::VFNMSUB213PSZ256r, X86::VFNMSUB213PSZ256mb, TB_BCAST_SS},
   {X86::VFNMSUB213PSZr, X86::VFNMSUB213PSZmb, TB_BCAST_SS},
-  {X86::VFNMSUB231NEPBF16Z128r, X86::VFNMSUB231NEPBF16Z128mb, TB_BCAST_SH},
-  {X86::VFNMSUB231NEPBF16Z256r, X86::VFNMSUB231NEPBF16Z256mb, TB_BCAST_SH},
-  {X86::VFNMSUB231NEPBF16Zr, X86::VFNMSUB231NEPBF16Zmb, TB_BCAST_SH},
+  {X86::VFNMSUB231BF16Z128r, X86::VFNMSUB231BF16Z128mb, TB_BCAST_SH},
+  {X86::VFNMSUB231BF16Z256r, X86::VFNMSUB231BF16Z256mb, TB_BCAST_SH},
+  {X86::VFNMSUB231BF16Zr, X86::VFNMSUB231BF16Zmb, TB_BCAST_SH},
   {X86::VFNMSUB231PDZ128r, X86::VFNMSUB231PDZ128mb, TB_BCAST_SD},
   {X86::VFNMSUB231PDZ256r, X86::VFNMSUB231PDZ256mb, TB_BCAST_SD},
   {X86::VFNMSUB231PDZr, X86::VFNMSUB231PDZmb, TB_BCAST_SD},
@@ -9171,9 +9171,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VFNMSUB231PSZ128r, X86::VFNMSUB231PSZ128mb, TB_BCAST_SS},
   {X86::VFNMSUB231PSZ256r, X86::VFNMSUB231PSZ256mb, TB_BCAST_SS},
   {X86::VFNMSUB231PSZr, X86::VFNMSUB231PSZmb, TB_BCAST_SS},
-  {X86::VGETEXPPBF16Z128rk, X86::VGETEXPPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VGETEXPPBF16Z256rk, X86::VGETEXPPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VGETEXPPBF16Zrk, X86::VGETEXPPBF16Zmbk, TB_BCAST_SH},
+  {X86::VGETEXPBF16Z128rk, X86::VGETEXPBF16Z128mbk, TB_BCAST_SH},
+  {X86::VGETEXPBF16Z256rk, X86::VGETEXPBF16Z256mbk, TB_BCAST_SH},
+  {X86::VGETEXPBF16Zrk, X86::VGETEXPBF16Zmbk, TB_BCAST_SH},
   {X86::VGETEXPPDZ128rk, X86::VGETEXPPDZ128mbk, TB_BCAST_SD},
   {X86::VGETEXPPDZ256rk, X86::VGETEXPPDZ256mbk, TB_BCAST_SD},
   {X86::VGETEXPPDZrk, X86::VGETEXPPDZmbk, TB_BCAST_SD},
@@ -9183,9 +9183,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VGETEXPPSZ128rk, X86::VGETEXPPSZ128mbk, TB_BCAST_SS},
   {X86::VGETEXPPSZ256rk, X86::VGETEXPPSZ256mbk, TB_BCAST_SS},
   {X86::VGETEXPPSZrk, X86::VGETEXPPSZmbk, TB_BCAST_SS},
-  {X86::VGETMANTPBF16Z128rrik, X86::VGETMANTPBF16Z128rmbik, TB_BCAST_SH},
-  {X86::VGETMANTPBF16Z256rrik, X86::VGETMANTPBF16Z256rmbik, TB_BCAST_SH},
-  {X86::VGETMANTPBF16Zrrik, X86::VGETMANTPBF16Zrmbik, TB_BCAST_SH},
+  {X86::VGETMANTBF16Z128rrik, X86::VGETMANTBF16Z128rmbik, TB_BCAST_SH},
+  {X86::VGETMANTBF16Z256rrik, X86::VGETMANTBF16Z256rmbik, TB_BCAST_SH},
+  {X86::VGETMANTBF16Zrrik, X86::VGETMANTBF16Zrmbik, TB_BCAST_SH},
   {X86::VGETMANTPDZ128rrik, X86::VGETMANTPDZ128rmbik, TB_BCAST_SD},
   {X86::VGETMANTPDZ256rrik, X86::VGETMANTPDZ256rmbik, TB_BCAST_SD},
   {X86::VGETMANTPDZrrik, X86::VGETMANTPDZrmbik, TB_BCAST_SD},
@@ -9201,6 +9201,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VGF2P8AFFINEQBZ128rrikz, X86::VGF2P8AFFINEQBZ128rmbikz, TB_BCAST_Q},
   {X86::VGF2P8AFFINEQBZ256rrikz, X86::VGF2P8AFFINEQBZ256rmbikz, TB_BCAST_Q},
   {X86::VGF2P8AFFINEQBZrrikz, X86::VGF2P8AFFINEQBZrmbikz, TB_BCAST_Q},
+  {X86::VMAXBF16Z128rrkz, X86::VMAXBF16Z128rmbkz, TB_BCAST_SH},
+  {X86::VMAXBF16Z256rrkz, X86::VMAXBF16Z256rmbkz, TB_BCAST_SH},
+  {X86::VMAXBF16Zrrkz, X86::VMAXBF16Zrmbkz, TB_BCAST_SH},
   {X86::VMAXCPDZ128rrkz, X86::VMAXCPDZ128rmbkz, TB_BCAST_SD},
   {X86::VMAXCPDZ256rrkz, X86::VMAXCPDZ256rmbkz, TB_BCAST_SD},
   {X86::VMAXCPDZrrkz, X86::VMAXCPDZrmbkz, TB_BCAST_SD},
@@ -9210,9 +9213,6 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VMAXCPSZ128rrkz, X86::VMAXCPSZ128rmbkz, TB_BCAST_SS},
   {X86::VMAXCPSZ256rrkz, X86::VMAXCPSZ256rmbkz, TB_BCAST_SS},
   {X86::VMAXCPSZrrkz, X86::VMAXCPSZrmbkz, TB_BCAST_SS},
-  {X86::VMAXPBF16Z128rrkz, X86::VMAXPBF16Z128rmbkz, TB_BCAST_SH},
-  {X86::VMAXPBF16Z256rrkz, X86::VMAXPBF16Z256rmbkz, TB_BCAST_SH},
-  {X86::VMAXPBF16Zrrkz, X86::VMAXPBF16Zrmbkz, TB_BCAST_SH},
   {X86::VMAXPDZ128rrkz, X86::VMAXPDZ128rmbkz, TB_BCAST_SD},
   {X86::VMAXPDZ256rrkz, X86::VMAXPDZ256rmbkz, TB_BCAST_SD},
   {X86::VMAXPDZrrkz, X86::VMAXPDZrmbkz, TB_BCAST_SD},
@@ -9222,6 +9222,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VMAXPSZ128rrkz, X86::VMAXPSZ128rmbkz, TB_BCAST_SS},
   {X86::VMAXPSZ256rrkz, X86::VMAXPSZ256rmbkz, TB_BCAST_SS},
   {X86::VMAXPSZrrkz, X86::VMAXPSZrmbkz, TB_BCAST_SS},
+  {X86::VMINBF16Z128rrkz, X86::VMINBF16Z128rmbkz, TB_BCAST_SH},
+  {X86::VMINBF16Z256rrkz, X86::VMINBF16Z256rmbkz, TB_BCAST_SH},
+  {X86::VMINBF16Zrrkz, X86::VMINBF16Zrmbkz, TB_BCAST_SH},
   {X86::VMINCPDZ128rrkz, X86::VMINCPDZ128rmbkz, TB_BCAST_SD},
   {X86::VMINCPDZ256rrkz, X86::VMINCPDZ256rmbkz, TB_BCAST_SD},
   {X86::VMINCPDZrrkz, X86::VMINCPDZrmbkz, TB_BCAST_SD},
@@ -9243,9 +9246,6 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VMINMAXPSZ128rrikz, X86::VMINMAXPSZ128rmbikz, TB_BCAST_SS},
   {X86::VMINMAXPSZ256rrikz, X86::VMINMAXPSZ256rmbikz, TB_BCAST_SS},
   {X86::VMINMAXPSZrrikz, X86::VMINMAXPSZrmbikz, TB_BCAST_SS},
-  {X86::VMINPBF16Z128rrkz, X86::VMINPBF16Z128rmbkz, TB_BCAST_SH},
-  {X86::VMINPBF16Z256rrkz, X86::VMINPBF16Z256rmbkz, TB_BCAST_SH},
-  {X86::VMINPBF16Zrrkz, X86::VMINPBF16Zrmbkz, TB_BCAST_SH},
   {X86::VMINPDZ128rrkz, X86::VMINPDZ128rmbkz, TB_BCAST_SD},
   {X86::VMINPDZ256rrkz, X86::VMINPDZ256rmbkz, TB_BCAST_SD},
   {X86::VMINPDZrrkz, X86::VMINPDZrmbkz, TB_BCAST_SD},
@@ -9255,9 +9255,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VMINPSZ128rrkz, X86::VMINPSZ128rmbkz, TB_BCAST_SS},
   {X86::VMINPSZ256rrkz, X86::VMINPSZ256rmbkz, TB_BCAST_SS},
   {X86::VMINPSZrrkz, X86::VMINPSZrmbkz, TB_BCAST_SS},
-  {X86::VMULNEPBF16Z128rrkz, X86::VMULNEPBF16Z128rmbkz, TB_BCAST_SH},
-  {X86::VMULNEPBF16Z256rrkz, X86::VMULNEPBF16Z256rmbkz, TB_BCAST_SH},
-  {X86::VMULNEPBF16Zrrkz, X86::VMULNEPBF16Zrmbkz, TB_BCAST_SH},
+  {X86::VMULBF16Z128rrkz, X86::VMULBF16Z128rmbkz, TB_BCAST_SH},
+  {X86::VMULBF16Z256rrkz, X86::VMULBF16Z256rmbkz, TB_BCAST_SH},
+  {X86::VMULBF16Zrrkz, X86::VMULBF16Zrmbkz, TB_BCAST_SH},
   {X86::VMULPDZ128rrkz, X86::VMULPDZ128rmbkz, TB_BCAST_SD},
   {X86::VMULPDZ256rrkz, X86::VMULPDZ256rmbkz, TB_BCAST_SD},
   {X86::VMULPDZrrkz, X86::VMULPDZrmbkz, TB_BCAST_SD},
@@ -9641,15 +9641,15 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VRCP14PSZrk, X86::VRCP14PSZmbk, TB_BCAST_SS},
   {X86::VRCP28PDZrk, X86::VRCP28PDZmbk, TB_BCAST_SD},
   {X86::VRCP28PSZrk, X86::VRCP28PSZmbk, TB_BCAST_SS},
-  {X86::VRCPPBF16Z128rk, X86::VRCPPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VRCPPBF16Z256rk, X86::VRCPPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VRCPPBF16Zrk, X86::VRCPPBF16Zmbk, TB_BCAST_SH},
+  {X86::VRCPBF16Z128rk, X86::VRCPBF16Z128mbk, TB_BCAST_SH},
+  {X86::VRCPBF16Z256rk, X86::VRCPBF16Z256mbk, TB_BCAST_SH},
+  {X86::VRCPBF16Zrk, X86::VRCPBF16Zmbk, TB_BCAST_SH},
   {X86::VRCPPHZ128rk, X86::VRCPPHZ128mbk, TB_BCAST_SH},
   {X86::VRCPPHZ256rk, X86::VRCPPHZ256mbk, TB_BCAST_SH},
   {X86::VRCPPHZrk, X86::VRCPPHZmbk, TB_BCAST_SH},
-  {X86::VREDUCENEPBF16Z128rrik, X86::VREDUCENEPBF16Z128rmbik, TB_BCAST_SH},
-  {X86::VREDUCENEPBF16Z256rrik, X86::VREDUCENEPBF16Z256rmbik, TB_BCAST_SH},
-  {X86::VREDUCENEPBF16Zrrik, X86::VREDUCENEPBF16Zrmbik, TB_BCAST_SH},
+  {X86::VREDUCEBF16Z128rrik, X86::VREDUCEBF16Z128rmbik, TB_BCAST_SH},
+  {X86::VREDUCEBF16Z256rrik, X86::VREDUCEBF16Z256rmbik, TB_BCAST_SH},
+  {X86::VREDUCEBF16Zrrik, X86::VREDUCEBF16Zrmbik, TB_BCAST_SH},
   {X86::VREDUCEPDZ128rrik, X86::VREDUCEPDZ128rmbik, TB_BCAST_SD},
   {X86::VREDUCEPDZ256rrik, X86::VREDUCEPDZ256rmbik, TB_BCAST_SD},
   {X86::VREDUCEPDZrrik, X86::VREDUCEPDZrmbik, TB_BCAST_SD},
@@ -9659,9 +9659,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VREDUCEPSZ128rrik, X86::VREDUCEPSZ128rmbik, TB_BCAST_SS},
   {X86::VREDUCEPSZ256rrik, X86::VREDUCEPSZ256rmbik, TB_BCAST_SS},
   {X86::VREDUCEPSZrrik, X86::VREDUCEPSZrmbik, TB_BCAST_SS},
-  {X86::VRNDSCALENEPBF16Z128rrik, X86::VRNDSCALENEPBF16Z128rmbik, TB_BCAST_SH},
-  {X86::VRNDSCALENEPBF16Z256rrik, X86::VRNDSCALENEPBF16Z256rmbik, TB_BCAST_SH},
-  {X86::VRNDSCALENEPBF16Zrrik, X86::VRNDSCALENEPBF16Zrmbik, TB_BCAST_SH},
+  {X86::VRNDSCALEBF16Z128rrik, X86::VRNDSCALEBF16Z128rmbik, TB_BCAST_SH},
+  {X86::VRNDSCALEBF16Z256rrik, X86::VRNDSCALEBF16Z256rmbik, TB_BCAST_SH},
+  {X86::VRNDSCALEBF16Zrrik, X86::VRNDSCALEBF16Zrmbik, TB_BCAST_SH},
   {X86::VRNDSCALEPDZ128rrik, X86::VRNDSCALEPDZ128rmbik, TB_BCAST_SD},
   {X86::VRNDSCALEPDZ256rrik, X86::VRNDSCALEPDZ256rmbik, TB_BCAST_SD},
   {X86::VRNDSCALEPDZrrik, X86::VRNDSCALEPDZrmbik, TB_BCAST_SD},
@@ -9679,15 +9679,15 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VRSQRT14PSZrk, X86::VRSQRT14PSZmbk, TB_BCAST_SS},
   {X86::VRSQRT28PDZrk, X86::VRSQRT28PDZmbk, TB_BCAST_SD},
   {X86::VRSQRT28PSZrk, X86::VRSQRT28PSZmbk, TB_BCAST_SS},
-  {X86::VRSQRTPBF16Z128rk, X86::VRSQRTPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VRSQRTPBF16Z256rk, X86::VRSQRTPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VRSQRTPBF16Zrk, X86::VRSQRTPBF16Zmbk, TB_BCAST_SH},
+  {X86::VRSQRTBF16Z128rk, X86::VRSQRTBF16Z128mbk, TB_BCAST_SH},
+  {X86::VRSQRTBF16Z256rk, X86::VRSQRTBF16Z256mbk, TB_BCAST_SH},
+  {X86::VRSQRTBF16Zrk, X86::VRSQRTBF16Zmbk, TB_BCAST_SH},
   {X86::VRSQRTPHZ128rk, X86::VRSQRTPHZ128mbk, TB_BCAST_SH},
   {X86::VRSQRTPHZ256rk, X86::VRSQRTPHZ256mbk, TB_BCAST_SH},
   {X86::VRSQRTPHZrk, X86::VRSQRTPHZmbk, TB_BCAST_SH},
-  {X86::VSCALEFPBF16Z128rrkz, X86::VSCALEFPBF16Z128rmbkz, TB_BCAST_SH},
-  {X86::VSCALEFPBF16Z256rrkz, X86::VSCALEFPBF16Z256rmbkz, TB_BCAST_SH},
-  {X86::VSCALEFPBF16Zrrkz, X86::VSCALEFPBF16Zrmbkz, TB_BCAST_SH},
+  {X86::VSCALEFBF16Z128rrkz, X86::VSCALEFBF16Z128rmbkz, TB_BCAST_SH},
+  {X86::VSCALEFBF16Z256rrkz, X86::VSCALEFBF16Z256rmbkz, TB_BCAST_SH},
+  {X86::VSCALEFBF16Zrrkz, X86::VSCALEFBF16Zrmbkz, TB_BCAST_SH},
   {X86::VSCALEFPDZ128rrkz, X86::VSCALEFPDZ128rmbkz, TB_BCAST_SD},
   {X86::VSCALEFPDZ256rrkz, X86::VSCALEFPDZ256rmbkz, TB_BCAST_SD},
   {X86::VSCALEFPDZrrkz, X86::VSCALEFPDZrmbkz, TB_BCAST_SD},
@@ -9711,9 +9711,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VSHUFPSZ128rrikz, X86::VSHUFPSZ128rmbikz, TB_BCAST_SS},
   {X86::VSHUFPSZ256rrikz, X86::VSHUFPSZ256rmbikz, TB_BCAST_SS},
   {X86::VSHUFPSZrrikz, X86::VSHUFPSZrmbikz, TB_BCAST_SS},
-  {X86::VSQRTNEPBF16Z128rk, X86::VSQRTNEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VSQRTNEPBF16Z256rk, X86::VSQRTNEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VSQRTNEPBF16Zrk, X86::VSQRTNEPBF16Zmbk, TB_BCAST_SH},
+  {X86::VSQRTBF16Z128rk, X86::VSQRTBF16Z128mbk, TB_BCAST_SH},
+  {X86::VSQRTBF16Z256rk, X86::VSQRTBF16Z256mbk, TB_BCAST_SH},
+  {X86::VSQRTBF16Zrk, X86::VSQRTBF16Zmbk, TB_BCAST_SH},
   {X86::VSQRTPDZ128rk, X86::VSQRTPDZ128mbk, TB_BCAST_SD},
   {X86::VSQRTPDZ256rk, X86::VSQRTPDZ256mbk, TB_BCAST_SD},
   {X86::VSQRTPDZrk, X86::VSQRTPDZmbk, TB_BCAST_SD},
@@ -9723,9 +9723,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
   {X86::VSQRTPSZ128rk, X86::VSQRTPSZ128mbk, TB_BCAST_SS},
   {X86::VSQRTPSZ256rk, X86::VSQRTPSZ256mbk, TB_BCAST_SS},
   {X86::VSQRTPSZrk, X86::VSQRTPSZmbk, TB_BCAST_SS},
-  {X86::VSUBNEPBF16Z128rrkz, X86::VSUBNEPBF16Z128rmbkz, TB_BCAST_SH},
-  {X86::VSUBNEPBF16Z256rrkz, X86::VSUBNEPBF16Z256rmbkz, TB_BCAST_SH},
-  {X86::VSUBNEPBF16Zrrkz, X86::VSUBNEPBF16Zrmbkz, TB_BCAST_SH},
+  {X86::VSUBBF16Z128rrkz, X86::VSUBBF16Z128rmbkz, TB_BCAST_SH},
+  {X86::VSUBBF16Z256rrkz, X86::VSUBBF16Z256rmbkz, TB_BCAST_SH},
+  {X86::VSUBBF16Zrrkz, X86::VSUBBF16Zrmbkz, TB_BCAST_SH},
   {X86::VSUBPDZ128rrkz, X86::VSUBPDZ128rmbkz, TB_BCAST_SD},
   {X86::VSUBPDZ256rrkz, X86::VSUBPDZ256rmbkz, TB_BCAST_SD},
   {X86::VSUBPDZrrkz, X86::VSUBPDZrmbkz, TB_BCAST_SD},
@@ -9756,9 +9756,9 @@ static const X86FoldTableEntry BroadcastTable3[] = {
 };
 
 static const X86FoldTableEntry BroadcastTable4[] = {
-  {X86::VADDNEPBF16Z128rrk, X86::VADDNEPBF16Z128rmbk, TB_BCAST_SH},
-  {X86::VADDNEPBF16Z256rrk, X86::VADDNEPBF16Z256rmbk, TB_BCAST_SH},
-  {X86::VADDNEPBF16Zrrk, X86::VADDNEPBF16Zrmbk, TB_BCAST_SH},
+  {X86::VADDBF16Z128rrk, X86::VADDBF16Z128rmbk, TB_BCAST_SH},
+  {X86::VADDBF16Z256rrk, X86::VADDBF16Z256rmbk, TB_BCAST_SH},
+  {X86::VADDBF16Zrrk, X86::VADDBF16Zrmbk, TB_BCAST_SH},
   {X86::VADDPDZ128rrk, X86::VADDPDZ128rmbk, TB_BCAST_SD},
   {X86::VADDPDZ256rrk, X86::VADDPDZ256rmbk, TB_BCAST_SD},
   {X86::VADDPDZrrk, X86::VADDPDZrmbk, TB_BCAST_SD},
@@ -9786,6 +9786,18 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VANDPSZ128rrk, X86::VANDPSZ128rmbk, TB_BCAST_SS},
   {X86::VANDPSZ256rrk, X86::VANDPSZ256rmbk, TB_BCAST_SS},
   {X86::VANDPSZrrk, X86::VANDPSZrmbk, TB_BCAST_SS},
+  {X86::VCVT2PH2BF8SZ128rrk, X86::VCVT2PH2BF8SZ128rmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8SZ256rrk, X86::VCVT2PH2BF8SZ256rmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8SZrrk, X86::VCVT2PH2BF8SZrmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8Z128rrk, X86::VCVT2PH2BF8Z128rmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8Z256rrk, X86::VCVT2PH2BF8Z256rmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2BF8Zrrk, X86::VCVT2PH2BF8Zrmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8SZ128rrk, X86::VCVT2PH2HF8SZ128rmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8SZ256rrk, X86::VCVT2PH2HF8SZ256rmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8SZrrk, X86::VCVT2PH2HF8SZrmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8Z128rrk, X86::VCVT2PH2HF8Z128rmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8Z256rrk, X86::VCVT2PH2HF8Z256rmbk, TB_BCAST_SH},
+  {X86::VCVT2PH2HF8Zrrk, X86::VCVT2PH2HF8Zrmbk, TB_BCAST_SH},
   {X86::VCVT2PS2PHXZ128rrk, X86::VCVT2PS2PHXZ128rmbk, TB_BCAST_SS},
   {X86::VCVT2PS2PHXZ256rrk, X86::VCVT2PS2PHXZ256rmbk, TB_BCAST_SS},
   {X86::VCVT2PS2PHXZrrk, X86::VCVT2PS2PHXZrmbk, TB_BCAST_SS},
@@ -9801,24 +9813,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VCVTBIASPH2HF8Z128rrk, X86::VCVTBIASPH2HF8Z128rmbk, TB_BCAST_SH},
   {X86::VCVTBIASPH2HF8Z256rrk, X86::VCVTBIASPH2HF8Z256rmbk, TB_BCAST_SH},
   {X86::VCVTBIASPH2HF8Zrrk, X86::VCVTBIASPH2HF8Zrmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8SZ128rrk, X86::VCVTNE2PH2BF8SZ128rmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8SZ256rrk, X86::VCVTNE2PH2BF8SZ256rmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8SZrrk, X86::VCVTNE2PH2BF8SZrmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8Z128rrk, X86::VCVTNE2PH2BF8Z128rmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8Z256rrk, X86::VCVTNE2PH2BF8Z256rmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2BF8Zrrk, X86::VCVTNE2PH2BF8Zrmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8SZ128rrk, X86::VCVTNE2PH2HF8SZ128rmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8SZ256rrk, X86::VCVTNE2PH2HF8SZ256rmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8SZrrk, X86::VCVTNE2PH2HF8SZrmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8Z128rrk, X86::VCVTNE2PH2HF8Z128rmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8Z256rrk, X86::VCVTNE2PH2HF8Z256rmbk, TB_BCAST_SH},
-  {X86::VCVTNE2PH2HF8Zrrk, X86::VCVTNE2PH2HF8Zrmbk, TB_BCAST_SH},
   {X86::VCVTNE2PS2BF16Z128rrk, X86::VCVTNE2PS2BF16Z128rmbk, TB_BCAST_SS},
   {X86::VCVTNE2PS2BF16Z256rrk, X86::VCVTNE2PS2BF16Z256rmbk, TB_BCAST_SS},
   {X86::VCVTNE2PS2BF16Zrrk, X86::VCVTNE2PS2BF16Zrmbk, TB_BCAST_SS},
-  {X86::VDIVNEPBF16Z128rrk, X86::VDIVNEPBF16Z128rmbk, TB_BCAST_SH},
-  {X86::VDIVNEPBF16Z256rrk, X86::VDIVNEPBF16Z256rmbk, TB_BCAST_SH},
-  {X86::VDIVNEPBF16Zrrk, X86::VDIVNEPBF16Zrmbk, TB_BCAST_SH},
+  {X86::VDIVBF16Z128rrk, X86::VDIVBF16Z128rmbk, TB_BCAST_SH},
+  {X86::VDIVBF16Z256rrk, X86::VDIVBF16Z256rmbk, TB_BCAST_SH},
+  {X86::VDIVBF16Zrrk, X86::VDIVBF16Zrmbk, TB_BCAST_SH},
   {X86::VDIVPDZ128rrk, X86::VDIVPDZ128rmbk, TB_BCAST_SD},
   {X86::VDIVPDZ256rrk, X86::VDIVPDZ256rmbk, TB_BCAST_SD},
   {X86::VDIVPDZrrk, X86::VDIVPDZrmbk, TB_BCAST_SD},
@@ -9861,12 +9861,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFIXUPIMMPSZ256rrikz, X86::VFIXUPIMMPSZ256rmbikz, TB_BCAST_SS},
   {X86::VFIXUPIMMPSZrrik, X86::VFIXUPIMMPSZrmbik, TB_BCAST_SS},
   {X86::VFIXUPIMMPSZrrikz, X86::VFIXUPIMMPSZrmbikz, TB_BCAST_SS},
-  {X86::VFMADD132NEPBF16Z128rk, X86::VFMADD132NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFMADD132NEPBF16Z128rkz, X86::VFMADD132NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFMADD132NEPBF16Z256rk, X86::VFMADD132NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFMADD132NEPBF16Z256rkz, X86::VFMADD132NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFMADD132NEPBF16Zrk, X86::VFMADD132NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFMADD132NEPBF16Zrkz, X86::VFMADD132NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFMADD132BF16Z128rk, X86::VFMADD132BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFMADD132BF16Z128rkz, X86::VFMADD132BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFMADD132BF16Z256rk, X86::VFMADD132BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFMADD132BF16Z256rkz, X86::VFMADD132BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFMADD132BF16Zrk, X86::VFMADD132BF16Zmbk, TB_BCAST_SH},
+  {X86::VFMADD132BF16Zrkz, X86::VFMADD132BF16Zmbkz, TB_BCAST_SH},
   {X86::VFMADD132PDZ128rk, X86::VFMADD132PDZ128mbk, TB_BCAST_SD},
   {X86::VFMADD132PDZ128rkz, X86::VFMADD132PDZ128mbkz, TB_BCAST_SD},
   {X86::VFMADD132PDZ256rk, X86::VFMADD132PDZ256mbk, TB_BCAST_SD},
@@ -9885,12 +9885,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFMADD132PSZ256rkz, X86::VFMADD132PSZ256mbkz, TB_BCAST_SS},
   {X86::VFMADD132PSZrk, X86::VFMADD132PSZmbk, TB_BCAST_SS},
   {X86::VFMADD132PSZrkz, X86::VFMADD132PSZmbkz, TB_BCAST_SS},
-  {X86::VFMADD213NEPBF16Z128rk, X86::VFMADD213NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFMADD213NEPBF16Z128rkz, X86::VFMADD213NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFMADD213NEPBF16Z256rk, X86::VFMADD213NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFMADD213NEPBF16Z256rkz, X86::VFMADD213NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFMADD213NEPBF16Zrk, X86::VFMADD213NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFMADD213NEPBF16Zrkz, X86::VFMADD213NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFMADD213BF16Z128rk, X86::VFMADD213BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFMADD213BF16Z128rkz, X86::VFMADD213BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFMADD213BF16Z256rk, X86::VFMADD213BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFMADD213BF16Z256rkz, X86::VFMADD213BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFMADD213BF16Zrk, X86::VFMADD213BF16Zmbk, TB_BCAST_SH},
+  {X86::VFMADD213BF16Zrkz, X86::VFMADD213BF16Zmbkz, TB_BCAST_SH},
   {X86::VFMADD213PDZ128rk, X86::VFMADD213PDZ128mbk, TB_BCAST_SD},
   {X86::VFMADD213PDZ128rkz, X86::VFMADD213PDZ128mbkz, TB_BCAST_SD},
   {X86::VFMADD213PDZ256rk, X86::VFMADD213PDZ256mbk, TB_BCAST_SD},
@@ -9909,12 +9909,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFMADD213PSZ256rkz, X86::VFMADD213PSZ256mbkz, TB_BCAST_SS},
   {X86::VFMADD213PSZrk, X86::VFMADD213PSZmbk, TB_BCAST_SS},
   {X86::VFMADD213PSZrkz, X86::VFMADD213PSZmbkz, TB_BCAST_SS},
-  {X86::VFMADD231NEPBF16Z128rk, X86::VFMADD231NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFMADD231NEPBF16Z128rkz, X86::VFMADD231NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFMADD231NEPBF16Z256rk, X86::VFMADD231NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFMADD231NEPBF16Z256rkz, X86::VFMADD231NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFMADD231NEPBF16Zrk, X86::VFMADD231NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFMADD231NEPBF16Zrkz, X86::VFMADD231NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFMADD231BF16Z128rk, X86::VFMADD231BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFMADD231BF16Z128rkz, X86::VFMADD231BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFMADD231BF16Z256rk, X86::VFMADD231BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFMADD231BF16Z256rkz, X86::VFMADD231BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFMADD231BF16Zrk, X86::VFMADD231BF16Zmbk, TB_BCAST_SH},
+  {X86::VFMADD231BF16Zrkz, X86::VFMADD231BF16Zmbkz, TB_BCAST_SH},
   {X86::VFMADD231PDZ128rk, X86::VFMADD231PDZ128mbk, TB_BCAST_SD},
   {X86::VFMADD231PDZ128rkz, X86::VFMADD231PDZ128mbkz, TB_BCAST_SD},
   {X86::VFMADD231PDZ256rk, X86::VFMADD231PDZ256mbk, TB_BCAST_SD},
@@ -9993,12 +9993,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFMADDSUB231PSZ256rkz, X86::VFMADDSUB231PSZ256mbkz, TB_BCAST_SS},
   {X86::VFMADDSUB231PSZrk, X86::VFMADDSUB231PSZmbk, TB_BCAST_SS},
   {X86::VFMADDSUB231PSZrkz, X86::VFMADDSUB231PSZmbkz, TB_BCAST_SS},
-  {X86::VFMSUB132NEPBF16Z128rk, X86::VFMSUB132NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFMSUB132NEPBF16Z128rkz, X86::VFMSUB132NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFMSUB132NEPBF16Z256rk, X86::VFMSUB132NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFMSUB132NEPBF16Z256rkz, X86::VFMSUB132NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFMSUB132NEPBF16Zrk, X86::VFMSUB132NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFMSUB132NEPBF16Zrkz, X86::VFMSUB132NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFMSUB132BF16Z128rk, X86::VFMSUB132BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFMSUB132BF16Z128rkz, X86::VFMSUB132BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFMSUB132BF16Z256rk, X86::VFMSUB132BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFMSUB132BF16Z256rkz, X86::VFMSUB132BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFMSUB132BF16Zrk, X86::VFMSUB132BF16Zmbk, TB_BCAST_SH},
+  {X86::VFMSUB132BF16Zrkz, X86::VFMSUB132BF16Zmbkz, TB_BCAST_SH},
   {X86::VFMSUB132PDZ128rk, X86::VFMSUB132PDZ128mbk, TB_BCAST_SD},
   {X86::VFMSUB132PDZ128rkz, X86::VFMSUB132PDZ128mbkz, TB_BCAST_SD},
   {X86::VFMSUB132PDZ256rk, X86::VFMSUB132PDZ256mbk, TB_BCAST_SD},
@@ -10017,12 +10017,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFMSUB132PSZ256rkz, X86::VFMSUB132PSZ256mbkz, TB_BCAST_SS},
   {X86::VFMSUB132PSZrk, X86::VFMSUB132PSZmbk, TB_BCAST_SS},
   {X86::VFMSUB132PSZrkz, X86::VFMSUB132PSZmbkz, TB_BCAST_SS},
-  {X86::VFMSUB213NEPBF16Z128rk, X86::VFMSUB213NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFMSUB213NEPBF16Z128rkz, X86::VFMSUB213NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFMSUB213NEPBF16Z256rk, X86::VFMSUB213NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFMSUB213NEPBF16Z256rkz, X86::VFMSUB213NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFMSUB213NEPBF16Zrk, X86::VFMSUB213NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFMSUB213NEPBF16Zrkz, X86::VFMSUB213NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFMSUB213BF16Z128rk, X86::VFMSUB213BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFMSUB213BF16Z128rkz, X86::VFMSUB213BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFMSUB213BF16Z256rk, X86::VFMSUB213BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFMSUB213BF16Z256rkz, X86::VFMSUB213BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFMSUB213BF16Zrk, X86::VFMSUB213BF16Zmbk, TB_BCAST_SH},
+  {X86::VFMSUB213BF16Zrkz, X86::VFMSUB213BF16Zmbkz, TB_BCAST_SH},
   {X86::VFMSUB213PDZ128rk, X86::VFMSUB213PDZ128mbk, TB_BCAST_SD},
   {X86::VFMSUB213PDZ128rkz, X86::VFMSUB213PDZ128mbkz, TB_BCAST_SD},
   {X86::VFMSUB213PDZ256rk, X86::VFMSUB213PDZ256mbk, TB_BCAST_SD},
@@ -10041,12 +10041,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFMSUB213PSZ256rkz, X86::VFMSUB213PSZ256mbkz, TB_BCAST_SS},
   {X86::VFMSUB213PSZrk, X86::VFMSUB213PSZmbk, TB_BCAST_SS},
   {X86::VFMSUB213PSZrkz, X86::VFMSUB213PSZmbkz, TB_BCAST_SS},
-  {X86::VFMSUB231NEPBF16Z128rk, X86::VFMSUB231NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFMSUB231NEPBF16Z128rkz, X86::VFMSUB231NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFMSUB231NEPBF16Z256rk, X86::VFMSUB231NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFMSUB231NEPBF16Z256rkz, X86::VFMSUB231NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFMSUB231NEPBF16Zrk, X86::VFMSUB231NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFMSUB231NEPBF16Zrkz, X86::VFMSUB231NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFMSUB231BF16Z128rk, X86::VFMSUB231BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFMSUB231BF16Z128rkz, X86::VFMSUB231BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFMSUB231BF16Z256rk, X86::VFMSUB231BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFMSUB231BF16Z256rkz, X86::VFMSUB231BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFMSUB231BF16Zrk, X86::VFMSUB231BF16Zmbk, TB_BCAST_SH},
+  {X86::VFMSUB231BF16Zrkz, X86::VFMSUB231BF16Zmbkz, TB_BCAST_SH},
   {X86::VFMSUB231PDZ128rk, X86::VFMSUB231PDZ128mbk, TB_BCAST_SD},
   {X86::VFMSUB231PDZ128rkz, X86::VFMSUB231PDZ128mbkz, TB_BCAST_SD},
   {X86::VFMSUB231PDZ256rk, X86::VFMSUB231PDZ256mbk, TB_BCAST_SD},
@@ -10122,12 +10122,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFMULCPHZ128rrk, X86::VFMULCPHZ128rmbk, TB_BCAST_SS},
   {X86::VFMULCPHZ256rrk, X86::VFMULCPHZ256rmbk, TB_BCAST_SS},
   {X86::VFMULCPHZrrk, X86::VFMULCPHZrmbk, TB_BCAST_SS},
-  {X86::VFNMADD132NEPBF16Z128rk, X86::VFNMADD132NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFNMADD132NEPBF16Z128rkz, X86::VFNMADD132NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFNMADD132NEPBF16Z256rk, X86::VFNMADD132NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFNMADD132NEPBF16Z256rkz, X86::VFNMADD132NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFNMADD132NEPBF16Zrk, X86::VFNMADD132NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFNMADD132NEPBF16Zrkz, X86::VFNMADD132NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFNMADD132BF16Z128rk, X86::VFNMADD132BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFNMADD132BF16Z128rkz, X86::VFNMADD132BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFNMADD132BF16Z256rk, X86::VFNMADD132BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFNMADD132BF16Z256rkz, X86::VFNMADD132BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFNMADD132BF16Zrk, X86::VFNMADD132BF16Zmbk, TB_BCAST_SH},
+  {X86::VFNMADD132BF16Zrkz, X86::VFNMADD132BF16Zmbkz, TB_BCAST_SH},
   {X86::VFNMADD132PDZ128rk, X86::VFNMADD132PDZ128mbk, TB_BCAST_SD},
   {X86::VFNMADD132PDZ128rkz, X86::VFNMADD132PDZ128mbkz, TB_BCAST_SD},
   {X86::VFNMADD132PDZ256rk, X86::VFNMADD132PDZ256mbk, TB_BCAST_SD},
@@ -10146,12 +10146,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFNMADD132PSZ256rkz, X86::VFNMADD132PSZ256mbkz, TB_BCAST_SS},
   {X86::VFNMADD132PSZrk, X86::VFNMADD132PSZmbk, TB_BCAST_SS},
   {X86::VFNMADD132PSZrkz, X86::VFNMADD132PSZmbkz, TB_BCAST_SS},
-  {X86::VFNMADD213NEPBF16Z128rk, X86::VFNMADD213NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFNMADD213NEPBF16Z128rkz, X86::VFNMADD213NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFNMADD213NEPBF16Z256rk, X86::VFNMADD213NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFNMADD213NEPBF16Z256rkz, X86::VFNMADD213NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFNMADD213NEPBF16Zrk, X86::VFNMADD213NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFNMADD213NEPBF16Zrkz, X86::VFNMADD213NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFNMADD213BF16Z128rk, X86::VFNMADD213BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFNMADD213BF16Z128rkz, X86::VFNMADD213BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFNMADD213BF16Z256rk, X86::VFNMADD213BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFNMADD213BF16Z256rkz, X86::VFNMADD213BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFNMADD213BF16Zrk, X86::VFNMADD213BF16Zmbk, TB_BCAST_SH},
+  {X86::VFNMADD213BF16Zrkz, X86::VFNMADD213BF16Zmbkz, TB_BCAST_SH},
   {X86::VFNMADD213PDZ128rk, X86::VFNMADD213PDZ128mbk, TB_BCAST_SD},
   {X86::VFNMADD213PDZ128rkz, X86::VFNMADD213PDZ128mbkz, TB_BCAST_SD},
   {X86::VFNMADD213PDZ256rk, X86::VFNMADD213PDZ256mbk, TB_BCAST_SD},
@@ -10170,12 +10170,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFNMADD213PSZ256rkz, X86::VFNMADD213PSZ256mbkz, TB_BCAST_SS},
   {X86::VFNMADD213PSZrk, X86::VFNMADD213PSZmbk, TB_BCAST_SS},
   {X86::VFNMADD213PSZrkz, X86::VFNMADD213PSZmbkz, TB_BCAST_SS},
-  {X86::VFNMADD231NEPBF16Z128rk, X86::VFNMADD231NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFNMADD231NEPBF16Z128rkz, X86::VFNMADD231NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFNMADD231NEPBF16Z256rk, X86::VFNMADD231NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFNMADD231NEPBF16Z256rkz, X86::VFNMADD231NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFNMADD231NEPBF16Zrk, X86::VFNMADD231NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFNMADD231NEPBF16Zrkz, X86::VFNMADD231NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFNMADD231BF16Z128rk, X86::VFNMADD231BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFNMADD231BF16Z128rkz, X86::VFNMADD231BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFNMADD231BF16Z256rk, X86::VFNMADD231BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFNMADD231BF16Z256rkz, X86::VFNMADD231BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFNMADD231BF16Zrk, X86::VFNMADD231BF16Zmbk, TB_BCAST_SH},
+  {X86::VFNMADD231BF16Zrkz, X86::VFNMADD231BF16Zmbkz, TB_BCAST_SH},
   {X86::VFNMADD231PDZ128rk, X86::VFNMADD231PDZ128mbk, TB_BCAST_SD},
   {X86::VFNMADD231PDZ128rkz, X86::VFNMADD231PDZ128mbkz, TB_BCAST_SD},
   {X86::VFNMADD231PDZ256rk, X86::VFNMADD231PDZ256mbk, TB_BCAST_SD},
@@ -10194,12 +10194,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFNMADD231PSZ256rkz, X86::VFNMADD231PSZ256mbkz, TB_BCAST_SS},
   {X86::VFNMADD231PSZrk, X86::VFNMADD231PSZmbk, TB_BCAST_SS},
   {X86::VFNMADD231PSZrkz, X86::VFNMADD231PSZmbkz, TB_BCAST_SS},
-  {X86::VFNMSUB132NEPBF16Z128rk, X86::VFNMSUB132NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFNMSUB132NEPBF16Z128rkz, X86::VFNMSUB132NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFNMSUB132NEPBF16Z256rk, X86::VFNMSUB132NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFNMSUB132NEPBF16Z256rkz, X86::VFNMSUB132NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFNMSUB132NEPBF16Zrk, X86::VFNMSUB132NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFNMSUB132NEPBF16Zrkz, X86::VFNMSUB132NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFNMSUB132BF16Z128rk, X86::VFNMSUB132BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFNMSUB132BF16Z128rkz, X86::VFNMSUB132BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFNMSUB132BF16Z256rk, X86::VFNMSUB132BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFNMSUB132BF16Z256rkz, X86::VFNMSUB132BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFNMSUB132BF16Zrk, X86::VFNMSUB132BF16Zmbk, TB_BCAST_SH},
+  {X86::VFNMSUB132BF16Zrkz, X86::VFNMSUB132BF16Zmbkz, TB_BCAST_SH},
   {X86::VFNMSUB132PDZ128rk, X86::VFNMSUB132PDZ128mbk, TB_BCAST_SD},
   {X86::VFNMSUB132PDZ128rkz, X86::VFNMSUB132PDZ128mbkz, TB_BCAST_SD},
   {X86::VFNMSUB132PDZ256rk, X86::VFNMSUB132PDZ256mbk, TB_BCAST_SD},
@@ -10218,12 +10218,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFNMSUB132PSZ256rkz, X86::VFNMSUB132PSZ256mbkz, TB_BCAST_SS},
   {X86::VFNMSUB132PSZrk, X86::VFNMSUB132PSZmbk, TB_BCAST_SS},
   {X86::VFNMSUB132PSZrkz, X86::VFNMSUB132PSZmbkz, TB_BCAST_SS},
-  {X86::VFNMSUB213NEPBF16Z128rk, X86::VFNMSUB213NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFNMSUB213NEPBF16Z128rkz, X86::VFNMSUB213NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFNMSUB213NEPBF16Z256rk, X86::VFNMSUB213NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFNMSUB213NEPBF16Z256rkz, X86::VFNMSUB213NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFNMSUB213NEPBF16Zrk, X86::VFNMSUB213NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFNMSUB213NEPBF16Zrkz, X86::VFNMSUB213NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFNMSUB213BF16Z128rk, X86::VFNMSUB213BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFNMSUB213BF16Z128rkz, X86::VFNMSUB213BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFNMSUB213BF16Z256rk, X86::VFNMSUB213BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFNMSUB213BF16Z256rkz, X86::VFNMSUB213BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFNMSUB213BF16Zrk, X86::VFNMSUB213BF16Zmbk, TB_BCAST_SH},
+  {X86::VFNMSUB213BF16Zrkz, X86::VFNMSUB213BF16Zmbkz, TB_BCAST_SH},
   {X86::VFNMSUB213PDZ128rk, X86::VFNMSUB213PDZ128mbk, TB_BCAST_SD},
   {X86::VFNMSUB213PDZ128rkz, X86::VFNMSUB213PDZ128mbkz, TB_BCAST_SD},
   {X86::VFNMSUB213PDZ256rk, X86::VFNMSUB213PDZ256mbk, TB_BCAST_SD},
@@ -10242,12 +10242,12 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VFNMSUB213PSZ256rkz, X86::VFNMSUB213PSZ256mbkz, TB_BCAST_SS},
   {X86::VFNMSUB213PSZrk, X86::VFNMSUB213PSZmbk, TB_BCAST_SS},
   {X86::VFNMSUB213PSZrkz, X86::VFNMSUB213PSZmbkz, TB_BCAST_SS},
-  {X86::VFNMSUB231NEPBF16Z128rk, X86::VFNMSUB231NEPBF16Z128mbk, TB_BCAST_SH},
-  {X86::VFNMSUB231NEPBF16Z128rkz, X86::VFNMSUB231NEPBF16Z128mbkz, TB_BCAST_SH},
-  {X86::VFNMSUB231NEPBF16Z256rk, X86::VFNMSUB231NEPBF16Z256mbk, TB_BCAST_SH},
-  {X86::VFNMSUB231NEPBF16Z256rkz, X86::VFNMSUB231NEPBF16Z256mbkz, TB_BCAST_SH},
-  {X86::VFNMSUB231NEPBF16Zrk, X86::VFNMSUB231NEPBF16Zmbk, TB_BCAST_SH},
-  {X86::VFNMSUB231NEPBF16Zrkz, X86::VFNMSUB231NEPBF16Zmbkz, TB_BCAST_SH},
+  {X86::VFNMSUB231BF16Z128rk, X86::VFNMSUB231BF16Z128mbk, TB_BCAST_SH},
+  {X86::VFNMSUB231BF16Z128rkz, X86::VFNMSUB231BF16Z128mbkz, TB_BCAST_SH},
+  {X86::VFNMSUB231BF16Z256rk, X86::VFNMSUB231BF16Z256mbk, TB_BCAST_SH},
+  {X86::VFNMSUB231BF16Z256rkz, X86::VFNMSUB231BF16Z256mbkz, TB_BCAST_SH},
+  {X86::VFNMSUB231BF16Zrk, X86::VFNMSUB231BF16Zmbk, TB_BCAST_SH},
+  {X86::VFNMSUB231BF16Zrkz, X86::VFNMSUB231BF16Zmbkz, TB_BCAST_SH},
   {X86::VFNMSUB231PDZ128rk, X86::VFNMSUB231PDZ128mbk, TB_BCAST_SD},
   {X86::VFNMSUB231PDZ128rkz, X86::VFNMSUB231PDZ128mbkz, TB_BCAST_SD},
   {X86::VFNMSUB231PDZ256rk, X86::VFNMSUB231PDZ256mbk, TB_BCAST_SD},
@@ -10272,6 +10272,9 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VGF2P8AFFINEQBZ128rrik, X86::VGF2P8AFFINEQBZ128rmbik, TB_BCAST_Q},
   {X86::VGF2P8AFFINEQBZ256rrik, X86::VGF2P8AFFINEQBZ256rmbik, TB_BCAST_Q},
   {X86::VGF2P8AFFINEQBZrrik, X86::VGF2P8AFFINEQBZrmbik, TB_BCAST_Q},
+  {X86::VMAXBF16Z128rrk, X86::VMAXBF16Z128rmbk, TB_BCAST_SH},
+  {X86::VMAXBF16Z256rrk, X86::VMAXBF16Z256rmbk, TB_BCAST_SH},
+  {X86::VMAXBF16Zrrk, X86::VMAXBF16Zrmbk, TB_BCAST_SH},
   {X86::VMAXCPDZ128rrk, X86::VMAXCPDZ128rmbk, TB_BCAST_SD},
   {X86::VMAXCPDZ256rrk, X86::VMAXCPDZ256rmbk, TB_BCAST_SD},
   {X86::VMAXCPDZrrk, X86::VMAXCPDZrmbk, TB_BCAST_SD},
@@ -10281,9 +10284,6 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VMAXCPSZ128rrk, X86::VMAXCPSZ128rmbk, TB_BCAST_SS},
   {X86::VMAXCPSZ256rrk, X86::VMAXCPSZ256rmbk, TB_BCAST_SS},
   {X86::VMAXCPSZrrk, X86::VMAXCPSZrmbk, TB_BCAST_SS},
-  {X86::VMAXPBF16Z128rrk, X86::VMAXPBF16Z128rmbk, TB_BCAST_SH},
-  {X86::VMAXPBF16Z256rrk, X86::VMAXPBF16Z256rmbk, TB_BCAST_SH},
-  {X86::VMAXPBF16Zrrk, X86::VMAXPBF16Zrmbk, TB_BCAST_SH},
   {X86::VMAXPDZ128rrk, X86::VMAXPDZ128rmbk, TB_BCAST_SD},
   {X86::VMAXPDZ256rrk, X86::VMAXPDZ256rmbk, TB_BCAST_SD},
   {X86::VMAXPDZrrk, X86::VMAXPDZrmbk, TB_BCAST_SD},
@@ -10293,6 +10293,9 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VMAXPSZ128rrk, X86::VMAXPSZ128rmbk, TB_BCAST_SS},
   {X86::VMAXPSZ256rrk, X86::VMAXPSZ256rmbk, TB_BCAST_SS},
   {X86::VMAXPSZrrk, X86::VMAXPSZrmbk, TB_BCAST_SS},
+  {X86::VMINBF16Z128rrk, X86::VMINBF16Z128rmbk, TB_BCAST_SH},
+  {X86::VMINBF16Z256rrk, X86::VMINBF16Z256rmbk, TB_BCAST_SH},
+  {X86::VMINBF16Zrrk, X86::VMINBF16Zrmbk, TB_BCAST_SH},
   {X86::VMINCPDZ128rrk, X86::VMINCPDZ128rmbk, TB_BCAST_SD},
   {X86::VMINCPDZ256rrk, X86::VMINCPDZ256rmbk, TB_BCAST_SD},
   {X86::VMINCPDZrrk, X86::VMINCPDZrmbk, TB_BCAST_SD},
@@ -10314,9 +10317,6 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VMINMAXPSZ128rrik, X86::VMINMAXPSZ128rmbik, TB_BCAST_SS},
   {X86::VMINMAXPSZ256rrik, X86::VMINMAXPSZ256rmbik, TB_BCAST_SS},
   {X86::VMINMAXPSZrrik, X86::VMINMAXPSZrmbik, TB_BCAST_SS},
-  {X86::VMINPBF16Z128rrk, X86::VMINPBF16Z128rmbk, TB_BCAST_SH},
-  {X86::VMINPBF16Z256rrk, X86::VMINPBF16Z256rmbk, TB_BCAST_SH},
-  {X86::VMINPBF16Zrrk, X86::VMINPBF16Zrmbk, TB_BCAST_SH},
   {X86::VMINPDZ128rrk, X86::VMINPDZ128rmbk, TB_BCAST_SD},
   {X86::VMINPDZ256rrk, X86::VMINPDZ256rmbk, TB_BCAST_SD},
   {X86::VMINPDZrrk, X86::VMINPDZrmbk, TB_BCAST_SD},
@@ -10326,9 +10326,9 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VMINPSZ128rrk, X86::VMINPSZ128rmbk, TB_BCAST_SS},
   {X86::VMINPSZ256rrk, X86::VMINPSZ256rmbk, TB_BCAST_SS},
   {X86::VMINPSZrrk, X86::VMINPSZrmbk, TB_BCAST_SS},
-  {X86::VMULNEPBF16Z128rrk, X86::VMULNEPBF16Z128rmbk, TB_BCAST_SH},
-  {X86::VMULNEPBF16Z256rrk, X86::VMULNEPBF16Z256rmbk, TB_BCAST_SH},
-  {X86::VMULNEPBF16Zrrk, X86::VMULNEPBF16Zrmbk, TB_BCAST_SH},
+  {X86::VMULBF16Z128rrk, X86::VMULBF16Z128rmbk, TB_BCAST_SH},
+  {X86::VMULBF16Z256rrk, X86::VMULBF16Z256rmbk, TB_BCAST_SH},
+  {X86::VMULBF16Zrrk, X86::VMULBF16Zrmbk, TB_BCAST_SH},
   {X86::VMULPDZ128rrk, X86::VMULPDZ128rmbk, TB_BCAST_SD},
   {X86::VMULPDZ256rrk, X86::VMULPDZ256rmbk, TB_BCAST_SD},
   {X86::VMULPDZrrk, X86::VMULPDZrmbk, TB_BCAST_SD},
@@ -10691,9 +10691,9 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VRANGEPSZ128rrik, X86::VRANGEPSZ128rmbik, TB_BCAST_SS},
   {X86::VRANGEPSZ256rrik, X86::VRANGEPSZ256rmbik, TB_BCAST_SS},
   {X86::VRANGEPSZrrik, X86::VRANGEPSZrmbik, TB_BCAST_SS},
-  {X86::VSCALEFPBF16Z128rrk, X86::VSCALEFPBF16Z128rmbk, TB_BCAST_SH},
-  {X86::VSCALEFPBF16Z256rrk, X86::VSCALEFPBF16Z256rmbk, TB_BCAST_SH},
-  {X86::VSCALEFPBF16Zrrk, X86::VSCALEFPBF16Zrmbk, TB_BCAST_SH},
+  {X86::VSCALEFBF16Z128rrk, X86::VSCALEFBF16Z128rmbk, TB_BCAST_SH},
+  {X86::VSCALEFBF16Z256rrk, X86::VSCALEFBF16Z256rmbk, TB_BCAST_SH},
+  {X86::VSCALEFBF16Zrrk, X86::VSCALEFBF16Zrmbk, TB_BCAST_SH},
   {X86::VSCALEFPDZ128rrk, X86::VSCALEFPDZ128rmbk, TB_BCAST_SD},
   {X86::VSCALEFPDZ256rrk, X86::VSCALEFPDZ256rmbk, TB_BCAST_SD},
   {X86::VSCALEFPDZrrk, X86::VSCALEFPDZrmbk, TB_BCAST_SD},
@@ -10717,9 +10717,9 @@ static const X86FoldTableEntry BroadcastTable4[] = {
   {X86::VSHUFPSZ128rrik, X86::VSHUFPSZ128rmbik, TB_BCAST_SS},
   {X86::VSHUFPSZ256rrik, X86::VSHUFPSZ256rmbik, TB_BCAST_SS},
   {X86::VSHUFPSZrrik, X86::VSHUFPSZrmbik, TB_BCAST_SS},
-  {X86::VSUBNEPBF16Z128rrk, X86::VSUBNEPBF16Z128rmbk, TB_BCAST_SH},
-  {X86::VSUBNEPBF16Z256rrk, X86::VSUBNEPBF16Z256rmbk, TB_BCAST_SH},
-  {X86::VSUBNEPBF16Zrrk, X86::VSUBNEPBF16Zrmbk, TB_BCAST_SH},
+  {X86::VSUBBF16Z128rrk, X86::VSUBBF16Z128rmbk, TB_BCAST_SH},
+  {X86::VSUBBF16Z256rrk, X86::VSUBBF16Z256rmbk, TB_BCAST_SH},
+  {X86::VSUBBF16Zrrk, X86::VSUBBF16Zrmbk, TB_BCAST_SH},
   {X86::VSUBPDZ128rrk, X86::VSUBPDZ128rmbk, TB_BCAST_SD},
   {X86::VSUBPDZ256rrk, X86::VSUBPDZ256rmbk, TB_BCAST_SD},
   {X86::VSUBPDZrrk, X86::VSUBPDZrmbk, TB_BCAST_SD},
diff --git a/llvm/test/ThinLTO/X86/devirt_check.ll b/llvm/test/ThinLTO/X86/devirt_check.ll
index 74f1dfd6ac012..4a9a7a4547fd6 100644
--- a/llvm/test/ThinLTO/X86/devirt_check.ll
+++ b/llvm/test/ThinLTO/X86/devirt_check.ll
@@ -58,7 +58,7 @@ entry:
   ; Ensure !prof and !callees metadata for indirect call promotion removed.
   ; TRAP-NOT: prof
   ; TRAP-NOT: callees
-  ; TRAP:   br i1 %.not, label %1, label %0
+  ; TRAP:   br i1 %.not, label %1, label %0, !prof ![[PROF:[0-9]+]]
   ; TRAP: 0:
   ; TRAP:   tail call void @llvm.debugtrap()
   ; TRAP:   br label %1
@@ -89,6 +89,8 @@ entry:
 ; CHECK-LABEL:   ret i32
 ; CHECK-LABEL: }
 
+; TRAP: ![[PROF]] = !{!"branch_weights", i32 1048575, i32 1}
+
 declare i1 @llvm.type.test(i8*, metadata)
 declare void @llvm.assume(i1)
 
diff --git a/llvm/test/Transforms/GVN/vscale.ll b/llvm/test/Transforms/GVN/vscale.ll
index 71adaed8e5722..67cbfc2f05ef8 100644
--- a/llvm/test/Transforms/GVN/vscale.ll
+++ b/llvm/test/Transforms/GVN/vscale.ll
@@ -387,3 +387,257 @@ if.then:
 if.else:
   ret void
 }
+
+; Different sizes / types
+
+define <vscale x 16 x i8> @load_v16i8_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v16i8_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = bitcast <vscale x 4 x i32> [[X]] to <vscale x 16 x i8>
+; CHECK-NEXT:    ret <vscale x 16 x i8> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 16 x i8>, ptr %p
+  ret <vscale x 16 x i8> %load
+}
+
+define <vscale x 4 x float> @load_v4f32_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v4f32_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = bitcast <vscale x 4 x i32> [[X]] to <vscale x 4 x float>
+; CHECK-NEXT:    ret <vscale x 4 x float> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 4 x float>, ptr %p
+  ret <vscale x 4 x float> %load
+}
+
+define <vscale x 4 x float> @load_v4f32_store_v16i8_forward_load(ptr %p, <vscale x 16 x i8> %x)  {
+; CHECK-LABEL: @load_v4f32_store_v16i8_forward_load(
+; CHECK-NEXT:    store <vscale x 16 x i8> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = bitcast <vscale x 16 x i8> [[X]] to <vscale x 4 x float>
+; CHECK-NEXT:    ret <vscale x 4 x float> [[LOAD]]
+;
+  store <vscale x 16 x i8> %x, ptr %p
+  %load = load <vscale x 4 x float>, ptr %p
+  ret <vscale x 4 x float> %load
+}
+
+define <vscale x 4 x i32> @load_v4i32_store_v4f32_forward_load(ptr %p, <vscale x 4 x float> %x)  {
+; CHECK-LABEL: @load_v4i32_store_v4f32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x float> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = bitcast <vscale x 4 x float> [[X]] to <vscale x 4 x i32>
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[LOAD]]
+;
+  store <vscale x 4 x float> %x, ptr %p
+  %load = load <vscale x 4 x i32>, ptr %p
+  ret <vscale x 4 x i32> %load
+}
+
+define <vscale x 4 x i32> @load_v4i32_store_v4i64_forward_load(ptr %p, <vscale x 4 x i64> %x)  {
+; CHECK-LABEL: @load_v4i32_store_v4i64_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i64> [[X:%.*]], ptr [[P:%.*]], align 32
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 4 x i32>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[LOAD]]
+;
+  store <vscale x 4 x i64> %x, ptr %p
+  %load = load <vscale x 4 x i32>, ptr %p
+  ret <vscale x 4 x i32> %load
+}
+
+define <vscale x 4 x i64> @load_v4i64_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v4i64_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 4 x i64>, ptr [[P]], align 32
+; CHECK-NEXT:    ret <vscale x 4 x i64> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 4 x i64>, ptr %p
+  ret <vscale x 4 x i64> %load
+}
+
+define <vscale x 2 x i32> @load_v2i32_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v2i32_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 2 x i32>, ptr [[P]], align 8
+; CHECK-NEXT:    ret <vscale x 2 x i32> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 2 x i32>, ptr %p
+  ret <vscale x 2 x i32> %load
+}
+
+define <vscale x 2 x i32> @load_v2i32_store_v4i32_forward_load_offsets(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v2i32_store_v4i32_forward_load_offsets(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[Q:%.*]] = getelementptr <vscale x 2 x i32>, ptr [[P]], i64 1
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 2 x i32>, ptr [[Q]], align 8
+; CHECK-NEXT:    ret <vscale x 2 x i32> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %q = getelementptr <vscale x 2 x i32>, ptr %p, i64 1
+  %load = load <vscale x 2 x i32>, ptr %q
+  ret <vscale x 2 x i32> %load
+}
+
+define <vscale x 2 x i32> @load_v2i32_store_v4i32_forward_load_offsetc(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v2i32_store_v4i32_forward_load_offsetc(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[Q:%.*]] = getelementptr <2 x i32>, ptr [[P]], i64 1
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 2 x i32>, ptr [[Q]], align 8
+; CHECK-NEXT:    ret <vscale x 2 x i32> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %q = getelementptr <2 x i32>, ptr %p, i64 1
+  %load = load <vscale x 2 x i32>, ptr %q
+  ret <vscale x 2 x i32> %load
+}
+
+define <vscale x 2 x ptr> @load_v2p0_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v2p0_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[TMP1:%.*]] = bitcast <vscale x 4 x i32> [[X]] to <vscale x 2 x i64>
+; CHECK-NEXT:    [[LOAD:%.*]] = inttoptr <vscale x 2 x i64> [[TMP1]] to <vscale x 2 x ptr>
+; CHECK-NEXT:    ret <vscale x 2 x ptr> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 2 x ptr>, ptr %p
+  ret <vscale x 2 x ptr> %load
+}
+
+define <vscale x 2 x i64> @load_v2i64_store_v2p0_forward_load(ptr %p, <vscale x 2 x ptr> %x)  {
+; CHECK-LABEL: @load_v2i64_store_v2p0_forward_load(
+; CHECK-NEXT:    store <vscale x 2 x ptr> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = ptrtoint <vscale x 2 x ptr> [[X]] to <vscale x 2 x i64>
+; CHECK-NEXT:    ret <vscale x 2 x i64> [[LOAD]]
+;
+  store <vscale x 2 x ptr> %x, ptr %p
+  %load = load <vscale x 2 x i64>, ptr %p
+  ret <vscale x 2 x i64> %load
+}
+
+define <vscale x 16 x i8> @load_nxv16i8_store_v4i32_forward_load(ptr %p, <4 x i32> %x)  {
+; CHECK-LABEL: @load_nxv16i8_store_v4i32_forward_load(
+; CHECK-NEXT:    store <4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 16 x i8> [[LOAD]]
+;
+  store <4 x i32> %x, ptr %p
+  %load = load <vscale x 16 x i8>, ptr %p
+  ret <vscale x 16 x i8> %load
+}
+
+define <16 x i8> @load_v16i8_store_nxv4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v16i8_store_nxv4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <16 x i8> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <16 x i8>, ptr %p
+  ret <16 x i8> %load
+}
+
+define <vscale x 16 x i8> @load_v16i8_store_v4i32_forward_constant(ptr %p)  {
+; CHECK-LABEL: @load_v16i8_store_v4i32_forward_constant(
+; CHECK-NEXT:    store <vscale x 4 x i32> splat (i32 4), ptr [[P:%.*]], align 16
+; CHECK-NEXT:    ret <vscale x 16 x i8> bitcast (<vscale x 4 x i32> splat (i32 4) to <vscale x 16 x i8>)
+;
+  store <vscale x 4 x i32> splat (i32 4), ptr %p
+  %load = load <vscale x 16 x i8>, ptr %p
+  ret <vscale x 16 x i8> %load
+}
+
+define <vscale x 16 x i8> @load_v16i8_struct_store_v4i32_forward_load(ptr %p, { <vscale x 4 x i32> } %x)  {
+; CHECK-LABEL: @load_v16i8_struct_store_v4i32_forward_load(
+; CHECK-NEXT:    store { <vscale x 4 x i32> } [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 16 x i8> [[LOAD]]
+;
+  store { <vscale x 4 x i32> } %x, ptr %p
+  %load = load <vscale x 16 x i8>, ptr %p
+  ret <vscale x 16 x i8> %load
+}
+
+define {<vscale x 16 x i8>} @load_v16i8_store_v4i32_struct_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v16i8_store_v4i32_struct_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load { <vscale x 16 x i8> }, ptr [[P]], align 16
+; CHECK-NEXT:    ret { <vscale x 16 x i8> } [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load { <vscale x 16 x i8> }, ptr %p
+  ret { <vscale x 16 x i8> } %load
+}
+
+define { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @bigexample({ <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a) vscale_range(1,16) {
+; CHECK-LABEL: @bigexample(
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[REF_TMP:%.*]] = alloca { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> }, align 16
+; CHECK-NEXT:    call void @llvm.lifetime.start.p0(i64 -1, ptr nonnull [[REF_TMP]])
+; CHECK-NEXT:    [[A_ELT:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[A:%.*]], 0
+; CHECK-NEXT:    store <vscale x 4 x i32> [[A_ELT]], ptr [[REF_TMP]], align 16
+; CHECK-NEXT:    [[TMP0:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP1:%.*]] = shl i64 [[TMP0]], 4
+; CHECK-NEXT:    [[REF_TMP_REPACK1:%.*]] = getelementptr inbounds i8, ptr [[REF_TMP]], i64 [[TMP1]]
+; CHECK-NEXT:    [[A_ELT2:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[A]], 1
+; CHECK-NEXT:    store <vscale x 4 x i32> [[A_ELT2]], ptr [[REF_TMP_REPACK1]], align 16
+; CHECK-NEXT:    [[TMP3:%.*]] = shl i64 [[TMP0]], 5
+; CHECK-NEXT:    [[REF_TMP_REPACK3:%.*]] = getelementptr inbounds i8, ptr [[REF_TMP]], i64 [[TMP3]]
+; CHECK-NEXT:    [[A_ELT4:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[A]], 2
+; CHECK-NEXT:    store <vscale x 4 x i32> [[A_ELT4]], ptr [[REF_TMP_REPACK3]], align 16
+; CHECK-NEXT:    [[TMP5:%.*]] = mul i64 [[TMP0]], 48
+; CHECK-NEXT:    [[REF_TMP_REPACK5:%.*]] = getelementptr inbounds i8, ptr [[REF_TMP]], i64 [[TMP5]]
+; CHECK-NEXT:    [[A_ELT6:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[A]], 3
+; CHECK-NEXT:    store <vscale x 4 x i32> [[A_ELT6]], ptr [[REF_TMP_REPACK5]], align 16
+; CHECK-NEXT:    [[DOTUNPACK:%.*]] = bitcast <vscale x 4 x i32> [[A_ELT]] to <vscale x 16 x i8>
+; CHECK-NEXT:    [[TMP6:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } poison, <vscale x 16 x i8> [[DOTUNPACK]], 0
+; CHECK-NEXT:    [[DOTUNPACK8:%.*]] = bitcast <vscale x 4 x i32> [[A_ELT2]] to <vscale x 16 x i8>
+; CHECK-NEXT:    [[TMP9:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP6]], <vscale x 16 x i8> [[DOTUNPACK8]], 1
+; CHECK-NEXT:    [[DOTUNPACK10:%.*]] = bitcast <vscale x 4 x i32> [[A_ELT4]] to <vscale x 16 x i8>
+; CHECK-NEXT:    [[TMP12:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP9]], <vscale x 16 x i8> [[DOTUNPACK10]], 2
+; CHECK-NEXT:    [[DOTUNPACK12:%.*]] = bitcast <vscale x 4 x i32> [[A_ELT6]] to <vscale x 16 x i8>
+; CHECK-NEXT:    [[TMP15:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP12]], <vscale x 16 x i8> [[DOTUNPACK12]], 3
+; CHECK-NEXT:    call void @llvm.lifetime.end.p0(i64 -1, ptr nonnull [[REF_TMP]])
+; CHECK-NEXT:    ret { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP15]]
+;
+entry:
+  %ref.tmp = alloca { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> }, align 16
+  call void @llvm.lifetime.start.p0(i64 -1, ptr nonnull %ref.tmp)
+  %a.elt = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a, 0
+  store <vscale x 4 x i32> %a.elt, ptr %ref.tmp, align 16
+  %0 = call i64 @llvm.vscale.i64()
+  %1 = shl i64 %0, 4
+  %ref.tmp.repack1 = getelementptr inbounds i8, ptr %ref.tmp, i64 %1
+  %a.elt2 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a, 1
+  store <vscale x 4 x i32> %a.elt2, ptr %ref.tmp.repack1, align 16
+  %2 = call i64 @llvm.vscale.i64()
+  %3 = shl i64 %2, 5
+  %ref.tmp.repack3 = getelementptr inbounds i8, ptr %ref.tmp, i64 %3
+  %a.elt4 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a, 2
+  store <vscale x 4 x i32> %a.elt4, ptr %ref.tmp.repack3, align 16
+  %4 = call i64 @llvm.vscale.i64()
+  %5 = mul i64 %4, 48
+  %ref.tmp.repack5 = getelementptr inbounds i8, ptr %ref.tmp, i64 %5
+  %a.elt6 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a, 3
+  store <vscale x 4 x i32> %a.elt6, ptr %ref.tmp.repack5, align 16
+  %.unpack = load <vscale x 16 x i8>, ptr %ref.tmp, align 16
+  %6 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } poison, <vscale x 16 x i8> %.unpack, 0
+  %7 = call i64 @llvm.vscale.i64()
+  %8 = shl i64 %7, 4
+  %.elt7 = getelementptr inbounds i8, ptr %ref.tmp, i64 %8
+  %.unpack8 = load <vscale x 16 x i8>, ptr %.elt7, align 16
+  %9 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, <vscale x 16 x i8> %.unpack8, 1
+  %10 = call i64 @llvm.vscale.i64()
+  %11 = shl i64 %10, 5
+  %.elt9 = getelementptr inbounds i8, ptr %ref.tmp, i64 %11
+  %.unpack10 = load <vscale x 16 x i8>, ptr %.elt9, align 16
+  %12 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %9, <vscale x 16 x i8> %.unpack10, 2
+  %13 = call i64 @llvm.vscale.i64()
+  %14 = mul i64 %13, 48
+  %.elt11 = getelementptr inbounds i8, ptr %ref.tmp, i64 %14
+  %.unpack12 = load <vscale x 16 x i8>, ptr %.elt11, align 16
+  %15 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %12, <vscale x 16 x i8> %.unpack12, 3
+  call void @llvm.lifetime.end.p0(i64 -1, ptr nonnull %ref.tmp)
+  ret { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %15
+}
diff --git a/llvm/test/Transforms/InferAddressSpaces/AMDGPU/flat_atomic.ll b/llvm/test/Transforms/InferAddressSpaces/AMDGPU/flat_atomic.ll
index 6633cec659d8e..39af91b81110d 100644
--- a/llvm/test/Transforms/InferAddressSpaces/AMDGPU/flat_atomic.ll
+++ b/llvm/test/Transforms/InferAddressSpaces/AMDGPU/flat_atomic.ll
@@ -70,8 +70,7 @@ define protected amdgpu_kernel void @InferMixed(i32 %a, ptr addrspace(1) %b, dou
 ; CHECK-NEXT:    s_load_dwordx4 s[0:3], s[4:5], 0x2c
 ; CHECK-NEXT:    s_mov_b64 s[6:7], exec
 ; CHECK-NEXT:    s_waitcnt lgkmcnt(0)
-; CHECK-NEXT:    v_mov_b32_e32 v0, s8
-; CHECK-NEXT:    v_mov_b32_e32 v1, s9
+; CHECK-NEXT:    v_pk_mov_b32 v[0:1], s[8:9], s[8:9] op_sel:[0,1]
 ; CHECK-NEXT:    v_pk_mov_b32 v[2:3], s[2:3], s[2:3] op_sel:[0,1]
 ; CHECK-NEXT:    flat_atomic_add_f64 v[0:1], v[2:3]
 ; CHECK-NEXT:    s_waitcnt vmcnt(0) lgkmcnt(0)
diff --git a/llvm/test/Transforms/InstCombine/scalable-vector-struct.ll b/llvm/test/Transforms/InstCombine/scalable-vector-struct.ll
index c9966be72fb51..a8790b579d75a 100644
--- a/llvm/test/Transforms/InstCombine/scalable-vector-struct.ll
+++ b/llvm/test/Transforms/InstCombine/scalable-vector-struct.ll
@@ -6,9 +6,11 @@
 define <vscale x 1 x i32> @load(ptr %x) {
 ; CHECK-LABEL: define <vscale x 1 x i32> @load
 ; CHECK-SAME: (ptr [[X:%.*]]) {
-; CHECK-NEXT:    [[A:%.*]] = load [[STRUCT_TEST:%.*]], ptr [[X]], align 4
-; CHECK-NEXT:    [[B:%.*]] = extractvalue [[STRUCT_TEST]] [[A]], 1
-; CHECK-NEXT:    ret <vscale x 1 x i32> [[B]]
+; CHECK-NEXT:    [[TMP1:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP2:%.*]] = shl i64 [[TMP1]], 2
+; CHECK-NEXT:    [[A_ELT1:%.*]] = getelementptr inbounds i8, ptr [[X]], i64 [[TMP2]]
+; CHECK-NEXT:    [[A_UNPACK2:%.*]] = load <vscale x 1 x i32>, ptr [[A_ELT1]], align 4
+; CHECK-NEXT:    ret <vscale x 1 x i32> [[A_UNPACK2]]
 ;
   %a = load %struct.test, ptr %x
   %b = extractvalue %struct.test %a, 1
@@ -18,9 +20,11 @@ define <vscale x 1 x i32> @load(ptr %x) {
 define void @store(ptr %x, <vscale x 1 x i32> %y, <vscale x 1 x i32> %z) {
 ; CHECK-LABEL: define void @store
 ; CHECK-SAME: (ptr [[X:%.*]], <vscale x 1 x i32> [[Y:%.*]], <vscale x 1 x i32> [[Z:%.*]]) {
-; CHECK-NEXT:    [[A:%.*]] = insertvalue [[STRUCT_TEST:%.*]] undef, <vscale x 1 x i32> [[Y]], 0
-; CHECK-NEXT:    [[B:%.*]] = insertvalue [[STRUCT_TEST]] [[A]], <vscale x 1 x i32> [[Z]], 1
-; CHECK-NEXT:    store [[STRUCT_TEST]] [[B]], ptr [[X]], align 4
+; CHECK-NEXT:    store <vscale x 1 x i32> [[Y]], ptr [[X]], align 4
+; CHECK-NEXT:    [[TMP1:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP2:%.*]] = shl i64 [[TMP1]], 2
+; CHECK-NEXT:    [[X_REPACK1:%.*]] = getelementptr inbounds i8, ptr [[X]], i64 [[TMP2]]
+; CHECK-NEXT:    store <vscale x 1 x i32> [[Z]], ptr [[X_REPACK1]], align 4
 ; CHECK-NEXT:    ret void
 ;
   %a = insertvalue %struct.test undef, <vscale x 1 x i32> %y, 0
@@ -28,3 +32,158 @@ define void @store(ptr %x, <vscale x 1 x i32> %y, <vscale x 1 x i32> %z) {
   store %struct.test %b, ptr %x
   ret void
 }
+
+define {<vscale x 16 x i8>, <vscale x 16 x i8>} @split_load(ptr %p) nounwind {
+; CHECK-LABEL: define { <vscale x 16 x i8>, <vscale x 16 x i8> } @split_load
+; CHECK-SAME: (ptr [[P:%.*]]) #[[ATTR0:[0-9]+]] {
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[R_UNPACK:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    [[TMP0:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } poison, <vscale x 16 x i8> [[R_UNPACK]], 0
+; CHECK-NEXT:    [[TMP1:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP2:%.*]] = shl i64 [[TMP1]], 4
+; CHECK-NEXT:    [[R_ELT1:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[TMP2]]
+; CHECK-NEXT:    [[R_UNPACK2:%.*]] = load <vscale x 16 x i8>, ptr [[R_ELT1]], align 16
+; CHECK-NEXT:    [[R3:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP0]], <vscale x 16 x i8> [[R_UNPACK2]], 1
+; CHECK-NEXT:    ret { <vscale x 16 x i8>, <vscale x 16 x i8> } [[R3]]
+;
+entry:
+  %r = load {<vscale x 16 x i8>, <vscale x 16 x i8>}, ptr %p
+  ret {<vscale x 16 x i8>, <vscale x 16 x i8>} %r
+}
+
+define {<vscale x 16 x i8>} @split_load_one(ptr %p) nounwind {
+; CHECK-LABEL: define { <vscale x 16 x i8> } @split_load_one
+; CHECK-SAME: (ptr [[P:%.*]]) #[[ATTR0]] {
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[R_UNPACK:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    [[R1:%.*]] = insertvalue { <vscale x 16 x i8> } poison, <vscale x 16 x i8> [[R_UNPACK]], 0
+; CHECK-NEXT:    ret { <vscale x 16 x i8> } [[R1]]
+;
+entry:
+  %r = load {<vscale x 16 x i8>}, ptr %p
+  ret {<vscale x 16 x i8>} %r
+}
+
+define void @split_store({<vscale x 4 x i32>, <vscale x 4 x i32>} %x, ptr %p) nounwind {
+; CHECK-LABEL: define void @split_store
+; CHECK-SAME: ({ <vscale x 4 x i32>, <vscale x 4 x i32> } [[X:%.*]], ptr [[P:%.*]]) #[[ATTR0]] {
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[X_ELT:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } [[X]], 0
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X_ELT]], ptr [[P]], align 16
+; CHECK-NEXT:    [[TMP0:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP1:%.*]] = shl i64 [[TMP0]], 4
+; CHECK-NEXT:    [[P_REPACK1:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[TMP1]]
+; CHECK-NEXT:    [[X_ELT2:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } [[X]], 1
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X_ELT2]], ptr [[P_REPACK1]], align 16
+; CHECK-NEXT:    ret void
+;
+entry:
+  store {<vscale x 4 x i32>, <vscale x 4 x i32>} %x, ptr %p
+  ret void
+}
+
+define void @split_store_one({<vscale x 4 x i32>} %x, ptr %p) nounwind {
+; CHECK-LABEL: define void @split_store_one
+; CHECK-SAME: ({ <vscale x 4 x i32> } [[X:%.*]], ptr [[P:%.*]]) #[[ATTR0]] {
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[TMP0:%.*]] = extractvalue { <vscale x 4 x i32> } [[X]], 0
+; CHECK-NEXT:    store <vscale x 4 x i32> [[TMP0]], ptr [[P]], align 16
+; CHECK-NEXT:    ret void
+;
+entry:
+  store {<vscale x 4 x i32>} %x, ptr %p
+  ret void
+}
+
+define {<16 x i8>, <16 x i8>} @check_v16i8_v4i32({<4 x i32>, <4 x i32>} %x, ptr %p) nounwind {
+; CHECK-LABEL: define { <16 x i8>, <16 x i8> } @check_v16i8_v4i32
+; CHECK-SAME: ({ <4 x i32>, <4 x i32> } [[X:%.*]], ptr [[P:%.*]]) #[[ATTR0]] {
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[X_ELT:%.*]] = extractvalue { <4 x i32>, <4 x i32> } [[X]], 0
+; CHECK-NEXT:    store <4 x i32> [[X_ELT]], ptr [[P]], align 16
+; CHECK-NEXT:    [[P_REPACK1:%.*]] = getelementptr inbounds nuw i8, ptr [[P]], i64 16
+; CHECK-NEXT:    [[X_ELT2:%.*]] = extractvalue { <4 x i32>, <4 x i32> } [[X]], 1
+; CHECK-NEXT:    store <4 x i32> [[X_ELT2]], ptr [[P_REPACK1]], align 16
+; CHECK-NEXT:    [[R_UNPACK_CAST:%.*]] = bitcast <4 x i32> [[X_ELT]] to <16 x i8>
+; CHECK-NEXT:    [[TMP0:%.*]] = insertvalue { <16 x i8>, <16 x i8> } poison, <16 x i8> [[R_UNPACK_CAST]], 0
+; CHECK-NEXT:    [[R_UNPACK4_CAST:%.*]] = bitcast <4 x i32> [[X_ELT2]] to <16 x i8>
+; CHECK-NEXT:    [[R5:%.*]] = insertvalue { <16 x i8>, <16 x i8> } [[TMP0]], <16 x i8> [[R_UNPACK4_CAST]], 1
+; CHECK-NEXT:    ret { <16 x i8>, <16 x i8> } [[R5]]
+;
+entry:
+  store {<4 x i32>, <4 x i32>} %x, ptr %p
+  %r = load {<16 x i8>, <16 x i8>}, ptr %p
+  ret {<16 x i8>, <16 x i8>} %r
+}
+
+define {<vscale x 16 x i8>, <vscale x 16 x i8>} @check_nxv16i8_nxv4i32({<vscale x 4 x i32>, <vscale x 4 x i32>} %x, ptr %p) nounwind {
+; CHECK-LABEL: define { <vscale x 16 x i8>, <vscale x 16 x i8> } @check_nxv16i8_nxv4i32
+; CHECK-SAME: ({ <vscale x 4 x i32>, <vscale x 4 x i32> } [[X:%.*]], ptr [[P:%.*]]) #[[ATTR0]] {
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[X_ELT:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } [[X]], 0
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X_ELT]], ptr [[P]], align 16
+; CHECK-NEXT:    [[TMP0:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP1:%.*]] = shl i64 [[TMP0]], 4
+; CHECK-NEXT:    [[P_REPACK1:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[TMP1]]
+; CHECK-NEXT:    [[X_ELT2:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } [[X]], 1
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X_ELT2]], ptr [[P_REPACK1]], align 16
+; CHECK-NEXT:    [[R_UNPACK:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    [[TMP2:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } poison, <vscale x 16 x i8> [[R_UNPACK]], 0
+; CHECK-NEXT:    [[TMP3:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP4:%.*]] = shl i64 [[TMP3]], 4
+; CHECK-NEXT:    [[R_ELT3:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[TMP4]]
+; CHECK-NEXT:    [[R_UNPACK4:%.*]] = load <vscale x 16 x i8>, ptr [[R_ELT3]], align 16
+; CHECK-NEXT:    [[R5:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP2]], <vscale x 16 x i8> [[R_UNPACK4]], 1
+; CHECK-NEXT:    ret { <vscale x 16 x i8>, <vscale x 16 x i8> } [[R5]]
+;
+entry:
+  store {<vscale x 4 x i32>, <vscale x 4 x i32>} %x, ptr %p
+  %r = load {<vscale x 16 x i8>, <vscale x 16 x i8>}, ptr %p
+  ret {<vscale x 16 x i8>, <vscale x 16 x i8>} %r
+}
+
+define {<vscale x 16 x i8>, <vscale x 16 x i8>} @alloca_nxv16i8_nxv4i32({<vscale x 4 x i32>, <vscale x 4 x i32>} %x) nounwind {
+; CHECK-LABEL: define { <vscale x 16 x i8>, <vscale x 16 x i8> } @alloca_nxv16i8_nxv4i32
+; CHECK-SAME: ({ <vscale x 4 x i32>, <vscale x 4 x i32> } [[X:%.*]]) #[[ATTR0]] {
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[P:%.*]] = alloca { <vscale x 4 x i32>, <vscale x 4 x i32> }, align 16
+; CHECK-NEXT:    [[X_ELT:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } [[X]], 0
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X_ELT]], ptr [[P]], align 16
+; CHECK-NEXT:    [[TMP0:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP1:%.*]] = shl i64 [[TMP0]], 4
+; CHECK-NEXT:    [[P_REPACK1:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[TMP1]]
+; CHECK-NEXT:    [[X_ELT2:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } [[X]], 1
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X_ELT2]], ptr [[P_REPACK1]], align 16
+; CHECK-NEXT:    [[R_UNPACK:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    [[TMP2:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } poison, <vscale x 16 x i8> [[R_UNPACK]], 0
+; CHECK-NEXT:    [[TMP3:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP4:%.*]] = shl i64 [[TMP3]], 4
+; CHECK-NEXT:    [[R_ELT3:%.*]] = getelementptr inbounds i8, ptr [[P]], i64 [[TMP4]]
+; CHECK-NEXT:    [[R_UNPACK4:%.*]] = load <vscale x 16 x i8>, ptr [[R_ELT3]], align 16
+; CHECK-NEXT:    [[R5:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP2]], <vscale x 16 x i8> [[R_UNPACK4]], 1
+; CHECK-NEXT:    ret { <vscale x 16 x i8>, <vscale x 16 x i8> } [[R5]]
+;
+entry:
+  %p = alloca {<vscale x 4 x i32>, <vscale x 4 x i32>}
+  store {<vscale x 4 x i32>, <vscale x 4 x i32>} %x, ptr %p
+  %r = load {<vscale x 16 x i8>, <vscale x 16 x i8>}, ptr %p
+  ret {<vscale x 16 x i8>, <vscale x 16 x i8>} %r
+}
+
+define { <16 x i8>, <32 x i8> } @differenttypes({ <4 x i32>, <8 x i32> } %a, ptr %p) {
+; CHECK-LABEL: define { <16 x i8>, <32 x i8> } @differenttypes
+; CHECK-SAME: ({ <4 x i32>, <8 x i32> } [[A:%.*]], ptr [[P:%.*]]) {
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    call void @llvm.lifetime.start.p0(i64 -1, ptr nonnull [[P]])
+; CHECK-NEXT:    store { <4 x i32>, <8 x i32> } [[A]], ptr [[P]], align 16
+; CHECK-NEXT:    [[TMP0:%.*]] = load { <16 x i8>, <32 x i8> }, ptr [[P]], align 16
+; CHECK-NEXT:    call void @llvm.lifetime.end.p0(i64 -1, ptr nonnull [[P]])
+; CHECK-NEXT:    ret { <16 x i8>, <32 x i8> } [[TMP0]]
+;
+entry:
+  call void @llvm.lifetime.start.p0(i64 -1, ptr nonnull %p) #5
+  store { <4 x i32>, <8 x i32> } %a, ptr %p, align 16
+  %2 = load { <16 x i8>, <32 x i8> }, ptr %p, align 16
+  call void @llvm.lifetime.end.p0(i64 -1, ptr nonnull %p) #5
+  ret { <16 x i8>, <32 x i8> } %2
+}
diff --git a/llvm/test/Transforms/InstCombine/select-cmp.ll b/llvm/test/Transforms/InstCombine/select-cmp.ll
index 7e5d5821d9f6a..f7505bd85f89e 100644
--- a/llvm/test/Transforms/InstCombine/select-cmp.ll
+++ b/llvm/test/Transforms/InstCombine/select-cmp.ll
@@ -23,18 +23,6 @@ define i1 @icmp_ne_common_op00(i1 %c, i6 %x, i6 %y, i6 %z) {
   ret i1 %r
 }
 
-define i1 @icmp_ne_samesign_common(i1 %c, i6 %x, i6 %y, i6 %z) {
-; CHECK-LABEL: @icmp_ne_samesign_common(
-; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
-; CHECK-NEXT:    [[R:%.*]] = icmp ne i6 [[X:%.*]], [[R_V]]
-; CHECK-NEXT:    ret i1 [[R]]
-;
-  %cmp1 = icmp samesign ne i6 %x, %y
-  %cmp2 = icmp ne i6 %x, %z
-  %r = select i1 %c, i1 %cmp1, i1 %cmp2
-  ret i1 %r
-}
-
 define i1 @icmp_ne_common_op01(i1 %c, i3 %x, i3 %y, i3 %z) {
 ; CHECK-LABEL: @icmp_ne_common_op01(
 ; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i3 [[Y:%.*]], i3 [[Z:%.*]]
@@ -83,18 +71,6 @@ define i1 @icmp_eq_common_op00(i1 %c, i5 %x, i5 %y, i5 %z) {
   ret i1 %r
 }
 
-define i1 @icmp_eq_samesign_common(i1 %c, i5 %x, i5 %y, i5 %z) {
-; CHECK-LABEL: @icmp_eq_samesign_common(
-; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i5 [[Y:%.*]], i5 [[Z:%.*]]
-; CHECK-NEXT:    [[R:%.*]] = icmp eq i5 [[X:%.*]], [[R_V]]
-; CHECK-NEXT:    ret i1 [[R]]
-;
-  %cmp1 = icmp eq i5 %x, %y
-  %cmp2 = icmp samesign eq i5 %x, %z
-  %r = select i1 %c, i1 %cmp1, i1 %cmp2
-  ret i1 %r
-}
-
 define <5 x i1> @icmp_eq_common_op01(<5 x i1> %c, <5 x i7> %x, <5 x i7> %y, <5 x i7> %z) {
 ; CHECK-LABEL: @icmp_eq_common_op01(
 ; CHECK-NEXT:    [[R_V:%.*]] = select <5 x i1> [[C:%.*]], <5 x i7> [[Y:%.*]], <5 x i7> [[Z:%.*]]
@@ -158,18 +134,6 @@ define i1 @icmp_slt_common(i1 %c, i6 %x, i6 %y, i6 %z) {
   ret i1 %r
 }
 
-define i1 @icmp_slt_samesign_common(i1 %c, i6 %x, i6 %y, i6 %z) {
-; CHECK-LABEL: @icmp_slt_samesign_common(
-; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
-; CHECK-NEXT:    [[R:%.*]] = icmp ult i6 [[X:%.*]], [[R_V]]
-; CHECK-NEXT:    ret i1 [[R]]
-;
-  %cmp1 = icmp samesign ult i6 %x, %y
-  %cmp2 = icmp slt i6 %x, %z
-  %r = select i1 %c, i1 %cmp1, i1 %cmp2
-  ret i1 %r
-}
-
 define i1 @icmp_sgt_common(i1 %c, i6 %x, i6 %y, i6 %z) {
 ; CHECK-LABEL: @icmp_sgt_common(
 ; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
@@ -182,18 +146,6 @@ define i1 @icmp_sgt_common(i1 %c, i6 %x, i6 %y, i6 %z) {
   ret i1 %r
 }
 
-define i1 @icmp_sgt_samesign_common(i1 %c, i6 %x, i6 %y, i6 %z) {
-; CHECK-LABEL: @icmp_sgt_samesign_common(
-; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
-; CHECK-NEXT:    [[R:%.*]] = icmp ugt i6 [[X:%.*]], [[R_V]]
-; CHECK-NEXT:    ret i1 [[R]]
-;
-  %cmp1 = icmp samesign ugt i6 %x, %y
-  %cmp2 = icmp sgt i6 %x, %z
-  %r = select i1 %c, i1 %cmp1, i1 %cmp2
-  ret i1 %r
-}
-
 define i1 @icmp_sle_common(i1 %c, i6 %x, i6 %y, i6 %z) {
 ; CHECK-LABEL: @icmp_sle_common(
 ; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
@@ -206,18 +158,6 @@ define i1 @icmp_sle_common(i1 %c, i6 %x, i6 %y, i6 %z) {
   ret i1 %r
 }
 
-define i1 @icmp_sle_samesign_common(i1 %c, i6 %x, i6 %y, i6 %z) {
-; CHECK-LABEL: @icmp_sle_samesign_common(
-; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
-; CHECK-NEXT:    [[R:%.*]] = icmp sge i6 [[X:%.*]], [[R_V]]
-; CHECK-NEXT:    ret i1 [[R]]
-;
-  %cmp1 = icmp sle i6 %y, %x
-  %cmp2 = icmp samesign ule i6 %z, %x
-  %r = select i1 %c, i1 %cmp1, i1 %cmp2
-  ret i1 %r
-}
-
 define i1 @icmp_sge_common(i1 %c, i6 %x, i6 %y, i6 %z) {
 ; CHECK-LABEL: @icmp_sge_common(
 ; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
@@ -230,18 +170,6 @@ define i1 @icmp_sge_common(i1 %c, i6 %x, i6 %y, i6 %z) {
   ret i1 %r
 }
 
-define i1 @icmp_sge_samesign_common(i1 %c, i6 %x, i6 %y, i6 %z) {
-; CHECK-LABEL: @icmp_sge_samesign_common(
-; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
-; CHECK-NEXT:    [[R:%.*]] = icmp sle i6 [[X:%.*]], [[R_V]]
-; CHECK-NEXT:    ret i1 [[R]]
-;
-  %cmp1 = icmp sge i6 %y, %x
-  %cmp2 = icmp samesign uge i6 %z, %x
-  %r = select i1 %c, i1 %cmp1, i1 %cmp2
-  ret i1 %r
-}
-
 define i1 @icmp_slt_sgt_common(i1 %c, i6 %x, i6 %y, i6 %z) {
 ; CHECK-LABEL: @icmp_slt_sgt_common(
 ; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
@@ -254,18 +182,6 @@ define i1 @icmp_slt_sgt_common(i1 %c, i6 %x, i6 %y, i6 %z) {
   ret i1 %r
 }
 
-define i1 @icmp_slt_sgt_samesign_common(i1 %c, i6 %x, i6 %y, i6 %z) {
-; CHECK-LABEL: @icmp_slt_sgt_samesign_common(
-; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
-; CHECK-NEXT:    [[R:%.*]] = icmp ult i6 [[X:%.*]], [[R_V]]
-; CHECK-NEXT:    ret i1 [[R]]
-;
-  %cmp1 = icmp samesign ult i6 %x, %y
-  %cmp2 = icmp sgt i6 %z, %x
-  %r = select i1 %c, i1 %cmp1, i1 %cmp2
-  ret i1 %r
-}
-
 define i1 @icmp_sle_sge_common(i1 %c, i6 %x, i6 %y, i6 %z) {
 ; CHECK-LABEL: @icmp_sle_sge_common(
 ; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
@@ -278,18 +194,6 @@ define i1 @icmp_sle_sge_common(i1 %c, i6 %x, i6 %y, i6 %z) {
   ret i1 %r
 }
 
-define i1 @icmp_sle_sge_samesign_common(i1 %c, i6 %x, i6 %y, i6 %z) {
-; CHECK-LABEL: @icmp_sle_sge_samesign_common(
-; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
-; CHECK-NEXT:    [[R:%.*]] = icmp sge i6 [[X:%.*]], [[R_V]]
-; CHECK-NEXT:    ret i1 [[R]]
-;
-  %cmp1 = icmp sle i6 %y, %x
-  %cmp2 = icmp samesign uge i6 %x, %z
-  %r = select i1 %c, i1 %cmp1, i1 %cmp2
-  ret i1 %r
-}
-
 define i1 @icmp_ult_common(i1 %c, i6 %x, i6 %y, i6 %z) {
 ; CHECK-LABEL: @icmp_ult_common(
 ; CHECK-NEXT:    [[R_V:%.*]] = select i1 [[C:%.*]], i6 [[Y:%.*]], i6 [[Z:%.*]]
diff --git a/llvm/test/Transforms/InterleavedAccess/RISCV/interleaved-accesses.ll b/llvm/test/Transforms/InterleavedAccess/RISCV/interleaved-accesses.ll
index e601ba4191459..88d5461083541 100644
--- a/llvm/test/Transforms/InterleavedAccess/RISCV/interleaved-accesses.ll
+++ b/llvm/test/Transforms/InterleavedAccess/RISCV/interleaved-accesses.ll
@@ -49,6 +49,8 @@ define void @load_factor2_vscale(ptr %ptr) {
 ; RV32-NEXT:    [[TMP3:%.*]] = insertvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } poison, <vscale x 8 x i32> [[TMP2]], 0
 ; RV32-NEXT:    [[TMP4:%.*]] = call <vscale x 8 x i32> @llvm.riscv.tuple.extract.nxv8i32.triscv.vector.tuple_nxv32i8_2t(target("riscv.vector.tuple", <vscale x 32 x i8>, 2) [[TMP1]], i32 1)
 ; RV32-NEXT:    [[TMP5:%.*]] = insertvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[TMP3]], <vscale x 8 x i32> [[TMP4]], 1
+; RV32-NEXT:    [[TMP6:%.*]] = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[TMP5]], 0
+; RV32-NEXT:    [[TMP7:%.*]] = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[TMP5]], 1
 ; RV32-NEXT:    ret void
 ;
 ; RV64-LABEL: @load_factor2_vscale(
@@ -57,10 +59,14 @@ define void @load_factor2_vscale(ptr %ptr) {
 ; RV64-NEXT:    [[TMP3:%.*]] = insertvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } poison, <vscale x 8 x i32> [[TMP2]], 0
 ; RV64-NEXT:    [[TMP4:%.*]] = call <vscale x 8 x i32> @llvm.riscv.tuple.extract.nxv8i32.triscv.vector.tuple_nxv32i8_2t(target("riscv.vector.tuple", <vscale x 32 x i8>, 2) [[TMP1]], i32 1)
 ; RV64-NEXT:    [[TMP5:%.*]] = insertvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[TMP3]], <vscale x 8 x i32> [[TMP4]], 1
+; RV64-NEXT:    [[TMP6:%.*]] = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[TMP5]], 0
+; RV64-NEXT:    [[TMP7:%.*]] = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[TMP5]], 1
 ; RV64-NEXT:    ret void
 ;
   %interleaved.vec = load <vscale x 16 x i32>, ptr %ptr
   %v = call { <vscale x 8 x i32>, <vscale x 8 x i32> } @llvm.vector.deinterleave2.nxv16i32(<vscale x 16 x i32> %interleaved.vec)
+  %t0 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %v, 0
+  %t1 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %v, 1
   ret void
 }
 
@@ -68,15 +74,21 @@ define void @load_factor2_vscale_as(ptr addrspace(1) %ptr) {
 ; RV32-LABEL: @load_factor2_vscale_as(
 ; RV32-NEXT:    [[INTERLEAVED_VEC:%.*]] = load <vscale x 16 x i32>, ptr addrspace(1) [[PTR:%.*]], align 64
 ; RV32-NEXT:    [[V:%.*]] = call { <vscale x 8 x i32>, <vscale x 8 x i32> } @llvm.vector.deinterleave2.nxv16i32(<vscale x 16 x i32> [[INTERLEAVED_VEC]])
+; RV32-NEXT:    [[T0:%.*]] = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[V]], 0
+; RV32-NEXT:    [[T1:%.*]] = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[V]], 1
 ; RV32-NEXT:    ret void
 ;
 ; RV64-LABEL: @load_factor2_vscale_as(
 ; RV64-NEXT:    [[INTERLEAVED_VEC:%.*]] = load <vscale x 16 x i32>, ptr addrspace(1) [[PTR:%.*]], align 64
 ; RV64-NEXT:    [[V:%.*]] = call { <vscale x 8 x i32>, <vscale x 8 x i32> } @llvm.vector.deinterleave2.nxv16i32(<vscale x 16 x i32> [[INTERLEAVED_VEC]])
+; RV64-NEXT:    [[T0:%.*]] = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[V]], 0
+; RV64-NEXT:    [[T1:%.*]] = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } [[V]], 1
 ; RV64-NEXT:    ret void
 ;
   %interleaved.vec = load <vscale x 16 x i32>, ptr addrspace(1) %ptr
   %v = call { <vscale x 8 x i32>, <vscale x 8 x i32> } @llvm.vector.deinterleave2.nxv16i32(<vscale x 16 x i32> %interleaved.vec)
+  %t0 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %v, 0
+  %t1 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %v, 1
   ret void
 }
 
@@ -127,6 +139,52 @@ define void @load_factor4(ptr %ptr) {
   ret void
 }
 
+define void @load_factor4_vscale(ptr %ptr) {
+; RV32-LABEL: @load_factor4_vscale(
+; RV32-NEXT:    [[TMP1:%.*]] = call target("riscv.vector.tuple", <vscale x 16 x i8>, 4) @llvm.riscv.vlseg4.triscv.vector.tuple_nxv16i8_4t.i32(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) poison, ptr [[PTR:%.*]], i32 -1, i32 5)
+; RV32-NEXT:    [[TMP2:%.*]] = call <vscale x 4 x i32> @llvm.riscv.tuple.extract.nxv4i32.triscv.vector.tuple_nxv16i8_4t(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) [[TMP1]], i32 0)
+; RV32-NEXT:    [[TMP3:%.*]] = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } poison, <vscale x 4 x i32> [[TMP2]], 0
+; RV32-NEXT:    [[TMP4:%.*]] = call <vscale x 4 x i32> @llvm.riscv.tuple.extract.nxv4i32.triscv.vector.tuple_nxv16i8_4t(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) [[TMP1]], i32 1)
+; RV32-NEXT:    [[TMP5:%.*]] = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP3]], <vscale x 4 x i32> [[TMP4]], 1
+; RV32-NEXT:    [[TMP6:%.*]] = call <vscale x 4 x i32> @llvm.riscv.tuple.extract.nxv4i32.triscv.vector.tuple_nxv16i8_4t(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) [[TMP1]], i32 2)
+; RV32-NEXT:    [[TMP7:%.*]] = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP5]], <vscale x 4 x i32> [[TMP6]], 2
+; RV32-NEXT:    [[TMP8:%.*]] = call <vscale x 4 x i32> @llvm.riscv.tuple.extract.nxv4i32.triscv.vector.tuple_nxv16i8_4t(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) [[TMP1]], i32 3)
+; RV32-NEXT:    [[TMP9:%.*]] = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP7]], <vscale x 4 x i32> [[TMP8]], 3
+; RV32-NEXT:    [[TMP10:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP9]], 0
+; RV32-NEXT:    [[TMP11:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP9]], 1
+; RV32-NEXT:    [[TMP12:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP9]], 2
+; RV32-NEXT:    [[TMP13:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP9]], 3
+; RV32-NEXT:    ret void
+;
+; RV64-LABEL: @load_factor4_vscale(
+; RV64-NEXT:    [[TMP1:%.*]] = call target("riscv.vector.tuple", <vscale x 16 x i8>, 4) @llvm.riscv.vlseg4.triscv.vector.tuple_nxv16i8_4t.i64(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) poison, ptr [[PTR:%.*]], i64 -1, i64 5)
+; RV64-NEXT:    [[TMP2:%.*]] = call <vscale x 4 x i32> @llvm.riscv.tuple.extract.nxv4i32.triscv.vector.tuple_nxv16i8_4t(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) [[TMP1]], i32 0)
+; RV64-NEXT:    [[TMP3:%.*]] = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } poison, <vscale x 4 x i32> [[TMP2]], 0
+; RV64-NEXT:    [[TMP4:%.*]] = call <vscale x 4 x i32> @llvm.riscv.tuple.extract.nxv4i32.triscv.vector.tuple_nxv16i8_4t(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) [[TMP1]], i32 1)
+; RV64-NEXT:    [[TMP5:%.*]] = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP3]], <vscale x 4 x i32> [[TMP4]], 1
+; RV64-NEXT:    [[TMP6:%.*]] = call <vscale x 4 x i32> @llvm.riscv.tuple.extract.nxv4i32.triscv.vector.tuple_nxv16i8_4t(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) [[TMP1]], i32 2)
+; RV64-NEXT:    [[TMP7:%.*]] = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP5]], <vscale x 4 x i32> [[TMP6]], 2
+; RV64-NEXT:    [[TMP8:%.*]] = call <vscale x 4 x i32> @llvm.riscv.tuple.extract.nxv4i32.triscv.vector.tuple_nxv16i8_4t(target("riscv.vector.tuple", <vscale x 16 x i8>, 4) [[TMP1]], i32 3)
+; RV64-NEXT:    [[TMP9:%.*]] = insertvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP7]], <vscale x 4 x i32> [[TMP8]], 3
+; RV64-NEXT:    [[TMP10:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP9]], 0
+; RV64-NEXT:    [[TMP11:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP9]], 1
+; RV64-NEXT:    [[TMP12:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP9]], 2
+; RV64-NEXT:    [[TMP13:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[TMP9]], 3
+; RV64-NEXT:    ret void
+;
+  %interleaved.vec = load <vscale x 16 x i32>, ptr %ptr
+  %d0 = call { <vscale x 8 x i32>, <vscale x 8 x i32> } @llvm.vector.deinterleave2.nxv16i32(<vscale x 16 x i32> %interleaved.vec)
+  %d0.0 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %d0, 0
+  %d0.1 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %d0, 1
+  %d1 = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.vector.deinterleave2.nxv8i32(<vscale x 8 x i32> %d0.0)
+  %t0 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d1, 0
+  %t1 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d1, 1
+  %d2 = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.vector.deinterleave2.nxv8i32(<vscale x 8 x i32> %d0.1)
+  %t2 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d2, 0
+  %t3 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d2, 1
+  ret void
+}
+
 define void @load_factor5(ptr %ptr) {
 ; RV32-LABEL: @load_factor5(
 ; RV32-NEXT:    [[TMP1:%.*]] = call { <4 x i32>, <4 x i32>, <4 x i32>, <4 x i32>, <4 x i32> } @llvm.riscv.seg5.load.v4i32.p0.i32(ptr [[PTR:%.*]], i32 4)
@@ -257,6 +315,90 @@ define void @load_factor8(ptr %ptr) {
   ret void
 }
 
+define void @load_factor8_vscale(ptr %ptr) {
+; RV32-LABEL: @load_factor8_vscale(
+; RV32-NEXT:    [[TMP1:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.vlseg8.triscv.vector.tuple_nxv8i8_8t.i32(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) poison, ptr [[PTR:%.*]], i32 -1, i32 5)
+; RV32-NEXT:    [[TMP2:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 0)
+; RV32-NEXT:    [[TMP3:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } poison, <vscale x 2 x i32> [[TMP2]], 0
+; RV32-NEXT:    [[TMP4:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 1)
+; RV32-NEXT:    [[TMP5:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP3]], <vscale x 2 x i32> [[TMP4]], 1
+; RV32-NEXT:    [[TMP6:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 2)
+; RV32-NEXT:    [[TMP7:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP5]], <vscale x 2 x i32> [[TMP6]], 2
+; RV32-NEXT:    [[TMP8:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 3)
+; RV32-NEXT:    [[TMP9:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP7]], <vscale x 2 x i32> [[TMP8]], 3
+; RV32-NEXT:    [[TMP10:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 4)
+; RV32-NEXT:    [[TMP11:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP9]], <vscale x 2 x i32> [[TMP10]], 4
+; RV32-NEXT:    [[TMP12:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 5)
+; RV32-NEXT:    [[TMP13:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP11]], <vscale x 2 x i32> [[TMP12]], 5
+; RV32-NEXT:    [[TMP14:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 6)
+; RV32-NEXT:    [[TMP15:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP13]], <vscale x 2 x i32> [[TMP14]], 6
+; RV32-NEXT:    [[TMP16:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 7)
+; RV32-NEXT:    [[TMP17:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP15]], <vscale x 2 x i32> [[TMP16]], 7
+; RV32-NEXT:    [[TMP18:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 0
+; RV32-NEXT:    [[TMP19:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 1
+; RV32-NEXT:    [[TMP20:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 2
+; RV32-NEXT:    [[TMP21:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 3
+; RV32-NEXT:    [[TMP22:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 4
+; RV32-NEXT:    [[TMP23:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 5
+; RV32-NEXT:    [[TMP24:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 6
+; RV32-NEXT:    [[TMP25:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 7
+; RV32-NEXT:    ret void
+;
+; RV64-LABEL: @load_factor8_vscale(
+; RV64-NEXT:    [[TMP1:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.vlseg8.triscv.vector.tuple_nxv8i8_8t.i64(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) poison, ptr [[PTR:%.*]], i64 -1, i64 5)
+; RV64-NEXT:    [[TMP2:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 0)
+; RV64-NEXT:    [[TMP3:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } poison, <vscale x 2 x i32> [[TMP2]], 0
+; RV64-NEXT:    [[TMP4:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 1)
+; RV64-NEXT:    [[TMP5:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP3]], <vscale x 2 x i32> [[TMP4]], 1
+; RV64-NEXT:    [[TMP6:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 2)
+; RV64-NEXT:    [[TMP7:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP5]], <vscale x 2 x i32> [[TMP6]], 2
+; RV64-NEXT:    [[TMP8:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 3)
+; RV64-NEXT:    [[TMP9:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP7]], <vscale x 2 x i32> [[TMP8]], 3
+; RV64-NEXT:    [[TMP10:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 4)
+; RV64-NEXT:    [[TMP11:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP9]], <vscale x 2 x i32> [[TMP10]], 4
+; RV64-NEXT:    [[TMP12:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 5)
+; RV64-NEXT:    [[TMP13:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP11]], <vscale x 2 x i32> [[TMP12]], 5
+; RV64-NEXT:    [[TMP14:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 6)
+; RV64-NEXT:    [[TMP15:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP13]], <vscale x 2 x i32> [[TMP14]], 6
+; RV64-NEXT:    [[TMP16:%.*]] = call <vscale x 2 x i32> @llvm.riscv.tuple.extract.nxv2i32.triscv.vector.tuple_nxv8i8_8t(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], i32 7)
+; RV64-NEXT:    [[TMP17:%.*]] = insertvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP15]], <vscale x 2 x i32> [[TMP16]], 7
+; RV64-NEXT:    [[TMP18:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 0
+; RV64-NEXT:    [[TMP19:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 1
+; RV64-NEXT:    [[TMP20:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 2
+; RV64-NEXT:    [[TMP21:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 3
+; RV64-NEXT:    [[TMP22:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 4
+; RV64-NEXT:    [[TMP23:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 5
+; RV64-NEXT:    [[TMP24:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 6
+; RV64-NEXT:    [[TMP25:%.*]] = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32>, <vscale x 2 x i32> } [[TMP17]], 7
+; RV64-NEXT:    ret void
+;
+  %interleaved.vec = load <vscale x 16 x i32>, ptr %ptr
+  %d0 = call { <vscale x 8 x i32>, <vscale x 8 x i32> } @llvm.vector.deinterleave2.nxv16i32(<vscale x 16 x i32> %interleaved.vec)
+  %d0.0 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %d0, 0
+  %d0.1 = extractvalue { <vscale x 8 x i32>, <vscale x 8 x i32> } %d0, 1
+
+  %d1 = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.vector.deinterleave2.nxv8i32(<vscale x 8 x i32> %d0.0)
+  %d1.0 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d1, 0
+  %d1.1 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d1, 1
+  %d2 = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.vector.deinterleave2.nxv8i32(<vscale x 8 x i32> %d0.1)
+  %d2.0 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d2, 0
+  %d2.1 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32> } %d2, 1
+
+  %d3 = call { <vscale x 2 x i32>, <vscale x 2 x i32> } @llvm.vector.deinterleave2.nxv4i32(<vscale x 4 x i32> %d1.0)
+  %t0 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d3, 0
+  %t1 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d3, 1
+  %d4 = call { <vscale x 2 x i32>, <vscale x 2 x i32> } @llvm.vector.deinterleave2.nxv4i32(<vscale x 4 x i32> %d1.1)
+  %t2 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d4, 0
+  %t3 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d4, 1
+  %d5 = call { <vscale x 2 x i32>, <vscale x 2 x i32> } @llvm.vector.deinterleave2.nxv4i32(<vscale x 4 x i32> %d2.0)
+  %t4 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d5, 0
+  %t5 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d5, 1
+  %d6 = call { <vscale x 2 x i32>, <vscale x 2 x i32> } @llvm.vector.deinterleave2.nxv4i32(<vscale x 4 x i32> %d2.1)
+  %t6 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d6, 0
+  %t7 = extractvalue { <vscale x 2 x i32>, <vscale x 2 x i32> } %d6, 1
+  ret void
+}
+
 
 define void @store_factor2(ptr %ptr, <8 x i8> %v0, <8 x i8> %v1) {
 ; RV32-LABEL: @store_factor2(
@@ -382,6 +524,30 @@ define void @store_factor4(ptr %ptr, <4 x i32> %v0, <4 x i32> %v1, <4 x i32> %v2
   ret void
 }
 
+define void @store_factor4_vscale(ptr %ptr, <vscale x 8 x i8> %v0, <vscale x 8 x i8> %v1) {
+; RV32-LABEL: @store_factor4_vscale(
+; RV32-NEXT:    [[TMP1:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 4) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_4t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) poison, <vscale x 8 x i8> [[V0:%.*]], i32 0)
+; RV32-NEXT:    [[TMP2:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 4) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_4t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) [[TMP1]], <vscale x 8 x i8> [[V0]], i32 1)
+; RV32-NEXT:    [[TMP3:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 4) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_4t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) [[TMP2]], <vscale x 8 x i8> [[V1:%.*]], i32 2)
+; RV32-NEXT:    [[TMP4:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 4) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_4t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) [[TMP3]], <vscale x 8 x i8> [[V1]], i32 3)
+; RV32-NEXT:    call void @llvm.riscv.vsseg4.triscv.vector.tuple_nxv8i8_4t.i32(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) [[TMP4]], ptr [[PTR:%.*]], i32 -1, i32 3)
+; RV32-NEXT:    ret void
+;
+; RV64-LABEL: @store_factor4_vscale(
+; RV64-NEXT:    [[TMP1:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 4) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_4t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) poison, <vscale x 8 x i8> [[V0:%.*]], i32 0)
+; RV64-NEXT:    [[TMP2:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 4) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_4t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) [[TMP1]], <vscale x 8 x i8> [[V0]], i32 1)
+; RV64-NEXT:    [[TMP3:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 4) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_4t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) [[TMP2]], <vscale x 8 x i8> [[V1:%.*]], i32 2)
+; RV64-NEXT:    [[TMP4:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 4) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_4t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) [[TMP3]], <vscale x 8 x i8> [[V1]], i32 3)
+; RV64-NEXT:    call void @llvm.riscv.vsseg4.triscv.vector.tuple_nxv8i8_4t.i64(target("riscv.vector.tuple", <vscale x 8 x i8>, 4) [[TMP4]], ptr [[PTR:%.*]], i64 -1, i64 3)
+; RV64-NEXT:    ret void
+;
+  %i0 = call <vscale x 16 x i8> @llvm.vector.interleave2.nxv8i8(<vscale x 8 x i8> %v0, <vscale x 8 x i8> %v1)
+  %i1 = call <vscale x 16 x i8> @llvm.vector.interleave2.nxv8i8(<vscale x 8 x i8> %v0, <vscale x 8 x i8> %v1)
+  %i2 = call <vscale x 32 x i8> @llvm.vector.interleave2.nxv16i8(<vscale x 16 x i8> %i0, <vscale x 16 x i8> %i1)
+  store <vscale x 32 x i8> %i2, ptr %ptr, align 4
+  ret void
+}
+
 
 define void @store_factor2_wide(ptr %ptr, <8 x i32> %v0, <8 x i32> %v1) {
 ; RV32-LABEL: @store_factor2_wide(
@@ -455,6 +621,44 @@ define void @store_factor4_wide(ptr %ptr, <8 x i32> %v0, <8 x i32> %v1, <8 x i32
   ret void
 }
 
+define void @store_factor8_vscale(ptr %ptr, <vscale x 8 x i8> %v0, <vscale x 8 x i8> %v1, <vscale x 8 x i8> %v2, <vscale x 8 x i8> %v3) {
+; RV32-LABEL: @store_factor8_vscale(
+; RV32-NEXT:    [[TMP1:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) poison, <vscale x 8 x i8> [[V0:%.*]], i32 0)
+; RV32-NEXT:    [[TMP2:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], <vscale x 8 x i8> [[V2:%.*]], i32 1)
+; RV32-NEXT:    [[TMP3:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP2]], <vscale x 8 x i8> [[V0]], i32 2)
+; RV32-NEXT:    [[TMP4:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP3]], <vscale x 8 x i8> [[V2]], i32 3)
+; RV32-NEXT:    [[TMP5:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP4]], <vscale x 8 x i8> [[V1:%.*]], i32 4)
+; RV32-NEXT:    [[TMP6:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP5]], <vscale x 8 x i8> [[V3:%.*]], i32 5)
+; RV32-NEXT:    [[TMP7:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP6]], <vscale x 8 x i8> [[V1]], i32 6)
+; RV32-NEXT:    [[TMP8:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP7]], <vscale x 8 x i8> [[V3]], i32 7)
+; RV32-NEXT:    call void @llvm.riscv.vsseg8.triscv.vector.tuple_nxv8i8_8t.i32(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP8]], ptr [[PTR:%.*]], i32 -1, i32 3)
+; RV32-NEXT:    ret void
+;
+; RV64-LABEL: @store_factor8_vscale(
+; RV64-NEXT:    [[TMP1:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) poison, <vscale x 8 x i8> [[V0:%.*]], i32 0)
+; RV64-NEXT:    [[TMP2:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP1]], <vscale x 8 x i8> [[V2:%.*]], i32 1)
+; RV64-NEXT:    [[TMP3:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP2]], <vscale x 8 x i8> [[V0]], i32 2)
+; RV64-NEXT:    [[TMP4:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP3]], <vscale x 8 x i8> [[V2]], i32 3)
+; RV64-NEXT:    [[TMP5:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP4]], <vscale x 8 x i8> [[V1:%.*]], i32 4)
+; RV64-NEXT:    [[TMP6:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP5]], <vscale x 8 x i8> [[V3:%.*]], i32 5)
+; RV64-NEXT:    [[TMP7:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP6]], <vscale x 8 x i8> [[V1]], i32 6)
+; RV64-NEXT:    [[TMP8:%.*]] = call target("riscv.vector.tuple", <vscale x 8 x i8>, 8) @llvm.riscv.tuple.insert.triscv.vector.tuple_nxv8i8_8t.nxv8i8(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP7]], <vscale x 8 x i8> [[V3]], i32 7)
+; RV64-NEXT:    call void @llvm.riscv.vsseg8.triscv.vector.tuple_nxv8i8_8t.i64(target("riscv.vector.tuple", <vscale x 8 x i8>, 8) [[TMP8]], ptr [[PTR:%.*]], i64 -1, i64 3)
+; RV64-NEXT:    ret void
+;
+  %i0 = call <vscale x 16 x i8> @llvm.vector.interleave2.nxv8i8(<vscale x 8 x i8> %v0, <vscale x 8 x i8> %v1)
+  %i1 = call <vscale x 16 x i8> @llvm.vector.interleave2.nxv8i8(<vscale x 8 x i8> %v0, <vscale x 8 x i8> %v1)
+  %i2 = call <vscale x 32 x i8> @llvm.vector.interleave2.nxv16i8(<vscale x 16 x i8> %i0, <vscale x 16 x i8> %i1)
+
+  %i3 = call <vscale x 16 x i8> @llvm.vector.interleave2.nxv8i8(<vscale x 8 x i8> %v2, <vscale x 8 x i8> %v3)
+  %i4 = call <vscale x 16 x i8> @llvm.vector.interleave2.nxv8i8(<vscale x 8 x i8> %v2, <vscale x 8 x i8> %v3)
+  %i5 = call <vscale x 32 x i8> @llvm.vector.interleave2.nxv16i8(<vscale x 16 x i8> %i3, <vscale x 16 x i8> %i4)
+
+  %i6 = call <vscale x 64 x i8> @llvm.vector.interleave2.nxv32i8(<vscale x 32 x i8> %i2, <vscale x 32 x i8> %i5)
+  store <vscale x 64 x i8> %i6, ptr %ptr, align 4
+  ret void
+}
+
 define void @load_factor2_fp128(ptr %ptr) {
 ; RV32-LABEL: @load_factor2_fp128(
 ; RV32-NEXT:    [[INTERLEAVED_VEC:%.*]] = load <4 x fp128>, ptr [[PTR:%.*]], align 16
diff --git a/llvm/test/Transforms/LoopVectorize/AArch64/vplan-printing.ll b/llvm/test/Transforms/LoopVectorize/AArch64/vplan-printing.ll
index ccf8540b4ebf7..32ecedc535b4d 100644
--- a/llvm/test/Transforms/LoopVectorize/AArch64/vplan-printing.ll
+++ b/llvm/test/Transforms/LoopVectorize/AArch64/vplan-printing.ll
@@ -1,5 +1,5 @@
 ; REQUIRES: asserts
-; RUN: opt -mattr=+neon,+dotprod -passes=loop-vectorize -debug-only=loop-vectorize -force-vector-interleave=1 -disable-output %s 2>&1 | FileCheck %s
+; RUN: opt -mattr=+neon,+dotprod -passes=loop-vectorize -debug-only=loop-vectorize -force-vector-interleave=1 -enable-epilogue-vectorization -epilogue-vectorization-force-VF=2 -disable-output %s 2>&1 | FileCheck %s
 
 target datalayout = "e-m:e-i8:8:32-i16:16:32-i64:64-i128:128-n32:64-S128"
 target triple = "aarch64-none-unknown-elf"
@@ -70,7 +70,71 @@ define i32 @print_partial_reduction(ptr %a, ptr %b) {
 ; CHECK-NEXT:   IR   %add.lcssa = phi i32 [ %add, %for.body ] (extra operand: vp<[[EXTRACT]]> from middle.block)
 ; CHECK-NEXT: No successors
 ; CHECK-NEXT: }
-;
+; CHECK: VPlan 'Final VPlan for VF={8,16},UF={1}' {
+; CHECK-NEXT: Live-in ir<[[EP_VFxUF:.+]]> = VF * UF
+; CHECK-NEXT: Live-in ir<[[EP_VEC_TC:.+]]> = vector-trip-count
+; CHECK-NEXT: Live-in ir<1024> = original trip-count
+; CHECK-EMPTY:
+; CHECK-NEXT: ir-bb<entry>:
+; CHECK-NEXT: Successor(s): ir-bb<scalar.ph>, ir-bb<vector.main.loop.iter.check>
+; CHECK-EMPTY:
+; CHECK-NEXT: ir-bb<vector.main.loop.iter.check>:
+; CHECK-NEXT: Successor(s): ir-bb<scalar.ph>, ir-bb<vector.ph>
+; CHECK-EMPTY:
+; CHECK-NEXT: ir-bb<vector.ph>:
+; CHECK-NEXT: Successor(s): vector loop
+; CHECK-EMPTY:
+; CHECK-NEXT: <x1> vector loop: {
+; CHECK-NEXT:   vector.body:
+; CHECK-NEXT:     SCALAR-PHI vp<[[EP_IV:%.+]]> = phi ir<0>, vp<%index.next>
+; CHECK-NEXT:     WIDEN-REDUCTION-PHI ir<%accum> = phi ir<0>, ir<%add> (VF scaled by 1/4)
+; CHECK-NEXT:     vp<[[STEPS:%.+]]> = SCALAR-STEPS vp<[[EP_IV]]>, ir<1>
+; CHECK-NEXT:     CLONE ir<%gep.a> = getelementptr ir<%a>, vp<[[STEPS]]>
+; CHECK-NEXT:     vp<[[PTR_A:%.+]]> = vector-pointer ir<%gep.a>
+; CHECK-NEXT:     WIDEN ir<%load.a> = load vp<[[PTR_A]]>
+; CHECK-NEXT:     WIDEN-CAST ir<%ext.a> = zext ir<%load.a> to i32
+; CHECK-NEXT:     CLONE ir<%gep.b> = getelementptr ir<%b>, vp<[[STEPS]]>
+; CHECK-NEXT:     vp<[[PTR_B:%.+]]> = vector-pointer ir<%gep.b>
+; CHECK-NEXT:     WIDEN ir<%load.b> = load vp<[[PTR_B]]>
+; CHECK-NEXT:     WIDEN-CAST ir<%ext.b> = zext ir<%load.b> to i32
+; CHECK-NEXT:     WIDEN ir<%mul> = mul ir<%ext.b>, ir<%ext.a>
+; CHECK-NEXT:     PARTIAL-REDUCE ir<%add> = add ir<%mul>, ir<%accum>
+; CHECK-NEXT:     EMIT vp<[[EP_IV_NEXT:%.+]]> = add nuw vp<[[EP_IV]]>, ir<16>
+; CHECK-NEXT:     EMIT branch-on-count vp<[[EP_IV_NEXT]]>, ir<1024>
+; CHECK-NEXT:   No successors
+; CHECK-NEXT: }
+; CHECK-NEXT: Successor(s): ir-bb<middle.block>
+; CHECK-EMPTY:
+; CHECK-NEXT: ir-bb<middle.block>:
+; CHECK-NEXT:   EMIT vp<[[RED_RESULT:%.+]]> = compute-reduction-result ir<%accum>, ir<%add>
+; CHECK-NEXT:   EMIT vp<[[EXTRACT:%.+]]> = extract-from-end vp<[[RED_RESULT]]>, ir<1>
+; CHECK-NEXT:   EMIT vp<[[CMP:%.+]]> = icmp eq ir<1024>, ir<1024>
+; CHECK-NEXT:   EMIT branch-on-cond vp<[[CMP]]>
+; CHECK-NEXT: Successor(s): ir-bb<exit>, ir-bb<scalar.ph>
+; CHECK-EMPTY:
+; CHECK-NEXT: ir-bb<exit>:
+; CHECK-NEXT:   IR   %add.lcssa = phi i32 [ %add, %for.body ] (extra operand: vp<[[EXTRACT]]> from ir-bb<middle.block>)
+; CHECK-NEXT: No successors
+; CHECK-EMPTY:
+; CHECK-NEXT: ir-bb<scalar.ph>:
+; CHECK-NEXT:   EMIT vp<[[EP_RESUME:%.+]]> = resume-phi ir<1024>, ir<0>
+; CHECK-NEXT:   EMIT vp<[[EP_MERGE:%.+]]> = resume-phi vp<[[RED_RESULT]]>, ir<0>
+; CHECK-NEXT: Successor(s): ir-bb<for.body>
+; CHECK-EMPTY:
+; CHECK-NEXT: ir-bb<for.body>:
+; CHECK-NEXT:   IR   %accum = phi i32 [ 0, %scalar.ph ], [ %add, %for.body ] (extra operand: vp<[[EP_MERGE]]> from ir-bb<scalar.ph>)
+; CHECK-NEXT:   IR   %gep.a = getelementptr i8, ptr %a, i64 %iv
+; CHECK-NEXT:   IR   %load.a = load i8, ptr %gep.a, align 1
+; CHECK-NEXT:   IR   %ext.a = zext i8 %load.a to i32
+; CHECK-NEXT:   IR   %gep.b = getelementptr i8, ptr %b, i64 %iv
+; CHECK-NEXT:   IR   %load.b = load i8, ptr %gep.b, align 1
+; CHECK-NEXT:   IR   %ext.b = zext i8 %load.b to i32
+; CHECK-NEXT:   IR   %mul = mul i32 %ext.b, %ext.a
+; CHECK-NEXT:   IR   %add = add i32 %mul, %accum
+; CHECK-NEXT:   IR   %iv.next = add i64 %iv, 1
+; CHECK-NEXT:   IR   %exitcond.not = icmp eq i64 %iv.next, 1024
+; CHECK-NEXT: No successors
+; CHECK-NEXT: }
 entry:
   br label %for.body
 
diff --git a/llvm/test/Transforms/LoopVectorize/dbg-outer-loop-vect.ll b/llvm/test/Transforms/LoopVectorize/dbg-outer-loop-vect.ll
index 66aceab9fb27c..15510060e0c6c 100644
--- a/llvm/test/Transforms/LoopVectorize/dbg-outer-loop-vect.ll
+++ b/llvm/test/Transforms/LoopVectorize/dbg-outer-loop-vect.ll
@@ -15,8 +15,8 @@ define void @foo(ptr %h) !dbg !4 {
 ; CHECK-NEXT:    [[INDEX:%.*]] = phi i64 [ 0, [[VECTOR_PH]] ], [ [[INDEX_NEXT:%.*]], [[FOR_COND_CLEANUP32:%.*]] ]
 ; CHECK-NEXT:    br label [[FOR_COND5_PREHEADER1:%.*]], !dbg [[DBG21]]
 ; CHECK:       for.cond5.preheader1:
-; CHECK-NEXT:    [[VEC_PHI:%.*]] = phi <4 x i64> [ zeroinitializer, [[VECTOR_BODY]] ], [ [[TMP4:%.*]], [[FOR_COND5_PREHEADER1]] ], !dbg [[DBG21]]
-; CHECK-NEXT:    [[TMP0:%.*]] = getelementptr i32, ptr [[H]], <4 x i64> [[VEC_PHI]], !dbg [[DBG21]]
+; CHECK-NEXT:    [[VEC_PHI:%.*]] = phi <4 x i64> [ zeroinitializer, [[VECTOR_BODY]] ], [ [[TMP4:%.*]], [[FOR_COND5_PREHEADER1]] ], !dbg [[DBG34:![0-9]+]]
+; CHECK-NEXT:    [[TMP0:%.*]] = getelementptr i32, ptr [[H]], <4 x i64> [[VEC_PHI]]
 ; CHECK-NEXT:    call void @llvm.masked.scatter.v4i32.v4p0(<4 x i32> zeroinitializer, <4 x ptr> [[TMP0]], i32 4, <4 x i1> splat (i1 true)), !dbg [[DBG22:![0-9]+]]
 ; CHECK-NEXT:    [[TMP1:%.*]] = getelementptr i32, <4 x ptr> [[TMP0]], i64 1, !dbg [[DBG22]]
 ; CHECK-NEXT:    call void @llvm.masked.scatter.v4i32.v4p0(<4 x i32> splat (i32 1), <4 x ptr> [[TMP1]], i32 4, <4 x i1> splat (i1 true)), !dbg [[DBG22]]
@@ -42,7 +42,7 @@ define void @foo(ptr %h) !dbg !4 {
 ; CHECK-NEXT:      #dbg_value(i64 [[I_023]], [[META11]], !DIExpression(), [[META20]])
 ; CHECK-NEXT:    br label [[FOR_COND5_PREHEADER:%.*]], !dbg [[DBG26]]
 ; CHECK:       for.cond5.preheader:
-; CHECK-NEXT:    [[L_022:%.*]] = phi i64 [ 0, [[FOR_COND1_PREHEADER]] ], [ [[INC10:%.*]], [[FOR_COND5_PREHEADER]] ]
+; CHECK-NEXT:    [[L_022:%.*]] = phi i64 [ 0, [[FOR_COND1_PREHEADER]] ], [ [[INC10:%.*]], [[FOR_COND5_PREHEADER]] ], !dbg [[DBG34]]
 ; CHECK-NEXT:    [[TMP10:%.*]] = getelementptr i32, ptr [[H]], i64 [[L_022]]
 ; CHECK-NEXT:    store i32 0, ptr [[TMP10]], align 4, !dbg [[DBG22]]
 ; CHECK-NEXT:    [[ARRAYIDX_1:%.*]] = getelementptr i32, ptr [[TMP10]], i64 1, !dbg [[DBG31:![0-9]+]]
@@ -72,7 +72,7 @@ for.cond1.preheader:                              ; preds = %entry, %for.cond.cl
   br label %for.cond5.preheader, !dbg !22
 
 for.cond5.preheader:                              ; preds = %for.cond1.preheader, %for.cond5.preheader
-  %l.022 = phi i64 [ 0, %for.cond1.preheader ], [ %inc10, %for.cond5.preheader ]
+  %l.022 = phi i64 [ 0, %for.cond1.preheader ], [ %inc10, %for.cond5.preheader ], !dbg !34
   %0 = getelementptr i32, ptr %h, i64 %l.022
   store i32 0, ptr %0, align 4, !dbg !24
   %arrayidx.1 = getelementptr i32, ptr %0, i64 1, !dbg !26
@@ -134,6 +134,7 @@ declare void @llvm.dbg.value(metadata, metadata, metadata)
 !31 = distinct !{!31, !21, !32, !33}
 !32 = !DILocation(line: 13, column: 13, scope: !12)
 !33 = !{!"llvm.loop.vectorize.enable", i1 true}
+!34 = !DILocation(line: 10, column: 5, scope: !12)
 ;.
 ; CHECK: [[META0:![0-9]+]] = distinct !DICompileUnit(language: DW_LANG_C11, file: [[META1:![0-9]+]], producer: "clang", isOptimized: true, runtimeVersion: 0, emissionKind: FullDebug, splitDebugInlining: false, nameTableKind: None)
 ; CHECK: [[META1]] = !DIFile(filename: "outer-loop-vect.c", directory: {{.*}})
diff --git a/llvm/test/Transforms/LoopVectorize/dbg.value.ll b/llvm/test/Transforms/LoopVectorize/dbg.value.ll
index 16d6f8bdde306..19ef3ccf769a1 100644
--- a/llvm/test/Transforms/LoopVectorize/dbg.value.ll
+++ b/llvm/test/Transforms/LoopVectorize/dbg.value.ll
@@ -51,10 +51,8 @@ attributes #1 = { nounwind readnone }
 !0 = !DIGlobalVariableExpression(var: !1, expr: !DIExpression())
 !1 = !DIGlobalVariable(name: "A", scope: null, file: !2, line: 1, type: !3, isLocal: false, isDefinition: true)
 !2 = !DIFile(filename: "test", directory: "/path/to/somewhere")
-!3 = !DICompositeType(tag: DW_TAG_array_type, baseType: !4, size: 32768, align: 32, elements: !5)
+!3 = !DICompositeType(tag: DW_TAG_array_type, baseType: !4, size: 32768, align: 32)
 !4 = !DIBasicType(name: "int", size: 32, align: 32, encoding: DW_ATE_signed)
-!5 = !{!6}
-!6 = !{i32 786465, i64 0, i64 1024}
 !7 = !DIGlobalVariableExpression(var: !8, expr: !DIExpression())
 !8 = !DIGlobalVariable(name: "B", scope: null, file: !2, line: 2, type: !3, isLocal: false, isDefinition: true)
 !9 = !DIGlobalVariableExpression(var: !10, expr: !DIExpression())
diff --git a/llvm/test/Transforms/NewGVN/vscale.ll b/llvm/test/Transforms/NewGVN/vscale.ll
new file mode 100644
index 0000000000000..500d58baed1a2
--- /dev/null
+++ b/llvm/test/Transforms/NewGVN/vscale.ll
@@ -0,0 +1,648 @@
+; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
+; RUN: opt -S < %s -passes=newgvn,dce | FileCheck %s
+
+; Analyze Load from clobbering Load.
+
+define <vscale x 4 x i32> @load_store_clobber_load(ptr %p)  {
+; CHECK-LABEL: @load_store_clobber_load(
+; CHECK-NEXT:    [[LOAD1:%.*]] = load <vscale x 4 x i32>, ptr [[P:%.*]], align 16
+; CHECK-NEXT:    store <vscale x 4 x i32> zeroinitializer, ptr undef, align 16
+; CHECK-NEXT:    [[ADD:%.*]] = add <vscale x 4 x i32> [[LOAD1]], [[LOAD1]]
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[ADD]]
+;
+  %load1 = load <vscale x 4 x i32>, ptr %p
+  store <vscale x 4 x i32> zeroinitializer, ptr undef
+  %load2 = load <vscale x 4 x i32>, ptr %p ; <- load to be eliminated
+  %add = add <vscale x 4 x i32> %load1, %load2
+  ret <vscale x 4 x i32> %add
+}
+
+define <vscale x 4 x i32> @load_store_clobber_load_mayalias(ptr %p, ptr %p2) {
+; CHECK-LABEL: @load_store_clobber_load_mayalias(
+; CHECK-NEXT:    [[LOAD1:%.*]] = load <vscale x 4 x i32>, ptr [[P:%.*]], align 16
+; CHECK-NEXT:    store <vscale x 4 x i32> zeroinitializer, ptr [[P2:%.*]], align 16
+; CHECK-NEXT:    [[LOAD2:%.*]] = load <vscale x 4 x i32>, ptr [[P]], align 16
+; CHECK-NEXT:    [[SUB:%.*]] = sub <vscale x 4 x i32> [[LOAD1]], [[LOAD2]]
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[SUB]]
+;
+  %load1 = load <vscale x 4 x i32>, ptr %p
+  store <vscale x 4 x i32> zeroinitializer, ptr %p2
+  %load2 = load <vscale x 4 x i32>, ptr %p
+  %sub = sub <vscale x 4 x i32> %load1, %load2
+  ret <vscale x 4 x i32> %sub
+}
+
+define <vscale x 4 x i32> @load_store_clobber_load_noalias(ptr noalias %p, ptr noalias %p2) {
+; CHECK-LABEL: @load_store_clobber_load_noalias(
+; CHECK-NEXT:    [[LOAD1:%.*]] = load <vscale x 4 x i32>, ptr [[P:%.*]], align 16
+; CHECK-NEXT:    store <vscale x 4 x i32> zeroinitializer, ptr [[P2:%.*]], align 16
+; CHECK-NEXT:    [[ADD:%.*]] = add <vscale x 4 x i32> [[LOAD1]], [[LOAD1]]
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[ADD]]
+;
+  %load1 = load <vscale x 4 x i32>, ptr %p
+  store <vscale x 4 x i32> zeroinitializer, ptr %p2
+  %load2 = load <vscale x 4 x i32>, ptr %p ; <- load to be eliminated
+  %add = add <vscale x 4 x i32> %load1, %load2
+  ret <vscale x 4 x i32> %add
+}
+
+; BasicAA return MayAlias for %gep1,%gep2, could improve as MustAlias.
+define i32 @load_clobber_load_gep1(ptr %p) {
+; CHECK-LABEL: @load_clobber_load_gep1(
+; CHECK-NEXT:    [[GEP1:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P:%.*]], i64 0, i64 1
+; CHECK-NEXT:    [[LOAD1:%.*]] = load i32, ptr [[GEP1]], align 4
+; CHECK-NEXT:    [[GEP2:%.*]] = getelementptr i32, ptr [[P]], i64 1
+; CHECK-NEXT:    [[LOAD2:%.*]] = load i32, ptr [[GEP2]], align 4
+; CHECK-NEXT:    [[ADD:%.*]] = add i32 [[LOAD1]], [[LOAD2]]
+; CHECK-NEXT:    ret i32 [[ADD]]
+;
+  %gep1 = getelementptr <vscale x 4 x i32>, ptr %p, i64 0, i64 1
+  %load1 = load i32, ptr %gep1
+  %gep2 = getelementptr i32, ptr %p, i64 1
+  %load2 = load i32, ptr %gep2 ; <- load could be eliminated
+  %add = add i32 %load1, %load2
+  ret i32 %add
+}
+
+define i32 @load_clobber_load_gep2(ptr %p) {
+; CHECK-LABEL: @load_clobber_load_gep2(
+; CHECK-NEXT:    [[GEP1:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P:%.*]], i64 1, i64 0
+; CHECK-NEXT:    [[LOAD1:%.*]] = load i32, ptr [[GEP1]], align 4
+; CHECK-NEXT:    [[GEP2:%.*]] = getelementptr i32, ptr [[P]], i64 4
+; CHECK-NEXT:    [[LOAD2:%.*]] = load i32, ptr [[GEP2]], align 4
+; CHECK-NEXT:    [[ADD:%.*]] = add i32 [[LOAD1]], [[LOAD2]]
+; CHECK-NEXT:    ret i32 [[ADD]]
+;
+  %gep1 = getelementptr <vscale x 4 x i32>, ptr %p, i64 1, i64 0
+  %load1 = load i32, ptr %gep1
+  %gep2 = getelementptr i32, ptr %p, i64 4
+  %load2 = load i32, ptr %gep2 ; <- can not determine at compile-time if %load1 and %load2 are same addr
+  %add = add i32 %load1, %load2
+  ret i32 %add
+}
+
+; TODO: BasicAA return MayAlias for %gep1,%gep2, could improve as MustAlias.
+define i32 @load_clobber_load_gep3(ptr %p) {
+; CHECK-LABEL: @load_clobber_load_gep3(
+; CHECK-NEXT:    [[GEP1:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P:%.*]], i64 1, i64 0
+; CHECK-NEXT:    [[LOAD1:%.*]] = load i32, ptr [[GEP1]], align 4
+; CHECK-NEXT:    [[GEP2:%.*]] = getelementptr <vscale x 4 x float>, ptr [[P]], i64 1, i64 0
+; CHECK-NEXT:    [[LOAD2:%.*]] = load float, ptr [[GEP2]], align 4
+; CHECK-NEXT:    [[CAST:%.*]] = bitcast float [[LOAD2]] to i32
+; CHECK-NEXT:    [[ADD:%.*]] = add i32 [[LOAD1]], [[CAST]]
+; CHECK-NEXT:    ret i32 [[ADD]]
+;
+  %gep1 = getelementptr <vscale x 4 x i32>, ptr %p, i64 1, i64 0
+  %load1 = load i32, ptr %gep1
+  %gep2 = getelementptr <vscale x 4 x float>, ptr %p, i64 1, i64 0
+  %load2 = load float, ptr %gep2 ; <- load could be eliminated
+  %cast = bitcast float %load2 to i32
+  %add = add i32 %load1, %cast
+  ret i32 %add
+}
+
+define <vscale x 4 x i32> @load_clobber_load_fence(ptr %p) {
+; CHECK-LABEL: @load_clobber_load_fence(
+; CHECK-NEXT:    [[LOAD1:%.*]] = load <vscale x 4 x i32>, ptr [[P:%.*]], align 16
+; CHECK-NEXT:    call void asm "", "~{memory}"()
+; CHECK-NEXT:    [[LOAD2:%.*]] = load <vscale x 4 x i32>, ptr [[P]], align 16
+; CHECK-NEXT:    [[SUB:%.*]] = sub <vscale x 4 x i32> [[LOAD1]], [[LOAD2]]
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[SUB]]
+;
+  %load1 = load <vscale x 4 x i32>, ptr %p
+  call void asm "", "~{memory}"()
+  %load2 = load <vscale x 4 x i32>, ptr %p
+  %sub = sub <vscale x 4 x i32> %load1, %load2
+  ret <vscale x 4 x i32> %sub
+}
+
+define <vscale x 4 x i32> @load_clobber_load_sideeffect(ptr %p) {
+; CHECK-LABEL: @load_clobber_load_sideeffect(
+; CHECK-NEXT:    [[LOAD1:%.*]] = load <vscale x 4 x i32>, ptr [[P:%.*]], align 16
+; CHECK-NEXT:    call void asm sideeffect "", ""()
+; CHECK-NEXT:    [[LOAD2:%.*]] = load <vscale x 4 x i32>, ptr [[P]], align 16
+; CHECK-NEXT:    [[ADD:%.*]] = add <vscale x 4 x i32> [[LOAD1]], [[LOAD2]]
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[ADD]]
+;
+  %load1 = load <vscale x 4 x i32>, ptr %p
+  call void asm sideeffect "", ""()
+  %load2 = load <vscale x 4 x i32>, ptr %p
+  %add = add <vscale x 4 x i32> %load1, %load2
+  ret <vscale x 4 x i32> %add
+}
+
+; Analyze Load from clobbering Store.
+
+define <vscale x 4 x i32> @store_forward_to_load(ptr %p) {
+; CHECK-LABEL: @store_forward_to_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> zeroinitializer, ptr [[P:%.*]], align 16
+; CHECK-NEXT:    ret <vscale x 4 x i32> zeroinitializer
+;
+  store <vscale x 4 x i32> zeroinitializer, ptr %p
+  %load = load <vscale x 4 x i32>, ptr %p
+  ret <vscale x 4 x i32> %load
+}
+
+define <vscale x 4 x i32> @store_forward_to_load_sideeffect(ptr %p) {
+; CHECK-LABEL: @store_forward_to_load_sideeffect(
+; CHECK-NEXT:    store <vscale x 4 x i32> zeroinitializer, ptr [[P:%.*]], align 16
+; CHECK-NEXT:    call void asm sideeffect "", ""()
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 4 x i32>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[LOAD]]
+;
+  store <vscale x 4 x i32> zeroinitializer, ptr %p
+  call void asm sideeffect "", ""()
+  %load = load <vscale x 4 x i32>, ptr %p
+  ret <vscale x 4 x i32> %load
+}
+
+define i32 @store_clobber_load() {
+; CHECK-LABEL: @store_clobber_load(
+; CHECK-NEXT:    [[ALLOC:%.*]] = alloca <vscale x 4 x i32>, align 16
+; CHECK-NEXT:    store <vscale x 4 x i32> undef, ptr [[ALLOC]], align 16
+; CHECK-NEXT:    [[PTR:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[ALLOC]], i32 0, i32 1
+; CHECK-NEXT:    [[LOAD:%.*]] = load i32, ptr [[PTR]], align 4
+; CHECK-NEXT:    ret i32 [[LOAD]]
+;
+  %alloc = alloca <vscale x 4 x i32>
+  store <vscale x 4 x i32> undef, ptr %alloc
+  %ptr = getelementptr <vscale x 4 x i32>, ptr %alloc, i32 0, i32 1
+  %load = load i32, ptr %ptr
+  ret i32 %load
+}
+
+; Analyze Load from clobbering MemInst.
+
+declare void @llvm.memset.p0.i64(ptr nocapture, i8, i64, i1)
+
+define i32 @memset_clobber_load(ptr %p) {
+; CHECK-LABEL: @memset_clobber_load(
+; CHECK-NEXT:    tail call void @llvm.memset.p0.i64(ptr [[P:%.*]], i8 1, i64 200, i1 false)
+; CHECK-NEXT:    ret i32 16843009
+;
+  tail call void @llvm.memset.p0.i64(ptr %p, i8 1, i64 200, i1 false)
+  %gep = getelementptr <vscale x 4 x i32>, ptr %p, i64 0, i64 5
+  %load = load i32, ptr %gep
+  ret i32 %load
+}
+
+define i32 @memset_clobber_load_vscaled_base(ptr %p) {
+; CHECK-LABEL: @memset_clobber_load_vscaled_base(
+; CHECK-NEXT:    tail call void @llvm.memset.p0.i64(ptr [[P:%.*]], i8 1, i64 200, i1 false)
+; CHECK-NEXT:    [[GEP:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P]], i64 1, i64 1
+; CHECK-NEXT:    [[LOAD:%.*]] = load i32, ptr [[GEP]], align 4
+; CHECK-NEXT:    ret i32 [[LOAD]]
+;
+  tail call void @llvm.memset.p0.i64(ptr %p, i8 1, i64 200, i1 false)
+  %gep = getelementptr <vscale x 4 x i32>, ptr %p, i64 1, i64 1
+  %load = load i32, ptr %gep
+  ret i32 %load
+}
+
+define i32 @memset_clobber_load_nonconst_index(ptr %p, i64 %idx1, i64 %idx2) {
+; CHECK-LABEL: @memset_clobber_load_nonconst_index(
+; CHECK-NEXT:    tail call void @llvm.memset.p0.i64(ptr [[P:%.*]], i8 1, i64 200, i1 false)
+; CHECK-NEXT:    [[GEP:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P]], i64 [[IDX1:%.*]], i64 [[IDX2:%.*]]
+; CHECK-NEXT:    [[LOAD:%.*]] = load i32, ptr [[GEP]], align 4
+; CHECK-NEXT:    ret i32 [[LOAD]]
+;
+  tail call void @llvm.memset.p0.i64(ptr %p, i8 1, i64 200, i1 false)
+  %gep = getelementptr <vscale x 4 x i32>, ptr %p, i64 %idx1, i64 %idx2
+  %load = load i32, ptr %gep
+  ret i32 %load
+}
+
+
+; Load elimination across BBs
+
+define ptr @load_from_alloc_replaced_with_undef() {
+; CHECK-LABEL: @load_from_alloc_replaced_with_undef(
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[A:%.*]] = alloca <vscale x 4 x i32>, align 16
+; CHECK-NEXT:    [[GEP:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[A]], i64 0, i64 1
+; CHECK-NEXT:    [[LOAD:%.*]] = load i32, ptr [[GEP]], align 4
+; CHECK-NEXT:    [[TOBOOL:%.*]] = icmp eq i32 [[LOAD]], 0
+; CHECK-NEXT:    br i1 [[TOBOOL]], label [[IF_END:%.*]], label [[IF_THEN:%.*]]
+; CHECK:       if.then:
+; CHECK-NEXT:    store <vscale x 4 x i32> zeroinitializer, ptr [[A]], align 16
+; CHECK-NEXT:    br label [[IF_END]]
+; CHECK:       if.end:
+; CHECK-NEXT:    ret ptr [[A]]
+;
+entry:
+  %a = alloca <vscale x 4 x i32>
+  %gep = getelementptr <vscale x 4 x i32>, ptr %a, i64 0, i64 1
+  %load = load i32, ptr %gep ; <- load to be eliminated
+  %tobool = icmp eq i32 %load, 0 ; <- icmp to be eliminated
+  br i1 %tobool, label %if.end, label %if.then
+
+if.then:
+  store <vscale x 4 x i32> zeroinitializer, ptr %a
+  br label %if.end
+
+if.end:
+  ret ptr %a
+}
+
+define i32 @redundant_load_elimination_1(ptr %p) {
+; CHECK-LABEL: @redundant_load_elimination_1(
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[GEP:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P:%.*]], i64 1, i64 1
+; CHECK-NEXT:    [[LOAD1:%.*]] = load i32, ptr [[GEP]], align 4
+; CHECK-NEXT:    [[CMP:%.*]] = icmp eq i32 [[LOAD1]], 0
+; CHECK-NEXT:    br i1 [[CMP]], label [[IF_THEN:%.*]], label [[IF_END:%.*]]
+; CHECK:       if.then:
+; CHECK-NEXT:    br label [[IF_END]]
+; CHECK:       if.end:
+; CHECK-NEXT:    ret i32 [[LOAD1]]
+;
+entry:
+  %gep = getelementptr <vscale x 4 x i32>, ptr %p, i64 1, i64 1
+  %load1 = load i32, ptr %gep
+  %cmp = icmp eq i32 %load1, 0
+  br i1 %cmp, label %if.then, label %if.end
+
+if.then:
+  %load2 = load i32, ptr %gep ; <- load to be eliminated
+  %add = add i32 %load1, %load2
+  br label %if.end
+
+if.end:
+  %result = phi i32 [ %add, %if.then ], [ %load1, %entry ]
+  ret i32 %result
+}
+
+; TODO: BasicAA return MayAlias for %gep1,%gep2, could improve as NoAlias.
+define void @redundant_load_elimination_2(i1 %c, ptr %p, ptr %q) {
+; CHECK-LABEL: @redundant_load_elimination_2(
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[GEP1:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P:%.*]], i64 1, i64 1
+; CHECK-NEXT:    store i32 0, ptr [[GEP1]], align 4
+; CHECK-NEXT:    [[GEP2:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P]], i64 1, i64 0
+; CHECK-NEXT:    store i32 1, ptr [[GEP2]], align 4
+; CHECK-NEXT:    br i1 [[C:%.*]], label [[IF_ELSE:%.*]], label [[IF_THEN:%.*]]
+; CHECK:       if.then:
+; CHECK-NEXT:    [[T:%.*]] = load i32, ptr [[GEP1]], align 4
+; CHECK-NEXT:    store i32 [[T]], ptr [[Q:%.*]], align 4
+; CHECK-NEXT:    ret void
+; CHECK:       if.else:
+; CHECK-NEXT:    ret void
+;
+entry:
+  %gep1 = getelementptr <vscale x 4 x i32>, ptr %p, i64 1, i64 1
+  store i32 0, ptr %gep1
+  %gep2 = getelementptr <vscale x 4 x i32>, ptr %p, i64 1, i64 0
+  store i32 1, ptr %gep2
+  br i1 %c, label %if.else, label %if.then
+
+if.then:
+  %t = load i32, ptr %gep1 ; <- load could be eliminated
+  store i32 %t, ptr %q
+  ret void
+
+if.else:
+  ret void
+}
+
+define void @redundant_load_elimination_zero_index(i1 %c, ptr %p, ptr %q) {
+; CHECK-LABEL: @redundant_load_elimination_zero_index(
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[GEP1:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P:%.*]], i64 0, i64 1
+; CHECK-NEXT:    store i32 0, ptr [[GEP1]], align 4
+; CHECK-NEXT:    store i32 1, ptr [[P]], align 4
+; CHECK-NEXT:    br i1 [[C:%.*]], label [[IF_ELSE:%.*]], label [[IF_THEN:%.*]]
+; CHECK:       if.then:
+; CHECK-NEXT:    store i32 0, ptr [[Q:%.*]], align 4
+; CHECK-NEXT:    ret void
+; CHECK:       if.else:
+; CHECK-NEXT:    ret void
+;
+entry:
+  %gep1 = getelementptr <vscale x 4 x i32>, ptr %p, i64 0, i64 1
+  store i32 0, ptr %gep1
+  store i32 1, ptr %p
+  br i1 %c, label %if.else, label %if.then
+
+if.then:
+  %t = load i32, ptr %gep1 ; <- load could be eliminated
+  store i32 %t, ptr %q
+  ret void
+
+if.else:
+  ret void
+}
+
+define void @redundant_load_elimination_zero_index_1(i1 %c, ptr %p, ptr %q, i64 %i) {
+; CHECK-LABEL: @redundant_load_elimination_zero_index_1(
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[J:%.*]] = add i64 [[I:%.*]], 1
+; CHECK-NEXT:    [[GEP1:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P:%.*]], i64 0, i64 [[J]]
+; CHECK-NEXT:    store i32 0, ptr [[GEP1]], align 4
+; CHECK-NEXT:    [[GEP2:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P]], i64 0, i64 [[I]]
+; CHECK-NEXT:    store i32 1, ptr [[GEP2]], align 4
+; CHECK-NEXT:    br i1 [[C:%.*]], label [[IF_ELSE:%.*]], label [[IF_THEN:%.*]]
+; CHECK:       if.then:
+; CHECK-NEXT:    store i32 0, ptr [[Q:%.*]], align 4
+; CHECK-NEXT:    ret void
+; CHECK:       if.else:
+; CHECK-NEXT:    ret void
+;
+entry:
+  %j = add i64 %i, 1
+  %gep1 = getelementptr <vscale x 4 x i32>, ptr %p, i64 0, i64 %j
+  store i32 0, ptr %gep1
+  %gep2 = getelementptr <vscale x 4 x i32>, ptr %p, i64 0, i64 %i
+  store i32 1, ptr %gep2
+  br i1 %c, label %if.else, label %if.then
+
+if.then:
+  %t = load i32, ptr %gep1 ; <- load could be eliminated
+  store i32 %t, ptr %q
+  ret void
+
+if.else:
+  ret void
+}
+; TODO: load in if.then could have been eliminated
+define void @missing_load_elimination(i1 %c, ptr %p, ptr %q, <vscale x 4 x i32> %v) {
+; CHECK-LABEL: @missing_load_elimination(
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    store <vscale x 4 x i32> zeroinitializer, ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[P1:%.*]] = getelementptr <vscale x 4 x i32>, ptr [[P]], i64 1
+; CHECK-NEXT:    store <vscale x 4 x i32> [[V:%.*]], ptr [[P1]], align 16
+; CHECK-NEXT:    br i1 [[C:%.*]], label [[IF_ELSE:%.*]], label [[IF_THEN:%.*]]
+; CHECK:       if.then:
+; CHECK-NEXT:    [[T:%.*]] = load <vscale x 4 x i32>, ptr [[P]], align 16
+; CHECK-NEXT:    store <vscale x 4 x i32> [[T]], ptr [[Q:%.*]], align 16
+; CHECK-NEXT:    ret void
+; CHECK:       if.else:
+; CHECK-NEXT:    ret void
+;
+entry:
+  store <vscale x 4 x i32> zeroinitializer, ptr %p
+  %p1 = getelementptr <vscale x 4 x i32>, ptr %p, i64 1
+  store <vscale x 4 x i32> %v, ptr %p1
+  br i1 %c, label %if.else, label %if.then
+
+if.then:
+  %t = load <vscale x 4 x i32>, ptr %p ; load could be eliminated
+  store <vscale x 4 x i32> %t, ptr %q
+  ret void
+
+if.else:
+  ret void
+}
+
+; Different sizes / types
+
+define <vscale x 16 x i8> @load_v16i8_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v16i8_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 16 x i8> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 16 x i8>, ptr %p
+  ret <vscale x 16 x i8> %load
+}
+
+define <vscale x 4 x float> @load_v4f32_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v4f32_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 4 x float>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 4 x float> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 4 x float>, ptr %p
+  ret <vscale x 4 x float> %load
+}
+
+define <vscale x 4 x float> @load_v4f32_store_v16i8_forward_load(ptr %p, <vscale x 16 x i8> %x)  {
+; CHECK-LABEL: @load_v4f32_store_v16i8_forward_load(
+; CHECK-NEXT:    store <vscale x 16 x i8> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 4 x float>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 4 x float> [[LOAD]]
+;
+  store <vscale x 16 x i8> %x, ptr %p
+  %load = load <vscale x 4 x float>, ptr %p
+  ret <vscale x 4 x float> %load
+}
+
+define <vscale x 4 x i32> @load_v4i32_store_v4f32_forward_load(ptr %p, <vscale x 4 x float> %x)  {
+; CHECK-LABEL: @load_v4i32_store_v4f32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x float> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 4 x i32>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[LOAD]]
+;
+  store <vscale x 4 x float> %x, ptr %p
+  %load = load <vscale x 4 x i32>, ptr %p
+  ret <vscale x 4 x i32> %load
+}
+
+define <vscale x 4 x i32> @load_v4i32_store_v4i64_forward_load(ptr %p, <vscale x 4 x i64> %x)  {
+; CHECK-LABEL: @load_v4i32_store_v4i64_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i64> [[X:%.*]], ptr [[P:%.*]], align 32
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 4 x i32>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 4 x i32> [[LOAD]]
+;
+  store <vscale x 4 x i64> %x, ptr %p
+  %load = load <vscale x 4 x i32>, ptr %p
+  ret <vscale x 4 x i32> %load
+}
+
+define <vscale x 4 x i64> @load_v4i64_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v4i64_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 4 x i64>, ptr [[P]], align 32
+; CHECK-NEXT:    ret <vscale x 4 x i64> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 4 x i64>, ptr %p
+  ret <vscale x 4 x i64> %load
+}
+
+define <vscale x 2 x i32> @load_v2i32_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v2i32_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 2 x i32>, ptr [[P]], align 8
+; CHECK-NEXT:    ret <vscale x 2 x i32> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 2 x i32>, ptr %p
+  ret <vscale x 2 x i32> %load
+}
+
+define <vscale x 2 x i32> @load_v2i32_store_v4i32_forward_load_offsets(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v2i32_store_v4i32_forward_load_offsets(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[Q:%.*]] = getelementptr <vscale x 2 x i32>, ptr [[P]], i64 1
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 2 x i32>, ptr [[Q]], align 8
+; CHECK-NEXT:    ret <vscale x 2 x i32> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %q = getelementptr <vscale x 2 x i32>, ptr %p, i64 1
+  %load = load <vscale x 2 x i32>, ptr %q
+  ret <vscale x 2 x i32> %load
+}
+
+define <vscale x 2 x i32> @load_v2i32_store_v4i32_forward_load_offsetc(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v2i32_store_v4i32_forward_load_offsetc(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[Q:%.*]] = getelementptr <2 x i32>, ptr [[P]], i64 1
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 2 x i32>, ptr [[Q]], align 8
+; CHECK-NEXT:    ret <vscale x 2 x i32> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %q = getelementptr <2 x i32>, ptr %p, i64 1
+  %load = load <vscale x 2 x i32>, ptr %q
+  ret <vscale x 2 x i32> %load
+}
+
+define <vscale x 2 x ptr> @load_v2p0_store_v4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v2p0_store_v4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 2 x ptr>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 2 x ptr> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <vscale x 2 x ptr>, ptr %p
+  ret <vscale x 2 x ptr> %load
+}
+
+define <vscale x 2 x i64> @load_v2i64_store_v2p0_forward_load(ptr %p, <vscale x 2 x ptr> %x)  {
+; CHECK-LABEL: @load_v2i64_store_v2p0_forward_load(
+; CHECK-NEXT:    store <vscale x 2 x ptr> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 2 x i64>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 2 x i64> [[LOAD]]
+;
+  store <vscale x 2 x ptr> %x, ptr %p
+  %load = load <vscale x 2 x i64>, ptr %p
+  ret <vscale x 2 x i64> %load
+}
+
+define <vscale x 16 x i8> @load_nxv16i8_store_v4i32_forward_load(ptr %p, <4 x i32> %x)  {
+; CHECK-LABEL: @load_nxv16i8_store_v4i32_forward_load(
+; CHECK-NEXT:    store <4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 16 x i8> [[LOAD]]
+;
+  store <4 x i32> %x, ptr %p
+  %load = load <vscale x 16 x i8>, ptr %p
+  ret <vscale x 16 x i8> %load
+}
+
+define <16 x i8> @load_v16i8_store_nxv4i32_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v16i8_store_nxv4i32_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <16 x i8> [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load <16 x i8>, ptr %p
+  ret <16 x i8> %load
+}
+
+define <vscale x 16 x i8> @load_v16i8_store_v4i32_forward_constant(ptr %p)  {
+; CHECK-LABEL: @load_v16i8_store_v4i32_forward_constant(
+; CHECK-NEXT:    store <vscale x 4 x i32> splat (i32 4), ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 16 x i8> [[LOAD]]
+;
+  store <vscale x 4 x i32> splat (i32 4), ptr %p
+  %load = load <vscale x 16 x i8>, ptr %p
+  ret <vscale x 16 x i8> %load
+}
+
+define <vscale x 16 x i8> @load_v16i8_struct_store_v4i32_forward_load(ptr %p, { <vscale x 4 x i32> } %x)  {
+; CHECK-LABEL: @load_v16i8_struct_store_v4i32_forward_load(
+; CHECK-NEXT:    store { <vscale x 4 x i32> } [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load <vscale x 16 x i8>, ptr [[P]], align 16
+; CHECK-NEXT:    ret <vscale x 16 x i8> [[LOAD]]
+;
+  store { <vscale x 4 x i32> } %x, ptr %p
+  %load = load <vscale x 16 x i8>, ptr %p
+  ret <vscale x 16 x i8> %load
+}
+
+define {<vscale x 16 x i8>} @load_v16i8_store_v4i32_struct_forward_load(ptr %p, <vscale x 4 x i32> %x)  {
+; CHECK-LABEL: @load_v16i8_store_v4i32_struct_forward_load(
+; CHECK-NEXT:    store <vscale x 4 x i32> [[X:%.*]], ptr [[P:%.*]], align 16
+; CHECK-NEXT:    [[LOAD:%.*]] = load { <vscale x 16 x i8> }, ptr [[P]], align 16
+; CHECK-NEXT:    ret { <vscale x 16 x i8> } [[LOAD]]
+;
+  store <vscale x 4 x i32> %x, ptr %p
+  %load = load { <vscale x 16 x i8> }, ptr %p
+  ret { <vscale x 16 x i8> } %load
+}
+
+define { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @bigexample({ <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a) vscale_range(1,16) {
+; CHECK-LABEL: @bigexample(
+; CHECK-NEXT:  entry:
+; CHECK-NEXT:    [[REF_TMP:%.*]] = alloca { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> }, align 16
+; CHECK-NEXT:    call void @llvm.lifetime.start.p0(i64 -1, ptr nonnull [[REF_TMP]])
+; CHECK-NEXT:    [[A_ELT:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[A:%.*]], 0
+; CHECK-NEXT:    store <vscale x 4 x i32> [[A_ELT]], ptr [[REF_TMP]], align 16
+; CHECK-NEXT:    [[TMP0:%.*]] = call i64 @llvm.vscale.i64()
+; CHECK-NEXT:    [[TMP1:%.*]] = shl i64 [[TMP0]], 4
+; CHECK-NEXT:    [[REF_TMP_REPACK1:%.*]] = getelementptr inbounds i8, ptr [[REF_TMP]], i64 [[TMP1]]
+; CHECK-NEXT:    [[A_ELT2:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[A]], 1
+; CHECK-NEXT:    store <vscale x 4 x i32> [[A_ELT2]], ptr [[REF_TMP_REPACK1]], align 16
+; CHECK-NEXT:    [[TMP3:%.*]] = shl i64 [[TMP0]], 5
+; CHECK-NEXT:    [[REF_TMP_REPACK3:%.*]] = getelementptr inbounds i8, ptr [[REF_TMP]], i64 [[TMP3]]
+; CHECK-NEXT:    [[A_ELT4:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[A]], 2
+; CHECK-NEXT:    store <vscale x 4 x i32> [[A_ELT4]], ptr [[REF_TMP_REPACK3]], align 16
+; CHECK-NEXT:    [[TMP5:%.*]] = mul i64 [[TMP0]], 48
+; CHECK-NEXT:    [[REF_TMP_REPACK5:%.*]] = getelementptr inbounds i8, ptr [[REF_TMP]], i64 [[TMP5]]
+; CHECK-NEXT:    [[A_ELT6:%.*]] = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } [[A]], 3
+; CHECK-NEXT:    store <vscale x 4 x i32> [[A_ELT6]], ptr [[REF_TMP_REPACK5]], align 16
+; CHECK-NEXT:    [[DOTUNPACK:%.*]] = load <vscale x 16 x i8>, ptr [[REF_TMP]], align 16
+; CHECK-NEXT:    [[TMP6:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } poison, <vscale x 16 x i8> [[DOTUNPACK]], 0
+; CHECK-NEXT:    [[DOTUNPACK8:%.*]] = load <vscale x 16 x i8>, ptr [[REF_TMP_REPACK1]], align 16
+; CHECK-NEXT:    [[TMP9:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP6]], <vscale x 16 x i8> [[DOTUNPACK8]], 1
+; CHECK-NEXT:    [[DOTUNPACK10:%.*]] = load <vscale x 16 x i8>, ptr [[REF_TMP_REPACK3]], align 16
+; CHECK-NEXT:    [[TMP12:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP9]], <vscale x 16 x i8> [[DOTUNPACK10]], 2
+; CHECK-NEXT:    [[DOTUNPACK12:%.*]] = load <vscale x 16 x i8>, ptr [[REF_TMP_REPACK5]], align 16
+; CHECK-NEXT:    [[TMP15:%.*]] = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP12]], <vscale x 16 x i8> [[DOTUNPACK12]], 3
+; CHECK-NEXT:    call void @llvm.lifetime.end.p0(i64 -1, ptr nonnull [[REF_TMP]])
+; CHECK-NEXT:    ret { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } [[TMP15]]
+;
+entry:
+  %ref.tmp = alloca { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> }, align 16
+  call void @llvm.lifetime.start.p0(i64 -1, ptr nonnull %ref.tmp)
+  %a.elt = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a, 0
+  store <vscale x 4 x i32> %a.elt, ptr %ref.tmp, align 16
+  %0 = call i64 @llvm.vscale.i64()
+  %1 = shl i64 %0, 4
+  %ref.tmp.repack1 = getelementptr inbounds i8, ptr %ref.tmp, i64 %1
+  %a.elt2 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a, 1
+  store <vscale x 4 x i32> %a.elt2, ptr %ref.tmp.repack1, align 16
+  %2 = call i64 @llvm.vscale.i64()
+  %3 = shl i64 %2, 5
+  %ref.tmp.repack3 = getelementptr inbounds i8, ptr %ref.tmp, i64 %3
+  %a.elt4 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a, 2
+  store <vscale x 4 x i32> %a.elt4, ptr %ref.tmp.repack3, align 16
+  %4 = call i64 @llvm.vscale.i64()
+  %5 = mul i64 %4, 48
+  %ref.tmp.repack5 = getelementptr inbounds i8, ptr %ref.tmp, i64 %5
+  %a.elt6 = extractvalue { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %a, 3
+  store <vscale x 4 x i32> %a.elt6, ptr %ref.tmp.repack5, align 16
+  %.unpack = load <vscale x 16 x i8>, ptr %ref.tmp, align 16
+  %6 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } poison, <vscale x 16 x i8> %.unpack, 0
+  %7 = call i64 @llvm.vscale.i64()
+  %8 = shl i64 %7, 4
+  %.elt7 = getelementptr inbounds i8, ptr %ref.tmp, i64 %8
+  %.unpack8 = load <vscale x 16 x i8>, ptr %.elt7, align 16
+  %9 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %6, <vscale x 16 x i8> %.unpack8, 1
+  %10 = call i64 @llvm.vscale.i64()
+  %11 = shl i64 %10, 5
+  %.elt9 = getelementptr inbounds i8, ptr %ref.tmp, i64 %11
+  %.unpack10 = load <vscale x 16 x i8>, ptr %.elt9, align 16
+  %12 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %9, <vscale x 16 x i8> %.unpack10, 2
+  %13 = call i64 @llvm.vscale.i64()
+  %14 = mul i64 %13, 48
+  %.elt11 = getelementptr inbounds i8, ptr %ref.tmp, i64 %14
+  %.unpack12 = load <vscale x 16 x i8>, ptr %.elt11, align 16
+  %15 = insertvalue { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %12, <vscale x 16 x i8> %.unpack12, 3
+  call void @llvm.lifetime.end.p0(i64 -1, ptr nonnull %ref.tmp)
+  ret { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %15
+}
diff --git a/llvm/test/Transforms/SLPVectorizer/AArch64/loadorder.ll b/llvm/test/Transforms/SLPVectorizer/AArch64/loadorder.ll
index 9ce79e5ea356b..5ad676537f9c4 100644
--- a/llvm/test/Transforms/SLPVectorizer/AArch64/loadorder.ll
+++ b/llvm/test/Transforms/SLPVectorizer/AArch64/loadorder.ll
@@ -684,27 +684,27 @@ define void @store_blockstrided3(ptr nocapture noundef readonly %x, ptr nocaptur
 ; CHECK-NEXT:    [[ARRAYIDX6:%.*]] = getelementptr inbounds i32, ptr [[X]], i64 [[IDXPROM5]]
 ; CHECK-NEXT:    [[MUL:%.*]] = shl nsw i32 [[STRIDE]], 1
 ; CHECK-NEXT:    [[IDXPROM11:%.*]] = sext i32 [[MUL]] to i64
-; CHECK-NEXT:    [[ARRAYIDX12:%.*]] = getelementptr inbounds i32, ptr [[X]], i64 [[IDXPROM11]]
-; CHECK-NEXT:    [[TMP1:%.*]] = load i32, ptr [[ARRAYIDX12]], align 4
-; CHECK-NEXT:    [[ADD14:%.*]] = or disjoint i32 [[MUL]], 1
+; CHECK-NEXT:    [[ARRAYIDX28:%.*]] = getelementptr inbounds i32, ptr [[X]], i64 [[IDXPROM11]]
+; CHECK-NEXT:    [[ADD14:%.*]] = add nsw i32 [[MUL]], 2
 ; CHECK-NEXT:    [[IDXPROM15:%.*]] = sext i32 [[ADD14]] to i64
 ; CHECK-NEXT:    [[ARRAYIDX16:%.*]] = getelementptr inbounds i32, ptr [[X]], i64 [[IDXPROM15]]
+; CHECK-NEXT:    [[TMP1:%.*]] = load i32, ptr [[ARRAYIDX16]], align 4
 ; CHECK-NEXT:    [[MUL21:%.*]] = mul nsw i32 [[STRIDE]], 3
 ; CHECK-NEXT:    [[IDXPROM23:%.*]] = sext i32 [[MUL21]] to i64
 ; CHECK-NEXT:    [[ARRAYIDX24:%.*]] = getelementptr inbounds i32, ptr [[X]], i64 [[IDXPROM23]]
 ; CHECK-NEXT:    [[TMP2:%.*]] = load i32, ptr [[ARRAYIDX24]], align 4
 ; CHECK-NEXT:    [[ADD26:%.*]] = add nsw i32 [[MUL21]], 1
 ; CHECK-NEXT:    [[IDXPROM27:%.*]] = sext i32 [[ADD26]] to i64
-; CHECK-NEXT:    [[ARRAYIDX28:%.*]] = getelementptr inbounds i32, ptr [[X]], i64 [[IDXPROM27]]
+; CHECK-NEXT:    [[ARRAYIDX64:%.*]] = getelementptr inbounds i32, ptr [[X]], i64 [[IDXPROM27]]
 ; CHECK-NEXT:    [[ARRAYIDX35:%.*]] = getelementptr inbounds nuw i8, ptr [[Y:%.*]], i64 8
 ; CHECK-NEXT:    [[TMP3:%.*]] = load i32, ptr [[ARRAYIDX35]], align 4
 ; CHECK-NEXT:    [[ARRAYIDX41:%.*]] = getelementptr inbounds i32, ptr [[Y]], i64 [[IDXPROM5]]
-; CHECK-NEXT:    [[ARRAYIDX48:%.*]] = getelementptr inbounds i32, ptr [[Y]], i64 [[IDXPROM11]]
+; CHECK-NEXT:    [[ARRAYIDX49:%.*]] = getelementptr inbounds i32, ptr [[Y]], i64 [[IDXPROM11]]
+; CHECK-NEXT:    [[ARRAYIDX48:%.*]] = getelementptr inbounds i32, ptr [[Y]], i64 [[IDXPROM15]]
 ; CHECK-NEXT:    [[TMP4:%.*]] = load i32, ptr [[ARRAYIDX48]], align 4
-; CHECK-NEXT:    [[ARRAYIDX52:%.*]] = getelementptr inbounds i32, ptr [[Y]], i64 [[IDXPROM15]]
 ; CHECK-NEXT:    [[ARRAYIDX60:%.*]] = getelementptr inbounds i32, ptr [[Y]], i64 [[IDXPROM23]]
 ; CHECK-NEXT:    [[TMP5:%.*]] = load i32, ptr [[ARRAYIDX60]], align 4
-; CHECK-NEXT:    [[ARRAYIDX64:%.*]] = getelementptr inbounds i32, ptr [[Y]], i64 [[IDXPROM27]]
+; CHECK-NEXT:    [[ARRAYIDX65:%.*]] = getelementptr inbounds i32, ptr [[Y]], i64 [[IDXPROM27]]
 ; CHECK-NEXT:    [[ARRAYIDX72:%.*]] = getelementptr inbounds nuw i8, ptr [[Z:%.*]], i64 4
 ; CHECK-NEXT:    [[MUL73:%.*]] = mul nsw i32 [[TMP3]], [[TMP0]]
 ; CHECK-NEXT:    [[ARRAYIDX76:%.*]] = getelementptr inbounds nuw i8, ptr [[Z]], i64 24
@@ -715,25 +715,22 @@ define void @store_blockstrided3(ptr nocapture noundef readonly %x, ptr nocaptur
 ; CHECK-NEXT:    [[TMP10:%.*]] = mul nsw <2 x i32> [[TMP8]], [[TMP6]]
 ; CHECK-NEXT:    [[TMP11:%.*]] = mul nsw <2 x i32> [[TMP9]], [[TMP7]]
 ; CHECK-NEXT:    [[TMP12:%.*]] = shufflevector <2 x i32> [[TMP10]], <2 x i32> [[TMP11]], <4 x i32> <i32 1, i32 0, i32 3, i32 2>
+; CHECK-NEXT:    [[ARRAYIDX84:%.*]] = getelementptr inbounds nuw i8, ptr [[Z]], i64 28
 ; CHECK-NEXT:    [[MUL81:%.*]] = mul nsw i32 [[TMP4]], [[TMP1]]
-; CHECK-NEXT:    [[ARRAYIDX82:%.*]] = getelementptr inbounds nuw i8, ptr [[Z]], i64 32
-; CHECK-NEXT:    [[TMP13:%.*]] = load <2 x i32>, ptr [[ARRAYIDX16]], align 4
-; CHECK-NEXT:    [[TMP14:%.*]] = load <2 x i32>, ptr [[ARRAYIDX52]], align 4
-; CHECK-NEXT:    [[TMP15:%.*]] = mul nsw <2 x i32> [[TMP14]], [[TMP13]]
-; CHECK-NEXT:    [[TMP16:%.*]] = shufflevector <2 x i32> [[TMP15]], <2 x i32> poison, <2 x i32> <i32 1, i32 0>
 ; CHECK-NEXT:    [[MUL87:%.*]] = mul nsw i32 [[TMP5]], [[TMP2]]
 ; CHECK-NEXT:    [[ARRAYIDX88:%.*]] = getelementptr inbounds nuw i8, ptr [[Z]], i64 44
-; CHECK-NEXT:    [[ARRAYIDX92:%.*]] = getelementptr inbounds nuw i8, ptr [[Z]], i64 36
 ; CHECK-NEXT:    [[TMP17:%.*]] = load <2 x i32>, ptr [[ARRAYIDX28]], align 4
 ; CHECK-NEXT:    [[TMP18:%.*]] = load <2 x i32>, ptr [[ARRAYIDX64]], align 4
+; CHECK-NEXT:    [[TMP15:%.*]] = load <2 x i32>, ptr [[ARRAYIDX49]], align 4
+; CHECK-NEXT:    [[TMP16:%.*]] = load <2 x i32>, ptr [[ARRAYIDX65]], align 4
 ; CHECK-NEXT:    store i32 [[MUL73]], ptr [[Z]], align 4
 ; CHECK-NEXT:    store <4 x i32> [[TMP12]], ptr [[ARRAYIDX72]], align 4
-; CHECK-NEXT:    store i32 [[MUL81]], ptr [[ARRAYIDX82]], align 4
-; CHECK-NEXT:    store <2 x i32> [[TMP16]], ptr [[ARRAYIDX76]], align 4
+; CHECK-NEXT:    store i32 [[MUL81]], ptr [[ARRAYIDX76]], align 4
 ; CHECK-NEXT:    store i32 [[MUL87]], ptr [[ARRAYIDX88]], align 4
-; CHECK-NEXT:    [[TMP19:%.*]] = mul nsw <2 x i32> [[TMP18]], [[TMP17]]
-; CHECK-NEXT:    [[TMP20:%.*]] = shufflevector <2 x i32> [[TMP19]], <2 x i32> poison, <2 x i32> <i32 1, i32 0>
-; CHECK-NEXT:    store <2 x i32> [[TMP20]], ptr [[ARRAYIDX92]], align 4
+; CHECK-NEXT:    [[TMP20:%.*]] = mul nsw <2 x i32> [[TMP15]], [[TMP17]]
+; CHECK-NEXT:    [[TMP21:%.*]] = mul nsw <2 x i32> [[TMP16]], [[TMP18]]
+; CHECK-NEXT:    [[TMP19:%.*]] = shufflevector <2 x i32> [[TMP20]], <2 x i32> [[TMP21]], <4 x i32> <i32 1, i32 0, i32 3, i32 2>
+; CHECK-NEXT:    store <4 x i32> [[TMP19]], ptr [[ARRAYIDX84]], align 4
 ; CHECK-NEXT:    ret void
 ;
 entry:
diff --git a/llvm/test/Transforms/SLPVectorizer/AArch64/reduce-fadd.ll b/llvm/test/Transforms/SLPVectorizer/AArch64/reduce-fadd.ll
index 00a4417ba7aff..6576cbe075b74 100644
--- a/llvm/test/Transforms/SLPVectorizer/AArch64/reduce-fadd.ll
+++ b/llvm/test/Transforms/SLPVectorizer/AArch64/reduce-fadd.ll
@@ -716,29 +716,29 @@ define float @reduce_float_case3(ptr %a) {
 ; CHECK-NEXT:    [[GEP5:%.*]] = getelementptr inbounds float, ptr [[A]], i32 5
 ; CHECK-NEXT:    [[GEP6:%.*]] = getelementptr inbounds float, ptr [[A]], i32 6
 ; CHECK-NEXT:    [[GEP7:%.*]] = getelementptr inbounds float, ptr [[A]], i32 7
-; CHECK-NEXT:    [[LOAD:%.*]] = load float, ptr [[A]], align 4
-; CHECK-NEXT:    [[LOAD1:%.*]] = load float, ptr [[GEP1]], align 4
-; CHECK-NEXT:    [[LOAD2:%.*]] = load float, ptr [[GEP2]], align 4
-; CHECK-NEXT:    [[LOAD3:%.*]] = load float, ptr [[GEP3]], align 4
-; CHECK-NEXT:    [[LOAD4:%.*]] = load float, ptr [[GEP4]], align 4
-; CHECK-NEXT:    [[LOAD5:%.*]] = load float, ptr [[GEP5]], align 4
-; CHECK-NEXT:    [[LOAD6:%.*]] = load float, ptr [[GEP6]], align 4
-; CHECK-NEXT:    [[LOAD7:%.*]] = load float, ptr [[GEP7]], align 4
-; CHECK-NEXT:    [[LOG:%.*]] = call float @llvm.log.f32(float [[LOAD]])
-; CHECK-NEXT:    [[LOG1:%.*]] = call float @llvm.log.f32(float [[LOAD1]])
+; CHECK-NEXT:    [[LOAD2:%.*]] = load float, ptr [[A]], align 4
+; CHECK-NEXT:    [[LOAD3:%.*]] = load float, ptr [[GEP1]], align 4
+; CHECK-NEXT:    [[LOAD4:%.*]] = load float, ptr [[GEP2]], align 4
+; CHECK-NEXT:    [[LOAD5:%.*]] = load float, ptr [[GEP3]], align 4
+; CHECK-NEXT:    [[LOAD6:%.*]] = load float, ptr [[GEP4]], align 4
+; CHECK-NEXT:    [[LOAD7:%.*]] = load float, ptr [[GEP5]], align 4
+; CHECK-NEXT:    [[LOAD8:%.*]] = load float, ptr [[GEP6]], align 4
+; CHECK-NEXT:    [[LOAD9:%.*]] = load float, ptr [[GEP7]], align 4
 ; CHECK-NEXT:    [[LOG2:%.*]] = call float @llvm.log.f32(float [[LOAD2]])
 ; CHECK-NEXT:    [[LOG3:%.*]] = call float @llvm.log.f32(float [[LOAD3]])
 ; CHECK-NEXT:    [[LOG4:%.*]] = call float @llvm.log.f32(float [[LOAD4]])
 ; CHECK-NEXT:    [[LOG5:%.*]] = call float @llvm.log.f32(float [[LOAD5]])
 ; CHECK-NEXT:    [[LOG6:%.*]] = call float @llvm.log.f32(float [[LOAD6]])
 ; CHECK-NEXT:    [[LOG7:%.*]] = call float @llvm.log.f32(float [[LOAD7]])
-; CHECK-NEXT:    [[ADD1:%.*]] = fadd float [[LOG]], [[LOG1]]
-; CHECK-NEXT:    [[ADD2:%.*]] = fadd float [[ADD1]], [[LOG2]]
-; CHECK-NEXT:    [[ADD3:%.*]] = fadd float [[ADD2]], [[LOG3]]
+; CHECK-NEXT:    [[LOG8:%.*]] = call float @llvm.log.f32(float [[LOAD8]])
+; CHECK-NEXT:    [[LOG9:%.*]] = call float @llvm.log.f32(float [[LOAD9]])
+; CHECK-NEXT:    [[ADD3:%.*]] = fadd float [[LOG2]], [[LOG3]]
 ; CHECK-NEXT:    [[ADD4:%.*]] = fadd float [[ADD3]], [[LOG4]]
 ; CHECK-NEXT:    [[ADD5:%.*]] = fadd float [[ADD4]], [[LOG5]]
 ; CHECK-NEXT:    [[ADD6:%.*]] = fadd float [[ADD5]], [[LOG6]]
-; CHECK-NEXT:    [[ADD7:%.*]] = fadd float [[ADD6]], [[LOG7]]
+; CHECK-NEXT:    [[ADD8:%.*]] = fadd float [[ADD6]], [[LOG7]]
+; CHECK-NEXT:    [[ADD9:%.*]] = fadd float [[ADD8]], [[LOG8]]
+; CHECK-NEXT:    [[ADD7:%.*]] = fadd float [[ADD9]], [[LOG9]]
 ; CHECK-NEXT:    ret float [[ADD7]]
 ;
 entry:
diff --git a/llvm/test/Transforms/SLPVectorizer/AMDGPU/min_max.ll b/llvm/test/Transforms/SLPVectorizer/AMDGPU/min_max.ll
index 46c6c10125b95..a3be8f5e935c9 100644
--- a/llvm/test/Transforms/SLPVectorizer/AMDGPU/min_max.ll
+++ b/llvm/test/Transforms/SLPVectorizer/AMDGPU/min_max.ll
@@ -358,12 +358,12 @@ define <4 x i16> @uadd_sat_v4i16(<4 x i16> %arg0, <4 x i16> %arg1) {
 ; GFX8-NEXT:    [[ARG1_1:%.*]] = extractelement <4 x i16> [[ARG1]], i64 1
 ; GFX8-NEXT:    [[ADD_0:%.*]] = call i16 @llvm.umin.i16(i16 [[ARG0_0]], i16 [[ARG1_0]])
 ; GFX8-NEXT:    [[ADD_1:%.*]] = call i16 @llvm.umin.i16(i16 [[ARG0_1]], i16 [[ARG1_1]])
-; GFX8-NEXT:    [[TMP0:%.*]] = call <4 x i16> @llvm.umin.v4i16(<4 x i16> [[ARG0]], <4 x i16> [[ARG1]])
-; GFX8-NEXT:    [[TMP1:%.*]] = shufflevector <4 x i16> [[TMP0]], <4 x i16> poison, <2 x i32> <i32 2, i32 3>
+; GFX8-NEXT:    [[TMP3:%.*]] = call <4 x i16> @llvm.umin.v4i16(<4 x i16> [[ARG0]], <4 x i16> [[ARG1]])
+; GFX8-NEXT:    [[TMP1:%.*]] = shufflevector <4 x i16> [[TMP3]], <4 x i16> poison, <2 x i32> <i32 2, i32 3>
 ; GFX8-NEXT:    [[INS_0:%.*]] = insertelement <4 x i16> poison, i16 [[ADD_0]], i64 0
-; GFX8-NEXT:    [[INS_1:%.*]] = insertelement <4 x i16> [[INS_0]], i16 [[ADD_1]], i64 1
+; GFX8-NEXT:    [[TMP0:%.*]] = insertelement <4 x i16> [[INS_0]], i16 [[ADD_1]], i64 1
 ; GFX8-NEXT:    [[TMP2:%.*]] = shufflevector <2 x i16> [[TMP1]], <2 x i16> poison, <4 x i32> <i32 0, i32 1, i32 poison, i32 poison>
-; GFX8-NEXT:    [[INS_31:%.*]] = shufflevector <4 x i16> [[INS_1]], <4 x i16> [[TMP2]], <4 x i32> <i32 0, i32 1, i32 4, i32 5>
+; GFX8-NEXT:    [[INS_31:%.*]] = shufflevector <4 x i16> [[TMP0]], <4 x i16> [[TMP2]], <4 x i32> <i32 0, i32 1, i32 4, i32 5>
 ; GFX8-NEXT:    ret <4 x i16> [[INS_31]]
 ;
 ; GFX9-LABEL: @uadd_sat_v4i16(
diff --git a/llvm/test/Transforms/SLPVectorizer/RISCV/complex-loads.ll b/llvm/test/Transforms/SLPVectorizer/RISCV/complex-loads.ll
index 257e4660c80aa..11fa3337544a1 100644
--- a/llvm/test/Transforms/SLPVectorizer/RISCV/complex-loads.ll
+++ b/llvm/test/Transforms/SLPVectorizer/RISCV/complex-loads.ll
@@ -28,13 +28,9 @@ define i32 @test(ptr %pix1, ptr %pix2, i64 %idx.ext, i64 %idx.ext63, ptr %add.pt
 ; CHECK-NEXT:    [[ADD_PTR64_1:%.*]] = getelementptr i8, ptr [[ADD_PTR64]], i64 [[IDX_EXT63]]
 ; CHECK-NEXT:    [[ARRAYIDX3_2:%.*]] = getelementptr i8, ptr [[ADD_PTR_1]], i64 4
 ; CHECK-NEXT:    [[ARRAYIDX5_2:%.*]] = getelementptr i8, ptr [[ADD_PTR64_1]], i64 4
-; CHECK-NEXT:    [[ARRAYIDX8_2:%.*]] = getelementptr i8, ptr [[ADD_PTR_1]], i64 1
 ; CHECK-NEXT:    [[TMP4:%.*]] = load <4 x i8>, ptr [[ADD_PTR_1]], align 1
-; CHECK-NEXT:    [[TMP7:%.*]] = load i8, ptr [[ARRAYIDX8_2]], align 1
-; CHECK-NEXT:    [[TMP6:%.*]] = load i8, ptr [[ADD_PTR_1]], align 1
 ; CHECK-NEXT:    [[TMP19:%.*]] = shufflevector <4 x i8> [[TMP4]], <4 x i8> poison, <2 x i32> <i32 0, i32 2>
 ; CHECK-NEXT:    [[TMP21:%.*]] = zext <2 x i8> [[TMP19]] to <2 x i32>
-; CHECK-NEXT:    [[CONV_2:%.*]] = zext i8 [[TMP6]] to i32
 ; CHECK-NEXT:    [[TMP9:%.*]] = load <4 x i8>, ptr [[ADD_PTR64_1]], align 1
 ; CHECK-NEXT:    [[TMP22:%.*]] = shufflevector <4 x i8> [[TMP9]], <4 x i8> poison, <2 x i32> <i32 0, i32 2>
 ; CHECK-NEXT:    [[TMP31:%.*]] = zext <2 x i8> [[TMP22]] to <2 x i32>
@@ -50,7 +46,6 @@ define i32 @test(ptr %pix1, ptr %pix2, i64 %idx.ext, i64 %idx.ext63, ptr %add.pt
 ; CHECK-NEXT:    [[TMP30:%.*]] = add <2 x i32> [[TMP25]], [[TMP23]]
 ; CHECK-NEXT:    [[TMP32:%.*]] = shufflevector <4 x i8> [[TMP4]], <4 x i8> poison, <2 x i32> <i32 1, i32 3>
 ; CHECK-NEXT:    [[TMP51:%.*]] = zext <2 x i8> [[TMP32]] to <2 x i32>
-; CHECK-NEXT:    [[CONV9_2:%.*]] = zext i8 [[TMP7]] to i32
 ; CHECK-NEXT:    [[TMP56:%.*]] = shufflevector <4 x i8> [[TMP9]], <4 x i8> poison, <2 x i32> <i32 1, i32 3>
 ; CHECK-NEXT:    [[TMP57:%.*]] = zext <2 x i8> [[TMP56]] to <2 x i32>
 ; CHECK-NEXT:    [[TMP35:%.*]] = sub <2 x i32> [[TMP51]], [[TMP57]]
@@ -64,8 +59,8 @@ define i32 @test(ptr %pix1, ptr %pix2, i64 %idx.ext, i64 %idx.ext63, ptr %add.pt
 ; CHECK-NEXT:    [[TMP34:%.*]] = add <2 x i32> [[TMP42]], [[TMP30]]
 ; CHECK-NEXT:    [[TMP44:%.*]] = sub <2 x i32> [[TMP30]], [[TMP42]]
 ; CHECK-NEXT:    [[TMP43:%.*]] = extractelement <2 x i32> [[TMP34]], i32 0
-; CHECK-NEXT:    [[TMP45:%.*]] = extractelement <2 x i32> [[TMP34]], i32 1
-; CHECK-NEXT:    [[ADD48_2:%.*]] = add i32 [[TMP45]], [[TMP43]]
+; CHECK-NEXT:    [[CONV_2:%.*]] = extractelement <2 x i32> [[TMP34]], i32 1
+; CHECK-NEXT:    [[ADD48_2:%.*]] = add i32 [[CONV_2]], [[TMP43]]
 ; CHECK-NEXT:    [[TMP46:%.*]] = extractelement <2 x i32> [[TMP44]], i32 0
 ; CHECK-NEXT:    [[TMP47:%.*]] = extractelement <2 x i32> [[TMP44]], i32 1
 ; CHECK-NEXT:    [[ADD55_2:%.*]] = add i32 [[TMP47]], [[TMP46]]
@@ -120,15 +115,7 @@ define i32 @test(ptr %pix1, ptr %pix2, i64 %idx.ext, i64 %idx.ext63, ptr %add.pt
 ; CHECK-NEXT:    [[TMP85:%.*]] = sub <2 x i32> [[TMP78]], [[TMP80]]
 ; CHECK-NEXT:    [[ADD95:%.*]] = add i32 [[ADD94]], [[ADD48_2]]
 ; CHECK-NEXT:    [[SUB86_3:%.*]] = sub i32 [[ADD48_2]], [[ADD94]]
-; CHECK-NEXT:    [[SHR_I:%.*]] = lshr i32 [[TMP77]], 15
-; CHECK-NEXT:    [[AND_I:%.*]] = and i32 [[SHR_I]], 65537
-; CHECK-NEXT:    [[MUL_I:%.*]] = mul i32 [[AND_I]], 65535
-; CHECK-NEXT:    [[SHR_I49:%.*]] = lshr i32 [[TMP45]], 15
-; CHECK-NEXT:    [[AND_I50:%.*]] = and i32 [[SHR_I49]], 65537
-; CHECK-NEXT:    [[MUL_I51:%.*]] = mul i32 [[AND_I50]], 65535
-; CHECK-NEXT:    [[ADD94_1:%.*]] = add i32 [[ADD55_3]], [[ADD55_2]]
-; CHECK-NEXT:    [[SUB102_1:%.*]] = sub i32 [[ADD55_2]], [[ADD55_3]]
-; CHECK-NEXT:    [[SHR_I_1:%.*]] = lshr i32 [[CONV9_2]], 15
+; CHECK-NEXT:    [[SHR_I_1:%.*]] = lshr i32 [[TMP77]], 15
 ; CHECK-NEXT:    [[AND_I_1:%.*]] = and i32 [[SHR_I_1]], 65537
 ; CHECK-NEXT:    [[MUL_I_1:%.*]] = mul i32 [[AND_I_1]], 65535
 ; CHECK-NEXT:    [[SHR_I49_1:%.*]] = lshr i32 [[CONV_2]], 15
@@ -244,10 +231,10 @@ define i32 @test(ptr %pix1, ptr %pix2, i64 %idx.ext, i64 %idx.ext63, ptr %add.pt
 ; CHECK-NEXT:    [[SUB104:%.*]] = sub i32 [[ADD78]], [[ADD95]]
 ; CHECK-NEXT:    [[ADD105:%.*]] = add i32 [[SUB86_3]], [[SUB86]]
 ; CHECK-NEXT:    [[SUB106:%.*]] = sub i32 [[SUB86]], [[SUB86_3]]
-; CHECK-NEXT:    [[ADD_I:%.*]] = add i32 [[MUL_I]], [[ADD103]]
+; CHECK-NEXT:    [[ADD_I:%.*]] = add i32 [[MUL_I_1]], [[ADD103]]
 ; CHECK-NEXT:    [[XOR_I:%.*]] = xor i32 [[ADD_I]], [[TMP77]]
-; CHECK-NEXT:    [[ADD_I52:%.*]] = add i32 [[MUL_I51]], [[ADD105]]
-; CHECK-NEXT:    [[XOR_I53:%.*]] = xor i32 [[ADD_I52]], [[TMP45]]
+; CHECK-NEXT:    [[ADD_I52:%.*]] = add i32 [[MUL_I51_1]], [[ADD105]]
+; CHECK-NEXT:    [[XOR_I53:%.*]] = xor i32 [[ADD_I52]], [[CONV_2]]
 ; CHECK-NEXT:    [[ADD_I57:%.*]] = add i32 [[MUL_I56]], [[SUB104]]
 ; CHECK-NEXT:    [[XOR_I58:%.*]] = xor i32 [[ADD_I57]], [[TMP160]]
 ; CHECK-NEXT:    [[ADD_I62:%.*]] = add i32 [[MUL_I61]], [[SUB106]]
@@ -255,21 +242,42 @@ define i32 @test(ptr %pix1, ptr %pix2, i64 %idx.ext, i64 %idx.ext63, ptr %add.pt
 ; CHECK-NEXT:    [[ADD110:%.*]] = add i32 [[XOR_I53]], [[XOR_I]]
 ; CHECK-NEXT:    [[ADD112:%.*]] = add i32 [[ADD110]], [[XOR_I58]]
 ; CHECK-NEXT:    [[ADD105_3:%.*]] = add i32 [[ADD112]], [[XOR_I63]]
-; CHECK-NEXT:    [[ADD78_1:%.*]] = add i32 [[ADD55_1]], [[ADD55]]
-; CHECK-NEXT:    [[SUB86_1:%.*]] = sub i32 [[ADD55]], [[ADD55_1]]
-; CHECK-NEXT:    [[ADD103_1:%.*]] = add i32 [[ADD94_1]], [[ADD78_1]]
+; CHECK-NEXT:    [[TMP169:%.*]] = load <2 x i8>, ptr [[ADD_PTR_1]], align 1
+; CHECK-NEXT:    [[TMP181:%.*]] = zext <2 x i8> [[TMP169]] to <2 x i32>
+; CHECK-NEXT:    [[TMP152:%.*]] = insertelement <2 x i32> poison, i32 [[ADD55_2]], i32 0
+; CHECK-NEXT:    [[TMP182:%.*]] = shufflevector <2 x i32> [[TMP152]], <2 x i32> poison, <2 x i32> zeroinitializer
+; CHECK-NEXT:    [[TMP183:%.*]] = insertelement <2 x i32> poison, i32 [[ADD55_3]], i32 0
+; CHECK-NEXT:    [[TMP184:%.*]] = shufflevector <2 x i32> [[TMP183]], <2 x i32> poison, <2 x i32> zeroinitializer
+; CHECK-NEXT:    [[TMP191:%.*]] = sub <2 x i32> [[TMP182]], [[TMP184]]
+; CHECK-NEXT:    [[TMP192:%.*]] = add <2 x i32> [[TMP182]], [[TMP184]]
+; CHECK-NEXT:    [[TMP194:%.*]] = shufflevector <2 x i32> [[TMP191]], <2 x i32> [[TMP192]], <2 x i32> <i32 0, i32 3>
+; CHECK-NEXT:    [[TMP195:%.*]] = lshr <2 x i32> [[TMP181]], splat (i32 15)
+; CHECK-NEXT:    [[TMP196:%.*]] = and <2 x i32> [[TMP195]], splat (i32 65537)
+; CHECK-NEXT:    [[TMP198:%.*]] = mul <2 x i32> [[TMP196]], splat (i32 65535)
+; CHECK-NEXT:    [[TMP202:%.*]] = insertelement <2 x i32> poison, i32 [[ADD55]], i32 0
+; CHECK-NEXT:    [[TMP203:%.*]] = shufflevector <2 x i32> [[TMP202]], <2 x i32> poison, <2 x i32> zeroinitializer
+; CHECK-NEXT:    [[TMP205:%.*]] = insertelement <2 x i32> poison, i32 [[ADD55_1]], i32 0
+; CHECK-NEXT:    [[TMP206:%.*]] = shufflevector <2 x i32> [[TMP205]], <2 x i32> poison, <2 x i32> zeroinitializer
+; CHECK-NEXT:    [[TMP207:%.*]] = sub <2 x i32> [[TMP203]], [[TMP206]]
+; CHECK-NEXT:    [[TMP210:%.*]] = add <2 x i32> [[TMP203]], [[TMP206]]
+; CHECK-NEXT:    [[TMP168:%.*]] = shufflevector <2 x i32> [[TMP207]], <2 x i32> [[TMP210]], <2 x i32> <i32 0, i32 3>
+; CHECK-NEXT:    [[ADD94_1:%.*]] = extractelement <2 x i32> [[TMP194]], i32 1
+; CHECK-NEXT:    [[ADD78_1:%.*]] = extractelement <2 x i32> [[TMP168]], i32 1
 ; CHECK-NEXT:    [[SUB104_1:%.*]] = sub i32 [[ADD78_1]], [[ADD94_1]]
-; CHECK-NEXT:    [[ADD105_1:%.*]] = add i32 [[SUB102_1]], [[SUB86_1]]
+; CHECK-NEXT:    [[TMP220:%.*]] = add <2 x i32> [[TMP194]], [[TMP168]]
+; CHECK-NEXT:    [[SUB102_1:%.*]] = extractelement <2 x i32> [[TMP194]], i32 0
+; CHECK-NEXT:    [[SUB86_1:%.*]] = extractelement <2 x i32> [[TMP168]], i32 0
+; CHECK-NEXT:    [[TMP174:%.*]] = shufflevector <2 x i32> [[TMP168]], <2 x i32> [[TMP194]], <2 x i32> <i32 0, i32 2>
 ; CHECK-NEXT:    [[SUB106_1:%.*]] = sub i32 [[SUB86_1]], [[SUB102_1]]
-; CHECK-NEXT:    [[ADD_I_1:%.*]] = add i32 [[MUL_I_1]], [[ADD103_1]]
-; CHECK-NEXT:    [[XOR_I_1:%.*]] = xor i32 [[ADD_I_1]], [[CONV9_2]]
-; CHECK-NEXT:    [[ADD_I52_1:%.*]] = add i32 [[MUL_I51_1]], [[ADD105_1]]
-; CHECK-NEXT:    [[XOR_I53_1:%.*]] = xor i32 [[ADD_I52_1]], [[CONV_2]]
+; CHECK-NEXT:    [[TMP175:%.*]] = add <2 x i32> [[TMP198]], [[TMP220]]
+; CHECK-NEXT:    [[TMP221:%.*]] = xor <2 x i32> [[TMP175]], [[TMP181]]
 ; CHECK-NEXT:    [[ADD_I57_1:%.*]] = add i32 [[MUL_I56_1]], [[SUB104_1]]
 ; CHECK-NEXT:    [[XOR_I58_1:%.*]] = xor i32 [[ADD_I57_1]], [[TMP162]]
 ; CHECK-NEXT:    [[ADD_I62_1:%.*]] = add i32 [[MUL_I61_1]], [[SUB106_1]]
 ; CHECK-NEXT:    [[XOR_I63_1:%.*]] = xor i32 [[ADD_I62_1]], [[TMP129]]
+; CHECK-NEXT:    [[XOR_I53_1:%.*]] = extractelement <2 x i32> [[TMP221]], i32 0
 ; CHECK-NEXT:    [[ADD108_1:%.*]] = add i32 [[XOR_I53_1]], [[ADD105_3]]
+; CHECK-NEXT:    [[XOR_I_1:%.*]] = extractelement <2 x i32> [[TMP221]], i32 1
 ; CHECK-NEXT:    [[ADD110_1:%.*]] = add i32 [[ADD108_1]], [[XOR_I_1]]
 ; CHECK-NEXT:    [[ADD112_5:%.*]] = add i32 [[ADD110_1]], [[XOR_I58_1]]
 ; CHECK-NEXT:    [[ADD113_2:%.*]] = add i32 [[ADD112_5]], [[XOR_I63_1]]
diff --git a/llvm/test/Transforms/SLPVectorizer/X86/arith-fshl-rot.ll b/llvm/test/Transforms/SLPVectorizer/X86/arith-fshl-rot.ll
index 45294e581e6ae..153191b1eea08 100644
--- a/llvm/test/Transforms/SLPVectorizer/X86/arith-fshl-rot.ll
+++ b/llvm/test/Transforms/SLPVectorizer/X86/arith-fshl-rot.ll
@@ -1,10 +1,11 @@
 ; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
-; RUN: opt < %s -mtriple=x86_64-unknown -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE
-; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=slm -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE
+; RUN: opt < %s -mtriple=x86_64-unknown -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE,SSE2
+; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=slm -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE,SSE4
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=corei7-avx -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX1
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=core-avx2 -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX2
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=+prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX256
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=-prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
+; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=znver4 -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512VBMI2
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=knl -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
 
 @a64 = common global [8 x i64] zeroinitializer, align 64
@@ -128,6 +129,13 @@ define void @fshl_v8i64() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <8 x i64> @llvm.fshl.v8i64(<8 x i64> [[TMP1]], <8 x i64> [[TMP1]], <8 x i64> [[TMP2]])
 ; AVX512-NEXT:    store <8 x i64> [[TMP3]], ptr @d64, align 8
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v8i64(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <8 x i64>, ptr @a64, align 8
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <8 x i64>, ptr @b64, align 8
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <8 x i64> @llvm.fshl.v8i64(<8 x i64> [[TMP1]], <8 x i64> [[TMP1]], <8 x i64> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <8 x i64> [[TMP3]], ptr @d64, align 8
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0 = load i64, ptr @a64, align 8
   %a1 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 1), align 8
@@ -249,6 +257,13 @@ define void @fshl_v16i32() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <16 x i32> @llvm.fshl.v16i32(<16 x i32> [[TMP1]], <16 x i32> [[TMP1]], <16 x i32> [[TMP2]])
 ; AVX512-NEXT:    store <16 x i32> [[TMP3]], ptr @d32, align 4
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v16i32(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <16 x i32>, ptr @a32, align 4
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <16 x i32>, ptr @b32, align 4
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <16 x i32> @llvm.fshl.v16i32(<16 x i32> [[TMP1]], <16 x i32> [[TMP1]], <16 x i32> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <16 x i32> [[TMP3]], ptr @d32, align 4
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
@@ -318,6 +333,156 @@ define void @fshl_v16i32() {
 }
 
 define void @fshl_v32i16() {
+; SSE2-LABEL: @fshl_v32i16(
+; SSE2-NEXT:    [[A0:%.*]] = load i16, ptr @a16, align 2
+; SSE2-NEXT:    [[A1:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 1), align 2
+; SSE2-NEXT:    [[A2:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 2), align 2
+; SSE2-NEXT:    [[A3:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 3), align 2
+; SSE2-NEXT:    [[A4:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 4), align 2
+; SSE2-NEXT:    [[A5:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 5), align 2
+; SSE2-NEXT:    [[A6:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 6), align 2
+; SSE2-NEXT:    [[A7:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 7), align 2
+; SSE2-NEXT:    [[A8:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 8), align 2
+; SSE2-NEXT:    [[A9:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 9), align 2
+; SSE2-NEXT:    [[A10:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 10), align 2
+; SSE2-NEXT:    [[A11:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 11), align 2
+; SSE2-NEXT:    [[A12:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 12), align 2
+; SSE2-NEXT:    [[A13:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 13), align 2
+; SSE2-NEXT:    [[A14:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 14), align 2
+; SSE2-NEXT:    [[A15:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 15), align 2
+; SSE2-NEXT:    [[A16:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 16), align 2
+; SSE2-NEXT:    [[A17:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 17), align 2
+; SSE2-NEXT:    [[A18:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 18), align 2
+; SSE2-NEXT:    [[A19:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 19), align 2
+; SSE2-NEXT:    [[A20:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 20), align 2
+; SSE2-NEXT:    [[A21:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 21), align 2
+; SSE2-NEXT:    [[A22:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 22), align 2
+; SSE2-NEXT:    [[A23:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 23), align 2
+; SSE2-NEXT:    [[A24:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 24), align 2
+; SSE2-NEXT:    [[A25:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 25), align 2
+; SSE2-NEXT:    [[A26:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 26), align 2
+; SSE2-NEXT:    [[A27:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 27), align 2
+; SSE2-NEXT:    [[A28:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 28), align 2
+; SSE2-NEXT:    [[A29:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 29), align 2
+; SSE2-NEXT:    [[A30:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 30), align 2
+; SSE2-NEXT:    [[A31:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 31), align 2
+; SSE2-NEXT:    [[B0:%.*]] = load i16, ptr @b16, align 2
+; SSE2-NEXT:    [[B1:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 1), align 2
+; SSE2-NEXT:    [[B2:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 2), align 2
+; SSE2-NEXT:    [[B3:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 3), align 2
+; SSE2-NEXT:    [[B4:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 4), align 2
+; SSE2-NEXT:    [[B5:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 5), align 2
+; SSE2-NEXT:    [[B6:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 6), align 2
+; SSE2-NEXT:    [[B7:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 7), align 2
+; SSE2-NEXT:    [[B8:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 8), align 2
+; SSE2-NEXT:    [[B9:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 9), align 2
+; SSE2-NEXT:    [[B10:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 10), align 2
+; SSE2-NEXT:    [[B11:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 11), align 2
+; SSE2-NEXT:    [[B12:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 12), align 2
+; SSE2-NEXT:    [[B13:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 13), align 2
+; SSE2-NEXT:    [[B14:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 14), align 2
+; SSE2-NEXT:    [[B15:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 15), align 2
+; SSE2-NEXT:    [[B16:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 16), align 2
+; SSE2-NEXT:    [[B17:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 17), align 2
+; SSE2-NEXT:    [[B18:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 18), align 2
+; SSE2-NEXT:    [[B19:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 19), align 2
+; SSE2-NEXT:    [[B20:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 20), align 2
+; SSE2-NEXT:    [[B21:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 21), align 2
+; SSE2-NEXT:    [[B22:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 22), align 2
+; SSE2-NEXT:    [[B23:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 23), align 2
+; SSE2-NEXT:    [[B24:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 24), align 2
+; SSE2-NEXT:    [[B25:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 25), align 2
+; SSE2-NEXT:    [[B26:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 26), align 2
+; SSE2-NEXT:    [[B27:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 27), align 2
+; SSE2-NEXT:    [[B28:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 28), align 2
+; SSE2-NEXT:    [[B29:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 29), align 2
+; SSE2-NEXT:    [[B30:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 30), align 2
+; SSE2-NEXT:    [[B31:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 31), align 2
+; SSE2-NEXT:    [[R0:%.*]] = call i16 @llvm.fshl.i16(i16 [[A0]], i16 [[A0]], i16 [[B0]])
+; SSE2-NEXT:    [[R1:%.*]] = call i16 @llvm.fshl.i16(i16 [[A1]], i16 [[A1]], i16 [[B1]])
+; SSE2-NEXT:    [[R2:%.*]] = call i16 @llvm.fshl.i16(i16 [[A2]], i16 [[A2]], i16 [[B2]])
+; SSE2-NEXT:    [[R3:%.*]] = call i16 @llvm.fshl.i16(i16 [[A3]], i16 [[A3]], i16 [[B3]])
+; SSE2-NEXT:    [[R4:%.*]] = call i16 @llvm.fshl.i16(i16 [[A4]], i16 [[A4]], i16 [[B4]])
+; SSE2-NEXT:    [[R5:%.*]] = call i16 @llvm.fshl.i16(i16 [[A5]], i16 [[A5]], i16 [[B5]])
+; SSE2-NEXT:    [[R6:%.*]] = call i16 @llvm.fshl.i16(i16 [[A6]], i16 [[A6]], i16 [[B6]])
+; SSE2-NEXT:    [[R7:%.*]] = call i16 @llvm.fshl.i16(i16 [[A7]], i16 [[A7]], i16 [[B7]])
+; SSE2-NEXT:    [[R8:%.*]] = call i16 @llvm.fshl.i16(i16 [[A8]], i16 [[A8]], i16 [[B8]])
+; SSE2-NEXT:    [[R9:%.*]] = call i16 @llvm.fshl.i16(i16 [[A9]], i16 [[A9]], i16 [[B9]])
+; SSE2-NEXT:    [[R10:%.*]] = call i16 @llvm.fshl.i16(i16 [[A10]], i16 [[A10]], i16 [[B10]])
+; SSE2-NEXT:    [[R11:%.*]] = call i16 @llvm.fshl.i16(i16 [[A11]], i16 [[A11]], i16 [[B11]])
+; SSE2-NEXT:    [[R12:%.*]] = call i16 @llvm.fshl.i16(i16 [[A12]], i16 [[A12]], i16 [[B12]])
+; SSE2-NEXT:    [[R13:%.*]] = call i16 @llvm.fshl.i16(i16 [[A13]], i16 [[A13]], i16 [[B13]])
+; SSE2-NEXT:    [[R14:%.*]] = call i16 @llvm.fshl.i16(i16 [[A14]], i16 [[A14]], i16 [[B14]])
+; SSE2-NEXT:    [[R15:%.*]] = call i16 @llvm.fshl.i16(i16 [[A15]], i16 [[A15]], i16 [[B15]])
+; SSE2-NEXT:    [[R16:%.*]] = call i16 @llvm.fshl.i16(i16 [[A16]], i16 [[A16]], i16 [[B16]])
+; SSE2-NEXT:    [[R17:%.*]] = call i16 @llvm.fshl.i16(i16 [[A17]], i16 [[A17]], i16 [[B17]])
+; SSE2-NEXT:    [[R18:%.*]] = call i16 @llvm.fshl.i16(i16 [[A18]], i16 [[A18]], i16 [[B18]])
+; SSE2-NEXT:    [[R19:%.*]] = call i16 @llvm.fshl.i16(i16 [[A19]], i16 [[A19]], i16 [[B19]])
+; SSE2-NEXT:    [[R20:%.*]] = call i16 @llvm.fshl.i16(i16 [[A20]], i16 [[A20]], i16 [[B20]])
+; SSE2-NEXT:    [[R21:%.*]] = call i16 @llvm.fshl.i16(i16 [[A21]], i16 [[A21]], i16 [[B21]])
+; SSE2-NEXT:    [[R22:%.*]] = call i16 @llvm.fshl.i16(i16 [[A22]], i16 [[A22]], i16 [[B22]])
+; SSE2-NEXT:    [[R23:%.*]] = call i16 @llvm.fshl.i16(i16 [[A23]], i16 [[A23]], i16 [[B23]])
+; SSE2-NEXT:    [[R24:%.*]] = call i16 @llvm.fshl.i16(i16 [[A24]], i16 [[A24]], i16 [[B24]])
+; SSE2-NEXT:    [[R25:%.*]] = call i16 @llvm.fshl.i16(i16 [[A25]], i16 [[A25]], i16 [[B25]])
+; SSE2-NEXT:    [[R26:%.*]] = call i16 @llvm.fshl.i16(i16 [[A26]], i16 [[A26]], i16 [[B26]])
+; SSE2-NEXT:    [[R27:%.*]] = call i16 @llvm.fshl.i16(i16 [[A27]], i16 [[A27]], i16 [[B27]])
+; SSE2-NEXT:    [[R28:%.*]] = call i16 @llvm.fshl.i16(i16 [[A28]], i16 [[A28]], i16 [[B28]])
+; SSE2-NEXT:    [[R29:%.*]] = call i16 @llvm.fshl.i16(i16 [[A29]], i16 [[A29]], i16 [[B29]])
+; SSE2-NEXT:    [[R30:%.*]] = call i16 @llvm.fshl.i16(i16 [[A30]], i16 [[A30]], i16 [[B30]])
+; SSE2-NEXT:    [[R31:%.*]] = call i16 @llvm.fshl.i16(i16 [[A31]], i16 [[A31]], i16 [[B31]])
+; SSE2-NEXT:    store i16 [[R0]], ptr @d16, align 2
+; SSE2-NEXT:    store i16 [[R1]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 1), align 2
+; SSE2-NEXT:    store i16 [[R2]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 2), align 2
+; SSE2-NEXT:    store i16 [[R3]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 3), align 2
+; SSE2-NEXT:    store i16 [[R4]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 4), align 2
+; SSE2-NEXT:    store i16 [[R5]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 5), align 2
+; SSE2-NEXT:    store i16 [[R6]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 6), align 2
+; SSE2-NEXT:    store i16 [[R7]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 7), align 2
+; SSE2-NEXT:    store i16 [[R8]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 8), align 2
+; SSE2-NEXT:    store i16 [[R9]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 9), align 2
+; SSE2-NEXT:    store i16 [[R10]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 10), align 2
+; SSE2-NEXT:    store i16 [[R11]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 11), align 2
+; SSE2-NEXT:    store i16 [[R12]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 12), align 2
+; SSE2-NEXT:    store i16 [[R13]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 13), align 2
+; SSE2-NEXT:    store i16 [[R14]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 14), align 2
+; SSE2-NEXT:    store i16 [[R15]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 15), align 2
+; SSE2-NEXT:    store i16 [[R16]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 16), align 2
+; SSE2-NEXT:    store i16 [[R17]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 17), align 2
+; SSE2-NEXT:    store i16 [[R18]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 18), align 2
+; SSE2-NEXT:    store i16 [[R19]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 19), align 2
+; SSE2-NEXT:    store i16 [[R20]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 20), align 2
+; SSE2-NEXT:    store i16 [[R21]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 21), align 2
+; SSE2-NEXT:    store i16 [[R22]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 22), align 2
+; SSE2-NEXT:    store i16 [[R23]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 23), align 2
+; SSE2-NEXT:    store i16 [[R24]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 24), align 2
+; SSE2-NEXT:    store i16 [[R25]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 25), align 2
+; SSE2-NEXT:    store i16 [[R26]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 26), align 2
+; SSE2-NEXT:    store i16 [[R27]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 27), align 2
+; SSE2-NEXT:    store i16 [[R28]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 28), align 2
+; SSE2-NEXT:    store i16 [[R29]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 29), align 2
+; SSE2-NEXT:    store i16 [[R30]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 30), align 2
+; SSE2-NEXT:    store i16 [[R31]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 31), align 2
+; SSE2-NEXT:    ret void
+;
+; SSE4-LABEL: @fshl_v32i16(
+; SSE4-NEXT:    [[TMP1:%.*]] = load <8 x i16>, ptr @a16, align 2
+; SSE4-NEXT:    [[TMP2:%.*]] = load <8 x i16>, ptr @b16, align 2
+; SSE4-NEXT:    [[TMP3:%.*]] = call <8 x i16> @llvm.fshl.v8i16(<8 x i16> [[TMP1]], <8 x i16> [[TMP1]], <8 x i16> [[TMP2]])
+; SSE4-NEXT:    store <8 x i16> [[TMP3]], ptr @d16, align 2
+; SSE4-NEXT:    [[TMP4:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 8), align 2
+; SSE4-NEXT:    [[TMP5:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 8), align 2
+; SSE4-NEXT:    [[TMP6:%.*]] = call <8 x i16> @llvm.fshl.v8i16(<8 x i16> [[TMP4]], <8 x i16> [[TMP4]], <8 x i16> [[TMP5]])
+; SSE4-NEXT:    store <8 x i16> [[TMP6]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 8), align 2
+; SSE4-NEXT:    [[TMP7:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 16), align 2
+; SSE4-NEXT:    [[TMP8:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 16), align 2
+; SSE4-NEXT:    [[TMP9:%.*]] = call <8 x i16> @llvm.fshl.v8i16(<8 x i16> [[TMP7]], <8 x i16> [[TMP7]], <8 x i16> [[TMP8]])
+; SSE4-NEXT:    store <8 x i16> [[TMP9]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 16), align 2
+; SSE4-NEXT:    [[TMP10:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 24), align 2
+; SSE4-NEXT:    [[TMP11:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 24), align 2
+; SSE4-NEXT:    [[TMP12:%.*]] = call <8 x i16> @llvm.fshl.v8i16(<8 x i16> [[TMP10]], <8 x i16> [[TMP10]], <8 x i16> [[TMP11]])
+; SSE4-NEXT:    store <8 x i16> [[TMP12]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 24), align 2
+; SSE4-NEXT:    ret void
+;
 ; AVX-LABEL: @fshl_v32i16(
 ; AVX-NEXT:    [[TMP1:%.*]] = load <16 x i16>, ptr @a16, align 2
 ; AVX-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr @b16, align 2
@@ -335,6 +500,13 @@ define void @fshl_v32i16() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <32 x i16> @llvm.fshl.v32i16(<32 x i16> [[TMP1]], <32 x i16> [[TMP1]], <32 x i16> [[TMP2]])
 ; AVX512-NEXT:    store <32 x i16> [[TMP3]], ptr @d16, align 2
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v32i16(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <32 x i16>, ptr @a16, align 2
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <32 x i16>, ptr @b16, align 2
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <32 x i16> @llvm.fshl.v32i16(<32 x i16> [[TMP1]], <32 x i16> [[TMP1]], <32 x i16> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <32 x i16> [[TMP3]], ptr @d16, align 2
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 0 ), align 2
   %a1  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 1 ), align 2
@@ -504,6 +676,13 @@ define void @fshl_v64i8() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <64 x i8> @llvm.fshl.v64i8(<64 x i8> [[TMP1]], <64 x i8> [[TMP1]], <64 x i8> [[TMP2]])
 ; AVX512-NEXT:    store <64 x i8> [[TMP3]], ptr @d8, align 1
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v64i8(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <64 x i8>, ptr @a8, align 1
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <64 x i8>, ptr @b8, align 1
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <64 x i8> @llvm.fshl.v64i8(<64 x i8> [[TMP1]], <64 x i8> [[TMP1]], <64 x i8> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <64 x i8> [[TMP3]], ptr @d8, align 1
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 0 ), align 1
   %a1  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 1 ), align 1
@@ -811,6 +990,13 @@ define void @fshl_v2i32() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> [[TMP2]])
 ; AVX512-NEXT:    store <2 x i32> [[TMP3]], ptr @d32, align 4
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v2i32(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <2 x i32>, ptr @b32, align 4
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <2 x i32> [[TMP3]], ptr @d32, align 4
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
@@ -863,6 +1049,12 @@ define void @fshl_v2i32_uniformconst() {
 ; AVX512-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> splat (i32 1))
 ; AVX512-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v2i32_uniformconst(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> splat (i32 1))
+; AVX512VBMI2-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
diff --git a/llvm/test/Transforms/SLPVectorizer/X86/arith-fshl.ll b/llvm/test/Transforms/SLPVectorizer/X86/arith-fshl.ll
index 609a9024e5bf7..cd9348fcb5eed 100644
--- a/llvm/test/Transforms/SLPVectorizer/X86/arith-fshl.ll
+++ b/llvm/test/Transforms/SLPVectorizer/X86/arith-fshl.ll
@@ -5,6 +5,7 @@
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=core-avx2 -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX2
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=+prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX256
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=-prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
+; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=znver4 -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512VBMI2
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=knl -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
 
 @a64 = common global [8 x i64] zeroinitializer, align 64
@@ -129,6 +130,14 @@ define void @fshl_v8i64() {
 ; AVX512-NEXT:    [[TMP4:%.*]] = call <8 x i64> @llvm.fshl.v8i64(<8 x i64> [[TMP1]], <8 x i64> [[TMP2]], <8 x i64> [[TMP3]])
 ; AVX512-NEXT:    store <8 x i64> [[TMP4]], ptr @d64, align 8
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v8i64(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <8 x i64>, ptr @a64, align 8
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <8 x i64>, ptr @b64, align 8
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = load <8 x i64>, ptr @c64, align 8
+; AVX512VBMI2-NEXT:    [[TMP4:%.*]] = call <8 x i64> @llvm.fshl.v8i64(<8 x i64> [[TMP1]], <8 x i64> [[TMP2]], <8 x i64> [[TMP3]])
+; AVX512VBMI2-NEXT:    store <8 x i64> [[TMP4]], ptr @d64, align 8
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0 = load i64, ptr @a64, align 8
   %a1 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 1), align 8
@@ -277,6 +286,14 @@ define void @fshl_v16i32() {
 ; AVX512-NEXT:    [[TMP4:%.*]] = call <16 x i32> @llvm.fshl.v16i32(<16 x i32> [[TMP1]], <16 x i32> [[TMP2]], <16 x i32> [[TMP3]])
 ; AVX512-NEXT:    store <16 x i32> [[TMP4]], ptr @d32, align 4
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v16i32(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <16 x i32>, ptr @a32, align 4
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <16 x i32>, ptr @b32, align 4
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = load <16 x i32>, ptr @c32, align 4
+; AVX512VBMI2-NEXT:    [[TMP4:%.*]] = call <16 x i32> @llvm.fshl.v16i32(<16 x i32> [[TMP1]], <16 x i32> [[TMP2]], <16 x i32> [[TMP3]])
+; AVX512VBMI2-NEXT:    store <16 x i32> [[TMP4]], ptr @d32, align 4
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
@@ -405,6 +422,14 @@ define void @fshl_v32i16() {
 ; AVX512-NEXT:    [[TMP4:%.*]] = call <32 x i16> @llvm.fshl.v32i16(<32 x i16> [[TMP1]], <32 x i16> [[TMP2]], <32 x i16> [[TMP3]])
 ; AVX512-NEXT:    store <32 x i16> [[TMP4]], ptr @d16, align 2
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v32i16(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <32 x i16>, ptr @a16, align 2
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <32 x i16>, ptr @b16, align 2
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = load <32 x i16>, ptr @c16, align 2
+; AVX512VBMI2-NEXT:    [[TMP4:%.*]] = call <32 x i16> @llvm.fshl.v32i16(<32 x i16> [[TMP1]], <32 x i16> [[TMP2]], <32 x i16> [[TMP3]])
+; AVX512VBMI2-NEXT:    store <32 x i16> [[TMP4]], ptr @d16, align 2
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 0 ), align 2
   %a1  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 1 ), align 2
@@ -613,6 +638,14 @@ define void @fshl_v64i8() {
 ; AVX512-NEXT:    [[TMP4:%.*]] = call <64 x i8> @llvm.fshl.v64i8(<64 x i8> [[TMP1]], <64 x i8> [[TMP2]], <64 x i8> [[TMP3]])
 ; AVX512-NEXT:    store <64 x i8> [[TMP4]], ptr @d8, align 1
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshl_v64i8(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <64 x i8>, ptr @a8, align 1
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <64 x i8>, ptr @b8, align 1
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = load <64 x i8>, ptr @c8, align 1
+; AVX512VBMI2-NEXT:    [[TMP4:%.*]] = call <64 x i8> @llvm.fshl.v64i8(<64 x i8> [[TMP1]], <64 x i8> [[TMP2]], <64 x i8> [[TMP3]])
+; AVX512VBMI2-NEXT:    store <64 x i8> [[TMP4]], ptr @d8, align 1
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 0 ), align 1
   %a1  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 1 ), align 1
diff --git a/llvm/test/Transforms/SLPVectorizer/X86/arith-fshr-rot.ll b/llvm/test/Transforms/SLPVectorizer/X86/arith-fshr-rot.ll
index d2002b4eedaf4..4d50ffad7f8b5 100644
--- a/llvm/test/Transforms/SLPVectorizer/X86/arith-fshr-rot.ll
+++ b/llvm/test/Transforms/SLPVectorizer/X86/arith-fshr-rot.ll
@@ -1,10 +1,11 @@
 ; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
-; RUN: opt < %s -mtriple=x86_64-unknown -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE
-; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=slm -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE
+; RUN: opt < %s -mtriple=x86_64-unknown -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE,SSE2
+; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=slm -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=SSE,SSE4
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=corei7-avx -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX1
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=core-avx2 -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX2
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=+prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX256
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=-prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
+; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=znver4 -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512VBMI2
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=knl -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
 
 @a64 = common global [8 x i64] zeroinitializer, align 64
@@ -128,6 +129,13 @@ define void @fshr_v8i64() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <8 x i64> @llvm.fshr.v8i64(<8 x i64> [[TMP1]], <8 x i64> [[TMP1]], <8 x i64> [[TMP2]])
 ; AVX512-NEXT:    store <8 x i64> [[TMP3]], ptr @d64, align 8
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v8i64(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <8 x i64>, ptr @a64, align 8
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <8 x i64>, ptr @b64, align 8
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <8 x i64> @llvm.fshr.v8i64(<8 x i64> [[TMP1]], <8 x i64> [[TMP1]], <8 x i64> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <8 x i64> [[TMP3]], ptr @d64, align 8
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0 = load i64, ptr @a64, align 8
   %a1 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 1), align 8
@@ -249,6 +257,13 @@ define void @fshr_v16i32() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <16 x i32> @llvm.fshr.v16i32(<16 x i32> [[TMP1]], <16 x i32> [[TMP1]], <16 x i32> [[TMP2]])
 ; AVX512-NEXT:    store <16 x i32> [[TMP3]], ptr @d32, align 4
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v16i32(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <16 x i32>, ptr @a32, align 4
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <16 x i32>, ptr @b32, align 4
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <16 x i32> @llvm.fshr.v16i32(<16 x i32> [[TMP1]], <16 x i32> [[TMP1]], <16 x i32> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <16 x i32> [[TMP3]], ptr @d32, align 4
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
@@ -318,6 +333,156 @@ define void @fshr_v16i32() {
 }
 
 define void @fshr_v32i16() {
+; SSE2-LABEL: @fshr_v32i16(
+; SSE2-NEXT:    [[A0:%.*]] = load i16, ptr @a16, align 2
+; SSE2-NEXT:    [[A1:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 1), align 2
+; SSE2-NEXT:    [[A2:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 2), align 2
+; SSE2-NEXT:    [[A3:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 3), align 2
+; SSE2-NEXT:    [[A4:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 4), align 2
+; SSE2-NEXT:    [[A5:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 5), align 2
+; SSE2-NEXT:    [[A6:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 6), align 2
+; SSE2-NEXT:    [[A7:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 7), align 2
+; SSE2-NEXT:    [[A8:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 8), align 2
+; SSE2-NEXT:    [[A9:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 9), align 2
+; SSE2-NEXT:    [[A10:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 10), align 2
+; SSE2-NEXT:    [[A11:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 11), align 2
+; SSE2-NEXT:    [[A12:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 12), align 2
+; SSE2-NEXT:    [[A13:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 13), align 2
+; SSE2-NEXT:    [[A14:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 14), align 2
+; SSE2-NEXT:    [[A15:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 15), align 2
+; SSE2-NEXT:    [[A16:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 16), align 2
+; SSE2-NEXT:    [[A17:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 17), align 2
+; SSE2-NEXT:    [[A18:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 18), align 2
+; SSE2-NEXT:    [[A19:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 19), align 2
+; SSE2-NEXT:    [[A20:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 20), align 2
+; SSE2-NEXT:    [[A21:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 21), align 2
+; SSE2-NEXT:    [[A22:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 22), align 2
+; SSE2-NEXT:    [[A23:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 23), align 2
+; SSE2-NEXT:    [[A24:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 24), align 2
+; SSE2-NEXT:    [[A25:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 25), align 2
+; SSE2-NEXT:    [[A26:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 26), align 2
+; SSE2-NEXT:    [[A27:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 27), align 2
+; SSE2-NEXT:    [[A28:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 28), align 2
+; SSE2-NEXT:    [[A29:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 29), align 2
+; SSE2-NEXT:    [[A30:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 30), align 2
+; SSE2-NEXT:    [[A31:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 31), align 2
+; SSE2-NEXT:    [[B0:%.*]] = load i16, ptr @b16, align 2
+; SSE2-NEXT:    [[B1:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 1), align 2
+; SSE2-NEXT:    [[B2:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 2), align 2
+; SSE2-NEXT:    [[B3:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 3), align 2
+; SSE2-NEXT:    [[B4:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 4), align 2
+; SSE2-NEXT:    [[B5:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 5), align 2
+; SSE2-NEXT:    [[B6:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 6), align 2
+; SSE2-NEXT:    [[B7:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 7), align 2
+; SSE2-NEXT:    [[B8:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 8), align 2
+; SSE2-NEXT:    [[B9:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 9), align 2
+; SSE2-NEXT:    [[B10:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 10), align 2
+; SSE2-NEXT:    [[B11:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 11), align 2
+; SSE2-NEXT:    [[B12:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 12), align 2
+; SSE2-NEXT:    [[B13:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 13), align 2
+; SSE2-NEXT:    [[B14:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 14), align 2
+; SSE2-NEXT:    [[B15:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 15), align 2
+; SSE2-NEXT:    [[B16:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 16), align 2
+; SSE2-NEXT:    [[B17:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 17), align 2
+; SSE2-NEXT:    [[B18:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 18), align 2
+; SSE2-NEXT:    [[B19:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 19), align 2
+; SSE2-NEXT:    [[B20:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 20), align 2
+; SSE2-NEXT:    [[B21:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 21), align 2
+; SSE2-NEXT:    [[B22:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 22), align 2
+; SSE2-NEXT:    [[B23:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 23), align 2
+; SSE2-NEXT:    [[B24:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 24), align 2
+; SSE2-NEXT:    [[B25:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 25), align 2
+; SSE2-NEXT:    [[B26:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 26), align 2
+; SSE2-NEXT:    [[B27:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 27), align 2
+; SSE2-NEXT:    [[B28:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 28), align 2
+; SSE2-NEXT:    [[B29:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 29), align 2
+; SSE2-NEXT:    [[B30:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 30), align 2
+; SSE2-NEXT:    [[B31:%.*]] = load i16, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 31), align 2
+; SSE2-NEXT:    [[R0:%.*]] = call i16 @llvm.fshr.i16(i16 [[A0]], i16 [[A0]], i16 [[B0]])
+; SSE2-NEXT:    [[R1:%.*]] = call i16 @llvm.fshr.i16(i16 [[A1]], i16 [[A1]], i16 [[B1]])
+; SSE2-NEXT:    [[R2:%.*]] = call i16 @llvm.fshr.i16(i16 [[A2]], i16 [[A2]], i16 [[B2]])
+; SSE2-NEXT:    [[R3:%.*]] = call i16 @llvm.fshr.i16(i16 [[A3]], i16 [[A3]], i16 [[B3]])
+; SSE2-NEXT:    [[R4:%.*]] = call i16 @llvm.fshr.i16(i16 [[A4]], i16 [[A4]], i16 [[B4]])
+; SSE2-NEXT:    [[R5:%.*]] = call i16 @llvm.fshr.i16(i16 [[A5]], i16 [[A5]], i16 [[B5]])
+; SSE2-NEXT:    [[R6:%.*]] = call i16 @llvm.fshr.i16(i16 [[A6]], i16 [[A6]], i16 [[B6]])
+; SSE2-NEXT:    [[R7:%.*]] = call i16 @llvm.fshr.i16(i16 [[A7]], i16 [[A7]], i16 [[B7]])
+; SSE2-NEXT:    [[R8:%.*]] = call i16 @llvm.fshr.i16(i16 [[A8]], i16 [[A8]], i16 [[B8]])
+; SSE2-NEXT:    [[R9:%.*]] = call i16 @llvm.fshr.i16(i16 [[A9]], i16 [[A9]], i16 [[B9]])
+; SSE2-NEXT:    [[R10:%.*]] = call i16 @llvm.fshr.i16(i16 [[A10]], i16 [[A10]], i16 [[B10]])
+; SSE2-NEXT:    [[R11:%.*]] = call i16 @llvm.fshr.i16(i16 [[A11]], i16 [[A11]], i16 [[B11]])
+; SSE2-NEXT:    [[R12:%.*]] = call i16 @llvm.fshr.i16(i16 [[A12]], i16 [[A12]], i16 [[B12]])
+; SSE2-NEXT:    [[R13:%.*]] = call i16 @llvm.fshr.i16(i16 [[A13]], i16 [[A13]], i16 [[B13]])
+; SSE2-NEXT:    [[R14:%.*]] = call i16 @llvm.fshr.i16(i16 [[A14]], i16 [[A14]], i16 [[B14]])
+; SSE2-NEXT:    [[R15:%.*]] = call i16 @llvm.fshr.i16(i16 [[A15]], i16 [[A15]], i16 [[B15]])
+; SSE2-NEXT:    [[R16:%.*]] = call i16 @llvm.fshr.i16(i16 [[A16]], i16 [[A16]], i16 [[B16]])
+; SSE2-NEXT:    [[R17:%.*]] = call i16 @llvm.fshr.i16(i16 [[A17]], i16 [[A17]], i16 [[B17]])
+; SSE2-NEXT:    [[R18:%.*]] = call i16 @llvm.fshr.i16(i16 [[A18]], i16 [[A18]], i16 [[B18]])
+; SSE2-NEXT:    [[R19:%.*]] = call i16 @llvm.fshr.i16(i16 [[A19]], i16 [[A19]], i16 [[B19]])
+; SSE2-NEXT:    [[R20:%.*]] = call i16 @llvm.fshr.i16(i16 [[A20]], i16 [[A20]], i16 [[B20]])
+; SSE2-NEXT:    [[R21:%.*]] = call i16 @llvm.fshr.i16(i16 [[A21]], i16 [[A21]], i16 [[B21]])
+; SSE2-NEXT:    [[R22:%.*]] = call i16 @llvm.fshr.i16(i16 [[A22]], i16 [[A22]], i16 [[B22]])
+; SSE2-NEXT:    [[R23:%.*]] = call i16 @llvm.fshr.i16(i16 [[A23]], i16 [[A23]], i16 [[B23]])
+; SSE2-NEXT:    [[R24:%.*]] = call i16 @llvm.fshr.i16(i16 [[A24]], i16 [[A24]], i16 [[B24]])
+; SSE2-NEXT:    [[R25:%.*]] = call i16 @llvm.fshr.i16(i16 [[A25]], i16 [[A25]], i16 [[B25]])
+; SSE2-NEXT:    [[R26:%.*]] = call i16 @llvm.fshr.i16(i16 [[A26]], i16 [[A26]], i16 [[B26]])
+; SSE2-NEXT:    [[R27:%.*]] = call i16 @llvm.fshr.i16(i16 [[A27]], i16 [[A27]], i16 [[B27]])
+; SSE2-NEXT:    [[R28:%.*]] = call i16 @llvm.fshr.i16(i16 [[A28]], i16 [[A28]], i16 [[B28]])
+; SSE2-NEXT:    [[R29:%.*]] = call i16 @llvm.fshr.i16(i16 [[A29]], i16 [[A29]], i16 [[B29]])
+; SSE2-NEXT:    [[R30:%.*]] = call i16 @llvm.fshr.i16(i16 [[A30]], i16 [[A30]], i16 [[B30]])
+; SSE2-NEXT:    [[R31:%.*]] = call i16 @llvm.fshr.i16(i16 [[A31]], i16 [[A31]], i16 [[B31]])
+; SSE2-NEXT:    store i16 [[R0]], ptr @d16, align 2
+; SSE2-NEXT:    store i16 [[R1]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 1), align 2
+; SSE2-NEXT:    store i16 [[R2]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 2), align 2
+; SSE2-NEXT:    store i16 [[R3]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 3), align 2
+; SSE2-NEXT:    store i16 [[R4]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 4), align 2
+; SSE2-NEXT:    store i16 [[R5]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 5), align 2
+; SSE2-NEXT:    store i16 [[R6]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 6), align 2
+; SSE2-NEXT:    store i16 [[R7]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 7), align 2
+; SSE2-NEXT:    store i16 [[R8]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 8), align 2
+; SSE2-NEXT:    store i16 [[R9]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 9), align 2
+; SSE2-NEXT:    store i16 [[R10]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 10), align 2
+; SSE2-NEXT:    store i16 [[R11]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 11), align 2
+; SSE2-NEXT:    store i16 [[R12]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 12), align 2
+; SSE2-NEXT:    store i16 [[R13]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 13), align 2
+; SSE2-NEXT:    store i16 [[R14]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 14), align 2
+; SSE2-NEXT:    store i16 [[R15]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 15), align 2
+; SSE2-NEXT:    store i16 [[R16]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 16), align 2
+; SSE2-NEXT:    store i16 [[R17]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 17), align 2
+; SSE2-NEXT:    store i16 [[R18]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 18), align 2
+; SSE2-NEXT:    store i16 [[R19]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 19), align 2
+; SSE2-NEXT:    store i16 [[R20]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 20), align 2
+; SSE2-NEXT:    store i16 [[R21]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 21), align 2
+; SSE2-NEXT:    store i16 [[R22]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 22), align 2
+; SSE2-NEXT:    store i16 [[R23]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 23), align 2
+; SSE2-NEXT:    store i16 [[R24]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 24), align 2
+; SSE2-NEXT:    store i16 [[R25]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 25), align 2
+; SSE2-NEXT:    store i16 [[R26]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 26), align 2
+; SSE2-NEXT:    store i16 [[R27]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 27), align 2
+; SSE2-NEXT:    store i16 [[R28]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 28), align 2
+; SSE2-NEXT:    store i16 [[R29]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 29), align 2
+; SSE2-NEXT:    store i16 [[R30]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 30), align 2
+; SSE2-NEXT:    store i16 [[R31]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 31), align 2
+; SSE2-NEXT:    ret void
+;
+; SSE4-LABEL: @fshr_v32i16(
+; SSE4-NEXT:    [[TMP1:%.*]] = load <8 x i16>, ptr @a16, align 2
+; SSE4-NEXT:    [[TMP2:%.*]] = load <8 x i16>, ptr @b16, align 2
+; SSE4-NEXT:    [[TMP3:%.*]] = call <8 x i16> @llvm.fshr.v8i16(<8 x i16> [[TMP1]], <8 x i16> [[TMP1]], <8 x i16> [[TMP2]])
+; SSE4-NEXT:    store <8 x i16> [[TMP3]], ptr @d16, align 2
+; SSE4-NEXT:    [[TMP4:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 8), align 2
+; SSE4-NEXT:    [[TMP5:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 8), align 2
+; SSE4-NEXT:    [[TMP6:%.*]] = call <8 x i16> @llvm.fshr.v8i16(<8 x i16> [[TMP4]], <8 x i16> [[TMP4]], <8 x i16> [[TMP5]])
+; SSE4-NEXT:    store <8 x i16> [[TMP6]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 8), align 2
+; SSE4-NEXT:    [[TMP7:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 16), align 2
+; SSE4-NEXT:    [[TMP8:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 16), align 2
+; SSE4-NEXT:    [[TMP9:%.*]] = call <8 x i16> @llvm.fshr.v8i16(<8 x i16> [[TMP7]], <8 x i16> [[TMP7]], <8 x i16> [[TMP8]])
+; SSE4-NEXT:    store <8 x i16> [[TMP9]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 16), align 2
+; SSE4-NEXT:    [[TMP10:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 24), align 2
+; SSE4-NEXT:    [[TMP11:%.*]] = load <8 x i16>, ptr getelementptr inbounds ([32 x i16], ptr @b16, i32 0, i64 24), align 2
+; SSE4-NEXT:    [[TMP12:%.*]] = call <8 x i16> @llvm.fshr.v8i16(<8 x i16> [[TMP10]], <8 x i16> [[TMP10]], <8 x i16> [[TMP11]])
+; SSE4-NEXT:    store <8 x i16> [[TMP12]], ptr getelementptr inbounds ([32 x i16], ptr @d16, i32 0, i64 24), align 2
+; SSE4-NEXT:    ret void
+;
 ; AVX-LABEL: @fshr_v32i16(
 ; AVX-NEXT:    [[TMP1:%.*]] = load <16 x i16>, ptr @a16, align 2
 ; AVX-NEXT:    [[TMP2:%.*]] = load <16 x i16>, ptr @b16, align 2
@@ -335,6 +500,13 @@ define void @fshr_v32i16() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <32 x i16> @llvm.fshr.v32i16(<32 x i16> [[TMP1]], <32 x i16> [[TMP1]], <32 x i16> [[TMP2]])
 ; AVX512-NEXT:    store <32 x i16> [[TMP3]], ptr @d16, align 2
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v32i16(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <32 x i16>, ptr @a16, align 2
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <32 x i16>, ptr @b16, align 2
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <32 x i16> @llvm.fshr.v32i16(<32 x i16> [[TMP1]], <32 x i16> [[TMP1]], <32 x i16> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <32 x i16> [[TMP3]], ptr @d16, align 2
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 0 ), align 2
   %a1  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 1 ), align 2
@@ -504,6 +676,13 @@ define void @fshr_v64i8() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <64 x i8> @llvm.fshr.v64i8(<64 x i8> [[TMP1]], <64 x i8> [[TMP1]], <64 x i8> [[TMP2]])
 ; AVX512-NEXT:    store <64 x i8> [[TMP3]], ptr @d8, align 1
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v64i8(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <64 x i8>, ptr @a8, align 1
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <64 x i8>, ptr @b8, align 1
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <64 x i8> @llvm.fshr.v64i8(<64 x i8> [[TMP1]], <64 x i8> [[TMP1]], <64 x i8> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <64 x i8> [[TMP3]], ptr @d8, align 1
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 0 ), align 1
   %a1  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 1 ), align 1
@@ -811,6 +990,13 @@ define void @fshr_v2i32() {
 ; AVX512-NEXT:    [[TMP3:%.*]] = call <2 x i32> @llvm.fshr.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> [[TMP2]])
 ; AVX512-NEXT:    store <2 x i32> [[TMP3]], ptr @d32, align 4
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v2i32(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <2 x i32>, ptr @b32, align 4
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = call <2 x i32> @llvm.fshr.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> [[TMP2]])
+; AVX512VBMI2-NEXT:    store <2 x i32> [[TMP3]], ptr @d32, align 4
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
@@ -863,6 +1049,12 @@ define void @fshr_v2i32_uniformconst() {
 ; AVX512-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshr.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> splat (i32 1))
 ; AVX512-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v2i32_uniformconst(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshr.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> splat (i32 1))
+; AVX512VBMI2-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
diff --git a/llvm/test/Transforms/SLPVectorizer/X86/arith-fshr.ll b/llvm/test/Transforms/SLPVectorizer/X86/arith-fshr.ll
index 3dc7d164f5bc9..217f5e06c2983 100644
--- a/llvm/test/Transforms/SLPVectorizer/X86/arith-fshr.ll
+++ b/llvm/test/Transforms/SLPVectorizer/X86/arith-fshr.ll
@@ -5,6 +5,7 @@
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=core-avx2 -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX2
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=+prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX,AVX256
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=skx -mattr=-prefer-256-bit -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
+; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=znver4 -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512VBMI2
 ; RUN: opt < %s -mtriple=x86_64-unknown -mcpu=knl -passes=slp-vectorizer -S | FileCheck %s --check-prefixes=AVX512
 
 @a64 = common global [8 x i64] zeroinitializer, align 64
@@ -129,6 +130,14 @@ define void @fshr_v8i64() {
 ; AVX512-NEXT:    [[TMP4:%.*]] = call <8 x i64> @llvm.fshr.v8i64(<8 x i64> [[TMP1]], <8 x i64> [[TMP2]], <8 x i64> [[TMP3]])
 ; AVX512-NEXT:    store <8 x i64> [[TMP4]], ptr @d64, align 8
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v8i64(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <8 x i64>, ptr @a64, align 8
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <8 x i64>, ptr @b64, align 8
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = load <8 x i64>, ptr @c64, align 8
+; AVX512VBMI2-NEXT:    [[TMP4:%.*]] = call <8 x i64> @llvm.fshr.v8i64(<8 x i64> [[TMP1]], <8 x i64> [[TMP2]], <8 x i64> [[TMP3]])
+; AVX512VBMI2-NEXT:    store <8 x i64> [[TMP4]], ptr @d64, align 8
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0 = load i64, ptr @a64, align 8
   %a1 = load i64, ptr getelementptr inbounds ([8 x i64], ptr @a64, i32 0, i64 1), align 8
@@ -277,6 +286,14 @@ define void @fshr_v16i32() {
 ; AVX512-NEXT:    [[TMP4:%.*]] = call <16 x i32> @llvm.fshr.v16i32(<16 x i32> [[TMP1]], <16 x i32> [[TMP2]], <16 x i32> [[TMP3]])
 ; AVX512-NEXT:    store <16 x i32> [[TMP4]], ptr @d32, align 4
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v16i32(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <16 x i32>, ptr @a32, align 4
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <16 x i32>, ptr @b32, align 4
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = load <16 x i32>, ptr @c32, align 4
+; AVX512VBMI2-NEXT:    [[TMP4:%.*]] = call <16 x i32> @llvm.fshr.v16i32(<16 x i32> [[TMP1]], <16 x i32> [[TMP2]], <16 x i32> [[TMP3]])
+; AVX512VBMI2-NEXT:    store <16 x i32> [[TMP4]], ptr @d32, align 4
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
   %a1  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1 ), align 4
@@ -405,6 +422,14 @@ define void @fshr_v32i16() {
 ; AVX512-NEXT:    [[TMP4:%.*]] = call <32 x i16> @llvm.fshr.v32i16(<32 x i16> [[TMP1]], <32 x i16> [[TMP2]], <32 x i16> [[TMP3]])
 ; AVX512-NEXT:    store <32 x i16> [[TMP4]], ptr @d16, align 2
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v32i16(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <32 x i16>, ptr @a16, align 2
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <32 x i16>, ptr @b16, align 2
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = load <32 x i16>, ptr @c16, align 2
+; AVX512VBMI2-NEXT:    [[TMP4:%.*]] = call <32 x i16> @llvm.fshr.v32i16(<32 x i16> [[TMP1]], <32 x i16> [[TMP2]], <32 x i16> [[TMP3]])
+; AVX512VBMI2-NEXT:    store <32 x i16> [[TMP4]], ptr @d16, align 2
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 0 ), align 2
   %a1  = load i16, ptr getelementptr inbounds ([32 x i16], ptr @a16, i32 0, i64 1 ), align 2
@@ -613,6 +638,14 @@ define void @fshr_v64i8() {
 ; AVX512-NEXT:    [[TMP4:%.*]] = call <64 x i8> @llvm.fshr.v64i8(<64 x i8> [[TMP1]], <64 x i8> [[TMP2]], <64 x i8> [[TMP3]])
 ; AVX512-NEXT:    store <64 x i8> [[TMP4]], ptr @d8, align 1
 ; AVX512-NEXT:    ret void
+;
+; AVX512VBMI2-LABEL: @fshr_v64i8(
+; AVX512VBMI2-NEXT:    [[TMP1:%.*]] = load <64 x i8>, ptr @a8, align 1
+; AVX512VBMI2-NEXT:    [[TMP2:%.*]] = load <64 x i8>, ptr @b8, align 1
+; AVX512VBMI2-NEXT:    [[TMP3:%.*]] = load <64 x i8>, ptr @c8, align 1
+; AVX512VBMI2-NEXT:    [[TMP4:%.*]] = call <64 x i8> @llvm.fshr.v64i8(<64 x i8> [[TMP1]], <64 x i8> [[TMP2]], <64 x i8> [[TMP3]])
+; AVX512VBMI2-NEXT:    store <64 x i8> [[TMP4]], ptr @d8, align 1
+; AVX512VBMI2-NEXT:    ret void
 ;
   %a0  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 0 ), align 1
   %a1  = load i8, ptr getelementptr inbounds ([64 x i8], ptr @a8, i32 0, i64 1 ), align 1
diff --git a/llvm/test/Transforms/SandboxVectorizer/bottomup_basic.ll b/llvm/test/Transforms/SandboxVectorizer/bottomup_basic.ll
index 5b389e25d70d9..ee5a3a514b3c5 100644
--- a/llvm/test/Transforms/SandboxVectorizer/bottomup_basic.ll
+++ b/llvm/test/Transforms/SandboxVectorizer/bottomup_basic.ll
@@ -269,3 +269,31 @@ define void @diamondMultiInput(ptr %ptr, ptr %ptrX) {
   store float %sub1, ptr %ptr1
   ret void
 }
+
+define void @diamondWithConstantVector(ptr %ptr) {
+; CHECK-LABEL: define void @diamondWithConstantVector(
+; CHECK-SAME: ptr [[PTR:%.*]]) {
+; CHECK-NEXT:    [[GEPA0:%.*]] = getelementptr i32, ptr [[PTR]], i64 0
+; CHECK-NEXT:    [[GEPB0:%.*]] = getelementptr i32, ptr [[PTR]], i64 10
+; CHECK-NEXT:    store <2 x i32> zeroinitializer, ptr [[GEPA0]], align 4
+; CHECK-NEXT:    store <2 x i32> zeroinitializer, ptr [[GEPB0]], align 4
+; CHECK-NEXT:    ret void
+;
+  %gepA0 = getelementptr i32, ptr %ptr, i64 0
+  %gepA1 = getelementptr i32, ptr %ptr, i64 1
+
+  %gepB0 = getelementptr i32, ptr %ptr, i64 10
+  %gepB1 = getelementptr i32, ptr %ptr, i64 11
+
+  %zext0 = zext i16 0 to i32
+  %zext1 = zext i16 0 to i32
+
+  store i32 %zext0, ptr %gepA0
+  store i32 %zext1, ptr %gepA1
+
+  %orB0 = or i32 0, %zext0
+  %orB1 = or i32 0, %zext1
+  store i32 %orB0, ptr %gepB0
+  store i32 %orB1, ptr %gepB1
+  ret void
+}
diff --git a/llvm/test/Transforms/SandboxVectorizer/cross_bbs.ll b/llvm/test/Transforms/SandboxVectorizer/cross_bbs.ll
new file mode 100644
index 0000000000000..e913fc5913ba7
--- /dev/null
+++ b/llvm/test/Transforms/SandboxVectorizer/cross_bbs.ll
@@ -0,0 +1,28 @@
+; NOTE: Assertions have been autogenerated by utils/update_test_checks.py UTC_ARGS: --version 5
+; RUN: opt -passes=sandbox-vectorizer -sbvec-vec-reg-bits=1024 -sbvec-allow-non-pow2 -sbvec-passes="bottom-up-vec<>" %s -S | FileCheck %s
+
+define void @cross_bbs(ptr %ptr) {
+; CHECK-LABEL: define void @cross_bbs(
+; CHECK-SAME: ptr [[PTR:%.*]]) {
+; CHECK-NEXT:    [[PTR0:%.*]] = getelementptr i8, ptr [[PTR]], i32 0
+; CHECK-NEXT:    [[PTR1:%.*]] = getelementptr i8, ptr [[PTR]], i32 1
+; CHECK-NEXT:    [[L0:%.*]] = load i8, ptr [[PTR0]], align 1
+; CHECK-NEXT:    [[L1:%.*]] = load i8, ptr [[PTR1]], align 1
+; CHECK-NEXT:    [[PACK:%.*]] = insertelement <2 x i8> poison, i8 [[L0]], i32 0
+; CHECK-NEXT:    [[PACK1:%.*]] = insertelement <2 x i8> [[PACK]], i8 [[L1]], i32 1
+; CHECK-NEXT:    br label %[[BB:.*]]
+; CHECK:       [[BB]]:
+; CHECK-NEXT:    store <2 x i8> [[PACK1]], ptr [[PTR0]], align 1
+; CHECK-NEXT:    ret void
+;
+  %ptr0 = getelementptr i8, ptr %ptr, i32 0
+  %ptr1 = getelementptr i8, ptr %ptr, i32 1
+  %l0 = load i8, ptr %ptr0
+  %l1 = load i8, ptr %ptr1
+  br label %bb
+
+bb:
+  store i8 %l0, ptr %ptr0
+  store i8 %l1, ptr %ptr1
+  ret void
+}
diff --git a/llvm/test/Transforms/SandboxVectorizer/pack.ll b/llvm/test/Transforms/SandboxVectorizer/pack.ll
index 6607b31c02194..373ab743fb890 100644
--- a/llvm/test/Transforms/SandboxVectorizer/pack.ll
+++ b/llvm/test/Transforms/SandboxVectorizer/pack.ll
@@ -14,3 +14,77 @@ define void @pack_constants(ptr %ptr) {
   store i8 1, ptr %ptr1
   ret void
 }
+
+; Make sure we don't generate bad IR when packing PHIs.
+; NOTE: This test may become obsolete once we start vectorizing PHIs.
+define void @packPHIs(ptr %ptr) {
+; CHECK-LABEL: define void @packPHIs(
+; CHECK-SAME: ptr [[PTR:%.*]]) {
+; CHECK-NEXT:  [[ENTRY:.*]]:
+; CHECK-NEXT:    br label %[[LOOP:.*]]
+; CHECK:       [[LOOP]]:
+; CHECK-NEXT:    [[PHI0:%.*]] = phi i8 [ 0, %[[ENTRY]] ], [ 1, %[[LOOP]] ]
+; CHECK-NEXT:    [[PHI1:%.*]] = phi i8 [ 0, %[[ENTRY]] ], [ 1, %[[LOOP]] ]
+; CHECK-NEXT:    [[PHI2:%.*]] = phi i8 [ 0, %[[ENTRY]] ], [ 1, %[[LOOP]] ]
+; CHECK-NEXT:    [[PHI3:%.*]] = phi i8 [ 0, %[[ENTRY]] ], [ 1, %[[LOOP]] ]
+; CHECK-NEXT:    [[PACK:%.*]] = insertelement <2 x i8> poison, i8 [[PHI0]], i32 0
+; CHECK-NEXT:    [[PACK1:%.*]] = insertelement <2 x i8> [[PACK]], i8 [[PHI1]], i32 1
+; CHECK-NEXT:    [[GEP0:%.*]] = getelementptr i8, ptr [[PTR]], i64 0
+; CHECK-NEXT:    store <2 x i8> [[PACK1]], ptr [[GEP0]], align 1
+; CHECK-NEXT:    br label %[[LOOP]]
+; CHECK:       [[EXIT:.*:]]
+; CHECK-NEXT:    ret void
+;
+entry:
+  br label %loop
+
+loop:
+  %phi0 = phi i8 [0, %entry], [1, %loop]
+  %phi1 = phi i8 [0, %entry], [1, %loop]
+  %phi2 = phi i8 [0, %entry], [1, %loop]
+  %phi3 = phi i8 [0, %entry], [1, %loop]
+  %gep0 = getelementptr i8, ptr %ptr, i64 0
+  %gep1 = getelementptr i8, ptr %ptr, i64 1
+  store i8 %phi0, ptr %gep0
+  store i8 %phi1, ptr %gep1
+  br label %loop
+
+exit:
+  ret void
+}
+
+define void @packFromOtherBB(ptr %ptr, i8 %val) {
+; CHECK-LABEL: define void @packFromOtherBB(
+; CHECK-SAME: ptr [[PTR:%.*]], i8 [[VAL:%.*]]) {
+; CHECK-NEXT:  [[ENTRY:.*]]:
+; CHECK-NEXT:    [[ADD0:%.*]] = add i8 [[VAL]], 0
+; CHECK-NEXT:    [[MUL1:%.*]] = mul i8 [[VAL]], 1
+; CHECK-NEXT:    [[PACK:%.*]] = insertelement <2 x i8> poison, i8 [[ADD0]], i32 0
+; CHECK-NEXT:    [[PACK1:%.*]] = insertelement <2 x i8> [[PACK]], i8 [[MUL1]], i32 1
+; CHECK-NEXT:    br label %[[LOOP:.*]]
+; CHECK:       [[LOOP]]:
+; CHECK-NEXT:    [[PHI0:%.*]] = phi i8 [ 0, %[[ENTRY]] ], [ 1, %[[LOOP]] ]
+; CHECK-NEXT:    [[PHI1:%.*]] = phi i8 [ 0, %[[ENTRY]] ], [ 1, %[[LOOP]] ]
+; CHECK-NEXT:    [[GEP0:%.*]] = getelementptr i8, ptr [[PTR]], i64 0
+; CHECK-NEXT:    store <2 x i8> [[PACK1]], ptr [[GEP0]], align 1
+; CHECK-NEXT:    br label %[[LOOP]]
+; CHECK:       [[EXIT:.*:]]
+; CHECK-NEXT:    ret void
+;
+entry:
+  %add0 = add i8 %val, 0
+  %mul1 = mul i8 %val, 1
+  br label %loop
+
+loop:
+  %phi0 = phi i8 [0, %entry], [1, %loop]
+  %phi1 = phi i8 [0, %entry], [1, %loop]
+  %gep0 = getelementptr i8, ptr %ptr, i64 0
+  %gep1 = getelementptr i8, ptr %ptr, i64 1
+  store i8 %add0, ptr %gep0
+  store i8 %mul1, ptr %gep1
+  br label %loop
+
+exit:
+  ret void
+}
diff --git a/llvm/test/Verifier/dicompositetype-elements-null.ll b/llvm/test/Verifier/dicompositetype-elements-null.ll
new file mode 100644
index 0000000000000..c0aca47852bac
--- /dev/null
+++ b/llvm/test/Verifier/dicompositetype-elements-null.ll
@@ -0,0 +1,6 @@
+; RUN: not opt -S < %s 2>&1 | FileCheck %s
+
+!named = !{!0}
+; CHECK: DISubprogram contains null entry in `elements` field
+!0 = distinct !DICompositeType(tag: DW_TAG_structure_type, name: "t1", elements: !1)
+!1 = !{null}
diff --git a/llvm/test/tools/llvm-mca/X86/BtVer2/clear-super-register-1.s b/llvm/test/tools/llvm-mca/X86/BtVer2/clear-super-register-1.s
index 6483809deda3a..0bd5f451e2e34 100644
--- a/llvm/test/tools/llvm-mca/X86/BtVer2/clear-super-register-1.s
+++ b/llvm/test/tools/llvm-mca/X86/BtVer2/clear-super-register-1.s
@@ -15,12 +15,12 @@ bsf   %rax, %rcx
 
 # CHECK:      Iterations:        100
 # CHECK-NEXT: Instructions:      400
-# CHECK-NEXT: Total Cycles:      655
+# CHECK-NEXT: Total Cycles:      663
 # CHECK-NEXT: Total uOps:        1000
 
 # CHECK:      Dispatch Width:    2
-# CHECK-NEXT: uOps Per Cycle:    1.53
-# CHECK-NEXT: IPC:               0.61
+# CHECK-NEXT: uOps Per Cycle:    1.51
+# CHECK-NEXT: IPC:               0.60
 # CHECK-NEXT: Block RThroughput: 5.0
 
 # CHECK:      Instruction Info:
diff --git a/llvm/test/tools/llvm-objcopy/ELF/remove-note.test b/llvm/test/tools/llvm-objcopy/ELF/remove-note.test
new file mode 100644
index 0000000000000..f8936bf9ea731
--- /dev/null
+++ b/llvm/test/tools/llvm-objcopy/ELF/remove-note.test
@@ -0,0 +1,198 @@
+## Check incompatible options.
+# RUN: not llvm-objcopy --remove-note=1 --remove-section=.test - 2>&1 | FileCheck %s --check-prefix=ERR-REMSEC
+# RUN: not llvm-objcopy --remove-note=1 --add-section=.test=%s - 2>&1 | FileCheck %s --check-prefix=ERR-ADDSEC
+# RUN: not llvm-objcopy --remove-note=1 --update-section=.test=%s - 2>&1 | FileCheck %s --check-prefix=ERR-UPDSEC
+
+# ERR-REMSEC: error: cannot specify both --remove-note and --remove-section
+# ERR-ADDSEC: error: cannot specify both --remove-note and --add-section
+# ERR-UPDSEC: error: cannot specify both --remove-note and --update-section
+
+## Check invalid argument formats.
+# RUN: not llvm-objcopy --remove-note= - 2>&1 | FileCheck %s --check-prefix=ERR-NOTYPEID
+# RUN: not llvm-objcopy --remove-note=CORE/ - 2>&1 | FileCheck %s --check-prefix=ERR-NOTYPEID
+# RUN: not llvm-objcopy --remove-note=/1 - 2>&1 | FileCheck %s --check-prefix=ERR-EMPTYNAME
+# RUN: not llvm-objcopy --remove-note=CORE/1/2 - 2>&1 | FileCheck %s --check-prefix=ERR-INVNUM1
+# RUN: not llvm-objcopy --remove-note=Notanumber - 2>&1 | FileCheck %s --check-prefix=ERR-INVNUM2
+# RUN: not llvm-objcopy --remove-note=CORE/Notanumber - 2>&1 | FileCheck %s --check-prefix=ERR-INVNUM2
+
+# ERR-NOTYPEID: error: bad format for --remove-note, missing type_id
+# ERR-EMPTYNAME: error: bad format for --remove-note, note name is empty
+# ERR-INVNUM1: error: bad note type_id for --remove-note: '1/2'
+# ERR-INVNUM2: error: bad note type_id for --remove-note: 'Notanumber'
+
+## Check deleting notes:
+## * --remove-note=1 will remove note "CORE/1" and "LINUX/1",
+## * --remove-note=DUMMY/2 will not remove any notes because there are no notes with this owner,
+## * --remove-note=CORE/3 will remove "CORE/3" but preserve "LINUX/3".
+# RUN: yaml2obj --docnum=1 -D ALIGN=8 -D ELFCLASS=64 -D ENDIANNESS=LSB %s -o %t8.64.lsb
+# RUN: llvm-objcopy --remove-note=0x01 --remove-note=DUMMY/2 --remove-note=CORE/0x03 %t8.64.lsb %t8.64.lsb.o
+# RUN: llvm-readobj --segments --sections --notes %t8.64.lsb.o | \
+# RUN:   FileCheck %s -D#SIZE0=32 -D#SIZE1=64
+
+# RUN: yaml2obj --docnum=1 -D ALIGN=4 -D ELFCLASS=64 -D ENDIANNESS=MSB %s -o %t4.64.msb
+# RUN: llvm-objcopy --remove-note=0x01 --remove-note=DUMMY/0x02 --remove-note=CORE/3 %t4.64.msb %t4.64.msb.o
+# RUN: llvm-readobj --segments --sections --notes %t4.64.msb.o | \
+# RUN:   FileCheck %s -D#SIZE0=24 -D#SIZE1=48
+
+# RUN: yaml2obj --docnum=1 -D ALIGN=4 -D ELFCLASS=32 -D ENDIANNESS=LSB %s -o %t4.32.lsb
+# RUN: llvm-objcopy --remove-note=1 --remove-note=DUMMY/0x02 --remove-note=CORE/3 %t4.32.lsb %t4.32.lsb.o
+# RUN: llvm-readobj --segments --sections --notes %t4.32.lsb.o | \
+# RUN:   FileCheck %s -D#SIZE0=24 -D#SIZE1=48
+
+# CHECK:      Sections [
+# CHECK:        Section {
+# CHECK:          Name: .note0
+# CHECK-NEXT:     Type: SHT_NOTE
+# CHECK-NEXT:     Flags [
+# CHECK-NEXT:     ]
+# CHECK-NEXT:     Address:
+# CHECK-NEXT:     Offset:
+# CHECK-NEXT:     Size: [[#%d,SIZE0]]
+# CHECK:          Name: .note1
+# CHECK-NEXT:     Type: SHT_NOTE
+# CHECK-NEXT:     Flags [
+# CHECK-NEXT:     ]
+# CHECK-NEXT:     Address:
+# CHECK-NEXT:     Offset:
+# CHECK-NEXT:     Size: [[#%d,SIZE1]]
+# CHECK:          Name: .note2
+# CHECK-NEXT:     Type: SHT_NOTE
+# CHECK-NEXT:     Flags [
+# CHECK-NEXT:     ]
+# CHECK-NEXT:     Address:
+# CHECK-NEXT:     Offset:
+# CHECK-NEXT:     Size: 0
+
+# CHECK:      NoteSections [
+# CHECK-NEXT:   NoteSection {
+# CHECK-NEXT:     Name: .note0
+# CHECK-NEXT:     Offset:
+# CHECK-NEXT:     Size: 0x[[#%X,SIZE0]]
+# CHECK-NEXT:     Notes [
+# CHECK-NEXT:       {
+# CHECK-NEXT:         Owner: CORE
+# CHECK-NEXT:         Data size: 0x2
+# CHECK-NEXT:         Type: NT_ARCH
+# CHECK-NEXT:         Description data (
+# CHECK-NEXT:           0000: 0201
+# CHECK-NEXT:         )
+# CHECK-NEXT:       }
+# CHECK-NEXT:     ]
+# CHECK-NEXT:   }
+# CHECK-NEXT:   NoteSection {
+# CHECK-NEXT:     Name: .note1
+# CHECK-NEXT:     Offset:
+# CHECK-NEXT:     Size: 0x[[#%X,SIZE1]]
+# CHECK-NEXT:     Notes [
+# CHECK-NEXT:       {
+# CHECK-NEXT:         Owner: LINUX
+# CHECK-NEXT:         Data size: 0x2
+# CHECK-NEXT:         Type: Unknown (0x00000003)
+# CHECK-NEXT:         Description data (
+# CHECK-NEXT:           0000: 0301
+# CHECK-NEXT:         )
+# CHECK-NEXT:       }
+# CHECK-NEXT:       {
+# CHECK-NEXT:         Owner: CORE
+# CHECK-NEXT:         Data size: 0x2
+# CHECK-NEXT:         Type: Unknown (0x00000004)
+# CHECK-NEXT:         Description data (
+# CHECK-NEXT:           0000: 0401
+# CHECK-NEXT:         )
+# CHECK-NEXT:       }
+# CHECK-NEXT:     ]
+# CHECK-NEXT:   }
+# CHECK-NEXT:   NoteSection {
+# CHECK-NEXT:     Name: .note2
+# CHECK-NEXT:     Offset:
+# CHECK-NEXT:     Size: 0x0
+# CHECK-NEXT:     Notes [
+# CHECK-NEXT:     ]
+# CHECK-NEXT:   }
+
+--- !ELF
+FileHeader:
+  Class:          ELFCLASS[[ELFCLASS]]
+  Data:           ELFDATA2[[ENDIANNESS]]
+  Type:           ET_REL
+  Machine:        EM_X86_64
+Sections:
+  - Name:         .note0
+    Type:         SHT_NOTE
+    AddressAlign: [[ALIGN]]
+    Notes:
+      - Name:   CORE
+        Type:   0x01
+        Desc:   0101
+      - Name:   CORE
+        Type:   0x02
+        Desc:   0201
+  - Name:         .note1
+    Type:         SHT_NOTE
+    AddressAlign: [[ALIGN]]
+    Notes:
+      - Name:   LINUX
+        Type:   0x03
+        Desc:   0301
+      - Name:   CORE
+        Type:   0x03
+        Desc:   0302
+      - Name:   CORE
+        Type:   0x04
+        Desc:   0401
+  - Name:         .note2
+    Type:         SHT_NOTE
+    AddressAlign: [[ALIGN]]
+    Notes:
+      - Name:   LINUX
+        Type:   0x01
+        Desc:   0102
+
+# RUN: yaml2obj --docnum=2 %s -o %t2
+# RUN: llvm-objcopy --remove-note=1 %t2 %t2o 2>&1 | FileCheck %s --check-prefix=TEST2
+# TEST2: warning: note segments are not supported
+# TEST2-NOT: note segments are not supported
+
+--- !ELF
+FileHeader:
+  Class:          ELFCLASS64
+  Data:           ELFDATA2LSB
+  Type:           ET_CORE
+  Machine:        EM_X86_64
+ProgramHeaders:
+  - Type:         PT_NOTE
+    FirstSec:     .data0
+    LastSec:      .data0
+  - Type:         PT_NOTE
+    FirstSec:     .data1
+    LastSec:      .data1
+Sections:
+  - Name:         .data0
+    Type:         Fill
+    Size:         8
+  - Name:         .data1
+    Type:         Fill
+    Size:         8
+
+# RUN: yaml2obj --docnum=3 %s -o %t3
+# RUN: llvm-objcopy --remove-note=1 %t3 %t3o 2>&1 | FileCheck %s --check-prefix=TEST3
+# TEST3: warning: cannot remove note(s) from .note: sections in segments are not supported
+
+--- !ELF
+FileHeader:
+  Class:          ELFCLASS64
+  Data:           ELFDATA2LSB
+  Type:           ET_EXEC
+  Machine:        EM_X86_64
+ProgramHeaders:
+  - Type:         PT_LOAD
+    FirstSec:     .note
+    LastSec:      .note
+Sections:
+  - Name:         .note
+    Type:         SHT_NOTE
+    AddressAlign: 4
+    Notes:
+      - Name:     ABC
+        Type:     1
+        Desc:     0102
diff --git a/llvm/test/tools/llvm-profdata/cs-sample-nested-profile.test b/llvm/test/tools/llvm-profdata/cs-sample-nested-profile.test
index 7b01324219115..d2b07cf05fd24 100644
--- a/llvm/test/tools/llvm-profdata/cs-sample-nested-profile.test
+++ b/llvm/test/tools/llvm-profdata/cs-sample-nested-profile.test
@@ -153,47 +153,47 @@ RUN: llvm-profdata show -sample -detailed-summary %t3.proftext | FileCheck %s -c
 
 ; SUMMARY:      Total functions: 4
 ; SUMMARY-NEXT: Maximum function count: 32
-; SUMMARY-NEXT: Maximum block count: 362830
+; SUMMARY-NEXT: Maximum internal block count: 0
 ; SUMMARY-NEXT: Total number of blocks: 16
 ; SUMMARY-NEXT: Total count: 772562
 ; SUMMARY-NEXT: Detailed summary:
-; SUMMARY-NEXT: 1 blocks with count >= 362830 account for 1 percentage of the total counts.
-; SUMMARY-NEXT: 1 blocks with count >= 362830 account for 10 percentage of the total counts.
-; SUMMARY-NEXT: 1 blocks with count >= 362830 account for 20 percentage of the total counts.
-; SUMMARY-NEXT: 1 blocks with count >= 362830 account for 30 percentage of the total counts.
-; SUMMARY-NEXT: 1 blocks with count >= 362830 account for 40 percentage of the total counts.
-; SUMMARY-NEXT: 2 blocks with count >= 362805 account for 50 percentage of the total counts.
-; SUMMARY-NEXT: 2 blocks with count >= 362805 account for 60 percentage of the total counts.
-; SUMMARY-NEXT: 2 blocks with count >= 362805 account for 70 percentage of the total counts.
-; SUMMARY-NEXT: 2 blocks with count >= 362805 account for 80 percentage of the total counts.
-; SUMMARY-NEXT: 2 blocks with count >= 362805 account for 90 percentage of the total counts.
-; SUMMARY-NEXT: 3 blocks with count >= 23327 account for 95 percentage of the total counts.
-; SUMMARY-NEXT: 4 blocks with count >= 23324 account for 99 percentage of the total counts.
-; SUMMARY-NEXT: 4 blocks with count >= 23324 account for 99.9 percentage of the total counts.
-; SUMMARY-NEXT: 11 blocks with count >= 24 account for 99.99 percentage of the total counts.
-; SUMMARY-NEXT: 16 blocks with count >= 10 account for 99.999 percentage of the total counts.
-; SUMMARY-NEXT: 16 blocks with count >= 10 account for 99.9999 percentage of the total counts.
+; SUMMARY-NEXT: 1 blocks (6.25%) with count >= 362830 account for 1% of the total counts.
+; SUMMARY-NEXT: 1 blocks (6.25%) with count >= 362830 account for 10% of the total counts.
+; SUMMARY-NEXT: 1 blocks (6.25%) with count >= 362830 account for 20% of the total counts.
+; SUMMARY-NEXT: 1 blocks (6.25%) with count >= 362830 account for 30% of the total counts.
+; SUMMARY-NEXT: 1 blocks (6.25%) with count >= 362830 account for 40% of the total counts.
+; SUMMARY-NEXT: 2 blocks (12.50%) with count >= 362805 account for 50% of the total counts.
+; SUMMARY-NEXT: 2 blocks (12.50%) with count >= 362805 account for 60% of the total counts.
+; SUMMARY-NEXT: 2 blocks (12.50%) with count >= 362805 account for 70% of the total counts.
+; SUMMARY-NEXT: 2 blocks (12.50%) with count >= 362805 account for 80% of the total counts.
+; SUMMARY-NEXT: 2 blocks (12.50%) with count >= 362805 account for 90% of the total counts.
+; SUMMARY-NEXT: 3 blocks (18.75%) with count >= 23327 account for 95% of the total counts.
+; SUMMARY-NEXT: 4 blocks (25.00%) with count >= 23324 account for 99% of the total counts.
+; SUMMARY-NEXT: 4 blocks (25.00%) with count >= 23324 account for 99.9% of the total counts.
+; SUMMARY-NEXT: 11 blocks (68.75%) with count >= 24 account for 99.99% of the total counts.
+; SUMMARY-NEXT: 16 blocks (100.00%) with count >= 10 account for 99.999% of the total counts.
+; SUMMARY-NEXT: 16 blocks (100.00%) with count >= 10 account for 99.9999% of the total counts.
 
 
 ; SUMMARY-NEST:      Total functions: 4
 ; SUMMARY-NEST-NEXT: Maximum function count: 32
-; SUMMARY-NEST-NEXT: Maximum block count: 362830
+; SUMMARY-NEST-NEXT: Maximum internal block count: 0
 ; SUMMARY-NEST-NEXT: Total number of blocks: 15
 ; SUMMARY-NEST-NEXT: Total count: 772504
 ; SUMMARY-NEST-NEXT: Detailed summary:
-; SUMMARY-NEST-NEXT: 1 blocks with count >= 362830 account for 1 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 1 blocks with count >= 362830 account for 10 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 1 blocks with count >= 362830 account for 20 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 1 blocks with count >= 362830 account for 30 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 1 blocks with count >= 362830 account for 40 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 2 blocks with count >= 362805 account for 50 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 2 blocks with count >= 362805 account for 60 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 2 blocks with count >= 362805 account for 70 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 2 blocks with count >= 362805 account for 80 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 2 blocks with count >= 362805 account for 90 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 3 blocks with count >= 23327 account for 95 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 4 blocks with count >= 23324 account for 99 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 4 blocks with count >= 23324 account for 99.9 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 10 blocks with count >= 21 account for 99.99 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 15 blocks with count >= 10 account for 99.999 percentage of the total counts.
-; SUMMARY-NEST-NEXT: 15 blocks with count >= 10 account for 99.9999 percentage of the total counts.
+; SUMMARY-NEST-NEXT: 1 blocks (6.67%) with count >= 362830 account for 1% of the total counts.
+; SUMMARY-NEST-NEXT: 1 blocks (6.67%) with count >= 362830 account for 10% of the total counts.
+; SUMMARY-NEST-NEXT: 1 blocks (6.67%) with count >= 362830 account for 20% of the total counts.
+; SUMMARY-NEST-NEXT: 1 blocks (6.67%) with count >= 362830 account for 30% of the total counts.
+; SUMMARY-NEST-NEXT: 1 blocks (6.67%) with count >= 362830 account for 40% of the total counts.
+; SUMMARY-NEST-NEXT: 2 blocks (13.33%) with count >= 362805 account for 50% of the total counts.
+; SUMMARY-NEST-NEXT: 2 blocks (13.33%) with count >= 362805 account for 60% of the total counts.
+; SUMMARY-NEST-NEXT: 2 blocks (13.33%) with count >= 362805 account for 70% of the total counts.
+; SUMMARY-NEST-NEXT: 2 blocks (13.33%) with count >= 362805 account for 80% of the total counts.
+; SUMMARY-NEST-NEXT: 2 blocks (13.33%) with count >= 362805 account for 90% of the total counts.
+; SUMMARY-NEST-NEXT: 3 blocks (20.00%) with count >= 23327 account for 95% of the total counts.
+; SUMMARY-NEST-NEXT: 4 blocks (26.67%) with count >= 23324 account for 99% of the total counts.
+; SUMMARY-NEST-NEXT: 4 blocks (26.67%) with count >= 23324 account for 99.9% of the total counts.
+; SUMMARY-NEST-NEXT: 10 blocks (66.67%) with count >= 21 account for 99.99% of the total counts.
+; SUMMARY-NEST-NEXT: 15 blocks (100.00%) with count >= 10 account for 99.999% of the total counts.
+; SUMMARY-NEST-NEXT: 15 blocks (100.00%) with count >= 10 account for 99.9999% of the total counts.
diff --git a/llvm/test/tools/llvm-profdata/general.proftext b/llvm/test/tools/llvm-profdata/general.proftext
index 2dfb8e8b34d57..89762f2540f6a 100644
--- a/llvm/test/tools/llvm-profdata/general.proftext
+++ b/llvm/test/tools/llvm-profdata/general.proftext
@@ -71,18 +71,18 @@ hex_hash
 # DETAILED-SUMMARY: Total number of blocks: 10
 # DETAILED-SUMMARY: Total count: 4539628424389557499
 # DETAILED-SUMMARY: Detailed summary:
-# DETAILED-SUMMARY: 3 blocks with count >= 576460752303423488 account for 80 percentage of the total counts.
-# DETAILED-SUMMARY: 4 blocks with count >= 288230376151711744 account for 90 percentage of the total counts.
-# DETAILED-SUMMARY: 4 blocks with count >= 288230376151711744 account for 95 percentage of the total counts.
-# DETAILED-SUMMARY: 6 blocks with count >= 72057594037927936 account for 99 percentage of the total counts.
-# DETAILED-SUMMARY: 6 blocks with count >= 72057594037927936 account for 99.9 percentage of the total counts.
-# DETAILED-SUMMARY: 6 blocks with count >= 72057594037927936 account for 99.99 percentage of the total counts.
-# DETAILED-SUMMARY: 6 blocks with count >= 72057594037927936 account for 99.999 percentage of the total counts.
+# DETAILED-SUMMARY: 3 blocks (30.00%) with count >= 576460752303423488 account for 80% of the total counts.
+# DETAILED-SUMMARY: 4 blocks (40.00%) with count >= 288230376151711744 account for 90% of the total counts.
+# DETAILED-SUMMARY: 4 blocks (40.00%) with count >= 288230376151711744 account for 95% of the total counts.
+# DETAILED-SUMMARY: 6 blocks (60.00%) with count >= 72057594037927936 account for 99% of the total counts.
+# DETAILED-SUMMARY: 6 blocks (60.00%) with count >= 72057594037927936 account for 99.9% of the total counts.
+# DETAILED-SUMMARY: 6 blocks (60.00%) with count >= 72057594037927936 account for 99.99% of the total counts.
+# DETAILED-SUMMARY: 6 blocks (60.00%) with count >= 72057594037927936 account for 99.999% of the total counts.
 
 # RUN: llvm-profdata show --detailed-summary --detailed-summary-cutoffs=600000 %t.profdata | FileCheck %s -check-prefix=DETAILED-SUMMARY-2
-# DETAILED-SUMMARY-2: 2 blocks with count >= 1152921504606846976 account for 60 percentage of the total counts.
+# DETAILED-SUMMARY-2: 2 blocks (28.57%) with count >= 1152921504606846976 account for 60% of the total counts.
 #
 # RUN: llvm-profdata show --detailed-summary --detailed-summary-cutoffs=600000,900000,999999 %t.profdata | FileCheck %s -check-prefix=DETAILED-SUMMARY-3
-# DETAILED-SUMMARY-3: 2 blocks with count >= 1152921504606846976 account for 60 percentage of the total counts.
-# DETAILED-SUMMARY-3: 4 blocks with count >= 288230376151711744 account for 90 percentage of the total counts.
-# DETAILED-SUMMARY-3: 6 blocks with count >= 72057594037927936 account for 99.9999 percentage of the total counts.
+# DETAILED-SUMMARY-3: 2 blocks (28.57%) with count >= 1152921504606846976 account for 60% of the total counts.
+# DETAILED-SUMMARY-3: 4 blocks (57.14%) with count >= 288230376151711744 account for 90% of the total counts.
+# DETAILED-SUMMARY-3: 6 blocks (85.71%) with count >= 72057594037927936 account for 99.9999% of the total counts.
diff --git a/llvm/test/tools/llvm-profdata/sample-summary.test b/llvm/test/tools/llvm-profdata/sample-summary.test
index 3326c9bb29806..310cc8bfb721c 100644
--- a/llvm/test/tools/llvm-profdata/sample-summary.test
+++ b/llvm/test/tools/llvm-profdata/sample-summary.test
@@ -2,23 +2,23 @@
 
 ; CHECK: Total functions: 3
 ; CHECK-NEXT: Maximum function count: 1437
-; CHECK-NEXT: Maximum block count: 2080
+; CHECK-NEXT: Maximum internal block count: 0
 ; CHECK-NEXT: Total number of blocks: 11
 ; CHECK-NEXT: Total count: 12943
 ; CHECK-NEXT: Detailed summary:
-; CHECK-NEXT: 1 blocks with count >= 2080 account for 1 percentage of the total counts.
-; CHECK-NEXT: 1 blocks with count >= 2080 account for 10 percentage of the total counts.
-; CHECK-NEXT: 2 blocks with count >= 2064 account for 20 percentage of the total counts.
-; CHECK-NEXT: 2 blocks with count >= 2064 account for 30 percentage of the total counts.
-; CHECK-NEXT: 3 blocks with count >= 2000 account for 40 percentage of the total counts.
-; CHECK-NEXT: 4 blocks with count >= 1437 account for 50 percentage of the total counts.
-; CHECK-NEXT: 6 blocks with count >= 1075 account for 60 percentage of the total counts.
-; CHECK-NEXT: 6 blocks with count >= 1075 account for 70 percentage of the total counts.
-; CHECK-NEXT: 7 blocks with count >= 1000 account for 80 percentage of the total counts.
-; CHECK-NEXT: 11 blocks with count >= 534 account for 90 percentage of the total counts.
-; CHECK-NEXT: 11 blocks with count >= 534 account for 95 percentage of the total counts.
-; CHECK-NEXT: 11 blocks with count >= 534 account for 99 percentage of the total counts.
-; CHECK-NEXT: 11 blocks with count >= 534 account for 99.9 percentage of the total counts.
-; CHECK-NEXT: 11 blocks with count >= 534 account for 99.99 percentage of the total counts.
-; CHECK-NEXT: 11 blocks with count >= 534 account for 99.999 percentage of the total counts.
-; CHECK-NEXT: 11 blocks with count >= 534 account for 99.9999 percentage of the total counts.
+; CHECK-NEXT: 1 blocks (9.09%) with count >= 2080 account for 1% of the total counts.
+; CHECK-NEXT: 1 blocks (9.09%) with count >= 2080 account for 10% of the total counts.
+; CHECK-NEXT: 2 blocks (18.18%) with count >= 2064 account for 20% of the total counts.
+; CHECK-NEXT: 2 blocks (18.18%) with count >= 2064 account for 30% of the total counts.
+; CHECK-NEXT: 3 blocks (27.27%) with count >= 2000 account for 40% of the total counts.
+; CHECK-NEXT: 4 blocks (36.36%) with count >= 1437 account for 50% of the total counts.
+; CHECK-NEXT: 6 blocks (54.55%) with count >= 1075 account for 60% of the total counts.
+; CHECK-NEXT: 6 blocks (54.55%) with count >= 1075 account for 70% of the total counts.
+; CHECK-NEXT: 7 blocks (63.64%) with count >= 1000 account for 80% of the total counts.
+; CHECK-NEXT: 11 blocks (100.00%) with count >= 534 account for 90% of the total counts.
+; CHECK-NEXT: 11 blocks (100.00%) with count >= 534 account for 95% of the total counts.
+; CHECK-NEXT: 11 blocks (100.00%) with count >= 534 account for 99% of the total counts.
+; CHECK-NEXT: 11 blocks (100.00%) with count >= 534 account for 99.9% of the total counts.
+; CHECK-NEXT: 11 blocks (100.00%) with count >= 534 account for 99.99% of the total counts.
+; CHECK-NEXT: 11 blocks (100.00%) with count >= 534 account for 99.999% of the total counts.
+; CHECK-NEXT: 11 blocks (100.00%) with count >= 534 account for 99.9999% of the total counts.
diff --git a/llvm/test/tools/llvm-profdata/suppl-instr-with-sample.test b/llvm/test/tools/llvm-profdata/suppl-instr-with-sample.test
index 20d4d2198ff44..c22646e45849e 100644
--- a/llvm/test/tools/llvm-profdata/suppl-instr-with-sample.test
+++ b/llvm/test/tools/llvm-profdata/suppl-instr-with-sample.test
@@ -98,19 +98,19 @@ MIX5-NEXT: Maximum internal block count: 2000
 MIX5-NEXT: Total number of blocks: 9
 MIX5-NEXT: Total count: 6525
 MIX5-NEXT: Detailed summary:
-MIX5-NEXT: 1 blocks with count >= 3000 account for 1 percentage of the total counts.
-MIX5-NEXT: 1 blocks with count >= 3000 account for 10 percentage of the total counts.
-MIX5-NEXT: 1 blocks with count >= 3000 account for 20 percentage of the total counts.
-MIX5-NEXT: 1 blocks with count >= 3000 account for 30 percentage of the total counts.
-MIX5-NEXT: 1 blocks with count >= 3000 account for 40 percentage of the total counts.
-MIX5-NEXT: 2 blocks with count >= 2000 account for 50 percentage of the total counts.
-MIX5-NEXT: 2 blocks with count >= 2000 account for 60 percentage of the total counts.
-MIX5-NEXT: 2 blocks with count >= 2000 account for 70 percentage of the total counts.
-MIX5-NEXT: 3 blocks with count >= 1000 account for 80 percentage of the total counts.
-MIX5-NEXT: 3 blocks with count >= 1000 account for 90 percentage of the total counts.
-MIX5-NEXT: 4 blocks with count >= 500 account for 95 percentage of the total counts.
-MIX5-NEXT: 4 blocks with count >= 500 account for 99 percentage of the total counts.
-MIX5-NEXT: 6 blocks with count >= 12 account for 99.9 percentage of the total counts.
-MIX5-NEXT: 6 blocks with count >= 12 account for 99.99 percentage of the total counts.
-MIX5-NEXT: 6 blocks with count >= 12 account for 99.999 percentage of the total counts.
-MIX5-NEXT: 6 blocks with count >= 12 account for 99.9999 percentage of the total counts.
+MIX5-NEXT: 1 blocks (11.11%) with count >= 3000 account for 1% of the total counts.
+MIX5-NEXT: 1 blocks (11.11%) with count >= 3000 account for 10% of the total counts.
+MIX5-NEXT: 1 blocks (11.11%) with count >= 3000 account for 20% of the total counts.
+MIX5-NEXT: 1 blocks (11.11%) with count >= 3000 account for 30% of the total counts.
+MIX5-NEXT: 1 blocks (11.11%) with count >= 3000 account for 40% of the total counts.
+MIX5-NEXT: 2 blocks (22.22%) with count >= 2000 account for 50% of the total counts.
+MIX5-NEXT: 2 blocks (22.22%) with count >= 2000 account for 60% of the total counts.
+MIX5-NEXT: 2 blocks (22.22%) with count >= 2000 account for 70% of the total counts.
+MIX5-NEXT: 3 blocks (33.33%) with count >= 1000 account for 80% of the total counts.
+MIX5-NEXT: 3 blocks (33.33%) with count >= 1000 account for 90% of the total counts.
+MIX5-NEXT: 4 blocks (44.44%) with count >= 500 account for 95% of the total counts.
+MIX5-NEXT: 4 blocks (44.44%) with count >= 500 account for 99% of the total counts.
+MIX5-NEXT: 6 blocks (66.67%) with count >= 12 account for 99.9% of the total counts.
+MIX5-NEXT: 6 blocks (66.67%) with count >= 12 account for 99.99% of the total counts.
+MIX5-NEXT: 6 blocks (66.67%) with count >= 12 account for 99.999% of the total counts.
+MIX5-NEXT: 6 blocks (66.67%) with count >= 12 account for 99.9999% of the total counts.
diff --git a/llvm/test/tools/llvm-profdata/vtable-value-prof.test b/llvm/test/tools/llvm-profdata/vtable-value-prof.test
index 8dc8f6f0d480e..5ed4a356e1041 100644
--- a/llvm/test/tools/llvm-profdata/vtable-value-prof.test
+++ b/llvm/test/tools/llvm-profdata/vtable-value-prof.test
@@ -1,18 +1,18 @@
-; RUN: rm -rf %t && mkdir %t && cd %t
+; RUN: rm -rf %t && mkdir %t
 
 ; Generate indexed profiles from text profiles
-RUN: llvm-profdata merge --keep-vtable-symbols %S/Inputs/vtable-value-prof.proftext -o indexed.profdata
+RUN: llvm-profdata merge --keep-vtable-symbols %S/Inputs/vtable-value-prof.proftext -o %t/indexed.profdata
 
 ; Show indexed profiles
-RUN: llvm-profdata show --function=main --ic-targets --show-vtables indexed.profdata | FileCheck %s --check-prefix=INDEXED
+RUN: llvm-profdata show --function=main --ic-targets --show-vtables %t/indexed.profdata | FileCheck %s --check-prefix=INDEXED
 
 ; Show text profiles
 RUN: llvm-profdata show --function=main --ic-targets --show-vtables --text %S/Inputs/vtable-value-prof.proftext | FileCheck %s --check-prefix=ICTEXT
 
 ; Convert indexed profiles to its textual output and show it.
-RUN: llvm-profdata merge --keep-vtable-symbols --text -o text-from-indexed.proftext indexed.profdata
-RUN: llvm-profdata show --function=main --ic-targets --show-vtables text-from-indexed.proftext | FileCheck %s --check-prefix=INDEXED
-RUN: llvm-profdata show --function=main --ic-targets --show-vtables --text text-from-indexed.proftext | FileCheck %s --check-prefix=ICTEXT
+RUN: llvm-profdata merge --keep-vtable-symbols --text -o %t/text-from-indexed.proftext %t/indexed.profdata
+RUN: llvm-profdata show --function=main --ic-targets --show-vtables %t/text-from-indexed.proftext | FileCheck %s --check-prefix=INDEXED
+RUN: llvm-profdata show --function=main --ic-targets --show-vtables --text %t/text-from-indexed.proftext | FileCheck %s --check-prefix=ICTEXT
 
 INDEXED:      Counters:
 INDEXED-NEXT:   main:
@@ -35,6 +35,8 @@ INDEXED-NEXT: Functions shown: 1
 INDEXED-NEXT: Total functions: 6
 INDEXED-NEXT: Maximum function count: 1000
 INDEXED-NEXT: Maximum internal block count: 250
+INDEXED-NEXT: Total number of blocks: 8
+INDEXED-NEXT: Total count: 4001
 INDEXED-NEXT: Statistics for indirect call sites profile:
 INDEXED-NEXT:   Total number of sites: 2
 INDEXED-NEXT:   Total number of sites with values: 2
diff --git a/llvm/test/tools/yaml2obj/ELF/custom-fill.yaml b/llvm/test/tools/yaml2obj/ELF/custom-fill.yaml
index d770fdb982532..cdb9a97889ac1 100644
--- a/llvm/test/tools/yaml2obj/ELF/custom-fill.yaml
+++ b/llvm/test/tools/yaml2obj/ELF/custom-fill.yaml
@@ -156,9 +156,10 @@ Sections:
     Pattern: "BB"
 
 ## Check that the "Size" field is mandatory.
-# RUN: not yaml2obj --docnum=5 2>&1 %s | FileCheck %s --check-prefix=NOSIZE
+# RUN: not yaml2obj --docnum=5 2>&1 %s | FileCheck %s --check-prefix=NOSIZE --implicit-check-not=error:
 
-## NOSIZE: error: missing required key 'Size'
+# NOSIZE: error: missing required key 'Size'
+# NOSIZE: error: failed to parse YAML
 
 --- !ELF
 FileHeader:
diff --git a/llvm/test/tools/yaml2obj/ELF/section-type.yaml b/llvm/test/tools/yaml2obj/ELF/section-type.yaml
index ad2edd942cc2a..6f5f42aceafed 100644
--- a/llvm/test/tools/yaml2obj/ELF/section-type.yaml
+++ b/llvm/test/tools/yaml2obj/ELF/section-type.yaml
@@ -1,5 +1,5 @@
-# RUN: yaml2obj %s -o %t
-# RUN: llvm-readobj --sections %t | FileCheck %s
+# RUN: yaml2obj %s --docnum=1 -o %t1
+# RUN: llvm-readobj --sections %t1 | FileCheck %s
 
 # CHECK: Name: enum
 # CHECK: Type: SHT_PROGBITS
@@ -25,3 +25,19 @@ Sections:
     Type:  0xabcd
   - Name:  decimal
     Type:  1234
+
+## Check that we can handle unknown section and chunk types.
+# RUN: not yaml2obj %s --docnum=2 -DSECTION_TYPE=UNKNOWN_TYPE     -o %t2 2>&1 | FileCheck %s --check-prefix=UNKNOWN-TYPE
+# RUN: not yaml2obj %s --docnum=2 -DSECTION_TYPE=SHT_UNKNOWN_TYPE -o %t2 2>&1 | FileCheck %s --check-prefix=UNKNOWN-TYPE
+
+# UNKNOWN-TYPE: error: invalid hex32 number
+
+--- !ELF
+FileHeader:
+  Class: ELFCLASS64
+  Data:  ELFDATA2LSB
+  Type:  ET_REL
+Sections:
+  - Name: .foo
+    Type: [[SECTION_TYPE]]
+
diff --git a/llvm/tools/llvm-objcopy/ObjcopyOptions.cpp b/llvm/tools/llvm-objcopy/ObjcopyOptions.cpp
index 0925fc55317f7..0d209590655ef 100644
--- a/llvm/tools/llvm-objcopy/ObjcopyOptions.cpp
+++ b/llvm/tools/llvm-objcopy/ObjcopyOptions.cpp
@@ -538,6 +538,38 @@ static Expected<NewSymbolInfo> parseNewSymbolInfo(StringRef FlagValue) {
   return SI;
 }
 
+static Expected<RemoveNoteInfo> parseRemoveNoteInfo(StringRef FlagValue) {
+  // Parse value given with --remove-note option. The format is:
+  //
+  // [name/]type_id
+  //
+  // where:
+  // <name>    - optional note name. If not given, all notes with the specified
+  //             <type_id> are removed.
+  // <type_id> - note type value, can be decimal or hexadecimal number prefixed
+  //             with 0x.
+  RemoveNoteInfo NI;
+  StringRef TypeIdStr;
+  if (auto Idx = FlagValue.find('/'); Idx != StringRef::npos) {
+    if (Idx == 0)
+      return createStringError(
+          errc::invalid_argument,
+          "bad format for --remove-note, note name is empty");
+    NI.Name = FlagValue.slice(0, Idx);
+    TypeIdStr = FlagValue.substr(Idx + 1);
+  } else {
+    TypeIdStr = FlagValue;
+  }
+  if (TypeIdStr.empty())
+    return createStringError(errc::invalid_argument,
+                             "bad format for --remove-note, missing type_id");
+  if (TypeIdStr.getAsInteger(0, NI.TypeId))
+    return createStringError(errc::invalid_argument,
+                             "bad note type_id for --remove-note: '%s'",
+                             TypeIdStr.str().c_str());
+  return NI;
+}
+
 // Parse input option \p ArgValue and load section data. This function
 // extracts section name and name of the file keeping section data from
 // ArgValue, loads data from the file, and stores section name and data
@@ -1221,6 +1253,29 @@ objcopy::parseObjcopyOptions(ArrayRef<const char *> ArgsArr,
       };
     }
 
+  for (auto *Arg : InputArgs.filtered(OBJCOPY_remove_note)) {
+    Expected<RemoveNoteInfo> NoteInfo = parseRemoveNoteInfo(Arg->getValue());
+    if (!NoteInfo)
+      return NoteInfo.takeError();
+
+    ELFConfig.NotesToRemove.push_back(*NoteInfo);
+  }
+
+  if (!ELFConfig.NotesToRemove.empty()) {
+    if (!Config.ToRemove.empty())
+      return createStringError(
+          errc::invalid_argument,
+          "cannot specify both --remove-note and --remove-section");
+    if (!Config.AddSection.empty())
+      return createStringError(
+          errc::invalid_argument,
+          "cannot specify both --remove-note and --add-section");
+    if (!Config.UpdateSection.empty())
+      return createStringError(
+          errc::invalid_argument,
+          "cannot specify both --remove-note and --update-section");
+  }
+
   if (Config.DecompressDebugSections &&
       Config.CompressionType != DebugCompressionType::None) {
     return createStringError(
diff --git a/llvm/tools/llvm-objcopy/ObjcopyOpts.td b/llvm/tools/llvm-objcopy/ObjcopyOpts.td
index 434b5ff92324e..fbc6a59d9461e 100644
--- a/llvm/tools/llvm-objcopy/ObjcopyOpts.td
+++ b/llvm/tools/llvm-objcopy/ObjcopyOpts.td
@@ -297,3 +297,7 @@ defm pad_to
                    "of zero or the value specified by the --gap-fill option. "
                    "This option is only supported for ELF input and binary output">,
       MetaVarName<"address">;
+
+defm remove_note
+    : Eq<"remove-note", "Remove note(s) with <type_id> and optional <name>">,
+      MetaVarName<"[name/]type_id">;
diff --git a/llvm/tools/llvm-objcopy/llvm-objcopy.cpp b/llvm/tools/llvm-objcopy/llvm-objcopy.cpp
index ad3e60472369b..7e708e309f207 100644
--- a/llvm/tools/llvm-objcopy/llvm-objcopy.cpp
+++ b/llvm/tools/llvm-objcopy/llvm-objcopy.cpp
@@ -248,6 +248,8 @@ int llvm_objcopy_main(int argc, char **argv, const llvm::ToolContext &) {
     return 1;
   }
   for (ConfigManager &ConfigMgr : DriverConfig->CopyConfigs) {
+    assert(!ConfigMgr.Common.ErrorCallback);
+    ConfigMgr.Common.ErrorCallback = reportWarning;
     if (Error E = executeObjcopy(ConfigMgr)) {
       logAllUnhandledErrors(std::move(E), WithColor::error(errs(), ToolName));
       return 1;
diff --git a/llvm/tools/llvm-profdata/llvm-profdata.cpp b/llvm/tools/llvm-profdata/llvm-profdata.cpp
index ffc481f071857..560210e59eeba 100644
--- a/llvm/tools/llvm-profdata/llvm-profdata.cpp
+++ b/llvm/tools/llvm-profdata/llvm-profdata.cpp
@@ -3012,15 +3012,13 @@ static int showInstrProfile(ShowFormat SFormat, raw_fd_ostream &OS) {
   OS << "\n";
   if (ShowAllFunctions || !FuncNameFilter.empty())
     OS << "Functions shown: " << ShownFunctions << "\n";
-  OS << "Total functions: " << PS->getNumFunctions() << "\n";
+  PS->printSummary(OS);
   if (ShowValueCutoff > 0) {
     OS << "Number of functions with maximum count (< " << ShowValueCutoff
        << "): " << BelowCutoffFunctions << "\n";
     OS << "Number of functions with maximum count (>= " << ShowValueCutoff
        << "): " << PS->getNumFunctions() - BelowCutoffFunctions << "\n";
   }
-  OS << "Maximum function count: " << PS->getMaxFunctionCount() << "\n";
-  OS << "Maximum internal block count: " << PS->getMaxInternalCount() << "\n";
 
   if (TopNFunctions) {
     std::vector<std::pair<std::string, uint64_t>> SortedHottestFuncs;
@@ -3050,11 +3048,8 @@ static int showInstrProfile(ShowFormat SFormat, raw_fd_ostream &OS) {
     showValueSitesStats(OS, IPVK_MemOPSize, VPStats[IPVK_MemOPSize]);
   }
 
-  if (ShowDetailedSummary) {
-    OS << "Total number of blocks: " << PS->getNumCounts() << "\n";
-    OS << "Total count: " << PS->getTotalCount() << "\n";
+  if (ShowDetailedSummary)
     PS->printDetailedSummary(OS);
-  }
 
   if (ShowBinaryIds)
     if (Error E = Reader->printBinaryIds(OS))
diff --git a/llvm/tools/llvm-stress/llvm-stress.cpp b/llvm/tools/llvm-stress/llvm-stress.cpp
index e8f5bf4b8d996..133812e419d2b 100644
--- a/llvm/tools/llvm-stress/llvm-stress.cpp
+++ b/llvm/tools/llvm-stress/llvm-stress.cpp
@@ -707,7 +707,7 @@ static void IntroduceControlFlow(Function *F, Random &R) {
     BasicBlock *Curr = Instr->getParent();
     BasicBlock::iterator Loc = Instr->getIterator();
     BasicBlock *Next = Curr->splitBasicBlock(Loc, "CF");
-    Instr->moveBefore(Curr->getTerminator());
+    Instr->moveBefore(Curr->getTerminator()->getIterator());
     if (Curr != &F->getEntryBlock()) {
       BranchInst::Create(Curr, Next, Instr,
                          Curr->getTerminator()->getIterator());
diff --git a/llvm/unittests/Analysis/AssumeBundleQueriesTest.cpp b/llvm/unittests/Analysis/AssumeBundleQueriesTest.cpp
index 8ad15ca41510f..43c8b36b16073 100644
--- a/llvm/unittests/Analysis/AssumeBundleQueriesTest.cpp
+++ b/llvm/unittests/Analysis/AssumeBundleQueriesTest.cpp
@@ -87,7 +87,7 @@ TEST(AssumeQueryAPI, hasAttributeInAssume) {
       "8 noalias %P1, i32* align 8 noundef %P2)\n",
       [](Instruction *I) {
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
         ASSERT_TRUE(hasMatchesExactlyAttributes(Assume, I->getOperand(0),
                                        "(nonnull|align|dereferenceable)"));
         ASSERT_TRUE(hasMatchesExactlyAttributes(Assume, I->getOperand(1),
@@ -109,7 +109,7 @@ TEST(AssumeQueryAPI, hasAttributeInAssume) {
       "%P, i32* nonnull align 16 dereferenceable(12) %P)\n",
       [](Instruction *I) {
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
         ASSERT_TRUE(hasMatchesExactlyAttributes(Assume, I->getOperand(0),
                                        "(nonnull|align|dereferenceable)"));
         ASSERT_TRUE(hasMatchesExactlyAttributes(Assume, I->getOperand(1),
@@ -129,7 +129,7 @@ TEST(AssumeQueryAPI, hasAttributeInAssume) {
       "call void @func_many(i32* align 8 noundef %P1) cold\n", [](Instruction *I) {
         ShouldPreserveAllAttributes.setValue(true);
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
         ASSERT_TRUE(hasMatchesExactlyAttributes(
             Assume, nullptr,
             "(align|nounwind|norecurse|noundef|willreturn|cold)"));
@@ -148,7 +148,7 @@ TEST(AssumeQueryAPI, hasAttributeInAssume) {
       "%P2, i32* nonnull align 16 dereferenceable(12) %P3)\n",
       [](Instruction *I) {
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
         ASSERT_TRUE(hasMatchesExactlyAttributes(
             Assume, I->getOperand(0),
             "(align|dereferenceable)"));
@@ -184,7 +184,7 @@ TEST(AssumeQueryAPI, hasAttributeInAssume) {
       "%P2, i32* nonnull align 16 dereferenceable(12) %P3)\n",
       [](Instruction *I) {
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
         I->getOperand(1)->dropDroppableUses();
         I->getOperand(2)->dropDroppableUses();
         I->getOperand(3)->dropDroppableUses();
@@ -207,7 +207,7 @@ TEST(AssumeQueryAPI, hasAttributeInAssume) {
       "8 noalias %P1, i32* %P1)\n",
       [](Instruction *I) {
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
         Value *New = I->getFunction()->getArg(3);
         Value *Old = I->getOperand(0);
         ASSERT_TRUE(hasMatchesExactlyAttributes(Assume, New, ""));
@@ -264,7 +264,7 @@ TEST(AssumeQueryAPI, fillMapFromAssume) {
       "8 noalias %P1, i32* align 8 dereferenceable(8) %P2)\n",
       [](Instruction *I) {
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
 
         RetainedKnowledgeMap Map;
         fillMapFromAssume(*Assume, Map);
@@ -289,7 +289,7 @@ TEST(AssumeQueryAPI, fillMapFromAssume) {
       "%P, i32* nonnull align 16 dereferenceable(12) %P)\n",
       [](Instruction *I) {
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
 
         RetainedKnowledgeMap Map;
         fillMapFromAssume(*Assume, Map);
@@ -312,7 +312,7 @@ TEST(AssumeQueryAPI, fillMapFromAssume) {
       "call void @func_many(i32* align 8 %P1) cold\n", [](Instruction *I) {
         ShouldPreserveAllAttributes.setValue(true);
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
 
         RetainedKnowledgeMap Map;
         fillMapFromAssume(*Assume, Map);
@@ -337,7 +337,7 @@ TEST(AssumeQueryAPI, fillMapFromAssume) {
       "%P2, i32* nonnull align 16 dereferenceable(12) %P3)\n",
       [](Instruction *I) {
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
 
         RetainedKnowledgeMap Map;
         fillMapFromAssume(*Assume, Map);
@@ -374,7 +374,7 @@ TEST(AssumeQueryAPI, fillMapFromAssume) {
       "8 noalias %P1, i32* %P2)\n",
       [](Instruction *I) {
         auto *Assume = buildAssumeFromInst(I);
-        Assume->insertBefore(I);
+        Assume->insertBefore(I->getIterator());
 
         RetainedKnowledgeMap Map;
         fillMapFromAssume(*Assume, Map);
@@ -468,7 +468,7 @@ static void RunRandTest(uint64_t Seed, int Size, int MinCount, int MaxCount,
 
   auto *Assume = cast<AssumeInst>(CallInst::Create(
       FnAssume, ArrayRef<Value *>({ConstantInt::getTrue(C)}), OpBundle));
-  Assume->insertBefore(&F->begin()->front());
+  Assume->insertBefore(F->begin()->begin());
   RetainedKnowledgeMap Map;
   fillMapFromAssume(*Assume, Map);
   for (int i = 0; i < (Size * 2); i++) {
diff --git a/llvm/unittests/Analysis/CGSCCPassManagerTest.cpp b/llvm/unittests/Analysis/CGSCCPassManagerTest.cpp
index 5c71bc8063d6c..cf649776c04fd 100644
--- a/llvm/unittests/Analysis/CGSCCPassManagerTest.cpp
+++ b/llvm/unittests/Analysis/CGSCCPassManagerTest.cpp
@@ -1629,7 +1629,7 @@ TEST_F(CGSCCPassManagerTest, TestUpdateCGAndAnalysisManagerForPasses8) {
         BasicBlock *BB = BasicBlock::Create(FnewF->getContext(), "", FnewF);
         auto *RI = ReturnInst::Create(FnewF->getContext(), BB);
         while (FnF->getEntryBlock().size() > 1)
-          FnF->getEntryBlock().front().moveBefore(RI);
+          FnF->getEntryBlock().front().moveBefore(RI->getIterator());
         ASSERT_NE(FnF, nullptr);
 
         // Create an unused constant that is referencing the old (=replaced)
diff --git a/llvm/unittests/Analysis/MemorySSATest.cpp b/llvm/unittests/Analysis/MemorySSATest.cpp
index 0ebbc881d26ab..1fb3f46b9240f 100644
--- a/llvm/unittests/Analysis/MemorySSATest.cpp
+++ b/llvm/unittests/Analysis/MemorySSATest.cpp
@@ -315,7 +315,7 @@ TEST_F(MemorySSATest, MoveAStore) {
   MemorySSA &MSSA = *Analyses->MSSA;
   MemorySSAUpdater Updater(&MSSA);
   // Move the store
-  SideStore->moveBefore(Entry->getTerminator());
+  SideStore->moveBefore(Entry->getTerminator()->getIterator());
   MemoryAccess *EntryStoreAccess = MSSA.getMemoryAccess(EntryStore);
   MemoryAccess *SideStoreAccess = MSSA.getMemoryAccess(SideStore);
   MemoryAccess *NewStoreAccess = Updater.createMemoryAccessAfter(
@@ -351,7 +351,7 @@ TEST_F(MemorySSATest, MoveAStoreUpdater) {
   MemorySSAUpdater Updater(&MSSA);
 
   // Move the store
-  SideStore->moveBefore(Entry->getTerminator());
+  SideStore->moveBefore(Entry->getTerminator()->getIterator());
   auto *EntryStoreAccess = MSSA.getMemoryAccess(EntryStore);
   auto *SideStoreAccess = MSSA.getMemoryAccess(SideStore);
   auto *NewStoreAccess = Updater.createMemoryAccessAfter(
@@ -461,7 +461,7 @@ TEST_F(MemorySSATest, MoveAStoreAllAround) {
   EXPECT_EQ(MergePhi->getIncomingValue(0), EntryStoreAccess);
   EXPECT_EQ(MergePhi->getIncomingValue(1), SideStoreAccess);
   // Now move it before the load
-  SideStore->moveBefore(MergeLoad);
+  SideStore->moveBefore(MergeLoad->getIterator());
   Updater.moveBefore(SideStoreAccess, LoadAccess);
   EXPECT_EQ(MergePhi->getIncomingValue(0), EntryStoreAccess);
   EXPECT_EQ(MergePhi->getIncomingValue(1), EntryStoreAccess);
@@ -840,7 +840,7 @@ TEST_F(MemorySSATest, MoveAboveMemoryDef) {
   MemorySSAWalker &Walker = *Analyses->Walker;
 
   MemorySSAUpdater Updater(&MSSA);
-  StoreC->moveBefore(StoreB);
+  StoreC->moveBefore(StoreB->getIterator());
   Updater.moveBefore(cast<MemoryDef>(MSSA.getMemoryAccess(StoreC)),
                      cast<MemoryDef>(MSSA.getMemoryAccess(StoreB)));
 
@@ -1702,7 +1702,7 @@ TEST_F(MemorySSATest, TestVisitedBlocks) {
     // Move %v1 before the terminator of %header.i.check
     BasicBlock *BB = getBasicBlockByName(*F, "header.i.check");
     Instruction *LI = getInstructionByName(*F, "v1");
-    LI->moveBefore(BB->getTerminator());
+    LI->moveBefore(BB->getTerminator()->getIterator());
     if (MemoryUseOrDef *MUD = MSSA.getMemoryAccess(LI))
       Updater.moveToPlace(MUD, BB, MemorySSA::BeforeTerminator);
 
@@ -1725,7 +1725,7 @@ TEST_F(MemorySSATest, TestVisitedBlocks) {
     // Move %v2 before the terminator of %preheader.i
     BasicBlock *BB = getBasicBlockByName(*F, "preheader.i");
     Instruction *LI = getInstructionByName(*F, "v2");
-    LI->moveBefore(BB->getTerminator());
+    LI->moveBefore(BB->getTerminator()->getIterator());
     // Check that there is no assertion of "Incomplete phi during partial
     // rename"
     if (MemoryUseOrDef *MUD = MSSA.getMemoryAccess(LI))
diff --git a/llvm/unittests/IR/BasicBlockDbgInfoTest.cpp b/llvm/unittests/IR/BasicBlockDbgInfoTest.cpp
index 5ce14d3f6b9ce..00d45e2957dde 100644
--- a/llvm/unittests/IR/BasicBlockDbgInfoTest.cpp
+++ b/llvm/unittests/IR/BasicBlockDbgInfoTest.cpp
@@ -363,7 +363,7 @@ TEST(BasicBlockDbgInfoTest, HeadBitOperations) {
   EXPECT_EQ(CInst->getNextNode(), DInst);
 
   // Move back.
-  CInst->moveBefore(BInst);
+  CInst->moveBefore(BInst->getIterator());
   EXPECT_EQ(&*BB.begin(), DInst);
 
   // Current order of insts: "D -> C -> B -> Ret". DbgVariableRecords on "D".
@@ -1259,7 +1259,7 @@ TEST(BasicBlockDbgInfoTest, RemoveInstAndReinsert) {
   EXPECT_EQ(std::distance(R3.begin(), R3.end()), 2u);
 
   // Re-insert and re-insert.
-  AddInst->insertAfter(SubInst);
+  AddInst->insertAfter(SubInst->getIterator());
   Entry.reinsertInstInDbgRecords(AddInst, Pos);
   // We should be back into a position of having one DbgVariableRecord on add
   // and ret.
@@ -1331,7 +1331,7 @@ TEST(BasicBlockDbgInfoTest, RemoveInstAndReinsertForOneDbgVariableRecord) {
   EXPECT_EQ(std::distance(R2.begin(), R2.end()), 1u);
 
   // Re-insert and re-insert.
-  AddInst->insertAfter(SubInst);
+  AddInst->insertAfter(SubInst->getIterator());
   Entry.reinsertInstInDbgRecords(AddInst, Pos);
   // We should be back into a position of having one DbgVariableRecord on the
   // AddInst.
diff --git a/llvm/unittests/IR/BasicBlockTest.cpp b/llvm/unittests/IR/BasicBlockTest.cpp
index 36e849471d1ed..1f726dbfe2325 100644
--- a/llvm/unittests/IR/BasicBlockTest.cpp
+++ b/llvm/unittests/IR/BasicBlockTest.cpp
@@ -225,7 +225,7 @@ TEST_F(InstrOrderInvalidationTest, SpliceInvalidation) {
   EXPECT_TRUE(BB->isInstrOrderValid());
 
   // Use Instruction::moveBefore, which uses splice.
-  I2->moveBefore(I1);
+  I2->moveBefore(I1->getIterator());
   EXPECT_FALSE(BB->isInstrOrderValid());
 
   EXPECT_TRUE(I2->comesBefore(I1));
diff --git a/llvm/unittests/IR/LegacyPassManagerTest.cpp b/llvm/unittests/IR/LegacyPassManagerTest.cpp
index 6a4cc4d7a9829..d7b58518fa4b8 100644
--- a/llvm/unittests/IR/LegacyPassManagerTest.cpp
+++ b/llvm/unittests/IR/LegacyPassManagerTest.cpp
@@ -601,7 +601,7 @@ namespace llvm {
 
             CallBase *NewCB = cast<CallBase>(OldCB->clone());
 
-            NewCB->insertBefore(OldCB);
+            NewCB->insertBefore(OldCB->getIterator());
             NewCB->takeName(OldCB);
 
             CallerCGN->replaceCallEdge(*OldCB, *NewCB, CG[F]);
diff --git a/llvm/unittests/IR/VerifierTest.cpp b/llvm/unittests/IR/VerifierTest.cpp
index 1cae0194efbe3..2b51f3c4ea2c2 100644
--- a/llvm/unittests/IR/VerifierTest.cpp
+++ b/llvm/unittests/IR/VerifierTest.cpp
@@ -60,7 +60,7 @@ TEST(VerifierTest, Freeze) {
   // Valid type : freeze(<2 x i32>)
   Constant *CV = ConstantVector::getSplat(ElementCount::getFixed(2), CI);
   FreezeInst *FI_vec = new FreezeInst(CV);
-  FI_vec->insertBefore(RI);
+  FI_vec->insertBefore(RI->getIterator());
 
   EXPECT_FALSE(verifyFunction(*F));
 
@@ -69,7 +69,7 @@ TEST(VerifierTest, Freeze) {
   // Valid type : freeze(float)
   Constant *CFP = ConstantFP::get(Type::getDoubleTy(C), 0.0);
   FreezeInst *FI_dbl = new FreezeInst(CFP);
-  FI_dbl->insertBefore(RI);
+  FI_dbl->insertBefore(RI->getIterator());
 
   EXPECT_FALSE(verifyFunction(*F));
 
@@ -79,7 +79,7 @@ TEST(VerifierTest, Freeze) {
   PointerType *PT = PointerType::get(C, 0);
   ConstantPointerNull *CPN = ConstantPointerNull::get(PT);
   FreezeInst *FI_ptr = new FreezeInst(CPN);
-  FI_ptr->insertBefore(RI);
+  FI_ptr->insertBefore(RI->getIterator());
 
   EXPECT_FALSE(verifyFunction(*F));
 
@@ -87,7 +87,7 @@ TEST(VerifierTest, Freeze) {
 
   // Valid type : freeze(int)
   FreezeInst *FI = new FreezeInst(CI);
-  FI->insertBefore(RI);
+  FI->insertBefore(RI->getIterator());
 
   EXPECT_FALSE(verifyFunction(*F));
 
@@ -403,7 +403,7 @@ TEST(VerifierTest, GetElementPtrInst) {
                                 ConstantInt::get(Type::getInt64Ty(C), 0))},
       Entry);
 
-  GEPVec->insertBefore(RI);
+  GEPVec->insertBefore(RI->getIterator());
 
   // Break the address space of the source value
   GEPVec->getOperandUse(0).set(ConstantAggregateZero::get(V2P2Ty));
diff --git a/llvm/unittests/Transforms/Vectorize/SandboxVectorizer/VecUtilsTest.cpp b/llvm/unittests/Transforms/Vectorize/SandboxVectorizer/VecUtilsTest.cpp
index b69172738d36a..a46e47afea3c7 100644
--- a/llvm/unittests/Transforms/Vectorize/SandboxVectorizer/VecUtilsTest.cpp
+++ b/llvm/unittests/Transforms/Vectorize/SandboxVectorizer/VecUtilsTest.cpp
@@ -481,6 +481,36 @@ define void @foo(i8 %v) {
   EXPECT_EQ(sandboxir::VecUtils::getLowest(DiffBBs), nullptr);
 }
 
+TEST_F(VecUtilsTest, GetLastPHIOrSelf) {
+  parseIR(R"IR(
+define void @foo(i8 %v) {
+entry:
+  br label %bb1
+
+bb1:
+  %phi1 = phi i8 [0, %entry], [1, %bb1]
+  %phi2 = phi i8 [0, %entry], [1, %bb1]
+  br label %bb1
+
+bb2:
+  ret void
+}
+)IR");
+  Function &LLVMF = *M->getFunction("foo");
+
+  sandboxir::Context Ctx(C);
+  auto &F = *Ctx.createFunction(&LLVMF);
+  auto &BB = getBasicBlockByName(F, "bb1");
+  auto It = BB.begin();
+  auto *PHI1 = cast<sandboxir::PHINode>(&*It++);
+  auto *PHI2 = cast<sandboxir::PHINode>(&*It++);
+  auto *Br = cast<sandboxir::BranchInst>(&*It++);
+  EXPECT_EQ(sandboxir::VecUtils::getLastPHIOrSelf(PHI1), PHI2);
+  EXPECT_EQ(sandboxir::VecUtils::getLastPHIOrSelf(PHI2), PHI2);
+  EXPECT_EQ(sandboxir::VecUtils::getLastPHIOrSelf(Br), Br);
+  EXPECT_EQ(sandboxir::VecUtils::getLastPHIOrSelf(nullptr), nullptr);
+}
+
 TEST_F(VecUtilsTest, GetCommonScalarType) {
   parseIR(R"IR(
 define void @foo(i8 %v, ptr %ptr) {
diff --git a/llvm/utils/TableGen/Common/CodeGenSchedule.cpp b/llvm/utils/TableGen/Common/CodeGenSchedule.cpp
index 2a42262f865cb..e84b4fd77a6c1 100644
--- a/llvm/utils/TableGen/Common/CodeGenSchedule.cpp
+++ b/llvm/utils/TableGen/Common/CodeGenSchedule.cpp
@@ -1849,21 +1849,21 @@ void CodeGenSchedModels::collectProcResources() {
   // Add resources separately defined by each subtarget.
   for (const Record *WR : Records.getAllDerivedDefinitions("WriteRes")) {
     const Record *ModelDef = WR->getValueAsDef("SchedModel");
-    addWriteRes(WR, getProcModel(ModelDef).Index);
+    addWriteRes(WR, getProcModel(ModelDef));
   }
   for (const Record *SWR : Records.getAllDerivedDefinitions("SchedWriteRes")) {
     const Record *ModelDef = SWR->getValueAsDef("SchedModel");
-    addWriteRes(SWR, getProcModel(ModelDef).Index);
+    addWriteRes(SWR, getProcModel(ModelDef));
   }
   for (const Record *RA : Records.getAllDerivedDefinitions("ReadAdvance")) {
     const Record *ModelDef = RA->getValueAsDef("SchedModel");
-    addReadAdvance(RA, getProcModel(ModelDef).Index);
+    addReadAdvance(RA, getProcModel(ModelDef));
   }
   for (const Record *SRA :
        Records.getAllDerivedDefinitions("SchedReadAdvance")) {
     if (SRA->getValueInit("SchedModel")->isComplete()) {
       const Record *ModelDef = SRA->getValueAsDef("SchedModel");
-      addReadAdvance(SRA, getProcModel(ModelDef).Index);
+      addReadAdvance(SRA, getProcModel(ModelDef));
     }
   }
   // Add ProcResGroups that are defined within this processor model, which may
@@ -2005,10 +2005,10 @@ void CodeGenSchedModels::collectRWResources(unsigned RWIdx, bool IsRead,
   if (SchedRW.TheDef) {
     if (!IsRead && SchedRW.TheDef->isSubClassOf("SchedWriteRes")) {
       for (unsigned Idx : ProcIndices)
-        addWriteRes(SchedRW.TheDef, Idx);
+        addWriteRes(SchedRW.TheDef, ProcModels[Idx]);
     } else if (IsRead && SchedRW.TheDef->isSubClassOf("SchedReadAdvance")) {
       for (unsigned Idx : ProcIndices)
-        addReadAdvance(SchedRW.TheDef, Idx);
+        addReadAdvance(SchedRW.TheDef, ProcModels[Idx]);
     }
   }
   for (auto *Alias : SchedRW.Aliases) {
@@ -2104,16 +2104,14 @@ void CodeGenSchedModels::addProcResource(const Record *ProcResKind,
 
 // Add resources for a SchedWrite to this processor if they don't exist.
 void CodeGenSchedModels::addWriteRes(const Record *ProcWriteResDef,
-                                     unsigned PIdx) {
-  assert(PIdx && "don't add resources to an invalid Processor model");
-
-  ConstRecVec &WRDefs = ProcModels[PIdx].WriteResDefs;
+                                     CodeGenProcModel &PM) {
+  ConstRecVec &WRDefs = PM.WriteResDefs;
   if (is_contained(WRDefs, ProcWriteResDef))
     return;
   WRDefs.push_back(ProcWriteResDef);
 
   if (ProcWriteResDef->isSubClassOf("WriteRes")) {
-    auto &WRMap = ProcModels[PIdx].WriteResMap;
+    auto &WRMap = PM.WriteResMap;
     const Record *WRDef = ProcWriteResDef->getValueAsDef("WriteType");
     if (!WRMap.try_emplace(WRDef, ProcWriteResDef).second)
       PrintFatalError(ProcWriteResDef->getLoc(),
@@ -2123,29 +2121,31 @@ void CodeGenSchedModels::addWriteRes(const Record *ProcWriteResDef,
   // Visit ProcResourceKinds referenced by the newly discovered WriteRes.
   for (const Record *ProcResDef :
        ProcWriteResDef->getValueAsListOfDefs("ProcResources")) {
-    addProcResource(ProcResDef, ProcModels[PIdx], ProcWriteResDef->getLoc());
+    addProcResource(ProcResDef, PM, ProcWriteResDef->getLoc());
   }
 }
 
 // Add resources for a ReadAdvance to this processor if they don't exist.
 void CodeGenSchedModels::addReadAdvance(const Record *ProcReadAdvanceDef,
-                                        unsigned PIdx) {
+                                        CodeGenProcModel &PM) {
   for (const Record *ValidWrite :
-       ProcReadAdvanceDef->getValueAsListOfDefs("ValidWrites"))
+       ProcReadAdvanceDef->getValueAsListOfDefs("ValidWrites")) {
     if (getSchedRWIdx(ValidWrite, /*IsRead=*/false) == 0)
       PrintFatalError(
           ProcReadAdvanceDef->getLoc(),
           "ReadAdvance referencing a ValidWrite that is not used by "
           "any instruction (" +
               ValidWrite->getName() + ")");
+    PM.ReadOfWriteSet.insert(ValidWrite);
+  }
 
-  ConstRecVec &RADefs = ProcModels[PIdx].ReadAdvanceDefs;
+  ConstRecVec &RADefs = PM.ReadAdvanceDefs;
   if (is_contained(RADefs, ProcReadAdvanceDef))
     return;
   RADefs.push_back(ProcReadAdvanceDef);
 
   if (ProcReadAdvanceDef->isSubClassOf("ReadAdvance")) {
-    auto &RAMap = ProcModels[PIdx].ReadAdvanceMap;
+    auto &RAMap = PM.ReadAdvanceMap;
     const Record *RADef = ProcReadAdvanceDef->getValueAsDef("ReadType");
     if (!RAMap.try_emplace(RADef, ProcReadAdvanceDef).second)
       PrintFatalError(ProcReadAdvanceDef->getLoc(),
@@ -2175,12 +2175,7 @@ bool CodeGenProcModel::isUnsupported(const CodeGenInstruction &Inst) const {
 }
 
 bool CodeGenProcModel::hasReadOfWrite(const Record *WriteDef) const {
-  for (auto &RADef : ReadAdvanceDefs) {
-    ConstRecVec ValidWrites = RADef->getValueAsListOfDefs("ValidWrites");
-    if (is_contained(ValidWrites, WriteDef))
-      return true;
-  }
-  return false;
+  return ReadOfWriteSet.count(WriteDef);
 }
 
 #ifndef NDEBUG
diff --git a/llvm/utils/TableGen/Common/CodeGenSchedule.h b/llvm/utils/TableGen/Common/CodeGenSchedule.h
index 467b77e8acba3..0dce1fa308118 100644
--- a/llvm/utils/TableGen/Common/CodeGenSchedule.h
+++ b/llvm/utils/TableGen/Common/CodeGenSchedule.h
@@ -19,6 +19,7 @@
 #include "llvm/ADT/DenseMap.h"
 #include "llvm/ADT/DenseSet.h"
 #include "llvm/ADT/STLExtras.h"
+#include "llvm/ADT/SmallPtrSet.h"
 #include "llvm/ADT/StringRef.h"
 #include "llvm/TableGen/Record.h"
 #include "llvm/TableGen/SetTheory.h"
@@ -250,6 +251,9 @@ struct CodeGenProcModel {
   // Map from the ReadType field to the parent ReadAdvance record.
   DenseMap<const Record *, const Record *> ReadAdvanceMap;
 
+  // Set of WriteRes that are referenced by a ReadAdvance.
+  SmallPtrSet<const Record *, 8> ReadOfWriteSet;
+
   // Per-operand machine model resources associated with this processor.
   ConstRecVec ProcResourceDefs;
 
@@ -653,9 +657,9 @@ class CodeGenSchedModels {
   void addProcResource(const Record *ProcResourceKind, CodeGenProcModel &PM,
                        ArrayRef<SMLoc> Loc);
 
-  void addWriteRes(const Record *ProcWriteResDef, unsigned PIdx);
+  void addWriteRes(const Record *ProcWriteResDef, CodeGenProcModel &PM);
 
-  void addReadAdvance(const Record *ProcReadAdvanceDef, unsigned PIdx);
+  void addReadAdvance(const Record *ProcReadAdvanceDef, CodeGenProcModel &PM);
 };
 
 } // namespace llvm
diff --git a/llvm/utils/gn/secondary/clang/include/clang/Basic/BUILD.gn b/llvm/utils/gn/secondary/clang/include/clang/Basic/BUILD.gn
index 70af9760a858d..e7e145c2b273e 100644
--- a/llvm/utils/gn/secondary/clang/include/clang/Basic/BUILD.gn
+++ b/llvm/utils/gn/secondary/clang/include/clang/Basic/BUILD.gn
@@ -79,6 +79,11 @@ clang_tablegen("AttrList") {
   td_file = "Attr.td"
 }
 
+clang_tablegen("AttrParsedAttrList") {
+  args = [ "-gen-clang-attr-parsed-attr-list" ]
+  td_file = "../Basic/Attr.td"
+}
+
 clang_tablegen("AttrSubMatchRulesList") {
   args = [ "-gen-clang-attr-subject-match-rule-list" ]
   td_file = "Attr.td"
@@ -94,6 +99,11 @@ clang_tablegen("AttrHasAttributeImpl") {
   td_file = "Attr.td"
 }
 
+clang_tablegen("CXX11AttributeInfo") {
+  args = [ "-gen-cxx11-attribute-info" ]
+  td_file = "../Basic/Attr.td"
+}
+
 clang_tablegen("Builtins") {
   args = [ "-gen-clang-builtins" ]
 }
diff --git a/llvm/utils/gn/secondary/clang/include/clang/Sema/BUILD.gn b/llvm/utils/gn/secondary/clang/include/clang/Sema/BUILD.gn
index 097bcce490380..f7757d081434f 100644
--- a/llvm/utils/gn/secondary/clang/include/clang/Sema/BUILD.gn
+++ b/llvm/utils/gn/secondary/clang/include/clang/Sema/BUILD.gn
@@ -5,11 +5,6 @@ clang_tablegen("AttrTemplateInstantiate") {
   td_file = "../Basic/Attr.td"
 }
 
-clang_tablegen("AttrParsedAttrList") {
-  args = [ "-gen-clang-attr-parsed-attr-list" ]
-  td_file = "../Basic/Attr.td"
-}
-
 clang_tablegen("AttrParsedAttrKinds") {
   args = [ "-gen-clang-attr-parsed-attr-kinds" ]
   td_file = "../Basic/Attr.td"
diff --git a/llvm/utils/gn/secondary/clang/lib/Basic/BUILD.gn b/llvm/utils/gn/secondary/clang/lib/Basic/BUILD.gn
index d759ff4429a92..bbfac67b2a6e6 100644
--- a/llvm/utils/gn/secondary/clang/lib/Basic/BUILD.gn
+++ b/llvm/utils/gn/secondary/clang/lib/Basic/BUILD.gn
@@ -22,6 +22,7 @@ static_library("Basic") {
   public_deps = [
     # public_dep because public header Version.h includes generated Version.inc.
     "//clang/include/clang/Basic:AttrList",
+    "//clang/include/clang/Basic:AttrParsedAttrList",
     "//clang/include/clang/Basic:AttrSubMatchRulesList",
     "//clang/include/clang/Basic:Builtins",
     "//clang/include/clang/Basic:BuiltinsBPF",
@@ -42,10 +43,6 @@ static_library("Basic") {
     "//clang/include/clang/Basic:riscv_vector_builtins",
     "//clang/include/clang/Basic:version",
 
-    # public_dep because public header AttributeCommonInfo.h includes generated
-    # AttrParsedAttrList.inc.
-    "//clang/include/clang/Sema:AttrParsedAttrList",
-
     # public_dep because public header OpenMPKinds.h includes generated
     # OMP.h.inc.
     "//llvm/include/llvm/Frontend/OpenMP:public_tablegen",
@@ -53,6 +50,7 @@ static_library("Basic") {
   deps = [
     ":write_vcsversion",
     "//clang/include/clang/Basic:AttrHasAttributeImpl",
+    "//clang/include/clang/Basic:CXX11AttributeInfo",
     "//clang/include/clang/Basic:arm_fp16",
     "//clang/include/clang/Basic:arm_neon",
     "//clang/include/clang/Config",
diff --git a/llvm/utils/gn/secondary/clang/lib/Sema/BUILD.gn b/llvm/utils/gn/secondary/clang/lib/Sema/BUILD.gn
index 3b72177ee5d7c..306ef0adda708 100644
--- a/llvm/utils/gn/secondary/clang/lib/Sema/BUILD.gn
+++ b/llvm/utils/gn/secondary/clang/lib/Sema/BUILD.gn
@@ -9,6 +9,7 @@ static_library("Sema") {
   configs += [ "//llvm/utils/gn/build:clang_code" ]
   deps = [
     ":OpenCLBuiltins",
+    "//clang/include/clang/Basic:AttrParsedAttrList",
     "//clang/include/clang/Basic:arm_cde_builtin_aliases",
     "//clang/include/clang/Basic:arm_cde_builtin_sema",
     "//clang/include/clang/Basic:arm_mve_builtin_aliases",
@@ -22,7 +23,6 @@ static_library("Sema") {
     "//clang/include/clang/Basic:riscv_vector_builtin_sema",
     "//clang/include/clang/Sema:AttrParsedAttrImpl",
     "//clang/include/clang/Sema:AttrParsedAttrKinds",
-    "//clang/include/clang/Sema:AttrParsedAttrList",
     "//clang/include/clang/Sema:AttrSpellingListIndex",
     "//clang/include/clang/Sema:AttrTemplateInstantiate",
     "//clang/lib/APINotes",
diff --git a/llvm/utils/gn/secondary/lldb/source/Host/BUILD.gn b/llvm/utils/gn/secondary/lldb/source/Host/BUILD.gn
index d74de409858b9..898e7470ec2eb 100644
--- a/llvm/utils/gn/secondary/lldb/source/Host/BUILD.gn
+++ b/llvm/utils/gn/secondary/lldb/source/Host/BUILD.gn
@@ -114,10 +114,7 @@ static_library("Host") {
     ]
   }
   if (current_os == "android") {
-    sources += [
-      "android/HostInfoAndroid.cpp",
-      "android/LibcGlue.cpp",
-    ]
+    sources += [ "android/HostInfoAndroid.cpp" ]
   }
 
   if (current_os == "freebsd") {
diff --git a/llvm/utils/gn/secondary/llvm/lib/Support/BUILD.gn b/llvm/utils/gn/secondary/llvm/lib/Support/BUILD.gn
index 008715a0b3dea..5146d4141f29b 100644
--- a/llvm/utils/gn/secondary/llvm/lib/Support/BUILD.gn
+++ b/llvm/utils/gn/secondary/llvm/lib/Support/BUILD.gn
@@ -33,7 +33,7 @@ static_library("Support") {
     "Windows",
   ]
   sources = [
-    "AArch64BuildAttributes.cpp"
+    "AArch64BuildAttributes.cpp",
     "ABIBreak.cpp",
     "AMDGPUMetadata.cpp",
     "APFixedPoint.cpp",
@@ -42,7 +42,6 @@ static_library("Support") {
     "APSInt.cpp",
     "ARMAttributeParser.cpp",
     "ARMBuildAttrs.cpp",
-    "AArch64BuildAttributes.cpp",
     "ARMWinEH.cpp",
     "Allocator.cpp",
     "AutoConvert.cpp",
diff --git a/mlir/cmake/modules/AddMLIRPython.cmake b/mlir/cmake/modules/AddMLIRPython.cmake
index 3372e74ceb7aa..403ba8eeb7d01 100644
--- a/mlir/cmake/modules/AddMLIRPython.cmake
+++ b/mlir/cmake/modules/AddMLIRPython.cmake
@@ -676,8 +676,11 @@ function(add_mlir_python_extension libname extname)
       ${ARG_SOURCES}
     )
 
-    if (LLVM_COMPILER_IS_GCC_COMPATIBLE OR CLANG_CL)
-      # Avoids warnings from upstream nanobind.
+    if (NOT MLIR_DISABLE_CONFIGURE_PYTHON_DEV_PACKAGES
+        AND (LLVM_COMPILER_IS_GCC_COMPATIBLE OR CLANG_CL))
+      # Avoid some warnings from upstream nanobind.
+      # If a superproject set MLIR_DISABLE_CONFIGURE_PYTHON_DEV_PACKAGES, let
+      # the super project handle compile options as it wishes.
       set(nanobind_target "nanobind-static")
       if (NOT TARGET ${nanobind_target})
         # Get correct nanobind target name: nanobind-static-ft or something else
diff --git a/mlir/docs/Dialects/GPU.md b/mlir/docs/Dialects/GPU.md
index 447b163647fc6..94b053daa1615 100644
--- a/mlir/docs/Dialects/GPU.md
+++ b/mlir/docs/Dialects/GPU.md
@@ -107,7 +107,7 @@ parallelization. To enable parallelism, necessary transformations must be
 applied before utilizing this pipeline.
 
 It's designed to provide a generic solution for NVVM targets, generating NVVM
-and LLVM dialect code compatible with `mlir-cpu-runner` or execution engine.
+and LLVM dialect code compatible with `mlir-runner` or execution engine.
 
 #### Example:
 
@@ -131,7 +131,7 @@ func.func @main() {
 The `gpu-lower-to-nvvm` pipeline compiles this input code to NVVM format as
 below. It provides customization options like specifying SM capability, PTX
 version, and optimization level. Once compiled, the resulting IR is ready for
-execution using `mlir-cpu-runner`. Alternatively, it can be translated into
+execution using `mlir-runner`. Alternatively, it can be translated into
 LLVM, expanding its utility within the system.
 
 ```
diff --git a/mlir/docs/ReleaseNotes.md b/mlir/docs/ReleaseNotes.md
index c98a6c0374acd..ab5e9adaa68bc 100644
--- a/mlir/docs/ReleaseNotes.md
+++ b/mlir/docs/ReleaseNotes.md
@@ -8,6 +8,10 @@ specifically, it is a snapshot of the MLIR development at the time of the releas
 
 [TOC]
 
+## LLVM 20
+
+All the MLIR runners other than `mlir-cpu-runner` have been removed, as their functionality has been merged into it, and it has been renamed to `mlir-runner`.
+
 ## LLVM 18
 
 ### Properties: beyond attributes
diff --git a/mlir/docs/SPIRVToLLVMDialectConversion.md b/mlir/docs/SPIRVToLLVMDialectConversion.md
index 872690bb52646..f4adbe5ca52ec 100644
--- a/mlir/docs/SPIRVToLLVMDialectConversion.md
+++ b/mlir/docs/SPIRVToLLVMDialectConversion.md
@@ -817,7 +817,7 @@ to LLVM ops. At the moment, SPIR-V module attributes are ignored.
 
 ## SPIR-V CPU Runner Tests
 
-The `mlir-cpu-runner` has support for executing a `gpu` dialect kernel on the
+The `mlir-runner` has support for executing a `gpu` dialect kernel on the
 CPU via SPIR-V to LLVM dialect conversion. This is referred to as the "SPIR-V
 CPU Runner". The `--link-nested-modules` flag needs to be passed for this.
 Currently, only single-threaded kernels are supported.
diff --git a/mlir/include/mlir/Dialect/Arith/IR/ArithOps.td b/mlir/include/mlir/Dialect/Arith/IR/ArithOps.td
index 0722ff68d890d..ea9b0f6509b80 100644
--- a/mlir/include/mlir/Dialect/Arith/IR/ArithOps.td
+++ b/mlir/include/mlir/Dialect/Arith/IR/ArithOps.td
@@ -51,8 +51,8 @@ class Arith_BinaryOp<string mnemonic, list<Trait> traits = []> :
 class Arith_IntBinaryOp<string mnemonic, list<Trait> traits = []> :
     Arith_BinaryOp<mnemonic, traits #
       [DeclareOpInterfaceMethods<InferIntRangeInterface, ["inferResultRanges"]>]>,
-    Arguments<(ins SignlessIntegerLike:$lhs, SignlessIntegerLike:$rhs)>,
-    Results<(outs SignlessIntegerLike:$result)>;
+    Arguments<(ins SignlessIntegerOrIndexLike:$lhs, SignlessIntegerOrIndexLike:$rhs)>,
+    Results<(outs SignlessIntegerOrIndexLike:$result)>;
 
 // Base class for integer binary operations without undefined behavior.
 class Arith_TotalIntBinaryOp<string mnemonic, list<Trait> traits = []> :
@@ -155,11 +155,11 @@ class Arith_IntBinaryOpWithOverflowFlags<string mnemonic, list<Trait> traits = [
     Arith_BinaryOp<mnemonic, traits #
       [Pure, DeclareOpInterfaceMethods<InferIntRangeInterface, ["inferResultRanges"]>,
        DeclareOpInterfaceMethods<ArithIntegerOverflowFlagsInterface>]>,
-    Arguments<(ins SignlessIntegerLike:$lhs, SignlessIntegerLike:$rhs,
+    Arguments<(ins SignlessIntegerOrIndexLike:$lhs, SignlessIntegerOrIndexLike:$rhs,
       DefaultValuedAttr<
         Arith_IntegerOverflowAttr,
         "::mlir::arith::IntegerOverflowFlags::none">:$overflowFlags)>,
-    Results<(outs SignlessIntegerLike:$result)> {
+    Results<(outs SignlessIntegerOrIndexLike:$result)> {
 
   let assemblyFormat = [{ $lhs `,` $rhs (`overflow` `` $overflowFlags^)?
                           attr-dict `:` type($result) }];
@@ -198,7 +198,7 @@ def Arith_ConstantOp : Op<Arith_Dialect, "constant",
   // However, it is necessary to allow arith.constant to return vectors/tensors
   // of strings and signed/unsigned integers (for now) as an artefact of
   // splitting the Standard dialect.
-  let results = (outs /*SignlessIntegerOrFloatLike*/AnyType:$result);
+  let results = (outs /*SignlessIntegerOrIndexOrFloatLike*/AnyType:$result);
 
   let extraClassDeclaration = [{
     /// Whether the constant op can be constructed with a particular value and
@@ -288,8 +288,8 @@ def Arith_AddUIExtendedOp : Arith_Op<"addui_extended", [Pure, Commutative,
     ```
   }];
 
-  let arguments = (ins SignlessIntegerLike:$lhs, SignlessIntegerLike:$rhs);
-  let results = (outs SignlessIntegerLike:$sum, BoolLike:$overflow);
+  let arguments = (ins SignlessIntegerOrIndexLike:$lhs, SignlessIntegerOrIndexLike:$rhs);
+  let results = (outs SignlessIntegerOrIndexLike:$sum, BoolLike:$overflow);
   let assemblyFormat = [{
     $lhs `,` $rhs attr-dict `:` type($sum) `,` type($overflow)
   }];
@@ -429,8 +429,8 @@ def Arith_MulSIExtendedOp : Arith_Op<"mulsi_extended", [Pure, Commutative,
     ```
   }];
 
-  let arguments = (ins SignlessIntegerLike:$lhs, SignlessIntegerLike:$rhs);
-  let results = (outs SignlessIntegerLike:$low, SignlessIntegerLike:$high);
+  let arguments = (ins SignlessIntegerOrIndexLike:$lhs, SignlessIntegerOrIndexLike:$rhs);
+  let results = (outs SignlessIntegerOrIndexLike:$low, SignlessIntegerOrIndexLike:$high);
 
   let assemblyFormat = "$lhs `,` $rhs attr-dict `:` type($lhs)";
 
@@ -472,8 +472,8 @@ def Arith_MulUIExtendedOp : Arith_Op<"mului_extended", [Pure, Commutative,
     ```
   }];
 
-  let arguments = (ins SignlessIntegerLike:$lhs, SignlessIntegerLike:$rhs);
-  let results = (outs SignlessIntegerLike:$low, SignlessIntegerLike:$high);
+  let arguments = (ins SignlessIntegerOrIndexLike:$lhs, SignlessIntegerOrIndexLike:$rhs);
+  let results = (outs SignlessIntegerOrIndexLike:$low, SignlessIntegerOrIndexLike:$high);
 
   let assemblyFormat = "$lhs `,` $rhs attr-dict `:` type($lhs)";
 
@@ -1350,7 +1350,7 @@ def Arith_FPToSIOp : Arith_FToICastOp<"fptosi"> {
 
 // Index cast can convert between memrefs of signless integers and indices too.
 def IndexCastTypeConstraint : TypeConstraint<Or<[
-        SignlessIntegerLike.predicate,
+        SignlessIntegerOrIndexLike.predicate,
         MemRefOf<[AnySignlessInteger, Index]>.predicate]>,
     "signless-integer-like or memref of signless-integer">;
 
@@ -1392,11 +1392,10 @@ def Arith_IndexCastUIOp
 // BitcastOp
 //===----------------------------------------------------------------------===//
 
-// Bitcast can convert between memrefs of signless integers, indices, and
-// floats too.
+// Bitcast can convert between memrefs of signless integers and floats.
 def BitcastTypeConstraint : TypeConstraint<Or<[
         SignlessIntegerOrFloatLike.predicate,
-        MemRefOf<[AnySignlessInteger, Index, AnyFloat]>.predicate]>,
+        MemRefOf<[AnySignlessInteger, AnyFloat]>.predicate]>,
     "signless-integer-or-float-like or memref of signless-integer or float">;
 
 def Arith_BitcastOp : Arith_CastOp<"bitcast", BitcastTypeConstraint,
@@ -1496,8 +1495,8 @@ def Arith_CmpIOp
   }];
 
   let arguments = (ins Arith_CmpIPredicateAttr:$predicate,
-                       SignlessIntegerLikeOfAnyRank:$lhs,
-                       SignlessIntegerLikeOfAnyRank:$rhs);
+                       SignlessIntegerOrIndexLikeOfAnyRank:$lhs,
+                       SignlessIntegerOrIndexLikeOfAnyRank:$rhs);
 
   let hasFolder = 1;
   let hasCanonicalizer = 1;
diff --git a/mlir/include/mlir/Dialect/LLVMIR/NVVMDialect.h b/mlir/include/mlir/Dialect/LLVMIR/NVVMDialect.h
index 50d1a39126ea3..d474ba8485d5d 100644
--- a/mlir/include/mlir/Dialect/LLVMIR/NVVMDialect.h
+++ b/mlir/include/mlir/Dialect/LLVMIR/NVVMDialect.h
@@ -21,6 +21,7 @@
 #include "mlir/IR/OpDefinition.h"
 #include "mlir/Interfaces/InferIntRangeInterface.h"
 #include "mlir/Interfaces/SideEffectInterfaces.h"
+#include "mlir/Target/LLVMIR/ModuleTranslation.h"
 #include "llvm/IR/IntrinsicsNVPTX.h"
 
 #include "mlir/Dialect/LLVMIR/NVVMOpsEnums.h.inc"
diff --git a/mlir/include/mlir/Dialect/LLVMIR/NVVMOps.td b/mlir/include/mlir/Dialect/LLVMIR/NVVMOps.td
index 797a006708131..8c8e44a054a62 100644
--- a/mlir/include/mlir/Dialect/LLVMIR/NVVMOps.td
+++ b/mlir/include/mlir/Dialect/LLVMIR/NVVMOps.td
@@ -849,55 +849,24 @@ def LoadCacheModifierKind : I32EnumAttr<"LoadCacheModifierKind",
 
 def LoadCacheModifierAttr : EnumAttr<NVVM_Dialect, LoadCacheModifierKind, "load_cache_modifier">;
 
-def NVVM_CpAsyncOp : NVVM_PTXBuilder_Op<"cp.async.shared.global">,
+def NVVM_CpAsyncOp : NVVM_Op<"cp.async.shared.global">,
   Arguments<(ins LLVM_PointerShared:$dst,
                  LLVM_PointerGlobal:$src,
                  I32Attr:$size,
                  LoadCacheModifierAttr:$modifier,
                  Optional<LLVM_Type>:$cpSize)> {
-  string llvmBuilder = [{
-      llvm::Intrinsic::ID id;
-      switch ($size) {
-        case 4:
-          id = llvm::Intrinsic::nvvm_cp_async_ca_shared_global_4;
-          break;
-        case 8:
-          id = llvm::Intrinsic::nvvm_cp_async_ca_shared_global_8;
-          break;
-        case 16:
-          if($modifier == NVVM::LoadCacheModifierKind::CG)
-            id = llvm::Intrinsic::nvvm_cp_async_cg_shared_global_16;
-          else if($modifier == NVVM::LoadCacheModifierKind::CA)
-            id = llvm::Intrinsic::nvvm_cp_async_ca_shared_global_16;
-          else 
-            llvm_unreachable("unsupported cache modifier");
-          break;
-        default:
-          llvm_unreachable("unsupported async copy size");
-      }
-      createIntrinsicCall(builder, id, {$dst, $src});
-  }];
   let assemblyFormat = "$dst `,` $src `,` $size `,` `cache` `=` $modifier (`,` $cpSize^)? attr-dict `:` type(operands)";
   let hasVerifier = 1;
   let extraClassDeclaration = [{
-    bool hasIntrinsic() { if(getCpSize()) return false; return true; }
-
-    void getAsmValues(RewriterBase &rewriter, 
-        llvm::SmallVectorImpl<std::pair<mlir::Value, mlir::NVVM::PTXRegisterMod>> &asmValues) {
-      asmValues.push_back({getDst(), PTXRegisterMod::Read});
-      asmValues.push_back({getSrc(), PTXRegisterMod::Read});
-      asmValues.push_back({makeConstantI32(rewriter, getSize()), PTXRegisterMod::Read});
-      asmValues.push_back({getCpSize(), PTXRegisterMod::Read});
-    }        
+    static llvm::Intrinsic::ID
+      getIntrinsicIDAndArgs(Operation &op, LLVM::ModuleTranslation &mt,
+                            llvm::SmallVector<llvm::Value *> &args);
   }];
-  let extraClassDefinition = [{        
-    std::string $cppClass::getPtx() { 
-      if(getModifier() == NVVM::LoadCacheModifierKind::CG)
-        return std::string("cp.async.cg.shared.global [%0], [%1], %2, %3;\n");
-      if(getModifier() == NVVM::LoadCacheModifierKind::CA)
-        return std::string("cp.async.ca.shared.global [%0], [%1], %2, %3;\n");
-      llvm_unreachable("unsupported cache modifier");      
-    }
+  string llvmBuilder = [{
+    llvm::SmallVector<llvm::Value *> translatedOperands;
+    auto id = NVVM::CpAsyncOp::getIntrinsicIDAndArgs(
+      *op, moduleTranslation, translatedOperands);
+    createIntrinsicCall(builder, id, translatedOperands);
   }];
 }
 
diff --git a/mlir/include/mlir/Dialect/LLVMIR/ROCDLOps.td b/mlir/include/mlir/Dialect/LLVMIR/ROCDLOps.td
index e9e62a74237c4..95fbe7ed66a43 100644
--- a/mlir/include/mlir/Dialect/LLVMIR/ROCDLOps.td
+++ b/mlir/include/mlir/Dialect/LLVMIR/ROCDLOps.td
@@ -343,6 +343,18 @@ class ROCDL_Mfma_IntrOp<string mnemonic, list<Trait> traits = []> :
     "$args attr-dict `:` functional-type($args, $res)";
 }
 
+//===---------------------------------------------------------------------===//
+// MFMA intrinsics with overloaded operands
+class ROCDL_Mfma_OO_IntrOp<string mnemonic, list<int> overloadedOperands,
+                        list<Trait> traits = []> :
+  LLVM_IntrOpBase<ROCDL_Dialect, mnemonic,
+                  "amdgcn_" # !subst(".","_", mnemonic),
+                  [], overloadedOperands, traits, 1>,
+  Arguments<(ins Variadic<LLVM_Type>:$args)> {
+  let assemblyFormat =
+    "$args attr-dict `:` functional-type($args, $res)";
+}
+
 // Available on all CDNA.
 def ROCDL_mfma_f32_32x32x1f32 : ROCDL_Mfma_IntrOp<"mfma.f32.32x32x1f32">;
 def ROCDL_mfma_f32_16x16x1f32 : ROCDL_Mfma_IntrOp<"mfma.f32.16x16x1f32">;
@@ -394,7 +406,8 @@ def ROCDL_mfma_f32_16x16x32_f16 : ROCDL_Mfma_IntrOp<"mfma.f32.16x16x32.f16">;
 def ROCDL_mfma_f32_32x32x16_bf16 : ROCDL_Mfma_IntrOp<"mfma.f32.32x32x16.bf16">;
 def ROCDL_mfma_i32_32x32x32_i8 : ROCDL_Mfma_IntrOp<"mfma.i32.32x32x32.i8">;
 def ROCDL_mfma_f32_32x32x16_f16 : ROCDL_Mfma_IntrOp<"mfma.f32.32x32x16.f16">;
-
+def ROCDL_mfma_scale_f32_16x16x128_f8f6f4 : ROCDL_Mfma_OO_IntrOp<"mfma.scale.f32.16x16x128.f8f6f4", [0,1]>;
+def ROCDL_mfma_scale_f32_32x32x64_f8f6f4 : ROCDL_Mfma_OO_IntrOp<"mfma.scale.f32.32x32x64.f8f6f4", [0,1]>;
 //===---------------------------------------------------------------------===//
 // WMMA intrinsics
 class ROCDL_Wmma_IntrOp<string mnemonic, list<int> overloadedOperands,
diff --git a/mlir/include/mlir/Dialect/Math/IR/MathOps.td b/mlir/include/mlir/Dialect/Math/IR/MathOps.td
index 3f6d2d2e44783..5990a9f0d2e44 100644
--- a/mlir/include/mlir/Dialect/Math/IR/MathOps.td
+++ b/mlir/include/mlir/Dialect/Math/IR/MathOps.td
@@ -28,8 +28,8 @@ class Math_Op<string mnemonic, list<Trait> traits = []> :
 // tensor thereof.
 class Math_IntegerUnaryOp<string mnemonic, list<Trait> traits = []> :
     Math_Op<mnemonic, traits # [SameOperandsAndResultType]> {
-  let arguments = (ins SignlessIntegerLike:$operand);
-  let results = (outs SignlessIntegerLike:$result);
+  let arguments = (ins SignlessIntegerOrIndexLike:$operand);
+  let results = (outs SignlessIntegerOrIndexLike:$result);
 
   let assemblyFormat = "$operand attr-dict `:` type($result)";
 }
@@ -55,8 +55,8 @@ class Math_FloatUnaryOp<string mnemonic, list<Trait> traits = []> :
 // type, vector or tensor thereof.
 class Math_IntegerBinaryOp<string mnemonic, list<Trait> traits = []> :
     Math_Op<mnemonic, traits # [SameOperandsAndResultType]> {
-  let arguments = (ins SignlessIntegerLike:$lhs, SignlessIntegerLike:$rhs);
-  let results = (outs SignlessIntegerLike:$result);
+  let arguments = (ins SignlessIntegerOrIndexLike:$lhs, SignlessIntegerOrIndexLike:$rhs);
+  let results = (outs SignlessIntegerOrIndexLike:$result);
 
   let assemblyFormat = "$lhs `,` $rhs attr-dict `:` type($result)";
 }
@@ -976,7 +976,7 @@ def Math_FPowIOp : Math_Op<"fpowi",
     ```
   }];
 
-  let arguments = (ins FloatLike:$lhs, SignlessIntegerLike:$rhs,
+  let arguments = (ins FloatLike:$lhs, SignlessIntegerOrIndexLike:$rhs,
       DefaultValuedAttr<Arith_FastMathAttr,
                         "::mlir::arith::FastMathFlags::none">:$fastmath);
   let results = (outs FloatLike:$result);
diff --git a/mlir/include/mlir/Dialect/Math/Transforms/Passes.h b/mlir/include/mlir/Dialect/Math/Transforms/Passes.h
index 74ba91322ea85..f0f17c6adcb08 100644
--- a/mlir/include/mlir/Dialect/Math/Transforms/Passes.h
+++ b/mlir/include/mlir/Dialect/Math/Transforms/Passes.h
@@ -31,7 +31,6 @@ void populateExpandAsinhPattern(RewritePatternSet &patterns);
 void populateExpandAcoshPattern(RewritePatternSet &patterns);
 void populateExpandAtanhPattern(RewritePatternSet &patterns);
 void populateExpandFmaFPattern(RewritePatternSet &patterns);
-void populateExpandFloorFPattern(RewritePatternSet &patterns);
 void populateExpandCeilFPattern(RewritePatternSet &patterns);
 void populateExpandExp2FPattern(RewritePatternSet &patterns);
 void populateExpandPowFPattern(RewritePatternSet &patterns);
diff --git a/mlir/include/mlir/Dialect/Tensor/IR/TensorOps.td b/mlir/include/mlir/Dialect/Tensor/IR/TensorOps.td
index 812ac20984502..8ad1b23cb2bfe 100644
--- a/mlir/include/mlir/Dialect/Tensor/IR/TensorOps.td
+++ b/mlir/include/mlir/Dialect/Tensor/IR/TensorOps.td
@@ -75,8 +75,10 @@ def Tensor_BitcastOp : Tensor_Op<"bitcast", [
     ```
   }];
 
-  let arguments = (ins AnyTensor:$source);
-  let results = (outs AnyTensor:$dest);
+  let arguments = (ins TensorOf<[AnySignlessInteger, AnyUnsignedInteger, 
+                                 AnySignedInteger, AnyFloat]>:$source);
+  let results = (outs TensorOf<[AnySignlessInteger, AnyUnsignedInteger,
+                                AnySignedInteger, AnyFloat]>:$dest);
   let assemblyFormat = "$source attr-dict `:` type($source) `to` type($dest)";
 
   let hasCanonicalizer = 1;
diff --git a/mlir/include/mlir/Dialect/Tosa/IR/TosaOps.td b/mlir/include/mlir/Dialect/Tosa/IR/TosaOps.td
index 04e634e540bee..e9fc51d7fcf26 100644
--- a/mlir/include/mlir/Dialect/Tosa/IR/TosaOps.td
+++ b/mlir/include/mlir/Dialect/Tosa/IR/TosaOps.td
@@ -42,7 +42,8 @@ def Tosa_ArgMaxOp : Tosa_InferShapedTypeOp<"argmax"> {
 
   let arguments = (ins
     Tosa_Tensor: $input,
-    I32Attr: $axis
+    I32Attr: $axis,
+    DefaultValuedAttr<Tosa_NanPropagationAttr, "\"PROPAGATE\"">:$nan_mode
   );
 
   let results = (outs
@@ -287,7 +288,8 @@ def Tosa_MaxPool2dOp : Tosa_InferShapedTypeOp<"max_pool2d"> {
 
     Tosa_IntArrayAttr2:$kernel,
     Tosa_IntArrayAttr2:$stride,
-    Tosa_IntArrayAttr4:$pad
+    Tosa_IntArrayAttr4:$pad,
+    DefaultValuedAttr<Tosa_NanPropagationAttr, "\"PROPAGATE\"">:$nan_mode
   );
 
   let results = (outs
@@ -388,7 +390,8 @@ def Tosa_ClampOp : Tosa_ElementwiseUnaryOp<"clamp"> {
     I64Attr:$min_int,
     I64Attr:$max_int,
     Tosa_FloatAttr:$min_fp,
-    Tosa_FloatAttr:$max_fp
+    Tosa_FloatAttr:$max_fp,
+    DefaultValuedAttr<Tosa_NanPropagationAttr, "\"PROPAGATE\"">:$nan_mode
   );
 
   let results = (outs
@@ -752,7 +755,8 @@ def Tosa_MaximumOp : Tosa_ElementwiseOp<"maximum", [
 
   let arguments = (ins
     Tosa_Tensor:$input1,
-    Tosa_Tensor:$input2
+    Tosa_Tensor:$input2,
+    DefaultValuedAttr<Tosa_NanPropagationAttr, "\"PROPAGATE\"">:$nan_mode
   );
 
   let results = (outs
@@ -777,7 +781,8 @@ def Tosa_MinimumOp : Tosa_ElementwiseOp<"minimum", [
 
   let arguments = (ins
     Tosa_Tensor:$input1,
-    Tosa_Tensor:$input2
+    Tosa_Tensor:$input2,
+    DefaultValuedAttr<Tosa_NanPropagationAttr, "\"PROPAGATE\"">:$nan_mode
   );
 
   let results = (outs
@@ -1390,7 +1395,8 @@ def Tosa_ReduceMaxOp : Tosa_InferTensorTypeOp<"reduce_max"> {
 
   let arguments = (ins
     Tosa_Tensor:$input,
-    I32Attr:$axis
+    I32Attr:$axis,
+    DefaultValuedAttr<Tosa_NanPropagationAttr, "\"PROPAGATE\"">:$nan_mode
   );
 
   let results = (outs
@@ -1430,7 +1436,8 @@ def Tosa_ReduceMinOp : Tosa_InferTensorTypeOp<"reduce_min"> {
 
   let arguments = (ins
     Tosa_Tensor:$input,
-    I32Attr:$axis
+    I32Attr:$axis,
+    DefaultValuedAttr<Tosa_NanPropagationAttr, "\"PROPAGATE\"">:$nan_mode
   );
 
   let results = (outs
diff --git a/mlir/include/mlir/Dialect/Tosa/IR/TosaTypesBase.td b/mlir/include/mlir/Dialect/Tosa/IR/TosaTypesBase.td
index 5ca7720508d54..98f15fec3a952 100644
--- a/mlir/include/mlir/Dialect/Tosa/IR/TosaTypesBase.td
+++ b/mlir/include/mlir/Dialect/Tosa/IR/TosaTypesBase.td
@@ -208,12 +208,20 @@ def Tosa_FloatAttr : Attr<CPred<"::llvm::isa<::mlir::FloatAttr>($_self)">,
 //===----------------------------------------------------------------------===//
 // Iterable attributes.
 //===----------------------------------------------------------------------===//
+// Defined in `section 3. Enumerations` of the TOSA specification.
+
 // Supported regimes for tosa.resize.
 def Tosa_ResizeTypeAttr : StringBasedAttr<
     CPred<"::llvm::cast<StringAttr>($_self).getValue() == \"BILINEAR\"  || " #
           "::llvm::cast<StringAttr>($_self).getValue() == \"NEAREST_NEIGHBOR\"">,
     "Supported resize/upsampling strategies">;
 
+// Supported NaN propagation strategies.
+def Tosa_NanPropagationAttr : StringBasedAttr<
+    CPred<"::llvm::cast<StringAttr>($_self).getValue() == \"PROPAGATE\"  || " #
+          "::llvm::cast<StringAttr>($_self).getValue() == \"IGNORE\"">,
+    "Supported NaN propagation strategies">;
+
 def Tosa_TensorTypeAttr : TypeAttrBase<"TensorType", "Tensor type attribute">;
 
 // Tensor to buffer types.
diff --git a/mlir/include/mlir/IR/CommonTypeConstraints.td b/mlir/include/mlir/IR/CommonTypeConstraints.td
index e592910303568..82e335e30b6fa 100644
--- a/mlir/include/mlir/IR/CommonTypeConstraints.td
+++ b/mlir/include/mlir/IR/CommonTypeConstraints.td
@@ -908,21 +908,31 @@ def BoolLike : TypeOrContainer<I1, "bool-like">;
 
 def BoolLikeOfAnyRank : TypeOrContainerOfAnyRank<I1, "bool-like">;
 
+// Type constraint for signless-integer-like types: signless integers, 
+// vectors of signless integers or tensors of signless integers.
+def SignlessIntegerLike : TypeOrValueSemanticsContainer<
+    AnySignlessInteger, "signless-integer">;
+
 // Type constraint for signless-integer-like types: signless integers, indices,
 // vectors of signless integers or indices, tensors of signless integers.
-def SignlessIntegerLike : TypeOrValueSemanticsContainer<
+def SignlessIntegerOrIndexLike : TypeOrValueSemanticsContainer<
     AnySignlessIntegerOrIndex, "signless-integer-like">;
 
-def SignlessIntegerLikeOfAnyRank : TypeOrContainerOfAnyRank<
+def SignlessIntegerOrIndexLikeOfAnyRank : TypeOrContainerOfAnyRank<
     AnySignlessIntegerOrIndex,
     "signless-integer-like">;
 
 // Type constraint for float-like types: floats, vectors or tensors thereof.
 def FloatLike : TypeOrContainer<AnyFloat, "floating-point-like">;
 
-// Type constraint for signless-integer-like or float-like types.
+// Type constraint for signless-integer-or-index-like or float-like types.
 def SignlessIntegerOrFloatLike : TypeConstraint<Or<[
     SignlessIntegerLike.predicate, FloatLike.predicate]>,
     "signless-integer-like or floating-point-like">;
 
+// Type constraint for signless-integer-or-index-like or float-like types.
+def SignlessIntegerOrIndexOrFloatLike : TypeConstraint<Or<[
+    SignlessIntegerOrIndexLike.predicate, FloatLike.predicate]>,
+    "signless-integer-or-index-like or floating-point-like">;
+
 #endif // COMMON_TYPE_CONSTRAINTS_TD
diff --git a/mlir/lib/Conversion/SCFToGPU/SCFToGPU.cpp b/mlir/lib/Conversion/SCFToGPU/SCFToGPU.cpp
index dece254c325fc..1ac95ebcdc87f 100644
--- a/mlir/lib/Conversion/SCFToGPU/SCFToGPU.cpp
+++ b/mlir/lib/Conversion/SCFToGPU/SCFToGPU.cpp
@@ -408,8 +408,8 @@ static LogicalResult processParallelLoop(
   ArrayAttr mapping =
       parallelOp->getAttrOfType<ArrayAttr>(gpu::getMappingAttrName());
 
-  // TODO: Support reductions.
-  if (!mapping || parallelOp.getNumResults() != 0)
+  // TODO: Support multiple reductions.
+  if (!mapping || parallelOp.getNumResults() > 1)
     return failure();
 
   Location loc = parallelOp.getLoc();
@@ -556,6 +556,11 @@ static LogicalResult processParallelLoop(
 
   Block *body = parallelOp.getBody();
   worklist.reserve(worklist.size() + body->getOperations().size());
+  // Include scf.reduce terminator if exists and has an operand.
+  if (auto terminator = body->getTerminator();
+      isa<scf::ReduceOp>(terminator) && terminator->getOperands().size() == 1) {
+    worklist.push_back(terminator);
+  }
   for (Operation &op : llvm::reverse(body->without_terminator()))
     worklist.push_back(&op);
   return success();
@@ -648,6 +653,33 @@ ParallelToGpuLaunchLowering::matchAndRewrite(ParallelOp parallelOp,
       rewriter.setInsertionPointAfter(parent);
       leftNestingScope = true;
       seenSideeffects = false;
+    } else if (auto reduceOp = dyn_cast<scf::ReduceOp>(op)) {
+      // Convert scf.reduction op
+      auto parentLoop = op->getParentOfType<ParallelOp>();
+      if (!parentLoop || op->getOperands().size() != 1)
+        return failure();
+      auto operand = op->getOperands().front();
+      auto newValue = cloningMap.lookupOrNull(operand);
+      if (!newValue || !operand.getType().isSignlessIntOrFloat())
+        return failure();
+      // Ensure reduction region is isolated from above.
+      llvm::SetVector<Value> externalValues;
+      getUsedValuesDefinedAbove(reduceOp.getRegion(0), externalValues);
+      if (externalValues.size())
+        return failure();
+      // Replace by gpu.all_reduce.
+      auto gpuRedOp = rewriter.create<gpu::AllReduceOp>(loc, newValue);
+      cloningMap.map(parentLoop->getResult(0), gpuRedOp.getResult());
+      // Copy region.
+      rewriter.inlineRegionBefore(reduceOp.getRegion(0), gpuRedOp.getRegion(),
+                                  gpuRedOp.getRegion().begin());
+      // Replace src.reduce.return with gpu.yield.
+      auto scfReturn = gpuRedOp.getRegion().front().getTerminator();
+      auto ip = rewriter.saveInsertionPoint();
+      rewriter.setInsertionPointToEnd(&gpuRedOp.getRegion().front());
+      rewriter.replaceOpWithNewOp<gpu::YieldOp>(
+          scfReturn, scfReturn->getOperands().front());
+      rewriter.restoreInsertionPoint(ip);
     } else {
       // Otherwise we copy it over.
       Operation *clone = rewriter.clone(*op, cloningMap);
diff --git a/mlir/lib/Dialect/Arith/IR/ArithOps.cpp b/mlir/lib/Dialect/Arith/IR/ArithOps.cpp
index e016a6e16e59f..7ca104691e6df 100644
--- a/mlir/lib/Dialect/Arith/IR/ArithOps.cpp
+++ b/mlir/lib/Dialect/Arith/IR/ArithOps.cpp
@@ -1740,10 +1740,8 @@ bool arith::BitcastOp::areCastCompatible(TypeRange inputs, TypeRange outputs) {
   if (!areValidCastInputsAndOutputs(inputs, outputs))
     return false;
 
-  auto srcType =
-      getTypeIfLikeOrMemRef<IntegerType, IndexType, FloatType>(inputs.front());
-  auto dstType =
-      getTypeIfLikeOrMemRef<IntegerType, IndexType, FloatType>(outputs.front());
+  auto srcType = getTypeIfLikeOrMemRef<IntegerType, FloatType>(inputs.front());
+  auto dstType = getTypeIfLikeOrMemRef<IntegerType, FloatType>(outputs.front());
   if (!srcType || !dstType)
     return false;
 
diff --git a/mlir/lib/Dialect/LLVMIR/IR/NVVMDialect.cpp b/mlir/lib/Dialect/LLVMIR/IR/NVVMDialect.cpp
index ccb5ad05f0bf7..dc7e724379ed0 100644
--- a/mlir/lib/Dialect/LLVMIR/IR/NVVMDialect.cpp
+++ b/mlir/lib/Dialect/LLVMIR/IR/NVVMDialect.cpp
@@ -1110,6 +1110,44 @@ LogicalResult NVVM::BarrierOp::verify() {
   return success();
 }
 
+#define CP_ASYNC_ID_IMPL(mod, size, suffix)                                    \
+  llvm::Intrinsic::nvvm_cp_async_##mod##_shared_global_##size##suffix
+
+#define GET_CP_ASYNC_ID(mod, size, has_cpsize)                                 \
+  has_cpsize ? CP_ASYNC_ID_IMPL(mod, size, _s) : CP_ASYNC_ID_IMPL(mod, size, )
+
+llvm::Intrinsic::ID
+CpAsyncOp::getIntrinsicIDAndArgs(Operation &op, LLVM::ModuleTranslation &mt,
+                                 llvm::SmallVector<llvm::Value *> &args) {
+  llvm::Intrinsic::ID id;
+
+  auto cpAsyncOp = cast<NVVM::CpAsyncOp>(op);
+  bool hasCpSize = cpAsyncOp.getCpSize() ? true : false;
+  switch (cpAsyncOp.getSize()) {
+  case 4:
+    id = GET_CP_ASYNC_ID(ca, 4, hasCpSize);
+    break;
+  case 8:
+    id = GET_CP_ASYNC_ID(ca, 8, hasCpSize);
+    break;
+  case 16:
+    id = (cpAsyncOp.getModifier() == NVVM::LoadCacheModifierKind::CG)
+             ? GET_CP_ASYNC_ID(cg, 16, hasCpSize)
+             : GET_CP_ASYNC_ID(ca, 16, hasCpSize);
+    break;
+  default:
+    llvm_unreachable("Invalid copy size in CpAsyncOp.");
+  }
+
+  // Fill the Intrinsic Args
+  args.push_back(mt.lookupValue(cpAsyncOp.getDst()));
+  args.push_back(mt.lookupValue(cpAsyncOp.getSrc()));
+  if (hasCpSize)
+    args.push_back(mt.lookupValue(cpAsyncOp.getCpSize()));
+
+  return id;
+}
+
 llvm::Intrinsic::ID CpAsyncBulkTensorPrefetchOp::getIntrinsicID(int tensorDims,
                                                                 bool isIm2Col) {
   switch (tensorDims) {
diff --git a/mlir/lib/Dialect/Math/Transforms/ExpandPatterns.cpp b/mlir/lib/Dialect/Math/Transforms/ExpandPatterns.cpp
index 8bcbdb4c9a664..3dadf9474cf4f 100644
--- a/mlir/lib/Dialect/Math/Transforms/ExpandPatterns.cpp
+++ b/mlir/lib/Dialect/Math/Transforms/ExpandPatterns.cpp
@@ -215,31 +215,6 @@ static LogicalResult convertFmaFOp(math::FmaOp op, PatternRewriter &rewriter) {
   return success();
 }
 
-// Converts a floorf() function to the following:
-// floorf(float x) ->
-//     y = (float)(int) x
-//     if (x < 0) then incr = -1 else incr = 0
-//     y = y + incr    <= replace this op with the floorf op.
-static LogicalResult convertFloorOp(math::FloorOp op,
-                                    PatternRewriter &rewriter) {
-  ImplicitLocOpBuilder b(op->getLoc(), rewriter);
-  Value operand = op.getOperand();
-  Type opType = operand.getType();
-  Value fpFixedConvert = createTruncatedFPValue(operand, b);
-
-  // Creating constants for later use.
-  Value zero = createFloatConst(op->getLoc(), opType, 0.00, rewriter);
-  Value negOne = createFloatConst(op->getLoc(), opType, -1.00, rewriter);
-
-  Value negCheck =
-      b.create<arith::CmpFOp>(arith::CmpFPredicate::OLT, operand, zero);
-  Value incrValue =
-      b.create<arith::SelectOp>(op->getLoc(), negCheck, negOne, zero);
-  Value ret = b.create<arith::AddFOp>(opType, fpFixedConvert, incrValue);
-  rewriter.replaceOp(op, ret);
-  return success();
-}
-
 // Converts a ceilf() function to the following:
 // ceilf(float x) ->
 //      y = (float)(int) x
@@ -696,10 +671,6 @@ void mlir::populateExpandRoundFPattern(RewritePatternSet &patterns) {
   patterns.add(convertRoundOp);
 }
 
-void mlir::populateExpandFloorFPattern(RewritePatternSet &patterns) {
-  patterns.add(convertFloorOp);
-}
-
 void mlir::populateExpandRoundEvenPattern(RewritePatternSet &patterns) {
   patterns.add(convertRoundEvenOp);
 }
diff --git a/mlir/lib/Dialect/Tosa/IR/TosaCanonicalizations.cpp b/mlir/lib/Dialect/Tosa/IR/TosaCanonicalizations.cpp
index c21dfdc0c35a2..cb87c9279b575 100644
--- a/mlir/lib/Dialect/Tosa/IR/TosaCanonicalizations.cpp
+++ b/mlir/lib/Dialect/Tosa/IR/TosaCanonicalizations.cpp
@@ -658,33 +658,84 @@ struct ClampIsNoOp : public OpRewritePattern<tosa::ClampOp> {
   }
 };
 
+// Attempts the following transformation:
+//
+// For integers a, b, a', and b' such that [a, b] ∩ [a', b'] ≠ ∅ and input
+// tensor X the following identity holds:
+//
+// CLAMP(CLAMP(X, a, b), a', b') = CLAMP(X, max(a, a'),  min(b, b'))
+//
+// subject to the following valid NaN propagation semantics:
+// --------------------------------------------
+// | OUTER CLAMP | INNER CLAMP  | RESULT MODE |
+// |-------------|--------------|-------------|
+// | PROPAGATE   | PROPAGATE    | PROPAGATE   |
+// | PROPAGATE   | IGNORE       | IGNORE      |
+// | IGNORE      | PROPAGATE    | INVALID     |
+// | IGNORE      | IGNORE       | IGNORE      |
+// |------------------------------------------|
+
 struct ClampClampOptimization : public OpRewritePattern<tosa::ClampOp> {
   using OpRewritePattern<tosa::ClampOp>::OpRewritePattern;
 
+  // Helper structure to describe the range of a clamp operation.
+  template <typename T>
+  struct ClampRange {
+    ClampRange(const T &start, const T &end) : start(start), end(end) {}
+    T start;
+    T end;
+
+    // Helper function to determine if two Clamp ranges intersect.
+    bool intersects(const ClampRange<T> &otherRange) {
+      return start < otherRange.end && otherRange.start < end;
+    }
+  };
+
   LogicalResult matchAndRewrite(tosa::ClampOp op,
                                 PatternRewriter &rewriter) const override {
-    Value input = op.getInput();
-
-    Operation *definingOp = input.getDefiningOp();
-    if (!definingOp)
+    // Check the input to the CLAMP op is itself a CLAMP.
+    auto clampOp =
+        dyn_cast_if_present<tosa::ClampOp>(op.getInput().getDefiningOp());
+    if (!clampOp)
       return failure();
 
-    if (tosa::ClampOp clampOp = dyn_cast<tosa::ClampOp>(definingOp)) {
-      auto minFp = std::max(op.getMinFp(), clampOp.getMinFp()).convertToFloat();
-      auto maxFp = std::min(op.getMaxFp(), clampOp.getMaxFp()).convertToFloat();
+    // Check we have a valid NaN propagation combination.
+    const auto opNanMode = op.getNanMode();
+    const auto clampNanMode = clampOp.getNanMode();
+    if (opNanMode == "IGNORE" && clampNanMode == "PROPAGATE")
+      return failure();
 
-      auto minInt = std::max(op.getMinInt(), clampOp.getMinInt());
-      auto maxInt = std::min(op.getMaxInt(), clampOp.getMaxInt());
+    // Check we have intersecting ranges.
+    const auto opMinInt = op.getMinInt();
+    const auto opMaxInt = op.getMaxInt();
+    const auto clampOpMinInt = clampOp.getMinInt();
+    const auto clampOpMaxInt = clampOp.getMaxInt();
+    ClampRange<std::int64_t> opRangeIntRange(opMinInt, opMaxInt);
+    ClampRange<std::int64_t> clampRangeIntRange(clampOpMinInt, clampOpMaxInt);
+    if (!opRangeIntRange.intersects(clampRangeIntRange))
+      return failure();
 
-      rewriter.replaceOpWithNewOp<ClampOp>(
-          op, {op->getLoc(), clampOp->getLoc()}, op.getType(),
-          clampOp.getInput(), rewriter.getI64IntegerAttr(minInt),
-          rewriter.getI64IntegerAttr(maxInt), rewriter.getF32FloatAttr(minFp),
-          rewriter.getF32FloatAttr(maxFp));
-      return success();
-    }
+    const auto opMinFloat = op.getMinFp();
+    const auto opMaxFloat = op.getMaxFp();
+    const auto clampOpMinFloat = clampOp.getMinFp();
+    const auto clampOpMaxFloat = clampOp.getMaxFp();
+    ClampRange<APFloat> opRangeFloatRange(opMinFloat, opMaxFloat);
+    ClampRange<APFloat> clampRangeFloatRange(clampOpMinFloat, clampOpMaxFloat);
+    if (!opRangeFloatRange.intersects(clampRangeFloatRange))
+      return failure();
 
-    return failure();
+    // Run the transformation.
+    const auto minFp = std::max(opMinFloat, clampOpMinFloat).convertToFloat();
+    const auto maxFp = std::min(opMaxFloat, clampOpMaxFloat).convertToFloat();
+    const auto minInt = std::max(opMinInt, clampOpMinInt);
+    const auto maxInt = std::min(opMaxInt, clampOpMaxInt);
+    rewriter.replaceOpWithNewOp<tosa::ClampOp>(
+        op, {op->getLoc(), clampOp->getLoc()}, op.getType(), clampOp.getInput(),
+        rewriter.getI64IntegerAttr(minInt), rewriter.getI64IntegerAttr(maxInt),
+        rewriter.getF32FloatAttr(minFp), rewriter.getF32FloatAttr(maxFp),
+        rewriter.getStringAttr((opNanMode != clampNanMode) ? "IGNORE"
+                                                           : opNanMode));
+    return success();
   }
 };
 
diff --git a/mlir/lib/Dialect/Vector/IR/VectorOps.cpp b/mlir/lib/Dialect/Vector/IR/VectorOps.cpp
index d8fc881911bae..3fbfcb4979b49 100644
--- a/mlir/lib/Dialect/Vector/IR/VectorOps.cpp
+++ b/mlir/lib/Dialect/Vector/IR/VectorOps.cpp
@@ -5184,6 +5184,23 @@ std::optional<SmallVector<int64_t, 4>> GatherOp::getShapeForUnroll() {
   return llvm::to_vector<4>(getVectorType().getShape());
 }
 
+/// Cheeck if `indexVec` is constant 1D vec of consecutive values [0, 1, 2, ...]
+static LogicalResult isZeroBasedContiguousSeq(Value indexVec) {
+  auto vecType = dyn_cast<VectorType>(indexVec.getType());
+  if (!vecType || vecType.getRank() != 1 || vecType.isScalable())
+    return failure();
+
+  if (indexVec.getDefiningOp<StepOp>())
+    return success();
+
+  DenseIntElementsAttr elements;
+  if (!matchPattern(indexVec, m_Constant(&elements)))
+    return failure();
+
+  return success(
+      llvm::equal(elements, llvm::seq<int64_t>(0, vecType.getNumElements())));
+}
+
 namespace {
 class GatherFolder final : public OpRewritePattern<GatherOp> {
 public:
@@ -5202,11 +5219,28 @@ class GatherFolder final : public OpRewritePattern<GatherOp> {
     llvm_unreachable("Unexpected 1DMaskFormat on GatherFolder");
   }
 };
+
+/// Fold gathers with consecutive offsets [0, 1, 2, ...] into contiguous
+/// maskedload. Only 1D fixed vectors are supported for now.
+class FoldContiguousGather final : public OpRewritePattern<GatherOp> {
+public:
+  using OpRewritePattern::OpRewritePattern;
+  LogicalResult matchAndRewrite(GatherOp op,
+                                PatternRewriter &rewriter) const override {
+    if (failed(isZeroBasedContiguousSeq(op.getIndexVec())))
+      return failure();
+
+    rewriter.replaceOpWithNewOp<MaskedLoadOp>(op, op.getType(), op.getBase(),
+                                              op.getIndices(), op.getMask(),
+                                              op.getPassThru());
+    return success();
+  }
+};
 } // namespace
 
 void GatherOp::getCanonicalizationPatterns(RewritePatternSet &results,
                                            MLIRContext *context) {
-  results.add<GatherFolder>(context);
+  results.add<GatherFolder, FoldContiguousGather>(context);
 }
 
 //===----------------------------------------------------------------------===//
@@ -5248,11 +5282,27 @@ class ScatterFolder final : public OpRewritePattern<ScatterOp> {
     llvm_unreachable("Unexpected 1DMaskFormat on ScatterFolder");
   }
 };
+
+/// Fold scatters with consecutive offsets [0, 1, 2, ...] into contiguous
+/// maskedstore. Only 1D fixed vectors are supported for now.
+class FoldContiguousScatter final : public OpRewritePattern<ScatterOp> {
+public:
+  using OpRewritePattern::OpRewritePattern;
+  LogicalResult matchAndRewrite(ScatterOp op,
+                                PatternRewriter &rewriter) const override {
+    if (failed(isZeroBasedContiguousSeq(op.getIndexVec())))
+      return failure();
+
+    rewriter.replaceOpWithNewOp<MaskedStoreOp>(
+        op, op.getBase(), op.getIndices(), op.getMask(), op.getValueToStore());
+    return success();
+  }
+};
 } // namespace
 
 void ScatterOp::getCanonicalizationPatterns(RewritePatternSet &results,
                                             MLIRContext *context) {
-  results.add<ScatterFolder>(context);
+  results.add<ScatterFolder, FoldContiguousScatter>(context);
 }
 
 //===----------------------------------------------------------------------===//
diff --git a/mlir/lib/ExecutionEngine/VulkanRuntimeWrappers.cpp b/mlir/lib/ExecutionEngine/VulkanRuntimeWrappers.cpp
index c414fe53b2f3c..ddea230addd40 100644
--- a/mlir/lib/ExecutionEngine/VulkanRuntimeWrappers.cpp
+++ b/mlir/lib/ExecutionEngine/VulkanRuntimeWrappers.cpp
@@ -117,7 +117,7 @@ extern "C" {
 
 //===----------------------------------------------------------------------===//
 //
-// Wrappers intended for mlir-cpu-runner. Uses of GPU dialect operations get
+// Wrappers intended for mlir-runner. Uses of GPU dialect operations get
 // lowered to calls to these functions by GPUToLLVMConversionPass.
 //
 //===----------------------------------------------------------------------===//
diff --git a/mlir/test/CMakeLists.txt b/mlir/test/CMakeLists.txt
index 69c2e59786892..a4aa6e1677bef 100644
--- a/mlir/test/CMakeLists.txt
+++ b/mlir/test/CMakeLists.txt
@@ -22,8 +22,8 @@ if (MLIR_INCLUDE_INTEGRATION_TESTS)
       "If set, arch-specific Arm integration tests are run with an emulator.")
   set(ARM_EMULATOR_OPTIONS "" CACHE STRING
       "If arch-specific Arm integration tests run emulated, pass these as parameters to the emulator.")
-  set(ARM_EMULATOR_MLIR_CPU_RUNNER_EXECUTABLE "" CACHE STRING
-      "If arch-specific Arm integration tests run emulated, use this Arm native mlir-cpu-runner.")
+  set(ARM_EMULATOR_MLIR_RUNNER_EXECUTABLE "" CACHE STRING
+      "If arch-specific Arm integration tests run emulated, use this Arm native mlir-runner.")
   set(ARM_EMULATOR_LLI_EXECUTABLE "" CACHE STRING
       "If arch-specific Arm integration tests run emulated, use this Arm native lli.")
   set(ARM_EMULATOR_UTILS_LIB_DIR "" CACHE STRING
@@ -135,7 +135,7 @@ set(MLIR_TEST_DEPENDS ${MLIR_TEST_DEPENDS}
 # useless binaries.
 if(LLVM_ENABLE_PIC AND TARGET ${LLVM_NATIVE_ARCH})
   list(APPEND MLIR_TEST_DEPENDS
-    mlir-cpu-runner
+    mlir-runner
     llc
     mlir_async_runtime
     mlir-capi-execution-engine-test
diff --git a/mlir/test/Conversion/NVVMToLLVM/nvvm-to-llvm.mlir b/mlir/test/Conversion/NVVMToLLVM/nvvm-to-llvm.mlir
index 84ea55ceb5acc..c7a6eca158276 100644
--- a/mlir/test/Conversion/NVVMToLLVM/nvvm-to-llvm.mlir
+++ b/mlir/test/Conversion/NVVMToLLVM/nvvm-to-llvm.mlir
@@ -74,13 +74,9 @@ func.func @async_cp(%dst: !llvm.ptr<3>, %src: !llvm.ptr<1>) {
 
 // CHECK-LABEL: @async_cp_zfill
 func.func @async_cp_zfill(%dst: !llvm.ptr<3>, %src: !llvm.ptr<1>, %cpSize: i32) {
-  // CHECK: llvm.inline_asm has_side_effects asm_dialect = att 
-  // CHECK-SAME: "cp.async.cg.shared.global [$0], [$1], $2, $3;\0A", 
-  // CHECK-SAME: "r,l,n,r" %{{.*}}, %{{.*}}, %{{.*}} : (!llvm.ptr<3>, !llvm.ptr<1>, i32, i32) -> ()
+  // CHECK: nvvm.cp.async.shared.global %{{.*}}, %{{.*}}, 16, cache =  cg, %{{.*}} : !llvm.ptr<3>, !llvm.ptr<1>, i32
   nvvm.cp.async.shared.global %dst, %src, 16, cache =  cg, %cpSize : !llvm.ptr<3>, !llvm.ptr<1>, i32
-  // CHECK: llvm.inline_asm has_side_effects asm_dialect = att 
-  // CHECK-SAME: "cp.async.ca.shared.global [$0], [$1], $2, $3;\0A", 
-  // CHECK-SAME: "r,l,n,r" %{{.*}}, %{{.*}}, %{{.*}} : (!llvm.ptr<3>, !llvm.ptr<1>, i32, i32) -> ()
+  // CHECK: nvvm.cp.async.shared.global %{{.*}}, %{{.*}}, 4, cache =  ca, %{{.*}} : !llvm.ptr<3>, !llvm.ptr<1>, i32
   nvvm.cp.async.shared.global %dst, %src, 4, cache =  ca, %cpSize : !llvm.ptr<3>, !llvm.ptr<1>, i32
   return
 }
diff --git a/mlir/test/Conversion/SCFToGPU/parallel_loop.mlir b/mlir/test/Conversion/SCFToGPU/parallel_loop.mlir
index 59441e5ed6629..1dbce05be85b4 100644
--- a/mlir/test/Conversion/SCFToGPU/parallel_loop.mlir
+++ b/mlir/test/Conversion/SCFToGPU/parallel_loop.mlir
@@ -428,3 +428,216 @@ func.func @step_invariant() {
 // CHECK: %[[rhs:.*]] = memref.load %[[alloc_1]][%[[dim0]], %[[dim1]]] : memref<1x1xf64>
 // CHECK: %[[sum:.*]] = arith.addf %[[lhs]], %[[rhs]] : f64
 // CHECK: memref.store %[[sum]], %[[alloc_0]][%[[dim0]], %[[dim1]]] : memref<1x1xf64>
+
+// -----
+
+// 1-d parallel reduction mapped to block.x and thread.x.
+
+// CHECK-LABEL: @parallel_reduction_1d
+func.func @parallel_reduction_1d() {
+  %alloc = memref.alloc() : memref<f32>
+  %alloc_0 = memref.alloc() : memref<64xf32>
+  %c1 = arith.constant 1 : index
+  %c64 = arith.constant 64 : index
+  %c0 = arith.constant 0 : index
+  %cst = arith.constant 0.000000e+00 : f32
+  scf.parallel (%arg1) = (%c0) to (%c1) step (%c1) {
+    %0 = scf.parallel (%arg2) = (%c0) to (%c64) step (%c1) init (%cst) -> f32 {
+      %1 = memref.load %alloc_0[%arg2] : memref<64xf32>
+      scf.reduce(%1 : f32) {
+      ^bb0(%arg3: f32, %arg4: f32):
+        %2 = arith.addf %arg3, %arg4 : f32
+        scf.reduce.return %2 : f32
+      }
+    } {mapping = [#gpu.loop_dim_map<processor = thread_x, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+    memref.store %0, %alloc[] : memref<f32>
+    scf.reduce 
+  } {mapping = [#gpu.loop_dim_map<processor = block_x, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+  memref.dealloc %alloc : memref<f32>
+  memref.dealloc %alloc_0 : memref<64xf32>
+  return
+}
+
+// CHECK: %[[alloc_0:.*]] = memref.alloc() : memref<f32>
+// CHECK: %[[alloc_1:.*]] = memref.alloc() : memref<64xf32>
+// CHECK: %[[map_0:.*]] = affine.apply #map({{.*}})[{{.*}}, {{.*}}]
+// CHECK: %[[map_1:.*]] = affine.apply #map({{.*}})[{{.*}}, {{.*}}]
+// CHECK: gpu.launch
+// CHECK-SAME: blocks(%[[arg_0:.*]], %{{[^)]*}}, %{{[^)]*}}) in (%{{[^)]*}} = %[[map_0]], %{{[^)]*}} = %{{[^)]*}}, %{{[^)]*}} = %{{[^)]*}})
+// CHECK-SAME: threads(%[[arg_3:.*]], %{{[^)]*}}, %{{[^)]*}}) in (%{{[^)]*}} = %[[map_1]], %{{[^)]*}} = %{{[^)]*}}, %{{[^)]*}} = %{{[^)]*}})
+// CHECK-NEXT: %[[dim0:.*]] = affine.apply #map1(%[[arg_0]])[{{.*}}, {{.*}}]
+// CHECK-NEXT: %[[dim1:.*]] = affine.apply #map1(%[[arg_3]])[{{.*}}, {{.*}}]
+// CHECK-NEXT: %[[src:.*]] = memref.load %[[alloc_1]][%[[dim1]]] : memref<64xf32>
+// CHECK-NEXT: %[[res:.*]] = gpu.all_reduce %[[src]] {
+// CHECK-NEXT: ^bb0(%[[arg12:.*]]: f32, %[[arg13:.*]]: f32):
+// CHECK-NEXT: %[[sum:.*]] = arith.addf %[[arg12]], %[[arg13]] : f32
+// CHECK-NEXT: gpu.yield %[[sum]] : f32
+// CHECK-NEXT: } : (f32) -> f32
+// CHECK-NEXT: memref.store %[[res]], %[[alloc_0]][] : memref<f32>
+
+// -----
+
+// 2-d parallel reduction mapped to block.x and thread.x and thread.y.
+
+// CHECK-LABEL: @parallel_reduction_2d
+func.func @parallel_reduction_2d() {
+  %alloc = memref.alloc() : memref<f32>
+  %alloc_0 = memref.alloc() : memref<8x8xf32>
+  %c1 = arith.constant 1 : index
+  %c8 = arith.constant 8 : index
+  %c0 = arith.constant 0 : index
+  %cst = arith.constant 0.000000e+00 : f32
+  scf.parallel (%arg1) = (%c0) to (%c1) step (%c1) {
+    %0 = scf.parallel (%arg2, %arg3) = (%c0, %c0) to (%c8, %c8) step (%c1, %c1) init (%cst) -> f32 {
+      %1 = memref.load %alloc_0[%arg2, %arg3] : memref<8x8xf32>
+      scf.reduce(%1 : f32) {
+      ^bb0(%arg4: f32, %arg5: f32):
+        %2 = arith.addf %arg4, %arg5 : f32
+        scf.reduce.return %2 : f32
+      }
+    } {mapping = [#gpu.loop_dim_map<processor = thread_x, map = (d0) -> (d0), bound = (d0) -> (d0)>, #gpu.loop_dim_map<processor = thread_y, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+    memref.store %0, %alloc[] : memref<f32>
+    scf.reduce 
+  } {mapping = [#gpu.loop_dim_map<processor = block_x, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+  memref.dealloc %alloc : memref<f32>
+  memref.dealloc %alloc_0 : memref<8x8xf32>
+  return
+}
+
+// CHECK: %[[alloc_0:.*]] = memref.alloc() : memref<f32>
+// CHECK: %[[alloc_1:.*]] = memref.alloc() : memref<8x8xf32>
+// CHECK: %[[map_0:.*]] = affine.apply #map({{.*}})[{{.*}}, {{.*}}]
+// CHECK: %[[map_1:.*]] = affine.apply #map({{.*}})[{{.*}}, {{.*}}]
+// CHECK: %[[map_2:.*]] = affine.apply #map({{.*}})[{{.*}}, {{.*}}]
+// CHECK: gpu.launch
+// CHECK-SAME: blocks(%[[arg_0:.*]], %{{[^)]*}}, %{{[^)]*}}) in (%{{[^)]*}} = %[[map_0]], %{{[^)]*}} = %{{[^)]*}}, %{{[^)]*}} = %{{[^)]*}})
+// CHECK-SAME: threads(%[[arg_3:.*]], %[[arg_4:.*]], %{{[^)]*}}) in (%{{[^)]*}} = %[[map_1]], %{{[^)]*}} = %[[map_2]], %{{[^)]*}} = %{{[^)]*}})
+// CHECK-NEXT: %[[dim0:.*]] = affine.apply #map1(%[[arg_0]])[{{.*}}, {{.*}}]
+// CHECK-NEXT: %[[dim1:.*]] = affine.apply #map1(%[[arg_3]])[{{.*}}, {{.*}}]
+// CHECK-NEXT: %[[dim2:.*]] = affine.apply #map1(%[[arg_4]])[{{.*}}, {{.*}}]
+// CHECK-NEXT: %[[src:.*]] = memref.load %[[alloc_1]][%[[dim1]], %[[dim2]]] : memref<8x8xf32>
+// CHECK-NEXT: %[[res:.*]] = gpu.all_reduce %[[src]] {
+// CHECK-NEXT: ^bb0(%[[arg12:.*]]: f32, %[[arg13:.*]]: f32):
+// CHECK-NEXT: %[[sum:.*]] = arith.addf %[[arg12]], %[[arg13]] : f32
+// CHECK-NEXT: gpu.yield %[[sum]] : f32
+// CHECK-NEXT: } : (f32) -> f32
+// CHECK-NEXT: memref.store %[[res]], %[[alloc_0]][] : memref<f32>
+
+// -----
+
+// tiled 1-d parallel reduction mapped to block.x and thread.x.
+
+// CHECK-LABEL: @parallel_reduction_1d_tiled
+func.func @parallel_reduction_1d_tiled() {
+  %c128 = arith.constant 128 : index
+  %c1 = arith.constant 1 : index
+  %c64 = arith.constant 64 : index
+  %c0 = arith.constant 0 : index
+  %cst = arith.constant 0.000000e+00 : f32
+  %alloc_0 = memref.alloc() : memref<8192xf32>
+  %alloc_1 = memref.alloc() : memref<64xf32>
+  scf.parallel (%arg1) = (%c0) to (%c64) step (%c1) {
+    %subview = memref.subview %alloc_1[%arg1] [1] [1] : memref<64xf32> to memref<f32, strided<[], offset: ?>>
+    %0 = affine.apply affine_map<(d0) -> (d0 * 128)>(%arg1)
+    %subview_1 = memref.subview %alloc_0[%0] [128] [1] : memref<8192xf32> to memref<128xf32, strided<[1], offset: ?>>
+    %1 = scf.parallel (%arg2) = (%c0) to (%c128) step (%c1) init (%cst) -> f32 {
+      %2 = memref.load %subview_1[%arg2] : memref<128xf32, strided<[1], offset: ?>>
+      scf.reduce(%2 : f32) {
+      ^bb0(%arg3: f32, %arg4: f32):
+        %3 = arith.addf %arg3, %arg4 : f32
+        scf.reduce.return %3 : f32
+      }
+    } {mapping = [#gpu.loop_dim_map<processor = thread_x, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+    memref.store %1, %subview[] : memref<f32, strided<[], offset: ?>>
+    scf.reduce 
+  } {mapping = [#gpu.loop_dim_map<processor = block_x, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+  memref.dealloc %alloc_0 : memref<8192xf32>
+  memref.dealloc %alloc_1 : memref<64xf32>
+  return
+}
+
+// CHECK: %[[alloc_0:.*]] = memref.alloc() : memref<8192xf32>
+// CHECK: %[[alloc_1:.*]] = memref.alloc() : memref<64xf32>
+// CHECK: %[[map_0:.*]] = affine.apply #map({{.*}})[{{.*}}, {{.*}}]
+// CHECK: %[[map_1:.*]] = affine.apply #map({{.*}})[{{.*}}, {{.*}}]
+// CHECK: gpu.launch
+// CHECK-SAME: blocks(%[[arg_0:.*]], %{{[^)]*}}, %{{[^)]*}}) in (%{{[^)]*}} = %[[map_0]], %{{[^)]*}} = %{{[^)]*}}, %{{[^)]*}} = %{{[^)]*}})
+// CHECK-SAME: threads(%[[arg_3:.*]], %{{[^)]*}}, %{{[^)]*}}) in (%{{[^)]*}} = %[[map_1]], %{{[^)]*}} = %{{[^)]*}}, %{{[^)]*}} = %{{[^)]*}})
+// CHECK-NEXT: %[[dim0:.*]] = affine.apply #map1(%[[arg_0]])[{{.*}}, {{.*}}]
+// CHECK-NEXT: %[[dst:.*]] = memref.subview %[[alloc_1]][%[[dim0]]] [1] [1] : memref<64xf32>
+// CHECK-NEXT: %[[dim1:.*]] = affine.apply #map2(%[[dim0]])
+// CHECK-NEXT: %[[tile:.*]] = memref.subview %[[alloc_0]][%[[dim1]]] [128] [1] : memref<8192xf32>
+// CHECK-NEXT: %[[dim2:.*]] = affine.apply #map1(%[[arg_3]])[{{.*}}, {{.*}}]
+// CHECK-NEXT: %[[src:.*]] = memref.load %[[tile]][%[[dim2]]] : memref<128xf32, strided<[1], offset: ?>>
+// CHECK-NEXT: %[[res:.*]] = gpu.all_reduce %[[src]] {
+// CHECK-NEXT: ^bb0(%[[arg12:.*]]: f32, %[[arg13:.*]]: f32):
+// CHECK-NEXT: %[[sum:.*]] = arith.addf %[[arg12]], %[[arg13]] : f32
+// CHECK-NEXT: gpu.yield %[[sum]] : f32
+// CHECK-NEXT: } : (f32) -> f32
+// CHECK-NEXT: memref.store %[[res]], %[[dst]][] : memref<f32, strided<[], offset: ?>>
+
+// -----
+
+// 1-d parallel reduction, unsigned int. Cannot be mapped.
+
+// CHECK-LABEL: @parallel_reduction_1d_uint
+func.func @parallel_reduction_1d_uint(%cst : ui32) {
+  %alloc = memref.alloc() : memref<ui32>
+  %alloc_0 = memref.alloc() : memref<64xui32>
+  %c1 = arith.constant 1 : index
+  %c64 = arith.constant 64 : index
+  %c0 = arith.constant 0 : index
+  scf.parallel (%arg1) = (%c0) to (%c1) step (%c1) {
+    %0 = scf.parallel (%arg2) = (%c0) to (%c64) step (%c1) init (%cst) -> ui32 {
+      %1 = memref.load %alloc_0[%arg2] : memref<64xui32>
+      scf.reduce(%1 : ui32) {
+      ^bb0(%arg3: ui32, %arg4: ui32):
+        scf.reduce.return %arg3 : ui32
+      }
+    } {mapping = [#gpu.loop_dim_map<processor = thread_x, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+    memref.store %0, %alloc[] : memref<ui32>
+    scf.reduce 
+  } {mapping = [#gpu.loop_dim_map<processor = block_x, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+  memref.dealloc %alloc : memref<ui32>
+  memref.dealloc %alloc_0 : memref<64xui32>
+  return
+}
+
+// CHECK: scf.parallel
+// CHECK-NEXT: scf.parallel
+// CHECK: scf.reduce
+
+// -----
+
+// 1-d parallel reduction, not isolated from above. Cannot be mapped.
+
+// CHECK-LABEL: @parallel_reduction_1d_outside
+func.func @parallel_reduction_1d_outside() {
+  %alloc = memref.alloc() : memref<f32>
+  %alloc_0 = memref.alloc() : memref<64xf32>
+  %c1 = arith.constant 1 : index
+  %c64 = arith.constant 64 : index
+  %c0 = arith.constant 0 : index
+  %cst = arith.constant 0.000000e+00 : f32
+  %const = arith.constant 1.000000e+00 : f32
+  scf.parallel (%arg1) = (%c0) to (%c1) step (%c1) {
+    %0 = scf.parallel (%arg2) = (%c0) to (%c64) step (%c1) init (%cst) -> f32 {
+      %1 = memref.load %alloc_0[%arg2] : memref<64xf32>
+      scf.reduce(%1 : f32) {
+      ^bb0(%arg3: f32, %arg4: f32):
+        %2 = arith.addf %arg3, %arg4 : f32
+        %3 = arith.addf %2, %const : f32
+        scf.reduce.return %3 : f32
+      }
+    } {mapping = [#gpu.loop_dim_map<processor = thread_x, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+    memref.store %0, %alloc[] : memref<f32>
+    scf.reduce 
+  } {mapping = [#gpu.loop_dim_map<processor = block_x, map = (d0) -> (d0), bound = (d0) -> (d0)>]}
+  memref.dealloc %alloc : memref<f32>
+  memref.dealloc %alloc_0 : memref<64xf32>
+  return
+}
+
+// CHECK: scf.parallel
+// CHECK-NEXT: scf.parallel
+// CHECK: scf.reduce
diff --git a/mlir/test/Dialect/Arith/invalid.mlir b/mlir/test/Dialect/Arith/invalid.mlir
index 088da475e8eb4..7bd68372de471 100644
--- a/mlir/test/Dialect/Arith/invalid.mlir
+++ b/mlir/test/Dialect/Arith/invalid.mlir
@@ -853,3 +853,19 @@ func.func @select_tensor_encoding(
   %0 = arith.select %arg0, %arg1, %arg2 : tensor<8xi1, "bar">, tensor<8xi32, "foo">
   return %0 : tensor<8xi32, "foo">
 }
+
+// -----
+
+func.func @bitcast_index_0(%arg0 : i64) -> index {
+  // expected-error @+1 {{'arith.bitcast' op result #0 must be signless-integer-or-float-like or memref of signless-integer or float, but got 'index'}}
+  %0 = arith.bitcast %arg0 : i64 to index
+  return %0 : index
+}
+
+// -----
+
+func.func @bitcast_index_1(%arg0 : index) -> i64 {
+  // expected-error @+1 {{'arith.bitcast' op operand #0 must be signless-integer-or-float-like or memref of signless-integer or float, but got 'index'}}
+  %0 = arith.bitcast %arg0 : index to i64
+  return %0 : i64
+}
diff --git a/mlir/test/Dialect/LLVMIR/rocdl.mlir b/mlir/test/Dialect/LLVMIR/rocdl.mlir
index c80ebebaafe3a..712f8c2a1caf6 100644
--- a/mlir/test/Dialect/LLVMIR/rocdl.mlir
+++ b/mlir/test/Dialect/LLVMIR/rocdl.mlir
@@ -66,7 +66,8 @@ func.func @rocdl.xdlops(%arg0 : f32, %arg1 : f32,
                    %arg8 : vector<16xi32>, %arg9 : vector<4xi32>,
                    %arg10 : vector<2xi16>, %arg11 : vector<4xi16>,
                    %arg12 : vector<4xf64>, %arg13 : f64,
-                   %arg14 : i64, %arg15 : vector<2xf32>) {
+                   %arg14 : i64, %arg15 : vector<2xf32>,
+                   %arg16: vector<8xbf16>, %arg17 : vector<8xf16>) {
   // CHECK-LABEL: rocdl.xdlops
   // CHECK: rocdl.mfma.f32.32x32x1f32 {{.*}} : (f32, f32, vector<32xf32>, i32, i32, i32) -> vector<32xf32>
   %r0 = rocdl.mfma.f32.32x32x1f32 %arg0, %arg1, %arg2, %arg3, %arg3, %arg3 :
@@ -224,6 +225,312 @@ func.func @rocdl.xdlops(%arg0 : f32, %arg1 : f32,
                             (vector<2xf32>, vector<2xf32>, vector<16xf32>,
                             i32, i32, i32) -> vector<16xf32>
 
+  // CHECK: rocdl.mfma.f32.16x16x32.bf16 {{.*}} : (vector<8xbf16>, vector<8xbf16>, vector<4xf32>, i32, i32, i32) -> vector<4xf32>
+  %r31 = rocdl.mfma.f32.16x16x32.bf16 %arg16, %arg16, %arg5, %arg3, %arg3, %arg3 :
+                              (vector<8xbf16>, vector<8xbf16>, vector<4xf32>,
+                               i32, i32, i32) -> vector<4xf32>
+
+  // CHECK: rocdl.mfma.i32.16x16x64.i8 {{.*}} : (vector<4xi32>, vector<4xi32>, vector<4xi32>, i32, i32, i32) -> vector<4xi32>
+  %r32 = rocdl.mfma.i32.16x16x64.i8 %arg9, %arg9, %arg9, %arg3, %arg3, %arg3 :
+                              (vector<4xi32>, vector<4xi32>, vector<4xi32>,
+                               i32, i32, i32) -> vector<4xi32>
+
+  // CHECK: rocdl.mfma.f32.16x16x32.f16 {{.*}} : (vector<8xf16>, vector<8xf16>, vector<4xf32>, i32, i32, i32) -> vector<4xi32>
+  %r33 = rocdl.mfma.f32.16x16x32.f16 %arg17, %arg17, %arg5, %arg3, %arg3, %arg3 :
+                               (vector<8xf16>, vector<8xf16>, vector<4xf32>,
+                                i32, i32, i32) -> vector<4xi32>
+
+  // CHECK: rocdl.mfma.f32.32x32x16.bf16 {{.*}} : (vector<8xbf16>, vector<8xbf16>, vector<16xf32>, i32, i32, i32) -> vector<16xf32>
+  %r34 = rocdl.mfma.f32.32x32x16.bf16 %arg16, %arg16, %arg4, %arg3, %arg3, %arg3 :
+                               (vector<8xbf16>, vector<8xbf16>, vector<16xf32>,
+                                i32, i32, i32) -> vector<16xf32>
+
+  // CHECK: rocdl.mfma.i32.32x32x32.i8 {{.*}} : (vector<4xi32>, vector<4xi32>, vector<16xi32>, i32, i32, i32) -> vector<16xi32>
+  %r35 = rocdl.mfma.i32.32x32x32.i8 %arg9, %arg9, %arg8, %arg3, %arg3, %arg3 :
+                               (vector<4xi32>, vector<4xi32>, vector<16xi32>,
+                                i32, i32, i32) -> vector<16xi32>
+
+  // CHECK: rocdl.mfma.f32.32x32x16.f16 {{.*}} : (vector<8xf16>, vector<8xf16>, vector<16xf32>, i32, i32, i32) -> vector<16xf32>
+  %r36 = rocdl.mfma.f32.32x32x16.f16 %arg17, %arg17, %arg4, %arg3, %arg3, %arg3 :
+                               (vector<8xf16>, vector<8xf16>, vector<16xf32>,
+                                i32, i32, i32) -> vector<16xf32>
+
+  llvm.return
+}
+
+llvm.func @rocdl.mfma.scale.f32.32x32x64.f8f6f4(%arg0 : i32,
+                   %arg1 : vector<16 x f32>, %arg2 : vector<8xi32>,
+                   %arg3 : vector<6xi32>, %arg4 : vector<4xi32>) {
+  %cst0 = llvm.mlir.constant(0 : i32) : i32
+  %cst1 = llvm.mlir.constant(1 : i32) : i32
+  %cst2 = llvm.mlir.constant(2 : i32) : i32
+  %cst3 = llvm.mlir.constant(3 : i32) : i32
+  %cst4 = llvm.mlir.constant(4 : i32) : i32
+
+  // CHECK-LABEL: rocdl.mfma.scale.f32.32x32x64.f8f6f4
+  // fp8 * fp8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r00 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg2, %arg1, %cst0, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp8 * bf8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r01 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg2, %arg1, %cst0, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp8 * fp6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r02 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg3, %arg1, %cst0, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp8 * bf6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r03 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg3, %arg1, %cst0, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp8 * fp4
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r04 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg4, %arg1, %cst0, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * fp8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r10 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg2, %arg1, %cst1, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * bf8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r11 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg2, %arg1, %cst1, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * fp6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r12 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg3, %arg1, %cst1, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * bf6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r13 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg3, %arg1, %cst1, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * fp4
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<8xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r14 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg4, %arg1, %cst1, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * fp8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r20 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg2, %arg1, %cst2, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * bf8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r21 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg2, %arg1, %cst2, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * fp6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r22 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg3, %arg1, %cst2, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * bf6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r23 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg3, %arg1, %cst2, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * fp4
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r24 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg4, %arg1, %cst2, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * fp8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r30 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg2, %arg1, %cst3, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * bf8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r31 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg2, %arg1, %cst3, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * fp6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r32 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg3, %arg1, %cst3, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * bf6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r33 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg3, %arg1, %cst3, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * fp4
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<6xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r34 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg4, %arg1, %cst3, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * fp8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<4xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r40 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg2, %arg1, %cst4, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * bf8
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<4xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r41 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg2, %arg1, %cst4, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * fp6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<4xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r42 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg3, %arg1, %cst4, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * bf6
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<4xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r43 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg3, %arg1, %cst4, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * fp4
+  // CHECK: rocdl.mfma.scale.f32.32x32x64.f8f6f4 {{.*}} : (vector<4xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+  %r44 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg4, %arg1, %cst4, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  llvm.return
+}
+
+llvm.func @rocdl.mfma.scale.f32.16x16x128.f8f6f4(%arg0 : i32,
+                   %arg1 : vector<4 x f32>, %arg2 : vector<8xi32>,
+                   %arg3 : vector<6xi32>, %arg4 : vector<4xi32>) {
+  %cst0 = llvm.mlir.constant(0 : i32) : i32
+  %cst1 = llvm.mlir.constant(1 : i32) : i32
+  %cst2 = llvm.mlir.constant(2 : i32) : i32
+  %cst3 = llvm.mlir.constant(3 : i32) : i32
+  %cst4 = llvm.mlir.constant(4 : i32) : i32
+
+  // CHECK-LABEL: rocdl.mfma.scale.f32.16x16x128.f8f6f4
+  // fp8 * fp8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r00 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg2, %arg1, %cst0, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp8 * bf8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r01 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg2, %arg1, %cst0, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp8 * fp6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r02 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg3, %arg1, %cst0, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp8 * bf6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r03 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg3, %arg1, %cst0, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp8 * fp4
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r04 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg4, %arg1, %cst0, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * fp8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r10 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg2, %arg1, %cst1, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * bf8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r11 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg2, %arg1, %cst1, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * fp6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r12 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg3, %arg1, %cst1, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * bf6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r13 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg3, %arg1, %cst1, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * fp4
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<8xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r14 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg4, %arg1, %cst1, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * fp8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r20 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg2, %arg1, %cst2, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * bf8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r21 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg2, %arg1, %cst2, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * fp6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r22 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg3, %arg1, %cst2, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * bf6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r23 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg3, %arg1, %cst2, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * fp4
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r24 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg4, %arg1, %cst2, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * fp8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r30 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg2, %arg1, %cst3, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * bf8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r31 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg2, %arg1, %cst3, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * fp6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r32 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg3, %arg1, %cst3, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * bf6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r33 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg3, %arg1, %cst3, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * fp4
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<6xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r34 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg4, %arg1, %cst3, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * fp8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<4xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r40 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg2, %arg1, %cst4, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * bf8
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<4xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r41 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg2, %arg1, %cst4, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * fp6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<4xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r42 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg3, %arg1, %cst4, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * bf6
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<4xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r43 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg3, %arg1, %cst4, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * fp4
+  // CHECK: rocdl.mfma.scale.f32.16x16x128.f8f6f4 {{.*}} : (vector<4xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+  %r44 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg4, %arg1, %cst4, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
   llvm.return
 }
 
diff --git a/mlir/test/Dialect/Math/expand-math.mlir b/mlir/test/Dialect/Math/expand-math.mlir
index 89413b9570332..6055ed0504c84 100644
--- a/mlir/test/Dialect/Math/expand-math.mlir
+++ b/mlir/test/Dialect/Math/expand-math.mlir
@@ -133,24 +133,6 @@ func.func @fmaf_func(%a: f64, %b: f64, %c: f64) -> f64 {
 
 // -----
 
-// CHECK-LABEL:     func @floorf_func
-// CHECK-SAME:      ([[ARG0:%.+]]: f64) -> f64
-func.func @floorf_func(%a: f64) -> f64 {
-  // CHECK-DAG:   [[CST:%.+]] = arith.constant 0.000
-  // CHECK-DAG:   [[CST_0:%.+]] = arith.constant -1.000
-  // CHECK-NEXT:   [[CVTI:%.+]] = arith.fptosi [[ARG0]]
-  // CHECK-NEXT:   [[CVTF:%.+]] = arith.sitofp [[CVTI]]
-  // CHECK-NEXT:   [[COPYSIGN:%.+]] = math.copysign [[CVTF]], [[ARG0]]
-  // CHECK-NEXT:   [[COMP:%.+]] = arith.cmpf olt, [[ARG0]], [[CST]]
-  // CHECK-NEXT:   [[INCR:%.+]] = arith.select [[COMP]], [[CST_0]], [[CST]]
-  // CHECK-NEXT:   [[ADDF:%.+]] = arith.addf [[COPYSIGN]], [[INCR]]
-  // CHECK-NEXT:   return [[ADDF]]
-  %ret = math.floor %a : f64
-  return %ret : f64
-}
-
-// -----
-
 // CHECK-LABEL:     func @ceilf_func
 // CHECK-SAME:      ([[ARG0:%.+]]: f64) -> f64
 func.func @ceilf_func(%a: f64) -> f64 {
diff --git a/mlir/test/Dialect/Tensor/invalid.mlir b/mlir/test/Dialect/Tensor/invalid.mlir
index 1de3e281bc462..0c6d8f4e05c33 100644
--- a/mlir/test/Dialect/Tensor/invalid.mlir
+++ b/mlir/test/Dialect/Tensor/invalid.mlir
@@ -807,3 +807,19 @@ func.func @unpack_static_inner_tile_size_and_dynamic_output_shape(
   %0 = tensor.unpack %input inner_dims_pos = [0, 1] inner_tiles = [8, 4] into %output : tensor<?x?x?x4xf32> -> tensor<?x?xf32>
   return %0 : tensor<?x?xf32>
 }
+
+// -----
+
+func.func @bitcast_index_0(%arg0 : tensor<?xi64>) -> tensor<?xindex> {
+  // expected-error @+1 {{'tensor.bitcast' op result #0 must be tensor of signless integer or unsigned integer or signed integer or floating-point values, but got 'tensor<?xindex>'}}
+  %0 = tensor.bitcast %arg0 : tensor<?xi64> to tensor<?xindex>
+  return %0 : tensor<?xindex>
+}
+
+// -----
+
+func.func @bitcast_index_1(%arg0 : tensor<?xindex>) -> tensor<?xi64> {
+  // expected-error @+1 {{'tensor.bitcast' op operand #0 must be tensor of signless integer or unsigned integer or signed integer or floating-point values, but got 'tensor<?xindex>'}}
+  %0 = tensor.bitcast %arg0 : tensor<?xindex> to tensor<?xi64>
+  return %0 : tensor<?xi64>
+}
diff --git a/mlir/test/Dialect/Tosa/canonicalize.mlir b/mlir/test/Dialect/Tosa/canonicalize.mlir
index c8b179431e8b6..37f84a1b5424d 100644
--- a/mlir/test/Dialect/Tosa/canonicalize.mlir
+++ b/mlir/test/Dialect/Tosa/canonicalize.mlir
@@ -233,6 +233,58 @@ func.func @concat_fold_zero_size(%arg0: tensor<?x0xf32>, %arg1: tensor<?x1xf32>,
 
 // -----
 
+// CHECK: @disjoint_clamp_twice_is_not_single_clamp(%[[INPUT:.*]]: tensor<4xi8>)
+func.func @disjoint_clamp_twice_is_not_single_clamp(%arg0: tensor<4xi8>) -> tensor<4xi8> {
+  // CHECK: %[[CLAMP_1:.*]] = tosa.clamp %[[INPUT]] {max_fp = -5.000000e+00 : f32, max_int = -5 : i64, min_fp = -1.000000e+00 : f32, min_int = -10 : i64} :  (tensor<4xi8>) -> tensor<4xi8>
+  // CHECK-NEXT: tosa.clamp %[[CLAMP_1]] {max_fp = 5.000000e+00 : f32, max_int = 5 : i64, min_fp = 1.000000e+00 : f32, min_int = 1 : i64} :  (tensor<4xi8>) -> tensor<4xi8>
+  %0 = tosa.clamp %arg0 {max_fp = -5.0 : f32, max_int = -5 : i64, min_fp = -1.0 : f32, min_int = -10 : i64} :  (tensor<4xi8>) -> tensor<4xi8>
+  %1 = tosa.clamp %0 {max_fp = 5.0 : f32, max_int = 5 : i64, min_fp = 1.0 : f32, min_int = 1 : i64} :  (tensor<4xi8>) -> tensor<4xi8>
+  return %1 : tensor<4xi8>
+}
+
+// -----
+
+// CHECK-LABEL: @clamp_twice_with_nan_propagate_is_single_clamp
+func.func @clamp_twice_with_nan_propagate_is_single_clamp(%arg0: tensor<4xi8>) -> tensor<4xi8> {
+  // CHECK: tosa.clamp %arg0 {max_fp = 3.000000e+00 : f32, max_int = 2 : i64, min_fp = -3.000000e+00 : f32, min_int = -2 : i64}
+  %0 = tosa.clamp %arg0 {max_fp = 3.0 : f32, max_int = 4 : i64, min_fp = -5.0 : f32, min_int = -2 : i64, nan_mode = "PROPAGATE"} :  (tensor<4xi8>) -> tensor<4xi8>
+  %1 = tosa.clamp %0 {max_fp = 5.0 : f32, max_int = 2 : i64, min_fp = -3.0 : f32, min_int = -4 : i64, nan_mode = "PROPAGATE"} :  (tensor<4xi8>) -> tensor<4xi8>
+  return %1 : tensor<4xi8>
+}
+
+// -----
+
+// CHECK-LABEL: @clamp_twice_with_nan_ignore_is_single_clamp
+func.func @clamp_twice_with_nan_ignore_is_single_clamp(%arg0: tensor<4xi8>) -> tensor<4xi8> {
+  // CHECK: tosa.clamp %arg0 {max_fp = 3.000000e+00 : f32, max_int = 2 : i64, min_fp = -3.000000e+00 : f32, min_int = -2 : i64, nan_mode = "IGNORE"}
+  %0 = tosa.clamp %arg0 {max_fp = 3.0 : f32, max_int = 4 : i64, min_fp = -5.0 : f32, min_int = -2 : i64, nan_mode = "IGNORE"} :  (tensor<4xi8>) -> tensor<4xi8>
+  %1 = tosa.clamp %0 {max_fp = 5.0 : f32, max_int = 2 : i64, min_fp = -3.0 : f32, min_int = -4 : i64, nan_mode = "IGNORE"} :  (tensor<4xi8>) -> tensor<4xi8>
+  return %1 : tensor<4xi8>
+}
+
+// -----
+
+// CHECK-LABEL: @clamp_twice_with_nan_ignore_propagate_is_single_clamp
+func.func @clamp_twice_with_nan_ignore_propagate_is_single_clamp(%arg0: tensor<4xi8>) -> tensor<4xi8> {
+  // CHECK: tosa.clamp %arg0 {max_fp = 3.000000e+00 : f32, max_int = 2 : i64, min_fp = -3.000000e+00 : f32, min_int = -2 : i64, nan_mode = "IGNORE"}
+  %0 = tosa.clamp %arg0 {max_fp = 3.0 : f32, max_int = 4 : i64, min_fp = -5.0 : f32, min_int = -2 : i64, nan_mode = "IGNORE"} :  (tensor<4xi8>) -> tensor<4xi8>
+  %1 = tosa.clamp %0 {max_fp = 5.0 : f32, max_int = 2 : i64, min_fp = -3.0 : f32, min_int = -4 : i64, nan_mode = "PROPAGATE"} :  (tensor<4xi8>) -> tensor<4xi8>
+  return %1 : tensor<4xi8>
+}
+
+// -----
+
+// CHECK: @clamp_twice_with_nan_propagate_ignore_is_not_single_clamp(%[[INPUT:.*]]: tensor<4xi8>)
+func.func @clamp_twice_with_nan_propagate_ignore_is_not_single_clamp(%arg0: tensor<4xi8>) -> tensor<4xi8> {
+  // CHECK: %[[CLAMP_1:.*]] = tosa.clamp %[[INPUT]] {max_fp = 3.000000e+00 : f32, max_int = 4 : i64, min_fp = -5.000000e+00 : f32, min_int = -2 : i64} :  (tensor<4xi8>) -> tensor<4xi8>
+  // CHECK-NEXT: tosa.clamp %[[CLAMP_1]] {max_fp = 5.000000e+00 : f32, max_int = 2 : i64, min_fp = -3.000000e+00 : f32, min_int = -4 : i64, nan_mode = "IGNORE"} :  (tensor<4xi8>) -> tensor<4xi8>
+  %0 = tosa.clamp %arg0 {max_fp = 3.0 : f32, max_int = 4 : i64, min_fp = -5.0 : f32, min_int = -2 : i64, nan_mode = "PROPAGATE"} :  (tensor<4xi8>) -> tensor<4xi8>
+  %1 = tosa.clamp %0 {max_fp = 5.0 : f32, max_int = 2 : i64, min_fp = -3.0 : f32, min_int = -4 : i64, nan_mode = "IGNORE"} :  (tensor<4xi8>) -> tensor<4xi8>
+  return %1 : tensor<4xi8>
+}
+
+// -----
+
 // CHECK-LABEL: @concat_fold
 func.func @concat_fold(%arg0: tensor<?x1xf32>) -> tensor<?x1xf32> {
   // CHECK: return %arg0
diff --git a/mlir/test/Dialect/Tosa/ops.mlir b/mlir/test/Dialect/Tosa/ops.mlir
index 563c5fa457d35..19b93d7611854 100644
--- a/mlir/test/Dialect/Tosa/ops.mlir
+++ b/mlir/test/Dialect/Tosa/ops.mlir
@@ -180,6 +180,20 @@ func.func @test_clamp(%arg0: tensor<13x21x3xf32>) -> tensor<13x21x3xf32> {
   return %0 : tensor<13x21x3xf32>
 }
 
+// -----
+// CHECK-LABEL: clamp_propagate
+func.func @test_clamp_propagate(%arg0: tensor<13x21x3xf32>) -> tensor<13x21x3xf32> {
+  %0 = tosa.clamp %arg0 {min_fp = 0.0 : f32, max_fp = 1.0: f32, min_int = 0 : i64, max_int = 1 : i64, nan_mode = "PROPAGATE"} : (tensor<13x21x3xf32>) -> tensor<13x21x3xf32>
+  return %0 : tensor<13x21x3xf32>
+}
+
+// -----
+// CHECK-LABEL: clamp_ignore
+func.func @test_clamp_ignore(%arg0: tensor<13x21x3xf32>) -> tensor<13x21x3xf32> {
+  %0 = tosa.clamp %arg0 {min_fp = 0.0 : f32, max_fp = 1.0: f32, min_int = 0 : i64, max_int = 1 : i64, nan_mode = "IGNORE"} : (tensor<13x21x3xf32>) -> tensor<13x21x3xf32>
+  return %0 : tensor<13x21x3xf32>
+}
+
 // -----
 // CHECK-LABEL: clamp_f16
 func.func @test_clamp_f16(%arg0: tensor<13x21x3xf16>) -> tensor<13x21x3xf16> {
diff --git a/mlir/test/Dialect/Vector/canonicalize.mlir b/mlir/test/Dialect/Vector/canonicalize.mlir
index 89af0f7332f5c..0eebb6e8d612d 100644
--- a/mlir/test/Dialect/Vector/canonicalize.mlir
+++ b/mlir/test/Dialect/Vector/canonicalize.mlir
@@ -2838,3 +2838,144 @@ func.func @contiguous_extract_strided_slices_to_extract_failure_non_full_inner_s
   %1 = vector.extract_strided_slice %arg0 {offsets = [0, 0, 0, 0, 0, 0], sizes = [1, 1, 2, 1, 1, 1], strides = [1, 1, 1, 1, 1, 1]} : vector<8x1x2x1x1x4xi32> to vector<1x1x2x1x1x1xi32>
   return %1 : vector<1x1x2x1x1x1xi32>
 }
+
+// -----
+
+// CHECK-LABEL: @contiguous_gather
+//  CHECK-SAME:   (%[[BASE:.*]]: memref<?xf32>, %[[MASK:.*]]: vector<16xi1>, %[[PASSTHRU:.*]]: vector<16xf32>)
+//       CHECK:   %[[C0:.*]] = arith.constant 0 : index
+//       CHECK:   %[[R:.*]] = vector.maskedload %[[BASE]][%[[C0]]], %[[MASK]], %[[PASSTHRU]] : memref<?xf32>, vector<16xi1>, vector<16xf32> into vector<16xf32>
+//       CHECK:   return %[[R]]
+func.func @contiguous_gather(%base: memref<?xf32>,
+                             %mask: vector<16xi1>, %passthru: vector<16xf32>) -> vector<16xf32> {
+  %c0 = arith.constant 0 : index
+  %indices = arith.constant dense<[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]> : vector<16xi32>
+  %1 = vector.gather %base[%c0][%indices], %mask, %passthru :
+    memref<?xf32>, vector<16xi32>, vector<16xi1>, vector<16xf32> into vector<16xf32>
+  return %1 : vector<16xf32>
+}
+
+// -----
+
+// CHECK-LABEL: @contiguous_gather_non_zero_start(
+//  TODO: Non-zero start is not supported yet.
+//       CHECK:   %[[R:.*]] = vector.gather
+//       CHECK:   return %[[R]]
+func.func @contiguous_gather_non_zero_start(%base: memref<?xf32>,
+                                            %mask: vector<16xi1>,
+                                            %passthru: vector<16xf32>) -> vector<16xf32> {
+  %c0 = arith.constant 0 : index
+  %indices = arith.constant dense<[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16]> : vector<16xi32>
+  %1 = vector.gather %base[%c0][%indices], %mask, %passthru :
+    memref<?xf32>, vector<16xi32>, vector<16xi1>, vector<16xf32> into vector<16xf32>
+  return %1 : vector<16xf32>
+}
+
+// -----
+
+// CHECK-LABEL: @contiguous_gather_2d(
+// TODO: Only 1D vectors are supported.
+//       CHECK:   %[[R:.*]] = vector.gather
+//       CHECK:   return %[[R]]
+func.func @contiguous_gather_2d(%base: memref<?x?xf32>,
+                                %mask: vector<4x4xi1>, %passthru: vector<4x4xf32>) -> vector<4x4xf32> {
+  %c0 = arith.constant 0 : index
+  %indices = arith.constant dense<[[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11], [12, 13, 14, 15]]> : vector<4x4xi32>
+  %1 = vector.gather %base[%c0, %c0][%indices], %mask, %passthru :
+    memref<?x?xf32>, vector<4x4xi32>, vector<4x4xi1>, vector<4x4xf32> into vector<4x4xf32>
+  return %1 : vector<4x4xf32>
+}
+
+// -----
+
+// CHECK-LABEL: @contiguous_gather_const_mask
+//  CHECK-SAME:   (%[[BASE:.*]]: memref<?xf32>, %[[PASSTHRU:.*]]: vector<16xf32>)
+//       CHECK:   %[[C0:.*]] = arith.constant 0 : index
+//       CHECK:   %[[R:.*]] = vector.load %[[BASE]][%[[C0]]] : memref<?xf32>, vector<16xf32>
+//       CHECK:   return %[[R]]
+func.func @contiguous_gather_const_mask(%base: memref<?xf32>,
+                                        %passthru: vector<16xf32>) -> vector<16xf32> {
+  %c0 = arith.constant 0 : index
+  %indices = arith.constant dense<[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]> : vector<16xi32>
+  %mask = arith.constant dense<true> : vector<16xi1>
+  %1 = vector.gather %base[%c0][%indices], %mask, %passthru :
+    memref<?xf32>, vector<16xi32>, vector<16xi1>, vector<16xf32> into vector<16xf32>
+  return %1 : vector<16xf32>
+}
+
+// -----
+
+// CHECK-LABEL: @contiguous_gather_step
+//  CHECK-SAME:   (%[[BASE:.*]]: memref<?xf32>, %[[MASK:.*]]: vector<16xi1>, %[[PASSTHRU:.*]]: vector<16xf32>)
+//       CHECK:   %[[C0:.*]] = arith.constant 0 : index
+//       CHECK:   %[[R:.*]] = vector.maskedload %[[BASE]][%[[C0]]], %[[MASK]], %[[PASSTHRU]] : memref<?xf32>, vector<16xi1>, vector<16xf32> into vector<16xf32>
+//       CHECK:   return %[[R]]
+func.func @contiguous_gather_step(%base: memref<?xf32>,
+                                  %mask: vector<16xi1>, %passthru: vector<16xf32>) -> vector<16xf32> {
+  %c0 = arith.constant 0 : index
+  %indices = vector.step : vector<16xindex>
+  %1 = vector.gather %base[%c0][%indices], %mask, %passthru :
+    memref<?xf32>, vector<16xindex>, vector<16xi1>, vector<16xf32> into vector<16xf32>
+  return %1 : vector<16xf32>
+}
+
+// -----
+
+// CHECK-LABEL: @gather_broadcast(
+// TODO: Broadcast is not supported yet
+//       CHECK:   %[[R:.*]] = vector.gather
+//       CHECK:   return %[[R]]
+func.func @gather_broadcast(%base: memref<?xf32>,
+                             %mask: vector<16xi1>, %passthru: vector<16xf32>) -> vector<16xf32> {
+  %c0 = arith.constant 0 : index
+  %indices = arith.constant dense<0> : vector<16xi32>
+  %1 = vector.gather %base[%c0][%indices], %mask, %passthru :
+    memref<?xf32>, vector<16xi32>, vector<16xi1>, vector<16xf32> into vector<16xf32>
+  return %1 : vector<16xf32>
+}
+
+// -----
+
+// CHECK-LABEL: @contiguous_scatter
+//  CHECK-SAME:   (%[[BASE:.*]]: memref<?xf32>, %[[MASK:.*]]: vector<16xi1>, %[[VALUE:.*]]: vector<16xf32>)
+//       CHECK:   %[[C0:.*]] = arith.constant 0 : index
+//       CHECK:   vector.maskedstore %[[BASE]][%[[C0]]], %[[MASK]], %[[VALUE]] : memref<?xf32>, vector<16xi1>, vector<16xf32>
+func.func @contiguous_scatter(%base: memref<?xf32>,
+                              %mask: vector<16xi1>, %value: vector<16xf32>) {
+  %c0 = arith.constant 0 : index
+  %indices = arith.constant dense<[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]> : vector<16xi32>
+  vector.scatter %base[%c0][%indices], %mask, %value :
+    memref<?xf32>, vector<16xi32>, vector<16xi1>, vector<16xf32>
+  return
+}
+
+// -----
+
+// CHECK-LABEL: @contiguous_scatter_const_mask
+//  CHECK-SAME:   (%[[BASE:.*]]: memref<?xf32>, %[[VALUE:.*]]: vector<16xf32>)
+//       CHECK:   %[[C0:.*]] = arith.constant 0 : index
+//       CHECK:   vector.store %[[VALUE]], %[[BASE]][%[[C0]]] : memref<?xf32>, vector<16xf32>
+func.func @contiguous_scatter_const_mask(%base: memref<?xf32>,
+                                         %value: vector<16xf32>) {
+  %c0 = arith.constant 0 : index
+  %indices = arith.constant dense<[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]> : vector<16xi32>
+  %mask = vector.constant_mask [16] : vector<16xi1>
+  vector.scatter %base[%c0][%indices], %mask, %value :
+    memref<?xf32>, vector<16xi32>, vector<16xi1>, vector<16xf32>
+  return
+}
+
+// -----
+
+// CHECK-LABEL: @contiguous_scatter_step
+//  CHECK-SAME:   (%[[BASE:.*]]: memref<?xf32>, %[[MASK:.*]]: vector<16xi1>, %[[VALUE:.*]]: vector<16xf32>)
+//       CHECK:   %[[C0:.*]] = arith.constant 0 : index
+//       CHECK:   vector.maskedstore %[[BASE]][%[[C0]]], %[[MASK]], %[[VALUE]] : memref<?xf32>, vector<16xi1>, vector<16xf32>
+func.func @contiguous_scatter_step(%base: memref<?xf32>,
+                                   %mask: vector<16xi1>, %value: vector<16xf32>) {
+  %c0 = arith.constant 0 : index
+  %indices = vector.step : vector<16xindex>
+  vector.scatter %base[%c0][%indices], %mask, %value :
+    memref<?xf32>, vector<16xindex>, vector<16xi1>, vector<16xf32>
+  return
+}
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-addi-i16.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-addi-i16.mlir
index 4f5b858013d23..11e3baea41181 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-addi-i16.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-addi-i16.mlir
@@ -3,14 +3,14 @@
 
 // RUN: mlir-opt %s --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=8" \
 // RUN:             --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-cmpi-i16.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-cmpi-i16.mlir
index 37a64e944ee1e..a96491360def9 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-cmpi-i16.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-cmpi-i16.mlir
@@ -4,14 +4,14 @@
 
 // RUN: mlir-opt %s --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=8" \
 // RUN:             --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-compare-results-i16.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-compare-results-i16.mlir
index 437e49a6b8144..483c1e604dbcb 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-compare-results-i16.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-compare-results-i16.mlir
@@ -5,7 +5,7 @@
 // RUN:             --convert-vector-to-scf --convert-scf-to-cf --convert-cf-to-llvm \
 // RUN:             --convert-vector-to-llvm --convert-func-to-llvm --convert-arith-to-llvm \
 // RUN:             --reconcile-unrealized-casts | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:      --shared-libs="%mlir_c_runner_utils,%mlir_runner_utils" | \
 // RUN:   FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-constants-i16.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-constants-i16.mlir
index c6a48f61d434e..e3d363ef9ac6c 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-constants-i16.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-constants-i16.mlir
@@ -4,7 +4,7 @@
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=8" \
 // RUN:             --convert-vector-to-scf --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm --reconcile-unrealized-casts | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines --check-prefix=EMULATED
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-max-min-i16.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-max-min-i16.mlir
index 55d2d86e0ccbe..2efbc3833a4e0 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-max-min-i16.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-max-min-i16.mlir
@@ -4,14 +4,14 @@
 
 // RUN: mlir-opt %s --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=8" \
 // RUN:             --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-muli-i16.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-muli-i16.mlir
index 6cbdf5f0ca072..64039299600fb 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-muli-i16.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-muli-i16.mlir
@@ -3,14 +3,14 @@
 
 // RUN: mlir-opt %s --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=8" \
 // RUN:             --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shli-i16.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shli-i16.mlir
index a3801eb74e11c..818a73b59262d 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shli-i16.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shli-i16.mlir
@@ -3,14 +3,14 @@
 
 // RUN: mlir-opt %s --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=8" \
 // RUN:             --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shrsi-i16.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shrsi-i16.mlir
index 01d4b2fec43ef..fba3bac1441e3 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shrsi-i16.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shrsi-i16.mlir
@@ -3,14 +3,14 @@
 
 // RUN: mlir-opt %s --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=8" \
 // RUN:             --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shrui-i16.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shrui-i16.mlir
index 1500a8e3687d1..0a6ecc060ac77 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shrui-i16.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-shrui-i16.mlir
@@ -3,14 +3,14 @@
 
 // RUN: mlir-opt %s --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=8" \
 // RUN:             --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-sitofp-i32.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-sitofp-i32.mlir
index 3fc008705f111..9670d486536c4 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-sitofp-i32.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-sitofp-i32.mlir
@@ -3,14 +3,14 @@
 
 // RUN: mlir-opt %s --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=16" \
 // RUN:             --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
diff --git a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-uitofp-i32.mlir b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-uitofp-i32.mlir
index c3d7db0de6d20..22a318edc863a 100644
--- a/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-uitofp-i32.mlir
+++ b/mlir/test/Integration/Dialect/Arith/CPU/test-wide-int-emulation-uitofp-i32.mlir
@@ -3,14 +3,14 @@
 
 // RUN: mlir-opt %s --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
 // RUN: mlir-opt %s --test-arith-emulate-wide-int="widest-int-supported=16" \
 // RUN:             --convert-scf-to-cf --convert-cf-to-llvm --convert-vector-to-llvm \
 // RUN:             --convert-func-to-llvm --convert-arith-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN:   mlir-runner -e entry -entry-point-result=void \
 // RUN:                   --shared-libs=%mlir_c_runner_utils | \
 // RUN:   FileCheck %s --match-full-lines
 
diff --git a/mlir/test/Integration/Dialect/Async/CPU/microbench-linalg-async-parallel-for.mlir b/mlir/test/Integration/Dialect/Async/CPU/microbench-linalg-async-parallel-for.mlir
index e659741aa96de..1561e6853ae70 100644
--- a/mlir/test/Integration/Dialect/Async/CPU/microbench-linalg-async-parallel-for.mlir
+++ b/mlir/test/Integration/Dialect/Async/CPU/microbench-linalg-async-parallel-for.mlir
@@ -14,7 +14,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN: -e entry -entry-point-result=void -O3                                  \
 // RUN: -shared-libs=%mlir_runner_utils  \
 // RUN: -shared-libs=%mlir_c_runner_utils\
@@ -30,7 +30,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN: -e entry -entry-point-result=void -O3                                  \
 // RUN: -shared-libs=%mlir_runner_utils  \
 // RUN: -shared-libs=%mlir_c_runner_utils\
diff --git a/mlir/test/Integration/Dialect/Async/CPU/microbench-scf-async-parallel-for.mlir b/mlir/test/Integration/Dialect/Async/CPU/microbench-scf-async-parallel-for.mlir
index 791c3934b2391..4543dca2207c8 100644
--- a/mlir/test/Integration/Dialect/Async/CPU/microbench-scf-async-parallel-for.mlir
+++ b/mlir/test/Integration/Dialect/Async/CPU/microbench-scf-async-parallel-for.mlir
@@ -14,7 +14,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN: -e entry -entry-point-result=void -O3                                  \
 // RUN: -shared-libs=%mlir_runner_utils  \
 // RUN: -shared-libs=%mlir_c_runner_utils\
@@ -37,7 +37,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN: -e entry -entry-point-result=void -O3                                  \
 // RUN: -shared-libs=%mlir_runner_utils  \
 // RUN: -shared-libs=%mlir_c_runner_utils\
@@ -53,7 +53,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN: -e entry -entry-point-result=void -O3                                  \
 // RUN: -shared-libs=%mlir_runner_utils  \
 // RUN: -shared-libs=%mlir_c_runner_utils\
diff --git a/mlir/test/Integration/Dialect/Async/CPU/test-async-parallel-for-1d.mlir b/mlir/test/Integration/Dialect/Async/CPU/test-async-parallel-for-1d.mlir
index 34461f8896d14..79abe8c1ecc60 100644
--- a/mlir/test/Integration/Dialect/Async/CPU/test-async-parallel-for-1d.mlir
+++ b/mlir/test/Integration/Dialect/Async/CPU/test-async-parallel-for-1d.mlir
@@ -11,7 +11,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:  -e entry -entry-point-result=void -O0                                 \
 // RUN:  -shared-libs=%mlir_runner_utils \
 // RUN:  -shared-libs=%mlir_async_runtime\
@@ -29,7 +29,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:  -e entry -entry-point-result=void -O0                                 \
 // RUN:  -shared-libs=%mlir_runner_utils \
 // RUN:  -shared-libs=%mlir_async_runtime\
@@ -50,7 +50,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:  -e entry -entry-point-result=void -O0                                 \
 // RUN:  -shared-libs=%mlir_runner_utils \
 // RUN:  -shared-libs=%mlir_async_runtime\
diff --git a/mlir/test/Integration/Dialect/Async/CPU/test-async-parallel-for-2d.mlir b/mlir/test/Integration/Dialect/Async/CPU/test-async-parallel-for-2d.mlir
index ce3cd3fea65cc..afbb57415552c 100644
--- a/mlir/test/Integration/Dialect/Async/CPU/test-async-parallel-for-2d.mlir
+++ b/mlir/test/Integration/Dialect/Async/CPU/test-async-parallel-for-2d.mlir
@@ -10,7 +10,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:  -e entry -entry-point-result=void -O0                                 \
 // RUN:  -shared-libs=%mlir_runner_utils \
 // RUN:  -shared-libs=%mlir_async_runtime\
@@ -27,7 +27,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:  -e entry -entry-point-result=void -O0                                 \
 // RUN:  -shared-libs=%mlir_runner_utils \
 // RUN:  -shared-libs=%mlir_async_runtime\
@@ -47,7 +47,7 @@
 // RUN:               -convert-arith-to-llvm                                   \
 // RUN:               -convert-cf-to-llvm                                      \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:  -e entry -entry-point-result=void -O0                                 \
 // RUN:  -shared-libs=%mlir_runner_utils \
 // RUN:  -shared-libs=%mlir_async_runtime\
diff --git a/mlir/test/Integration/Dialect/Complex/CPU/correctness.mlir b/mlir/test/Integration/Dialect/Complex/CPU/correctness.mlir
index c0689761cfd16..1bcef0a0df316 100644
--- a/mlir/test/Integration/Dialect/Complex/CPU/correctness.mlir
+++ b/mlir/test/Integration/Dialect/Complex/CPU/correctness.mlir
@@ -5,7 +5,7 @@
 // RUN:   -convert-vector-to-llvm -convert-complex-to-llvm \
 // RUN:   -convert-func-to-llvm -convert-arith-to-llvm -convert-cf-to-llvm \
 // RUN:   -reconcile-unrealized-casts |\
-// RUN: mlir-cpu-runner \
+// RUN: mlir-runner \
 // RUN:  -e entry -entry-point-result=void  \
 // RUN:  -shared-libs=%mlir_c_runner_utils |\
 // RUN: FileCheck %s
diff --git a/mlir/test/Integration/Dialect/ControlFlow/assert.mlir b/mlir/test/Integration/Dialect/ControlFlow/assert.mlir
index 6907a50886fe7..0271598140a7d 100644
--- a/mlir/test/Integration/Dialect/ControlFlow/assert.mlir
+++ b/mlir/test/Integration/Dialect/ControlFlow/assert.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s -test-cf-assert \
 // RUN:     -convert-func-to-llvm -convert-arith-to-llvm | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void | \
+// RUN: mlir-runner -e main -entry-point-result=void | \
 // RUN: FileCheck %s
 
 func.func @main() {
diff --git a/mlir/test/Integration/Dialect/LLVMIR/CPU/X86/test-inline-asm-vector.mlir b/mlir/test/Integration/Dialect/LLVMIR/CPU/X86/test-inline-asm-vector.mlir
index 750f1e651f50b..f63aa880e4412 100644
--- a/mlir/test/Integration/Dialect/LLVMIR/CPU/X86/test-inline-asm-vector.mlir
+++ b/mlir/test/Integration/Dialect/LLVMIR/CPU/X86/test-inline-asm-vector.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -convert-vector-to-scf -convert-scf-to-cf -convert-vector-to-llvm -convert-func-to-llvm -convert-arith-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts |  \
-// RUN: mlir-cpu-runner -e entry_point_with_all_constants -entry-point-result=void \
+// RUN: mlir-runner -e entry_point_with_all_constants -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils
 
 module {
diff --git a/mlir/test/Integration/Dialect/LLVMIR/CPU/X86/test-inline-asm.mlir b/mlir/test/Integration/Dialect/LLVMIR/CPU/X86/test-inline-asm.mlir
index f52d48f690e50..8059741d75111 100644
--- a/mlir/test/Integration/Dialect/LLVMIR/CPU/X86/test-inline-asm.mlir
+++ b/mlir/test/Integration/Dialect/LLVMIR/CPU/X86/test-inline-asm.mlir
@@ -1,4 +1,4 @@
-// RUN: mlir-cpu-runner %s -e entry -entry-point-result=void  \
+// RUN: mlir-runner %s -e entry -entry-point-result=void  \
 // RUN: -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/LLVMIR/CPU/test-complex-sparse-constant.mlir b/mlir/test/Integration/Dialect/LLVMIR/CPU/test-complex-sparse-constant.mlir
index 470614e97325c..d540e640cf38e 100644
--- a/mlir/test/Integration/Dialect/LLVMIR/CPU/test-complex-sparse-constant.mlir
+++ b/mlir/test/Integration/Dialect/LLVMIR/CPU/test-complex-sparse-constant.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s --finalize-memref-to-llvm | \
-// RUN:   mlir-cpu-runner -e entry -entry-point-result=void
+// RUN:   mlir-runner -e entry -entry-point-result=void
 
 //
 // Code should not crash on the complex32 sparse constant.
diff --git a/mlir/test/Integration/Dialect/LLVMIR/CPU/test-vector-reductions-fp.mlir b/mlir/test/Integration/Dialect/LLVMIR/CPU/test-vector-reductions-fp.mlir
index d2431fc635f06..053058fa774d8 100644
--- a/mlir/test/Integration/Dialect/LLVMIR/CPU/test-vector-reductions-fp.mlir
+++ b/mlir/test/Integration/Dialect/LLVMIR/CPU/test-vector-reductions-fp.mlir
@@ -1,4 +1,4 @@
-// RUN: mlir-cpu-runner %s -e entry -entry-point-result=void  \
+// RUN: mlir-runner %s -e entry -entry-point-result=void  \
 // RUN: -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/LLVMIR/CPU/test-vector-reductions-int.mlir b/mlir/test/Integration/Dialect/LLVMIR/CPU/test-vector-reductions-int.mlir
index 48125a018e3d3..3e5220253ca87 100644
--- a/mlir/test/Integration/Dialect/LLVMIR/CPU/test-vector-reductions-int.mlir
+++ b/mlir/test/Integration/Dialect/LLVMIR/CPU/test-vector-reductions-int.mlir
@@ -1,4 +1,4 @@
-// RUN: mlir-cpu-runner %s -e entry -entry-point-result=void  \
+// RUN: mlir-runner %s -e entry -entry-point-result=void  \
 // RUN: -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/matmul-vs-matvec.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/matmul-vs-matvec.mlir
index 3af826438927d..1950fe8621562 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/matmul-vs-matvec.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/matmul-vs-matvec.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -convert-linalg-to-loops -convert-scf-to-cf  -expand-strided-metadata -lower-affine -convert-arith-to-llvm -finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -O3 -e main -entry-point-result=void \
+// RUN: mlir-runner -O3 -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/mmt4d.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/mmt4d.mlir
index 183625f9748c2..cab345043e43f 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/mmt4d.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/mmt4d.mlir
@@ -2,7 +2,7 @@
 // DEFINE:    -transform-interpreter -test-transform-dialect-erase-schedule \
 // DEFINE:    -one-shot-bufferize="bufferize-function-boundaries" -buffer-deallocation-pipeline -cse -canonicalize -convert-vector-to-scf -test-lower-to-llvm -o %t
 // DEFINE: %{entry_point} = mmt4d
-// DEFINE: %{run} = mlir-cpu-runner %t -e %{entry_point} -entry-point-result=void \
+// DEFINE: %{run} = mlir-runner %t -e %{entry_point} -entry-point-result=void \
 // DEFINE:    -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils
 
 // RUN: %{compile}
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/pack-dynamic-inner-tile.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/pack-dynamic-inner-tile.mlir
index 3a9f214ff43c3..15edae8b6d3f8 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/pack-dynamic-inner-tile.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/pack-dynamic-inner-tile.mlir
@@ -3,7 +3,7 @@
 // DEFINE: mlir-opt \
 // DEFINE:  -test-lower-to-llvm -o %t
 // DEFINE: %{entry_point} = main
-// DEFINE: %{run} = mlir-cpu-runner %t -e %{entry_point} -entry-point-result=void \
+// DEFINE: %{run} = mlir-runner %t -e %{entry_point} -entry-point-result=void \
 // DEFINE:    -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils
 
 // RUN: rm -f %t && %{compile} && %{run} | FileCheck %s
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/pack-unpack-mmt4d.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/pack-unpack-mmt4d.mlir
index 10b29dd70177b..63622d761bc5b 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/pack-unpack-mmt4d.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/pack-unpack-mmt4d.mlir
@@ -4,7 +4,7 @@
 // DEFINE:    -buffer-deallocation-pipeline="private-function-dynamic-ownership" \
 // DEFINE:    -cse -canonicalize -test-lower-to-llvm
 // DEFINE: %{entry_point} = main
-// DEFINE: %{run} = mlir-cpu-runner -e %{entry_point} -entry-point-result=void \
+// DEFINE: %{run} = mlir-runner -e %{entry_point} -entry-point-result=void \
 // DEFINE:    -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils
 
 // RUN: %{compile} | %{run} | FileCheck %s
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/rank-reducing-subview.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/rank-reducing-subview.mlir
index d441cc89712de..fe261a7345697 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/rank-reducing-subview.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/rank-reducing-subview.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -convert-linalg-to-loops -convert-scf-to-cf  -expand-strided-metadata -lower-affine -convert-arith-to-llvm -finalize-memref-to-llvm -convert-func-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -O3 -e main -entry-point-result=void \
+// RUN: mlir-runner -O3 -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/runtime-verification.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/runtime-verification.mlir
index 278afb7363743..460b198a23339 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/runtime-verification.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/runtime-verification.mlir
@@ -11,7 +11,7 @@
 // RUN: -convert-arith-to-llvm \
 // RUN: -convert-cf-to-llvm \
 // RUN: -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:     -shared-libs=%mlir_runner_utils \
 // RUN:     -shared-libs=%mlir_c_runner_utils 2>&1 | \
 // RUN: FileCheck %s
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-collapse-tensor.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-collapse-tensor.mlir
index af4feb356ddf5..d6214a6300bba 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-collapse-tensor.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-collapse-tensor.mlir
@@ -3,7 +3,7 @@
 // RUN: -buffer-deallocation-pipeline -convert-bufferization-to-memref \
 // RUN: -convert-scf-to-cf -expand-strided-metadata -lower-affine -convert-cf-to-llvm -convert-arith-to-llvm \
 // RUN: -finalize-memref-to-llvm -convert-func-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-1d-call.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-1d-call.mlir
index 31e2453a17aa7..a1b2fed671cee 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-1d-call.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-1d-call.mlir
@@ -1,11 +1,11 @@
 // RUN: mlir-opt %s -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf  -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
 // RUN: mlir-opt %s -transform-interpreter -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf \
 // RUN:    -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-1d-nwc-wcf-call.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-1d-nwc-wcf-call.mlir
index a448874e27d21..e1ad125b9966c 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-1d-nwc-wcf-call.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-1d-nwc-wcf-call.mlir
@@ -1,11 +1,11 @@
 // RUN: mlir-opt %s -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf  -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
 // RUN: mlir-opt %s -transform-interpreter -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf \
 // RUN:    -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-2d-call.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-2d-call.mlir
index 53f58b0b3c93c..d44e43977e716 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-2d-call.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-2d-call.mlir
@@ -1,11 +1,11 @@
 // RUN: mlir-opt %s -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf  -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
 // RUN: mlir-opt %s -transform-interpreter -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf \
 // RUN:    -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-2d-nhwc-hwcf-call.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-2d-nhwc-hwcf-call.mlir
index 8c4d5d1d4146d..240016f230650 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-2d-nhwc-hwcf-call.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-2d-nhwc-hwcf-call.mlir
@@ -1,11 +1,11 @@
 // RUN: mlir-opt %s -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf  -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
 // RUN: mlir-opt %s -transform-interpreter -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf \
 // RUN:    -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-3d-call.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-3d-call.mlir
index 5fa435d0fa38d..2e5b1cc3d44e6 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-3d-call.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-3d-call.mlir
@@ -1,11 +1,11 @@
 // RUN: mlir-opt %s -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf  -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
 // RUN: mlir-opt %s -transform-interpreter -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf \
 // RUN:    -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-3d-ndhwc-dhwcf-call.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-3d-ndhwc-dhwcf-call.mlir
index 4842f9ecf810d..2368b56827984 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-3d-ndhwc-dhwcf-call.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-conv-3d-ndhwc-dhwcf-call.mlir
@@ -1,11 +1,11 @@
 // RUN: mlir-opt %s -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf  -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
 // RUN: mlir-opt %s -transform-interpreter -test-transform-dialect-erase-schedule -convert-linalg-to-loops -convert-scf-to-cf \
 // RUN:    -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-elementwise.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-elementwise.mlir
index a323b0d9f876c..3056e08a48621 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-elementwise.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-elementwise.mlir
@@ -3,7 +3,7 @@
 // RUN: -canonicalize -buffer-deallocation-pipeline -convert-bufferization-to-memref -convert-linalg-to-loops \
 // RUN: -convert-scf-to-cf -convert-arith-to-llvm -convert-cf-to-llvm --finalize-memref-to-llvm \
 // RUN: -convert-func-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-expand-tensor.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-expand-tensor.mlir
index cab049cb6791b..e644c004751f3 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-expand-tensor.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-expand-tensor.mlir
@@ -3,7 +3,7 @@
 // RUN: -buffer-deallocation-pipeline -convert-bufferization-to-memref \
 // RUN: -convert-scf-to-cf -expand-strided-metadata -lower-affine -convert-cf-to-llvm -convert-arith-to-llvm \
 // RUN: -finalize-memref-to-llvm -convert-func-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-matmul-masked-vec.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-matmul-masked-vec.mlir
index a70d794506c48..8fa32d7aeb586 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-matmul-masked-vec.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-matmul-masked-vec.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -transform-interpreter -test-transform-dialect-erase-schedule -one-shot-bufferize="bufferize-function-boundaries" -buffer-deallocation-pipeline -lower-vector-mask --test-lower-to-llvm | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void --shared-libs=%mlir_c_runner_utils,%mlir_runner_utils | \
+// RUN: mlir-runner -e main -entry-point-result=void --shared-libs=%mlir_c_runner_utils,%mlir_runner_utils | \
 // RUN: FileCheck %s
 
 func.func private @printMemrefF32(%ptr : tensor<*xf32>)
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-one-shot-bufferize.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-one-shot-bufferize.mlir
index 2b1dcf1fd092d..3675f8865a685 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-one-shot-bufferize.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-one-shot-bufferize.mlir
@@ -2,7 +2,7 @@
 // RUN: mlir-opt -pass-pipeline="builtin.module(buffer-deallocation-pipeline,convert-bufferization-to-memref,func.func(convert-vector-to-scf,lower-affine,convert-linalg-to-loops))" |\
 // RUN: mlir-opt -pass-pipeline="builtin.module(func.func(canonicalize,convert-scf-to-cf),convert-vector-to-llvm,expand-strided-metadata,lower-affine,convert-arith-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
 
-// RUN: mlir-cpu-runner -O3 -e main -entry-point-result=void \
+// RUN: mlir-runner -O3 -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils |\
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-padtensor.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-padtensor.mlir
index 902dffc75008d..fb710eff287f1 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-padtensor.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-padtensor.mlir
@@ -3,7 +3,7 @@
 // RUN: -buffer-deallocation-pipeline -convert-bufferization-to-memref \
 // RUN: -convert-linalg-to-loops -convert-scf-to-cf -expand-strided-metadata \
 // RUN: -lower-affine -convert-arith-to-llvm -finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-subtensor-insert-multiple-uses.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-subtensor-insert-multiple-uses.mlir
index 402014106adf1..ad6b7ed35a44c 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-subtensor-insert-multiple-uses.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-subtensor-insert-multiple-uses.mlir
@@ -4,7 +4,7 @@
 // RUN: -convert-linalg-to-loops -convert-scf-to-cf -expand-strided-metadata  \
 // RUN: -lower-affine -convert-arith-to-llvm --finalize-memref-to-llvm \
 // RUN: -convert-func-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-subtensor-insert.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-subtensor-insert.mlir
index 7949ec7c46a8a..c050e5fa164db 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-subtensor-insert.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-subtensor-insert.mlir
@@ -4,7 +4,7 @@
 // RUN: -convert-linalg-to-loops -convert-scf-to-cf -expand-strided-metadata \
 // RUN: -lower-affine -convert-arith-to-llvm --finalize-memref-to-llvm \
 // RUN: -convert-func-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-tensor-e2e.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-tensor-e2e.mlir
index b627d3bf9cd41..43263ae88754b 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-tensor-e2e.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-tensor-e2e.mlir
@@ -2,7 +2,7 @@
 // RUN: -one-shot-bufferize="bufferize-function-boundaries" \
 // RUN: -buffer-deallocation-pipeline -convert-bufferization-to-memref -convert-linalg-to-loops \
 // RUN: -convert-arith-to-llvm -convert-scf-to-cf -convert-cf-to-llvm --finalize-memref-to-llvm -convert-func-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/test-tensor-matmul.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/test-tensor-matmul.mlir
index 2e77b09ed8c2c..f21b94308d6ed 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/test-tensor-matmul.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/test-tensor-matmul.mlir
@@ -3,7 +3,7 @@
 // RUN: -one-shot-bufferize="bufferize-function-boundaries" \
 // RUN: -buffer-deallocation-pipeline -convert-bufferization-to-memref -convert-linalg-to-loops -convert-scf-to-cf \
 // RUN: -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils \
 // RUN: | FileCheck %s
 
@@ -11,7 +11,7 @@
 // RUN: -one-shot-bufferize="bufferize-function-boundaries" \
 // RUN: -convert-linalg-to-loops -convert-scf-to-cf -convert-scf-to-cf \
 // RUN:  -expand-strided-metadata -lower-affine -convert-arith-to-llvm -convert-scf-to-cf --finalize-memref-to-llvm -convert-func-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Linalg/CPU/unpack-dynamic-inner-tile.mlir b/mlir/test/Integration/Dialect/Linalg/CPU/unpack-dynamic-inner-tile.mlir
index cae572ff3696b..4395dfe74914e 100644
--- a/mlir/test/Integration/Dialect/Linalg/CPU/unpack-dynamic-inner-tile.mlir
+++ b/mlir/test/Integration/Dialect/Linalg/CPU/unpack-dynamic-inner-tile.mlir
@@ -3,7 +3,7 @@
 // DEFINE: mlir-opt \
 // DEFINE:  -test-lower-to-llvm -o %t
 // DEFINE: %{entry_point} = main
-// DEFINE: %{run} = mlir-cpu-runner %t -e %{entry_point} -entry-point-result=void \
+// DEFINE: %{run} = mlir-runner %t -e %{entry_point} -entry-point-result=void \
 // DEFINE:    -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils
 
 // RUN: rm -f %t && %{compile} && %{run} | FileCheck %s
diff --git a/mlir/test/Integration/Dialect/Math/CPU/mathtofuncs_ctlz.mlir b/mlir/test/Integration/Dialect/Math/CPU/mathtofuncs_ctlz.mlir
index 37f94c4e1fcff..cd9483410138f 100644
--- a/mlir/test/Integration/Dialect/Math/CPU/mathtofuncs_ctlz.mlir
+++ b/mlir/test/Integration/Dialect/Math/CPU/mathtofuncs_ctlz.mlir
@@ -5,7 +5,7 @@
 // RUN:      convert-func-to-llvm, \
 // RUN:      convert-cf-to-llvm, \
 // RUN:      reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner -e test_7i32_to_29 -entry-point-result=i32 | FileCheck %s --check-prefix=CHECK_TEST_7i32_TO_29
+// RUN: | mlir-runner -e test_7i32_to_29 -entry-point-result=i32 | FileCheck %s --check-prefix=CHECK_TEST_7i32_TO_29
 
 func.func @test_7i32_to_29() -> i32 {
   %arg = arith.constant 7 : i32
@@ -21,7 +21,7 @@ func.func @test_7i32_to_29() -> i32 {
 // RUN:      convert-func-to-llvm, \
 // RUN:      convert-cf-to-llvm, \
 // RUN:      reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner -e test_zero -entry-point-result=i32 | FileCheck %s --check-prefix=CHECK_TEST_ZERO
+// RUN: | mlir-runner -e test_zero -entry-point-result=i32 | FileCheck %s --check-prefix=CHECK_TEST_ZERO
 
 func.func @test_zero() -> i32 {
   %arg = arith.constant 0 : i32
@@ -30,7 +30,7 @@ func.func @test_zero() -> i32 {
 }
 // CHECK_TEST_ZERO: 32
 
-// Apparently mlir-cpu-runner doesn't support i8 return values, so testing i64 instead
+// Apparently mlir-runner doesn't support i8 return values, so testing i64 instead
 // RUN: mlir-opt %s \
 // RUN:   -pass-pipeline="builtin.module( \
 // RUN:      convert-math-to-funcs, \
@@ -38,7 +38,7 @@ func.func @test_zero() -> i32 {
 // RUN:      convert-func-to-llvm, \
 // RUN:      convert-cf-to-llvm, \
 // RUN:      reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner -e test_7i64_to_61 -entry-point-result=i64 | FileCheck %s --check-prefix=CHECK_TEST_7i64_TO_61
+// RUN: | mlir-runner -e test_7i64_to_61 -entry-point-result=i64 | FileCheck %s --check-prefix=CHECK_TEST_7i64_TO_61
 
 func.func @test_7i64_to_61() -> i64 {
   %arg = arith.constant 7 : i64
diff --git a/mlir/test/Integration/Dialect/MemRef/cast-runtime-verification.mlir b/mlir/test/Integration/Dialect/MemRef/cast-runtime-verification.mlir
index 9f083c73c69a3..b101a875154ff 100644
--- a/mlir/test/Integration/Dialect/MemRef/cast-runtime-verification.mlir
+++ b/mlir/test/Integration/Dialect/MemRef/cast-runtime-verification.mlir
@@ -3,7 +3,7 @@
 // RUN:     -convert-func-to-llvm \
 // RUN:     -convert-arith-to-llvm \
 // RUN:     -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:     -shared-libs=%mlir_runner_utils 2>&1 | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/MemRef/load-runtime-verification.mlir b/mlir/test/Integration/Dialect/MemRef/load-runtime-verification.mlir
index 1b4893dfed7f7..d6c5d6da0041e 100644
--- a/mlir/test/Integration/Dialect/MemRef/load-runtime-verification.mlir
+++ b/mlir/test/Integration/Dialect/MemRef/load-runtime-verification.mlir
@@ -5,7 +5,7 @@
 // RUN:     -convert-func-to-llvm \
 // RUN:     -convert-arith-to-llvm \
 // RUN:     -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:     -shared-libs=%mlir_runner_utils 2>&1 | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/MemRef/print-memref.mlir b/mlir/test/Integration/Dialect/MemRef/print-memref.mlir
index f59e220d7461e..067cb3888e6ab 100644
--- a/mlir/test/Integration/Dialect/MemRef/print-memref.mlir
+++ b/mlir/test/Integration/Dialect/MemRef/print-memref.mlir
@@ -2,7 +2,7 @@
 // RUN: -one-shot-bufferize="bufferize-function-boundaries" --canonicalize \
 // RUN:   -finalize-memref-to-llvm\
 // RUN:   -convert-func-to-llvm -reconcile-unrealized-casts |\
-// RUN: mlir-cpu-runner \
+// RUN: mlir-runner \
 // RUN:  -e entry -entry-point-result=void  \
 // RUN:  -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils |\
 // RUN: FileCheck %s
diff --git a/mlir/test/Integration/Dialect/MemRef/reinterpret-cast-runtime-verification.mlir b/mlir/test/Integration/Dialect/MemRef/reinterpret-cast-runtime-verification.mlir
index 089a3b9f0960a..9fea48bdfc07d 100644
--- a/mlir/test/Integration/Dialect/MemRef/reinterpret-cast-runtime-verification.mlir
+++ b/mlir/test/Integration/Dialect/MemRef/reinterpret-cast-runtime-verification.mlir
@@ -5,7 +5,7 @@
 // RUN:     -convert-func-to-llvm \
 // RUN:     -convert-arith-to-llvm \
 // RUN:     -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:     -shared-libs=%mlir_runner_utils 2>&1 | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/MemRef/subview-runtime-verification.mlir b/mlir/test/Integration/Dialect/MemRef/subview-runtime-verification.mlir
index 539d8bb74af74..66474e9c4ae37 100644
--- a/mlir/test/Integration/Dialect/MemRef/subview-runtime-verification.mlir
+++ b/mlir/test/Integration/Dialect/MemRef/subview-runtime-verification.mlir
@@ -6,7 +6,7 @@
 // RUN:     -convert-func-to-llvm \
 // RUN:     -convert-arith-to-llvm \
 // RUN:     -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:     -shared-libs=%mlir_runner_utils 2>&1 | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/MemRef/verify-memref.mlir b/mlir/test/Integration/Dialect/MemRef/verify-memref.mlir
index f1ef69ffb75ef..9470f3bccd86a 100644
--- a/mlir/test/Integration/Dialect/MemRef/verify-memref.mlir
+++ b/mlir/test/Integration/Dialect/MemRef/verify-memref.mlir
@@ -2,7 +2,7 @@
 // RUN:   -one-shot-bufferize="bufferize-function-boundaries" --canonicalize \
 // RUN:   -convert-vector-to-scf -convert-scf-to-cf -convert-vector-to-llvm -finalize-memref-to-llvm\
 // RUN:   -convert-func-to-llvm -reconcile-unrealized-casts |\
-// RUN: mlir-cpu-runner \
+// RUN: mlir-runner \
 // RUN:  -e entry -entry-point-result=void \
 // RUN:  -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils |\
 // RUN: FileCheck %s
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/block.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/block.mlir
index 8cea9184d0f9c..0293e64b0a61d 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/block.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/block.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/block_majors.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/block_majors.mlir
index c2162ba56367d..04196abf1d49d 100755
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/block_majors.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/block_majors.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_0.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_0.mlir
index 9a9c545445ef0..54d13393fc890 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_0.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_0.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_0_permute.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_0_permute.mlir
index e004fda1f3a25..fe7c6d54bb0bb 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_0_permute.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_0_permute.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_1.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_1.mlir
index 7f25338d81fea..727296db4833b 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_1.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_1.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_1_permute.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_1_permute.mlir
index 15e0d8615fe56..f165556c5e50a 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_1_permute.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/concatenate_dim_1_permute.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output.mlir
index 2653fd393c9b0..5cefb3e2ac852 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output_bf16.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output_bf16.mlir
index c59993abb1673..bb7dcd2f35e33 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output_bf16.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output_bf16.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output_f16.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output_f16.mlir
index 1eb3347503834..94fa5fb3713ff 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output_f16.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/dense_output_f16.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/dual_sparse_conv_2d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/dual_sparse_conv_2d.mlir
index 9602c198082f8..48c584ea7fbd5 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/dual_sparse_conv_2d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/dual_sparse_conv_2d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/iterator-based-kernel.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/iterator-based-kernel.mlir
index 6cca4fa86a162..406b0eb0234ec 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/iterator-based-kernel.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/iterator-based-kernel.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/padded_sparse_conv_2d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/padded_sparse_conv_2d.mlir
index f25a71a6cae14..e9aa71e888579 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/padded_sparse_conv_2d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/padded_sparse_conv_2d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/reshape_dot.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/reshape_dot.mlir
index b29c4336b40d0..08e27d272529a 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/reshape_dot.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/reshape_dot.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_abs.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_abs.mlir
index 02950fc81228b..77450a3007827 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_abs.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_abs.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_binary.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_binary.mlir
index 795a41797d0cf..c640f34b4d38d 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_binary.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_binary.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_block3d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_block3d.mlir
index a6fb24e266a18..a4e402c746d2e 100755
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_block3d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_block3d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_block_matmul.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_block_matmul.mlir
index 24e1e5ba1c770..a79235a314f3f 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_block_matmul.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_block_matmul.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_cast.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_cast.mlir
index f4bfb577efd48..83139f8b700d8 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_cast.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_cast.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_cmp.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_cmp.mlir
index 6710ed95e1343..505729cc86924 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_cmp.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_cmp.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_codegen_dim.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_codegen_dim.mlir
index e5281049b44c9..6ed0214aa4d38 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_codegen_dim.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_codegen_dim.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_codegen_foreach.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_codegen_foreach.mlir
index ecd2819ff2fea..5fa4548e31dfd 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_codegen_foreach.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_codegen_foreach.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_collapse_shape.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_collapse_shape.mlir
index ac6f6672fa842..5a1a54182cfbc 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_collapse_shape.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_collapse_shape.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex32.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex32.mlir
index db32ea9168bbf..2b8567ffc81de 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex32.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex32.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex64.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex64.mlir
index 183c16fd429e8..794fb516ab854 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex64.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex64.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex_ops.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex_ops.mlir
index fe87882ce9ba4..e6b27ea1445db 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex_ops.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_complex_ops.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_constant_to_sparse_tensor.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_constant_to_sparse_tensor.mlir
index df348ab5c211a..1d61e74b5ec5c 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_constant_to_sparse_tensor.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_constant_to_sparse_tensor.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_1d_nwc_wcf.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_1d_nwc_wcf.mlir
index 2c35ab051a466..84f4e0dd7ebef 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_1d_nwc_wcf.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_1d_nwc_wcf.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d.mlir
index d782a8bfa3b98..42ed78df1eca2 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_55.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_55.mlir
index c218f95c2e532..564d869af80da 100755
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_55.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_55.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_nchw_fchw.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_nchw_fchw.mlir
index 20508f980350f..ea51a5d030c0c 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_nchw_fchw.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_nchw_fchw.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_nhwc_hwcf.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_nhwc_hwcf.mlir
index 892abea737293..9e6626abea7d1 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_nhwc_hwcf.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_2d_nhwc_hwcf.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_3d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_3d.mlir
index 1d9ca4d4e8fba..b6697038b84db 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_3d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_3d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_3d_ndhwc_dhwcf.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_3d_ndhwc_dhwcf.mlir
index 9624e347bd5ca..9f80cc8763d2a 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_3d_ndhwc_dhwcf.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conv_3d_ndhwc_dhwcf.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion.mlir
index 096a1618df2d8..509ab9a0c86e7 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_block.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_block.mlir
index d8c3025947bd4..bc6fd9b75c0d4 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_block.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_block.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_dyn.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_dyn.mlir
index 8de0f9a5da9a5..e0bf79c4f7a17 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_dyn.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_dyn.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_element.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_element.mlir
index a4bcb09cfb8fc..398a35a67a94b 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_element.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_element.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_ptr.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_ptr.mlir
index a93002dfeb452..2f533f227c645 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_ptr.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_ptr.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_sparse2dense.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_sparse2dense.mlir
index 51e81225991bb..20e781a6b6328 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_sparse2dense.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_sparse2dense.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_sparse2sparse.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_sparse2sparse.mlir
index 8844e4f9acf36..0aed6b5fa4930 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_sparse2sparse.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_conversion_sparse2sparse.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_coo_test.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_coo_test.mlir
index 191bca746c068..c3a768041a259 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_coo_test.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_coo_test.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_dilated_conv_2d_nhwc_hwcf.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_dilated_conv_2d_nhwc_hwcf.mlir
index 046405aa48cb2..c9c346ad25d18 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_dilated_conv_2d_nhwc_hwcf.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_dilated_conv_2d_nhwc_hwcf.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_dot.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_dot.mlir
index adede14cfc5e8..a0409de5aa293 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_dot.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_dot.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_ds.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_ds.mlir
index 2d202132b3daa..9ae716137269c 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_ds.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_ds.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_empty.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_empty.mlir
index 6a1a5821ad9da..701d896079a5e 100755
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_empty.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_empty.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_expand.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_expand.mlir
index ed771862e7140..db35a4f4392ff 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_expand.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_expand.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_expand_shape.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_expand_shape.mlir
index 0792bda162a76..3a3a7d816efbe 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_expand_shape.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_expand_shape.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_filter_conv2d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_filter_conv2d.mlir
index a4ed2a6d05fc0..3c0e0b163f432 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_filter_conv2d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_filter_conv2d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_flatten.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_flatten.mlir
index db3e2381b5c9b..6e744e0a308dc 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_flatten.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_flatten.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_foreach_slices.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_foreach_slices.mlir
index 2b3cbf28ed014..e7df56ee39eb5 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_foreach_slices.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_foreach_slices.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_generate.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_generate.mlir
index 75d1941c50ada..37e2f52c2f9e6 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_generate.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_generate.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_index.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_index.mlir
index e81c8f52d6969..92c9257d96dc5 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_index.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_index.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_index_dense.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_index_dense.mlir
index 20bf265a70b51..371b3f359f3bf 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_index_dense.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_index_dense.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_1d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_1d.mlir
index d7f9b45bff8e0..be5cd55ae4a82 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_1d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_1d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_2d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_2d.mlir
index af6dcdcfeb263..491052929992f 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_2d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_2d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_3d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_3d.mlir
index 8c21f14b5abeb..d1125e3e972ea 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_3d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_insert_3d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_loose.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_loose.mlir
index 1682e808b35ee..f9816584b4655 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_loose.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_loose.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matmul.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matmul.mlir
index e1daaaf9bb1e5..357b9af854d3a 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matmul.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matmul.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matmul_slice.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matmul_slice.mlir
index f6000ccf34d71..f53699ab77e8a 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matmul_slice.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matmul_slice.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matrix_ops.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matrix_ops.mlir
index ecc351619d126..58592c9a0345c 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matrix_ops.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matrix_ops.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matvec.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matvec.mlir
index 30e7a5f18b7f7..26fbfaceb9b8b 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matvec.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_matvec.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_mttkrp.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_mttkrp.mlir
index 04392ca7a6209..cf8b271c60164 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_mttkrp.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_mttkrp.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_mult_elt.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_mult_elt.mlir
index 506d357fd4a3c..1283e1d904943 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_mult_elt.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_mult_elt.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_reduction.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_reduction.mlir
index 3539246e1e5a8..215b0caa8e7b2 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_reduction.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_reduction.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_simple.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_simple.mlir
index b56d9d4d5a602..2a240286bb8da 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_simple.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_out_simple.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pack.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pack.mlir
index 71416ffa6a906..c66561aa1bb31 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pack.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pack.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pack_d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pack_d.mlir
index a53c248eeed49..0fe8f03c497fd 100755
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pack_d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pack_d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_permute.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_permute.mlir
index 1df1caf11386d..62a5468a8c3e4 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_permute.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_permute.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pooling_nhwc.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pooling_nhwc.mlir
index 187ea81fcdb98..2d1f3a0e27ebd 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pooling_nhwc.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_pooling_nhwc.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_print.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_print.mlir
index 2c505ecf29568..b6d3e02468f13 100755
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_print.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_print.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_print_3d.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_print_3d.mlir
index ea369338ce096..a42a557d5e90a 100755
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_print_3d.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_print_3d.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_quantized_matmul.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_quantized_matmul.mlir
index 28f65b10db47f..6e4f9d0b5c4a2 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_quantized_matmul.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_quantized_matmul.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_re_im.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_re_im.mlir
index aba1c52a5af3c..f1e87a4b74350 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_re_im.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_re_im.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom.mlir
index cb6af2daf1c00..25218b8e13583 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom_prod.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom_prod.mlir
index 624af1fa9f08e..042715753c8b4 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom_prod.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom_prod.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom_sum.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom_sum.mlir
index c6b42af478347..fbb9e743c5c4d 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom_sum.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reduce_custom_sum.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions.mlir
index bb1ea60bf8d34..64f82644ab3d5 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions_min.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions_min.mlir
index 58a5747116ee2..75d3c76e87b90 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions_min.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions_min.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions_prod.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions_prod.mlir
index 28702976893d8..a961045d26b26 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions_prod.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reductions_prod.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reshape.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reshape.mlir
index 403cbf4cc6fb5..7fe4fcc1ad356 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reshape.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_reshape.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_rewrite_push_back.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_rewrite_push_back.mlir
index a90324c3e6d60..42dec15883536 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_rewrite_push_back.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_rewrite_push_back.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_rewrite_sort_coo.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_rewrite_sort_coo.mlir
index 9e0b44ef15dae..c45b169f82779 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_rewrite_sort_coo.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_rewrite_sort_coo.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sampled_matmul.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sampled_matmul.mlir
index ebd3c643c65ab..e0cc6ca871aa1 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sampled_matmul.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sampled_matmul.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sampled_mm_fusion.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sampled_mm_fusion.mlir
index de6a1e1aa3c11..11b49e01cfa95 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sampled_mm_fusion.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sampled_mm_fusion.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_scale.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_scale.mlir
index cb391b7d59793..29dd801ea1d02 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_scale.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_scale.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_scf_nested.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_scf_nested.mlir
index d802559184338..3122a81f6dd3e 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_scf_nested.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_scf_nested.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_select.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_select.mlir
index 85a4e2fea410a..d30e5c3cdfe7c 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_select.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_select.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_semiring_select.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_semiring_select.mlir
index 22555dcee8611..05d970f183c2e 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_semiring_select.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_semiring_select.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sign.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sign.mlir
index 6c0e1f3703ee4..7a5f9df606b52 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sign.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sign.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sorted_coo.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sorted_coo.mlir
index 47aded8825d99..33ecc460379bc 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sorted_coo.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sorted_coo.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_spmm.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_spmm.mlir
index d74722d8ddce8..97a121e758ea9 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_spmm.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_spmm.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_storage.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_storage.mlir
index 3ccbdb36128f9..78e906e8a8d69 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_storage.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_storage.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_strided_conv_2d_nhwc_hwcf.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_strided_conv_2d_nhwc_hwcf.mlir
index 713e0f5d0abfd..090323fbaabf9 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_strided_conv_2d_nhwc_hwcf.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_strided_conv_2d_nhwc_hwcf.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum.mlir
index 2d279995dada1..015ac13504dcb 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_bf16.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_bf16.mlir
index 3b2629a2cd2ae..a0711d5b577a3 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_bf16.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_bf16.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_c32.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_c32.mlir
index 3d6c944cd2223..5950b64393dfd 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_c32.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_c32.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_f16.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_f16.mlir
index d9321b926141c..2e6e51f5164de 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_f16.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_sum_f16.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tanh.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tanh.mlir
index 6fdbf161b0029..6dc6d7c7af10f 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tanh.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tanh.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tensor_mul.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tensor_mul.mlir
index 06f3556294145..46786aa67cbd1 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tensor_mul.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tensor_mul.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tensor_ops.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tensor_ops.mlir
index de437509c2e94..2b65cf5538b8c 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tensor_ops.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_tensor_ops.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_transpose.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_transpose.mlir
index f6d3e5c7ca994..ab9728e4c4dad 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_transpose.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_transpose.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_transpose_coo.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_transpose_coo.mlir
index 83e965a26b336..43674f6e5fc0a 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_transpose_coo.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_transpose_coo.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_unary.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_unary.mlir
index 0d29afb27c5c2..d4162b54eb95c 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_unary.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_unary.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_vector_ops.mlir b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_vector_ops.mlir
index b771f92525e26..9e59f6d1172bd 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_vector_ops.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/CPU/sparse_vector_ops.mlir
@@ -12,7 +12,7 @@
 // DEFINE: %{run_libs} = -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils
 // DEFINE: %{run_libs_sve} = -shared-libs=%native_mlir_runner_utils,%native_mlir_c_runner_utils
 // DEFINE: %{run_opts} = -e main -entry-point-result=void
-// DEFINE: %{run} = mlir-cpu-runner %{run_opts} %{run_libs}
+// DEFINE: %{run} = mlir-runner %{run_opts} %{run_libs}
 // DEFINE: %{run_sve} = %mcr_aarch64_cmd --march=aarch64 --mattr="+sve" %{run_opts} %{run_libs_sve}
 //
 // DEFINE: %{env} =
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-hand.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-hand.mlir
index 117832df95b46..661639c50266f 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-hand.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-hand.mlir
@@ -3,7 +3,7 @@
 // DEFINE: %{compile} = mlir-opt --convert-vector-to-scf --convert-scf-to-cf -convert-cf-to-llvm --convert-vector-to-llvm \
 // DEFINE: --convert-arith-to-llvm --gpu-to-llvm --reconcile-unrealized-casts \
 // DEFINE: %s
-// DEFINE: %{run} = mlir-cpu-runner \
+// DEFINE: %{run} = mlir-runner \
 // DEFINE:   --shared-libs=%mlir_cuda_runtime \
 // DEFINE:   --shared-libs=%mlir_c_runner_utils \
 // DEFINE:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-lib.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-lib.mlir
index b0f63f12c2d57..bfe4f75d16bc5 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-lib.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-lib.mlir
@@ -2,7 +2,7 @@
 //
 // DEFINE: %{compile} = mlir-opt %s \
 // DEFINE:   --sparsifier="enable-gpu-libgen gpu-triple=nvptx64-nvidia-cuda gpu-chip=sm_80 gpu-features=+ptx71 gpu-format=%gpu_compilation_format
-// DEFINE: %{run} = mlir-cpu-runner \
+// DEFINE: %{run} = mlir-runner \
 // DEFINE:   --shared-libs=%mlir_cuda_runtime \
 // DEFINE:   --shared-libs=%mlir_c_runner_utils \
 // DEFINE:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-prune.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-prune.mlir
index 311cb607b4293..ba200399f7151 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-prune.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sm80-lt/sparse-matmul-2-4-prune.mlir
@@ -2,7 +2,7 @@
 //
 // DEFINE: %{compile} = mlir-opt %s \
 // DEFINE:   --sparsifier="enable-gpu-libgen gpu-triple=nvptx64-nvidia-cuda gpu-chip=sm_80 gpu-features=+ptx71 gpu-format=%gpu_compilation_format
-// DEFINE: %{run} = mlir-cpu-runner \
+// DEFINE: %{run} = mlir-runner \
 // DEFINE:   --shared-libs=%mlir_cuda_runtime \
 // DEFINE:   --shared-libs=%mlir_c_runner_utils \
 // DEFINE:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-gemm-lib.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-gemm-lib.mlir
index bd71409892f43..4f7ee03b98f0c 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-gemm-lib.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-gemm-lib.mlir
@@ -2,7 +2,7 @@
 //
 // DEFINE: %{compile} = mlir-opt %s \
 // DEFINE:   --sparsifier="enable-gpu-libgen gpu-triple=nvptx64-nvidia-cuda gpu-chip=sm_80 gpu-features=+ptx71 gpu-format=%gpu_compilation_format
-// DEFINE: %{run} = mlir-cpu-runner \
+// DEFINE: %{run} = mlir-runner \
 // DEFINE:   --shared-libs=%mlir_cuda_runtime \
 // DEFINE:   --shared-libs=%mlir_c_runner_utils \
 // DEFINE:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matmul-lib.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matmul-lib.mlir
index 0e7c75bc41aae..282ee1cd3ad46 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matmul-lib.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matmul-lib.mlir
@@ -2,7 +2,7 @@
 //
 // DEFINE: %{compile} = mlir-opt %s \
 // DEFINE:   --sparsifier="enable-gpu-libgen gpu-triple=nvptx64-nvidia-cuda gpu-chip=sm_80 gpu-features=+ptx71 gpu-format=%gpu_compilation_format
-// DEFINE: %{run} = mlir-cpu-runner \
+// DEFINE: %{run} = mlir-runner \
 // DEFINE:   --shared-libs=%mlir_cuda_runtime \
 // DEFINE:   --shared-libs=%mlir_c_runner_utils \
 // DEFINE:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec-const.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec-const.mlir
index 415697aaaba5d..4cb959557f15b 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec-const.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec-const.mlir
@@ -3,7 +3,7 @@
 //
 // RUN: mlir-opt %s \
 // RUN:   --sparsifier="enable-runtime-library=false parallelization-strategy=dense-outer-loop gpu-triple=nvptx64-nvidia-cuda gpu-chip=sm_80 gpu-features=+ptx71 gpu-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_c_runner_utils \
 // RUN:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec-lib.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec-lib.mlir
index 9bb7f91f22db5..452bd0d89682c 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec-lib.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec-lib.mlir
@@ -2,7 +2,7 @@
 //
 // DEFINE: %{compile} = mlir-opt %s \
 // DEFINE:   --sparsifier="enable-gpu-libgen gpu-triple=nvptx64-nvidia-cuda gpu-chip=sm_80 gpu-features=+ptx71 gpu-format=%gpu_compilation_format
-// DEFINE: %{run} = mlir-cpu-runner \
+// DEFINE: %{run} = mlir-runner \
 // DEFINE:   --shared-libs=%mlir_cuda_runtime \
 // DEFINE:   --shared-libs=%mlir_c_runner_utils \
 // DEFINE:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec.mlir
index 14b6da7181302..32d48f7155bdf 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-matvec.mlir
@@ -3,7 +3,7 @@
 //
 // RUN: mlir-opt %s \
 // RUN:   --sparsifier="enable-runtime-library=false parallelization-strategy=dense-outer-loop gpu-triple=nvptx64-nvidia-cuda gpu-chip=sm_80 gpu-features=+ptx71 gpu-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_c_runner_utils \
 // RUN:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-mma-2-4-f16.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-mma-2-4-f16.mlir
index 6ae54d65ea37b..d8d7c1c39db91 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-mma-2-4-f16.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-mma-2-4-f16.mlir
@@ -5,7 +5,7 @@
 // RUN: --pass-pipeline="builtin.module(gpu.module(strip-debuginfo,convert-gpu-to-nvvm,convert-nvgpu-to-nvvm,affine-expand-index-ops,lower-affine,arith-expand,convert-arith-to-llvm),convert-vector-to-llvm,canonicalize,cse)" \
 // RUN: %s \
 // RUN: | mlir-opt --gpu-lower-to-nvvm-pipeline="cubin-chip=sm_80 cubin-features=+ptx71 cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_c_runner_utils \
 // RUN:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-sampled-matmul-lib.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-sampled-matmul-lib.mlir
index 64f289626c07b..4494ee296ae1f 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-sampled-matmul-lib.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-sampled-matmul-lib.mlir
@@ -4,7 +4,7 @@
 // DEFINE:   --sparsifier="enable-gpu-libgen gpu-triple=nvptx64-nvidia-cuda gpu-chip=sm_80 gpu-features=+ptx71 gpu-format=%gpu_compilation_format
 // DEFINE: %{run} = \
 // DEFINE:   env TENSOR0="%mlir_src_dir/test/Integration/data/test.mtx" \
-// DEFINE:   mlir-cpu-runner \
+// DEFINE:   mlir-runner \
 // DEFINE:   --shared-libs=%mlir_cuda_runtime \
 // DEFINE:   --shared-libs=%mlir_c_runner_utils \
 // DEFINE:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-sddmm-lib.mlir b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-sddmm-lib.mlir
index 4b503ae0d1105..39b0a04d388d8 100644
--- a/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-sddmm-lib.mlir
+++ b/mlir/test/Integration/Dialect/SparseTensor/GPU/CUDA/sparse-sddmm-lib.mlir
@@ -4,7 +4,7 @@
 // DEFINE:   --sparsifier="enable-gpu-libgen gpu-triple=nvptx64-nvidia-cuda gpu-chip=sm_80 gpu-features=+ptx71 gpu-format=%gpu_compilation_format
 // DEFINE: %{run} = \
 // DEFINE:   env TENSOR0="%mlir_src_dir/test/Integration/data/block.mtx" \
-// DEFINE:   mlir-cpu-runner \
+// DEFINE:   mlir-runner \
 // DEFINE:   --shared-libs=%mlir_cuda_runtime \
 // DEFINE:   --shared-libs=%mlir_c_runner_utils \
 // DEFINE:   --e main --entry-point-result=void \
diff --git a/mlir/test/Integration/Dialect/Standard/CPU/test-ceil-floor-pos-neg.mlir b/mlir/test/Integration/Dialect/Standard/CPU/test-ceil-floor-pos-neg.mlir
index fc55ecd533174..303511a2b4534 100644
--- a/mlir/test/Integration/Dialect/Standard/CPU/test-ceil-floor-pos-neg.mlir
+++ b/mlir/test/Integration/Dialect/Standard/CPU/test-ceil-floor-pos-neg.mlir
@@ -1,9 +1,9 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf,lower-affine,convert-scf-to-cf,memref-expand,arith-expand),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf,lower-affine,convert-scf-to-cf,memref-expand,arith-expand),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void  \
+// RUN: mlir-runner -e main -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s --check-prefix=SCHECK
 
diff --git a/mlir/test/Integration/Dialect/Standard/CPU/test_subview.mlir b/mlir/test/Integration/Dialect/Standard/CPU/test_subview.mlir
index 6fe5e87a4ce72..a37a929182fc5 100644
--- a/mlir/test/Integration/Dialect/Standard/CPU/test_subview.mlir
+++ b/mlir/test/Integration/Dialect/Standard/CPU/test_subview.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -expand-strided-metadata -lower-affine -convert-arith-to-llvm -finalize-memref-to-llvm -convert-func-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils | FileCheck %s
 
 memref.global "private" constant @__constant_5x3xf32 : memref<5x3xf32> =
diff --git a/mlir/test/Integration/Dialect/Tosa/CPU/test-fully-connected.mlir b/mlir/test/Integration/Dialect/Tosa/CPU/test-fully-connected.mlir
index 258b1b4f2fab4..e599650bfffb9 100644
--- a/mlir/test/Integration/Dialect/Tosa/CPU/test-fully-connected.mlir
+++ b/mlir/test/Integration/Dialect/Tosa/CPU/test-fully-connected.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(tosa-to-linalg-named,tosa-to-linalg,tosa-to-arith))" | \
 // RUN: mlir-opt -one-shot-bufferize="bufferize-function-boundaries" -buffer-deallocation-pipeline -test-lower-to-llvm | \
-// RUN: mlir-cpu-runner -O3 -e main -entry-point-result=void \
+// RUN: mlir-runner -O3 -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Tosa/CPU/test-maxpool-dynamic.mlir b/mlir/test/Integration/Dialect/Tosa/CPU/test-maxpool-dynamic.mlir
index 1b5fc9070ef6c..3c508fbb67a11 100644
--- a/mlir/test/Integration/Dialect/Tosa/CPU/test-maxpool-dynamic.mlir
+++ b/mlir/test/Integration/Dialect/Tosa/CPU/test-maxpool-dynamic.mlir
@@ -6,7 +6,7 @@
 // RUN:     -one-shot-bufferize="bufferize-function-boundaries" \
 // RUN:     -buffer-deallocation-pipeline \
 // RUN:     -test-lower-to-llvm \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:     -entry-point-result=void \
 // RUN:     -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils \
 // RUN: | FileCheck %s
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/0-d-vectors.mlir b/mlir/test/Integration/Dialect/Vector/CPU/0-d-vectors.mlir
index 9c23ad7156778..6e2a82bcd69f6 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/0-d-vectors.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/0-d-vectors.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/broadcast.mlir b/mlir/test/Integration/Dialect/Vector/CPU/broadcast.mlir
index 6b6b5271e092c..2acbc88fc00f8 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/broadcast.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/broadcast.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/compress.mlir b/mlir/test/Integration/Dialect/Vector/CPU/compress.mlir
index 241973f9604a3..e9a66cca737a8 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/compress.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/compress.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/constant-mask.mlir b/mlir/test/Integration/Dialect/Vector/CPU/constant-mask.mlir
index 6e95bef1c35c7..758dd850fb099 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/constant-mask.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/constant-mask.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/contraction.mlir b/mlir/test/Integration/Dialect/Vector/CPU/contraction.mlir
index 06b6a93fa07c2..7f74264a48b9f 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/contraction.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/contraction.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/create-mask-v4i1.mlir b/mlir/test/Integration/Dialect/Vector/CPU/create-mask-v4i1.mlir
index 984533658f4f3..3aff0ac6d156d 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/create-mask-v4i1.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/create-mask-v4i1.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/create-mask.mlir b/mlir/test/Integration/Dialect/Vector/CPU/create-mask.mlir
index c7a9308bcb17a..e5d6fa5bbaf0c 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/create-mask.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/create-mask.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/expand.mlir b/mlir/test/Integration/Dialect/Vector/CPU/expand.mlir
index ffef50fda2b51..8c994f83c5fdb 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/expand.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/expand.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/extract-strided-slice.mlir b/mlir/test/Integration/Dialect/Vector/CPU/extract-strided-slice.mlir
index 3fcc6a0eea4c0..b439f61cfe500 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/extract-strided-slice.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/extract-strided-slice.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/flat-transpose-col.mlir b/mlir/test/Integration/Dialect/Vector/CPU/flat-transpose-col.mlir
index bccc53a62dc6e..b414242b34cc0 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/flat-transpose-col.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/flat-transpose-col.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -O0 -enable-matrix -matrix-allow-contract -matrix-default-layout=column-major \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/flat-transpose-row.mlir b/mlir/test/Integration/Dialect/Vector/CPU/flat-transpose-row.mlir
index 6514b05924557..95b178e04a2bb 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/flat-transpose-row.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/flat-transpose-row.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -O0 -enable-matrix -matrix-allow-contract -matrix-default-layout=row-major \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/fma.mlir b/mlir/test/Integration/Dialect/Vector/CPU/fma.mlir
index 6d0d0dde3a84e..61362f286fd16 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/fma.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/fma.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/gather.mlir b/mlir/test/Integration/Dialect/Vector/CPU/gather.mlir
index 36b9b749cc4f9..ab2e713e83a6c 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/gather.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/gather.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/index-vectors.mlir b/mlir/test/Integration/Dialect/Vector/CPU/index-vectors.mlir
index 0865a8d54ac91..d261739274eb1 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/index-vectors.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/index-vectors.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/insert-strided-slice.mlir b/mlir/test/Integration/Dialect/Vector/CPU/insert-strided-slice.mlir
index 5bfbcdafd452d..5153b8417e6ce 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/insert-strided-slice.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/insert-strided-slice.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/interleave.mlir b/mlir/test/Integration/Dialect/Vector/CPU/interleave.mlir
index d6962cbe2776a..f812c25c0352f 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/interleave.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/interleave.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/maskedload.mlir b/mlir/test/Integration/Dialect/Vector/CPU/maskedload.mlir
index cb99f54853627..b9f9f8674d412 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/maskedload.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/maskedload.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/maskedstore.mlir b/mlir/test/Integration/Dialect/Vector/CPU/maskedstore.mlir
index 6f4c692402822..2dc00df9d2ba6 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/maskedstore.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/maskedstore.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/matrix-multiply-col.mlir b/mlir/test/Integration/Dialect/Vector/CPU/matrix-multiply-col.mlir
index cb04dacc965ba..8f75ec98465ca 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/matrix-multiply-col.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/matrix-multiply-col.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -O0 -enable-matrix -matrix-allow-contract -matrix-default-layout=column-major \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/matrix-multiply-row.mlir b/mlir/test/Integration/Dialect/Vector/CPU/matrix-multiply-row.mlir
index b93a5ae42a873..b7d27c45226ef 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/matrix-multiply-row.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/matrix-multiply-row.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -O0 -enable-matrix -matrix-allow-contract -matrix-default-layout=row-major \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/outerproduct-f32.mlir b/mlir/test/Integration/Dialect/Vector/CPU/outerproduct-f32.mlir
index 3e6e3ef7a3a2c..f7e2229321c00 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/outerproduct-f32.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/outerproduct-f32.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/outerproduct-i64.mlir b/mlir/test/Integration/Dialect/Vector/CPU/outerproduct-i64.mlir
index 702d2ca937874..a19dfa1ce818e 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/outerproduct-i64.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/outerproduct-i64.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/print-fp.mlir b/mlir/test/Integration/Dialect/Vector/CPU/print-fp.mlir
index 252ace34fe4a9..a32118eaf3ccd 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/print-fp.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/print-fp.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/print-int.mlir b/mlir/test/Integration/Dialect/Vector/CPU/print-int.mlir
index 730d836035434..7b0bbeb43e628 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/print-int.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/print-int.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/print-str.mlir b/mlir/test/Integration/Dialect/Vector/CPU/print-str.mlir
index 25a44f22c2dc0..2b953f2537906 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/print-str.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/print-str.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils,%mlir_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/realloc.mlir b/mlir/test/Integration/Dialect/Vector/CPU/realloc.mlir
index d478b6f0c298c..a42b4bcbd68ce 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/realloc.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/realloc.mlir
@@ -1,8 +1,8 @@
 // RUN: mlir-opt %s -convert-vector-to-scf -expand-realloc -expand-strided-metadata -convert-scf-to-cf -convert-vector-to-llvm -finalize-memref-to-llvm -convert-func-to-llvm -convert-arith-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts |\
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils
 // RUN: mlir-opt %s -convert-vector-to-scf -expand-realloc -expand-strided-metadata -convert-scf-to-cf -convert-vector-to-llvm -finalize-memref-to-llvm='use-aligned-alloc=1' -convert-func-to-llvm -arith-expand -convert-arith-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts |\
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | FileCheck %s
 
 // FIXME: Windows does not have aligned_alloc
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/reductions-f32-reassoc.mlir b/mlir/test/Integration/Dialect/Vector/CPU/reductions-f32-reassoc.mlir
index 4cf3dec45d6d1..2bce9e6939d17 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/reductions-f32-reassoc.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/reductions-f32-reassoc.mlir
@@ -2,7 +2,7 @@
 // RUN:             -convert-vector-to-llvm='reassociate-fp-reductions' \
 // RUN:             -convert-func-to-llvm -convert-arith-to-llvm \
 // RUN:             -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/reductions-f32.mlir b/mlir/test/Integration/Dialect/Vector/CPU/reductions-f32.mlir
index 9acf3d50b50ee..288b09251f97c 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/reductions-f32.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/reductions-f32.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/reductions-f64-reassoc.mlir b/mlir/test/Integration/Dialect/Vector/CPU/reductions-f64-reassoc.mlir
index 78778bcddd900..661e7aeddadb4 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/reductions-f64-reassoc.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/reductions-f64-reassoc.mlir
@@ -2,7 +2,7 @@
 // RUN:             -convert-vector-to-llvm='reassociate-fp-reductions' \
 // RUN:             -convert-func-to-llvm -convert-arith-to-llvm \
 // RUN:             -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/reductions-f64.mlir b/mlir/test/Integration/Dialect/Vector/CPU/reductions-f64.mlir
index 8bf01c703e3c2..6a523605c570f 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/reductions-f64.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/reductions-f64.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/reductions-i32.mlir b/mlir/test/Integration/Dialect/Vector/CPU/reductions-i32.mlir
index 292a4693b31b5..5ff723ba7143b 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/reductions-i32.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/reductions-i32.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/reductions-i4.mlir b/mlir/test/Integration/Dialect/Vector/CPU/reductions-i4.mlir
index 5aa97e8580817..1feecb25ef2a0 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/reductions-i4.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/reductions-i4.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/reductions-i64.mlir b/mlir/test/Integration/Dialect/Vector/CPU/reductions-i64.mlir
index 8c89472e0724a..7b75f16538536 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/reductions-i64.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/reductions-i64.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/reductions-si4.mlir b/mlir/test/Integration/Dialect/Vector/CPU/reductions-si4.mlir
index 4992a8795756b..842d2cf220c87 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/reductions-si4.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/reductions-si4.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/reductions-ui4.mlir b/mlir/test/Integration/Dialect/Vector/CPU/reductions-ui4.mlir
index 251ead2bf1eb0..940ede9620520 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/reductions-ui4.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/reductions-ui4.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/rewrite-narrow-types.mlir b/mlir/test/Integration/Dialect/Vector/CPU/rewrite-narrow-types.mlir
index a0b39a2b68f43..5f91ff5aacb1d 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/rewrite-narrow-types.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/rewrite-narrow-types.mlir
@@ -1,12 +1,12 @@
 /// Run once without applying the pattern and check the source of truth.
 // RUN: mlir-opt %s --test-transform-dialect-erase-schedule -test-lower-to-llvm | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
 /// Run once with the pattern and compare.
 // RUN: mlir-opt %s -transform-interpreter -test-transform-dialect-erase-schedule -test-lower-to-llvm | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/scan.mlir b/mlir/test/Integration/Dialect/Vector/CPU/scan.mlir
index ae8b65b3533d1..8bf514903156e 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/scan.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/scan.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vector-scan-lowering -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/scatter.mlir b/mlir/test/Integration/Dialect/Vector/CPU/scatter.mlir
index 5a1d6f693e7a8..54b6e699c1d67 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/scatter.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/scatter.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/shape-cast.mlir b/mlir/test/Integration/Dialect/Vector/CPU/shape-cast.mlir
index 755445c21a2b7..ac90f84a032f0 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/shape-cast.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/shape-cast.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/shuffle.mlir b/mlir/test/Integration/Dialect/Vector/CPU/shuffle.mlir
index bc5efef687830..3257806c1246e 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/shuffle.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/shuffle.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/shuffle16x16.mlir b/mlir/test/Integration/Dialect/Vector/CPU/shuffle16x16.mlir
index 4c4520a03e2d5..03bc2b5123c48 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/shuffle16x16.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/shuffle16x16.mlir
@@ -2,7 +2,7 @@
 // RUN:   -transform-interpreter \
 // RUN:   -test-transform-dialect-erase-schedule \
 // RUN:   -convert-vector-to-llvm -convert-func-to-llvm -convert-arith-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/sparse-dot-matvec.mlir b/mlir/test/Integration/Dialect/Vector/CPU/sparse-dot-matvec.mlir
index 788d06df87c53..c1156a89c2a0c 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/sparse-dot-matvec.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/sparse-dot-matvec.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/sparse-saxpy-jagged-matvec.mlir b/mlir/test/Integration/Dialect/Vector/CPU/sparse-saxpy-jagged-matvec.mlir
index c9cb715f6e311..e2a30cc7bdc09 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/sparse-saxpy-jagged-matvec.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/sparse-saxpy-jagged-matvec.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/test-deinterleave.mlir b/mlir/test/Integration/Dialect/Vector/CPU/test-deinterleave.mlir
index 4915a3cde124d..25ea8eb86d06b 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/test-deinterleave.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/test-deinterleave.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void \
+// RUN: mlir-runner -e entry -entry-point-result=void \
 // RUN: -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-1d.mlir b/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-1d.mlir
index b0a2f255edb8c..c4222a744f0a9 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-1d.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-1d.mlir
@@ -1,10 +1,10 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf,expand-strided-metadata,lower-affine,convert-arith-to-llvm,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf{full-unroll=true},expand-strided-metadata,lower-affine,convert-arith-to-llvm,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-2d.mlir b/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-2d.mlir
index 7979bd9b11b7f..61e25c2dee732 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-2d.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-2d.mlir
@@ -1,10 +1,10 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf,lower-affine,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf{full-unroll=true},lower-affine,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-3d.mlir b/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-3d.mlir
index e2f1d1ca07251..6c120d1b28c38 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-3d.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/transfer-read-3d.mlir
@@ -1,10 +1,10 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf,lower-affine,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf{full-unroll=true},lower-affine,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/transfer-read.mlir b/mlir/test/Integration/Dialect/Vector/CPU/transfer-read.mlir
index 4844daed93cd7..d1a2790a7db61 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/transfer-read.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/transfer-read.mlir
@@ -1,10 +1,10 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf,lower-affine,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf{full-unroll=true},lower-affine,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/transfer-to-loops.mlir b/mlir/test/Integration/Dialect/Vector/CPU/transfer-to-loops.mlir
index c24c509d55ea1..1e74bc72e5b7f 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/transfer-to-loops.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/transfer-to-loops.mlir
@@ -1,10 +1,10 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf,lower-affine,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void  \
+// RUN: mlir-runner -e main -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-vector-to-scf{full-unroll=true},lower-affine,convert-scf-to-cf),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-arith-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void  \
+// RUN: mlir-runner -e main -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/transfer-write.mlir b/mlir/test/Integration/Dialect/Vector/CPU/transfer-write.mlir
index 49fb12c2f6386..def708103fab1 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/transfer-write.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/transfer-write.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/CPU/transpose.mlir b/mlir/test/Integration/Dialect/Vector/CPU/transpose.mlir
index 22971478066a8..7a783aed83cad 100644
--- a/mlir/test/Integration/Dialect/Vector/CPU/transpose.mlir
+++ b/mlir/test/Integration/Dialect/Vector/CPU/transpose.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-lower-to-llvm  | \
-// RUN: mlir-cpu-runner -e entry -entry-point-result=void  \
+// RUN: mlir-runner -e entry -entry-point-result=void  \
 // RUN:   -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/Integration/Dialect/Vector/GPU/CUDA/test-reduction-distribute.mlir b/mlir/test/Integration/Dialect/Vector/GPU/CUDA/test-reduction-distribute.mlir
index f1abf77753b87..c35e8e5d92908 100644
--- a/mlir/test/Integration/Dialect/Vector/GPU/CUDA/test-reduction-distribute.mlir
+++ b/mlir/test/Integration/Dialect/Vector/GPU/CUDA/test-reduction-distribute.mlir
@@ -2,7 +2,7 @@
 // RUN: mlir-opt -test-vector-warp-distribute=rewrite-warp-ops-to-scf-if |\
 // RUN: mlir-opt -lower-affine -convert-vector-to-scf -convert-scf-to-cf -convert-vector-to-llvm \
 // RUN:  -convert-arith-to-llvm -gpu-lower-to-nvvm-pipeline | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_cuda_runtime \
 // RUN:   -shared-libs=%mlir_c_runner_utils \
 // RUN:   -shared-libs=%mlir_runner_utils | \
diff --git a/mlir/test/Integration/Dialect/Vector/GPU/CUDA/test-warp-distribute.mlir b/mlir/test/Integration/Dialect/Vector/GPU/CUDA/test-warp-distribute.mlir
index 8ce24bfe3640a..f4d02e3346d16 100644
--- a/mlir/test/Integration/Dialect/Vector/GPU/CUDA/test-warp-distribute.mlir
+++ b/mlir/test/Integration/Dialect/Vector/GPU/CUDA/test-warp-distribute.mlir
@@ -3,7 +3,7 @@
 // RUN: mlir-opt %s -test-vector-warp-distribute=rewrite-warp-ops-to-scf-if -canonicalize | \
 // RUN: mlir-opt -convert-vector-to-scf -convert-scf-to-cf -convert-cf-to-llvm -convert-vector-to-llvm -convert-arith-to-llvm \
 // RUN:  -gpu-lower-to-nvvm-pipeline | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_cuda_runtime \
 // RUN:   -shared-libs=%mlir_c_runner_utils \
 // RUN:   -shared-libs=%mlir_runner_utils | \
@@ -14,7 +14,7 @@
 // RUN:   -test-vector-warp-distribute=rewrite-warp-ops-to-scf-if -canonicalize | \
 // RUN: mlir-opt -convert-vector-to-scf -convert-scf-to-cf -convert-cf-to-llvm -convert-vector-to-llvm -convert-arith-to-llvm \
 // RUN:  -gpu-lower-to-nvvm-pipeline | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_cuda_runtime \
 // RUN:   -shared-libs=%mlir_c_runner_utils \
 // RUN:   -shared-libs=%mlir_runner_utils | \
@@ -24,7 +24,7 @@
 // RUN:   -test-vector-warp-distribute=rewrite-warp-ops-to-scf-if -canonicalize | \
 // RUN: mlir-opt -convert-vector-to-scf -convert-scf-to-cf -convert-cf-to-llvm -convert-vector-to-llvm -convert-arith-to-llvm \
 // RUN:  -gpu-lower-to-nvvm-pipeline | \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN:   -shared-libs=%mlir_cuda_runtime \
 // RUN:   -shared-libs=%mlir_c_runner_utils \
 // RUN:   -shared-libs=%mlir_runner_utils | \
diff --git a/mlir/test/Integration/GPU/CUDA/TensorCore/sm80/transform-mma-sync-matmul-f16-f16-accum.mlir b/mlir/test/Integration/GPU/CUDA/TensorCore/sm80/transform-mma-sync-matmul-f16-f16-accum.mlir
index 8379710ebbbb7..f38b9ddfaa10e 100644
--- a/mlir/test/Integration/GPU/CUDA/TensorCore/sm80/transform-mma-sync-matmul-f16-f16-accum.mlir
+++ b/mlir/test/Integration/GPU/CUDA/TensorCore/sm80/transform-mma-sync-matmul-f16-f16-accum.mlir
@@ -2,7 +2,7 @@
 // RUN:  -transform-interpreter \
 // RUN:  -test-transform-dialect-erase-schedule \
 // RUN:  -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_80 cubin-features=+ptx76 cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/TensorCore/sm80/transform-mma-sync-matmul-f32.mlir b/mlir/test/Integration/GPU/CUDA/TensorCore/sm80/transform-mma-sync-matmul-f32.mlir
index afed0ef667a27..1eae22f0b85d0 100644
--- a/mlir/test/Integration/GPU/CUDA/TensorCore/sm80/transform-mma-sync-matmul-f32.mlir
+++ b/mlir/test/Integration/GPU/CUDA/TensorCore/sm80/transform-mma-sync-matmul-f32.mlir
@@ -12,7 +12,7 @@
 // RUN:   -transform-interpreter \
 // RUN:   -test-transform-dialect-erase-schedule \
 // RUN:   -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_80 cubin-features=+ptx76 cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f16.mlir b/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f16.mlir
index 958da79ee1668..01144b3495866 100644
--- a/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f16.mlir
+++ b/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f16.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_70 cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f32-bare-ptr.mlir b/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f32-bare-ptr.mlir
index 6b5b635c85345..3301e68e5d123 100644
--- a/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f32-bare-ptr.mlir
+++ b/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f32-bare-ptr.mlir
@@ -4,7 +4,7 @@
 // This test also uses gpu.memcpy operations (instead of gpu.host_register).
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="host-bare-ptr-calling-convention=1 kernel-bare-ptr-calling-convention=1 cubin-chip=sm_70 cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --entry-point-result=void \
 // RUN: | FileCheck %s
diff --git a/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f32.mlir b/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f32.mlir
index 7fbe3e1c88191..4db9aa056e757 100644
--- a/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f32.mlir
+++ b/mlir/test/Integration/GPU/CUDA/TensorCore/wmma-matmul-f32.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_70 cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/all-reduce-and.mlir b/mlir/test/Integration/GPU/CUDA/all-reduce-and.mlir
index 9e10aab0f3812..5585d98c25b82 100644
--- a/mlir/test/Integration/GPU/CUDA/all-reduce-and.mlir
+++ b/mlir/test/Integration/GPU/CUDA/all-reduce-and.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
@@ -9,7 +9,7 @@
 // Same as above but with the memref bare pointer lowering convention.
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="kernel-bare-ptr-calling-convention=1 cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/all-reduce-maxsi.mlir b/mlir/test/Integration/GPU/CUDA/all-reduce-maxsi.mlir
index c2ea7919cc3f1..cd90ce3ba2f1a 100644
--- a/mlir/test/Integration/GPU/CUDA/all-reduce-maxsi.mlir
+++ b/mlir/test/Integration/GPU/CUDA/all-reduce-maxsi.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/all-reduce-minsi.mlir b/mlir/test/Integration/GPU/CUDA/all-reduce-minsi.mlir
index db649cbeb1943..fec2567f47f15 100644
--- a/mlir/test/Integration/GPU/CUDA/all-reduce-minsi.mlir
+++ b/mlir/test/Integration/GPU/CUDA/all-reduce-minsi.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/all-reduce-op.mlir b/mlir/test/Integration/GPU/CUDA/all-reduce-op.mlir
index 60323cee952a0..d5633b00313b3 100644
--- a/mlir/test/Integration/GPU/CUDA/all-reduce-op.mlir
+++ b/mlir/test/Integration/GPU/CUDA/all-reduce-op.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/all-reduce-or.mlir b/mlir/test/Integration/GPU/CUDA/all-reduce-or.mlir
index 1501160e98a17..db297b0fc27b7 100644
--- a/mlir/test/Integration/GPU/CUDA/all-reduce-or.mlir
+++ b/mlir/test/Integration/GPU/CUDA/all-reduce-or.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/all-reduce-region.mlir b/mlir/test/Integration/GPU/CUDA/all-reduce-region.mlir
index 8e683f360f10c..65cbc79752177 100644
--- a/mlir/test/Integration/GPU/CUDA/all-reduce-region.mlir
+++ b/mlir/test/Integration/GPU/CUDA/all-reduce-region.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/all-reduce-xor.mlir b/mlir/test/Integration/GPU/CUDA/all-reduce-xor.mlir
index b1cae5b3f971a..a0c955e4b570c 100644
--- a/mlir/test/Integration/GPU/CUDA/all-reduce-xor.mlir
+++ b/mlir/test/Integration/GPU/CUDA/all-reduce-xor.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/alloc-host-shared.mlir b/mlir/test/Integration/GPU/CUDA/alloc-host-shared.mlir
index f63dbbb431658..f041df82b4325 100644
--- a/mlir/test/Integration/GPU/CUDA/alloc-host-shared.mlir
+++ b/mlir/test/Integration/GPU/CUDA/alloc-host-shared.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --shared-libs=%mlir_c_runner_utils \
diff --git a/mlir/test/Integration/GPU/CUDA/assert.mlir b/mlir/test/Integration/GPU/CUDA/assert.mlir
index 3d6527fe59b2c..71a21cf4bd620 100644
--- a/mlir/test/Integration/GPU/CUDA/assert.mlir
+++ b/mlir/test/Integration/GPU/CUDA/assert.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void 2>&1 \
diff --git a/mlir/test/Integration/GPU/CUDA/async.mlir b/mlir/test/Integration/GPU/CUDA/async.mlir
index 06de51bd6406a..5acadd61f432c 100644
--- a/mlir/test/Integration/GPU/CUDA/async.mlir
+++ b/mlir/test/Integration/GPU/CUDA/async.mlir
@@ -4,7 +4,7 @@
 // RUN: | mlir-opt -gpu-async-region -gpu-to-llvm -reconcile-unrealized-casts -gpu-module-to-binary="format=%gpu_compilation_format" \
 // RUN: | mlir-opt -async-to-async-runtime -async-runtime-ref-counting \
 // RUN: | mlir-opt -convert-async-to-llvm -convert-func-to-llvm -convert-arith-to-llvm -convert-cf-to-llvm -reconcile-unrealized-casts \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_async_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
diff --git a/mlir/test/Integration/GPU/CUDA/gpu-to-cubin.mlir b/mlir/test/Integration/GPU/CUDA/gpu-to-cubin.mlir
index 41024a003b183..07f3218ae89b2 100644
--- a/mlir/test/Integration/GPU/CUDA/gpu-to-cubin.mlir
+++ b/mlir/test/Integration/GPU/CUDA/gpu-to-cubin.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --shared-libs=%mlir_c_runner_utils \
diff --git a/mlir/test/Integration/GPU/CUDA/multiple-all-reduce.mlir b/mlir/test/Integration/GPU/CUDA/multiple-all-reduce.mlir
index 512f4902e5ec3..b2ac90acde94f 100644
--- a/mlir/test/Integration/GPU/CUDA/multiple-all-reduce.mlir
+++ b/mlir/test/Integration/GPU/CUDA/multiple-all-reduce.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/printf.mlir b/mlir/test/Integration/GPU/CUDA/printf.mlir
index 15b0bf02d911a..fd664f2331488 100644
--- a/mlir/test/Integration/GPU/CUDA/printf.mlir
+++ b/mlir/test/Integration/GPU/CUDA/printf.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/shuffle.mlir b/mlir/test/Integration/GPU/CUDA/shuffle.mlir
index cd11592c2dceb..a6207d64c038b 100644
--- a/mlir/test/Integration/GPU/CUDA/shuffle.mlir
+++ b/mlir/test/Integration/GPU/CUDA/shuffle.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/sm90/cga_cluster.mlir b/mlir/test/Integration/GPU/CUDA/sm90/cga_cluster.mlir
index a22a34b9393a3..4a0117bfc1df3 100644
--- a/mlir/test/Integration/GPU/CUDA/sm90/cga_cluster.mlir
+++ b/mlir/test/Integration/GPU/CUDA/sm90/cga_cluster.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN:  -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_90a cubin-features=+ptx80 opt-level=3" \
-// RUN:  | mlir-cpu-runner \
+// RUN:  | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --shared-libs=%mlir_c_runner_utils \
diff --git a/mlir/test/Integration/GPU/CUDA/sm90/gemm_f32_f16_f16_128x128x128.mlir b/mlir/test/Integration/GPU/CUDA/sm90/gemm_f32_f16_f16_128x128x128.mlir
index 51bcf459d83d5..1c5cf73db6eba 100644
--- a/mlir/test/Integration/GPU/CUDA/sm90/gemm_f32_f16_f16_128x128x128.mlir
+++ b/mlir/test/Integration/GPU/CUDA/sm90/gemm_f32_f16_f16_128x128x128.mlir
@@ -1,7 +1,7 @@
 // RUN: mlir-opt %s \
 // RUN:  -convert-linalg-to-loops \
 // RUN:  -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_90a cubin-features=+ptx80 opt-level=3" \
-// RUN:  | mlir-cpu-runner \
+// RUN:  | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --shared-libs=%mlir_c_runner_utils \
diff --git a/mlir/test/Integration/GPU/CUDA/sm90/gemm_pred_f32_f16_f16_128x128x128.mlir b/mlir/test/Integration/GPU/CUDA/sm90/gemm_pred_f32_f16_f16_128x128x128.mlir
index 85bdb38d67f0f..6e8ef2b75eae6 100644
--- a/mlir/test/Integration/GPU/CUDA/sm90/gemm_pred_f32_f16_f16_128x128x128.mlir
+++ b/mlir/test/Integration/GPU/CUDA/sm90/gemm_pred_f32_f16_f16_128x128x128.mlir
@@ -1,7 +1,7 @@
 // RUN: mlir-opt %s \
 // RUN:  -convert-linalg-to-loops \
 // RUN:  -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_90a cubin-features=+ptx80 opt-level=3" \
-// RUN:  | mlir-cpu-runner \
+// RUN:  | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --shared-libs=%mlir_c_runner_utils \
diff --git a/mlir/test/Integration/GPU/CUDA/sm90/tma_load_128x128_stride_noswizzle.mlir b/mlir/test/Integration/GPU/CUDA/sm90/tma_load_128x128_stride_noswizzle.mlir
index 1f284f250fd83..afbbeb025a574 100644
--- a/mlir/test/Integration/GPU/CUDA/sm90/tma_load_128x128_stride_noswizzle.mlir
+++ b/mlir/test/Integration/GPU/CUDA/sm90/tma_load_128x128_stride_noswizzle.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN:  -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_90 cubin-features=+ptx80 opt-level=3" \
-// RUN:  | mlir-cpu-runner \
+// RUN:  | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --shared-libs=%mlir_c_runner_utils \
diff --git a/mlir/test/Integration/GPU/CUDA/sm90/tma_load_128x64_swizzle128b.mlir b/mlir/test/Integration/GPU/CUDA/sm90/tma_load_128x64_swizzle128b.mlir
index 95bde40deb48e..ae96568a4650b 100644
--- a/mlir/test/Integration/GPU/CUDA/sm90/tma_load_128x64_swizzle128b.mlir
+++ b/mlir/test/Integration/GPU/CUDA/sm90/tma_load_128x64_swizzle128b.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN:  -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_90 cubin-features=+ptx80 opt-level=3" \
-// RUN:  | mlir-cpu-runner \
+// RUN:  | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/sm90/tma_load_64x64_swizzle128b.mlir b/mlir/test/Integration/GPU/CUDA/sm90/tma_load_64x64_swizzle128b.mlir
index e76fa03903b8a..462040cd04a3d 100644
--- a/mlir/test/Integration/GPU/CUDA/sm90/tma_load_64x64_swizzle128b.mlir
+++ b/mlir/test/Integration/GPU/CUDA/sm90/tma_load_64x64_swizzle128b.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN:  -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_90 cubin-features=+ptx80 opt-level=3" \
-// RUN:  | mlir-cpu-runner \
+// RUN:  | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/sm90/tma_load_64x8_8x128_noswizzle.mlir b/mlir/test/Integration/GPU/CUDA/sm90/tma_load_64x8_8x128_noswizzle.mlir
index acca9811f5702..31ee19500b85d 100644
--- a/mlir/test/Integration/GPU/CUDA/sm90/tma_load_64x8_8x128_noswizzle.mlir
+++ b/mlir/test/Integration/GPU/CUDA/sm90/tma_load_64x8_8x128_noswizzle.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN:  -gpu-lower-to-nvvm-pipeline="cubin-chip=sm_90 cubin-features=+ptx80 opt-level=3" \
-// RUN:  | mlir-cpu-runner \
+// RUN:  | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
@@ -18,7 +18,7 @@
 // RUN:         -expand-strided-metadata --nvvm-attach-target="module=main_kernel features=+ptx80 chip=sm_90 O=3" \
 // RUN:  | mlir-opt -pass-pipeline='builtin.module(gpu.module(strip-debuginfo,convert-gpu-to-nvvm,convert-index-to-llvm{index-bitwidth=32},canonicalize,cse))' \
 // RUN:  | mlir-opt --gpu-to-llvm --gpu-module-to-binary=format=%gpu_compilation_format -canonicalize -cse -reconcile-unrealized-casts \
-// RUN:  | mlir-cpu-runner \
+// RUN:  | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/sm90/transform-dialect/tma_load_64x8_8x128_noswizzle-transform.mlir b/mlir/test/Integration/GPU/CUDA/sm90/transform-dialect/tma_load_64x8_8x128_noswizzle-transform.mlir
index fe6c645357ecb..a42344cb800db 100644
--- a/mlir/test/Integration/GPU/CUDA/sm90/transform-dialect/tma_load_64x8_8x128_noswizzle-transform.mlir
+++ b/mlir/test/Integration/GPU/CUDA/sm90/transform-dialect/tma_load_64x8_8x128_noswizzle-transform.mlir
@@ -42,7 +42,7 @@
 // RUN:     -expand-strided-metadata --nvvm-attach-target="module=main_kernel features=+ptx80 chip=sm_90 O=3" \
 // RUN:  | mlir-opt -pass-pipeline='builtin.module(gpu.module(strip-debuginfo,convert-gpu-to-nvvm,convert-index-to-llvm{index-bitwidth=32},canonicalize,cse))' \
 // RUN:  | mlir-opt --gpu-to-llvm --gpu-module-to-binary=format=%gpu_compilation_format -canonicalize -cse -reconcile-unrealized-casts \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/CUDA/two-modules.mlir b/mlir/test/Integration/GPU/CUDA/two-modules.mlir
index db4b365dd85d3..c3cee2fda46f3 100644
--- a/mlir/test/Integration/GPU/CUDA/two-modules.mlir
+++ b/mlir/test/Integration/GPU/CUDA/two-modules.mlir
@@ -1,6 +1,6 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -gpu-lower-to-nvvm-pipeline="cubin-format=%gpu_compilation_format" \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_cuda_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/ROCM/gpu-to-hsaco.mlir b/mlir/test/Integration/GPU/ROCM/gpu-to-hsaco.mlir
index 3c8f3b1d0cbf4..5fa27eab3bba4 100644
--- a/mlir/test/Integration/GPU/ROCM/gpu-to-hsaco.mlir
+++ b/mlir/test/Integration/GPU/ROCM/gpu-to-hsaco.mlir
@@ -2,7 +2,7 @@
 // RUN: | mlir-opt -gpu-kernel-outlining \
 // RUN: | mlir-opt -pass-pipeline='builtin.module(gpu.module(strip-debuginfo,convert-gpu-to-rocdl),rocdl-attach-target{chip=%chip})' \
 // RUN: | mlir-opt -gpu-to-llvm -reconcile-unrealized-casts -gpu-module-to-binary \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_rocm_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/ROCM/printf.mlir b/mlir/test/Integration/GPU/ROCM/printf.mlir
index 4a0e4d34bfab5..8327ec428589d 100644
--- a/mlir/test/Integration/GPU/ROCM/printf.mlir
+++ b/mlir/test/Integration/GPU/ROCM/printf.mlir
@@ -1,7 +1,7 @@
 // RUN: mlir-opt %s \
 // RUN: | mlir-opt -pass-pipeline='builtin.module(gpu.module(strip-debuginfo,convert-gpu-to-rocdl{index-bitwidth=32 runtime=HIP}),rocdl-attach-target{chip=%chip})' \
 // RUN: | mlir-opt -gpu-to-llvm -reconcile-unrealized-casts -gpu-module-to-binary \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_rocm_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/ROCM/two-modules.mlir b/mlir/test/Integration/GPU/ROCM/two-modules.mlir
index d49d3957abbe9..f3062dbda86c8 100644
--- a/mlir/test/Integration/GPU/ROCM/two-modules.mlir
+++ b/mlir/test/Integration/GPU/ROCM/two-modules.mlir
@@ -2,7 +2,7 @@
 // RUN: | mlir-opt -gpu-kernel-outlining \
 // RUN: | mlir-opt -pass-pipeline='builtin.module(gpu.module(strip-debuginfo,convert-gpu-to-rocdl),rocdl-attach-target{chip=%chip})' \
 // RUN: | mlir-opt -gpu-to-llvm -reconcile-unrealized-casts -gpu-module-to-binary \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_rocm_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/ROCM/vecadd.mlir b/mlir/test/Integration/GPU/ROCM/vecadd.mlir
index 986d8239427e3..c3f8b982a131a 100644
--- a/mlir/test/Integration/GPU/ROCM/vecadd.mlir
+++ b/mlir/test/Integration/GPU/ROCM/vecadd.mlir
@@ -3,7 +3,7 @@
 // RUN: | mlir-opt -gpu-kernel-outlining \
 // RUN: | mlir-opt -pass-pipeline='builtin.module(gpu.module(strip-debuginfo,convert-gpu-to-rocdl{use-bare-ptr-memref-call-conv=true}),rocdl-attach-target{chip=%chip})' \
 // RUN: | mlir-opt -gpu-to-llvm=use-bare-pointers-for-kernels=true -reconcile-unrealized-casts -gpu-module-to-binary \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_rocm_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/ROCM/vector-transferops.mlir b/mlir/test/Integration/GPU/ROCM/vector-transferops.mlir
index 575d967dcc9a2..fbfce3eb9e6ee 100644
--- a/mlir/test/Integration/GPU/ROCM/vector-transferops.mlir
+++ b/mlir/test/Integration/GPU/ROCM/vector-transferops.mlir
@@ -3,7 +3,7 @@
 // RUN: | mlir-opt -gpu-kernel-outlining \
 // RUN: | mlir-opt -pass-pipeline='builtin.module(gpu.module(strip-debuginfo,convert-gpu-to-rocdl{chipset=%chip index-bitwidth=32}),rocdl-attach-target{chip=%chip})' \
 // RUN: | mlir-opt -gpu-to-llvm -reconcile-unrealized-casts -gpu-module-to-binary \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_rocm_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/SPIRV/double.mlir b/mlir/test/Integration/GPU/SPIRV/double.mlir
index b6887c26ebe0a..8101dbed843c0 100644
--- a/mlir/test/Integration/GPU/SPIRV/double.mlir
+++ b/mlir/test/Integration/GPU/SPIRV/double.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-spirv-cpu-runner-pipeline \
-// RUN: | mlir-cpu-runner - -e main --entry-point-result=void --shared-libs=%mlir_runner_utils,%mlir_spirv_cpu_runtime --link-nested-modules \
+// RUN: | mlir-runner - -e main --entry-point-result=void --shared-libs=%mlir_runner_utils,%mlir_spirv_cpu_runtime --link-nested-modules \
 // RUN: | FileCheck %s
 
 // CHECK: [8,  8,  8,  8,  8,  8]
diff --git a/mlir/test/Integration/GPU/SPIRV/simple_add.mlir b/mlir/test/Integration/GPU/SPIRV/simple_add.mlir
index 0049ce60c4ebb..cb16c376eaa6f 100644
--- a/mlir/test/Integration/GPU/SPIRV/simple_add.mlir
+++ b/mlir/test/Integration/GPU/SPIRV/simple_add.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-spirv-cpu-runner-pipeline \
-// RUN: | mlir-cpu-runner - -e main --entry-point-result=void --shared-libs=%mlir_runner_utils,%mlir_spirv_cpu_runtime --link-nested-modules \
+// RUN: | mlir-runner - -e main --entry-point-result=void --shared-libs=%mlir_runner_utils,%mlir_spirv_cpu_runtime --link-nested-modules \
 // RUN: | FileCheck %s
 
 // CHECK: data =
diff --git a/mlir/test/Integration/GPU/SYCL/gpu-addf32-to-spirv.mlir b/mlir/test/Integration/GPU/SYCL/gpu-addf32-to-spirv.mlir
index c0e2903aee2d1..fad0d1d313a78 100644
--- a/mlir/test/Integration/GPU/SYCL/gpu-addf32-to-spirv.mlir
+++ b/mlir/test/Integration/GPU/SYCL/gpu-addf32-to-spirv.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -pass-pipeline='builtin.module(spirv-attach-target{ver=v1.0 caps=Addresses,Int64,Kernel},convert-gpu-to-spirv{use-64bit-index=true},gpu.module(spirv.module(spirv-lower-abi-attrs,spirv-update-vce)),func.func(llvm-request-c-wrappers),convert-scf-to-cf,convert-cf-to-llvm,convert-arith-to-llvm,convert-math-to-llvm,convert-func-to-llvm,gpu-to-llvm{use-bare-pointers-for-kernels=true},gpu-module-to-binary,expand-strided-metadata,lower-affine,finalize-memref-to-llvm,reconcile-unrealized-casts)' \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_sycl_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/SYCL/gpu-addi64-to-spirv.mlir b/mlir/test/Integration/GPU/SYCL/gpu-addi64-to-spirv.mlir
index 4ac1533b75d20..73d7fe3644c4b 100644
--- a/mlir/test/Integration/GPU/SYCL/gpu-addi64-to-spirv.mlir
+++ b/mlir/test/Integration/GPU/SYCL/gpu-addi64-to-spirv.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -pass-pipeline='builtin.module(spirv-attach-target{ver=v1.0 caps=Addresses,Int64,Kernel},convert-gpu-to-spirv{use-64bit-index=true},gpu.module(spirv.module(spirv-lower-abi-attrs,spirv-update-vce)),func.func(llvm-request-c-wrappers),convert-scf-to-cf,convert-cf-to-llvm,convert-arith-to-llvm,convert-math-to-llvm,convert-func-to-llvm,gpu-to-llvm{use-bare-pointers-for-kernels=true},gpu-module-to-binary,expand-strided-metadata,lower-affine,finalize-memref-to-llvm,reconcile-unrealized-casts)' \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_sycl_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/SYCL/gpu-reluf32-to-spirv.mlir b/mlir/test/Integration/GPU/SYCL/gpu-reluf32-to-spirv.mlir
index 162a793305e97..e385daefcb9b5 100644
--- a/mlir/test/Integration/GPU/SYCL/gpu-reluf32-to-spirv.mlir
+++ b/mlir/test/Integration/GPU/SYCL/gpu-reluf32-to-spirv.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -pass-pipeline='builtin.module(spirv-attach-target{ver=v1.0 caps=Addresses,Int64,Kernel},convert-gpu-to-spirv{use-64bit-index=true},gpu.module(spirv.module(spirv-lower-abi-attrs,spirv-update-vce)),func.func(llvm-request-c-wrappers),convert-scf-to-cf,convert-cf-to-llvm,convert-arith-to-llvm,convert-math-to-llvm,convert-func-to-llvm,gpu-to-llvm{use-bare-pointers-for-kernels=true},gpu-module-to-binary,expand-strided-metadata,lower-affine,finalize-memref-to-llvm,reconcile-unrealized-casts)' \
-// RUN: | mlir-cpu-runner \
+// RUN: | mlir-runner \
 // RUN:   --shared-libs=%mlir_sycl_runtime \
 // RUN:   --shared-libs=%mlir_runner_utils \
 // RUN:   --entry-point-result=void \
diff --git a/mlir/test/Integration/GPU/Vulkan/addf.mlir b/mlir/test/Integration/GPU/Vulkan/addf.mlir
index f4d2463d413b8..011a206cd5812 100644
--- a/mlir/test/Integration/GPU/Vulkan/addf.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/addf.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
+// RUN:   | mlir-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
 
 // CHECK: [3.3,  3.3,  3.3,  3.3,  3.3,  3.3,  3.3,  3.3]
 module attributes {
diff --git a/mlir/test/Integration/GPU/Vulkan/addf_if.mlir b/mlir/test/Integration/GPU/Vulkan/addf_if.mlir
index 2512d0f8e6efa..9fc056456c694 100644
--- a/mlir/test/Integration/GPU/Vulkan/addf_if.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/addf_if.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
+// RUN:   | mlir-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
 
 // CHECK: [3.3,  3.3,  3.3,  3.3,  0,  0,  0,  0]
 module attributes {
diff --git a/mlir/test/Integration/GPU/Vulkan/addi.mlir b/mlir/test/Integration/GPU/Vulkan/addi.mlir
index abf695c61f3b3..e98fa2087b012 100644
--- a/mlir/test/Integration/GPU/Vulkan/addi.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/addi.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
+// RUN:   | mlir-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
 
 // CHECK-COUNT-64: [3, 3, 3, 3, 3, 3, 3, 3]
 module attributes {
diff --git a/mlir/test/Integration/GPU/Vulkan/addi8.mlir b/mlir/test/Integration/GPU/Vulkan/addi8.mlir
index fd43422fbafad..581b9983ba8b8 100644
--- a/mlir/test/Integration/GPU/Vulkan/addi8.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/addi8.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
+// RUN:   | mlir-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
 
 // CHECK-COUNT-64: [3, 3, 3, 3, 3, 3, 3, 3]
 module attributes {
diff --git a/mlir/test/Integration/GPU/Vulkan/addui_extended.mlir b/mlir/test/Integration/GPU/Vulkan/addui_extended.mlir
index d048b7b0290a9..6bbdeb3c04c1d 100644
--- a/mlir/test/Integration/GPU/Vulkan/addui_extended.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/addui_extended.mlir
@@ -2,12 +2,12 @@
 // with and without expansion to primitive add/cmp ops for WebGPU.
 
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - \
+// RUN:   | mlir-runner - \
 // RUN:     --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils \
 // RUN:     --entry-point-result=void | FileCheck %s
 
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline=spirv-webgpu-prepare \
-// RUN:   | mlir-cpu-runner - \
+// RUN:   | mlir-runner - \
 // RUN:     --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils \
 // RUN:     --entry-point-result=void | FileCheck %s
 
diff --git a/mlir/test/Integration/GPU/Vulkan/mulf.mlir b/mlir/test/Integration/GPU/Vulkan/mulf.mlir
index f1f71bca73c3e..8e9f87600c017 100644
--- a/mlir/test/Integration/GPU/Vulkan/mulf.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/mulf.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
+// RUN:   | mlir-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
 
 // CHECK-COUNT-4: [6, 6, 6, 6]
 module attributes {
diff --git a/mlir/test/Integration/GPU/Vulkan/smul_extended.mlir b/mlir/test/Integration/GPU/Vulkan/smul_extended.mlir
index ac46b9035c13c..4dc3cb9f4e988 100644
--- a/mlir/test/Integration/GPU/Vulkan/smul_extended.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/smul_extended.mlir
@@ -2,12 +2,12 @@
 // with and without expansion to primitive mul/add ops for WebGPU.
 
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - \
+// RUN:   | mlir-runner - \
 // RUN:     --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils \
 // RUN:     --entry-point-result=void | FileCheck %s
 
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline=spirv-webgpu-prepare \
-// RUN:   | mlir-cpu-runner - \
+// RUN:   | mlir-runner - \
 // RUN:     --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils \
 // RUN:     --entry-point-result=void | FileCheck %s
 
diff --git a/mlir/test/Integration/GPU/Vulkan/subf.mlir b/mlir/test/Integration/GPU/Vulkan/subf.mlir
index 50c63abc8c10a..4f63e7cdfc6aa 100644
--- a/mlir/test/Integration/GPU/Vulkan/subf.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/subf.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
+// RUN:   | mlir-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
 
 // CHECK-COUNT-32: [2.2, 2.2, 2.2, 2.2]
 module attributes {
diff --git a/mlir/test/Integration/GPU/Vulkan/time.mlir b/mlir/test/Integration/GPU/Vulkan/time.mlir
index f506f6be15df2..802025d140632 100644
--- a/mlir/test/Integration/GPU/Vulkan/time.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/time.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
+// RUN:   | mlir-runner - --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils --entry-point-result=void | FileCheck %s
 
 // CHECK: Compute shader execution time
 // CHECK: Command buffer submit time
diff --git a/mlir/test/Integration/GPU/Vulkan/umul_extended.mlir b/mlir/test/Integration/GPU/Vulkan/umul_extended.mlir
index 0f01a88429693..754024d285642 100644
--- a/mlir/test/Integration/GPU/Vulkan/umul_extended.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/umul_extended.mlir
@@ -2,12 +2,12 @@
 // with and without expansion to primitive mul/add ops for WebGPU.
 
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - \
+// RUN:   | mlir-runner - \
 // RUN:     --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils \
 // RUN:     --entry-point-result=void | FileCheck %s
 
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline=spirv-webgpu-prepare \
-// RUN:   | mlir-cpu-runner - \
+// RUN:   | mlir-runner - \
 // RUN:     --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils \
 // RUN:     --entry-point-result=void | FileCheck %s
 
diff --git a/mlir/test/Integration/GPU/Vulkan/vector-deinterleave.mlir b/mlir/test/Integration/GPU/Vulkan/vector-deinterleave.mlir
index 4e3f6ace15f6b..22d3d3fe67d8d 100644
--- a/mlir/test/Integration/GPU/Vulkan/vector-deinterleave.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/vector-deinterleave.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - \
+// RUN:   | mlir-runner - \
 // RUN:     --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils \
 // RUN:     --entry-point-result=void | FileCheck %s
 
diff --git a/mlir/test/Integration/GPU/Vulkan/vector-interleave.mlir b/mlir/test/Integration/GPU/Vulkan/vector-interleave.mlir
index f7f620bf766b8..e665653d9d61a 100644
--- a/mlir/test/Integration/GPU/Vulkan/vector-interleave.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/vector-interleave.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - \
+// RUN:   | mlir-runner - \
 // RUN:     --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils \
 // RUN:     --entry-point-result=void | FileCheck %s
 
diff --git a/mlir/test/Integration/GPU/Vulkan/vector-shuffle.mlir b/mlir/test/Integration/GPU/Vulkan/vector-shuffle.mlir
index 0f9c883091b89..dc53fe3a539ec 100644
--- a/mlir/test/Integration/GPU/Vulkan/vector-shuffle.mlir
+++ b/mlir/test/Integration/GPU/Vulkan/vector-shuffle.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -test-vulkan-runner-pipeline \
-// RUN:   | mlir-cpu-runner - \
+// RUN:   | mlir-runner - \
 // RUN:     --shared-libs=%mlir_vulkan_runtime,%mlir_runner_utils \
 // RUN:     --entry-point-result=void | FileCheck %s
 
diff --git a/mlir/test/Integration/lit.local.cfg b/mlir/test/Integration/lit.local.cfg
index a73300780f39a..5f16b1cc3cc43 100644
--- a/mlir/test/Integration/lit.local.cfg
+++ b/mlir/test/Integration/lit.local.cfg
@@ -5,7 +5,7 @@ if not config.mlir_include_integration_tests:
 
 
 def configure_aarch64_mcr_cmd():
-    mcr_cmd = "mlir-cpu-runner"
+    mcr_cmd = "mlir-runner"
 
     # NOTE: If the SVE tests are disabled and the SME tests are enabled to run
     # under emulation, the SVE specific RUN lines in the SparseTensor tests
@@ -15,16 +15,16 @@ def configure_aarch64_mcr_cmd():
         return
 
     if config.arm_emulator_executable:
-        if config.arm_emulator_mlir_cpu_runner_executable:
-            mcr_cmd = config.arm_emulator_mlir_cpu_runner_executable
+        if config.arm_emulator_mlir_runner_executable:
+            mcr_cmd = config.arm_emulator_mlir_runner_executable
         else:
             # Top-level LIT config adds llvm_tools_dir to PATH but this is lost
             # when running under an emulator. If the user didn't specify an
-            # mlir-cpu-runner executable, use absolute path
-            # %llvm_tools_dir/mlir-cpu-runner.
+            # mlir-runner executable, use absolute path
+            # %llvm_tools_dir/mlir-runner.
             mcr_cmd = llvm_config.use_llvm_tool(
-                "mlir-cpu-runner",
-                search_env="MLIR_CPU_RUNNER",
+                "mlir-runner",
+                search_env="MLIR_RUNNER",
                 required=True,
                 search_paths=[config.mlir_tools_dir],
                 use_installed=False,
@@ -61,7 +61,7 @@ def configure_aarch64_mlir_utils():
 #
 # * ARM_EMULATOR_EXECUTABLE     - emulator to use.
 # * ARM_EMULATOR_OPTIONS        - options for emulator.
-# * ARM_EMULATOR_MLIR_CPU_RUNNER_EXECUTABLE - AArch64 native mlir-cpu-runner to
+# * ARM_EMULATOR_MLIR_RUNNER_EXECUTABLE - AArch64 native mlir-runner to
 #                                             support cross-compilation
 # * ARM_EMULATOR_UTILS_LIB_DIR - AArch64 native utilites library to support
 #                                cross-compilation.
diff --git a/mlir/test/Target/LLVMIR/nvvmir.mlir b/mlir/test/Target/LLVMIR/nvvmir.mlir
index 09e98765413f0..7dad9a403def0 100644
--- a/mlir/test/Target/LLVMIR/nvvmir.mlir
+++ b/mlir/test/Target/LLVMIR/nvvmir.mlir
@@ -488,21 +488,35 @@ llvm.func @nvvm_wmma_mma(%0 : i32, %1 : i32, %2 : i32, %3 : i32, %4 : i32, %5 :
 
 // CHECK-LABEL: @cp_async
 llvm.func @cp_async(%arg0: !llvm.ptr<3>, %arg1: !llvm.ptr<1>) {
-// CHECK: call void @llvm.nvvm.cp.async.ca.shared.global.4(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}})
+  // CHECK: call void @llvm.nvvm.cp.async.ca.shared.global.4(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}})
   nvvm.cp.async.shared.global %arg0, %arg1, 4, cache =  ca : !llvm.ptr<3>, !llvm.ptr<1>
-// CHECK: call void @llvm.nvvm.cp.async.ca.shared.global.8(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}})
+  // CHECK: call void @llvm.nvvm.cp.async.ca.shared.global.8(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}})
   nvvm.cp.async.shared.global %arg0, %arg1, 8, cache =  ca : !llvm.ptr<3>, !llvm.ptr<1>
-// CHECK: call void @llvm.nvvm.cp.async.ca.shared.global.16(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}})
+  // CHECK: call void @llvm.nvvm.cp.async.ca.shared.global.16(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}})
   nvvm.cp.async.shared.global %arg0, %arg1, 16, cache =  ca : !llvm.ptr<3>, !llvm.ptr<1>
-// CHECK: call void @llvm.nvvm.cp.async.cg.shared.global.16(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}})
+  // CHECK: call void @llvm.nvvm.cp.async.cg.shared.global.16(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}})
   nvvm.cp.async.shared.global %arg0, %arg1, 16, cache =  cg : !llvm.ptr<3>, !llvm.ptr<1>
-// CHECK: call void @llvm.nvvm.cp.async.commit.group()
+
+  // CHECK: call void @llvm.nvvm.cp.async.commit.group()
   nvvm.cp.async.commit.group
-// CHECK: call void @llvm.nvvm.cp.async.wait.group(i32 0)
+  // CHECK: call void @llvm.nvvm.cp.async.wait.group(i32 0)
   nvvm.cp.async.wait.group 0
   llvm.return
 }
 
+// CHECK-LABEL: @async_cp_zfill
+llvm.func @async_cp_zfill(%dst: !llvm.ptr<3>, %src: !llvm.ptr<1>, %cpSize: i32) {
+  // CHECK: call void @llvm.nvvm.cp.async.ca.shared.global.4.s(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}}, i32 %{{.*}})
+  nvvm.cp.async.shared.global %dst, %src, 4, cache =  ca, %cpSize : !llvm.ptr<3>, !llvm.ptr<1>, i32
+  // CHECK: call void @llvm.nvvm.cp.async.ca.shared.global.8.s(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}}, i32 %{{.*}})
+  nvvm.cp.async.shared.global %dst, %src, 8, cache =  ca, %cpSize : !llvm.ptr<3>, !llvm.ptr<1>, i32
+  // CHECK: call void @llvm.nvvm.cp.async.ca.shared.global.16.s(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}}, i32 %{{.*}})
+  nvvm.cp.async.shared.global %dst, %src, 16, cache =  ca, %cpSize : !llvm.ptr<3>, !llvm.ptr<1>, i32
+  // CHECK: call void @llvm.nvvm.cp.async.cg.shared.global.16.s(ptr addrspace(3) %{{.*}}, ptr addrspace(1) %{{.*}}, i32 %{{.*}})
+  nvvm.cp.async.shared.global %dst, %src, 16, cache =  cg, %cpSize : !llvm.ptr<3>, !llvm.ptr<1>, i32
+  llvm.return
+}
+
 // CHECK-LABEL: @cp_async_mbarrier_arrive
 llvm.func @cp_async_mbarrier_arrive(%bar_shared: !llvm.ptr<3>, %bar_gen: !llvm.ptr) {
   // CHECK: call void @llvm.nvvm.cp.async.mbarrier.arrive(ptr %{{.*}})
diff --git a/mlir/test/Target/LLVMIR/rocdl.mlir b/mlir/test/Target/LLVMIR/rocdl.mlir
index 8879ba02b2405..b74edb6210683 100644
--- a/mlir/test/Target/LLVMIR/rocdl.mlir
+++ b/mlir/test/Target/LLVMIR/rocdl.mlir
@@ -398,6 +398,282 @@ llvm.func @rocdl.xdlops(%arg0 : f32, %arg1 : f32,
   llvm.return %r0 : vector<32 x f32>
 }
 
+llvm.func @rocdl.mfma.scale.f32.32x32x64.f8f6f4(%arg0 : i32,
+                   %arg1 : vector<16 x f32>, %arg2 : vector<8xi32>,
+                   %arg3 : vector<6xi32>, %arg4 : vector<4xi32>) -> vector<16 x f32> {
+  %cst0 = llvm.mlir.constant(0 : i32) : i32
+  %cst1 = llvm.mlir.constant(1 : i32) : i32
+  %cst2 = llvm.mlir.constant(2 : i32) : i32
+  %cst3 = llvm.mlir.constant(3 : i32) : i32
+  %cst4 = llvm.mlir.constant(4 : i32) : i32
+
+  // CHECK-LABEL: rocdl.mfma.scale.f32.32x32x64.f8f6f4
+  // fp8 * fp8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v8i32(<8 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 0, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r00 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg2, %arg1, %cst0, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp8 * bf8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v8i32(<8 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 0, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r01 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg2, %arg1, %cst0, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp8 * fp6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v6i32(<8 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 0, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r02 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg3, %arg1, %cst0, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp8 * bf6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v6i32(<8 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 0, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r03 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg3, %arg1, %cst0, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp8 * fp4
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v4i32(<8 x i32> %{{.*}}, <4 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 0, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r04 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg4, %arg1, %cst0, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * fp8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v8i32(<8 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 1, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r10 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg2, %arg1, %cst1, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * bf8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v8i32(<8 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 1, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r11 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg2, %arg1, %cst1, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * fp6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v6i32(<8 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 1, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r12 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg3, %arg1, %cst1, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * bf6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v6i32(<8 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 1, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r13 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg3, %arg1, %cst1, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf8 * fp4
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v8i32.v4i32(<8 x i32> %{{.*}}, <4 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 1, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r14 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg2, %arg4, %arg1, %cst1, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * fp8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v8i32(<6 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 2, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r20 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg2, %arg1, %cst2, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * bf8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v8i32(<6 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 2, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r21 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg2, %arg1, %cst2, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * fp6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v6i32(<6 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 2, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r22 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg3, %arg1, %cst2, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * bf6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v6i32(<6 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 2, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r23 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg3, %arg1, %cst2, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp6 * fp4
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v4i32(<6 x i32> %{{.*}}, <4 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 2, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r24 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg4, %arg1, %cst2, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * fp8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v8i32(<6 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 3, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r30 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg2, %arg1, %cst3, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * bf8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v8i32(<6 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 3, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r31 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg2, %arg1, %cst3, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * fp6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v6i32(<6 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 3, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r32 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg3, %arg1, %cst3, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * bf6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v6i32(<6 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 3, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r33 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg3, %arg1, %cst3, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // bf6 * fp4
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v6i32.v4i32(<6 x i32> %{{.*}}, <4 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 3, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r34 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg3, %arg4, %arg1, %cst3, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * fp8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v4i32.v8i32(<4 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 4, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r40 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg2, %arg1, %cst4, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * bf8
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v4i32.v8i32(<4 x i32> %{{.*}}, <8 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 4, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r41 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg2, %arg1, %cst4, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<8xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * fp6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v4i32.v6i32(<4 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 4, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r42 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg3, %arg1, %cst4, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * bf6
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v4i32.v6i32(<4 x i32> %{{.*}}, <6 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 4, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r43 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg3, %arg1, %cst4, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<6xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  // fp4 * fp4
+  // CHECK: call <16 x float> @llvm.amdgcn.mfma.scale.f32.32x32x64.f8f6f4.v4i32.v4i32(<4 x i32> %{{.*}}, <4 x i32> %{{.*}}, <16 x float> %{{.*}}, i32 4, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r44 = rocdl.mfma.scale.f32.32x32x64.f8f6f4 %arg4, %arg4, %arg1, %cst4, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<4xi32>, vector<16xf32>, i32, i32, i32, i32, i32, i32) -> vector<16xf32>
+
+  llvm.return %r00 : vector<16 x f32>
+}
+
+llvm.func @rocdl.mfma.scale.f32.16x16x128.f8f6f4(%arg0 : i32,
+                   %arg1 : vector<4 x f32>, %arg2 : vector<8xi32>,
+                   %arg3 : vector<6xi32>, %arg4 : vector<4xi32>) -> vector<4 x f32> {
+  %cst0 = llvm.mlir.constant(0 : i32) : i32
+  %cst1 = llvm.mlir.constant(1 : i32) : i32
+  %cst2 = llvm.mlir.constant(2 : i32) : i32
+  %cst3 = llvm.mlir.constant(3 : i32) : i32
+  %cst4 = llvm.mlir.constant(4 : i32) : i32
+
+  // CHECK-LABEL: rocdl.mfma.scale.f32.16x16x128.f8f6f4
+  // fp8 * fp8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v8i32(<8 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 0, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r00 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg2, %arg1, %cst0, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp8 * bf8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v8i32(<8 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 0, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r01 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg2, %arg1, %cst0, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp8 * fp6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v6i32(<8 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 0, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r02 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg3, %arg1, %cst0, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp8 * bf6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v6i32(<8 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 0, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r03 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg3, %arg1, %cst0, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp8 * fp4
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v4i32(<8 x i32> %{{.*}}, <4 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 0, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r04 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg4, %arg1, %cst0, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * fp8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v8i32(<8 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 1, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r10 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg2, %arg1, %cst1, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * bf8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v8i32(<8 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 1, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r11 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg2, %arg1, %cst1, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * fp6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v6i32(<8 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 1, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r12 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg3, %arg1, %cst1, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * bf6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v6i32(<8 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 1, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r13 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg3, %arg1, %cst1, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf8 * fp4
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v8i32.v4i32(<8 x i32> %{{.*}}, <4 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 1, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r14 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg2, %arg4, %arg1, %cst1, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<8xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * fp8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v8i32(<6 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 2, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r20 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg2, %arg1, %cst2, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * bf8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v8i32(<6 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 2, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r21 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg2, %arg1, %cst2, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * fp6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v6i32(<6 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 2, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r22 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg3, %arg1, %cst2, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * bf6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v6i32(<6 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 2, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r23 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg3, %arg1, %cst2, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp6 * fp4
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v4i32(<6 x i32> %{{.*}}, <4 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 2, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r24 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg4, %arg1, %cst2, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * fp8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v8i32(<6 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 3, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r30 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg2, %arg1, %cst3, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * bf8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v8i32(<6 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 3, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r31 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg2, %arg1, %cst3, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * fp6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v6i32(<6 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 3, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r32 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg3, %arg1, %cst3, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * bf6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v6i32(<6 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 3, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r33 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg3, %arg1, %cst3, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // bf6 * fp4
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v6i32.v4i32(<6 x i32> %{{.*}}, <4 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 3, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r34 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg3, %arg4, %arg1, %cst3, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<6xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * fp8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v4i32.v8i32(<4 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 4, i32 0, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r40 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg2, %arg1, %cst4, %cst0, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * bf8
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v4i32.v8i32(<4 x i32> %{{.*}}, <8 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 4, i32 1, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r41 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg2, %arg1, %cst4, %cst1, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<8xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * fp6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v4i32.v6i32(<4 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 4, i32 2, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r42 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg3, %arg1, %cst4, %cst2, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * bf6
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v4i32.v6i32(<4 x i32> %{{.*}}, <6 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 4, i32 3, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}})
+  %r43 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg3, %arg1, %cst4, %cst3, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<6xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  // fp4 * fp4
+  // CHECK: call <4 x float> @llvm.amdgcn.mfma.scale.f32.16x16x128.f8f6f4.v4i32.v4i32(<4 x i32> %{{.*}}, <4 x i32> %{{.*}}, <4 x float> %{{.*}}, i32 4, i32 4, i32 0, i32 %{{.*}}, i32 0, i32 %{{.*}}
+  %r44 = rocdl.mfma.scale.f32.16x16x128.f8f6f4 %arg4, %arg4, %arg1, %cst4, %cst4, %cst0, %arg0, %cst0, %arg0 :
+                              (vector<4xi32>, vector<4xi32>, vector<4xf32>, i32, i32, i32, i32, i32, i32) -> vector<4xf32>
+
+  llvm.return %r00 : vector<4 x f32>
+}
+
 llvm.func @rocdl.wmma(%arg0 : vector<8xf32>, %arg1 : vector<16 x f16>, %arg2 : vector<16 x i16>, %arg3 : vector<8 x i32>,
                       %arg4 : vector<2xi32>, %arg5 : vector<4xi32>, %arg6 : vector<4xf32>, %arg7 : vector<8xf16>, %arg8 : vector<8xi16>) -> vector<8xf32> {
   %zero = llvm.mlir.constant(false) : i1
diff --git a/mlir/test/Transforms/inlining-recursive-self.mlir b/mlir/test/Transforms/inlining-recursive-self.mlir
index 5cc922db8e978..01d5b8bd2a76c 100644
--- a/mlir/test/Transforms/inlining-recursive-self.mlir
+++ b/mlir/test/Transforms/inlining-recursive-self.mlir
@@ -1,5 +1,5 @@
-// RUN: mlir-opt %s -inline='default-pipeline=''' | FileCheck %s
-// RUN: mlir-opt %s --mlir-disable-threading -inline='default-pipeline=''' | FileCheck %s
+// RUN: mlir-opt %s -inline='default-pipeline=' | FileCheck %s
+// RUN: mlir-opt %s --mlir-disable-threading -inline='default-pipeline=' | FileCheck %s
 
 // CHECK-LABEL: func.func @b0
 func.func @b0() {
diff --git a/mlir/test/Transforms/inlining-recursive.mlir b/mlir/test/Transforms/inlining-recursive.mlir
index a02fe69133ad8..403accd8b7ee8 100644
--- a/mlir/test/Transforms/inlining-recursive.mlir
+++ b/mlir/test/Transforms/inlining-recursive.mlir
@@ -1,5 +1,5 @@
-// RUN: mlir-opt %s -inline='default-pipeline=''' | FileCheck %s
-// RUN: mlir-opt %s --mlir-disable-threading -inline='default-pipeline=''' | FileCheck %s
+// RUN: mlir-opt %s -inline='default-pipeline=' | FileCheck %s
+// RUN: mlir-opt %s --mlir-disable-threading -inline='default-pipeline=' | FileCheck %s
 
 // CHECK-LABEL: func.func @foo0
 func.func @foo0(%arg0 : i32) -> i32 {
diff --git a/mlir/test/lib/Dialect/Math/TestExpandMath.cpp b/mlir/test/lib/Dialect/Math/TestExpandMath.cpp
index 0139eabba373f..efc1acf8bb6cd 100644
--- a/mlir/test/lib/Dialect/Math/TestExpandMath.cpp
+++ b/mlir/test/lib/Dialect/Math/TestExpandMath.cpp
@@ -46,7 +46,6 @@ void TestExpandMathPass::runOnOperation() {
   populateExpandAcoshPattern(patterns);
   populateExpandAtanhPattern(patterns);
   populateExpandFmaFPattern(patterns);
-  populateExpandFloorFPattern(patterns);
   populateExpandCeilFPattern(patterns);
   populateExpandPowFPattern(patterns);
   populateExpandFPowIPattern(patterns);
diff --git a/mlir/test/lit.cfg.py b/mlir/test/lit.cfg.py
index c3bcc1e84e502..bca51f4ad189b 100644
--- a/mlir/test/lit.cfg.py
+++ b/mlir/test/lit.cfg.py
@@ -202,7 +202,7 @@ def find_real_python_interpreter():
     "mlir-capi-transform-test",
     "mlir-capi-transform-interpreter-test",
     "mlir-capi-translation-test",
-    "mlir-cpu-runner",
+    "mlir-runner",
     add_runtime("mlir_runner_utils"),
     add_runtime("mlir_c_runner_utils"),
     add_runtime("mlir_async_runtime"),
@@ -334,24 +334,24 @@ def find_real_python_interpreter():
 
 
 def have_host_jit_feature_support(feature_name):
-    mlir_cpu_runner_exe = lit.util.which("mlir-cpu-runner", config.mlir_tools_dir)
+    mlir_runner_exe = lit.util.which("mlir-runner", config.mlir_tools_dir)
 
-    if not mlir_cpu_runner_exe:
+    if not mlir_runner_exe:
         return False
 
     try:
-        mlir_cpu_runner_cmd = subprocess.Popen(
-            [mlir_cpu_runner_exe, "--host-supports-" + feature_name],
+        mlir_runner_cmd = subprocess.Popen(
+            [mlir_runner_exe, "--host-supports-" + feature_name],
             stdout=subprocess.PIPE,
         )
     except OSError:
-        print("could not exec mlir-cpu-runner")
+        print("could not exec mlir-runner")
         return False
 
-    mlir_cpu_runner_out = mlir_cpu_runner_cmd.stdout.read().decode("ascii")
-    mlir_cpu_runner_cmd.wait()
+    mlir_runner_out = mlir_runner_cmd.stdout.read().decode("ascii")
+    mlir_runner_cmd.wait()
 
-    return "true" in mlir_cpu_runner_out
+    return "true" in mlir_runner_out
 
 
 if have_host_jit_feature_support("jit"):
diff --git a/mlir/test/lit.site.cfg.py.in b/mlir/test/lit.site.cfg.py.in
index d68d9b1a1f43a..132aabe135940 100644
--- a/mlir/test/lit.site.cfg.py.in
+++ b/mlir/test/lit.site.cfg.py.in
@@ -60,7 +60,7 @@ config.arm_emulator_executable = "@ARM_EMULATOR_EXECUTABLE@"
 if config.arm_emulator_executable:
     config.available_features.add("mlir_arm_emulator")
 config.arm_emulator_options = "@ARM_EMULATOR_OPTIONS@"
-config.arm_emulator_mlir_cpu_runner_executable = "@ARM_EMULATOR_MLIR_CPU_RUNNER_EXECUTABLE@"
+config.arm_emulator_mlir_runner_executable = "@ARM_EMULATOR_MLIR_RUNNER_EXECUTABLE@"
 config.arm_emulator_lli_executable = "@ARM_EMULATOR_LLI_EXECUTABLE@"
 config.arm_emulator_utils_lib_dir = "@ARM_EMULATOR_UTILS_LIB_DIR@"
 config.arm_sme_abi_routines_shlib = "@ARM_SME_ABI_ROUTINES_SHLIB@"
diff --git a/mlir/test/mlir-cpu-runner/X86Vector/lit.local.cfg b/mlir/test/mlir-runner/X86Vector/lit.local.cfg
similarity index 100%
rename from mlir/test/mlir-cpu-runner/X86Vector/lit.local.cfg
rename to mlir/test/mlir-runner/X86Vector/lit.local.cfg
diff --git a/mlir/test/mlir-cpu-runner/X86Vector/math-polynomial-approx-avx2.mlir b/mlir/test/mlir-runner/X86Vector/math-polynomial-approx-avx2.mlir
similarity index 95%
rename from mlir/test/mlir-cpu-runner/X86Vector/math-polynomial-approx-avx2.mlir
rename to mlir/test/mlir-runner/X86Vector/math-polynomial-approx-avx2.mlir
index c51802d100b80..e79d0b6f6f12e 100644
--- a/mlir/test/mlir-cpu-runner/X86Vector/math-polynomial-approx-avx2.mlir
+++ b/mlir/test/mlir-runner/X86Vector/math-polynomial-approx-avx2.mlir
@@ -7,7 +7,7 @@
 // RUN:               -convert-math-to-llvm                                    \
 // RUN:               -convert-func-to-llvm                                    \
 // RUN:               -reconcile-unrealized-casts                              \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:     -e main -entry-point-result=void -O0                               \
 // RUN:     -shared-libs=%mlir_c_runner_utils  \
 // RUN:     -shared-libs=%mlir_runner_utils    \
diff --git a/mlir/test/mlir-cpu-runner/async-error.mlir b/mlir/test/mlir-runner/async-error.mlir
similarity index 97%
rename from mlir/test/mlir-cpu-runner/async-error.mlir
rename to mlir/test/mlir-runner/async-error.mlir
index 6be9641815aec..e202d0a6533b3 100644
--- a/mlir/test/mlir-cpu-runner/async-error.mlir
+++ b/mlir/test/mlir-runner/async-error.mlir
@@ -1,5 +1,5 @@
 // RUN:   mlir-opt %s -pass-pipeline="builtin.module(async-to-async-runtime,func.func(async-runtime-ref-counting,async-runtime-ref-counting-opt),convert-async-to-llvm,func.func(convert-linalg-to-loops,convert-scf-to-cf),convert-vector-to-llvm,func.func(convert-arith-to-llvm),convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:     -e main -entry-point-result=void -O0                               \
 // RUN:     -shared-libs=%mlir_c_runner_utils  \
 // RUN:     -shared-libs=%mlir_runner_utils    \
diff --git a/mlir/test/mlir-cpu-runner/async-func.mlir b/mlir/test/mlir-runner/async-func.mlir
similarity index 98%
rename from mlir/test/mlir-cpu-runner/async-func.mlir
rename to mlir/test/mlir-runner/async-func.mlir
index 7c65baf14459d..90c865add22e7 100644
--- a/mlir/test/mlir-cpu-runner/async-func.mlir
+++ b/mlir/test/mlir-runner/async-func.mlir
@@ -1,5 +1,5 @@
 // RUN:   mlir-opt %s -pass-pipeline="builtin.module(async-func-to-async-runtime,async-to-async-runtime,func.func(async-runtime-ref-counting,async-runtime-ref-counting-opt),convert-async-to-llvm,test-lower-to-llvm)" \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:     -e main -entry-point-result=void -O0                               \
 // RUN:     -shared-libs=%mlir_c_runner_utils  \
 // RUN:     -shared-libs=%mlir_runner_utils    \
diff --git a/mlir/test/mlir-cpu-runner/async-group.mlir b/mlir/test/mlir-runner/async-group.mlir
similarity index 96%
rename from mlir/test/mlir-cpu-runner/async-group.mlir
rename to mlir/test/mlir-runner/async-group.mlir
index 547ea735574b8..07fe6fbaf16d3 100644
--- a/mlir/test/mlir-cpu-runner/async-group.mlir
+++ b/mlir/test/mlir-runner/async-group.mlir
@@ -6,7 +6,7 @@
 // RUN: export LSAN_OPTIONS=detect_leaks=0
 
 // RUN:   mlir-opt %s -pass-pipeline="builtin.module(async-to-async-runtime,func.func(async-runtime-ref-counting,async-runtime-ref-counting-opt),convert-async-to-llvm,func.func(convert-arith-to-llvm),convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:     -e main -entry-point-result=void -O0                               \
 // RUN:     -shared-libs=%mlir_c_runner_utils  \
 // RUN:     -shared-libs=%mlir_runner_utils    \
diff --git a/mlir/test/mlir-cpu-runner/async-value.mlir b/mlir/test/mlir-runner/async-value.mlir
similarity index 97%
rename from mlir/test/mlir-cpu-runner/async-value.mlir
rename to mlir/test/mlir-runner/async-value.mlir
index d35c9d3db7031..d5251a9a9b552 100644
--- a/mlir/test/mlir-cpu-runner/async-value.mlir
+++ b/mlir/test/mlir-runner/async-value.mlir
@@ -1,5 +1,5 @@
 // RUN:   mlir-opt %s -pass-pipeline="builtin.module(async-to-async-runtime,func.func(async-runtime-ref-counting,async-runtime-ref-counting-opt),convert-async-to-llvm,func.func(convert-arith-to-llvm),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:     -e main -entry-point-result=void -O0                               \
 // RUN:     -shared-libs=%mlir_c_runner_utils  \
 // RUN:     -shared-libs=%mlir_runner_utils    \
diff --git a/mlir/test/mlir-cpu-runner/async.mlir b/mlir/test/mlir-runner/async.mlir
similarity index 97%
rename from mlir/test/mlir-cpu-runner/async.mlir
rename to mlir/test/mlir-runner/async.mlir
index 4c9bad3d9f868..11a3230d1544a 100644
--- a/mlir/test/mlir-cpu-runner/async.mlir
+++ b/mlir/test/mlir-runner/async.mlir
@@ -1,5 +1,5 @@
 // RUN:   mlir-opt %s -pass-pipeline="builtin.module(async-to-async-runtime,func.func(async-runtime-ref-counting,async-runtime-ref-counting-opt),convert-async-to-llvm,func.func(convert-linalg-to-loops,convert-scf-to-cf),finalize-memref-to-llvm,func.func(convert-arith-to-llvm),convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:     -e main -entry-point-result=void -O0                               \
 // RUN:     -shared-libs=%mlir_c_runner_utils  \
 // RUN:     -shared-libs=%mlir_runner_utils    \
diff --git a/mlir/test/mlir-cpu-runner/bare-ptr-call-conv.mlir b/mlir/test/mlir-runner/bare-ptr-call-conv.mlir
similarity index 94%
rename from mlir/test/mlir-cpu-runner/bare-ptr-call-conv.mlir
rename to mlir/test/mlir-runner/bare-ptr-call-conv.mlir
index 2f116849cfaf8..d08c96a6fa541 100644
--- a/mlir/test/mlir-cpu-runner/bare-ptr-call-conv.mlir
+++ b/mlir/test/mlir-runner/bare-ptr-call-conv.mlir
@@ -1,4 +1,4 @@
-// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm{use-bare-ptr-memref-call-conv=1},convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-cpu-runner -shared-libs=%mlir_c_runner_utils -entry-point-result=void | FileCheck %s
+// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm{use-bare-ptr-memref-call-conv=1},convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-runner -shared-libs=%mlir_c_runner_utils -entry-point-result=void | FileCheck %s
 
 // Verify bare pointer memref calling convention. `simple_add1_add2_test`
 // gets two 2xf32 memrefs, adds 1.0f to the first one and 2.0f to the second
diff --git a/mlir/test/mlir-cpu-runner/copy.mlir b/mlir/test/mlir-runner/copy.mlir
similarity index 98%
rename from mlir/test/mlir-cpu-runner/copy.mlir
rename to mlir/test/mlir-runner/copy.mlir
index 8ca91491d865d..49d1b4420349c 100644
--- a/mlir/test/mlir-cpu-runner/copy.mlir
+++ b/mlir/test/mlir-runner/copy.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: | mlir-runner -e main -entry-point-result=void \
 // RUN: -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/mlir-cpu-runner/expand-arith-ops.mlir b/mlir/test/mlir-runner/expand-arith-ops.mlir
similarity index 97%
rename from mlir/test/mlir-cpu-runner/expand-arith-ops.mlir
rename to mlir/test/mlir-runner/expand-arith-ops.mlir
index 2b62b8c0bb140..e52225f56617d 100644
--- a/mlir/test/mlir-cpu-runner/expand-arith-ops.mlir
+++ b/mlir/test/mlir-runner/expand-arith-ops.mlir
@@ -1,5 +1,5 @@
 // RUN:   mlir-opt %s -pass-pipeline="builtin.module(func.func(arith-expand{include-bf16=true},convert-arith-to-llvm),convert-vector-to-llvm,convert-func-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:     -e main -entry-point-result=void -O0                               \
 // RUN:     -shared-libs=%mlir_c_runner_utils  \
 // RUN:     -shared-libs=%mlir_runner_utils    \
diff --git a/mlir/test/mlir-cpu-runner/global-constructors.mlir b/mlir/test/mlir-runner/global-constructors.mlir
similarity index 93%
rename from mlir/test/mlir-cpu-runner/global-constructors.mlir
rename to mlir/test/mlir-runner/global-constructors.mlir
index 0443e4d51e9ad..593d6aa4945ef 100644
--- a/mlir/test/mlir-cpu-runner/global-constructors.mlir
+++ b/mlir/test/mlir-runner/global-constructors.mlir
@@ -1,5 +1,5 @@
 // UNSUPPORTED: target=aarch64{{.*}}, target=arm64{{.*}}
-// RUN: mlir-cpu-runner %s -e entry -entry-point-result=void  \
+// RUN: mlir-runner %s -e entry -entry-point-result=void  \
 // RUN: -shared-libs=%mlir_c_runner_utils | \
 // RUN: FileCheck %s
 
diff --git a/mlir/test/mlir-cpu-runner/global-memref.mlir b/mlir/test/mlir-runner/global-memref.mlir
similarity index 95%
rename from mlir/test/mlir-cpu-runner/global-memref.mlir
rename to mlir/test/mlir-runner/global-memref.mlir
index 45b6ce7cffe9b..c94aeac92f6d4 100644
--- a/mlir/test/mlir-cpu-runner/global-memref.mlir
+++ b/mlir/test/mlir-runner/global-memref.mlir
@@ -1,4 +1,4 @@
-// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,reconcile-unrealized-casts)" | mlir-cpu-runner -e main -entry-point-result=void -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils | FileCheck %s
+// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,reconcile-unrealized-casts)" | mlir-runner -e main -entry-point-result=void -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils | FileCheck %s
 
 func.func private @printMemrefF32(memref<*xf32>) attributes { llvm.emit_c_interface }
 func.func private @printMemrefI32(memref<*xi32>) attributes { llvm.emit_c_interface }
diff --git a/mlir/test/mlir-cpu-runner/invalid.mlir b/mlir/test/mlir-runner/invalid.mlir
similarity index 50%
rename from mlir/test/mlir-cpu-runner/invalid.mlir
rename to mlir/test/mlir-runner/invalid.mlir
index de3ef076480ce..d3b784ef109d2 100644
--- a/mlir/test/mlir-cpu-runner/invalid.mlir
+++ b/mlir/test/mlir-runner/invalid.mlir
@@ -1,4 +1,4 @@
-// RUN: not mlir-cpu-runner --no-implicit-module %s 2>&1 | FileCheck %s
+// RUN: not mlir-runner --no-implicit-module %s 2>&1 | FileCheck %s
 
 // CHECK: Error: top-level op must be a symbol table.
 llvm.func @main()
diff --git a/mlir/test/mlir-cpu-runner/lit.local.cfg b/mlir/test/mlir-runner/lit.local.cfg
similarity index 100%
rename from mlir/test/mlir-cpu-runner/lit.local.cfg
rename to mlir/test/mlir-runner/lit.local.cfg
diff --git a/mlir/test/mlir-cpu-runner/math-polynomial-approx.mlir b/mlir/test/mlir-runner/math-polynomial-approx.mlir
similarity index 99%
rename from mlir/test/mlir-cpu-runner/math-polynomial-approx.mlir
rename to mlir/test/mlir-runner/math-polynomial-approx.mlir
index bfd5706580991..148ef25cead62 100644
--- a/mlir/test/mlir-cpu-runner/math-polynomial-approx.mlir
+++ b/mlir/test/mlir-runner/math-polynomial-approx.mlir
@@ -1,5 +1,5 @@
 // RUN:   mlir-opt %s -pass-pipeline="builtin.module(func.func(test-math-polynomial-approximation),convert-vector-to-scf,convert-scf-to-cf,convert-vector-to-llvm,convert-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:     -e main -entry-point-result=void -O0                               \
 // RUN:     -shared-libs=%mlir_c_runner_utils  \
 // RUN:     -shared-libs=%mlir_runner_utils    \
diff --git a/mlir/test/mlir-cpu-runner/memref-reinterpret-cast.mlir b/mlir/test/mlir-runner/memref-reinterpret-cast.mlir
similarity index 98%
rename from mlir/test/mlir-cpu-runner/memref-reinterpret-cast.mlir
rename to mlir/test/mlir-runner/memref-reinterpret-cast.mlir
index 3f15d91d90a3d..e86e2c7e720be 100644
--- a/mlir/test/mlir-cpu-runner/memref-reinterpret-cast.mlir
+++ b/mlir/test/mlir-runner/memref-reinterpret-cast.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-scf-to-cf),finalize-memref-to-llvm,func.func(convert-arith-to-llvm),convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: | mlir-runner -e main -entry-point-result=void \
 // RUN: -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/mlir-cpu-runner/memref-reshape.mlir b/mlir/test/mlir-runner/memref-reshape.mlir
similarity index 98%
rename from mlir/test/mlir-cpu-runner/memref-reshape.mlir
rename to mlir/test/mlir-runner/memref-reshape.mlir
index 55a881e56f4dd..8c17f1fd02358 100644
--- a/mlir/test/mlir-cpu-runner/memref-reshape.mlir
+++ b/mlir/test/mlir-runner/memref-reshape.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-scf-to-cf,memref-expand,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: | mlir-runner -e main -entry-point-result=void \
 // RUN: -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils \
 // RUN: | FileCheck %s
 
diff --git a/mlir/test/mlir-cpu-runner/sgemm-naive-codegen.mlir b/mlir/test/mlir-runner/sgemm-naive-codegen.mlir
similarity index 96%
rename from mlir/test/mlir-cpu-runner/sgemm-naive-codegen.mlir
rename to mlir/test/mlir-runner/sgemm-naive-codegen.mlir
index bab6efc4b5bf7..0bb2650fff2eb 100644
--- a/mlir/test/mlir-cpu-runner/sgemm-naive-codegen.mlir
+++ b/mlir/test/mlir-runner/sgemm-naive-codegen.mlir
@@ -1,4 +1,4 @@
-// RUN: mlir-opt -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,lower-affine,convert-scf-to-cf,convert-arith-to-llvm),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" %s | mlir-cpu-runner -O3 -e main -entry-point-result=void -shared-libs=%mlir_c_runner_utils | FileCheck %s
+// RUN: mlir-opt -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,lower-affine,convert-scf-to-cf,convert-arith-to-llvm),convert-vector-to-llvm,finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" %s | mlir-runner -O3 -e main -entry-point-result=void -shared-libs=%mlir_c_runner_utils | FileCheck %s
 
 func.func @main() {
   %A = memref.alloc() : memref<16x16xf32>
diff --git a/mlir/test/mlir-cpu-runner/simple.mlir b/mlir/test/mlir-runner/simple.mlir
similarity index 78%
rename from mlir/test/mlir-cpu-runner/simple.mlir
rename to mlir/test/mlir-runner/simple.mlir
index f7f73d17d8282..1a03b9901174f 100644
--- a/mlir/test/mlir-cpu-runner/simple.mlir
+++ b/mlir/test/mlir-runner/simple.mlir
@@ -1,21 +1,21 @@
-// RUN: mlir-cpu-runner %s %if target={{s390x-.*}} %{ -argext-abi-check=false %} \
+// RUN: mlir-runner %s %if target={{s390x-.*}} %{ -argext-abi-check=false %} \
 // RUN:   | FileCheck %s
-// RUN: mlir-cpu-runner %s -e foo %if target={{s390x-.*}} %{ -argext-abi-check=false %} \
+// RUN: mlir-runner %s -e foo %if target={{s390x-.*}} %{ -argext-abi-check=false %} \
 // RUN:   | FileCheck -check-prefix=NOMAIN %s
-// RUN: mlir-cpu-runner %s --entry-point-result=i32 -e int32_main %if target={{s390x-.*}} \
+// RUN: mlir-runner %s --entry-point-result=i32 -e int32_main %if target={{s390x-.*}} \
 // RUN:   %{ -argext-abi-check=false %} | FileCheck -check-prefix=INT32MAIN %s
-// RUN: mlir-cpu-runner %s --entry-point-result=i64 -e int64_main %if target={{s390x-.*}} \
+// RUN: mlir-runner %s --entry-point-result=i64 -e int64_main %if target={{s390x-.*}} \
 // RUN:   %{ -argext-abi-check=false %} | FileCheck -check-prefix=INT64MAIN %s
-// RUN: mlir-cpu-runner %s -O3 %if target={{s390x-.*}} %{ -argext-abi-check=false %} \
+// RUN: mlir-runner %s -O3 %if target={{s390x-.*}} %{ -argext-abi-check=false %} \
 // RUN:   | FileCheck %s
 
 // RUN: cp %s %t
-// RUN: mlir-cpu-runner %t -dump-object-file %if target={{s390x-.*}} \
+// RUN: mlir-runner %t -dump-object-file %if target={{s390x-.*}} \
 // RUN:   %{ -argext-abi-check=false %} | FileCheck %t
 // RUN: ls %t.o
 // RUN: rm %t.o
 
-// RUN: mlir-cpu-runner %s -dump-object-file -object-filename=%T/test.o \
+// RUN: mlir-runner %s -dump-object-file -object-filename=%T/test.o \
 // RUN:   %if target={{s390x-.*}} %{ -argext-abi-check=false %} | FileCheck %s
 // RUN: ls %T/test.o
 // RUN: rm %T/test.o
diff --git a/mlir/test/mlir-cpu-runner/test-expand-math-approx.mlir b/mlir/test/mlir-runner/test-expand-math-approx.mlir
similarity index 99%
rename from mlir/test/mlir-cpu-runner/test-expand-math-approx.mlir
rename to mlir/test/mlir-runner/test-expand-math-approx.mlir
index 140b5f43d5eb8..106b48a2daea2 100644
--- a/mlir/test/mlir-cpu-runner/test-expand-math-approx.mlir
+++ b/mlir/test/mlir-runner/test-expand-math-approx.mlir
@@ -1,5 +1,5 @@
 // RUN:   mlir-opt %s -pass-pipeline="builtin.module(func.func(test-expand-math),convert-vector-to-scf,convert-scf-to-cf,convert-vector-to-llvm,convert-to-llvm,reconcile-unrealized-casts)" \
-// RUN: | mlir-cpu-runner                                                      \
+// RUN: | mlir-runner                                                      \
 // RUN:     -e main -entry-point-result=void -O0                               \
 // RUN:     -shared-libs=%mlir_c_runner_utils  \
 // RUN:     -shared-libs=%mlir_runner_utils    \
diff --git a/mlir/test/mlir-cpu-runner/unranked-memref.mlir b/mlir/test/mlir-runner/unranked-memref.mlir
similarity index 98%
rename from mlir/test/mlir-cpu-runner/unranked-memref.mlir
rename to mlir/test/mlir-runner/unranked-memref.mlir
index 16b21d4c28169..cc73c7da92aef 100644
--- a/mlir/test/mlir-cpu-runner/unranked-memref.mlir
+++ b/mlir/test/mlir-runner/unranked-memref.mlir
@@ -1,5 +1,5 @@
 // RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" |        \
-// RUN: mlir-cpu-runner -e main -entry-point-result=void \
+// RUN: mlir-runner -e main -entry-point-result=void \
 // RUN: -shared-libs=%mlir_runner_utils,%mlir_c_runner_utils | FileCheck %s
 
 // CHECK: rank = 2
diff --git a/mlir/test/mlir-cpu-runner/utils.mlir b/mlir/test/mlir-runner/utils.mlir
similarity index 82%
rename from mlir/test/mlir-cpu-runner/utils.mlir
rename to mlir/test/mlir-runner/utils.mlir
index 66d3a487f6c91..0c25078449987 100644
--- a/mlir/test/mlir-cpu-runner/utils.mlir
+++ b/mlir/test/mlir-runner/utils.mlir
@@ -1,7 +1,7 @@
-// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-cpu-runner -e print_0d -entry-point-result=void -shared-libs=%mlir_runner_utils -shared-libs=%mlir_c_runner_utils | FileCheck %s --check-prefix=PRINT-0D
-// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-cpu-runner -e print_1d -entry-point-result=void -shared-libs=%mlir_runner_utils -shared-libs=%mlir_c_runner_utils | FileCheck %s --check-prefix=PRINT-1D
-// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-cpu-runner -e print_3d -entry-point-result=void -shared-libs=%mlir_runner_utils -shared-libs=%mlir_c_runner_utils | FileCheck %s --check-prefix=PRINT-3D
-// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-cpu-runner -e vector_splat_2d -entry-point-result=void -shared-libs=%mlir_runner_utils -shared-libs=%mlir_c_runner_utils | FileCheck %s --check-prefix=PRINT-VECTOR-SPLAT-2D
+// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-runner -e print_0d -entry-point-result=void -shared-libs=%mlir_runner_utils -shared-libs=%mlir_c_runner_utils | FileCheck %s --check-prefix=PRINT-0D
+// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-runner -e print_1d -entry-point-result=void -shared-libs=%mlir_runner_utils -shared-libs=%mlir_c_runner_utils | FileCheck %s --check-prefix=PRINT-1D
+// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-runner -e print_3d -entry-point-result=void -shared-libs=%mlir_runner_utils -shared-libs=%mlir_c_runner_utils | FileCheck %s --check-prefix=PRINT-3D
+// RUN: mlir-opt %s -pass-pipeline="builtin.module(func.func(convert-linalg-to-loops,convert-scf-to-cf,convert-arith-to-llvm),finalize-memref-to-llvm,convert-func-to-llvm,convert-cf-to-llvm,reconcile-unrealized-casts)" | mlir-runner -e vector_splat_2d -entry-point-result=void -shared-libs=%mlir_runner_utils -shared-libs=%mlir_c_runner_utils | FileCheck %s --check-prefix=PRINT-VECTOR-SPLAT-2D
 
 func.func @print_0d() {
   %f = arith.constant 2.00000e+00 : f32
diff --git a/mlir/test/mlir-cpu-runner/verify-entry-point-result.mlir b/mlir/test/mlir-runner/verify-entry-point-result.mlir
similarity index 62%
rename from mlir/test/mlir-cpu-runner/verify-entry-point-result.mlir
rename to mlir/test/mlir-runner/verify-entry-point-result.mlir
index 02db28ae4d3e0..ad46e0b5fe1bf 100644
--- a/mlir/test/mlir-cpu-runner/verify-entry-point-result.mlir
+++ b/mlir/test/mlir-runner/verify-entry-point-result.mlir
@@ -1,4 +1,4 @@
-// RUN: not mlir-cpu-runner %s -e entry -entry-point-result=void 2>&1 | FileCheck %s
+// RUN: not mlir-runner %s -e entry -entry-point-result=void 2>&1 | FileCheck %s
 
 // CHECK: Error: expected void function
 llvm.func @entry() -> (i32) {
diff --git a/mlir/test/mlir-cpu-runner/verify-flags.mlir b/mlir/test/mlir-runner/verify-flags.mlir
similarity index 51%
rename from mlir/test/mlir-cpu-runner/verify-flags.mlir
rename to mlir/test/mlir-runner/verify-flags.mlir
index 850179af3c945..f8ac4f0048e58 100644
--- a/mlir/test/mlir-cpu-runner/verify-flags.mlir
+++ b/mlir/test/mlir-runner/verify-flags.mlir
@@ -1,6 +1,6 @@
 // REQUIRES: asserts
-// RUN: mlir-cpu-runner %s --debug-only=jit-runner -mattr=+foo_bar -e entry -entry-point-result=void 2>&1 | FileCheck %s --check-prefixes=MATTR
-// RUN: not mlir-cpu-runner %s --debug-only=jit-runner -march=bar_foo -e entry -entry-point-result=void 2>&1 | FileCheck %s --check-prefixes=MARCH
+// RUN: mlir-runner %s --debug-only=jit-runner -mattr=+foo_bar -e entry -entry-point-result=void 2>&1 | FileCheck %s --check-prefixes=MATTR
+// RUN: not mlir-runner %s --debug-only=jit-runner -march=bar_foo -e entry -entry-point-result=void 2>&1 | FileCheck %s --check-prefixes=MARCH
 
 // Verify that command line args do affect the configuration
 
diff --git a/mlir/test/mlir-cpu-runner/x86-varargs.mlir b/mlir/test/mlir-runner/x86-varargs.mlir
similarity index 97%
rename from mlir/test/mlir-cpu-runner/x86-varargs.mlir
rename to mlir/test/mlir-runner/x86-varargs.mlir
index de1b723f461e5..668fbebfaed54 100644
--- a/mlir/test/mlir-cpu-runner/x86-varargs.mlir
+++ b/mlir/test/mlir-runner/x86-varargs.mlir
@@ -1,4 +1,4 @@
-// RUN: mlir-cpu-runner %s -e caller --entry-point-result=i32 | FileCheck %s
+// RUN: mlir-runner %s -e caller --entry-point-result=i32 | FileCheck %s
 // Varaidic argument list (va_list) and the extraction logics are ABI-specific.
 // REQUIRES: x86-native-target
 // UNSUPPORTED: system-windows
diff --git a/mlir/tools/CMakeLists.txt b/mlir/tools/CMakeLists.txt
index 72a857b114fbf..a9d0eb106f18a 100644
--- a/mlir/tools/CMakeLists.txt
+++ b/mlir/tools/CMakeLists.txt
@@ -10,7 +10,7 @@ add_subdirectory(mlir-translate)
 add_subdirectory(tblgen-lsp-server)
 add_subdirectory(tblgen-to-irdl)
 
-# mlir-cpu-runner requires ExecutionEngine.
+# mlir-runner requires ExecutionEngine.
 if(MLIR_ENABLE_EXECUTION_ENGINE)
-  add_subdirectory(mlir-cpu-runner)
+  add_subdirectory(mlir-runner)
 endif()
diff --git a/mlir/tools/mlir-pdll/mlir-pdll.cpp b/mlir/tools/mlir-pdll/mlir-pdll.cpp
index 1c02acf6b68f9..a57a78e532e7c 100644
--- a/mlir/tools/mlir-pdll/mlir-pdll.cpp
+++ b/mlir/tools/mlir-pdll/mlir-pdll.cpp
@@ -174,6 +174,15 @@ int main(int argc, char **argv) {
       "write-if-changed",
       llvm::cl::desc("Only write to the output file if it changed"));
 
+  // `ResetCommandLineParser` at the above unregistered the "D" option
+  // of `llvm-tblgen`, which causes tblgen usage to fail due to
+  // "Unknnown command line argument '-D...`" when a macros name is
+  // present. The following is a workaround to re-register it again.
+  llvm::cl::list<std::string> macroNames(
+      "D",
+      llvm::cl::desc("Name of the macro to be defined -- ignored by mlir-pdll"),
+      llvm::cl::value_desc("macro name"), llvm::cl::Prefix);
+
   llvm::InitLLVM y(argc, argv);
   llvm::cl::ParseCommandLineOptions(argc, argv, "PDLL Frontend");
 
diff --git a/mlir/tools/mlir-cpu-runner/CMakeLists.txt b/mlir/tools/mlir-runner/CMakeLists.txt
similarity index 77%
rename from mlir/tools/mlir-cpu-runner/CMakeLists.txt
rename to mlir/tools/mlir-runner/CMakeLists.txt
index 580bb16849726..1538f387758cf 100644
--- a/mlir/tools/mlir-cpu-runner/CMakeLists.txt
+++ b/mlir/tools/mlir-runner/CMakeLists.txt
@@ -5,13 +5,13 @@ set(LLVM_LINK_COMPONENTS
   native
   )
 
-add_mlir_tool(mlir-cpu-runner
-  mlir-cpu-runner.cpp
+add_mlir_tool(mlir-runner
+  mlir-runner.cpp
 
   EXPORT_SYMBOLS
   )
-llvm_update_compile_flags(mlir-cpu-runner)
-mlir_target_link_libraries(mlir-cpu-runner PRIVATE
+llvm_update_compile_flags(mlir-runner)
+mlir_target_link_libraries(mlir-runner PRIVATE
   MLIRAnalysis
   MLIRBuiltinToLLVMIRTranslation
   MLIRIR
@@ -22,7 +22,7 @@ mlir_target_link_libraries(mlir-cpu-runner PRIVATE
   MLIRTargetLLVMIRExport
   MLIRSupport
   )
-target_link_libraries(mlir-cpu-runner PRIVATE
+target_link_libraries(mlir-runner PRIVATE
   MLIRExecutionEngine
   MLIRJitRunner
   )
@@ -30,7 +30,7 @@ target_link_libraries(mlir-cpu-runner PRIVATE
 # Preventing re-export of symbols causes link errors with ASan and UBSan libs.
 # AMD: Disabled as it causes passed to not be registered
 #if (NOT LLVM_USE_SANITIZER)
-#  target_link_options(mlir-cpu-runner
+#  target_link_options(mlir-runner
 #    PRIVATE
 #      # On Linux, disable re-export of any static linked libraries that came
 #      # through. This prevents our LLVM build from interfering with the version
diff --git a/mlir/tools/mlir-cpu-runner/mlir-cpu-runner.cpp b/mlir/tools/mlir-runner/mlir-runner.cpp
similarity index 98%
rename from mlir/tools/mlir-cpu-runner/mlir-cpu-runner.cpp
rename to mlir/tools/mlir-runner/mlir-runner.cpp
index e018b63b43ad0..7e8793de03ead 100644
--- a/mlir/tools/mlir-cpu-runner/mlir-cpu-runner.cpp
+++ b/mlir/tools/mlir-runner/mlir-runner.cpp
@@ -1,4 +1,4 @@
-//===- mlir-cpu-runner.cpp - MLIR CPU Execution Driver---------------------===//
+//===- mlir-runner.cpp - MLIR CPU Execution Driver ------------------------===//
 //
 // Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
 // See https://llvm.org/LICENSE.txt for license information.
diff --git a/offload/plugins-nextgen/common/include/MemoryManager.h b/offload/plugins-nextgen/common/include/MemoryManager.h
index fe1989930b76e..a4f6e628c403a 100644
--- a/offload/plugins-nextgen/common/include/MemoryManager.h
+++ b/offload/plugins-nextgen/common/include/MemoryManager.h
@@ -324,7 +324,7 @@ class MemoryManagerTy {
   /// manager explicitly by setting the var to 0. If user doesn't specify
   /// anything, returns <0, true>.
   static std::pair<size_t, bool> getSizeThresholdFromEnv() {
-    static UInt32Envar MemoryManagerThreshold(
+    static UInt64Envar MemoryManagerThreshold(
         "LIBOMPTARGET_MEMORY_MANAGER_THRESHOLD", 0);
 
     size_t Threshold = MemoryManagerThreshold.get();
diff --git a/polly/lib/CodeGen/BlockGenerators.cpp b/polly/lib/CodeGen/BlockGenerators.cpp
index 6d723d6e33298..1293e4c921c9d 100644
--- a/polly/lib/CodeGen/BlockGenerators.cpp
+++ b/polly/lib/CodeGen/BlockGenerators.cpp
@@ -1184,8 +1184,8 @@ void RegionGenerator::copyStmt(ScopStmt &Stmt, LoopToScevMapT &LTS,
         PHINode::Create(Builder.getInt32Ty(), 2, "polly.subregion.iv");
     Instruction *LoopPHIInc = BinaryOperator::CreateAdd(
         LoopPHI, Builder.getInt32(1), "polly.subregion.iv.inc");
-    LoopPHI->insertBefore(&BBCopy->front());
-    LoopPHIInc->insertBefore(BBCopy->getTerminator());
+    LoopPHI->insertBefore(BBCopy->begin());
+    LoopPHIInc->insertBefore(BBCopy->getTerminator()->getIterator());
 
     for (auto *PredBB : predecessors(BB)) {
       if (!R->contains(PredBB))
diff --git a/polly/lib/Support/ScopHelper.cpp b/polly/lib/Support/ScopHelper.cpp
index d0e305a1bdcde..bece390d31dc6 100644
--- a/polly/lib/Support/ScopHelper.cpp
+++ b/polly/lib/Support/ScopHelper.cpp
@@ -321,7 +321,7 @@ struct ScopExpander final : SCEVVisitor<ScopExpander, const SCEV *> {
     }
 
     InstClone->setName(Name + Inst->getName());
-    InstClone->insertBefore(IP);
+    InstClone->insertBefore(IP->getIterator());
     return GenSE.getSCEV(InstClone);
   }
 
diff --git a/utils/bazel/llvm-project-overlay/clang/BUILD.bazel b/utils/bazel/llvm-project-overlay/clang/BUILD.bazel
index e3f4fab2c3fdb..a328bfa95d6fd 100644
--- a/utils/bazel/llvm-project-overlay/clang/BUILD.bazel
+++ b/utils/bazel/llvm-project-overlay/clang/BUILD.bazel
@@ -572,6 +572,10 @@ gentbl(
             "-gen-clang-attr-list",
             "include/clang/Basic/AttrList.inc",
         ),
+        (
+            "-gen-clang-attr-parsed-attr-list",
+            "include/clang/Basic/AttrParsedAttrList.inc",
+        ),
         (
             "-gen-clang-attr-subject-match-rule-list",
             "include/clang/Basic/AttrSubMatchRulesList.inc",
@@ -580,6 +584,10 @@ gentbl(
             "-gen-clang-regular-keyword-attr-info",
             "include/clang/Basic/RegularKeywordAttrInfo.inc",
         ),
+        (
+            "-gen-cxx11-attribute-info",
+            "include/clang/Basic/CXX11AttributeInfo.inc",
+        ),
     ],
     tblgen = ":clang-tblgen",
     td_file = "include/clang/Basic/Attr.td",
@@ -1135,10 +1143,6 @@ gentbl(
             "-gen-clang-attr-parsed-attr-kinds",
             "include/clang/Sema/AttrParsedAttrKinds.inc",
         ),
-        (
-            "-gen-clang-attr-parsed-attr-list",
-            "include/clang/Sema/AttrParsedAttrList.inc",
-        ),
         (
             "-gen-clang-attr-spelling-index",
             "include/clang/Sema/AttrSpellingListIndex.inc",
@@ -1174,7 +1178,6 @@ cc_library(
     textual_hdrs = [
         "include/clang/Sema/AttrParsedAttrImpl.inc",
         "include/clang/Sema/AttrParsedAttrKinds.inc",
-        "include/clang/Sema/AttrParsedAttrList.inc",
         "include/clang/Sema/AttrSpellingListIndex.inc",
         "include/clang/Sema/AttrTemplateInstantiate.inc",
         "lib/Sema/OpenCLBuiltins.inc",
diff --git a/utils/bazel/llvm-project-overlay/libc/BUILD.bazel b/utils/bazel/llvm-project-overlay/libc/BUILD.bazel
index ac3f5034d2bfa..b9847caa94f58 100644
--- a/utils/bazel/llvm-project-overlay/libc/BUILD.bazel
+++ b/utils/bazel/llvm-project-overlay/libc/BUILD.bazel
@@ -3652,6 +3652,7 @@ libc_support_library(
         ":__support_macros_optimization",
         ":llvm_libc_types_size_t",
         ":string_memory_utils",
+        ":types_size_t",
     ],
 )
 
diff --git a/utils/bazel/llvm-project-overlay/llvm/BUILD.bazel b/utils/bazel/llvm-project-overlay/llvm/BUILD.bazel
index 56dff6b3ad500..a54d464ac81d3 100644
--- a/utils/bazel/llvm-project-overlay/llvm/BUILD.bazel
+++ b/utils/bazel/llvm-project-overlay/llvm/BUILD.bazel
@@ -1267,6 +1267,12 @@ filegroup(
     ]),
 )
 
+td_library(
+    name = "CommonTargetTdFiles",
+    srcs = [":common_target_td_sources"],
+    includes = ["include"],
+)
+
 gentbl(
     name = "ARMTargetParserDefGen",
     tbl_outs = [("-gen-arm-target-def", "include/llvm/TargetParser/ARMTargetParserDef.inc")],
diff --git a/utils/bazel/llvm-project-overlay/mlir/BUILD.bazel b/utils/bazel/llvm-project-overlay/mlir/BUILD.bazel
index 092c2de414e36..72c28faed1d16 100644
--- a/utils/bazel/llvm-project-overlay/mlir/BUILD.bazel
+++ b/utils/bazel/llvm-project-overlay/mlir/BUILD.bazel
@@ -5545,10 +5545,26 @@ gentbl_cc_library(
 
 cc_library(
     name = "LLVMIRTransforms",
-    srcs = glob([
-        "lib/Dialect/LLVMIR/Transforms/*.cpp",
-    ]),
-    hdrs = glob(["include/mlir/Dialect/LLVMIR/Transforms/*.h"]),
+    srcs = glob(
+        [
+            "lib/Dialect/LLVMIR/Transforms/*.cpp",
+        ],
+        exclude = [
+            "lib/Dialect/LLVMIR/Transforms/DIExpressionLegalization.cpp",
+            "lib/Dialect/LLVMIR/Transforms/DIExpressionRewriter.cpp",
+            "lib/Dialect/LLVMIR/Transforms/LegalizeForExport.cpp",
+        ],
+    ),
+    hdrs = glob(
+        [
+            "include/mlir/Dialect/LLVMIR/Transforms/*.h",
+        ],
+        exclude = [
+            "include/mlir/Dialect/LLVMIR/Transforms/DIExpressionLegalization.h",
+            "include/mlir/Dialect/LLVMIR/Transforms/DIExpressionRewriter.h",
+            "include/mlir/Dialect/LLVMIR/Transforms/LegalizeForExport.h",
+        ],
+    ),
     includes = ["include"],
     deps = [
         ":Analysis",
@@ -5557,6 +5573,7 @@ cc_library(
         ":IR",
         ":InliningUtils",
         ":LLVMDialect",
+        ":LLVMIRTransformsLegalizeForExport",
         ":LLVMPassIncGen",
         ":NVVMDialect",
         ":Pass",
@@ -5567,6 +5584,43 @@ cc_library(
     ],
 )
 
+cc_library(
+    name = "LLVMIRTransformsLegalizeForExport",
+    srcs = ["lib/Dialect/LLVMIR/Transforms/LegalizeForExport.cpp"],
+    hdrs = ["include/mlir/Dialect/LLVMIR/Transforms/LegalizeForExport.h"],
+    includes = ["include"],
+    deps = [
+        ":IR",
+        ":LLVMDialect",
+        ":LLVMPassIncGen",
+        ":LLVMIRTransformsDIExpressionLegalization",
+        ":Pass",
+    ],
+)
+
+cc_library(
+    name = "LLVMIRTransformsDIExpressionLegalization",
+    srcs = ["lib/Dialect/LLVMIR/Transforms/DIExpressionLegalization.cpp"],
+    hdrs = ["include/mlir/Dialect/LLVMIR/Transforms/DIExpressionLegalization.h"],
+    includes = ["include"],
+    deps = [
+        ":LLVMIRTransformsDIExpressionRewriter",
+        "//llvm:BinaryFormat",
+    ],
+)
+
+cc_library(
+    name = "LLVMIRTransformsDIExpressionRewriter",
+    srcs = ["lib/Dialect/LLVMIR/Transforms/DIExpressionRewriter.cpp"],
+    hdrs = ["include/mlir/Dialect/LLVMIR/Transforms/DIExpressionRewriter.h"],
+    includes = ["include"],
+    deps = [
+        ":LLVMDialect",
+        ":TransformUtils",
+        "//llvm:Support",
+    ],
+)
+
 td_library(
     name = "GPUOpsTdFiles",
     srcs = [
@@ -6459,6 +6513,7 @@ cc_library(
         ":NVVMOpsIncGen",
         ":SideEffectInterfaces",
         ":Support",
+        ":ToLLVMIRTranslation",
         "//llvm:AsmParser",
         "//llvm:Core",
         "//llvm:Support",
@@ -9212,8 +9267,9 @@ cc_library(
         ":IR",
         ":LLVMConversionIncGen",
         ":LLVMDialect",
-        ":LLVMIRTransforms",
         ":LLVMIntrinsicConversionIncGen",
+        ":LLVMIRTransformsDIExpressionLegalization",
+        ":LLVMIRTransformsLegalizeForExport",
         ":OpenMPDialect",
         ":Support",
         ":TransformUtils",