llvm
diff --git a/‎llvm/lib/Target/X86/X86TargetTransformInfo.cpp
Lines changed: 16 additions & 2 deletions b/‎llvm/lib/Target/X86/X86TargetTransformInfo.cpp
Lines changed: 16 additions & 2 deletions
diff --git a/‎llvm/test/Analysis/CostModel/X86/fshl-latency.ll
Lines changed: 71 additions & 71 deletions b/‎llvm/test/Analysis/CostModel/X86/fshl-latency.ll
Lines changed: 71 additions & 71 deletions
diff --git a/‎llvm/test/Analysis/CostModel/X86/fshl-sizelatency.ll
Lines changed: 83 additions & 83 deletions b/‎llvm/test/Analysis/CostModel/X86/fshl-sizelatency.ll
Lines changed: 83 additions & 83 deletions
diff --git a/‎llvm/test/Analysis/CostModel/X86/fshl.ll
Lines changed: 70 additions & 70 deletions b/‎llvm/test/Analysis/CostModel/X86/fshl.ll
Lines changed: 70 additions & 70 deletions
diff --git a/‎llvm/test/Analysis/CostModel/X86/fshr-latency.ll
Lines changed: 71 additions & 71 deletions b/‎llvm/test/Analysis/CostModel/X86/fshr-latency.ll
Lines changed: 71 additions & 71 deletions
diff --git a/‎llvm/test/Analysis/CostModel/X86/fshr-sizelatency.ll
Lines changed: 83 additions & 83 deletions b/‎llvm/test/Analysis/CostModel/X86/fshr-sizelatency.ll
Lines changed: 83 additions & 83 deletions
diff --git a/‎llvm/test/Analysis/CostModel/X86/fshr.ll
Lines changed: 70 additions & 70 deletions b/‎llvm/test/Analysis/CostModel/X86/fshr.ll
Lines changed: 70 additions & 70 deletions
diff --git a/‎llvm/test/Transforms/SLPVectorizer/X86/arith-fshl-rot.ll
Lines changed: 18 additions & 9 deletions b/‎llvm/test/Transforms/SLPVectorizer/X86/arith-fshl-rot.ll
Lines changed: 18 additions & 9 deletions
diff --git a/‎llvm/test/Transforms/SLPVectorizer/X86/arith-fshr-rot.ll
Lines changed: 18 additions & 9 deletions b/‎llvm/test/Transforms/SLPVectorizer/X86/arith-fshr-rot.ll
Lines changed: 18 additions & 9 deletions
@@ -3945,6 +3945,7 @@ X86TTIImpl::getIntrinsicInstrCost(const IntrinsicCostAttributes &ICA,
     { ISD::CTPOP,      MVT::i64,     { 10,  6, 19, 19 } },
     { ISD::ROTL,       MVT::i64,     {  2, 3, 1, 3 } },
     { ISD::ROTR,       MVT::i64,     {  2, 3, 1, 3 } },
+    { X86ISD::VROTLI,  MVT::i64,     {  1, 1, 1, 1 } },
     { ISD::FSHL,       MVT::i64,     {  4, 4, 1, 4 } },
     { ISD::SMAX,       MVT::i64,     {  1,  3,  2,  3 } },
     { ISD::SMIN,       MVT::i64,     {  1,  3,  2,  3 } },
@@ -3984,6 +3985,9 @@ X86TTIImpl::getIntrinsicInstrCost(const IntrinsicCostAttributes &ICA,
     { ISD::ROTR,       MVT::i32,     {  2,  3,  1,  3 } },
     { ISD::ROTR,       MVT::i16,     {  2,  3,  1,  3 } },
     { ISD::ROTR,       MVT::i8,      {  2,  3,  1,  3 } },
+    { X86ISD::VROTLI,  MVT::i32,     {  1,  1,  1,  1 } },
+    { X86ISD::VROTLI,  MVT::i16,     {  1,  1,  1,  1 } },
+    { X86ISD::VROTLI,  MVT::i8,      {  1,  1,  1,  1 } },
     { ISD::FSHL,       MVT::i32,     {  4,  4,  1,  4 } },
     { ISD::FSHL,       MVT::i16,     {  4,  4,  2,  5 } },
     { ISD::FSHL,       MVT::i8,      {  4,  4,  2,  5 } },
@@ -4039,17 +4043,27 @@ X86TTIImpl::getIntrinsicInstrCost(const IntrinsicCostAttributes &ICA,
     ISD = ISD::FSHL;
     if (!ICA.isTypeBasedOnly()) {
       const SmallVectorImpl<const Value *> &Args = ICA.getArgs();
-      if (Args[0] == Args[1])
+      if (Args[0] == Args[1]) {
         ISD = ISD::ROTL;
+        // Handle scalar constant rotation amounts.
+        // TODO: Handle vector + funnel-shift cases.
+        if (isa_and_nonnull<ConstantInt>(Args[2]))
+          ISD = X86ISD::VROTLI;
+      }
     }
     break;
   case Intrinsic::fshr:
     // FSHR has same costs so don't duplicate.
     ISD = ISD::FSHL;
     if (!ICA.isTypeBasedOnly()) {
       const SmallVectorImpl<const Value *> &Args = ICA.getArgs();
-      if (Args[0] == Args[1])
+      if (Args[0] == Args[1]) {
+        // Handle scalar constant rotation amount.
+        // TODO: Handle vector + funnel-shift cases.
         ISD = ISD::ROTR;
+        if (isa_and_nonnull<ConstantInt>(Args[2]))
+          ISD = X86ISD::VROTLI;
+      }
     }
     break;
   case Intrinsic::maxnum:
 
@@ -826,21 +826,30 @@ define void @fshl_v2i32() {
 ; PR63980
 define void @fshl_v2i32_uniformconst() {
 ; SSE-LABEL: @fshl_v2i32_uniformconst(
-; SSE-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
-; SSE-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> <i32 1, i32 1>)
-; SSE-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
+; SSE-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
+; SSE-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
+; SSE-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 1)
+; SSE-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 1)
+; SSE-NEXT:    store i32 [[R0]], ptr @d32, align 4
+; SSE-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
 ; SSE-NEXT:    ret void
 ;
 ; AVX-LABEL: @fshl_v2i32_uniformconst(
-; AVX-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
-; AVX-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> <i32 1, i32 1>)
-; AVX-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
+; AVX-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
+; AVX-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
+; AVX-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 1)
+; AVX-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 1)
+; AVX-NEXT:    store i32 [[R0]], ptr @d32, align 4
+; AVX-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
 ; AVX-NEXT:    ret void
 ;
 ; AVX512-LABEL: @fshl_v2i32_uniformconst(
-; AVX512-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
-; AVX512-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshl.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> <i32 1, i32 1>)
-; AVX512-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
+; AVX512-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
+; AVX512-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
+; AVX512-NEXT:    [[R0:%.*]] = call i32 @llvm.fshl.i32(i32 [[A0]], i32 [[A0]], i32 1)
+; AVX512-NEXT:    [[R1:%.*]] = call i32 @llvm.fshl.i32(i32 [[A1]], i32 [[A1]], i32 1)
+; AVX512-NEXT:    store i32 [[R0]], ptr @d32, align 4
+; AVX512-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
 ; AVX512-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4
 
@@ -826,21 +826,30 @@ define void @fshr_v2i32() {
 ; PR63980
 define void @fshr_v2i32_uniformconst() {
 ; SSE-LABEL: @fshr_v2i32_uniformconst(
-; SSE-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
-; SSE-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshr.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> <i32 1, i32 1>)
-; SSE-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
+; SSE-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
+; SSE-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
+; SSE-NEXT:    [[R0:%.*]] = call i32 @llvm.fshr.i32(i32 [[A0]], i32 [[A0]], i32 1)
+; SSE-NEXT:    [[R1:%.*]] = call i32 @llvm.fshr.i32(i32 [[A1]], i32 [[A1]], i32 1)
+; SSE-NEXT:    store i32 [[R0]], ptr @d32, align 4
+; SSE-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
 ; SSE-NEXT:    ret void
 ;
 ; AVX-LABEL: @fshr_v2i32_uniformconst(
-; AVX-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
-; AVX-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshr.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> <i32 1, i32 1>)
-; AVX-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
+; AVX-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
+; AVX-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
+; AVX-NEXT:    [[R0:%.*]] = call i32 @llvm.fshr.i32(i32 [[A0]], i32 [[A0]], i32 1)
+; AVX-NEXT:    [[R1:%.*]] = call i32 @llvm.fshr.i32(i32 [[A1]], i32 [[A1]], i32 1)
+; AVX-NEXT:    store i32 [[R0]], ptr @d32, align 4
+; AVX-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
 ; AVX-NEXT:    ret void
 ;
 ; AVX512-LABEL: @fshr_v2i32_uniformconst(
-; AVX512-NEXT:    [[TMP1:%.*]] = load <2 x i32>, ptr @a32, align 4
-; AVX512-NEXT:    [[TMP2:%.*]] = call <2 x i32> @llvm.fshr.v2i32(<2 x i32> [[TMP1]], <2 x i32> [[TMP1]], <2 x i32> <i32 1, i32 1>)
-; AVX512-NEXT:    store <2 x i32> [[TMP2]], ptr @d32, align 4
+; AVX512-NEXT:    [[A0:%.*]] = load i32, ptr @a32, align 4
+; AVX512-NEXT:    [[A1:%.*]] = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 1), align 4
+; AVX512-NEXT:    [[R0:%.*]] = call i32 @llvm.fshr.i32(i32 [[A0]], i32 [[A0]], i32 1)
+; AVX512-NEXT:    [[R1:%.*]] = call i32 @llvm.fshr.i32(i32 [[A1]], i32 [[A1]], i32 1)
+; AVX512-NEXT:    store i32 [[R0]], ptr @d32, align 4
+; AVX512-NEXT:    store i32 [[R1]], ptr getelementptr inbounds ([16 x i32], ptr @d32, i32 0, i64 1), align 4
 ; AVX512-NEXT:    ret void
 ;
   %a0  = load i32, ptr getelementptr inbounds ([16 x i32], ptr @a32, i32 0, i64 0 ), align 4