open-mpi
diff --git a/‎ompi/datatype/ompi_datatype_external32.c
Lines changed: 3 additions & 1 deletion b/‎ompi/datatype/ompi_datatype_external32.c
Lines changed: 3 additions & 1 deletion
diff --git a/‎ompi/datatype/ompi_datatype_internal.h
Lines changed: 3 additions & 10 deletions b/‎ompi/datatype/ompi_datatype_internal.h
Lines changed: 3 additions & 10 deletions
diff --git a/‎ompi/mca/coll/hcoll/coll_hcoll_dtypes.h
Lines changed: 13 additions & 1 deletion b/‎ompi/mca/coll/hcoll/coll_hcoll_dtypes.h
Lines changed: 13 additions & 1 deletion
diff --git a/‎opal/datatype/opal_convertor.c
Lines changed: 24 additions & 1 deletion b/‎opal/datatype/opal_convertor.c
Lines changed: 24 additions & 1 deletion
diff --git a/‎opal/datatype/opal_convertor_internal.h
Lines changed: 93 additions & 4 deletions b/‎opal/datatype/opal_convertor_internal.h
Lines changed: 93 additions & 4 deletions
@@ -11,6 +11,7 @@
  * Copyright (c) 2004-2006 The Regents of the University of California.
  *                         All rights reserved.
  * Copyright (c) 2009      Oak Ridge National Labs.  All rights reserved.
+ * Copyright (c) 2020      IBM Corporation.  All rights reserved.
  * $COPYRIGHT$
  *
  * Additional copyrights may follow
@@ -71,7 +72,8 @@
 uint32_t ompi_datatype_external32_arch_id = OPAL_ARCH_LDEXPSIZEIS15 | OPAL_ARCH_LDMANTDIGIS113 |
                                             OPAL_ARCH_LONGDOUBLEIS128 | OPAL_ARCH_ISBIGENDIAN |
                                             OPAL_ARCH_HEADERMASK | OPAL_ARCH_HEADERMASK2 |
-                                            OPAL_ARCH_BOOLIS8 | OPAL_ARCH_LOGICALIS8;
+                                            OPAL_ARCH_BOOLIS8 | OPAL_ARCH_LOGICALIS8 |
+                                            OPAL_ARCH_LONGIS32;
 
 opal_convertor_t* ompi_mpi_external32_convertor = NULL;
 opal_convertor_t* ompi_mpi_local_convertor = NULL;
 
@@ -10,6 +10,7 @@
  * Copyright (c) 2015-2018 Research Organization for Information Science
  *                         and Technology (RIST). All rights reserved.
  * Copyright (c) 2016-2018 FUJITSU LIMITED.  All rights reserved.
+ * Copyright (c) 2020      IBM Corporation.  All rights reserved.
  * $COPYRIGHT$
  *
  * Additional copyrights may follow
@@ -570,16 +571,8 @@ extern const ompi_datatype_t* ompi_datatype_basicDatatypes[OMPI_DATATYPE_MPI_MAX
 #define OMPI_DATATYPE_INITIALIZER_UNSIGNED            OPAL_DATATYPE_INITIALIZER_UINT8
 #endif
 
-#if SIZEOF_LONG == 4
-#define OMPI_DATATYPE_INITIALIZER_LONG                OPAL_DATATYPE_INITIALIZER_INT4
-#define OMPI_DATATYPE_INITIALIZER_UNSIGNED_LONG       OPAL_DATATYPE_INITIALIZER_UINT4
-#elif SIZEOF_LONG == 8
-#define OMPI_DATATYPE_INITIALIZER_LONG                OPAL_DATATYPE_INITIALIZER_INT8
-#define OMPI_DATATYPE_INITIALIZER_UNSIGNED_LONG       OPAL_DATATYPE_INITIALIZER_UINT8
-#elif SIZEOF_LONG == 16
-#define OMPI_DATATYPE_INITIALIZER_LONG                OPAL_DATATYPE_INITIALIZER_INT16
-#define OMPI_DATATYPE_INITIALIZER_UNSIGNED_LONG       OPAL_DATATYPE_INITIALIZER_UINT16
-#endif
+#define OMPI_DATATYPE_INITIALIZER_LONG                OPAL_DATATYPE_INITIALIZER_LONG
+#define OMPI_DATATYPE_INITIALIZER_UNSIGNED_LONG       OPAL_DATATYPE_INITIALIZER_ULONG
 
 #if SIZEOF_LONG_LONG == 4
 #define OMPI_DATATYPE_INITIALIZER_LONG_LONG_INT       OPAL_DATATYPE_INITIALIZER_INT4
 
@@ -92,7 +92,19 @@ static dte_data_representation_t* ompi_datatype_2_dte_data_rep[OMPI_DATATYPE_MAX
 #else
     &DTE_ZERO,
 #endif
-    &DTE_ZERO                   /*OPAL_DATATYPE_UNAVAILABLE    25 */
+
+#if SIZEOF_LONG == 4
+    &DTE_INT32,                 /*OPAL_DATATYPE_LONG           25 */
+    &DTE_UINT32,                /*OPAL_DATATYPE_ULONG          26 */
+#elif SIZEOF_LONG == 8
+    &DTE_INT64,                 /*OPAL_DATATYPE_LONG           25 */
+    &DTE_UINT64,                /*OPAL_DATATYPE_ULONG          26 */
+#elif SIZEOF_LONG == 16
+    &DTE_INT128,                /*OPAL_DATATYPE_LONG           25 */
+    &DTE_UINT128,               /*OPAL_DATATYPE_ULONG          26 */
+#endif
+
+    &DTE_ZERO                   /*OPAL_DATATYPE_UNAVAILABLE    27 */
 };
 
 enum {
 
@@ -15,6 +15,7 @@
  * Copyright (c) 2013-2018 Research Organization for Information Science
  *                         and Technology (RIST).  All rights reserved.
  * Copyright (c) 2017      Intel, Inc. All rights reserved
+ * Copyright (c) 2020      IBM Corporation.  All rights reserved.
  * $COPYRIGHT$
  *
  * Additional copyrights may follow
@@ -141,6 +142,12 @@ opal_convertor_master_t* opal_convertor_find_or_create_master( uint32_t remote_a
         opal_output( 0, "Unknown sizeof(bool) for the remote architecture\n" );
     }
 
+    /* Same for long */
+    if( opal_arch_checkmask( &master->remote_arch, OPAL_ARCH_LONGIS32 ) ) {
+        remote_sizes[OPAL_DATATYPE_LONG] = 4;
+        remote_sizes[OPAL_DATATYPE_ULONG] = 4;
+    }
+
     /**
      * Now we can compute the conversion mask. For all sizes where the remote
      * and local architecture differ a conversion is needed. Moreover, if the
@@ -482,8 +489,24 @@ size_t opal_convertor_compute_remote_size( opal_convertor_t* pConvertor )
 
     pConvertor->remote_size = pConvertor->local_size;
     if( OPAL_UNLIKELY(datatype->bdt_used & pConvertor->master->hetero_mask) ) {
+        int is_send_conversion = 0;
+        if (pConvertor->flags & CONVERTOR_SEND_CONVERSION) {
+            // Adding to the conditions for keeping the optimized description.
+            // Now it's only optimized if (send && contiguous &&
+            // !something like external32 that needs conversion)
+            //
+            // Note, elsewhere there are similar checks that boil down to
+            // checking that CONVERTOR_SEND_CONVERSION is on but that
+            // HOMOGENEOUS is off.  That kind of makes sense, except
+            // OPAL_CONVERTOR_PREPARE seems to universally set HOMOGENEOUS
+            // so I don't think that setting means what it looks like it
+            // means, so I'm not using it.
+            is_send_conversion = 1;
+        }
         pConvertor->flags &= (~CONVERTOR_HOMOGENEOUS);
-        if (!(pConvertor->flags & CONVERTOR_SEND && pConvertor->flags & OPAL_DATATYPE_FLAG_CONTIGUOUS)) {
+        if (!(pConvertor->flags & CONVERTOR_SEND && pConvertor->flags & OPAL_DATATYPE_FLAG_CONTIGUOUS
+            && !is_send_conversion))
+        {
             pConvertor->use_desc = &(datatype->desc);
         }
         if( 0 == (pConvertor->flags & CONVERTOR_HAS_REMOTE_SIZE) ) {
 
@@ -7,6 +7,7 @@
  * Copyright (c) 2013      Cisco Systems, Inc.  All rights reserved.
  * Copyright (c) 2017      Research Organization for Information Science
  *                         and Technology (RIST). All rights reserved.
+ * Copyright (c) 2020      IBM Corporation.  All rights reserved.
  * $COPYRIGHT$
  *
  * Additional copyrights may follow
@@ -22,10 +23,98 @@
 
 BEGIN_C_DECLS
 
-typedef int32_t (*conversion_fct_t)( opal_convertor_t* pConvertor, uint32_t count,
-                                     const void* from, size_t from_len, ptrdiff_t from_extent,
-                                     void* to, size_t to_length, ptrdiff_t to_extent,
-                                     ptrdiff_t *advance );
+#define COPY_TO_VECTOR   1
+#define COPY_FROM_VECTOR 2
+typedef size_t (*conversion_fct_t)( opal_convertor_t* pConvertor, int mode,
+                                     char* vector_buf,
+                                     size_t vector_len,
+                                     size_t nblocks,
+                                     size_t count_per_block,
+                                     size_t extent_between_blocks,
+                                     size_t vector_element_size,
+                                     int vector_is_bigendian,
+                                     char* packed_buf,
+                                     size_t packed_len,
+                                     size_t packed_element_size,
+                                     int packed_is_bigendian,
+                                     size_t *elements_done );
+
+typedef struct {
+    char *buf; // where to write next data
+    size_t count_per_block;
+    size_t extent_between_blocks;
+    size_t element_size;
+    size_t i;
+    size_t j;
+    size_t elements_done;
+    size_t max_elements;
+} vector_iteration_state_t;
+
+#define VECTOR_INIT(buf_,                                                  \
+                    len_,                                                  \
+                    nblocks_,                                              \
+                    count_per_block_,                                      \
+                    extent_between_blocks_,                                \
+                    element_size_,                                         \
+                    elements_already_done_,                                \
+                    max_elements_)                                         \
+do {                                                                       \
+    vec.buf = buf_;                                                        \
+    vec.count_per_block = count_per_block_;                                \
+    vec.extent_between_blocks = extent_between_blocks_;                    \
+    vec.element_size = element_size_;                                      \
+    vec.i = 0;                                                             \
+    vec.j = 0;                                                             \
+    vec.elements_done = 0;                                                 \
+                                                                           \
+    /* vec.max_elements is the min of several factors: */                  \
+    /* 1. what will fit in vec.buf based on its vec.len */                 \
+    /* 2. nblocks * count_per_block */                                     \
+    /* 3. what is specified as max_elements to the macro */                \
+    /* for computing what will fit in vec.buf base on its len: */          \
+    /* number of complete blocks : vector_len / extent_between_blocks */   \
+    /* bytes left for the next block : vector_len % extent_between_blocks */ \
+    vec.max_elements = ((len_) / (extent_between_blocks_)) * (count_per_block_)  \
+                     + ((len_) % (extent_between_blocks_)) / (element_size_);    \
+    if ((nblocks_) * (count_per_block_) < vec.max_elements) {              \
+        vec.max_elements = (nblocks_) * (count_per_block_);                \
+    }                                                                      \
+    if ((max_elements_) < vec.max_elements) {                              \
+        vec.max_elements = (max_elements_);                                \
+    }                                                                      \
+                                                                           \
+    if (elements_already_done_ != 0) {                                     \
+        vec.i = elements_already_done_ / count_per_block_;                 \
+        vec.j = elements_already_done_ % count_per_block_;                 \
+        vec.buf += (vec.i * extent_between_blocks_ + vec.j * element_size_); \
+        vec.elements_done = elements_already_done_;                        \
+    }                                                                      \
+} while (0);
+
+#define VECTOR_GET_NEXT_CONTIG_BLOCK(elements_for_this_block)              \
+do {                                                                       \
+    elements_for_this_block = vec.count_per_block - vec.j;                 \
+/*printf("elements done so far: %d, j=%d\n", vec.elements_done, vec.j);*/ \
+    if (vec.elements_done + elements_for_this_block > vec.max_elements) {  \
+        elements_for_this_block = vec.max_elements - vec.elements_done;    \
+    }                                                                      \
+} while (0);
+
+#define VECTOR_UPDATE(elements_for_this_block)                             \
+do {                                                                       \
+    if (elements_for_this_block == vec.count_per_block) {                  \
+        vec.buf += vec.extent_between_blocks;                              \
+    } else {                                                               \
+        vec.j += elements_for_this_block;                                  \
+        vec.buf += (elements_for_this_block * vec.element_size);           \
+        if (vec.j == vec.count_per_block) {                                \
+            vec.j = 0;                                                     \
+            vec.buf -= (vec.count_per_block * vec.element_size);           \
+            vec.buf += vec.extent_between_blocks;                          \
+        }                                                                  \
+    }                                                                      \
+    vec.elements_done += elements_for_this_block;                          \
+} while (0);
 
 typedef struct opal_convertor_master_t {
     struct opal_convertor_master_t* next;