Edited attention.py for older xformers (#1270)

Lime-Cakes · web-flow · commit 33d7e89c42e0 · 2022-11-14T13:35:47.000+01:00
Older versions of xformers require query, key, value to be contiguous, this calls .contiguous() on q/k/v before passing to xformers.
diff --git a/src/diffusers/models/attention.py b/src/diffusers/models/attention.py
@@ -557,6 +557,9 @@ def _sliced_attention(self, query, key, value, sequence_length, dim):
         return hidden_states
 
     def _memory_efficient_attention_xformers(self, query, key, value):
+        query = query.contiguous()
+        key = key.contiguous()
+        value = value.contiguous()
         hidden_states = xformers.ops.memory_efficient_attention(query, key, value, attn_bias=None)
         hidden_states = self.reshape_batch_dim_to_heads(hidden_states)
         return hidden_states