fla-org
diff --git a/‎fla/layers/comba.py‎
Lines changed: 10 additions & 2 deletions b/‎fla/layers/comba.py‎
Lines changed: 10 additions & 2 deletions
diff --git a/‎fla/layers/delta_net.py‎
Lines changed: 16 additions & 8 deletions b/‎fla/layers/delta_net.py‎
Lines changed: 16 additions & 8 deletions
diff --git a/‎fla/layers/gated_deltanet.py‎
Lines changed: 10 additions & 2 deletions b/‎fla/layers/gated_deltanet.py‎
Lines changed: 10 additions & 2 deletions
diff --git a/‎fla/layers/gated_deltaproduct.py‎
Lines changed: 10 additions & 2 deletions b/‎fla/layers/gated_deltaproduct.py‎
Lines changed: 10 additions & 2 deletions
diff --git a/‎fla/layers/kda.py‎
Lines changed: 10 additions & 2 deletions b/‎fla/layers/kda.py‎
Lines changed: 10 additions & 2 deletions
@@ -91,6 +91,7 @@ def __init__(
         conv_bias: bool = False,
         layer_idx: int = None,
         norm_eps: float = 1e-5,
+        fuse_conv_l2: bool = True,
         **kwargs,
     ) -> Comba:
         super().__init__()
@@ -106,6 +107,7 @@ def __init__(
         self.use_inner_decay = use_inner_decay
         self.conv_size = conv_size
         self.conv_bias = conv_bias
+        self.fuse_conv_l2 = fuse_conv_l2 and self.use_short_conv
 
         self.head_dim = head_dim
         self.num_heads = num_heads
@@ -179,12 +181,16 @@ def __init__(
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu',
+                norm='l2' if self.fuse_conv_l2 else None,
+                norm_eps=norm_eps,
             )
             self.k_conv1d = ShortConvolution(
                 hidden_size=self.key_dim,
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu',
+                norm='l2' if self.fuse_conv_l2 else None,
+                norm_eps=norm_eps,
             )
             self.v_conv1d = ShortConvolution(
                 hidden_size=self.value_dim,
@@ -243,12 +249,14 @@ def forward(
                 cache=conv_state_q,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None,
             )
             k, conv_state_k = self.k_conv1d(
                 x=self.k_proj(hidden_states),
                 cache=conv_state_k,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None,
             )
             v, conv_state_v = self.v_conv1d(
                 x=self.v_proj(hidden_states),
@@ -291,7 +299,7 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                use_qk_l2norm_in_kernel=True,
+                use_qk_l2norm_in_kernel=not self.fuse_conv_l2,
             )
         elif mode == 'fused_recurrent':
             o, recurrent_state = fused_recurrent_comba(
@@ -304,7 +312,7 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                use_qk_l2norm_in_kernel=True,
+                use_qk_l2norm_in_kernel=not self.fuse_conv_l2,
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")
 
@@ -87,15 +87,23 @@ def __init__(
         qk_activation: str = 'silu',
         qk_norm: str = 'l2',
         norm_eps: float = 1e-5,
-        fuse_norm: bool = True,
+        fuse_conv_l2: bool = True,
+        fuse_norm: bool | None = None,
         **kwargs,
     ) -> DeltaNet:
         super().__init__()
 
         self.mode = mode
         self.qk_activation = qk_activation
         self.qk_norm = qk_norm
-        self.fuse_norm = fuse_norm and (qk_norm == 'l2')
+        if fuse_norm is not None:
+            warnings.warn(
+                "`fuse_norm` is deprecated for DeltaNet; use `fuse_conv_l2` to control the fused "
+                "ShortConvolution + L2 kernel.",
+                stacklevel=2,
+            )
+            fuse_conv_l2 = fuse_norm
+        self.fuse_conv_l2 = fuse_conv_l2 and use_short_conv and (qk_norm == 'l2')
 
         assert self.qk_activation in ['silu', 'relu', 'elu', 'identity']
         assert self.qk_norm in ['l2', 'sum']
@@ -138,15 +146,15 @@ def __init__(
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu' if qk_activation == 'silu' else None,
-                norm='l2' if self.fuse_norm else None,
+                norm='l2' if self.fuse_conv_l2 else None,
                 norm_eps=norm_eps,
             )
             self.k_conv1d = ShortConvolution(
                 hidden_size=self.key_dim,
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu' if qk_activation == 'silu' else None,
-                norm='l2' if self.fuse_norm else None,
+                norm='l2' if self.fuse_conv_l2 else None,
                 norm_eps=norm_eps,
             )
             self.v_conv1d = ShortConvolution(
@@ -206,14 +214,14 @@ def forward(
                 cache=conv_state_q,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_dim=self.head_k_dim if self.fuse_norm else None
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None
             )
             k, conv_state_k = self.k_conv1d(
                 x=self.k_proj(hidden_states),
                 cache=conv_state_k,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_dim=self.head_k_dim if self.fuse_norm else None
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None
             )
             v, conv_state_v = self.v_conv1d(
                 x=self.v_proj(hidden_states),
@@ -260,7 +268,7 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                use_qk_l2norm_in_kernel=(self.qk_norm == 'l2' and not self.fuse_norm),
+                use_qk_l2norm_in_kernel=(self.qk_norm == 'l2' and not self.fuse_conv_l2),
             )
         elif mode == 'chunk':
             o, recurrent_state = chunk_delta_rule(
@@ -271,7 +279,7 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                use_qk_l2norm_in_kernel=(self.qk_norm == 'l2' and not self.fuse_norm),
+                use_qk_l2norm_in_kernel=(self.qk_norm == 'l2' and not self.fuse_conv_l2),
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")
 
@@ -100,6 +100,7 @@ def __init__(
         conv_bias: bool = False,
         layer_idx: int = None,
         norm_eps: float = 1e-5,
+        fuse_conv_l2: bool = True,
         **kwargs,
     ) -> GatedDeltaNet:
         super().__init__()
@@ -113,6 +114,7 @@ def __init__(
         self.use_short_conv = use_short_conv
         self.conv_size = conv_size
         self.conv_bias = conv_bias
+        self.fuse_conv_l2 = fuse_conv_l2 and self.use_short_conv
 
         self.head_dim = head_dim
         self.num_heads = num_heads
@@ -174,12 +176,16 @@ def __init__(
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu',
+                norm='l2' if self.fuse_conv_l2 else None,
+                norm_eps=norm_eps,
             )
             self.k_conv1d = ShortConvolution(
                 hidden_size=self.key_dim,
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu',
+                norm='l2' if self.fuse_conv_l2 else None,
+                norm_eps=norm_eps,
             )
             self.v_conv1d = ShortConvolution(
                 hidden_size=self.value_dim,
@@ -239,12 +245,14 @@ def forward(
                 cache=conv_state_q,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None,
             )
             k, conv_state_k = self.k_conv1d(
                 x=self.k_proj(hidden_states),
                 cache=conv_state_k,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None,
             )
             v, conv_state_v = self.v_conv1d(
                 x=self.v_proj(hidden_states),
@@ -280,7 +288,7 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                use_qk_l2norm_in_kernel=True,
+                use_qk_l2norm_in_kernel=not self.fuse_conv_l2,
             )
         elif mode == 'fused_recurrent':
             o, recurrent_state = fused_recurrent_gated_delta_rule(
@@ -292,7 +300,7 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                use_qk_l2norm_in_kernel=True,
+                use_qk_l2norm_in_kernel=not self.fuse_conv_l2,
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")
 
@@ -44,6 +44,7 @@ def __init__(
         use_forget_gate: bool = True,
         allow_neg_eigval: bool = True,
         num_householder: int = 2,
+        fuse_conv_l2: bool = True,
         **kwargs,
     ) -> GatedDeltaProduct:
         super().__init__()
@@ -60,6 +61,7 @@ def __init__(
         self.use_short_conv = use_short_conv
         self.conv_size = conv_size
         self.conv_bias = conv_bias
+        self.fuse_conv_l2 = fuse_conv_l2 and self.use_short_conv
 
         self.head_dim = head_dim
         self.num_heads = num_heads
@@ -122,12 +124,16 @@ def __init__(
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu',
+                norm='l2' if self.fuse_conv_l2 else None,
+                norm_eps=norm_eps,
             )
             self.k_conv1d = ShortConvolution(
                 hidden_size=self.key_dim * num_householder,
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu',
+                norm='l2' if self.fuse_conv_l2 else None,
+                norm_eps=norm_eps,
             )
             self.v_conv1d = ShortConvolution(
                 hidden_size=self.value_dim * num_householder,
@@ -196,12 +202,14 @@ def forward(
                 cache=conv_state_q,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None,
             )
             k, conv_state_k = self.k_conv1d(
                 x=self.k_proj(hidden_states),
                 cache=conv_state_k,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None,
             )
             v, conv_state_v = self.v_conv1d(
                 x=self.v_proj(hidden_states),
@@ -243,7 +251,7 @@ def forward(
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
                 num_householder=self.num_householder,
-                use_qk_l2norm_in_kernel=True,
+                use_qk_l2norm_in_kernel=not self.fuse_conv_l2,
             )
 
         elif mode == 'fused_recurrent':
@@ -264,7 +272,7 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens * self.num_householder if cu_seqlens is not None else None,
-                use_qk_l2norm_in_kernel=True,
+                use_qk_l2norm_in_kernel=not self.fuse_conv_l2,
             )
             o = rearrange(o, '... (t n) h d -> ... t n h d', n=self.num_householder)[..., -1, :, :].contiguous()
 
 
@@ -71,6 +71,7 @@ def __init__(
         conv_bias: bool = False,
         layer_idx: int = None,
         norm_eps: float = 1e-5,
+        fuse_conv_l2: bool = True,
         **kwargs,
     ) -> KimiDeltaAttention:
         super().__init__()
@@ -83,6 +84,7 @@ def __init__(
         self.use_short_conv = use_short_conv
         self.conv_size = conv_size
         self.conv_bias = conv_bias
+        self.fuse_conv_l2 = fuse_conv_l2 and self.use_short_conv
 
         self.head_dim = head_dim
         self.num_heads = num_heads
@@ -122,12 +124,16 @@ def __init__(
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu',
+                norm='l2' if self.fuse_conv_l2 else None,
+                norm_eps=norm_eps,
             )
             self.k_conv1d = ShortConvolution(
                 hidden_size=self.key_dim,
                 kernel_size=conv_size,
                 bias=conv_bias,
                 activation='silu',
+                norm='l2' if self.fuse_conv_l2 else None,
+                norm_eps=norm_eps,
             )
             self.v_conv1d = ShortConvolution(
                 hidden_size=self.value_dim,
@@ -194,12 +200,14 @@ def forward(
                 cache=conv_state_q,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None,
             )
             k, conv_state_k = self.k_conv1d(
                 x=self.k_proj(hidden_states),
                 cache=conv_state_k,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
+                head_dim=self.head_k_dim if self.fuse_conv_l2 else None,
             )
             v, conv_state_v = self.v_conv1d(
                 x=self.v_proj(hidden_states),
@@ -237,7 +245,7 @@ def forward(
                 beta=beta,
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
-                use_qk_l2norm_in_kernel=True,
+                use_qk_l2norm_in_kernel=not self.fuse_conv_l2,
                 cu_seqlens=cu_seqlens,
             )
         elif mode == 'fused_recurrent':
@@ -249,7 +257,7 @@ def forward(
                 beta=beta,
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
-                use_qk_l2norm_in_kernel=True,
+                use_qk_l2norm_in_kernel=not self.fuse_conv_l2,
                 cu_seqlens=cu_seqlens,
             )
         else: