Support Flex Attention for encoder only models (XLMRoberta, ModernBERT etc...)

### Feature request

With the addition of flex attention support through #36643, encoder only models still lack this feature.
XLMRoberta, ModernBERT (and EuroBERT in the future) are very common for RAG setups (embedding + reranker).
Allowing them to support arbitrary attention patterns can be useful.

### Motivation

Support for arbitrary attention patterns can be useful for research/production.

### Your contribution

test

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Support Flex Attention for encoder only models (XLMRoberta, ModernBERT etc...) #36697

Feature request

Motivation

Your contribution

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Support Flex Attention for encoder only models (XLMRoberta, ModernBERT etc...) #36697

Description

Feature request

Motivation

Your contribution

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions