From 5dcc529e3e1eecb960a52e09c23b7afb9825cab2 Mon Sep 17 00:00:00 2001 From: Artyom Boyko Date: Sat, 24 May 2025 10:29:03 +0300 Subject: [PATCH] Update asr_models.mdx Minor edits to improve readability. --- chapters/ru/chapter5/asr_models.mdx | 16 ++++++++-------- 1 file changed, 8 insertions(+), 8 deletions(-) diff --git a/chapters/ru/chapter5/asr_models.mdx b/chapters/ru/chapter5/asr_models.mdx index 12a1fa51..81de3fb9 100644 --- a/chapters/ru/chapter5/asr_models.mdx +++ b/chapters/ru/chapter5/asr_models.mdx @@ -7,11 +7,11 @@ Как подробно описано в Разделе 3, модели распознавания речи в целом относятся к одной из двух категорий: -1. Connectionist Temporal Classification (CTC) или Коннекционистская Временная Классификация: модели состящие только из энкодера, с головой линейного классификатора в вершине модели. -2. Sequence-to-sequence (Seq2Seq) или последовательность-в-последовательность: модели включающие в себя как энкодер, так и декодер с механизмом перекрестного внимания между ними (cross-attention). +1. Connectionist Temporal Classification (CTC) или Коннекционистская Временная Классификация: модели состящие только из кодера, с головой линейного классификатора в вершине модели. +2. Sequence-to-sequence (Seq2Seq) или последовательность-в-последовательность: модели включающие в себя как кодер, так и декодер с механизмом перекрестного внимания между ними (cross-attention). -До 2022 года более популярной из двух архитектур была CTC, а такие модели, работающие только с энкодером, как Wav2Vec2, HuBERT и XLSR, совершили прорыв в парадигме -предварительного обучения/дообучения в задачах с речью. Крупные корпорации, такие как Meta и Microsoft, предварительно обучали энкодер на огромных объемах +До 2022 года более популярной из двух архитектур была CTC, а такие модели, работающие только с кодером, как Wav2Vec2, HuBERT и XLSR, совершили прорыв в парадигме +предварительного обучения/дообучения в задачах с речью. Крупные корпорации, такие как Meta и Microsoft, предварительно обучали кодер на огромных объемах неразмеченных аудиоданных в течение многих дней или недель. Затем пользователи могли взять предварительно обученную контрольную точку и дообучить ее с помощью головы CTC всего на **10 минутах** размеченных речевых данных для достижения высоких результатов в последующей задаче распознавания речи. @@ -91,7 +91,7 @@ Prediction: HE TELLS US THAT AT THIS FESTIVE SEASON OF THE YEAR WITH **CHRISTMA * _ROSE_ vs. _ROAST_ * _SIMALYIS_ vs. _SIMILES_ -Это подчеркивает недостаток модели CTC. Модель CTC - это, по сути, "только акустическая" модель: она состоит из энкодера, который формирует представления +Это подчеркивает недостаток модели CTC. Модель CTC - это, по сути, "только акустическая" модель: она состоит из кодера, который формирует представления скрытых состояний из аудиовходов, и линейного слоя, который отображает скрытые состояния в символы: