Главная страница Сети мобильной связи и телекоммуникации При многоимпульсном возбуждении сигнал остатка линейного предсказания представляется в виде последовательности импульсов с неравномерно распределенными интервалами и с различными амплитудами (около 8-10 импульсов за 10 мс). Амплитуды и положения этих импульсов определяются на покадровой основе (кадр за кадром). Методы анализа через синтез используют синтезатор (декодер) речевого сигнала как составную часть устройства кодирования. При этом задача анализа сводится к процедуре оценки передаваемых в канал связи параметров речи, проводимой в соответствии с некоторым критерием рассогласования между исходным и декодированным сигналами. Для учета специфики слухового восприятия в качестве критерия рассогласования обычно используется взвешенная по частоте квадратическая ошибка. Фактически при используемом в кодере взвешивании подчеркивается ошибка в межформантных областях и тем самым обеспечивается более равномерное по частоте распределение отношения мощности полезного сигнала к мощности ошибки кодирования. В алгоритмах кодирования с анализом через синтез повышение эффективности информационного уплотнения речевых сигналов производится, преимущественно, за счет сокращения избыточности последовательности х{п), которая осуществляет возбуждение синтезирующего фильтра А (Z) линейного предсказания, формирующего огибающую сигнала, с коэффициентом передачи / N-1 A-4z) = 1-Va(/77)Z- (16.2) Для этой цели применяется также дополнительный фильтр с характеристикой p-4z) = (l-gpz-) (16.3) с одним коэффициентом предсказания др и задержкой на период основного тона Т. Он выполняет функции генератора квазипериодических колебаний голосовых связок при произношении вокализованных звуков. В зависимости от способа описания сигнала х(п), поступающего на вход фильтра (16.1), можно выделить алгоритмы кодирования с возбуждением прореженной последовательностью импульсов - MPLP (Multi Pulses Linear Prediction), с самовозбуждением - SELP (Self Excited Linear Prediction), и наконец, с возбуждением от кода - CELP. Экспериментально установлено, что кодовое возбуждение обеспечивает наиболее вьюокое качество декодированного речевого сигнала, в том числе и при наличии входных акустических помех. Метод CELP был предложен Этолом и Шредером в 1984 г. Наиболее эффективно применение этого метода при передаче речевого сигнала в диапазоне скоростей от 4 до 16 кбит/с. При этом отрезок (сегмент) сигнала возбуждения выбирается из предварительно сформированной постоянной совокупности - кодовой книги, содержащей достаточно большое количество реализаций, например, некоррелированного гауссовского шума. Выбранная реализация усиливается и подается на вход цепочки фильтров (16.2) и (16.3). Поиск оптимальных значений др и 7 синтезатора основного тона, коэффициента усиления и номера элемента кодовой книги осуществляется посредством анализа через синтез. В целом, в канал связи передаются номер (индекс) элемента кодовой книги с соответствующим коэффициентом усиления, параметры синтезатора основного тона, а также коэффициенты линейного предсказания, характеризующие состояние голосового тракга. Структура декодера. Основными узлами схемы декодера являются два синтезирующих фильтра с большой и малой постоянной времени и алгебраическая кодовая книга. Фильтр с большой постоянной времени выполняет функцию долговременного предсказателя (Long Term Predictor) и моделирует квазипериодичность (долговременные корреляции) речевого сигнала и имеет характеристику (16.3). Он выполнен на основе адаптивной кодовой книги, содержащей сигналы возбуждения и реализующей генерацию квазипериодических колебаний голосового тракга. Фильтр с малой постоянной времени выполняет функцию кратковременного предсказателя (Short Term Predictor) и моделирует кратковременные корреляции, т.е. корреляции между отсчетами речевого сигнала, и имеет характеристику (16.2) с порядком предсказывающего устройства, соответствующим М= 10. Алгебраическая (постоянная) кодовая книга содержит совокупность последовательностей белого шума с гауссовским распределением, нулевым средним значением и единичной дисперсией. Она служит для реализации первого этапа генерации возбуждающего сигнала. На втором этапе производится коррекция возбуждающего сигнала путем добавления к нему данных из адаптивной кодовой книги. Сформированная в итоге возбуждающая последовательность поступает на вход синтезирующего фильтра A~\z), где вычисляются значения выходного речевого сигнала. В кодере производится оценка М = 10 коэффициентов линейного предсказания и анализ возможных значений параметра синтезатора (индекса кс и коэффициента усиления алгебраической кодовой книги и индекса кр и коэффициента усиления др адаптивной кодовдй книги), целью которого является минимизация взвешенной ошибки рассогласования между входным и синтезированным речевыми сигналами. Полученные при этом оптимальные параметры синтезатора квантуются и передаются в канал связи. Обработка сигналов в кодере Индекс алгебраической кодовой книги (к) Задержка периода основного тона (Т) Предыдущий сигнал возбуждения Предсказание усиления и векторное квантование Адаптивная кодовая книга Коэффициенты усиления Синтезирующий фильтр с большой постоянной времени P(z) Алгебраическая кодовая книга Входной цифровой сигнал Синтезирующий фильтр с малой Коэффициенты линейного предсказания Выходной речевой сигнал постоянной времени A{z) Рис. 16.1. Структурная схема декодера речевого сигнала и декодере производится по блокам. Длительность основного блока составляет 30 мс, что соответствует 240 отсчетам при частоте дискретизации 8 кГц. Для каждого такого блока формируется кадр передаваемой в канал связи информации объемом 137 бит, что обеспечивает скорость передачи информации 4567 бит/с. Оценка коэффициентов линейного предсказания выполняется один раз на всем блоке, а оптимизация остальных параметров синтезатора выполняется на сегментах длительностью 60 отсчетов, т.е. 4 раза на блок. Поразрядное распределение информации в передаваемом кадре приведено в табл. 16.1. Таблица 16.1. Поразрядное распределение информации в кадре речевого кодека
16.3. Транскодер DECT Помимо кодеров речи в сетях радиодоступа для уменьшения скорости цифрового потока используются и транскодеры. Транскодером называется устройство, преобразующее цифровые потоки речевых сигналов из одного цифрового формата в другой. Транскодер системы DECT создан на основе методов адаптивной дифференциальной импульсно-кодовой модуляции - АДИКМ (Adaptive Differential Pulse Code Modulation, ADPCM) - и относится к классу речепреобразующих устройств, принцип действия которых основан на компактном преобразовании аналоговых сигналов с восстановлением их формы во временной области. В этих транскодерах используются алгоритмы сжатия речи, которые обеспечивают практически такое же качество воспроизведения речи, как в сети ISDN. В стандарте DECT используется транскодер PCM/ADPCM или И КМ/АД И КМ (64/32 кбит/с). Принцип действия транскодера /\ДИКМ следующий (рис. 16.2). Входной ИКМ-сигнал преобразуется с использованием А- или ц-зако- 64 кбит/с АДИКМ 32 кбит/с Преобразователь в линейную ИКМ Разностный сигнал Адаптивный квантователь АДИКМ 32 кбит/с Инверсный адаптивный квантователь Квантованный разностный сигнал а Инверсный адаптивный квантователь Квантованный разностный сигнал Инверсный адаптивный квантователь Преобразователь влиней-ную ИКМ Адаптивный предсказатель Устройство синхронного кодирования 64 кбит/с Рис. 16.2. Транскодер АДИКМ: а-кодер; б-декодер НОВ сжатия динамического диапазона в ИКМ-сигнал с линейной характеристикой квантования. Из этого сигнала вычитается восстановленная цифровая версия квантованного сигнала, а разностный сигнал поступает на адаптивный квантователь, шаг квантования которого является переменным и зависит от динамического диапазона квантованного сигнала. Изменение уровня сигнала кодируется четырехбитным кодом (в ИКМ-64 для этого требуется 8 бит): в трех битах записан уровень разностного сигнала, а в одном - его знак. Таким образом, при использовании АДИКМ по каналу связи передается не абсолютное значение сигнала, а разность между текущим и предыдущим отсчетами. При шаге дискретизации 125 мкс выходная скорость кодера составляет 32 кбит/с. Главное преимущество адаптивного предсказания заключено в использовании переменного шага квантования, определяемого значением абсолютного уровня сигнала, который восстанавливается в инверсном адаптивном квантователе. Благодаря тому, что необходимая для адаптации информация выделяется из выходного кодированного сигнала, а не из входного аналогового, операции кодирования/декодирования идентичны. Адаптивный предсказатель кодера АДИКМ формирует квантованный сигнал, который обеспечивает отслеживание как быстрых, так и медленных флуктуации разностного сигнала, поэтому кодер способен эффективно обрабатывать аудиосигналы различных видов, даже с резкими скачками амплитуды, например сигналы, генерируемые модемом, факсимильным аппаратом и т.п. Декодер АДИКМ (рис. 16.2, б) фактически представляет собой часть кодера (рис, 16.2, а), в котором квантовый разностный сигнал восстанавливается с помощью инверсного адаптивного квантователя. Пракгически те же функции выполняет и адаптивный предсказатель, который формирует оценки сигнала, основываясь на разностном сигнале и предыдущих отсчетах восстановленного сигнала. Для устранения возможных ошибок, накапливающихся при последовательном соединении нескольких транскодеров АДИКМ, используется синхронизация Кроме DECT-систем транскодер АДИКМ используется и в ряде других сетей беспроводного доступа: СТ2, PHS, PACS. Требования к нему детально определены в спецификациях G.721 и G.726. Для АДИКМ-кодеров со скоростью 32 кбит/с качество воспроизведения речи оценивается по экспертной шкале MOS в 4,1 балла (сравните: для ИКМ-кодеров со скоростью 64 кбит,/с (G.711) аналогичная оценка качества составляет 4,5 балла, а для кодеров сотовых систем (4,8... 13 кбит/с) -3,5...3,8 балла). 16.4. Оценка качества кодирования речи При оценке качества кодирования и сопоставлении различных кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи. Для оценки разборчивости речи используется метод DRT (Diagnostic Rhyme Test - диагностический рифмованный тест). В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными (типа дот - тот , кол - гол ), которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи. Для оценки качества звучания используется критерий DAM (Diagnostic Acceptability Measure - диагностическая мера приемлемости). Испытания заключаются в чтении несколькими дикторами, мужчинами и женщинами, ряда специально подобранных фраз, которые прослушиваются на выходе тракта связи рядом экспертов-слушателей, выставляющих свои оценки по 5-балльной шкале. Результатом является средняя субъективная оценка, или средняя оценка мнений (Mean Opinion Score - MOS). Хотя этот метод субъекгивен по своей сути, его результаты по сопоставлению различных типов кодеков при проведении испытаний одними и теми же группами дикторов и экспертов-слушателей, по-видимому, достаточно объективны, и на них основываются практически все выводы и решения. В качестве примера в табл. 16.2 приведены результаты оценки четырех типов кодеков. Близкие к шкале MOS результаты дает объективный метод оценки качества с использованием понятия кепстраль-ного расстояния (Cepstrum Distance - CD). Таблица 16.2. Оценка кодеков речи по шкале MOS
16.5. Канальное кодирование В настоящее время в системах радиосвязи передача модулированных сигналов сочетается с помехоустойчивым кодированием информации. При этом используются как блочные, так и сверточные коды [3].
|
© 2000 - 2024 ULTRASONEX-AMFODENT.RU.
Копирование материалов разрешено исключительно при условии цититирования. |