Главная страница  Сети мобильной связи и телекоммуникации 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 [ 81 ] 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111

При многоимпульсном возбуждении сигнал остатка линейного предсказания представляется в виде последовательности импульсов с неравномерно распределенными интервалами и с различными амплитудами (около 8-10 импульсов за 10 мс). Амплитуды и положения этих импульсов определяются на покадровой основе (кадр за кадром).

Методы анализа через синтез используют синтезатор (декодер) речевого сигнала как составную часть устройства кодирования. При этом задача анализа сводится к процедуре оценки передаваемых в канал связи параметров речи, проводимой в соответствии с некоторым критерием рассогласования между исходным и декодированным сигналами. Для учета специфики слухового восприятия в качестве критерия рассогласования обычно используется взвешенная по частоте квадратическая ошибка. Фактически при используемом в кодере взвешивании подчеркивается ошибка в межформантных областях и тем самым обеспечивается более равномерное по частоте распределение отношения мощности полезного сигнала к мощности ошибки кодирования.

В алгоритмах кодирования с анализом через синтез повышение эффективности информационного уплотнения речевых сигналов производится, преимущественно, за счет сокращения избыточности последовательности х{п), которая осуществляет возбуждение синтезирующего фильтра А (Z) линейного предсказания, формирующего огибающую сигнала, с коэффициентом передачи

/ N-1

A-4z) =

1-Va(/77)Z-

(16.2)

Для этой цели применяется также дополнительный фильтр с характеристикой

p-4z) = (l-gpz-) (16.3)

с одним коэффициентом предсказания др и задержкой на период основного тона Т. Он выполняет функции генератора квазипериодических колебаний голосовых связок при произношении вокализованных звуков.

В зависимости от способа описания сигнала х(п), поступающего на вход фильтра (16.1), можно выделить алгоритмы кодирования с возбуждением прореженной последовательностью импульсов - MPLP (Multi Pulses Linear Prediction), с самовозбуждением - SELP (Self Excited Linear Prediction), и наконец, с возбуждением от кода - CELP. Экспериментально установлено, что кодовое возбуждение обеспечивает наиболее вьюокое качество декодированного речевого сигнала, в том числе и при наличии входных акустических помех.

Метод CELP был предложен Этолом и Шредером в 1984 г. Наиболее эффективно применение этого метода при передаче речевого сигнала в диапазоне скоростей от 4 до 16 кбит/с.

При этом отрезок (сегмент) сигнала возбуждения выбирается из предварительно сформированной постоянной совокупности - кодовой книги, содержащей достаточно большое количество реализаций, например, некоррелированного гауссовского шума. Выбранная реализация усиливается и подается на вход цепочки фильтров (16.2) и (16.3).

Поиск оптимальных значений др и 7 синтезатора основного тона, коэффициента усиления и номера элемента кодовой книги осуществляется посредством анализа через синтез. В целом, в канал связи передаются номер (индекс) элемента кодовой книги с соответствующим коэффициентом усиления, параметры синтезатора основного тона, а также коэффициенты линейного предсказания, характеризующие состояние голосового тракга.

Структура декодера. Основными узлами схемы декодера являются два синтезирующих фильтра с большой и малой постоянной времени и алгебраическая кодовая книга.

Фильтр с большой постоянной времени выполняет функцию долговременного предсказателя (Long Term Predictor) и моделирует квазипериодичность (долговременные корреляции) речевого сигнала и имеет характеристику (16.3). Он выполнен на основе адаптивной кодовой книги, содержащей сигналы возбуждения и реализующей генерацию квазипериодических колебаний голосового тракга.

Фильтр с малой постоянной времени выполняет функцию кратковременного предсказателя (Short Term Predictor) и моделирует кратковременные корреляции, т.е. корреляции между отсчетами речевого сигнала, и имеет характеристику (16.2) с порядком предсказывающего устройства, соответствующим М= 10.

Алгебраическая (постоянная) кодовая книга содержит совокупность последовательностей белого шума с гауссовским распределением, нулевым средним значением и единичной дисперсией. Она служит для реализации первого этапа генерации возбуждающего сигнала. На втором этапе производится коррекция возбуждающего сигнала путем добавления к нему данных из адаптивной кодовой книги. Сформированная в итоге возбуждающая последовательность поступает на вход синтезирующего фильтра A~\z), где вычисляются значения выходного речевого сигнала.

В кодере производится оценка М = 10 коэффициентов линейного предсказания и анализ возможных значений параметра синтезатора (индекса кс и коэффициента усиления алгебраической кодовой книги и индекса кр и коэффициента усиления др адаптивной кодовдй книги), целью которого является минимизация взвешенной ошибки рассогласования между входным и синтезированным речевыми сигналами.

Полученные при этом оптимальные параметры синтезатора квантуются и передаются в канал связи. Обработка сигналов в кодере



Индекс алгебраической кодовой книги (к)

Задержка периода основного тона (Т)

Предыдущий

сигнал возбуждения

Предсказание усиления и векторное квантование

Адаптивная кодовая книга

Коэффициенты усиления

Синтезирующий фильтр с большой постоянной времени P(z)

Алгебраическая кодовая книга


Входной цифровой сигнал

Синтезирующий фильтр с малой

Коэффициенты

линейного предсказания

Выходной речевой сигнал

постоянной времени A{z)

Рис. 16.1. Структурная схема декодера речевого сигнала

и декодере производится по блокам. Длительность основного блока составляет 30 мс, что соответствует 240 отсчетам при частоте дискретизации 8 кГц. Для каждого такого блока формируется кадр передаваемой в канал связи информации объемом 137 бит, что обеспечивает скорость передачи информации 4567 бит/с. Оценка коэффициентов линейного предсказания выполняется один раз на всем блоке, а оптимизация остальных параметров синтезатора выполняется на сегментах длительностью 60 отсчетов, т.е. 4 раза на блок. Поразрядное распределение информации в передаваемом кадре приведено в табл. 16.1.

Таблица 16.1. Поразрядное распределение информации в кадре речевого кодека

Параметр

1-й сегмент

2-й сегмент

3-й сегмент

4-й сегмент

Всего в кадре

Коэффициенты линейного предсказания

Период основного тона

Индекс алгебраической кодовой книги

Коэффициенты усиления

Всего

16.3. Транскодер DECT

Помимо кодеров речи в сетях радиодоступа для уменьшения скорости цифрового потока используются и транскодеры.

Транскодером называется устройство, преобразующее цифровые потоки речевых сигналов из одного цифрового формата в другой. Транскодер системы DECT создан на основе методов адаптивной дифференциальной импульсно-кодовой модуляции - АДИКМ (Adaptive Differential Pulse Code Modulation, ADPCM) - и относится к классу речепреобразующих устройств, принцип действия которых основан на компактном преобразовании аналоговых сигналов с восстановлением их формы во временной области. В этих транскодерах используются алгоритмы сжатия речи, которые обеспечивают практически такое же качество воспроизведения речи, как в сети ISDN.

В стандарте DECT используется транскодер PCM/ADPCM или И КМ/АД И КМ (64/32 кбит/с).

Принцип действия транскодера /\ДИКМ следующий (рис. 16.2). Входной ИКМ-сигнал преобразуется с использованием А- или ц-зако-

64 кбит/с

АДИКМ 32 кбит/с

Преобразователь в линейную ИКМ

Разностный сигнал

Адаптивный квантователь

АДИКМ

32 кбит/с

Инверсный адаптивный квантователь


Квантованный разностный сигнал а

Инверсный адаптивный квантователь

Квантованный разностный сигнал

Инверсный адаптивный квантователь

Преобразователь влиней-ную ИКМ

Адаптивный предсказатель

Устройство синхронного кодирования

64 кбит/с

Рис. 16.2. Транскодер АДИКМ: а-кодер; б-декодер



НОВ сжатия динамического диапазона в ИКМ-сигнал с линейной характеристикой квантования. Из этого сигнала вычитается восстановленная цифровая версия квантованного сигнала, а разностный сигнал поступает на адаптивный квантователь, шаг квантования которого является переменным и зависит от динамического диапазона квантованного сигнала. Изменение уровня сигнала кодируется четырехбитным кодом (в ИКМ-64 для этого требуется 8 бит): в трех битах записан уровень разностного сигнала, а в одном - его знак. Таким образом, при использовании АДИКМ по каналу связи передается не абсолютное значение сигнала, а разность между текущим и предыдущим отсчетами. При шаге дискретизации 125 мкс выходная скорость кодера составляет 32 кбит/с.

Главное преимущество адаптивного предсказания заключено в использовании переменного шага квантования, определяемого значением абсолютного уровня сигнала, который восстанавливается в инверсном адаптивном квантователе. Благодаря тому, что необходимая для адаптации информация выделяется из выходного кодированного сигнала, а не из входного аналогового, операции кодирования/декодирования идентичны.

Адаптивный предсказатель кодера АДИКМ формирует квантованный сигнал, который обеспечивает отслеживание как быстрых, так и медленных флуктуации разностного сигнала, поэтому кодер способен эффективно обрабатывать аудиосигналы различных видов, даже с резкими скачками амплитуды, например сигналы, генерируемые модемом, факсимильным аппаратом и т.п.

Декодер АДИКМ (рис. 16.2, б) фактически представляет собой часть кодера (рис, 16.2, а), в котором квантовый разностный сигнал восстанавливается с помощью инверсного адаптивного квантователя. Пракгически те же функции выполняет и адаптивный предсказатель, который формирует оценки сигнала, основываясь на разностном сигнале и предыдущих отсчетах восстановленного сигнала. Для устранения возможных ошибок, накапливающихся при последовательном соединении нескольких транскодеров АДИКМ, используется синхронизация

Кроме DECT-систем транскодер АДИКМ используется и в ряде других сетей беспроводного доступа: СТ2, PHS, PACS. Требования к нему детально определены в спецификациях G.721 и G.726. Для АДИКМ-кодеров со скоростью 32 кбит/с качество воспроизведения речи оценивается по экспертной шкале MOS в 4,1 балла (сравните: для ИКМ-кодеров со скоростью 64 кбит,/с (G.711) аналогичная оценка качества составляет 4,5 балла, а для кодеров сотовых систем (4,8... 13 кбит/с) -3,5...3,8 балла).

16.4. Оценка качества кодирования речи

При оценке качества кодирования и сопоставлении различных кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи. Для оценки разборчивости речи используется метод DRT (Diagnostic Rhyme Test - диагностический рифмованный тест). В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными (типа дот - тот , кол - гол ), которые многократно произносятся рядом дикторов, и по результатам испытаний оценивается доля искажений. Метод позволяет получить как оценку разборчивости отдельных согласных, так и общую оценку разборчивости речи.

Для оценки качества звучания используется критерий DAM (Diagnostic Acceptability Measure - диагностическая мера приемлемости). Испытания заключаются в чтении несколькими дикторами, мужчинами и женщинами, ряда специально подобранных фраз, которые прослушиваются на выходе тракта связи рядом экспертов-слушателей, выставляющих свои оценки по 5-балльной шкале. Результатом является средняя субъективная оценка, или средняя оценка мнений (Mean Opinion Score - MOS). Хотя этот метод субъекгивен по своей сути, его результаты по сопоставлению различных типов кодеков при проведении испытаний одними и теми же группами дикторов и экспертов-слушателей, по-видимому, достаточно объективны, и на них основываются практически все выводы и решения.

В качестве примера в табл. 16.2 приведены результаты оценки четырех типов кодеков. Близкие к шкале MOS результаты дает объективный метод оценки качества с использованием понятия кепстраль-ного расстояния (Cepstrum Distance - CD).

Таблица 16.2. Оценка кодеков речи по шкале MOS

Тип кодека

Темп передачи информации, кбит/с

Оценка MOS

ADPCM

RPE-LTP

3, 8

VSELP

16.5. Канальное кодирование

В настоящее время в системах радиосвязи передача модулированных сигналов сочетается с помехоустойчивым кодированием информации. При этом используются как блочные, так и сверточные коды [3].



1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 [ 81 ] 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111

© 2000 - 2021 ULTRASONEX-AMFODENT.RU.
Копирование материалов разрешено исключительно при условии цититирования.