“Проектування комп’ютерних засобів цифрової обробки сигналів та зображень”
Стиск нерухомих зображень з використанням дискретних косинусних перетворень
Безвтратні методи стиску не забезпечують потрібного у багатьох випадках степеня стиску зображень. У цьому разі необхідно застосовувати методи стиску з втратою інформації..Одним із найбільш поширених підходів є стиск зображень з використанням дискретних косинусних перетворень.
Стиск даних у форматі JPEG (Joint Photographic Experts Group), який дозволяє стискати окремі (незмінні, still picture) зображення, можна умовно розбити на три етапи:
1-й етап - перетворення та субдискретизація кольорової інформації;
2-й етап – поблокові дискретні косинусні перетворення;
3-й етап – квантування та кодування значень дискретного косинусного перетворення.
Перший етап - це перетворення та субдискретизація кольорової інформації. Він полягає в такому.
Кожна точка зображення, представлена 3 байтами в системі RGB, переводиться в систему YUV (яскравість, кольорова насиченість, кольоровий тон) згідно виразів:
Y=77/256*R+150/256*G+29/256*B
U=131/256*R-110/256*G-21/256*B+128
V= -44/256*R-87/256*G+131/256*B+128
або в матричному вигляді

Перетворення з системи YUV в систему RGB виконується за формулами:
R=Y+1.37*(U-128)
G=Y-0.698*(U-128)-0.336*(V-128)
B=Y+1.73*(V-128)
або в матричному вигляді

Далі значення компоненти Y залишаються без зміни, а число значень компонент U і V зменшується (так звана субдискретизація; компоненти U і V можна загрубити без суттєвої втрати якості зображення). Можливі різні варіанти субдискретизації: просте викидання частини з сусідніх точок чи заміна значень сусідніх точок зображення на їх середні. При цьому можливі кілька варіантів об'єднання точок: дві по горизонталі, дві по вертикалі, квадрат з чотирьох сусідніх точок. Найчастіше використовується наступний варіант: число точок зменшується вдвоє, причому значення точок обчислюються згідно з виразом
y(n)=1/4*x(n-2)+1/2*x(n-1)+1/4*x(n).
При цьому блок 8Х16 значень компоненти U або V перетворюється в блок 8Х8 значень.
При відтворенні інформації для покращення якості проміжні точки рекомендується отримувати не простим повторенням, а шляхом інтерполяції між сусідніми точками. Найчастіше використовується наступний спосіб:при відтворенні зображення блок 8Х8 точок реконструюється в блок 8Х16 точок за формулою
x(n)=[y(2n)+y(2n-1)]/2.
Якщо використовується описаний варіант субдискретизації, то досягається стиск зображення в 1,5 рази. Дійсно 1 байт компоненти яскравості залишається без змін, а кожні 2 байти компонент U і V заміняються на 1 байт. Отже, замість 6 байт на кожних 2 точки зображення тепер припадає 4 байта. Якщо використовується варіант об'єднання чотирьох сусідніх точок, то досягається стиск зображення в 2 рази. Адже 1 байт компоненти яскравості залишається без змін, а кожні 4 байти компонент U і V заміняються на 1 байт. Тобто, замість 12 байт на кожних 4 точки зображення тепер припадає 6 байт.
Мінімальний фрагмент інформації для обробки – це блок початкового RGB зображення розміру 8Х16 елементів. У результаті обробки такого фрагменту на першому етапі отримуємо чотири блоки розміру 8Х8: два блоки розміру 8Х8 для компоненти яскравості Y та по одному блоку розміру 8Х8 для компонент U і V. Це ілюструється наступним рисунком.

Другий етап має в своїй основі дискретне косинусне перетворення (ДКП).
Кожна з компонент Y,U,V зображення на цьому етапі розглядається як окреме монохромне (однокольорове) зображення і її стиск проводиться окремо.
Зображення розбивається на блоки 8Х8 елементів. До кожного блоку P застосовується двовимірне ДКП
PДКП=APAT,
де А - матриця двовимірного ДКП,
PДКП - матриця значень ДКП фрагменту зображення.
Пряме ДКП задається наступним виразом
а обернене ДКП задається формулою
де для i=0 та c(i)=1 для i=1,2,…,7.
Двовимірне ДКП має ту властивість, що воно зосереджує найбільші значення у верхньому лівому куті матриці перетворення. Типовий розподіл ДКП коефіцієнтів показано в наведеній далі матриці:

Ці значення треба взяти більш точно, а решта значень ДКП можна суттєво загрубити. Це і є основою стиску зображень у форматі JPEG. Дії, які реалізують описану ідею, відбуваються на наступному третьому етапі.
На третьому етапі виконуються квантування та кодування значень дискретного косинусного перетворення.
Спочатку виконується квантування значень ДКП. Для цього формується матриця Q дільників з елементами q(i,j)=1+(1+i+j)r,i,j=0,1,…,7; r- параметр, який впливає на якість зображення, що отримуємо при відтворенні. Для компонент Y рекомендується брати r=2, а для компонент U,V значення r може бути більшим. q(i,j) це не що інше як крок квантування, який залежно від позиції змінюється. При русі від верхнього лівого кута до правого нижнього кута крок квантування збільшується, тобто виконується грубіше квантування.
При r=2 матриця дільників має вигляд

Значення x(i,j) матриці PДКП діляться на відповідні значення q(i,j) матриці дільників і заокруглються до найближчого цілого. Процес квантування описується наступним виразом:
Q(x(i,j),i,j)=round(x(i,j)/q(i,j)).
Приклад, як виглядає матриця ДКП після квантування значень, наведено нижче:

Кодування матриці квантованих елементів ДКП проводиться по шляху, показаному послідовними номерами (так званий зигзаг або змійка; у напрямку збільшення значень елементів матриці дільників).

Інакше кажучи, переводимо матрицю 8х8 в 64-елементний вектор за допомогою ’’зігзаг’’- сканування, тобто беремо елементи з індексами (0,0), (0,1), (1,0), (2,0), ...

Таким чином, на початку вектора ми дістаємо коефіцієнти матриці, які відповідають низьким частотам, а в кінці – високим частотам.
До коефіцієнтів ДКП, які знаходяться на першому місці (DC коефіцієнти) в послідовних матрицях розміру 8Х8 для кожної з компонент Y,U,V, застосовується дельта імпульсно-кодова модуляція:
DC(1):=DC(1); DC(i):=DC(i)-DC(i-1), де i = 2,3,4,…
Тобто, перше значення в послідовності цих коефіцієнтів залишається без зміни, а кожен наступний заміняється на його різницю з попереднім. При такому стиску можна однозначно відтворити початкові значення.
До коефіцієнтів, які знаходяться на місцях крім першого (AC коефіцієнти), застосовується описане нижче кодування серій нулів.
Кодування серій нулів. Підраховуємо число нульових елементів від початку послідовності до першого ненульового елемента. Це число записуємо в утворювану нову послідовність. Далі записуємо ненульовий елемент, до якого ми дойшли. Тоді знову підраховуємо число нульових елементів до чергового ненульового елемента і записуємо це число в утворювану послідовність. Таким чином, у новій послідовності чергуються число нульових елементів до чергового ненульового елемента та ці ненульові елементи. З такої послідовності можна однозначно відтворити початкову послідовність.
Іншими словами при кодуванні серій нулів отримуємо пари типу (x,y), де x означає лічильник пропущених нулів, а y – значення, яке потрібно поставити в наступну комірку. Так, вектор 42 3 0 0 0 -2 0 0 0 0 1 ... буде згорнутий в пари (0,42)(0,3)(3,-2)(4,1) ... .
Якщо в початковій послідовності зустрічаються досить довгі серії нулів, то описане кодування дозволяє стиснути початкову послідовність.
Останнім кроком є застосування до отриманої послідовності кодування Хафмена. Вважається, що поява нульового елемента у даній послідовності є найбільш імовірною, а із збільшенням абсолютної величини елемента ймовірність його появи зменшується. Один з варіантів таблиці кодування виглядає так:
елемент
кодове слово

0
1

+1
0100

-1
0101

+2
0110

-2
0111

+3
00100

-3
00101

+4
00110

-4
00111

+5
0001000

-5
0001001

+6
0001010

-6
0001011

+7
0001100

-7
0001101

+8
0001110

-8
0001111

|D|>8
00001+8розрядів значення D


Таблиця кодування може фіксуватися перед початком обробки або бути адаптивною, тобто мінятися з використанням статистики появи даних у попередніх блоках.
Результатом кодування є послідовність кодових слів коду Хафмена. Відомо, що ніякі два слова в цьому коді не мають однакового початку, тобто слова в послідовності можуть іти підряд без маркерів розділення.
Певні маркери мають бути лише для того, щоб вказати, де починається послідовність кодових слів, отриманих при обробці блоку 8Х8 елементів.
При відтворенні зображення виконуються наступні дії, зворотні до дій при стиску:
- декодування Хафмена та декодування серій нулів;
- деквантування (множення на відповідні значення елементів матриці дільників);
- обернені двовимірні ДКП блоків 8Х8 елементів;
- о