Основи структури даних i алгоритми: поняття алгоритму; визначення його часової та просторової (за обсягом пам’яті) складності

Теоретичний матеріал

Вступ до алгоритмів та їх фундаментальні властивості

У серці всіх комп'ютерних програм та систем лежить концепція алгоритму. Алгоритм - це кінцева, чітко визначена послідовність інструкцій, призначених для розв'язання конкретної задачі або виконання обчислення. Він приймає певний набір вхідних даних, обробляє їх згідно з встановленими правилами та генерує очікуваний вихідний результат. Алгоритми є всюдисущими у повсякденному житті, від покрокових рецептів приготування їжі до складних навігаційних систем, що обчислюють оптимальні маршрути.

Для того, щоб послідовність кроків була визнана алгоритмом, вона повинна відповідати п'яти основним властивостям, які гарантують її коректність та ефективність:

Скінченність (Finiteness): Алгоритм повинен завершувати свою роботу за скінченну кількість кроків для будь-якого допустимого набору вхідних даних. Нескінченні цикли або рекурсія без базисного випадку не дозволяють вважати послідовність алгоритмом. Ця властивість забезпечує, що рішення буде отримано протягом обчислюваного часу.
Визначеність (Definiteness): Кожен крок алгоритму має бути однозначно визначеним та не залишати місця для інтерпретації. Це означає, що для кожної інструкції має бути зрозуміло, що саме потрібно виконати і які будуть наступні кроки залежно від умов. Наприклад, "додати $X$ до $Y$" є визначеним, тоді як "збільшити число" – ні.
Вхідні дані (Input): Алгоритм повинен мати нуль або більше вхідних даних, які передаються ззовні перед його початком. Ці вхідні дані є початковою інформацією, яку алгоритм обробляє. Тип, формат та діапазон вхідних даних повинні бути чітко визначені.
Вихідні дані (Output): Алгоритм повинен генерувати один або більше вихідних даних. Це є результат виконання алгоритму, який має бути пов'язаний з поставленою задачею. Вихідні дані повинні бути чітко визначені за типом, форматом та змістом.
Ефективність (Effectiveness): Кожна операція, що виконується в алгоритмі, має бути достатньо простою та елементарною, щоб її можна було в принципі виконати за скінченний проміжок часу, використовуючи базові обчислювальні ресурси (наприклад, "вручну" за допомогою олівця та паперу). Це виключає використання нереалістичних або нездійсненних операцій.

Обчислювальна складність: час та пам'ять

Створення функціонального алгоритму - це лише перший крок. Набагато важливіше оцінити його ефективність, тобто, наскільки добре він працює. Обчислювальна складність алгоритму - це кількісна міра ресурсів, переважно часу та пам'яті, які алгоритм потребує для свого виконання. Аналіз складності дозволяє нам не тільки передбачити поведінку алгоритму при масштабуванні вхідних даних, але й порівняти різні алгоритмічні підходи до однієї й тієї ж проблеми.

Основними аспектами обчислювальної складності є:

Часова складність (Time Complexity): Ця метрика вимірює кількість "часу", який алгоритм потребує для виконання. Важливо розуміти, що це не буквальний час у секундах, який може варіюватися залежно від потужності процесора, мови програмування, компілятора та інших факторів. Замість цього, часова складність вимірюється кількістю елементарних операцій, які виконуються. До таких операцій відносять: арифметичні дії (додавання, віднімання, множення, ділення), присвоєння змінних, порівняння, звернення до елементів масиву чи структури даних, виклики функцій. Часова складність виражається як функція від розміру вхідних даних ($n$).
Просторова складність (Space Complexity): Ця метрика вимірює загальний обсяг пам'яті, який алгоритм використовує під час свого виконання. Сюди входить пам'ять, необхідна для зберігання:
- Вхідних даних (якщо їх розмір є частиною аналізу).
- Програмного коду.
- Змінних і констант, що використовуються в алгоритмі.
- Допоміжних структур даних, створених алгоритмом.
- Стеку викликів для рекурсивних функцій.
Як і часова складність, просторова складність виражається як функція від розміру вхідних даних ($n$).

Асимптотичний аналіз та нотація "Велике О" (Big O Notation)

Оскільки точний підрахунок кожної елементарної операції або кожного байта пам'яті для всіх можливих вхідних даних є практично неможливим і занадто детальним, ми використовуємо асимптотичний аналіз. Цей підхід дозволяє нам оцінити продуктивність алгоритму при дуже великих розмірах вхідних даних ($n \to \infty$), ігноруючи незначні деталі, такі як константні коефіцієнти та члени низького порядку у функціях складності. Це дозволяє зосередитися на тому, як алгоритм масштабується.

Найбільш поширеною нотацією для асимптотичного аналізу є "Велике О" (Big O Notation). Вона описує верхню межу (найгірший випадок) часової або просторової складності алгоритму. Вона показує, як час виконання або обсяг пам'яті алгоритму зростає зі збільшенням розміру вхідних даних ($n$) у найгіршому сценарії. "Велике О" дозволяє нам зрозуміти, наскільки швидко зростає необхідна кількість ресурсів, коли $n$ стає дуже великим.

Формальне визначення: Функція $f(n)$ належить до $O(g(n))$, якщо існують такі позитивні константи $c$ та $n_0$, що для всіх $n \ge n_0$, виконується нерівність $f(n) \le c \cdot g(n)$. Тут $g(n)$ є функцією, яка виступає як верхня межа для $f(n)$. Наприклад, якщо алгоритм виконує $2n + 5$ операцій, то його часова складність буде $O(n)$, оскільки при великих $n$ константа $5$ і коефіцієнт $2$ стають незначними порівняно з $n$.

Крім "Великого О", існують інші асимптотичні нотації:

$\Omega$ (Omega Notation): Описує нижню межу часової або просторової складності, тобто найкращий випадок. Функція $f(n) \in \Omega(g(n))$, якщо існують позитивні константи $c$ та $n_0$, такі що для всіх $n \ge n_0$, виконується нерівність $f(n) \ge c \cdot g(n)$.
$\Theta$ (Theta Notation): Описує щільну межу складності, що є більш точним описом, оскільки вона визначає як верхню, так і нижню межу. $f(n) \in \Theta(g(n))$, якщо $f(n)$ належить одночасно $O(g(n))$ та $\Omega(g(n))$. Це означає, що існують позитивні константи $c_1, c_2$ та $n_0$, такі що для всіх $n \ge n_0$, виконується нерівність $c_1 \cdot g(n) \le f(n) \le c_2 \cdot g(n)$.

При аналізі складності зазвичай розглядають три сценарії:

Найгірший випадок (Worst-case): Максимальна кількість операцій (або пам'яті), необхідних алгоритму для будь-яких вхідних даних заданого розміру $n$. Це найчастіше використовувана метрика, оскільки вона дає гарантовану верхню межу продуктивності.
Середній випадок (Average-case): Середня кількість операцій, необхідних алгоритму для всіх можливих вхідних даних заданого розміру $n$. Цей аналіз складніший, оскільки вимагає знання розподілу ймовірностей вхідних даних.
Найкращий випадок (Best-case): Мінімальна кількість операцій, необхідних алгоритму для будь-яких вхідних даних заданого розміру $n$. Ця метрика рідко використовується, оскільки не дає реалістичного уявлення про продуктивність.

Типові класи часової складності та приклади

Розуміння різних класів складності є ключовим для вибору найбільш ефективного алгоритму. Ось деякі з найпоширеніших класів, розташовані в порядку зростання їх "повільності" для великих $n$:

$O(1)$ - Константна складність: Час виконання не залежить від розміру вхідних даних. Алгоритм виконує фіксовану кількість операцій, незалежно від $n$.
Приклад: Доступ до елемента масиву за його індексом. Додавання елемента до початку однозв'язного списку (якщо є прямий доступ до голови).
$O(\log n)$ - Логарифмічна складність: Час виконання зростає логарифмічно зі збільшенням розміру вхідних даних. Це означає, що зі збільшенням $n$ час виконання зростає дуже повільно. Алгоритми з такою складністю зазвичай ділять проблему на менші підпроблеми.
Приклад: Бінарний пошук у відсортованому масиві. Пошук елемента у збалансованому бінарному дереві пошуку.
$O(n)$ - Лінійна складність: Час виконання прямо пропорційний розміру вхідних даних. Якщо $n$ подвоюється, час виконання також приблизно подвоюється.
Приклад: Послідовний пошук у невідсортованому масиві. Обхід усіх елементів масиву або зв'язного списку один раз. Обчислення суми всіх елементів масиву.
$O(n \log n)$ - Лінійно-логарифмічна (або логарифмічно-лінійна) складність: Це дуже ефективний клас складності, що є кращим за поліноміальний ($n^2$, $n^3$) для великих $n$.
Приклад: Ефективні алгоритми сортування, такі як сортування злиттям (Merge Sort), швидке сортування (Quick Sort - у середньому випадку) або сортування купою (Heap Sort).
$O(n^2)$ - Квадратична складність: Час виконання зростає як квадрат розміру вхідних даних. Часто зустрічається в алгоритмах з вкладеними циклами, де кожен цикл залежить від $n$.
Приклад: Прості алгоритми сортування, такі як сортування бульбашкою (Bubble Sort), сортування вибором (Selection Sort), сортування вставками (Insertion Sort). Генерування всіх можливих пар елементів у масиві.
$O(n^k)$ - Поліноміальна складність: Де $k$ - деяка константа, більша за $1$. Це загальний випадок для алгоритмів з множинними вкладеними циклами (наприклад, $O(n^3)$ для трьох вкладених циклів). Алгоритми з поліноміальною складністю вважаються "ефективними" або "практичними" для більшості задач.
$O(2^n)$ - Експоненціальна складність: Час виконання зростає експоненціально зі збільшенням розміру вхідних даних. Дуже швидко стає непрохідною для навіть помірних значень $n$. Такі алгоритми зазвичай застосовуються для задач, які потребують повного перебору всіх можливих підмножин.
Приклад: Деякі найпростіші підходи до вирішення задачі комівояжера або задачі про ранець (Subset Sum Problem) методом повного перебору. Рекурсивне обчислення чисел Фібоначчі без мемоізації.
$O(n!)$ - Факторіальна складність: Це найгірший клас складності, який зростає надзвичайно швидко. Він характерний для алгоритмів, що перебирають усі можливі перестановки елементів.
Приклад: Генерування всіх перестановок заданого набору елементів.

Наочне порівняння зростання функцій (від найшвидшого до найповільнішого):
$O(1) < O(\log n) < O(n) < O(n \log n) < O(n^2) < O(n^k) < O(2^n) < O(n!)$

Аналіз просторової складності (Space Complexity)

Просторова складність є другою важливою метрикою ефективності алгоритму, що вимірює обсяг пам'яті, який алгоритм використовує для своєї роботи. Вона є критично важливою, особливо в умовах обмежених ресурсів (наприклад, вбудовані системи) або при роботі з дуже великими обсягами даних.

Просторова складність може бути розділена на дві основні компоненти:

Фіксована частина: Це пам'ять, яка потрібна для зберігання програмного коду, констант і простих змінних, розмір яких не залежить від розміру вхідних даних ($n$). Ця частина залишається постійною незалежно від того, наскільки великими є вхідні дані.
Змінна частина (допоміжна пам'ять): Це пам'ять, яка залежить від розміру вхідних даних ($n$). Вона включає:
- Пам'ять для тимчасових змінних, що створюються під час виконання алгоритму.
- Пам'ять для додаткових структур даних, які алгоритм створює (наприклад, тимчасові масиви, хеш-таблиці).
- Пам'ять для стеку рекурсивних викликів.
Зазвичай, коли говорять про просторову складність алгоритму, мають на увазі саме змінну частину, яка також називається допоміжною просторовою складністю (Auxiliary Space Complexity), оскільки пам'ять, виділена для самих вхідних даних, часто розглядається окремо або як частина зовнішніх ресурсів.

Приклади просторової складності:

Алгоритм, що обчислює суму всіх елементів масиву, використовуючи одну змінну для зберігання проміжної суми, має просторову складність $O(1)$ (якщо не враховувати пам'ять для самого вхідного масиву).
Алгоритм сортування, який створює копію вхідного масиву для виконання операцій (наприклад, Merge Sort, що потребує додатковий масив для злиття), матиме просторову складність $O(n)$, де $n$ - розмір масиву.
Рекурсивні алгоритми, такі як обхід дерева в глибину (DFS), можуть мати просторову складність $O(h)$, де $h$ - максимальна глибина стеку рекурсії, яка в найгіршому випадку може бути $O(n)$ для "вироджених" дерев або списків.

Вибір оптимального алгоритму часто полягає у знаходженні балансу між часовою та просторовою складністю. Іноді швидше рішення потребує більше пам'яті, і навпаки. Розуміння цих компромісів є фундаментальним для розробки ефективних та масштабованих програмних рішень, що є невід'ємною частиною успішної підготовки до іспиту ЄФВВ з інформаційних технологій.

Меню