ОСНОВИ ПРОГРАМУВАННЯ ТА ЗАСОБИ СИНХРОНІЗАЦІЇ В БАГАТОЗАДАЧНІЙ ОПЕРАЦІЙНІЙ СИСТЕМІ WINDOWS.

Вступ.................................................................................................. 5

Лабораторна робота № 1. Основи програмування та засоби синхронізації в багатозадачній операційній системі WINDOWS…................................................................................ …..6

1.1 Теоретичні відомості…………………………………………. ……....6

1.2 Опис програми ThreadWar…………………………………..............12

1.3 Хід роботи………………………………………………… …………15

1.4 Зміст звіту…………………………………………………… ……….16

1.5 Контрольні питання………………………………………… ……….16

Лабораторна робота № 2. Побудова паралельних алгоритмів.… …….17

2.1 Теоретичні відомості………………………………………… ……...17

2.2 Хід роботи…………………………………………………….. ……..21

2.3 Зміст звіту…………………………………………………….. ……...21

2.4 Контрольні питання………………………………………….. ……...21

Лабораторна робота № 3. Знайомство з бібліотекою MPI ……………22

3.1 Теоретичні відомості………………………………………………...22

3.1.1 Ініціалізація бібліотеки та MPI-середовища…………………. 22

3.1.2 Аварійне завершення роботи MPI-середовища……………… 22

3.1.3 Нормальне закриття бібліотеки………………………………. 23

3.1.4 Інформаційні функції………………………………………….... 23

3.1.5 Функції пересилки даних…………………………………… …23

3.2 Завдання до лабораторної роботи………………………………….. 24

3.2.1 Завдання 1………………………………………………...…….24

3.2.2 Завдання 2……………………………………………………… 25

3.2.3 Завдання 3……………………………………………………… 27

3.2.4 Завдання 4……………………………………………………… 27

3.3 Зміст звіту…………………………………………………...…… 27

3.4 Контрольні питання………………………………………………….28

Лабораторна робота № 4. Функції обміну в MPI ……………………...29

4.1 Теоретичні відомості………………………………………………...29

4.2 Завдання до лабораторної роботи…………………………… ……31

4.2.1 Завдання 1……………………………………………………....31

4.2.2 Завдання 2……………………………………………………....35

4.3 Зміст звіту……………………………………………………………... 39

4.4 Контрольні питання……………………………………………….....40

Лабораторна робота № 5. Паралельні методи інтегрування. Використання функцій колективного обміну MPI.......................................................................................................... 41

5.1 Паралельний метод обчислення визначених інтегралів………….. 41

5.1.1 Теоретичні відомості…...................................................... 41

5.1.2 Завдання……....................................................................……43

5.2 Паралельна реалізація метода Монте-Карло……………………… 43

5.2.1 Теоретичні відомості………………………………………….. 43

5.2.2 Завдання 1……………………………………………………… 49

5.2.3 Завдання 2………………………......................................... 50

5.3 Зміст звіту……………………………………………………………... 51

5.4 Контрольні питання…………………………….......................... 51

Лабораторна робота № 6. Використання технології CUDA.......... 53

6.1 Теоретичні відомості…............................................................. 53

6.2 Завдання…….................................................................................…66

6.3 Зміст звіту……………………………………………………………... 66

6.4 Контрольні питання…………………………….......................... 66

Література........................................................................................ 67

Додаток А. Текст програми Thread War……….................. ……….68

Лабораторні роботи спрямовані на засвоєння базових знань з паралельного програмування при використанні високопродуктивних обчислювальних систем. Вивчаються основні концепції організації паралельних обчислювальних процесів на високопродуктивних системах з застосуванням середовищ Microsoft Visual C++, CUDA та MPICH під управлінням операційних систем (ОС) Windows та Linux.

У лабораторних роботах розглядається створення програм для реалізації паралельних алгоритмів; вивчаються питання створення консольних багатопоточних програм для операційної системи Windows, створення потоків на мові С/С++, створення програм з використанням CUDA в рамках парадигми GPGPU, створення програм з використанням інтерфейса передачі повідомлень MPI/MPICH з використанням обчислювального кластера на базі комп’ютерної мережі, засоби та варіанти передачі й отримання параметрів у потоках, передачі параметрів та збір результатів з комп’ютерів кластера.

Мета роботи: одержати навички програмування багатопоточних додатків в WIN32 на прикладі алгоритмів модульного піднесення до степені.

Два цілих числа

називаються порівняними за модулем

(

– натуральне), якщо їх різниця

ділитися на

без залишку. Число

називають модулем порівняння. Це записується так:

Запис

означає, що саме число ділиться на

, тобто

Якщо зафіксувати деякий модуль порівняння

, то всяке натуральне число

можна єдиним образом представити у вигляді

де

– частка від ділення на

, а

– залишок, що збігається з одним із чисел

Залишок

називають лишком числа

за модулем

. Запис виду (2.2), де

, допускає не тільки натуральні, але й будь-які цілі числа. З рівності (2.2) випливає, що

, тобто всяке число порівнянне зі своїм лишком за модулем

Обчислення

називається модульним піднесенням до степені.

Нехай

представлено в двійковому вигляді

, де

, тобто

. Тоді

Однак обчислення по формулі (2.3) не є ефективним, особливо для великих чисел, які використовуються, наприклад, у криптографії. Існує велика кількість більш ефективних алгоритмів, у тому числі паралельних, для виконання цієї операцїї. Деякі з них наведені нижче.

Вхід: показник степені n ¹0 довжиною N біт, основа a, модуль m.

1. Якщо n =1, то y:= a (mod m); закінчити роботу алгоритму.

3. Для i, що приймає значення від k до 0, виконати кроки 4-5.

Нехай у нашім розпорядженні є

процесорів. Розділимо двійковій вигляд показника степені на

блоків по

двійкових цифр кожний таким чином, що для

-го блоку встановлюються в 0 всі цифри, крім

-ой. При цьому

- кількість двійкових цифр показника степені. А

-а цифра приймає значення відповідної цифри у вхідному вигляді множника. Мовою формул це виглядає в такий спосіб:

– кількість процесорів, рівна кількості двійкових цифр у кожному блоці;

– часткові множники, число яких дорівнює кількості процесорів;

Значення

можуть бути легко отримані з n шляхом накладення по XOR відповідної маски. Тоді

, де всі

обчислюються кожна на своєму процесорі. Збільшення швидкості досягається за рахунок того, що часткові показники

мають ваги Хеммінга (кількість одиничних битів у числі) менші, ніж вага Хеммінга вхідного показника n.

2.2.1 Реалізувати бінарний метод модульного піднесення до степені.

2.2.2 Реалізувати двухпоточний варіант алгоритму Монтгомері.

2.2.3 Реалізувати метод гребеня модульного піднесення до степені. Для методу гребеня число потоків повинне вводитися із клавіатури під час виконання програми.

2.2.4 Порівняти час виконання операції модульного піднесення до степені трьома реалізованими методами.

2.3.5 Гістограма порівняння часу виконання розроблених програм.

2.4.1 Методи побудови паралельних алгоритмів. Послідовна та паралельна моделі програмування.

2.4.2 Парадигми паралельного програмування. Паралелізм даних. Паралелізм задач.

2.4.4 З яких кроків складаеться розробка паралельного алгоритму? В чому сутність кожного кроку?

Повідомляють розмір групи (тобто загальну кількість задач, під’єднаних до її області зв’язку) та порядковий номер задачі (процесу), що її викликає:

Для організації простої пересилки даних між процесами використовуються функції:

void *buf – адреса буфера, тобто початкова адреса буфера прийому (передачі). Кожний процес має власні набори даних та власний буфер прийому (передачі), тому адреси буферів кожного з процесів відрізняються одна від одної;

int count – розмір буфера в кількості комірок (не в байтах) типу datatype. Для функції передачі MPI_Send() вказується, скільки комірок потрібно передати, а для функції прийому MPI_Recv() – максимальна ємність приймального буфера. Якщо фактична довжина повідомлення, що надійшло, є меншою – останні комірки буфера не заповнюються, якщо більшою – виникне помилка часу виконання;

MPI_Datatype datatype – тип комірок буфера. Функції MPI_Send() та MPI_Recv() оперують масивами однотипних даних. Для опису базових типів мови С в MPI визначені константи MPI_INT, MPI_CHAR, MPI_DOUBLE та інші, які мають тип MPI_Datatype. Їх назви утворюються префіксом MPI_ та ім’ям відповідного типу (int, char, double,...), що записуються великими літерами. Користувач може зареєструвати (визначити) в MPI-додатку свої власні типи даних, наприклад структури, після чого функції MPI зможуть обробляти їх таким же чином, як і базові типи;

int dest (source) – номер процеса призначення (прийомника), з яким відбувається обмін даними;

int tag – ідентифікатор повідомлення, за допомогою якого одне повідомлення відрізняється від іншого. Ідентифікатор повідомлення – ціле число від 0 до 32767, яке призначається користувачем. Важливо, щоб відправлене повідомлення з призначеним номером, було прийнято з таким же номером;

MPI_Comm comm – опис області зв’язку (комунікатор);

MPI_Status *status – статус завершення прийому. За адресою status міститься інформація про прийняте повідомлення, зокрема, його ідентифікатор, номер процеса-передавача, код завершення та кількість фактично прийнятих даних.

Програма демонструє використання функцій MPI для ініціалізації та завершення роботи паралельної програми, а також наводить звичайний приклад використання інформаційних функцій MPI_Comm_size() та MPI_Comm_rank().

/* Точка синхронізації, після неї процес 0 друкує

* аргументи командного рядка. В командному рядку

Варіант 1. Змінити вихідну програму так, щоб кожний процес виводив інформацію щодо парності свого номера.

Варіант 2. Змінити вихідну програму так, щоб процес з номером, що дорівнює номеру робочого місця, виводив прізвище студента, а інші процеси виводили свій порядковий номер.

Програма демонструє використання функцій прийому та передачі, а також використання функції MPI_Abort().

// Визначаємо фактично прийняту кількість даних

Варіант 1. Доповніть вихідну програму так, щоб процес "1" виконував посилку, а процес "0" – прийом елементів масиву цілих чисел типу long, причому, розміри буферів передачі та прийому мають дорівнювати номеру робочого місця, помноженому на 10, а кількість елементів, що передаються – номеру робочого місця, збільшеного на одиницю. В процесі "0" реалізувати виведення кількості фактично прийнятих елементів.

Варіант 2. Доповніть вихідну програму так, щоб процес "1" виконував посилку, а процес "0" – прийом елементів масиву чисел типу float, причому розміри буферів передачі та прийому мають дорівнювати номеру робочого місця, помноженому на 11, а кількість елементів, що передаються, дорівнює номеру робочого місця, збільшеному на одиницю. В процесі "0" вивести кількість фактично прийнятих елементів.

Переробити програму завдання 2 так, щоб в якості буферів прийому та передачі використовувались масиви динамічної пам’яті.

Напишіть програму, яка складається з чотирьох процесів. Процес "0" передає до процесів "1", "2" та "3" рядок з прізвищем студента. Процес "1" конкатенує прийнятий рядок з рядком, відповідним імені студента, і відсилає отриманий рядок назад. Процес "2" визначає кількість символів в прийнятому рядку та відсилає це число до нульового процесу. Процес "3" множить число, що дорівнює сумі кодів символів прийнятого рядка на число

, та відсилає отримане значення до процеса "0".

Після завершення обмінів процес "0" виводить на друк отримані від інших процесів значення.

3.3.2 Опис порядку створення та запуску паралельної MPI-програми.

3.3.3 Текст програми, розробленої в завданні 4.

3.4.1 Який стандарт MPI та яку назву має біблиотека (реалізація) функцій MPI, які використовуються в даній лабораторній роботі?

3.4.2 Які функції вихідної програми завдання 1 виконуються у всіх процесах?

3.4.4 Для чого використовується власний номер процесу в комунікаторі?

3.4.5 Напишіть фрагмент паралельної програми, який використовує значення кількості процесів в області зв’язку.

3.4.6 Напишіть фрагмент паралельної програми, в кожному з процесів якої створюється масив динамічної пам’яті, розмір якого дорівнює добутку номера процесу на загальну кількість процесів.

3.4.7 До якого класу належать програми даної лабораторної роботи: SIMD чи MIMD?

Мета роботи: продовжити вивчення функцій обміну бібліотеки MPI, зокрема, функцій колективного обміну. Освоїти деякі прийоми їх використання для розподілу даних та обчислень між паралельними процесорами.

Для обміну даними між процесами всередині заданої області взаємодії можуть використовуватись функції колективного обміну. Ці функції повинні викликатись у всіх процесах області взаємодії.

Для розсилання одних й тих же даних від одного процесу до всіх інших використовується функція широкомовного розсилання:

count – кількість елементів даних у повідомленні;

Для розподілу та збору даних використовуються, відповідно, наступні функції, вони мають однакові аргументи:

Функція розподілу MPI_Scatter() розсилає рівні частини буфера sendbuf процесу root всім процесам. При цьому зміст буфера процесу root розбивається на рівні частини за кількістю процесів, які беруть участь в обміні, кожна з яких складається з sendcount елементів. Перша частина поміщається до буфера rcvbuf процесу, ранг якого дорівнює нулю, друга – до буфера rcvbuf процесу, ранг якого дорівнює одиниці і т.д. Аргументи, що належать до тієї частини списку аргументів функції, яка передається, мають силу тільки для процесу root.

Функція MPI_Gather() має зворотню дію у порівнянні з функцією MPI_Scatter(), тобто вона приймає та розташовує за порядком прийняті дані з процесів, які передають. При цьому параметри прийому дійсні тільки для процесу, що приймає.

Наступна функція є векторною версією функції MPI_Scatter() та призначена для розсилання різним процесам різної кількості елементів даних.

В MPI_Scatter() функції параметр sendcounts – масив цілих чисел, який містить кількість елементів, що передаються кожному процесу (індекс дорівнює рангу процесу). Параметр displs – масив цілих чисел, кожний з елементів якого задає зсув відносно початку буфера передачі. Таким чином, displs[i] – номер елементу буфера передачі, починаючи з якого будуть передані дані в i -й процес в кількості sendcounts[i] елементів.

Функція зведення MPI_Reduce() оброблює елементи масиву даних наступним чином. Функція бере один елемент від кожного процеса, виконує над ними задану операцію і розміщує результат у вказаному процесі. Синтаксис цієї функції:

де op – операція зведення, яка може мати значення, що визначені попередньо, такі як MPI_SUM, MPI_PROD, MPI_LAND, MPI_BAND, MPI_MAX і т.д. Всього 12 операцій. Крім того можна визначити свої власні операції зведення за допомогою функції MPI_Op_create().

Програма виконує паралельне обчислення суми ряду

. Для цього до кожного з

процесів за допомогою функції MPI_Scatter() передається відповідна частина масивів чисел

та

, кожна з яких складається з

елементів. Процеси обчислюють часткові суми ряду (змінна sum), які далі за допомогою функції MPI_Reduce() приводяться до загальної суми (змінна total).

4.2.1.1 Створити програму обчислення суми ряду.

Перший варіант:

, де

– випадкові дійсні числа в діапазоні

. Функцію

обчислювати за допомогою розкладання її в ряд Тейлора:

Обчислення кожного значення функції

можна організувати за наступним алгоритмом:

г) якщо

, то перехід на п. б), інакше – кінець.

Для обчислення синуса в програмі створити окрему функцію,

нехай дорівнює 500.

Другий варіант:

, де

– випадкові дійсні числа в діапазоні

. Функцію

обчислювати за допомогою розкладання її в ряд Тейлора:

Обчислення кожного значення функції

можна організувати за наступним алгоритмом:

г) якщо

, то перехід на п. б), інакше – кінець.

Для обчислення косинуса в програмі створіть окрему функцію,

нехай дорівнює 500.

4.2.1.2 Виміряйте час виконання розробленої програми на одному, двох, трьох та чотирьох процесорах для N=240000 та визначте прискорення обчислень для цих випадків. Дані занесіть до таблиці 4.1 (форми таблиць наведені нижче). Намалюйте графік залежності прискорення від кількості процесорів.

4.2.1.3 Дослідити та намалювати графіки залежності прискорення від кількості членів ряду при обчисленнях на чотирьох процесорах, змінюючи кількість членів ряду від 20000 до 240000 з дискретністю 20000. Вимірювання виконуйте 3 рази з інтервалом між вимірюваннями 15 хвилин, результати вимірювань занесіть до таблиці 4.2.

4.2.1.4 Додайте до програми код для вимірювання часу, який витрачається на виконання двох функцій MPI_Scatter(), дослідіть та намалюйте графіки залежності цього часу від довжини масиву, що розсилається при виконанні задачі на чотирьох процесорах. Результати занесіть до таблиці 4.3.

Таблиця 4.1 – Залежність прискорення від кількості процесорів (N =240000, номер робочого місця №)

Таблиця 4.2 – Залежність прискорення від кількості членів ряду при P =4

Таблиця 4.3 – Залежність швидкості розсилання від довжини масиву при P =4

Постановка задачі. Нехай необхідно обчислити суму ряду

, де

– досить велике число та обчислення слід розподілити між

процесорами, причому, степінь чисел

повинна обчислюватись шляхом їх перемноження. Якщо в кожному процесорі обчислювати частину суми, яка складається з

елементів вихідного ряду, то це приведе до нерівномірного навантаження процесорів. Наприклад, якщо

=30,

=3, то розбивання ряду на три частини по

елементів буде:

. В результаті перший процесор виконає 55, другий – 155, а третій – 255 множень. В програмі реалізовано рівномірний розподіл навантаження обчислень цієї модельної задачі наступним чином.

В другому елементі ряду, що розглядається, необхідно виконати одне множення, в третьому – два і т.д. Загальна кількість множень будь-якого "відрізка" ряду з

елементів утворюють арифметичну прогресію, отже:

Тоді кількість операцій множення, яку повинний виконати кожний процесор, можна визначити за формулою:

Для знаходження кількості операцій множення, яку повинний виконати перший процесор, складемо рівняння:

Розв’язуючи це квадратне рівняння, знайдемо значення

– кількість елементів першого відрізка. Початком другого відрізка, очевидно, буде елемент з номером

, тоді кількість елементів другого відрізка, призначеного для обчислення на другому процесорі, можна знайти аналогічно, розв’язуючи рівняння:

З тим, щоб врахувати незначну неточність у визначенні довжин відрізків, пов’язану з цілочисленним розподіленням, кількість елементів відрізка для останнього процесора знайдемо із співвідношення:

Реалізація програми. Для розподілення різної кількості елементів між процесами використовується функція MPI_Scatterv(), яку описано вище.

4.2.2.1 Для перевірки результату паралельного обчислення додайте до програми код, який обчислює суму даного ряду тільки в нульовому процесі та використовує для обчислення степеня бібліотечну функцію.

4.2.2.2 Використовуючи наведені вище програми, розробіть власну програму, в якій між паралельними процесорами розподіляється однакова кількість членів ряду

4.2.2.3 Виміряйте час роботи програми для трьох, досить великих значень кількості членів ряду і порівняйте його з часом вирішення цієї задачі за допомогою вихідної програми даного завдання для двох, трьох та чотирьох процесорів. Результати наведіть у вигляді таблиці.

4.3.3 Графіки, таблиці та висновки, отримані при дослідженнях.

4.4.1 Чи можна оператор M=N/P в програмі першого завдання виконати у всіх процесах? Якщо так, покажіть, що треба змінити в програмі.

4.4.2 Використовуючи довідкові матеріали на комп’ютері, самостійно вивчіть функцію MPI_Gatherv().

4.4.3 Що таке функція обміну з блокуванням, які функції її виконують в MPI?

4.4.4 Для чого використовується функція MPI_Barrier()?

4.4.5 Як в програмі, що використовує функції MPI, створити приймальний буфер, який у точності відповідає повідомленню, що передається?

4.4.6 Чим відрізняються алгоритми логарифмічного здвоєння та рекурсивного подвоєння?

4.4.8 Як можна розподілити між процесорами обчислення множення матриць?

5.1.2.1 Розробити послідовні алгоритм та программу обчислення числа

з можливістю вимірювання часу роботи програми для заданого n та визначення помилки апроксимації інтеграла. Для цього використовуйте функцію вимірювання часу бібліотеки MPI, як еталонне значення числа

прийміть 3.141592653589793238462643.

Дослідіть точність та швидкодію програми обчислення

для значень кількості інтервалів 10³, 10⁴, 10⁵, 10⁶, 10⁷, 10⁹. Результати подайте у звіті у вигляді таблиці.

5.1.2.2 Реалізуйте власну паралельну програму обчислення інтеграла (1) з використанням наведеної програми 1,додайте до неї функцію обчислення часу її виконання. Визначте прискорення паралельної програми для чотирьох процесорів.

5.1.2.3 Використовуючи опановану техніку інтегрування, розробіть послідовні алгоритм та програму обчислення інтеграла у відповідності до наведених нижче варіантів. В програмі реалізуйте введення кількості інтервалів з клавіатури. Дослідіть точність та швидкодію програми для значень кількості інтервалів 10³, 10⁴, 10⁵, 10⁶, 10⁷, 10⁹. Результати подайте у звіті у вигляді таблиці.

5.2 Паралельна реалізація метода Монте-Карло

При інтегруванні складних функцій та складній формі області інтегрування можна використовувати метод Монте-Карло, для якого в деяких випадках необхідно менше обчислень підінтегральної функції.

Площа кола

та площа описаного навколо неї квадрата

обчислюються за формулами:

За допомогою генератора випадкових чисел будемо генерувати координати точок, що рівномірно розподілені усередині квадрата R, одночасно підраховуючи к

Система охраняемых территорий в США Изучение особо охраняемых природных территорий(ООПТ) США представляет особый интерес по многим причинам...

Что способствует осуществлению желаний? Стопроцентная, непоколебимая уверенность в своем...

Что вызывает тренды на фондовых и товарных рынках Объяснение теории грузового поезда Первые 17 лет моих рыночных исследований сводились к попыткам вычислить, когда этот...

Живите по правилу: МАЛО ЛИ ЧТО НА СВЕТЕ СУЩЕСТВУЕТ? Я неслучайно подчеркиваю, что место в голове ограничено, а информации вокруг много, и что ваше право...

Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте: