ИТМ

ТЕХНІЧНА МЕХАНІКА
ISSN 1561-9184 (друкована версія), ISSN 2616-6380 (електронна версія)

ГОЛОВНА

ПРО ЖУРНАЛ

Головна > Архів > № 4 (2019): ТЕХНІЧНА МЕХАНІКА > 3
________________________________________________________

УДК 004.89+629.7

Технічна механіка, 2019, 4, 29 - 43

ІНТЕЛЕКТУАЛЬНЕ КЕРУВАННЯ ОРІЄНТАЦІЄЮ КОСМІЧНИХ АПАРАТІВ ІЗ ВИКОРИСТАННЯМ НАВЧАННЯ З ПІДКРІПЛЕННЯМ

DOI: https://doi.org/10.15407/itm2019.04.029

Хорошилов С. В., Редька М. О.

ПРО ЦИХ АВТОРІВ

Хорошилов С. В.
Інститут технічної механіки Національної академії наук України і Державного космічного агентства України,
Україна

Редька М. О.
Інститут технічної механіки Національної академії наук України і Державного космічного агентства України,
Україна

АНОТАЦІЯ

      Метою статті є розробка ефективного алгоритму інтелектуального керування космічними апаратами (КА) на базі методів навчання з підкріпленням (НЗП).
      При розробці алгоритму та його дослідженні використано методи теоретичної механіки, теорії автоматичного керування, теорії стійкості, методи машинного навчання та комп’ютерного моделювання. Для підвищення ефективності НЗП використано статистичну модель динаміки, яка базується на понятті гаусових процесів. Така модель, з одного боку, дозволяє використовувати апріорну інформацію про об’єкт керування та має достатню гнучкість, а з іншого – дозволяє охарактеризувати невизначеність у динаміці у вигляді довірчих інтервалів, та може уточнюватися у процесі функціонування КА. У цьому випадку, задача дослідження простору станів-керувань зводиться до отримання таких вимірів, які дозволяють зменшити границі довірчих інтервалів. У якості сигналу підкріплення використано відомий квадратичний критерій, який дозволяє враховувати як вимоги до точності, так і до затрат на керування. Пошук керуючих впливів на базі НЗП виконано із використанням алгоритму ітерацій закону керування. Для реалізації регулятора та оцінювання функції вартості використано апроксиматори у вигляді нейронних мереж. Гарантії стійкості руху КА із врахуванням невизначеності моделі його динаміки отримано з використанням апарату функцій Ляпунова. У якості кандидата функції Ляпунова обрано функцію вартості. Для того щоб спростити перевірку стійкості на базі розглянутої методології, використано припущення про ліпшицеву неперервність динаміки об’єкту керування, що дозволило застосувати метод множників Лагранжа для пошуку керуючих впливів із врахуванням обмежень, сформульованих із використанням верхньої границі невизначеності та ліпшицевих констант динаміки.
      Ефективність запропонованого алгоритму ілюструється результатами комп’ютерного моделювання. Запропонований підхід дає можливість розроблювати системи керування, які можуть покращувати свої характеристики по мірі накопичення даних під час функціонування конкретного об’єкту, що дозволяє знизити вимоги до їхніх елементів (сенсорів, виконавчих органів), відмовитись від спеціального стендового обладнання, зменшити терміни та вартість розробки.

КЛЮЧОВІ СЛОВА

навчання з підкріпленням, інтелектуальна система керування, космічний апарат, стійкість, модель динаміки

ПОВНИЙ ТЕКСТ:

ПОСИЛАННЯ

1. Бесекерский В. А., Попов Е. П. Теория систем автоматического управления. 4-е изд СПб.: Профессия, 2003. 768 с.

2. Лейтман Дж. Введение в теорию оптимального управления. Москва: Наука, 1968. 192 с.

3. Zhou K., Doyle J.C., Glover K. Robust and optimal Control. NJ : Prentice-Hall, 1996. 596 p.

4. Alpatov A., Khoroshylov S., Bombardelli C. Relative Control of an Ion Beam Shepherd Satellite Using the Impulse Compensation Thruster. Acta Astronautica. 2018. Vol. 151. P. 543–554. https://doi.org/10.1016/j.actaastro.2018.06.056

5. Astrom K. J., Wittenmark B. Adaptive Control. MA : Addison-Wesley, 1995. 580 p.

6. Хорошилов С. В. Управление ориентацией солнечной электростанции космического базирования с использованием наблюдателя для расширенного вектора состояния. Техническая механика. 2011. Вып. 3. С.117–125.

7. Sutton R. S., Barto A. G. Reinforcement learning: an introduction. MIT press, 1998. 338 p.

8. Gullapalli V. Skillful control under uncertainty via direct reinforcement learning. Reinforcement Learning and Robotics. 1995. Vol. 15(4). P. 237–246. https://doi.org/10.1016/0921-8890(95)00006-2

9. Kober J., Bagnell J. A., and Peters J. Reinforcement learning in robotics: A survey. International Journal of Robotic Research. 2013. Vol. 32(11). P. 1238–1274. https://doi.org/10.1177/0278364913495721

10. Theodorou E., Buchli J., Schaal S. Reinforcement learning of motor skills in high dimensions. In International Conference on Robotics and Automation (ICRA), 2010. Р. 2397–2403. https://doi.org/10.1109/ROBOT.2010.5509336

11. Endo G., Morimoto J., Matsubara T., Nakanishi J., Cheng G. Learning CPG-based biped locomotion with a policy gradient method: Application to a humanoid robot. International Journal of Robotic Research. 2008. Vol. 27(2). P. 213–228. https://doi.org/10.1177/0278364907084980

12. Ng A. Y., Kim H. J., Jordan M. I., Sastry S. Inverted autonomous helicopter flight via reinforcement learning. In International Symposium on Experimental Robotics, 2004. Р. 363–372. https://doi.org/10.1007/11552246_35

13. Juang J.-N. Applied System Identification. N.J: Prentice Hall, Upper Saddle River, 1994. 394 p.

14. Seeger M. Gaussian Processes for Machine Learning. International Journal of Neural Systems. 2004. Vol. 14 (2).P. 69–104. https://doi.org/10.1142/S0129065704001899

15. Berkenkamp F., Turchetta M., Schoellig A. P., Krause A. Safe Model-based Reinforcement Learning with Stability Guarantees, 31st Conference on Neural Information Processing Systems, 2017. Р. 908–919.

____________________________________________________________________________________________________________________________

КЕРІВНИЦТВО
ДЛЯ АВТОРІВ

=================== Політика відкритого доступу

=================== ПОЛОЖЕННЯ
про етику публікацій

===================