ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI TRÊN CƠ SỞ HỌC TĂNG CƯỜNG TÍCH PHÂN TRỰC TUYẾN

Ngày: 1/1/2021 12:00:00 AM - Lê Thu Hương

Tác giả: Nguyễn Thị Thắm, Vũ Văn Tú,
Lĩnh vực: Khoa học Kỹ thuật
Khoa: Khoa Điện cơ
Lượt xem: 91

Tài liệu tham khảo không có sẵn

Vui lòng Đăng nhập hoặc Đăng ký để tải phiên bản đầy đủ

Tiếng việt
Tiếng Anh

Bài báo này đề xuất một cách tiếp cận trực tuyến để điều khiển tối ưu thích nghi trực tiếp với chi phí vô hạn cho các hệ thống phi tuyến trong một khung thời gian liên tục. Sự hội tụ của thuật toán trực tuyến với các giải pháp điều khiển tối ưu mà không yêu cầu động học nội của hệ thống. Tính ổn định động vòng kín được đảm bảo. Thuật toán được xây dựng trên chương trình học tăng cường (RL), cụ thể là thuật toán lặp PI (Policy Iteration) và sử dụng mạng nơ-ron trong cấu trúc Actor/Critic để biểu diễn thông số của luật điều khiển và hiệu suất của hệ thống điều khiển. Hai mạng nơ-ron được huấn luyện để thể hiện bộ điều khiển tối ưu và hàm chi phí tối ưu mô tả hiệu suất của bộ điều khiển vô hạn. Kết quả là một cấu trúc điều khiển lai trong đó gồm một bộ điều khiển liên tục theo thời gian và một cấu trúc điều khiển thích nghi giám sát hoạt động dựa trên dữ liệu được lấy mẫu từ đối tượng và hiệu suất động học thời gian liên tục. Các phân tích lý thuyết và kết quả mô phỏng chứng minh sự hiệu quả của thuật toán đề xuất.

This paper proposes in a continuous-time framework an online approach to direct adaptive optimal control with infinite horizon cost for nonlinear systems. The algorithm converges online to the optimal control solution without knowledge of the internal system dynamics. Closed-loop dynamic stability is guaranteed throughout. The algorithm is based on a reinforcement learning scheme, namely Policy Iterations, and makes use of neural networks, in an Actor/Critic structure, to parametrically represent the control policy and the performance of the control system. Two neural networks are trained to express the optimal controller and optimal cost function which describes the infinite horizon control performance. The result is a hybrid control structure which involves a continuous-time controller and a supervisory adaptation structure which operates based on data sampled from the plant and from the continuous-time performance dynamics. The theoretical analysis and simulation results demonstrate the performance of the proposed algorithm

Facebook Twitter Google+