Mempercepat Pembelajaran Penguatan Robot melalui Primitif Tindakan Berparameter – Majalah Time.com

  • Bagikan
banner 468x60


Metode pembelajaran penguatan (RL) sangat membantu untuk merancang sistem robot tujuan umum. Namun, banyak dari mereka tidak memiliki efisiensi.

Teknik saat ini untuk meningkatkan metode RL bergantung pada optimasi yang lebih baik atau eksplorasi yang lebih efisien. Sebuah makalah baru-baru ini di arXiv.org mengusulkan pendekatan lain.

Para peneliti menyarankan merancang primitif dengan upaya manusia yang minimal, memungkinkan ekspresifnya dengan membuat parameter dengan argumen dan belajar mengendalikannya dengan kebijakan tingkat tinggi alih-alih mempelajari primitif tingkat rendah.

Gerakan robot primitif diterapkan untuk mendefinisikan kembali antarmuka kebijakan-robot dalam konteks pembelajaran penguatan robot. Tindakan berparameter ini mudah dirancang, hanya perlu didefinisikan sekali, dan dapat digunakan kembali tanpa modifikasi di seluruh tugas. Ditunjukkan bahwa pendekatan berbasis tindakan berparameter sederhana mengungguli state-of-the-art sebelumnya dengan selisih yang signifikan.

Terlepas dari potensi pembelajaran penguatan (RL) untuk membangun sistem robot tujuan umum, melatih agen RL untuk menyelesaikan tugas robotika masih tetap menantang karena sulitnya eksplorasi di ruang aksi yang murni terus menerus. Mengatasi masalah ini adalah bidang penelitian aktif dengan sebagian besar fokus pada peningkatan metode RL melalui optimasi yang lebih baik atau eksplorasi yang lebih efisien. Komponen alternatif tetapi penting untuk dipertimbangkan untuk ditingkatkan adalah antarmuka algoritma RL dengan robot. Dalam pekerjaan ini, kami secara manual menentukan perpustakaan primitif tindakan robot (RAPS), yang diparameterisasi dengan argumen yang dipelajari oleh kebijakan RL. Primitif berparameter ini ekspresif, mudah diterapkan, memungkinkan eksplorasi yang efisien, dan dapat ditransfer ke seluruh robot, tugas, dan lingkungan. Kami melakukan studi empiris menyeluruh di seluruh tugas yang menantang di tiga domain berbeda dengan input gambar dan hadiah terminal yang jarang. Kami menemukan bahwa perubahan sederhana kami pada antarmuka tindakan secara substansial meningkatkan efisiensi pembelajaran dan kinerja tugas terlepas dari algoritme RL yang mendasarinya, secara signifikan mengungguli metode sebelumnya yang mempelajari keterampilan dari data pakar offline. Kode dan video di ini https URL

Makalah penelitian: Dalal, M., Pathak, D., dan Salakhutdinov, R., “Mempercepat Pembelajaran Penguatan Robot melalui Parameterized Action Primitives”, 2021. Tautan: https://arxiv.org/abs/2110.15360





Source link

  • Bagikan