Reinforcement Learning biasanya dideskripsikan sebagai Markov Decission Process (MDP) yang terdiri dati sebuah agent, set state yang mungkin S, set aksi-aksi yang mungkin A(S) untuk semua state S, dan sebuah fungsi reward R(s,a) yang menentukan reward yang diberi lingkungan atas aksi yang dilakukan agent. Fungsi policy pi mendeskripsikan bagaimana agent belajar pada beberapa time-step t. Policy optimal didefinisikan sebahai pi*. Fungsi value V(s,a) mendefinisikan reward total yang diharapkan ketika melakukan aksi a pada state s jika untuk mencapai state berikutnya diikuti policy optimal pi*. Inilah fungsi di mana agent harus belajar untuk memperoleh policy ini. Ilustrasi Reinforcement Learning ditunjukkan pada Gambar 1 berikut ini.
Reinforcement Learning sangat cocok untuk masalah-masalah terdistribusi. Reinforcement Learning membutuhkan memori dan komputasi yang medium pada setiap node-nya. Reinforcement Learning melakukan mekanisme pemeliharaan beberapa kemungkinan aksi-aksi yang berbeda beserta nilainya. Reinforcement Learning memerlukan waktu untuk mencapai konvergen. Reinforcement Learning mudah diimplementasikan, fleksibel terhadap perubahan topologi, dan mencapai aksi optimum. Contoh implementasi algoritma Reinforcement Learning adalah Q-Learning, Dual RL, TPOT Reinforcement Learning, dan Collaborative Reinforcement Learning.
0 komentar:
Posting Komentar