Forwarded from Machinelearning
Π₯ΠΎΡΠΎΡΠΈΡ ΠΊΠ½ΠΈΠ³ ΠΏΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Ρ ΠΏΠΎΠ΄ΠΊΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ (Reinforcement Learning, RL) ΡΠΆΠ΅ Π²ΡΠΏΡΡΠ΅Π½ΠΎ Π΄ΠΎΡΡΠ°ΡΠΎΡΠ½ΠΎ, ΠΎΠ΄Π½Π°ΠΊΠΎ Π΅ΡΡΡ ΠΏΡΠΎΠ±Π΅Π» ΠΌΠ΅ΠΆΠ΄Ρ ΠΏΡΠΎΠ΄Π²ΠΈΠ½ΡΡΡΠΌΠΈ ΡΡΠ΅Π±Π½ΠΈΠΊΠ°ΠΌΠΈ, Π² ΠΊΠΎΡΠΎΡΡΡ ΠΎΡΠ½ΠΎΠ²Π½ΠΎΠ΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΡΠ΄Π΅Π»ΡΠ΅ΡΡΡ ΠΎΠ΄Π½ΠΎΠΌΡ ΠΈΠ»ΠΈ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΠΌ Π°ΡΠΏΠ΅ΠΊΡΠ°ΠΌ, ΠΈ Π±ΠΎΠ»Π΅Π΅ ΠΎΠ±ΡΠΈΠΌΠΈ ΠΊΠ½ΠΈΠ³Π°ΠΌΠΈ, Π² ΠΊΠΎΡΠΎΡΡΡ ΠΏΡΠ΅Π΄ΠΏΠΎΡΡΠ΅Π½ΠΈΠ΅ ΠΎΡΠ΄Π°Π΅ΡΡΡ ΡΠ΄ΠΎΠ±ΠΎΡΠΈΡΠ°Π΅ΠΌΠΎΡΡΠΈ, Π° Π½Π΅ ΡΠ»ΠΎΠΆΠ½ΠΎΡΡΠΈ.
ΠΠ²ΡΠΎΡΡ ΠΊΠ½ΠΈΠ³ΠΈ, Π»ΡΠ΄ΠΈ Ρ ΠΎΠΏΡΡΠΎΠΌ ΡΠ°Π±ΠΎΡΡ Π² CS ΠΈ ΠΈΠ½ΠΆΠΈΠ½ΠΈΡΠΈΠ½Π³Π°, ΠΏΠΎΠ΄Π°ΡΡ ΡΠ΅ΠΌΡ RL Π² ΡΡΡΠΎΠ³ΠΎΠΌ ΠΈ Π°ΠΊΠ°Π΄Π΅ΠΌΠΈΡΠ΅ΡΠΊΠΎΠΌ ΡΡΠΈΠ»Π΅. ΠΠ½ΠΈΠ³Π° ΠΎΡΠ½ΠΎΠ²Π°Π½Π° Π½Π° ΠΊΠΎΠ½ΡΠΏΠ΅ΠΊΡΠ°Ρ Π»Π΅ΠΊΡΠΈΠΉ Π΄Π»Ρ ΡΠ³Π»ΡΠ±Π»Π΅Π½Π½ΠΎΠ³ΠΎ ΠΊΡΡΡΠ° Π±Π°ΠΊΠ°Π»Π°Π²ΡΠΈΠ°ΡΠ°, ΠΊΠΎΡΠΎΡΡΠΉ ΠΏΡΠ΅ΠΏΠΎΠ΄Π°Π΅ΡΡΡ Π°Π²ΡΠΎΡΠ°ΠΌΠΈ Π² Π’Π΅Π»Ρ-ΠΠ²ΠΈΠ²ΡΠΊΠΎΠΌ ΡΠ½ΠΈΠ²Π΅ΡΡΠΈΡΠ΅ΡΠ΅.
Π ΡΡΠΎΠΉ ΠΊΠ½ΠΈΠ³Π΅ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΈΠ΄Π΅Ρ Π±ΡΠΎΡΡΡΠ° Ρ ΡΠΏΡΠ°ΠΆΠ½Π΅Π½ΠΈΡΠΌΠΈ ΠΈ ΡΠΊΠ·Π°ΠΌΠ΅Π½Π°ΡΠΈΠΎΠ½Π½ΡΠΌΠΈ Π²ΠΎΠΏΡΠΎΡΠ°ΠΌΠΈ, ΠΊΠΎΡΠΎΡΡΠ΅ ΠΏΠΎΠΌΠΎΠ³ΡΡ ΠΎΡΠ²ΠΎΠΈΡΡ ΠΌΠ°ΡΠ΅ΡΠΈΠ°Π» ΠΊΠ½ΠΈΠ³ΠΈ Π½Π° ΠΏΡΠ°ΠΊΡΠΈΠΊΠ΅. ΠΡΠΈ ΡΠΏΡΠ°ΠΆΠ½Π΅Π½ΠΈΡ ΡΠ°Π·ΡΠ°Π±Π°ΡΡΠ²Π°Π»ΠΈΡΡ Π½Π° ΠΏΡΠΎΡΡΠΆΠ΅Π½ΠΈΠΈ Π½Π΅ΡΠΊΠΎΠ»ΡΠΊΠΈΡ Π»Π΅Ρ.
ΠΠ°ΡΠ΅ΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠ°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ ΠΊΠ½ΠΈΠ³ΠΈ - ΠΠ°ΡΠΊΠΎΠ²ΡΠΊΠΈΠΉ ΠΏΡΠΎΡΠ΅ΡΡ ΠΏΡΠΈΠ½ΡΡΠΈΡ ΡΠ΅ΡΠ΅Π½ΠΈΠΉ (Markov Decision Process, MDP). ΠΡΠ½ΠΎΠ²Π½ΠΎΠ΅ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ ΡΠ΄Π΅Π»ΡΠ΅ΡΡΡ: ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΠΌΡ ΠΏΡΠΈΠ½ΡΡΠΈΡ ΡΠ΅ΡΠ΅Π½ΠΈΠΉ, Π²ΡΠ±ΠΎΡΡ Π΄Π΅ΠΉΡΡΠ²ΠΈΠΉ, Π΄ΠΎΠ»Π³ΠΎΡΡΠΎΡΠ½ΠΎΠΌΡ ΡΡΡΠ΅ΠΊΡΡ ΠΎΡ ΡΡΠΈΡ Π΄Π΅ΠΉΡΡΠ²ΠΈΠΉ ΠΈ ΡΠ°Π·Π½ΠΈΡΠ° ΠΌΠ΅ΠΆΠ΄Ρ Π½Π΅ΠΌΠ΅Π΄Π»Π΅Π½Π½ΡΠΌ Π²ΠΎΠ·Π½Π°Π³ΡΠ°ΠΆΠ΄Π΅Π½ΠΈΠ΅ΠΌ ΠΈ Π΄ΠΎΠ»Π³ΠΎΡΡΠΎΡΠ½ΠΎΠΉ Π²ΡΠ³ΠΎΠ΄ΠΎΠΉ.
Π’Π΅ΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΈ ΠΊΠ½ΠΈΠ³Π° ΡΠΎΡΡΠΎΠΈΡ ΠΈΠ· Π΄Π²ΡΡ ΡΠ°ΡΡΠ΅ΠΉ β "ΠΠ»Π°Π½ΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅" ΠΈ "ΠΠ±ΡΡΠ΅Π½ΠΈΠ΅".
@ai_machinelearning_big_data
#AI #ML #RL #MDP #Book
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
ΠΡΡΠ΅ΡΠΏΡΠ²Π°ΡΡΠΈΠΉ ΠΌΠ°ΡΠ΅ΡΠΈΠ°Π» ΠΏΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Ρ ΠΏΠΎΠ΄ΠΊΡΠ΅ΠΏΠ»Π΅Π½ΠΈΠ΅ΠΌ (Reinforcement Learning, RL), Π² ΠΊΠΎΡΠΎΡΠΎΠΌ ΠΏΠΎΠ΄ΡΠΎΠ±Π½ΠΎ ΠΎΠΏΠΈΡΡΠ²Π°ΡΡΡΡ ΡΠ°Π·Π»ΠΈΡΠ½ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΡΠ΅Π΄Ρ, Π·Π°Π΄Π°ΡΠΈ ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΠΈ, ΠΈΡΡΠ»Π΅Π΄ΡΠ΅ΡΡΡ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ ΠΊΠΎΠΌΠΏΡΠΎΠΌΠΈΡΡΠ° ΠΌΠ΅ΠΆΠ΄Ρ ΡΠ΅ΠΎΡΠΈΠ΅ΠΉ ΠΈ ΠΏΡΠ°ΠΊΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΡΠΊΡΠΏΠ»ΡΠ°ΡΠ°ΡΠΈΠΉ RL.
ΠΡΠ΄Π΅Π»ΡΠ½ΠΎ ΡΠ°ΡΡΠΌΠ°ΡΡΠΈΠ²Π°ΡΡΡΡ ΡΠΌΠ΅ΠΆΠ½ΡΠ΅ ΡΠ΅ΠΌΡ: ΡΠ°ΡΠΏΡΠ΅Π΄Π΅Π»Π΅Π½Π½ΠΎΠ΅ RL, ΠΈΠ΅ΡΠ°ΡΡ ΠΈΡΠ΅ΡΠΊΠΎΠ΅ RL, ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ Π²Π½Π΅ ΠΏΠΎΠ»ΠΈΡΠΈΠΊΠΈ ΠΈ VLM.
Π ΡΠ°Π±ΠΎΡΠ΅ ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»Π΅Π½ ΠΎΠ±Π·ΠΎΡ Π°Π»Π³ΠΎΡΠΈΡΠΌΠΎΠ² RL:
ΠΠ²ΡΠΎΡ - Kevin Murphy, Π³Π»Π°Π²Π½ΡΠΉ Π½Π°ΡΡΠ½ΡΠΉ ΡΠΎΡΡΡΠ΄Π½ΠΈΠΊ ΠΈ ΡΡΠΊΠΎΠ²ΠΎΠ΄ΠΈΡΠ΅Π»Ρ ΠΊΠΎΠΌΠ°Π½Π΄Ρ ΠΈΠ· 28 ΡΠ΅ΡΠ΅ΡΠ΅ΡΠΎΠ² ΠΈ ΠΈΠ½ΠΆΠ΅Π½Π΅ΡΠΎΠ² Π² Google Deepmind. ΠΡΡΠΏΠΏΠ° ΡΠ°Π±ΠΎΡΠ°Π΅Ρ Π½Π°Π΄ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠ²Π½ΡΠΌΠΈ ΠΌΠΎΠ΄Π΅Π»ΡΠΌΠΈ (Π΄ΠΈΡΡΡΠ·ΠΈΡ ΠΈ LLM), RL, ΡΠΎΠ±ΠΎΡΠΎΡΠ΅Ρ Π½ΠΈΠΊΠΎΠΉ, Π±Π°ΠΉΠ΅ΡΠΎΠ²ΡΠΊΠΈΠΌ Π²ΡΠ²ΠΎΠ΄ΠΎΠΌ ΠΈ Π΄ΡΡΠ³ΠΈΠΌΠΈ ΡΠ΅ΠΌΠ°ΠΌΠΈ.
ΠΠ΅Π²ΠΈΠ½ ΠΎΠΏΡΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» Π±ΠΎΠ»Π΅Π΅ 140 ΡΡΠ°ΡΠ΅ΠΉ Π½Π° ΡΠ΅ΡΠ΅Π½Π·ΠΈΡΡΠ΅ΠΌΡΡ ΠΊΠΎΠ½ΡΠ΅ΡΠ΅Π½ΡΠΈΡΡ ΠΈ Π² ΠΆΡΡΠ½Π°Π»Π°Ρ , Π° ΡΠ°ΠΊΠΆΠ΅ 3 ΡΡΠ΅Π±Π½ΠΈΠΊΠ° ΠΏΠΎ ML, ΠΎΠΏΡΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Π½ΡΡ Π² 2012, 2022 ΠΈ 2023 Π³ΠΎΠ΄Π°Ρ ΠΈΠ·Π΄Π°ΡΠ΅Π»ΡΡΡΠ²ΠΎΠΌ MIT Press. (ΠΠ½ΠΈΠ³Π° 2012 Π³ΠΎΠ΄Π° Π±ΡΠ»Π° ΡΠ΄ΠΎΡΡΠΎΠ΅Π½Π° ΠΏΡΠ΅ΠΌΠΈΠΈ ΠΠ΅ΠΡΠΎΠΎΡΠ° ΠΊΠ°ΠΊ Π»ΡΡΡΠ°Ρ ΠΊΠ½ΠΈΠ³Π° Π² ΠΎΠ±Π»Π°ΡΡΠΈ ΡΡΠ°ΡΠΈΡΡΠΈΡΠ΅ΡΠΊΠΎΠΉ Π½Π°ΡΠΊΠΈ).
@ai_machinelearning_big_data
#AI #ML #Book #RL
Please open Telegram to view this post
VIEW IN TELEGRAM