EITC/AI/ARL Advanced Reinforcement Learning este programul european de certificare IT privind abordarea DeepMind a învățării prin consolidare în inteligența artificială.
Curriculumul EITC/AI/ARL Advanced Reinforcement Learning se concentrează pe aspecte teoretice și abilități practice în tehnicile de învățare prin întărire din perspectiva DeepMind organizată în următoarea structură, cuprinzând conținut video didactic cuprinzător ca referință pentru această Certificare EITC.
Învățarea prin întărire (RL) este un domeniu al învățării automate, preocupat de modul în care agenții inteligenți ar trebui să ia măsuri într-un mediu pentru a maximiza noțiunea de recompensă cumulativă. Învățarea prin întărire este una dintre cele trei paradigme de învățare automată de bază, alături de învățarea supravegheată și învățarea nesupravegheată.
Învățarea prin întărire diferă de învățarea supravegheată prin faptul că nu este nevoie să fie prezentate perechi de intrare/ieșire etichetate și pentru a nu fi necesară corectarea în mod explicit a acțiunilor sub-optime. În schimb, accentul este pus pe găsirea unui echilibru între explorare (a teritoriului neexplorat) și exploatare (a cunoștințelor actuale).
Mediul este de obicei menționat sub forma unui proces de decizie Markov (MDP), deoarece mulți algoritmi de învățare de întărire pentru acest context utilizează tehnici de programare dinamică. Principala diferență dintre metodele clasice de programare dinamică și algoritmii de învățare de întărire este că aceștia din urmă nu presupun cunoașterea unui model matematic exact al MDP și vizează MDP-uri mari, unde metodele exacte devin imposibile.
Datorită generalității sale, învățarea prin întărire este studiată în multe discipline, cum ar fi teoria jocurilor, teoria controlului, cercetarea operațiunilor, teoria informației, optimizarea bazată pe simulare, sistemele multi-agenți, inteligența roiului și statisticile. În literatura de cercetare și control operațional, învățarea prin întărire se numește programare dinamică aproximativă sau programare neuro-dinamică. Problemele de interes în învățarea prin întărire au fost studiate și în teoria controlului optim, care se ocupă în principal de existența și caracterizarea soluțiilor optime și de algoritmi pentru calculul exact al acestora și mai puțin de învățare sau aproximare, în special în absența un model matematic al mediului. În economie și teoria jocurilor, învățarea prin întărire poate fi utilizată pentru a explica modul în care echilibrul poate apărea sub raționalitate delimitată.
Armarea de bază este modelată ca un proces de decizie Markov (MDP). În matematică, un proces de decizie Markov (MDP) este un proces de control stocastic în timp discret. Acesta oferă un cadru matematic pentru modelarea luării deciziilor în situații în care rezultatele sunt parțial aleatorii și parțial sub controlul unui factor de decizie. MDP-urile sunt utile pentru studierea problemelor de optimizare rezolvate prin programare dinamică. MDP-urile erau cunoscute cel puțin încă din anii 1950. Un corp central de cercetare privind procesele decizionale Markov a rezultat din cartea lui Ronald Howard din 1960, Programare dinamică și Procese Markov. Acestea sunt utilizate în multe discipline, inclusiv robotică, control automat, economie și fabricație. Numele MDP provine de la matematicianul rus Andrey Markov, deoarece acestea sunt o extensie a lanțurilor Markov.
La fiecare pas de timp, procesul se află într-o anumită stare S, iar factorul de decizie poate alege orice acțiune a care este disponibilă în starea S. Procesul răspunde la următoarea etapă de timp prin mutarea aleatorie într-o nouă stare S 'și oferind factorul de decizie o recompensă corespunzătoare Ra (S, S ').
Probabilitatea ca procesul să treacă la noua sa stare S 'este influențată de acțiunea aleasă a. Mai exact, este dată de funcția de tranziție a stării Pa (S, S '). Astfel, următoarea stare S 'depinde de starea actuală S și de acțiunea factorului de decizie a. Dar, având în vedere S și a, este independent condiționat de toate stările și acțiunile anterioare. Cu alte cuvinte, tranzițiile de stat ale unui MDP satisfac proprietatea Markov.
Procesele de decizie Markov sunt o extensie a lanțurilor Markov; diferența este adăugarea de acțiuni (permițând alegerea) și recompense (oferind motivație). În schimb, dacă există o singură acțiune pentru fiecare stare (de exemplu, „așteptați”) și toate recompensele sunt aceleași (de exemplu, „zero”), un proces de decizie Markov se reduce la un lanț Markov.
Un agent de învățare de consolidare interacționează cu mediul său în pași de timp discreți. De fiecare dată t, agentul primește starea curentă S (t) și recompensează r (t). Apoi alege o acțiune a (t) din setul de acțiuni disponibile, care ulterior este trimisă mediului. Mediul se mută într-o nouă stare S (t + 1) și se determină recompensa r (t + 1) asociată tranziției. Scopul unui agent de învățare de consolidare este de a învăța o politică care maximizează recompensa cumulată așteptată.
Formularea problemei ca MDP presupune că agentul respectă în mod direct starea de mediu actuală. În acest caz, se spune că problema are o observabilitate deplină. Dacă agentul are acces doar la un subset de stări sau dacă stările observate sunt corupte de zgomot, se spune că agentul are o observabilitate parțială și, în mod formal, problema trebuie formulată ca un proces de decizie Markov observabil parțial. În ambele cazuri, setul de acțiuni disponibile agentului poate fi restricționat. De exemplu, starea soldului contului ar putea fi restricționată pentru a fi pozitivă; dacă valoarea curentă a stării este 3 și tranziția stării încearcă să reducă valoarea cu 4, tranziția nu va fi permisă.
Atunci când performanța agentului este comparată cu cea a unui agent care acționează optim, diferența de performanță dă naștere noțiunii de regret. Pentru a acționa aproape optim, agentul trebuie să raționeze asupra consecințelor pe termen lung ale acțiunilor sale (adică, să maximizeze veniturile viitoare), deși recompensa imediată asociată cu aceasta ar putea fi negativă.
Astfel, învățarea prin întărire este deosebit de potrivită pentru problemele care includ un compromis pe termen lung cu un recompensă pe termen scurt. A fost aplicat cu succes la diverse probleme, inclusiv controlul robotului, programarea ascensoarelor, telecomunicații, table, table și Go (AlphaGo).
Două elemente fac ca învățarea prin întărire să fie puternică: utilizarea eșantioanelor pentru optimizarea performanței și utilizarea aproximării funcțiilor pentru a face față mediilor mari. Datorită acestor două componente cheie, învățarea prin întărire poate fi utilizată în medii mari în următoarele situații:
- Se cunoaște un model de mediu, dar nu este disponibilă o soluție analitică.
- Se oferă doar un model de simulare a mediului (subiectul optimizării bazate pe simulare).
- Singura modalitate de a colecta informații despre mediu este de a interacționa cu acesta.
Primele două dintre aceste probleme ar putea fi considerate probleme de planificare (deoarece există o formă de model disponibilă), în timp ce ultima ar putea fi considerată o problemă autentică de învățare. Cu toate acestea, învățarea prin consolidare transformă ambele probleme de planificare în probleme de învățare automată.
Comerțul dintre explorare și exploatare a fost studiat cel mai amănunțit prin problema banditului cu mai multe arme și pentru MDP-uri spațiale de stat finit în Burnetas și Katehakis (1997).
Învățarea prin întărire necesită mecanisme de explorare inteligente; selectarea aleatorie a acțiunilor, fără referire la o distribuție estimată a probabilității, arată performanțe slabe. Cazul proceselor de decizie (mici) finite Markov este relativ bine înțeles. Cu toate acestea, din cauza lipsei algoritmilor care se scalează bine cu numărul de stări (sau se ridică la probleme cu spații de stări infinite), metodele simple de explorare sunt cele mai practice.
Chiar dacă problema explorării este ignorată și chiar dacă statul a fost observabil, problema rămâne de a folosi experiența din trecut pentru a afla care acțiuni duc la recompense cumulative mai mari.
Pentru a vă familiariza în detaliu cu curriculumul de certificare, puteți extinde și analiza tabelul de mai jos.
Curriculumul EITC/AI/ARL de certificare a învățarii avansate de consolidare face referire la materiale didactice cu acces deschis sub formă video. Procesul de învățare este împărțit într-o structură pas cu pas (programe -> lecții -> subiecte) care acoperă părți relevante ale curriculumului. De asemenea, se oferă consultanță nelimitată cu experți în domeniu.
Pentru detalii despre procedura de certificare verificați Abordare.
Resurse de referință curriculare
Controlul nivelului uman prin publicația Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Curs cu acces deschis despre învățarea de consolidare profundă la UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL s-a aplicat problemei banditului cu braț K de la Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Descărcați materialele pregătitoare complete pentru auto-învățare offline pentru programul de învățare avansată de întărire EITC/AI/ARL într-un fișier PDF
Materiale pregătitoare EITC/AI/ARL – versiune standard
Materiale pregătitoare EITC/AI/ARL – versiune extinsă cu întrebări de revizuire