Domeniul învățării automate cuprinde o varietate de metodologii și paradigme, fiecare potrivită pentru diferite tipuri de date și probleme. Printre aceste paradigme, învățarea supravegheată și nesupravegheată sunt două dintre cele mai fundamentale.
Învățarea supravegheată implică antrenarea unui model pe un set de date etichetat, în care datele de intrare sunt asociate cu rezultatul corect. Modelul învață să mapeze intrările la ieșiri reducând la minimum eroarea dintre predicțiile sale și ieșirile reale. Învățarea nesupravegheată, pe de altă parte, se ocupă de date neetichetate, unde scopul este de a deduce structura naturală prezentă într-un set de puncte de date.
Există un tip de învățare care integrează atât tehnici de învățare supravegheată, cât și nesupravegheate, adesea denumite învățare semi-supravegheată. Această abordare folosește atât datele etichetate, cât și cele neetichetate în timpul procesului de formare. Motivul din spatele învățării semi-supravegheate este că datele neetichetate, atunci când sunt utilizate împreună cu o cantitate mică de date etichetate, pot produce o îmbunătățire considerabilă a preciziei învățării. Acest lucru este util în special în scenariile în care datele etichetate sunt rare sau costisitoare de obținut, dar datele neetichetate sunt abundente și ușor de colectat.
Învățarea semi-supravegheată se bazează pe presupunerea că structura de bază a datelor neetichetate poate furniza informații valoroase care sunt complementare datelor etichetate. Această ipoteză poate lua mai multe forme, cum ar fi ipoteza clusterului, ipoteza varietatea sau ipoteza separării cu densitate scăzută. Ipoteza cluster presupune că punctele de date din același cluster sunt probabil să aibă aceeași etichetă. Presupunerea multiplelor sugerează că datele cu dimensiuni înalte se află pe o varietate cu o dimensionalitate mult mai mică, iar sarcina este de a învăța această varietate. Ipoteza separării cu densitate scăzută se bazează pe ideea că granița de decizie ar trebui să se afle într-o regiune cu densitate scăzută a datelor.
Una dintre tehnicile comune folosite în învățarea semi-supravegheată este auto-instruirea. În auto-instruire, un model este inițial antrenat pe datele etichetate. Apoi își folosește propriile predicții asupra datelor neetichetate ca pseudo-etichete. Modelul este antrenat în continuare pe acest set de date augmentat, rafinându-și în mod iterativ predicțiile. O altă tehnică este co-training, în care două sau mai multe modele sunt antrenate simultan pe diferite vederi ale datelor. Fiecare model este responsabil pentru etichetarea unei părți din datele neetichetate, care este apoi folosită pentru a antrena celelalte modele. Această metodă exploatează redundanța în mai multe vizualizări ale datelor pentru a îmbunătăți performanța de învățare.
Metodele bazate pe grafice sunt, de asemenea, predominante în învățarea semi-supravegheată. Aceste metode construiesc un grafic în care nodurile reprezintă puncte de date, iar marginile reprezintă asemănări între ele. Sarcina de învățare este apoi reformulată ca o problemă de optimizare bazată pe grafice, în care scopul este de a propaga etichetele de la nodurile etichetate la cele neetichetate, păstrând în același timp structura graficului. Aceste tehnici sunt deosebit de eficiente în domeniile în care datele formează în mod natural o rețea, cum ar fi rețelele sociale sau rețelele biologice.
O altă abordare pentru a combina învățarea supravegheată și nesupravegheată este prin învățarea cu sarcini multiple. În învățarea cu mai multe sarcini, sarcinile de învățare multiple sunt rezolvate simultan, exploatând în același timp punctele comune și diferențele dintre sarcini. Aceasta poate fi văzută ca o formă de transfer inductiv, în care cunoștințele dobândite dintr-o sarcină ajută la îmbunătățirea învățării alteia. Învățarea cu mai multe sarcini poate fi deosebit de benefică atunci când există o reprezentare partajată sau un spațiu de caracteristici între sarcini, permițând transferul de informații.
Un exemplu practic de învățare semi-supravegheată este în domeniul procesării limbajului natural (NLP). Luați în considerare sarcina analizei sentimentelor, în care scopul este de a clasifica un anumit text ca pozitiv sau negativ. Datele etichetate, cum ar fi recenziile cu etichete de sentiment, pot fi limitate. Cu toate acestea, există o cantitate mare de text neetichetat disponibil. O abordare de învățare semi-supravegheată ar putea implica antrenarea unui clasificator de sentimente pe datele etichetate și utilizarea acestuia pentru a prezice sentimentul datelor neetichetate. Aceste predicții pot fi apoi folosite ca date suplimentare de antrenament, îmbunătățind performanța clasificatorului.
Un alt exemplu poate fi găsit în clasificarea imaginilor. În multe cazuri, obținerea de imagini etichetate este laborioasă și costisitoare, în timp ce imaginile neetichetate sunt abundente. O abordare semi-supravegheată ar putea implica utilizarea unui set mic de imagini etichetate pentru a antrena un model inițial. Acest model ar putea fi apoi aplicat imaginilor neetichetate pentru a genera pseudo-etichete, care sunt ulterior utilizate pentru reantrenarea modelului.
Integrarea învățării supravegheate și nesupravegheate prin învățarea semi-supravegheată și metodologiile aferente reprezintă o abordare puternică în învățarea automată. Prin valorificarea punctelor forte ale ambelor paradigme, este posibil să se obțină îmbunătățiri semnificative ale performanței modelului, în special în domeniile în care datele etichetate sunt limitate, dar datele neetichetate sunt abundente. Această abordare nu numai că îmbunătățește capacitatea modelelor de a generaliza din date limitate, dar oferă și un cadru mai robust pentru înțelegerea structurii de bază a seturilor de date complexe.
Alte întrebări și răspunsuri recente cu privire la EITC/AI/GCML Google Cloud Machine Learning:
- Care este diferența dintre învățarea automată în viziunea computerizată și învățarea automată în LLM?
- Care sunt principalele provocări întâlnite în timpul etapei de preprocesare a datelor în învățarea automată și cum poate aborda aceste provocări îmbunătățirea eficacității modelului dvs.?
- De ce este considerat reglarea hiperparametrului un pas crucial după evaluarea modelului și care sunt câteva metode comune folosite pentru a găsi hiperparametrii optimi pentru un model de învățare automată?
- Cum depinde alegerea unui algoritm de învățare automată de tipul problemei și de natura datelor dvs. și de ce este important să înțelegeți acești factori înainte de formarea modelului?
- De ce este esențial să vă împărțiți setul de date în seturi de instruire și testare în timpul procesului de învățare automată și ce ar putea merge prost dacă săriți peste acest pas?
- Cât de esențială este Python sau alte cunoștințe de limbaj de programare pentru a implementa ML în practică?
- De ce este esențial pasul de evaluare a performanței unui model de învățare automată pe un set de date de testare separat și ce s-ar putea întâmpla dacă acest pas este omis?
- Care este adevărata valoare a învățării automate în lumea de astăzi și cum putem distinge impactul său real de simplul hype tehnologic?
- Care sunt criteriile de selectare a algoritmului potrivit pentru o anumită problemă?
- Dacă cineva folosește un model Google și îl antrenează pe propria instanță, Google păstrează îmbunătățirile făcute din datele de antrenament?
Vedeți mai multe întrebări și răspunsuri în EITC/AI/GCML Google Cloud Machine Learning