Rețelele neuronale convoluționale (CNN) au fost concepute pentru prima dată în scopul recunoașterii imaginilor în domeniul vederii computerizate. Aceste rețele sunt un tip specializat de rețea neuronală artificială care s-a dovedit a fi foarte eficientă în analiza datelor vizuale. Dezvoltarea CNN-urilor a fost condusă de nevoia de a crea modele care să poată clasifica și clasifica cu precizie imaginile, iar succesul lor în acest domeniu a dus la utilizarea lor pe scară largă în diverse alte aplicații, cum ar fi detectarea obiectelor, segmentarea imaginilor și chiar procesarea limbajului natural.
CNN-urile sunt inspirate de structura și funcționalitatea cortexului vizual din creierul uman. La fel ca cortexul vizual, CNN-urile constau din mai multe straturi de neuroni interconectați care procesează diferite aspecte ale datelor de intrare. Inovația cheie a CNN-urilor constă în capacitatea lor de a învăța și extrage automat caracteristici relevante din imagini, eliminând nevoia de inginerie manuală a caracteristicilor. Acest lucru se realizează prin utilizarea straturilor convoluționale, care aplică filtre imaginii de intrare pentru a detecta diverse modele și caracteristici vizuale, cum ar fi marginile, colțurile și texturile.
Prima descoperire în CNN-uri a venit odată cu introducerea arhitecturii LeNet-5 de către Yann LeCun și colab. în 1998. LeNet-5 a fost proiectat special pentru recunoașterea cifrelor scrise de mână și a obținut performanțe remarcabile pe setul de date MNIST, un set de date de referință utilizat pe scară largă pentru evaluarea algoritmilor de recunoaștere a imaginilor. LeNet-5 a demonstrat puterea CNN-urilor în capturarea caracteristicilor ierarhice din imagini, permițând o clasificare precisă chiar și în prezența variațiilor de scară, rotație și translație.
De atunci, CNN-urile au evoluat semnificativ, fiind dezvoltate arhitecturi mai profunde și mai complexe. Un progres notabil a fost introducerea arhitecturii AlexNet de către Alex Krizhevsky și colab. în 2012. AlexNet a realizat un progres în clasificarea imaginilor câștigând Provocarea ImageNet Large Scale Visual Recognition Challenge (ILSVRC) cu o rată de eroare semnificativ mai mică în comparație cu abordările anterioare. Acest succes a deschis calea pentru adoptarea pe scară largă a CNN-urilor în sarcinile de recunoaștere a imaginilor.
CNN-urile au fost aplicate cu succes și în alte sarcini de viziune computerizată. De exemplu, în detectarea obiectelor, CNN-urile pot fi combinate cu straturi suplimentare pentru a localiza și clasifica obiectele dintr-o imagine. Celebra rețea neuronală convoluțională bazată pe regiune (R-CNN) introdusă de Ross Girshick și colab. în 2014 este un exemplu de astfel de arhitectură. R-CNN a obținut rezultate de ultimă generație în ceea ce privește reperele de detectare a obiectelor, valorificând puterea CNN-urilor pentru extragerea caracteristicilor și combinând-o cu metode de propunere a regiunii.
Rețelele neuronale convoluționale au fost concepute pentru prima dată pentru sarcini de recunoaștere a imaginilor în domeniul vederii computerizate. Au revoluționat domeniul prin învățarea automată a caracteristicilor relevante din imagini, eliminând nevoia de inginerie manuală a caracteristicilor. Dezvoltarea CNN-urilor a condus la progrese semnificative în clasificarea imaginilor, detectarea obiectelor și diverse alte sarcini de viziune computerizată.
Alte întrebări și răspunsuri recente cu privire la EITC/AI/ADL Advanced Deep Learning:
- De ce trebuie să aplicăm optimizări în învățarea automată?
- Când apare supraadaptarea?
- Pot rețelele neuronale convoluționale să gestioneze date secvențiale prin încorporarea convoluțiilor de-a lungul timpului, așa cum este folosit în modelele de secvență la secvență convoluțională?
- Rețelele generative adversare (GAN) se bazează pe ideea unui generator și a unui discriminator?