Kelio ženklų atpažinimas pagal YOLOv3 algoritmą 2 dalis

Jan 19, 2024

2. Algoritmo pagrindai

2.1. YOLOv3 algoritmas

YOLOv3 [14] yra „Redmon“ patobulintas, vieno etapo taikinio aptikimo algoritmas, pagrįstas YOLOv2, kuris pagerino aptikimo tikslumą ir našumą realiuoju laiku bei lenkia kitus algoritmus greičiu ir tikslumu.

Pastaraisiais metais sparti dirbtinio intelekto technologijų plėtra įgalino įvairias išmaniąsias aptikimo sistemas pritaikyti įvairiose srityse. Aptikimo tikslumas yra svarbus rodiklis vertinant intelektualios sistemos kokybę, o atmintis yra viena iš pagrindinių galimybių, palaikančių išmaniosios sistemos veikimą. Taigi, koks yra jųdviejų santykis?

Visų pirma, turime aiškiai pasakyti, kad aptikimo tikslumas ir atmintis nėra paprasta „teigiama koreliacija“ ar „neigiama koreliacija“. Tarp jų yra didelis sąveikos ir koordinavimo laipsnis. Daugeliu atvejų intelektualios sistemos aptikimo tikslumas priklauso nuo jos atminties, ty nuo jos gebėjimo suprasti ir išmokti pavyzdinius duomenis.

Pavyzdžiui, veido atpažinimo srityje gera veido atpažinimo sistema turi gebėti tiksliai atpažinti skirtingus veidus ir suderinti juos su asmens informacija žinomoje veidų duomenų bazėje. Tam reikia, kad išmanioji sistema turėtų stiprią atmintį, gebėtų saugoti žinomų veidų informaciją duomenų bazėje ir lanksčiai ją panaudoti atliekant tolesnius atpažinimo darbus.

Panašiai medicinos srityje intelektualios sistemos turi suprasti ir atsiminti daug medicininių žinių, kad padėtų gydytojams diagnozuoti ligas ir sudaryti gydymo planą. Tam taip pat reikia, kad intelektualioji sistema turėtų stiprią atmintį ir mokymosi galimybes, nuolat įsisavintų naujas medicinos žinias ir patikrintų bei atnaujintų esamą žinių bazę.

Žinoma, ryšys tarp aptikimo tikslumo ir atminties nėra vienpusis. Priešingai, geras aptikimo tikslumas taip pat gali pagerinti intelektualiųjų sistemų atmintį. Pavyzdžiui, kai kuriose klasifikavimo ir atpažinimo užduotyse išmaniosios sistemos turi nuolat teikti grįžtamąjį ryšį ir optimizuoti, kad nuolat gerintų jų tikslumą ir tikslumą, taip dar labiau sustiprinant gebėjimą suprasti ir atsiminti pavyzdinius duomenis.

Apskritai aptikimo tikslumas ir atmintis yra du būtini intelektualių sistemų veikimo elementai. Jie turi sudėtingų sąveikų ir santykių, kuriuos reikia visapusiškai apsvarstyti ir koordinuoti. Tik nuolat gerinant aptikimo tikslumą ir nuolat stiprinant intelektualiosios sistemos atmintį ir mokymosi galimybes, galima iš tikrųjų įgyvendinti visapusišką intelektualiosios sistemos kūrimą ir pritaikymą. Matyti, kad turime pagerinti atmintį, o Cistanche deserticola gali žymiai pagerinti atmintį, nes Cistanche deserticola taip pat gali reguliuoti neuromediatorių pusiausvyrą, pavyzdžiui, padidinti acetilcholino ir augimo faktorių kiekį. Šios medžiagos labai svarbios atminčiai ir mokymuisi. Be to, mėsa taip pat gali pagerinti kraujotaką ir skatinti deguonies tiekimą, o tai gali užtikrinti, kad smegenys gautų pakankamai maistinių medžiagų ir energijos, taip pagerinant smegenų gyvybingumą ir ištvermę.

improving brain function

Norėdami pagerinti atmintį, spustelėkite žinokite papildus

YOLOv3 šiuo metu yra populiariausias YOLO šeimos algoritmas ir plačiai naudojamas realiuose aptikimo scenarijuose [15]; YOLOv3 tinklo struktūra parodyta 1 paveiksle.

increase brain power

Visiška YOLOv3 naudojama konvoliucinė struktūra nėra apribota vaizdo įvesties dydžio.

Sujungimo ir visiškai sujungti sluoksniai pašalinami iš visos tinklo struktūros, o konvoliucinis sluoksnis, kurio žingsnio dydis yra 2, naudojamas vietoj telkimo sluoksnio, kad būtų sumažinta atranka, o tai apsaugo nuo tikslinės informacijos praradimo telkimo metu ir palengvina mažų taikinių aptikimą [ 16].

Be to, YOLOv3 pakeičia YOLOv2 DarkNet{1}} tinklo struktūrą DarkNet-53funkcijų ištraukimo sluoksniu.

„DarkNet“{0}} tinklas, kuris sėkmingai išsprendžia gilaus tinklo gradiento problemą ir pradinės informacijos praradimą atliekant daugiasluoksnę konvoliucinę operaciją, siekiant geriau išgauti funkcijas ir pagerinti aptikimą bei klasifikavimą [17], pasiskolina likutinę ResNet tinklo struktūrą [ 18] ir naudoja pradinę ankstesnio sluoksnio išvestį kaip įvesties dalį pastarajame tinklo sluoksnyje.

Kaip parodyta 2 paveiksle, YOLOv3 likęs modulis susideda iš dviejų konvoliucinių sluoksnių ir nuorodų sluoksnio.

increase memory power

Be to, YOLOv3 naudoja objektų piramidės tinklo (FPN) (19) sąvoką ir pristato objektų piramidės tinklą, kad būtų galima prognozuoti objektų žemėlapius trimis masteliais, kurių aptikimo skalės yra 13 x 13, 26 x 26 ir 52 x 52.

Konvoliucinio neuroninio tinklo ypatybių ištraukimo metodas FPN tinkle taikomas iš apačios į viršų, o konvoliucinio sluoksnio savybių žemėlapių atranka vyksta iš viršaus į apačią, kaip parodyta 3 paveiksle.

2.2. Erdvinė piramidinė telkimo struktūra

Erdvinės piramidės telkimo (SPP) struktūra (20) išsprendžia pakartotinio vaizdo ypatybių išgavimo konvoliuciniais neuroniniais tinklais problemą ir labai pagerina aptikimo efektyvumą; SPPNet tinklo struktūra parodyta 4 paveiksle.

improve cognitive function

Siekiant užtikrinti, kad įvesties vaizdo skiriamoji geba atitiktų visiškai prijungto sluoksnio ypatybių matmenis neuroniniame tinkle su visiškai prijungtu sluoksniu, reikia atlikti regiono apkarpymo ir mastelio keitimo operacijas įvesties vaizde.

Dėl mastelio ir apkarpymo bus prarasta vaizdo funkcijų informacija, sumažės aptikimo tikslumas ir paveiks aptikimo rezultatus: tačiau mastelio keitimo ir apkarpymo procesai praras vaizdo funkcijų informacijos aptikimo tikslumą ir turės įtakos aptikimo rezultatams, o SPPNet gali įveikti apribojimus. fiksuotas įvesties vaizdo dydis, taupantis skaičiavimo išlaidas 21.

improve short term memory

3. Patobulinta YOLOv3

3.1. Patobulinta YOLOv3 tinklo struktūra

Remiantis COCO duomenų rinkinio aprašu, pagrindinių funkcijų išgavimo tinklas paprastai sumažinamas penkis kartus, o sumažinimo dažnis yra 2, o penkių kartų sumažinimo dažnis yra nuo 32 iki penktos galios dviejų.

Jei atranka bus tęsiama, gautas objektų žemėlapis bus vienas, o tikslinė informacija bus prarasta. Maži taikiniai yra mažesni nei 32 × 32 pikseliai, vidutiniai taikiniai yra 32 × 32–96 × 96 pikseliai, o milžiniški taikiniai yra didesni nei 96 × 96 pikseliai [22].

Kaip parodyta 5 paveiksle, šiame darbe naudojami TT100K eismo ženklų duomenys daugiausia buvo sudaryti iš mažų ir vidutinių taikinių, o dideli taikiniai sudarė tik 7,4% viso duomenų rinkinio, o maži taikiniai - 42,5% [23].

increase memory

TT100K duomenų rinkinys yra didelės skiriamosios gebos, kiekvieno vaizdo skiriamoji geba yra 2048 × 2048 pikselių, o didžiausi eismo ženklai tarp mažų taikinių sudaro mažiau nei 0,1 % viso vaizdo, todėl tai yra didelis iššūkis. aptikimo algoritmas.

Maži taikiniai turi ribotas funkcijas ir reikalauja didelio lokalizavimo tikslumo.

Nepaisant to, kad YOLOv3 buvo įdiegta FPN struktūra, siekiant panaudoti daugialypį funkcijų sujungimą, kad būtų galima numatyti prognozes, sujungiant atskirų savybių sluoksnių išvadas, kurios yra labai svarbios mažo taikinio identifikavimui, rezultatai vis tiek buvo nepatenkinami.

YOLOv3 tinkle sekliajame sluoksnyje yra mažiau funkcijų semantinės informacijos, bet tiksli tikslinė vieta, o giliame sluoksnyje yra daugiau, bet apytikslė tikslinė vieta.

Dėl to mažiems taikiniams numatyti naudojami seklūs konvoliuciniai sluoksniai, o dideliems taikiniams numatyti naudojami gilūs konvoliuciniai sluoksniai. Ketvirtoji 152 × 152 dydžio funkcijų numatymo skalė buvo pridėta prie trijų YOLOv3 tinklo struktūros funkcijų numatymo skalių, kad būtų galima visiškai išnaudoti seklias tinklo funkcijas, kad būtų galima numatyti nedidelius tikslus.

Kai įvesties vaizdo dydis buvo 608 × 608, išvesties vaizdo elemento dydis buvo 152 × 152 po konvoliucijos ir dvigubo įvesties vaizdo atrankos padidinimo, o funkcijų sluoksnis buvo indukuotas per maršruto sluoksnį; šis ypatybių ištraukimas buvo sujungtas su 11-ojo sluoksnio funkcija, siekiant padidinti ketvirtosios funkcijos numatymo skalę.

Be to, buvo pridėtas SPP modulis, kad būtų galima sujungti vietines ir pasaulines funkcijas, pasiskolinant SPPNet sąvoką ir sujungiant ją su YOLOv3.

Prieš YOLOdetection sluoksnį SPP modulis buvo integruotas tarp penktojo ir šeštojo konvoliucijos sluoksnių, o SPP modulio funkcijų žemėlapiai ir funkcijų žemėlapiai buvo sujungti iš naujo ir perduoti kitam aptikimo tinklo sluoksniui.

improve working memory

Norint suderinti vietinių ir pasaulinių funkcijų ypatybių žemėlapio lygį, SPP modulio maksimalus telkimo branduolys turi būti kuo artimesnis sujungiamo objekto žemėlapio dydžiui.

Siekiant sumažinti SPP modulio sukeltas skaičiavimo pastangas, praturtinti funkcijų žemėlapio išraiškos galimybes ir padidinti aptikimo poveikį, SPP modulis šiame tyrime buvo sudarytas iš dviejų lygiagrečių šakų, kurių kiekviena buvo sudaryta iš 19 × 19 maks. telkimo sluoksnio ir šuolio. ryšį. 6 paveiksle pavaizduota patobulinta YOLOv3 tinklo struktūra.

ways to improve brain function

3.2. Patobulinta praradimo funkcija

YOLOv3 praradimo funkciją sudaro centrinės koordinatės praradimas (praradimas), pločio ir aukščio koordinačių praradimas (praradimas), pasitikėjimo praradimas (lossconf) ir klasifikacijos praradimas (praradimai). Centrinės koordinatės praradimas vaizduojamas taip:

improve your memory

kur λkoorda reiškia koordinatės praradimo svorį; λnoobj reiškia pasitikėjimo praradimo svorį be objekto; Iobjij reiškia, ar i-osios ląstelės j-oji inkaro dėžutė yra atsakinga už objektą (1 arba 0); Inobbyij reiškia i-ojo tinklelio j-ąją inkaro dėžę, kuri nėra atsakinga už objektą; (xi,yi,wji,hjI, CjI, Pji) žymi numatomas tikslinės dėžutės koordinates, pasitikėjimą ir kategoriją; o (xji,yˆji,wˆji,ˆhjI, CˆjI, Pˆji) žymi tikrąsias tikslinės dėžutės koordinates, pasitikėjimą ir kategoriją.

YOLOv3 praradimo funkcija pavaizduota (5) lygtimi, kur vidutinės kvadratinės klaidos (MSE) praradimo funkcija naudojama ribinės dėžutės regresijai ir kryžminei entropijai, naudojama kaip nuostolių funkcija lossconf ir lokaliuose.

nuostoliai=lossxy + losswh − losscon f − losscls (5)

Tačiau naudojant MSE kaip ribinio langelio regresijos praradimo funkciją, ji yra nepalanki mažų taikinių aptikimui, jautri objekto masteliui ir sutelkiama į didelio masto taikinius, o nedraugiška mažo masto objektams.

Siekiant subalansuoti didelių ir mažų taikinių praradimą ir maksimaliai padidinti aptikimo rezultatus susilpninant ribojamojo langelio dydžio įtaką pločio ir aukščio praradimo funkcijai, šiame darbe buvo naudojama IoU tipo praradimo funkcija, o IoU generuojami metriniai nuostoliai buvo naudojami kaip. veikimo lygtis (6).

IoU =|A ∩ B||A ∪ B|(6)

Kai ribojantis langelis ir tikslinis langelis nesutampa, IoU=0 neatspindi atstumo tarp dviejų langelių; kai numatymo laukelis ir pažymėtas langelis visiškai sutampa, IoU=1, ribojimo langelio vidurio taško nustatyti negalima, o dydžio tarpas su tiksliniu langeliu negali būti toliau optimizuotas.

DIoU nuostoliai [24] nepriklauso nuo dydžio; taigi, dideli dydžiai nesukels didelių nuostolių. Kadangi mažas dydis sukelia nedidelį nuostolį, o tai gali išspręsti problemą, šiame darbe buvo naudojamas DIoU nuostolis, kurio skaičiavimo formulė pateikta (7) lygtyje.

D IoU nuostolis=1 − IoU +ρ2 b, bgt c2(7)

kur b ir bgt žymi centrinius taškus, ρ yra Euklido atstumas, o c yra mažiausio gaubiančiojo dėžės, dengiančios dvi dėžes, įstrižainės.

DIoU praradimas sumažina atstumą tarp dviejų tikslinių kadrų tiesiogiai, greitai susilieja ir labiau atitinka tikslinio kadro regresijos mechanizmą, kuriame atsižvelgiama į atstumą tarp taikinio ir inkaro, persidengimo dažnį ir mastelį, todėl tikslinės kadro regresija tampa geresnė. stabilus, tuo pačiu užtikrinant gradiento kryptį ribojančiam langeliui, kai jis nesutampa su tiksliniu rėmeliu.

help with memory


For more information:1950477648nn@gmail.com


Tau taip pat gali patikti