Paaiškinamas automatinis emocinių būsenų atpažinimas pagal šunų veido išraiškas: teigiamo laukimo ir nusivylimo atvejis

Aug 11, 2023

Naudojant „Adam“ optimizavimo priemonę, kurios mokymosi rodiklis yra {{0}}.{13}}001. Modelis, pasiekęs maksimalų patvirtinimo duomenų rinkinio tikslumą, buvo pasirinktas kaip geriausias modelis. Per pirmąsias 10 epochų visų sluoksnių svoriai buvo tiksliai sureguliuoti. Per pirmąsias 10 epochų visų sluoksnių svoris buvo tiksliai sureguliuotas. Per likusias epochas ResNet50 svoriai buvo užšaldyti ir atnaujinami tik naujų viršutinių sluoksnių svoriai. Su orientacija nesusijusiems kintamiesiems („Ausų plokštumas“, „Lūpų dalis“, „Ausų pritraukiklis“, „Ausys į priekį“ ir „Nosies laižymas“) pritaikėme padidinimo techniką, pagrįstą atsitiktiniu vaizdo horizontaliu pasukimu ir pasukimu iki 20 laipsnių. Kaip koduotuvo įvestį naudojome įvesties lentelę, kurioje kiekviena eilutė rodo kiekvieno iš 11 DogFACS kintamųjų kiekviename vaizdo įraše buvimą (1) / nebuvimą (0). Koduotuvo tikslas yra lentelė, kurioje yra kiekvieno vaizdo įrašo sąlyga (neigiama (0) / teigiama (1)).

ResNet50 yra gilaus neuroninio tinklo architektūra, kuri tapo vienu iš klasikinių tinklų kompiuterinio matymo srityje. ResNet50 tinklas pasižymi labai stipria atmintimi ir galimybe treniruočių metu prisiminti anksčiau įgytas žinias, todėl puikiai atlieka sudėtingas vaizdo atpažinimo užduotis.

Kaip ResNet50 pasiekia atmintį? Jis naudoja liekamojo ryšio metodą ir prideda spartųjį ryšį tarp sluoksnių kiekviename konvoliuciniame sluoksnyje, kuris gali pagerinti informacijos srautą tinkle. Mokymo proceso metu dėl šių nuorodų jungčių tinklas gali lengviau išmokti likusius atvaizdus ir nereikia praleisti per daug laiko ieškant šių likusių atvaizdų.

Dėl tokio atminties veikimo ResNet50 puikiai atlieka didelio masto vaizdo atpažinimo užduotis. Dėl problemų, tokių kaip vaizdo klasifikavimas, taikinio aptikimas ir veido atpažinimas, ResNet50 pasiekė labai gerų rezultatų. Šis atminties veikimas yra panašus į mūsų smegenis, kurios taip pat jungia neuronus, kad pagerintų atmintį. Taigi galime teigti, kad ResNet50 yra labai geras giluminio neuroninio tinklo modelis, turintis stiprią atmintį ir galintis gerai susidoroti su sudėtingomis vaizdo atpažinimo užduotimis. Kartu tai suteikia mums įkvėpimo. Galime pasimokyti iš ResNet50 idėjų, kad sukurtume efektyvesnį giluminio neuroninio tinklo modelį, kuris geriau atitiktų žmonių poreikius. Matyti, kad reikia pagerinti atmintį. Cistanche gali pagerinti atmintį, nes Cistanche yra tradicinė kinų gydomoji medžiaga, turinti daug unikalių poveikių, iš kurių vienas yra pagerinti atmintį. Maltos mėsos veiksmingumą lemia įvairios joje esančios veikliosios medžiagos, įskaitant karboksirūgštį, polisacharidus, flavonoidus ir kt. Šie ingredientai įvairiais kanalais gali skatinti smegenų sveikatą.

increase memory

Spustelėkite būdus, kaip pagerinti smegenų veiklą

Atliekant tyrimus su gyvūnais, afektinio būsenos atpažinimo automatizavimas iki šiol daugiausia buvo skirtas kelių rūšių skausmui. Dėl sudėtingos jų veido morfologijos ir išraiškos emocinės būsenos išlieka neatrastos teritorijos, ypač šunims. Šis tyrimas padeda užpildyti spragą dviem aspektais. Pirma, tai pirmasis, nagrinėjantis šunų emocines būsenas, naudojant duomenų rinkinį, gautą kontroliuojamoje eksperimentinėje aplinkoje, įskaitant vaizdo įrašus iš (n=29) Labradoro retriverių, kurių, kaip manoma, buvo dvi eksperimentiškai sukeltos emocinės būsenos: neigiama (nusivylimas) ir teigiama. (numatymas). Šunų veido išraiškos buvo matuojamos naudojant šunų veido veiksmų kodavimo sistemą (DogFACS).

Lyginami du skirtingi metodai: (1) DogFACS pagrįstas metodas su dviejų pakopų vamzdynu, kurį sudaro (i) DogFACS kintamasis detektorius ir (ii) teigiamos / neigiamos būsenos sprendimų medžio klasifikatorius; (2) Metodas naudojant giluminio mokymosi metodus be tarpinio vaizdavimo. Metodų tikslumas atitinkamai viršija 71 % ir 89 %, o giluminio mokymosi metodas veikia geriau. Antra, šis tyrimas taip pat yra pirmasis, tiriantis AI modelių paaiškinamumą gyvūnų emocijų kontekste. DogFACS pagrįstas metodas pateikia sprendimų medžius, kurie yra matematinis vaizdas, atspindintis ankstesnes žmonių ekspertų išvadas apie tam tikras veido išraiškas (DogFACS kintamuosius), kurios yra koreliacijos su konkrečia emocine būsena. Gilus mokymosi metodas siūlo kitokią vaizdinę paaiškinimo formą šilumos žemėlapių pavidalu, atspindinčių tinklo dėmesio sritis, kurios kai kuriais atvejais rodo dėmesį, susijusį su konkrečių DogFACS kintamųjų pobūdžiu. Šie šilumos žemėlapiai gali būti raktas į naujas įžvalgas apie tinklo jautrumą niuansuotiems pikselių modeliams, atspindintiems žmogaus akiai nematomą informaciją.

Charlesas Darwinas savo pagrindiniame darbe „Žmogaus ir gyvūnų emocijų raiška“1 puikiai apibūdino veido išraiškų naudojimą kaip žmonių ir įvairių nežmonių rūšių (toliau – gyvūnai) emocinių būsenų rodymą. Šiais laikais plačiai pripažįstama, kad veido išraiškos yra svarbus informacijos šaltinis emocinėms būsenoms atpažinti. Žmonėms veido išraiškos yra pagrindinė neverbalinė sąveiką reguliuojanti priemonė2, o sąsaja tarp veido išraiškų ir emocinių būsenų jau seniai nustatyta sistemingais psichologijos tyrimais3,4. Gyvūnams veido išraiškas sukuria dauguma žinduolių rūšių5 ir, kaip ir žmonių, manoma, kad jos perteikia informaciją apie emocines būsenas6,7. Todėl veido išraiškos vis dažniau tiriamos kaip galimi subjektyvių būsenų rodikliai gyvūnų emocijų ir gerovės tyrimuose.

Auksinis standartas, skirtas objektyviai įvertinti veido išraiškų pokyčius žmogaus emocijų tyrime, yra veido veiksmų kodavimo sistema – FACS8,9. FACS neseniai buvo pritaikytas įvairioms nežmoginėms rūšims, įskaitant kelis nežmoginius primatus (pvz., orangutanus10, šimpanzes11, makakas12,13), marmozetes14, šunis15 ir kates16. Šios sistemos, vadinamos AnimalFACS, kaip ir žmonės, vis dažniau naudojamos gyvūnų emocinėms būsenoms tirti (pvz., 17–19).

Pagrindinis iššūkis nustatant standartizuotas šunų veido išraiškas yra jų galvų morfologinė įvairovė20,21 ir juos dengiančios odos struktūros, pvz., kai kurių veislių nuolatinės raukšlės. Siekdami nustatyti šunų veido emocines išraiškas, Caeiro ir kt.18 pritaikė DogFACS, kad įvertintų spontanišką skirtingų veislių ir mišinių individų reakciją natūralistinėje emocinėje aplinkoje naudodami internetinius vaizdo įrašus. Buvo tiriamos tiek teigiamo, tiek neigiamo valentingumo emocijos, įskaitant atlygio numatymą (teigiamai vertinamą emociją) ir nusivylimą (neigiamai vertinamą emociją), kuriems būdingas norimo stimulo lūkestis16. Teigiamas numatymas buvo apibrėžiamas kaip sukeltas situacijose, kai „maisto vizualizavimas arba išgirstas su maistu / su maistu susijęs žodis (-iai); [v]pavadėlio vizualizavimas, išgirstas žodis (-iai)“, o nusivylimas – kaip sukelti „norimo ištekliaus (žaislo, maisto, erdvės), kuris yra arba tampa neprieinamas, vizualizavimas“18. Nors Caeiro ir kt.18 nustatė, kad šunų veido išraiškos buvo labai skirtingos, kad atskirtų tam tikras emocines būsenas, tačiau nusivylimo kontekste nebuvo nustatyta jokių išskirtinių bruožų. Atitinkamai, Bremhorstas ir kt.22 tyrė šunų teigiamo lūkesčio ir nusivylimo veido išraiškas kontroliuojamoje eksperimentinėje aplinkoje, skirtingai nei Caeiro ir kt.18, standartizuodami ir šunų veislę (labradoro retriveris). Be to, autoriai naudojo ne socialinį kontekstą, kad pašalintų anksčiau išmoktų dėmesį pritraukiančių atsakymų trikdžių riziką. Norint eksperimentiškai išgauti abi tirtas emocines būsenas, didelės vertės maisto atlygis buvo naudojamas kaip stimulas dviem sąlygomis: teigiama, kad teigiama būsena sukels teigiamą laukimą (dėl sąlyginio maisto lūkesčio), o neigiama būsena turėtų sukelti nusivylimą (ty per prevencija gauti laukiamą atlygį už maistą). Šunų veido išraiškos šiose dviejose būsenose buvo išmatuotos naudojant DogFACS. Autoriai nustatė, kad kintamasis „Ausų pritraukėjas“ buvo labiau paplitęs esant teigiamai, o kintamieji „mirksėjimas“, „lūpų dalis“, „žandikaulių kritimas“, „nosies laižymas“ ir „ausų plokštumas“ buvo dažnesni neigiamoje būsenoje. būklė22. Tolesniame tyrime Bremhorstas ir kt.19 išbandė naują šunų grupę naudodami panašią sąranką. Tačiau šiame tyrime buvo naudojami du skirtingi atlygio tipai (maistas ir žaislai), siekiant patikrinti ankstesnių išvadų apibendrinimą įvairiuose kontekstuose19.

Ankstesni rezultatai buvo atkartoti19, o dar keturi kintamieji dažniau pasitaiko esant neigiamai būsenai: „Ausys žemyn“, „Lūpų kampučio traukiklis“, „Liežuvio rodymas“ ir „Viršutinės lūpos pakėlimas“. Visos nustatytos veido išraiškos, išskyrus „viršutinės lūpos pakėlimą“, nepriklausė nuo atlygio, kurio šunys tikėjosi gauti19. Be to, buvo įvertinti pagrindiniai diagnostinio tikslumo matai identifikuotoms veido išraiškoms, kaip galimiems emocijų rodikliams, įskaitant jų jautrumą, specifiškumą ir teigiamas bei neigiamas nuspėjamąsias reikšmes19. Rezultatai parodė, kad nė viena iš šių veido išraiškų nebūtų pateikusi nuoseklios teisingos susijusių emocijų klasifikacijos, jei jos būtų naudojamos kaip individualūs emocijų rodikliai19. Tai nesumenkina jų, kaip signalų, galimos vertės, bet galbūt pabrėžia įprastą holistinį veido konfigūracijų apdorojimą23, o ne sutelkimą į atskirus elementus.

Kaip rodo naujausias Pedretti ir kt. tyrimas24, auditorijos buvimas emociniame kontekste yra svarbus elementas, į kurį reikia atsižvelgti tiriant šunų veido (emocijų) išraiškas. Panašiai kaip 19, 22, autoriai taip pat parodė šunims teigiamą laukimą ir nesocialinį bei ne socialinį nusivylimą, sukeldami bandymų sesijas. Jie taip pat naudojo DogFACS, kad analizuotų šunų veido išraiškas šiose situacijose, neskaitant kito elgesio, pavyzdžiui, uodegos vizginimo ir seilių kortizolio koncentracijos matavimo prieš ir po tyrimo. Jie nustatė, kad „Ears Forward“ buvo daugiau teigiamos būklės, palyginti su neigiamomis sąlygomis. Be to, šį kintamąjį teigiamai paveikė auditorijos buvimas ir jis neigiamai koreliavo su kortizolio koncentracija prieš bandymą, o tai rodo, kad tai gali būti geras šunų dėmesio rodiklis. „Ausų plokštumas“, „mirksėjimas“, „nosies laižymas“, „uodegos vizginimas“ ir „verkšlenimas“ (pastarieji du neįtraukti į DogFACS kintamuosius) taip pat buvo susiję su auditorijos buvimu, bet nebuvo susiję su kortizolio koncentracija, o tai rodo. komunikacinis šio elgesio komponentas.

improve your memory

Tai rodo, kad DogFACS taip pat gali pasitarnauti tiriant šunų veido išraiškas ne tik kaip užuominas (ty sukelia elgesio pokyčius, lydinčius emocines būsenas), bet ir kaip signalus (ty elgesį, specialiai sukurtą emocijoms perduoti bendravimo partneriui), taip pat žr. Taigi AnimalFACS sistemos yra svarbi priemonė, padedanti suprasti gyvūnų veido išraiškas. Tačiau šių sistemų naudojimas veido išraiškos analizei turi savo iššūkių, įskaitant priklausomybę nuo rankinio anotavimo, kuriam reikalingas išsamus žmonių mokymas ir sertifikavimas. Tai gali užtrukti daug laiko ir gali būti žmonių klaidos ar šališkumo26.

Automatizavimas gali būti svarbi papildoma šio proceso pažanga. Visų pirma teigiama, kad automatizuoti įrankiai turi didesnį objektyvumą ir patikimumą nei rankinis kodavimas, pašalinant subjektyvumą ir šališkumą27, 28, tačiau jų sėkmė taip pat nepriklauso nuo vienos funkcijos aptikimo. Todėl nenuostabu, kad automatizuotas veido išraiškos kodavimas yra gyvybinga žmogaus emocijų tyrimų sritis, turint daugybę komercinių programinės įrangos įrankių, tokių kaip FaceReader by Noldus29, Afdex30, EmoVu31, taip pat plačias duomenų bazes, tokias kaip CAS(ME)332.

Kita vertus, gyvūnų veido išraiškų analizės automatizavimas yra nepakankamai ištirtas. Taip yra dėl kelių iššūkių (kaip aptarė 33, 34), įskaitant, pirma, santykinį augimo naujausią ar susidomėjimą gyvūnų emocijų tyrimais, o tai reiškia, kad yra daug mažiau duomenų, palyginti su didžiuliu duomenų kiekiu žmogaus srityje. Antra, ypač naminių rūšių atveju, dideli veido morfologijos skirtumai kelia techninių iššūkių35. Galiausiai, dėl žodinio savęs pranešimo trūkumo sunku nustatyti pagrindinę tiesą apie gyvūnų emocinę būseną, o žmonėms pranešimai apie save yra standartinis metodas šiuo tikslu. Todėl gyvūnų duomenų rinkimo protokolams reikalinga išsami kontrolė ir reguliavimas, tiriamų emocinių būsenų apibrėžimai (žr. pvz., 18) arba, galbūt, žmonių ekspertų įvertinimas, nors tai gali sukelti šališkumą ir subjektyvų sprendimą.

Broomé ir kt.36 pateikė išsamią dvidešimties tyrimų, kuriuose pristatomi naujausi metodai, kaip automatizuotas gyvūnų emocijų ir skausmo atpažinimas, apžvalgą. Dauguma šių darbų yra skirti skausmo atsiradimui. Šiame kontekste aptariamos rūšys: graužikai37–39, avys40, arkliai33,41,42 ir katės43. Visuose šiuose darbuose pateikiamas dvejetainis skausmo / be skausmo klasifikatorius, naudojant mašininio mokymosi metodus.

Darbo, skirto plačiau automatizuoti gyvūnų emocijų atpažinimą, yra daug mažiau. Dviejuose nežmoginių primatų tyrimuose pagrindinis dėmesys skiriamas susijusiam veiksmų vienetui / veido išraiškos atpažinimui, aiškiai nekreipiant dėmesio į emocines būsenas44, 45. Blumrosen ir kt.44 automatizavo keturių nežmoginių primatų veido išraiškų atpažinimą: neutralią, lūpų glostymą, kramtymą ir atsitiktinį burnos atvėrimą su minimaliomis anotavimo pastangomis, o Morozovas ir kt.45 įdiegė prototipų sistemą, skirtą automatiniam MaqFACS kodavimui rezus makakoms. , išmokyti klasifikuoti šešis MacFACS kintamuosius.

Broomé et al.36 buvo ištirti tik trys darbai, kuriuose pateikiama visapusiška skirtingų emocinių būsenų klasifikacija. Corujo ir kt.46 apibrėžė keturias arklių emocines būsenas: „sunerimęs“, „sunervintas“, „smalsus“ ir „atsipalaidavęs“, kiekvieną iš jų apibūdindami pagal akių, ausų, nosies ir kaklo elgesį. Pavyzdžiui, „atsipalaidavusios“ buvo apibrėžiamos kaip akys: iš dalies iki beveik uždarytos, ausys: atsipalaidavusios, atsivėrusi į šonus, nosis: atpalaiduota burna ir kaklas: maždaug lygiagrečios. Konvoliucinio neuroninio tinklo (CNN) modelis buvo išmokytas numatyti šias keturias emocijų „klases“. Ferres ir kt.47 naudojo automatinį pozos įvertinimą naudodami DeepLabCut48, kad suskirstytų į keturias šunų emocijų klases „pyktis“, „baimė“, „laimė“ ir „atsipalaidavimas“. Franzoni ir kt.49 taip pat naudojo CNN modelį, kad klasifikuotų ribotus požymius, susijusius su emocinėmis būsenomis: „šypsena“ (susijusi su „džiaugsmu“), „urzgimas“ (susijusi su „pykčiu“) ir „miegas“ (susijusi su neutralia būsena). valstybė).

Iš trijų darbų, susijusių su šunimis47, 49, 50, du buvo skirti kūnui atpažinti emocines būsenas47 ir skausmą50, o vienas – emocijų veido išraišką49. Tačiau duomenų rinkiniuose, naudotuose Ferres ir kt.47 ir Franzoni ir kt.49 tyrimuose, buvo vaizdai, surinkti iš interneto ir anotuoti ne ekspertų, todėl jų patikimumas ir pagrįstumas gali būti žemas. Zhu50 darbas tiria skausmo atpažinimą pagal kūno kalbą, o ne veido išraiškas.

Čia pateiktas tyrimas yra pirmasis, kuriame tiriamas automatinis šunų emocijų atpažinimas iš veido išraiškų, naudojant duomenų rinkinį, surinktą iš kruopščiai parengto eksperimentinio protokolo, kuriame kontekstas gina emocines būsenas22. Šiame protokole emocinės teigiamo laukimo (teigiamos emocijos) ir nusivylimo (neigiamos emocijos) emocinės būsenos buvo operatyviai apibrėžtos (pagal 18 ir eksperimentiškai sukeltos 29 Labradoro retriverių tiriamųjų imtyje, sumažinant šunų morfologinių skirtumų kintamumą). Šunų veido išraiškos buvo objektyviai užkoduotos naudojant standartizuotą DogFACS sistemą sertifikuotų DogFACS koduotojų. Šis duomenų rinkinys sukuria unikalią eksperimentinę aplinką, skirtą įvairiems emocijų atpažinimo automatizavimo požiūriams tirti su minimaliu emocijų apibrėžimu. Duomenys dar labiau naudingi sumažėjusi dalyvių veidų morfologinė variacija dėl veislės standartizacijos.

Remiantis36, yra du standartiniai emocinės ar skausmo būsenos klasifikavimo būdai: naudojant rankomis sukurtas funkcijas arba naudojant gilaus mokymosi paradigmą, pagrįstą išmoktomis savybėmis51. Rankomis sukurtas ypatybes galima apytiksliai suskirstyti į žemo lygio ypatybes, kurios yra pagrįstos vaizdo statistika (pvz., orientuotų gradientų histogramomis), paprastai naudojama kompiuterinės vizijos literatūroje51, ir aukšto lygio ypatybes, kurios yra semantiškai pagrįstos, pagal rūšis. konkreti anatominė veido ir (arba) kūno struktūra, grimasų skalės, veiksmų vienetai ir tt Pastarųjų pavyzdžiai yra kačių veido orientyrai52, pagrindiniai šunų kūno taškai47 arba avių skausmo veiksmų vienetai40. Šios funkcijos skatina mašininio mokymosi algoritmų paaiškinamumą, modelio sprendimus pagrįsdamos elgesio koncepcijomis. Kita vertus, giluminio mokymosi metodas yra lankstesnis ir tikimasi, kad jo našumas bus geresnis (ypač kai yra dideli duomenų rinkiniai), tačiau jam reikia brangių skaičiavimo išteklių ir yra „juodoji dėžė“ ta prasme, kad jo negalima paaiškinti. žmogui suprantama prasme, kodėl priimamas konkretus klasifikavimo sprendimas.

Šiame tyrime tiriame abu šiuos alternatyvius šunų emocinių būsenų automatizuoto klasifikavimo būdus. Pirmajame maršrute naudojami DogFACS kintamieji kaip paaiškinamos aukšto lygio funkcijos. Šiuo atveju klasifikavimo dujotiekis turi du etapus: pirma, automatinis DogFACS kodų atpažinimas, antra, anotacijų naudojimas tirtoms emocijoms klasifikuoti. Mes parodome tokio paaiškinamo vaizdavimo naudą norint suprasti, kaip DogFACS kintamieji naudojami priimant mašinos sprendimus. Antrasis būdas taikomas (paprastesnis, vieno etapo) gilaus mokymosi metodas, leidžiantis mašinai mokytis tiesiogiai iš duomenų funkcijų, kurios nebūtinai yra suprantamos žmogui. Toliau lyginame dviejų požiūrių paaiškinamumo aspektus ir naudojame šilumos žemėlapio vizualizacijos metodus, kad pabrėžtume išmoktų savybių ryšį su semantiniais objektais, susijusiais su šuns veido dalimis.

Rezultatai

Duomenų rinkinys.

Naudojome duomenų rinkinį ir DogFACS anotacijas, sugeneruotus kaip ankstesnio Bremhorsto ir kt. tyrimo dalį22. Siekiant sumažinti morfologinių variacijų poveikį, buvo išbandyti 29 vienos veislės asmenys be ypatingų veido bruožų (labradoro retriveris) (19 patelių – 13 kastruotų, 10 patinų – 9 sterilizuoti; amžiaus intervalas: 2–9,5 metų, amžiaus vidurkis {{9} }.22 metai). 1 paveiksle parodytas tiriamojo amžiaus ir lyties pasiskirstymas.

Duomenų rinkinyje buvo iš viso 248 3 s ilgio vaizdo įrašų pavyzdžiai, įrašyti 25,25 kadrų per sekundę kadrų dažniu, kiekvieno kadro skiriamoji geba buvo 1920 × 1080 pikselių. Įrašymui naudota kamera HIKVision, IR Mini Bullet Network Camera; įrašymo įrenginys: HIKVision, DS-7600 serija. Tiriamieji buvo už skaidraus lango, naudojant protokolą, kuris yra išsamiai aprašytas Bremhorst ir kt.22. Kiekvienas tiriamasis buvo išbandytas 3 kartus teigiamai ir 6 kartus neigiamai. Iš viso du trečdaliai vaizdo įrašų buvo pažymėti kaip neigiami, o trečdalis - kaip teigiami. Šiame tyrime daroma prielaida, kad neigiama būsena sukelia nusivylimą, o teigiama – teigiamą numatymą, todėl nuo šiol mes naudojame teigiamą / neigiamą valentiškumą, nurodydami dvi emocines būsenas. 2 paveiksle pavaizduoti šunų veidai, išgauti iš duomenų rinkinio.

boost memory

Duomenų rinkinys buvo subalansuotas naudojant atsitiktinę atranką, paliekant 82 vaizdo įrašus apie teigiamas sąlygas ir 82 vaizdo įrašus su neigiamomis sąlygomis iš (n = 29) asmenų, iš viso 164 vaizdo įrašai. Balansavimas buvo atliktas išlaikant tą patį teigiamų ir neigiamų mėginių skaičių vienam asmeniui.

Visi vaizdo pavyzdžiai buvo užkoduoti naudojant 39 DogFACS kintamuosius pagal DogFACS vadovą53 sertifikuoto DogFACS koduotojo, komentuojant vieną kadrą per 200 ms, naudojant Solomon Coder (versija 15.03.15, Andràs Péter). Iš šių 39 kintamųjų vienuolika kintamųjų, pateiktų 1 lentelėje, buvo panaudoti atliekant Bremhorst tyrimą22, remiantis bent 10 % paplitimu visuose teigiamos arba neigiamos būklės pavyzdžiuose ir bent jau dideliu interkoderio susitarimo stiprumu (žr. Norėdami gauti daugiau informacijos).

10 ways to improve memory

Dviejų požiūrių apžvalga.

Pateikiame dviejų skirtingų automatinio teigiamų ir neigiamų sąlygų klasifikavimo metodų palyginimą: DogFACS pagrįstas ir grynas (DogFACS metodas taip pat turi gilų mokymosi modulį DogFACS kintamųjų aptikimui) gilaus mokymosi metodą. 3 paveiksle pateikta aukšto lygio dviejų metodų apžvalga.

Vaizdo įrašų duomenų prieinamumas leidžia dirbti su dviejų tipų įvestimis: pavieniais kadrais arba kadrų sekomis. Pirmoji reiškia daugiau informacijos praradimo, bet yra paprastesnė ir lengviau valdoma; o pastaroji apima laiko dimensiją, kuri, kaip įrodyta, yra svarbi tokioms užduotims, pvz., arklių skausmo nustatymo kontekste42,54. Vis dėlto paplitęs metodas automatinio gyvūnų emocinių būsenų ir skausmo atpažinimo kontekste yra vieno kadro pagrindas (pvz., 33, 39, 41, 55). Dėl šio tyrimo tiriamojo pobūdžio nusprendėme pasirinkti šį variantą.

Abu metodai veikia vieno kadro pagrindu, ty klasifikuojama pagal atskirus kadrus, išskirtus iš vaizdo įrašų. Tačiau vieno kadro informacijos apibendrinimas šiais dviem atvejais atliekamas skirtingai. Atlikus išankstinio apdorojimo etapą, kai iš rėmelių išimami apkarpyti šunų veidai (pavyzdžius žr. 2 pav.), taikant gilųjį metodą neapdoroti apkarpyti veidai yra paimami kaip neuroninio tinklo įvestis. Čia eksperimentuojame su dviejų tipų neuroninių tinklų architektūromis: konvoliuciniu neuroniniu tinklu (Resnet5056) ir neseniai pristatytu vizijos transformatoriaus57 (ViT) tinklu. Tada pasirinkto tinklo sprendimai sujungiami balsų dauguma ir priimamas kiekvieno vaizdo įrašo klasifikavimo sprendimas.

Kita vertus, DogFACS pagrįstas metodas naudoja dujotiekį su dviem iš eilės žingsniais. Pirmasis yra automatinis DogFACS kintamųjų detektorius, kuris kiekviename kadre aptinka DogFACS kintamųjų rinkinį. Tada „DogFACS“ kintamieji sujungiami visam vaizdo įrašui. Antrasis žingsnis yra sprendimų medis, kurio įvestis yra vaizdo įraše aptiktų DogFACS kintamųjų, taikomų galutiniam klasifikavimo sprendimui priimti, rinkinys.

Taigi, DogFACS pagrįstas metodas priima sprendimą dėl klasifikavimo pagal vaizdo įraše nurodytų DogFACS kintamųjų rinkinį; Kita vertus, gilaus mokymosi metodas apsprendžia kiekvieną kadrą atskirai, iš neapdorotų vaizdų išskiria išmoktas funkcijas, o tada sujungia sprendimą dėl visų vaizdo įrašo kadrų. Todėl, tirdami dviejų požiūrių paaiškinamumą, pirmajame tikimasi, kad turėsime „paaiškinimų“ pagal Bremhorst ir kt.22 liniją (nustatyti vyraujančius kintamuosius kiekvienoje iš sąlygų arba tam tikrą jų derinį). Tačiau tikimasi, kad pastarasis metodas suteiks daugiau vaizdinių paaiškinimų, į kokias vaizdo ypatybes orientuojasi modelis, kaip paaiškinta toliau.

Norėdami įvertinti savo modelių našumą, naudojome standartinę tikslumo, tikslumo ir prisiminimo metriką, kuri yra standartinis metodas mašininio mokymosi kontekste. Kaip patvirtinimo metodą naudojome vieno subjekto kryžminį patvirtinimą be tiriamųjų persidengimo, o tai reiškia, kad kiekvienas šuo tiriamas kaip atskiras testų rinkinys. Šis metodas rekomenduojamas duomenų rinkiniams, kuriuose vienas asmuo turi daugiau nei vieną susietą pavyzdį36. Žiūrėkite Broomé ir kt.36, kad aptartumėte tinkamo patvirtinimo metodo pasirinkimo svarbą.

short term memory how to improve

DogFACS pagrįstas metodas.

DogFACS kintamųjų rinkiniai. Eksperimentavome su dviem skirtingais DogFACS kintamųjų rinkiniais:

1. Vienuolikos kintamųjų, pateiktų 1 lentelėje, kurie buvo panaudoti Bremhorst ir kt. tyrime22, rinkinys yra perspektyviausi arba potencialiai svarbiausi kintamieji (remiantis bent 10 % paplitimu visose bet kurios iš šių šalių imtyse). teigiama arba neigiama sąlyga) ir jie gali būti patikimai užkoduoti (su bent jau dideliu interkoderio susitarimu, žr. 22).

2. Visas 39 DogFACS kintamųjų rinkinys, užkoduotas Bremhorst ir kt. tyrime22.

Classification results. To explore optimal performance, we used the manual DogFACS annotations from Bremhorst et al.22 to experiment with different machine learning techniques, including Decision Tree, XGBoost, and Random Forest. Table 2 presents a comparison of their performance, with Random Forest performing slightly better for the full set of DogFACS variables (39 variables), reaching accuracy > 71%. In the limited set (11 DogFACS variables), the three models converged to one tree, and thus are presented together, reaching a slightly lower accuracy of > 66%.

Sprendimų medžio sumažinimas. Toliau sistemingai ieškojome minimalaus DogFACS kintamųjų rinkinio, kuris duotų tą patį klasifikavimo našumą, pateiktą 2 lentelėje. 3 lentelėje parodyta, kad naudojant tik vieną DogFACS kintamąjį kaip funkciją, garantuojamas panašus našumas kaip ir 2 lentelėje. Kintamasis „Ears Flatterer“ yra svarbiausias klasifikuojant, naudojant ribotą 11 DogFACS kintamųjų rinkinį, jo buvimas numato neigiamą būklę. 4 paveiksle parodytas supaprastintas sprendimų medis su tik viena savybe, numatančia teigiamą būseną – „Ausų plokštumos“ nebuvimą ir neigiamą sąlygą – jos buvimą (> 66 %).

Pažymėtina, kad atsižvelgiant į visus 39 DogFACS kintamuosius, „Eyes Up“ yra svarbiausias kintamasis klasifikuojant, naudojant visus 39 kintamuosius, jo buvimas numato teigiamas sąlygas dideliu > 71% tikslumu.

Automatizuotas DogFACS kintamųjų aptikimas. Remiantis mūsų išvadomis, visiškai automatizuotam klasifikavimo vamzdynui pakanka išmokyti detektorių „Ears Flatterer“ ir „Eyes Up“ DogFACS kintamiesiems. Mes taip pat ištyrėme kitų kintamųjų aptikimą, naudodami iš anksto paruoštą ResNet50 konvoliucinį neuronų tinklą subalansuotuose duomenų rinkiniuose (skirtingame vaizdų skaičiuje dėl DogFACS kintamo dažnio kintamumo). Gautų detektorių veikimas pateiktas 4 lentelėje.

ways to improve memory

Gilus požiūris.

Taikydami šį metodą naudojome įprastą „mokymosi perkėlimą“ sąranką, mokydami linijinį zondą ant fiksuoto iš anksto paruošto stuburo, naudodami žmogaus anotacijas. Tiriame skirtingų stuburų tinkamumą šiai užduočiai atlikti, pakartodami eksperimentą su keturiais iš anksto paruoštais pagrindais: ResNet ir ViT, apmokytais arba prižiūrimu vaizdų klasifikavimui57, arba savarankiškai prižiūrimu būdu, naudojant DINO58.

Apmokėme keturis skirtingus modelius (visame duomenų rinkinyje) ir išbandėme jų veikimą naudodami kadrus iš to paties subalansuoto duomenų rinkinio, aprašyto aukščiau (82 vaizdo įrašai apie neigiamą būseną, 82 vaizdo įrašai apie teigiamą būklę iš (n = 29) asmenų, Iš viso 164 vaizdo įrašai).

5 lentelėje pateikiami kiekvieno vaizdo įrašo analizuojami klasifikavimo rezultatai, ty sakome, kad vaizdo įrašas klasifikuojamas teisingai, jei dauguma jo kadrų yra teisingai klasifikuoti. Galima pastebėti, kad modelis, apmokytas su DINO-ViT stuburu, rodo geriausią našumą, kurio tikslumas viršija 89%. 6 lentelėje pateikti klasifikavimo rezultatai, analizuoti pagal kadrus. Kaip ir tikėtasi, šiuo atveju priemonės yra šiek tiek sumažintos, palyginti su kadrų sujungimo analize, todėl modelio, apmokyto naudojant DINO-ViT pagrindą, tikslumas yra 85%.

memory enhancement

Diskusija

The present study is the first to explore automated recognition of canine emotional states focusing on diverse facial expressions, whilst using a carefully designed controlled experimental setup for dataset creation and annotation. We present classifiers of two different types: deep learning-based and DogFACS-based, both having a performance that is comparable to and in some cases outperforms those presented in previous studies addressing recognition of pain or emotional state from facial expressions, including mice38,39 (> 89% and 93% respectively), cats43 (> 72%), horses42,46 (> 75% and 65% respectively) and sheep55 (> 64%).

The DogFACS-based approach described here reached an accuracy of > 71% using the full set (n =  39) of DogFACS variables, but a lower accuracy of > 66% when using only the eleven DogFACS variables which were utilized in the study of Bremhorst et al.22 ( this accuracy was achieved based on manual DogFACS annotations and is expected to drop even lower in an end-to-end pipeline). Of the full set of 39 DogFACS variables, 'Eyes Up' were of considerable importance for classification, and including them in the Decision Tree leads to higher accuracy (>71 proc.). Tačiau interpretuojant krypties kintamuosius, tokius kaip akių judesiai ir jų svarba kaip galimi emocijų rodikliai, visada reikia atsižvelgti į eksperimentinę tyrimo, kurio metu buvo renkami duomenys, sąranką. Tyrime Bremhorst ir kt.22 eksperimentuotojas suteikė maisto atlygį judesiu šiek tiek virš šuns akių kontūro. Tai galėjo paskatinti šunis žiūrėti aukštyn (sukeliamas kintamasis „Eyes Up“) laukiant maisto. Todėl turime pripažinti, kad šis DogFACS kintamasis gali būti eksperimentinės procedūros artefaktas. Renkantis kintamuosius kaip emocijų rodiklių kūrimo dalį, svarbu pasverti I tipo klaidos (klaidingai teigiama) ir II tipo klaidos (klaidingai neigiama) riziką, kurios beveik neišvengiama. Dirbdami su sumažintu vienuolikos DogFACS kintamųjų rinkiniu, pirmenybę teikėme tam, kad būtų išvengta klaidingų neigiamų rezultatų, o ne klaidingai teigiami, kad nebūtų per anksti pašalintas kintamasis iš tolesnio tyrimo. Galime tikėtis, kad vėlesniuose tyrimuose klaidingai priimti kintamieji bus neįtraukti, jei bus nustatytas jų nuspėjamumo pagrįstumo trūkumas (kaip aptarta 19).

As a byproduct of these results, we obtained automated detectors for nine DogFACS variables, of which five performed with an accuracy >70%, tai rodo tikslaus automatinio DogFACS kintamųjų atpažinimo galimybę. Pagrindinis iššūkis mokant detektorius kiekvienam kintamajam yra duomenų prieinamumas, ty mažas kai kurių DogFACS kintamųjų atsiradimo dažnis, todėl reikia sutelkti pastangas rinkti konkrečių kintamųjų duomenų rinkinius. Be to, kai kurie kintamieji turi laiko dimensiją ir negali būti tvarkomi viename kadre (pvz., akių mirksėjimas arba alsavimas). Norint sukurti jiems skirtus detektorius, reikia modelių, kuriuose taip pat būtų naudojama laiko dinamika, pavyzdžiui, Broomé ir kt. metodas42.

Be to, reikėtų pažymėti, kad mūsų duomenų rinkinys apima tik vieną veislę, todėl neatidėliotinas ateities tyrimų poreikis yra modelių apibendrinimo kitoms veislėms įvertinimas. Jei perkeliant rezultatus į kitas veisles našumas labai sumažėja, čia naudojami alternatyvūs giluminio metodo metodai, pvz., Feighelstein ir kt.43.

improve your memory

Čia pateiktų modelių apibendrinimo tyrimas yra svarbus ne tik DogFACS kintamųjų aptikimo kontekste, bet ir emocijų klasifikavimui. Čia naudojamas duomenų rinkinys yra kontroliuojamas ne tik veislei, bet ir registruojamas griežtai kontroliuojamomis aplinkos sąlygomis. Apibendrinti nuo kontroliuojamos aplinkos prie natūralistinių nustatymų yra žinomas sunkus iššūkis ir žmogaus emociniame kompiuterijoje60. Feng ir kt.61 apžvelgia žmonių sritį, kaip mokymosi perdavimo būdai gali įveikti iššūkius, susijusius su ribotu duomenų pavyzdžių kiekiu, ribotomis etiketėmis ir aplinkos kintamumu, skatinant tvirtas ir apibendrinamas automatizuotas emocijų atpažinimo sistemas. Panašūs būdai gali būti tiriami šunų emociniame kompiuterijoje; čia pateikti rezultatai yra pagrindas tolesniam šios krypties tyrinėjimui.

Tokie klausimai kaip „Ar mašinos gali atpažinti gyvūnų emocines būsenas?“ yra įdomūs ir turi platų praktinį pritaikymą gyvūnų gerovei. Mūsų tyrimo rezultatai rodo teigiamą atsakymą, bent jau teigiamo nusivylimo ir lūkesčių atveju šunims. Tačiau dirbtinio intelekto modelių, atpažįstančių šunų emocijas, kūrimas turi didelę pridėtinę vertę, nes padeda mums suprasti, kaip mašinos klasifikuoja emocijas, ar jos jautrios niuansams, kurių nemato žmogaus ekspertas, ir kokią įtaką tai turi mūsų supratimui apie gyvūnų emocijas ir vykstančius procesus. diskusijos apie gyvūnų jautrumą. Dėl šios priežasties labai svarbu ir daug žadanti ištirti paaiškinamumą (koks yra mašinos sprendimo loginis pagrindas?) ir aiškinamumą (kaip modelio struktūra susijusi su tokio sprendimo priėmimu?)62. Šios temos yra pagrindinės dirbtinio intelekto temos ir jas nagrinėja daugybė tyrimų63–65, daugiausia dėmesio skiriant giluminio mokymosi metodams, kurių aiškinamumą riboja sudėtinga struktūra66. Paaiškinamumo metodai pagal savo pobūdį yra specifiniai sritis: automatinio asmenybės bruožų atpažinimo paaiškinimai darbo pokalbiuose skiriasi, pvz., nuo klinikinių medicininių sprendimų pagrindimo62.

increase brain power

Mūsų tyrimas yra pirmasis, kuriame nagrinėjami AI modelių paaiškinamumo aspektai, skirti gyvūnų emocijų atpažinimui. Kai palyginome du skirtingus požiūrius į emocijų klasifikavimą, pridėtinės vertės suteikia galimybė palyginti ir paaiškinamumo aspektų skirtumus. „DogFACS“ pagrįstas metodas leidžia sukurti modelius paprastų sprendimų medžių pavidalu, kurie modeliuoja žmogaus loginį samprotavimą Būlio sąlygų, susijusių su tam tikrų DogFACS kintamųjų buvimu / nebuvimu, deriniu. Aiškinamasis Sprendimų medžių pobūdis ypač atsispindi jų supaprastintoje versijoje, kurioje yra tik vienas mazgas, pvz., čia ištirtas (su „Ears Flatterer“). Tokie medžiai yra glaudžiai susiję su žmonių ekspertams naudingomis sąvokomis, ypač emocijų rodikliams, kuriuos tyrinėjo Bremhorst ir kt.19. Galiojantys emocijų indikatoriai yra skirti tiksliai nustatyti konkrečią emocinę būseną, buvimą, kai emocija yra, ir nebuvimą kitu atveju.

Šios charakteristikos apibūdinamos jautrumu ir specifiškumu – metrika, dažniausiai naudojama diagnostinių testų tikslumui įvertinti. Bremhorst ir kt.19 nustatė, kad nė vienas iš DogFACS kintamųjų, nagrinėtų tyrime, negali būti laikomas specifiniu individualiu šunų teigiamo numatymo ar nusivylimo rodikliu. Konkrečiai, buvo įrodyta, kad „Ears Flattener“ yra gana jautrus, bet mažas specifiškumas. Todėl nenuostabu, kad mūsų tyrime aprašytas modelis, kuris yra sprendimų medis, turintis vieną funkciją „Ears Flatten“, nepasiekė didelio našumo. Tačiau ryšys tarp emocijų rodiklių metrikos, kurią naudojo Bremhorst ir kt.19, ir metrikų, naudojamų mūsų modelio veikimui įvertinti, nėra aiškus. Pirmoji apskaičiuoja visų nesubalansuotų duomenų jautrumą, specifiškumą ir teigiamą bei neigiamą nuspėjamąją vertę, o antroji įvertina numatymo užduoties našumą. Tai reiškia, kad duomenys yra suskirstyti į dvi dalis: mokymą, kuris naudojamas modeliui apmokyti, ir jo veikimo įvertinimo testavimą. Priešingai nei Bremhorst ir kt.19, mes taip pat subalansavome duomenis naudodami nepakankamą atranką. Tačiau intuityvus ryšys tarp šių dviejų yra tas, kad jei naudojant ankstesnį metodą buvo rastas puikus emocijų indikatorius, galime tikėtis, kad sprendimų medis, naudojant jį kaip funkciją, taip pat pasieks puikų našumą.

Be paaiškinamumo, čia pateiktas mašininio mokymosi metodas ieškant optimalių sprendimų medžio modelių, skirtų šunų emocijoms numatyti, gali paskatinti naujų emocijų rodiklių įžvalgų. Kaip aptarta aukščiau, tikslių emocijų rodiklių atradimas pagal Bremhorst ir kt.19 yra glaudžiai susijęs su Sprendimų medžio klasifikatorių su vienu DogFACS kintamuoju emocijoms prognozuoti paieška. Nors mūsų tyrime nebuvo įrodyta, kad tokie klasifikatoriai yra labai tikslūs (ir iš tikrųjų nebuvo aptikta jokių tikslių emocijų rodiklių19), klasifikavimo našumą galima pagerinti atsižvelgiant į sudėtingesnes sprendimų medžių formas, pavyzdžiui, sugrupuojant DogFACS kintamuosius į poras. , trigubai ir tt Mūsų preliminarūs eksperimentai, naudojant DogFACS kintamųjų poras kaip mazgus, parodyta 5 pav., rodo, kad tai pagerino modelio našumą atmintyje. Svarbu tai, kad tyrimas, kurie DogFACS kintamųjų deriniai gali pagerinti klasifikavimą, gali būti atliktas automatizuotai, išsamiai ir sistemingai, todėl gali susidaryti tikslesnės emocijų rodiklių sąvokos. Tai suteikia perspektyvų kelią būsimiems tyrimams.

Kita vertus, gilaus mokymosi metodas pasiekė žymiai didesnį našumą, viršijantį 89%, parodydamas tokių emocijų klasifikavimo metodų potencialą. Be to, atrodo, kad DINO-ViT stuburas labiausiai tinka emocijų klasifikavimo užduočiai iš visų keturių tirtų variantų. Manome, kad taip yra dėl to, kad DINO-ViT funkcijos yra jautrios objekto dalims, kaip parodyta 67; ir dėl emocijų klasifikavimo užduoties pobūdžio, kurią reikia suprasti objekto dalies lygmeniu (veido dalys, tokios kaip akys, ausys ir kt.). Įdomu tai, kad su DINO iš anksto paruošti stuburai duoda geresnių rezultatų nei prižiūrimi stuburai.

Reikėtų pažymėti, kad giluminio mokymosi klasifikatorius veikė pagal vaizdus, ​​​​po to apibendrino kiekvieno vaizdo įrašo rezultatus. Tai reiškia, kad nepaisant to, kad daugelyje kadrų nėra DogFACS kintamųjų, modelis vis tiek sėkmingai klasifikuojamas. Tai gali reikšti modelio jautrumą smulkioms detalėms pikselių lygyje, kuris gali viršyti žmogaus akies galimybes. Tačiau tai taip pat gali būti susijusi su galimomis spąstais tam tikro būdingo šališkumo forma. Be to, aukščiau aptartas kintamasis „Eyes Up“ galėjo būti naudingas tinklui, o jo poveikis sprendimų priėmimui nėra lengvai neutralizuojamas gilaus mokymosi tinkle. Norint ištirti šias problemas, reikia toliau rinkti duomenis skirtingomis eksperimentinėmis ir aplinkos sąlygomis, kad būtų išvengta tokių spąstų.

Kita vertus, čia nagrinėjamo gilaus mokymosi metodo paaiškinamumas yra visiškai kitoks, labiau vizualinis, palyginti su DogFACS pagrindu. Skirtingai nuo sprendimų medžio modelių, labai sudėtinga paaiškinti neuroninių tinklų sprendimų priėmimą žmonėms suprantamais terminais dėl jų labai sudėtingo „juodosios dėžės“ pobūdžio68. Naudojant EigenCAM59 metodą, išryškinami skirtumai tarp skirtingų modelių, su kuriais eksperimentavome (ResNet / ViT, prižiūrimas / DINO). Kaip parodyta 6 pav., tarp modelių yra keletas skirtumų. Atrodo, kad Te ViT modeliai pasižymi geresne lokalizacija nei ResNet modeliais, nes labai aktyvios sritys (pažymėtos raudona spalva) yra mažesnės ir yra ant ryškesnių sričių (pvz., akys, ausys, nosis, o ne oda). Be to, atrodo, kad DINO-ViT modelis suaktyvinamas keliose svarbiose srityse, o ne viename (pvz., aktyvuojama ausyse, akyse ir nosyje, o ne tik ausyse viršutiniame dešiniajame pavyzdyje). ViT pagrįstų modelių sėkmę priskiriame ViT gebėjimui teikti labiau lokalizuotą signalą nei ResNet modeliai. Tai kyla iš jų architektūros – ViT funkcijų skiriamoji geba išlieka pastovi visuose sluoksniuose, o CNN funkcijų skiriamoji geba mažėja, kai sluoksniai tampa gilesni.

Nors norint padaryti galutines išvadas, reikia atlikti tolesnius tyrimus, mes eksperimentavome su EigenCAM metodu, sutelkdami dėmesį į kadrus, atitinkančius šias sąlygas: (i) rankiniu būdu užkoduotus kintamuoju „Ears Flatterer“ ir (ii) priklausančius vaizdo įrašų pavyzdžių klasei. neigiama sąlyga ir (iii) teisingai klasifikuojama DINO-ViT tinklo kaip neigiama būklė. Analizuodami pavyzdžius suskirstėme į tris kategorijas, kaip parodyta 7 pav. A kategorijos pavyzdžiai yra šilumos žemėlapiai, kuriuose aiškus dėmesys skiriamas tik ausims. Tai galima laikyti atitinkančiu su DogFACS susijusį „ausų išlyginimo“ paaiškinimą, ty gali būti, kad modelis išmoko su ausų judėjimu susijusių modelių. B kategorija taip pat atitinka tai, o šilumos žemėlapiai rodomi abiejose ausyse ir kitose srityse, tokiose kaip akys, kakta, nosis ir burna. Pastarasis taip pat gali būti netiesiogiai susijęs su „Ears Flatterer“ judesiu, taip pat su kitais DogFACS kintamaisiais ar kita laikysenos ypatybe, kuri gali būti kadre. Tačiau labiausiai intriguojanti kategorija yra C kategorija: čia modelis paima signalus iš kitų veido dalių, o ne ausyse, ir vis tiek daro teisingą klasifikaciją. Šie atvejai gali padėti suprasti tinklo jautrumą žmogaus akiai nematomiems niuansams. Bet kokiu atveju reikia pažymėti, kad DogFACS anotacijos negali visapusiškai apimti visų galimų veido elgesio pokyčių, kurie gali atsispindėti pikselių modeliuose, kuriems tinklas yra jautrus. Tada mes taip pat ištraukėme šilumos žemėlapius iš vaizdo įrašų, kuriuose nebuvo komentuotų DogFACS kintamųjų. Buvo devyni vaizdo įrašai be kintamųjų, aštuoni iš jų „teigiami“, o vienas – „neigiamas“. Stebėtina, kad daugumą šių vaizdo įrašų (77 proc.) modelis vis tiek klasifikavo teisingai. Tai gali būti dar vienas požymis, kad modelis pastebi subtilų veido elgesį, kurio neužfiksavo DogFACS. Nagrinėdami šių vaizdo įrašų kadrams sukurtus šilumos žemėlapius pastebėjome, kad pagrindinis modelio dėmesys buvo skiriamas nosies ir burnos sričiai. Kai kuriuose kituose rėmeliuose rodomas dėmesys kitoms veido dalims, o kai kurie kadrai yra teisingai klasifikuojami, bet neryškūs ir neaiškūs šilumos žemėlapiai. Šių trijų kategorijų pavyzdžiai pateikti 8 pav. Įdomu tai, kad šiuose šilumos žemėlapiuose nėra dėmesio konkrečioms veido dalims, o tai rodo, kad tokiais atvejais vizualiniai modelio ženklai buvo mažiau akivaizdūs.

increase memory power

improve short term memory

Kita svarbi problema, susijusi su abiem našumo metodais, yra trumpas vaizdo įrašų ilgis (3 s) dabartiniame duomenų rinkinyje. Naudojant ilgesnius vaizdo įrašus, kyla iššūkis nustatyti optimalų laiko langą, per kurį vidinė būsena gali būti laikoma pastovia. Ši problema buvo svarstoma 69 mažo laipsnio ortopedinio arklių skausmo kontekste ir yra svarbi būsimų šunų emocinių būsenų tyrimų kryptis.

Apibendrinant, šis tyrimas parodė dviejų skirtingų automatizuotų klasifikavimo metodų vertę dviem šunų emocinėms būsenoms, pagrįstoms jų veido išraiškomis: teigiama ir neigiama būklė. Abu jie pasiekė gerą tikslumą, palyginamą su kitais naujausiais automatinio poveikio gyvūnams atpažinimo metodais. Šie rezultatai ne tik pirmą kartą suteikia teigiamą atsakymą į klausimą „Ar mašinos gali atpažinti teigiamas / neigiamas šunų emocijas?“, bet ir atveria naujus tyrimų kelius tiriant, kaip mašinos jas atpažįsta ir kaip padaryti, kad šis atpažinimas būtų paaiškinamas žmonėms. . Tolesni eksperimentai su didesniais duomenų rinkiniais su platesnėmis dalyvių charakteristikomis taip pat paskatins mūsų supratimą apie tai, kaip sukurti gerus gyvūnų emocijų rodiklius. Viena konkreti kryptis, kuri atrodo ypač daug žadanti, yra su veido orientyrų aptikimu susijusių metodų, tokių kaip OpenFace70 ir Google MediaPipe71, potencialo tyrinėjimas. Panašūs metodai dar tik pradedami tyrinėti nežmoniniams gyvūnams, žr., pvz., Feighelstein ir kt.43 tyrimą apie kačių veidus. Kaip ir žmogaus srityje, jų kūrimui reikės didelių daugiadisciplininių pastangų, kad būtų galima rinkti didelį įvairių rūšių duomenų rinkinį.

Metodai

Duomenų rinkinys.

Duomenų rinkinys, susijęs su šiam tyrimui naudotais šunimis, anksčiau buvo renkamas pagal toliau nurodytus Linkolno universiteto (UID: CoSREC252) etinius patvirtinimus, kaip nurodyta Bremhorst ir kt.22 su šio tyrimo pakeitimu, gautu iš Linkolno universiteto. naudojant pradinį duomenų rinkinį šiame tyrime. Dabartinį protokolą, kuriame naudojami šie duomenys, peržiūrėjo Haifos universiteto etikos komitetas ir papildomo patvirtinimo nereikėjo.

Apkarpymas ir išankstinis apdorojimas.

Šis žingsnis yra svarbus tiek DogFACS, tiek giluminiams požiūriams. Originaliuose vaizdo kadruose yra fono netvarka, įskaitant aplinkinį kambarį, žmones, šunų kūnus ir kt. Siekiame sutelkti dėmesį į šunų veido išraiškas ir vengti mokytis kitų emocinės būsenos prognozių (pvz., šunų kūno pozų). Taigi mes išmokėme Mask-RCNN72 atpažinti šunų veidus ir panaudojome jį, kad apkarpytume kiekvieno vaizdo veidą ribojantį langelį. Mes apmokėme Mask-RCNN apie 200 anotuotų vaizdų iš šio duomenų rinkinio, todėl jis labiausiai tinka šiai konkrečiai eksperimentinei sąrankai. Veido pasėlių, gautų naudojant išankstinio apdorojimo etapą, pavyzdžius galima pamatyti 2 pav.

„DogFacs“ pagrįstas metodas.

Nuo vaizdo įrašų iki DogFACS kintamųjų. Visas dujotiekis aprašytas šioje diagramoje, žr. 9 pav. Jį sudaro šie žingsniai:

• Apkarpykite šuns veidus iš rėmų aukščiau aprašytu būdu.

• DogFACS kintamųjų duomenų rinkinių kūrimas Naudodami rankinį DogFACS kodavimą Bremhorst ir kt.22, kiekvienam DogFACS kintamajam sukūrėme du aplankus su teigiamais ir neigiamais pavyzdžiais (šuns veidas išreiškia arba neišreiškia šį DogFACS kintamąjį). Teigiamiems pavyzdžiams (esamas kintamasis) pasirinkome visų kadrų, rankiniu būdu užkoduotų šiuo kintamuoju, vaizdus. Neigiamiems pavyzdžiams atrinkome vaizdo įrašų kadrus, kurių kode kintamasis nebuvo pažymėtas iki pirmojo to kintamojo pasirodymo (arba iki vaizdo įrašo pabaigos, jei jo nėra). Tada duomenų rinkiniai buvo subalansuoti, paliekant vienodą vaizdų skaičių teigiamiems ir neigiamiems kiekvieno kintamojo pavyzdžiams. 4 lentelėje parodytas visų DogFACS kintamųjų, kuriems buvo gauti detektoriai, duomenų rinkinių dydis.

Nuo DogFACS kintamųjų iki emocinių būsenų klasifikavimo. Naudojome perkėlimo mokymąsi, pagrįstą iš anksto paruošta ResNet5{4}} tinklo architektūra, inicijuota naudojant „Imagenet“ svorius. Viršutinį jo sluoksnį pakeitėme vidutiniu baseino sluoksniu, 20 procentų iškritimo sluoksniu ir dviejų klasių klasifikatoriaus sluoksniu. Modelis buvo mokomas 20 epochas, naudojant Adam optimizavimo priemonę, kurios mokymosi greitis buvo 0,0001. Modelis, pasiekęs maksimalų patvirtinimo duomenų rinkinio tikslumą, buvo pasirinktas kaip geriausias modelis. Per pirmąsias 10 epochų visų sluoksnių svoriai buvo tiksliai sureguliuoti. Per pirmąsias 10 epochų visų sluoksnių svoris buvo tiksliai sureguliuotas. Per likusias epochas ResNet50 svoriai buvo užšaldyti ir atnaujinami tik naujų viršutinių sluoksnių svoriai. Su orientacija nesusijusiems kintamiesiems („Ausų plokštumas“, „Lūpų dalis“, „Ausų pritraukiklis“, „Ausys į priekį“ ir „Nosies laižymas“) pritaikėme padidinimo techniką, pagrįstą atsitiktiniu vaizdo horizontaliu pasukimu ir pasukimu iki 20 laipsnių. Kaip koduotuvo įvestį naudojome įvesties lentelę, kurioje kiekviena eilutė rodo kiekvieno iš 11 DogFACS kintamųjų kiekviename vaizdo įraše buvimą (1) / nebuvimą (0). Koduotuvo tikslas yra lentelė, kurioje yra kiekvieno vaizdo įrašo sąlyga (neigiama (0) / teigiama (1)).

supplements to boost memory

Gilus požiūris.

Iki šiol konvoliuciniai neuroniniai tinklai (CNN) buvo laikomi naujausiais kompiuterinio matymo uždaviniais. Neseniai „Vision Transformer“ (ViT)57 architektūra atsirado kaip alternatyva73. DINO metodas mokymui buvo pristatytas tik 2021 m. kaip savaiminio distiliavimo mokymosi rėmas. Šioje konfigūracijoje apmokius keletą DNN magistralių (ResNet50, Visit-small, vit-base ir tt) buvo parodyta, kad ViT stuburas, apmokytas naudojant DINO metodą, pranoksta ankstesnius klasifikavimo rezultatus „ImageNet“ standartiniame duomenų rinkinyje74.

Naudojome ResNet5{11}} architektūrą prižiūrimiems ir DINO apmokytiems stuburams; ViT-S/16 buvo apmokytas prižiūrint, o ViT-S/8 – su DINO. Mes naudojame iš anksto paruoštus ViT svarmenis iš Timm bibliotekos75. Visus keturis modelius mokome 30 epochoms, naudodami Adam optimizer76 su beta versijomis=(0, 0,999) ir mokymosi rodikliais: 10–4 „ResNet“ pagrindams ir 5 · 10–6 „ViT“ pagrindams. Treniruojamų modelių nuostolių kreivės pateiktos 10 pav.

Žemėlapio vizualizacija.

Mes pasirenkame Eigen-CAM metodą59, kad vizualizuotume pagrindinius kiekvieno modelio galutinio aktyvinimo komponentus. Buvo įrodyta, kad Eigen-CAM suteikia lengviau interpretuojamus rezultatus su mažesniu skaičiavimu, palyginti su kitais CAM metodais, tokiais kaip populiarus Grad-CAM77. Be to, skirtingai nuo kitų vizualizacijos metodų, tokių kaip Grad-CAM59 ir Grad-CAM++78, Eigen-CAM yra nuo klasės nepriklausomas įrankis. Ši savybė leidžia Eigen-CAM vizualizuoti išmoktus modelius net tada, kai modelio numatymas yra neteisingas, priešingai nei senesni CAM metodai, kurie sukuria netinkamus žemėlapius, kai jų numatymas yra neteisingas. Ši EigenCAM savybė leidžia interpretuoti numatymo nesėkmės priežastis. Palyginti su kitais moderniausiais vizualizacijos metodais, jis yra nuoseklesnis ir labiau skiriasi nuo klasės. Be to, EigenCAM nėra būdingas modeliui – jis gali būti naudojamas tiek ViT, tiek CNN nekeičiant sluoksnių.

Duomenų prieinamumas

Šiame darbe naudojamą duomenų rinkinį galima gauti atitinkamo autoriaus prašymu.


Nuorodos

Darwin, C. Te Emocijų raiška gyvūnuose ir žmoguje Vol. 11, 1872 (Murray, 1872).

2. Ekman, P. & Friesen, WV Veido judesių matavimas. Aplinka. Psichologas. Nežodinis elgesys. 1, 56–75 (1976).

3. Ekman, P. & Keltner, D. Universalios emocijų veido išraiškos. Nežodinėje komunikacijoje: kur gamta susitinka kultūrą (eds Segerstrale UP & Molnar, P.) vol. 27, 46 (1997).

4. Russell, JA, Bachorowski, J.-A. ir Fernández-Dols, J.-M. Emocijų veido ir balso išraiškos. Ann. Psychol. 54, 329–349 (2003).

5. Diogo, R., Abdala, V., Lonergan, N. & Wood, B. Nuo fsh iki šiuolaikinių žmonių – galvos ir kaklo raumenų lyginamoji anatomija, homologijos ir evoliucija. J. Anatas. 213, 391–424 (2008).

6. Descovich, KA ir kt. Veido išraiška: nepakankamai naudojamas įrankis žinduolių gerovei įvertinti (Altex, 2017).

7. Mota-Rojas, D. ir kt. Dabartinė pažanga vertinant šunų emocijas, veido išraiškas ir jų naudojimą klinikiniam skausmo atpažinimui. Gyvūnai 11, 3334 (2021).

8. Ekman, P. & Friesen, WV Veido veiksmų kodavimo sistema: vadovas (Consulting Psychologists Press, 1978).

9. Ekman, P. & Friesen, W. Veido veiksmų kodavimo sistema: veido judesių matavimo technika (1978).


For more information:1950477648nn@gmail.com




Tau taip pat gali patikti