Meneroka Transformers Penglihatan Diselia Sendiri Untuk Pengecaman Gait dalam Bahagian Liar 2
Nov 24, 2023
2.2. Pengubah Penglihatan
Walaupun pada mulanya dicadangkan untuk tugas NLP [16,34] dengan kejayaan yang besar, transformer telah digunakan secara meluas dalam penglihatan komputer dalam beberapa tahun kebelakangan ini [24,25,28,35-37]. Kedua-dua domain telah menikmati prestasi yang tidak pernah berlaku sebelum ini dengan menggunakan pelbagai variasi transformer, sebahagiannya disebabkan oleh peningkatan kapasiti model dan keupayaan transformer untuk mendapat manfaat daripada penyeliaan diri lebih daripada model sebelumnya [17].
Pemantauan kendiri dan ingatan berkait rapat. Pemantauan kendiri merujuk kepada penilaian dan penyesuaian tingkah laku, pemikiran, dan emosi seseorang, manakala ingatan merujuk kepada keupayaan untuk memperoleh, memproses, dan menyimpan maklumat. Pemantauan diri boleh membantu kita mendapatkan kawalan yang lebih baik ke atas tingkah laku dan emosi kita, dengan itu meningkatkan daya ingatan.
Pertama, pemantauan diri boleh membantu kita menahan godaan dengan lebih baik. Godaan cenderung mengalihkan perhatian dan tenaga kita dan menjejaskan ingatan kita. Melalui pemantauan diri, kita boleh mengawal diri dengan lebih baik dan mengelakkan gangguan yang berlebihan, seterusnya meningkatkan daya ingatan.
Kedua, pemantauan diri juga boleh membantu kita lebih memahami dan mengingati maklumat. Pemantauan kendiri membolehkan kami memberi lebih perhatian kepada perkara utama maklumat dan memberi perhatian kepada perkaitan antara maklumat, untuk lebih memahami dan mengingati maklumat. Apabila kita memberi perhatian, kita lebih bersedia untuk memahami dan menyimpan maklumat.
Akhir sekali, pemantauan diri juga boleh membantu kita memerhati dan meringkaskan tingkah laku dan pemikiran kita dengan lebih baik. Dengan memikirkan tindakan dan proses pemikiran kita sendiri, kita boleh mengenal pasti kekurangan dan memperbaikinya. Peningkatan ini bukan sahaja meningkatkan tingkah laku dan pemikiran kita tetapi juga meningkatkan keupayaan ingatan kita.
Ringkasnya, pemantauan diri dan ingatan berkait rapat. Melalui pemantauan kendiri, kita boleh mengawal diri kita dengan lebih baik, lebih memahami dan mengingati maklumat, serta memperbaiki tingkah laku dan proses pemikiran kita dengan lebih baik. Pada masa yang sama, ini juga akan membantu kita meningkatkan ingatan, membolehkan kita belajar dan bekerja dengan lebih cekap. Marilah kita menjelaskan matlamat kita, menyesuaikan diri secara aktif, dan sentiasa mengejar kemajuan! Ia boleh dilihat bahawa kita perlu meningkatkan ingatan, dan Cistanche deserticola boleh meningkatkan ingatan dengan ketara, kerana Cistanche deserticola juga boleh mengawal keseimbangan neurotransmitter, seperti meningkatkan tahap asetilkolin dan faktor pertumbuhan. Bahan-bahan ini sangat penting untuk ingatan dan pembelajaran. Selain itu, Daging juga boleh meningkatkan aliran darah dan menggalakkan penghantaran oksigen, yang dapat memastikan otak menerima nutrien dan tenaga yang mencukupi, seterusnya meningkatkan kecergasan dan daya tahan otak.

Klik tahu suplemen untuk meningkatkan ingatan
Dosovitskiy et al. [24] adalah yang pertama mencadangkan penggunaan pengekod pengubah untuk klasifikasi imej, memperkenalkan Pengubah Penglihatan (ViT). Seni bina membahagikan imej input kepada tompok bersaiz tetap 16x16, meratakan dan menayangnya dengan lapisan linear kepada dimensi benam. Token kelas tambahan (CLS) dimasukkan ke dalam jujukan dan pengekodan kedudukan ditambah pada setiap vektor.
Urutan embeddingsis yang terhasil diberikan sebagai input kepada pengekod pengubah, yang mempunyai struktur yang sama seperti dalam [34] tetapi menggunakan operator LayerNorm sebelum setiap blok dan bukannya selepas (pra-norma). MLPhead digunakan untuk mendapatkan label kelas daripada maklumat agregat global dalam token kelas.
Mekanisme perhatian diri yang diperkenalkan oleh Vaswani et al. [34] mengambil urutan item sebagai input dan menganggarkan interaksi antara kesemuanya dengan mengagregatkan maklumat global untuk setiap elemen dalam jujukan. Untuk mengira interaksi yang berbeza antara unsur-unsur jujukan, modul multi-head self-attention(MSA) menggabungkan hasil berbilang blok perhatian kendiri dan menayangkan output pada matriks berat yang boleh dipelajari. Pengekod pengubah yang diperkenalkan dalam [34] terdiri daripada berbilang lapisan bertindan yang terdiri daripada blok MSA, blok suapan hadapan (FFN), sambungan baki antara setiap blok dan LayerNorm (LN) selepas setiap blok.
Touvron et al. [25] mencadangkan dua perubahan seni bina untuk meningkatkan prestasi transformer penglihatan dalam. Sumbangan pertama mereka, LayerScale, memudahkan latihan model yang lebih mendalam dengan menambahkan matriks pepenjuru yang boleh dipelajari yang didarab dengan keluaran blok baki. Oleh kerana matriks dimulakan dengan nilai yang kecil, ia memaksa hasil lapisan pengekod pengubah untuk mempunyai sumbangan kecil kepada output blok baki pada permulaan latihan.
Sumbangan kedua mereka ialah mekanisme perhatian kelas. Daripada menambahkan token CLS pada mulanya, seperti dalam ViT standard, ia dilampirkan selepas beberapa blok pengekod. Selepas peringkat ini, hanya token kelas dikemas kini dan token tampalan disimpan beku. Mekanisme ini membantu menyahgandingkan operasi perhatian kendiri antara patch daripada mengagregatkan maklumat yang akan digunakan untuk pengelasan.
Yuan et al. [28] berpendapat bahawa tokenisasi mudah tompok dalam ViT vanila mempunyai had untuk tidak dapat memodelkan struktur tempatan imej dan interaksi antara tompok jiran. Akibatnya, mereka memperkenalkan proses tokenisasi progresif yang menggabungkan token jiran menjadi satu.
Proses ini terdiri daripada modul Bentuk Semula, yang mengambil jujukan token dari lapisan sebelumnya dan membina imej daripadanya berdasarkan kedekatan ruang. Modul Soft Split membahagikan imej yang dibina kepada tompok token yang bertindih dan menyalurkannya ke pengekod seterusnya. Token yang dijana selepas proses tokenisasi dimasukkan ke dalam tulang belakang narrowViT yang mendalam untuk pengelasan.

Seperti yang dinyatakan oleh Wang et al. [35] Pengubah Penglihatan standard direka khusus untuk pengelasan imej dan tidak sesuai untuk tugas lain seperti pengesanan objek atau pembahagian. Oleh sebab itu, mereka mencadangkan Pyramid Vision Transformer (PVT) yang mengambil inspirasi daripada seni bina CNN dengan menghasilkan peta ciri perantara dengan dimensi spatial yang semakin berkurangan dan semakin banyak saluran.
Struktur piramid ini membantu model dalam mempelajari ciri berskala yang boleh digunakan untuk pelbagai tugas. Model mula-mula memproses token yang diperoleh daripada tampalan dimensi 4 × 4, dan pada setiap peringkat, token sepadan dengan tampalan dimensi spatial yang lebih besar.
Kos pengiraan perhatian kendiri klasik ialah O(N2· d) dengan N ialah bilangan token dalam jujukan dan d ialah dimensi vektor. Kos pengiraan kuadratik dari segi bilangan token menjadi masalah praktikal dengan peningkatan resolusi imej input kerana setiap token dalam urutan sepadan dengan tampalan dalam imej.
Dalam kesusasteraan, terdapat beberapa teknik untuk mengurangkan kos pengiraan perhatian kendiri vanila [26,35,36]. PVT [35] menggunakan perhatian pengurangan spatial, yang mengurangkan saiz spatial vektor Kunci dan Nilai sebelum perhatian kendiri dengan operasi membentuk semula dan unjuran linear.
Pengubah Swin [36] yang juga mempunyai struktur piramid menggantikan blok perhatian diri dengan modul yang menghampirinya. Modul mengelompokkan tampalan jiran dalam tetingkap tempatan dan melakukan operasi perhatian kendiri hanya di dalam tetingkap ini.
Untuk menyampaikan maklumat dengan tetingkap lain, ia mengalihkan tetingkap setempat supaya ia turut mengandungi tampalan daripada tetingkap jiran dan mengira perhatian diri semula. Chu et al. [27] mengguna pakai seni bina PVT dan mencadangkan kaedah yang sama untuk menganggarkan perhatian diri. Mereka juga melakukan perhatian setempat di antara tompok di tingkap, serupa dengan pengubah Swin.
Untuk menyampaikan maklumat dengan tetingkap lain, mereka menjalankan perhatian sendiri antara wakil setiap tetingkap dan semua tetingkap lain. CrossFormer [26] juga dibina di atas PVT. Ia menggunakan perhatian jarak dekat, yang serupa dengan perhatian tempatan dalam pengubah Swin, tetapi untuk membocorkan maklumat ke tingkap lain ia menggunakan perhatian jarak jauh, yang mengira interaksi antara patch, yang mempunyai jarak tetap antara mereka. Ia juga menggabungkan tampalan berbilang skala berpusat di sekitar piksel yang sama untuk mendapatkan token bagi blok pengubah, yang membantu model dalam mempelajari interaksi skala silang.
Yang et al. [37] mencadangkan mekanisme perhatian fokus untuk mempelajari interaksi jarak pendek dan jarak jauh antara token yang menjadikan pengubah penglihatan dapat memproses imej resolusi tinggi. Untuk setiap tampalan imej, modul perhatian kendiri fokus mengira interaksi dengan tampalan tertutup ruang dan dengan tetingkap ringkasan tampalan yang lebih jauh. Ringkasan tingkap tampalan dilakukan melalui pengumpulan dan maklumat tanpa tangkapan apabila tampalan berada jauh.
RegionViT [38] menggunakan PVTarchitecture dan menambah dua laluan tokenisasi untuk setiap peta ciri. Laluan tokenisasi pertama memperoleh token serantau yang terdiri daripada tampalan yang meliputi sejumlah besar piksel. Laluan tokenisasi kedua memperoleh token tempatan yang menangkap maklumat peringkat rendah dengan mengandungi beberapa piksel. Kedua-dua jenis token ini dimasukkan sebagai input kepada pengekod pengubah serantau-ke-tempatan di mana perhatian kendiri pertama antara wilayah dikira, kemudian antara setiap token serantau dan token tempatan yang sepadan.
Seni bina LeViT [39] menggabungkan kedua-dua CNN dan mekanisme perhatian kendiri. Imej pertama dimasukkan ke dalam pengekod CNN, yang mengurangkan dimensi spatial dan meningkatkan dimensi saluran. Peta ciri yang terhasil dimasukkan ke dalam hierarkiViT yang mengandungi modul perhatian yang mengecut antara pengekodnya untuk mengurangkan lagi dimensi spatial dan meningkatkan dimensi saluran peta ciri.
Seni bina berdasarkan perhatian juga telah digunakan dalam tugas berasaskan video di mana maklumat temporal perlu diambil kira. Seni bina, seperti ViViT [40]dan TimeSformer [41], menggunakan mekanisme perhatian diri ke atas kedua-dua dimensi spatial dan temporal. Oleh sebab itu, model belajar untuk menangkap maklumat spatial daripada setiap bingkai dan perubahan dari semasa ke semasa.
3. Kaedah
Dalam bahagian ini, kami menyediakan penerangan terperinci bagi setiap seni bina dan hiperparameter yang dipilih. Selanjutnya, kami menerangkan pemprosesan data dan keputusan reka bentuk yang dicadangkan untuk menyesuaikan pengubah penglihatan agar berfungsi dengan jujukan rangka. Akhir sekali, kami menerangkan kaedah permulaan, protokol penilaian dan set data penilaian.
3.1. Penerangan Seni Bina
Kami meneroka lima varian berbeza Pengubah Penglihatan (Rajah 1), yang dibangunkan untuk pengiraan imej yang lebih optimum, dari segi prestasi hiliran dan masa inferens. Khususnya, kami meneroka ViT klasik [24], CaiT [25], Token2Token ViT [28] dan Twins-SVT [27].
Secara umum, perisa pengubah penglihatan berurusan dengan penambahbaikan ke atas cara "klasik" memproses imej dengan pengubah, seperti yang dicadangkan dalam ViT: imej dibahagikan kepada tompok bersaiz sama dan tidak bertindih yang diratakan dan ditayangkan ke ruang dimensi yang lebih rendah untuk kemudian dianggap sebagai "token", dengan cara yang serupa dengan aplikasi NLP. Dalam kes analisis gaya berjalan, tampalan segi empat sama sepadan dengan sekumpulan sendi yang berbeza-beza merentasi tingkap temporal yang kecil.

Pengekod pengubah piawai mengambil sebagai input jujukan item (X ∈ Rn×d di mana—bilangan item, d—dimensi benam) dan menayangkannya pada tiga matriks berat boleh dipelajari berbeza mendapatkan Pertanyaan (Q ∈ Rn×dq), Kekunci (K ∈ Rn×dk, dk=dq),dan nilai (V ∈ Rn×dv ), dengan dq, dk dan dv ialah dimensi untuk pertanyaan, kunci dan nilai, masing-masing. Perhatian dikira sebagai:

Untuk kebanyakan seni bina, kami menetapkan bilangan lapisan, kepala perhatian dan dimensi ciri apabila boleh. Oleh itu, kami memilih 4 lapisan dengan 4 headseach perhatian, dimensi 512 untuk rangkaian suapan hadapan dan saiz pembenaman akhir 128.

ViT The Vision Transformer [24] memperoleh jujukan input token dengan membahagikan imej kepada tampalan dan menayangkannya secara linear kepada dimensi benam. Urutan yang terhasil bersama-sama token kelas tambahan (CLS) diberikan sebagai input kepada pengekod pengubah. Selain itu, pengekod ViT menggunakan pra-norma, berbanding pasca-normalisasi. Keluaran lapisan boleh dikira sebagai:

di mana λl, i dan λ0l, ialah parameter yang boleh dipelajari. Model ini juga mengasingkan pengiraan interaksi antara token input daripada pengiraan pembenaman kelas yang mengagregatkan semua maklumat global. Ini dilakukan dengan perhatian kelas yang memperkenalkan token CLS kepada urutan input selepas interaksi diperoleh dan membekukan semua token lain. Untuk pengekod CaiT, kami menggunakan konfigurasi yang sama seperti dalam ViT, tetapi untuk pengekod CLS, kami menggunakan kedalaman 2 lapisan.
Token2Token ViT Seni bina Token2Token [28] mengandungi proses tokenisasi progresif yang memodelkan struktur tempatan imej dengan menggabungkan token jiran. Proses tokenisasi mula-mula membina struktur seperti imej daripada jujukan input token dengan bantuan modul Reshape. Kemudian imej dibahagikan kepada patch bertindih token melalui modul Soft Split (SS). Output yang terhasil daripada modul tokenization dikira sebagai:

Untuk Token2Token, kami menggunakan 2 lapisan dengan saiz tampung {2, 8} dan {2, 4} untuk lapisan pertama dan {4, 16} untuk lapisan kedua.
Twins-SVT Seni bina Twins-SVT [27] menggantikan blok perhatian kendiri klasik dengan modul yang dipanggil spatially separable self-attention (SA) yang menghampiri operasi.SSSA terdiri daripada locally-grouped self-attention (LSA) yang mengira interaksi hanya antara token di dalam tetingkap tempatan yang sama dan perhatian subsampel global (GSA) yang mengagregatkan maklumat global dengan melakukan perhatian sendiri antara semua wakil setiap tetingkap tempatan yang dikira dengan menggabungkan token yang bersebelahan. Operasi lapisan aTwins boleh ditulis sebagai:

Untuk pengekod CrossFormer, kami menggunakan dimensi {16, 32, 64, 128} untuk lapisan, saiz tetingkap global {4, 2, 2, 1}, saiz tetingkap tempatan 2, langkah penyemaian silang 2, dan silang -membenamkan saiz kernel {{2, 4, 8, 16}, {2, 4}, {2, 4}, {2, 4}}.
3.2. Prapemprosesan Data
Untuk kedua-dua set data DenseGait dan GREW, kami menggunakan prosedur prapemprosesan yang sama. Bagi setiap jujukan rangka yang diekstrak dan dijejaki mengandungi 18 sendi dengan koordinat x dan y serta skor keyakinan tambahan, kami mula-mula menormalkan jujukan dengan berpusat pada koordinat pelvis (pelvis, pelvis) dan dengan menskala secara mendatar dan menegak, mengikut perkadaran badan penunjuk (iaitu, jarak antara bahu: |xR.bahu − xL.bahu| dan jarak dari leher ke pelvis: |yneck − ypelvis|). Untuk setiap koordinat (sendi, sendi) setiap daripada 18 sendi dalam format pose COCO, kami menggunakan prosedur normalisasi berikut:

Melalui proses normalisasi, perbezaan antara resolusi kamera dan jarak subjek dari kamera dihapuskan. Selain itu, kami menghapuskan maklumat penampilan mengenai ketinggian dan lebar subjek, yang tidak berkaitan dengan maklumat pergerakan. Langkah ini adalah serupa dengan langkah penjajaran dalam model pengecaman muka moden [42]. Selain itu, kami juga menggunakan lapisan normalisasi kelompok [43] pada permulaan setiap model untuk menormalkan lagi imej yang terhasil.
Memandangkan dimensi temporal T (iaitu, bilangan bingkai) dan dimensi ruang rangka J (iaitu, bilangan sendi), jujukan rangka naif dikodkan sebagai imej bentuk (T, J, 3), di mana, dalam kes kami, T {{ 1}} dan J=18.

Kebanyakan pengubah penglihatan, bagaimanapun, menganggap bahawa imej adalah segi empat sama. Oleh itu, kami mencadangkan berbilang varian untuk mengubah saiz dimensi ruang supaya imej ditukar kepada (T, T, 3), yang bersamaan dengan meningkatkan bilangan sendi secara buatan (lihat Rajah 2).

For more information:1950477648nn@gmail.com






