AttentionMNIST: Set Data Penjejakan Perhatian Klik Tetikus Untuk Pengecaman Angka Dan Abjad Tulisan Tangan

Feb 22, 2024

Model berasaskan perhatian berbilang yang mengecam objek melalui urutan pandangan sekilas telah melaporkan hasil pada pengecaman angka tulisan tangan. Walau bagaimanapun, tiada data penjejakan perhatian untuk pengecaman angka atau abjad tulisan tangan tersedia. Ketersediaan data sedemikian akan membolehkan model berasaskan perhatian dinilai berbanding dengan prestasi manusia. Kami mengumpul data penjejakan perhatian klik tetikus daripada 382 peserta yang cuba mengecam angka dan abjad tulisan tangan (huruf besar dan kecil) daripada imej melalui persampelan berjujukan. Imej daripada set data penanda aras dibentangkan sebagai rangsangan. Set data yang dikumpul, dipanggil AttentionMNIST, terdiri daripada urutan lokasi sampel (klik tetikus), prlabel kelas yang ditetapkan pada setiap persampelan, dan tempoh setiap persampelan. Secara purata, peserta kami memerhati hanya 12.8% daripada imej untuk pengecaman. Kami mencadangkan model garis dasar untuk meramalkan lokasi dan kelas yang akan dipilih oleh peserta pada persampelan seterusnya. Apabila terdedah kepada rangsangan dan keadaan eksperimen yang sama seperti peserta kami, model tetulang berasaskan perhatian yang diberi perhatian tinggi tidak mencapai kecekapan manusia.

Chinese herb cistanche

cistanche cinaherba- Mencegah produk Penyakit Alzheimer

Model pembelajaran mesin (ML) yang mengecam objek melalui urutan pandangan sekilas telah mendapat minat sejak beberapa tahun kebelakangan ini kerana kebolehskalaan dan kecekapannya. Kebanyakan model ini, seperti 1–7, telah melaporkan hasil percubaan pada set data MNIST penanda aras untuk pengecaman angka tulisan tangan. Malangnya, tiada data penjejakan perhatian untuk MNIST tersedia. Ini menghalang penilaian model berasaskan perhatian berbanding dengan prestasi manusia. Kami jatuh ke dalam jurang itu dengan mengumpul set data daripada peserta dewasa yang cuba mengecam angka dan abjad tulisan tangan daripada imej melalui pensampelan berjujukan. Tidak seperti penjejakan perhatian pergerakan mata (emAT), peserta mengklik lokasi dalam imej yang dia mahu lihat (suatu bentuk penjejakan perhatian klik tetikus (mcAT)). Sejurus selepas itu, dia memilih kelas yang dia ramalkan objek itu mungkin tergolong berdasarkan pemerhatiannya setakat ini. Oleh itu, pada setiap episod pensampelan, data kami terdiri daripada lokasi imej yang dipilih, label kelas yang diramalkan dan masa yang diambil sejak episod terakhir oleh peserta. Selepas setiap imej, peserta menerima ganjaran berdasarkan prestasinya (ketepatan dan kecekapan).

Anti Alzheimer's disease

Kebaikan cistanche tubulosa-Anti Alzheimer's disease

Kelebihan mcAT berbanding emAT untuk pengecaman angka/abjad tulisan tangan.

(1) daging mengandungi kebolehubahan intra dan antara peribadi yang ketara dalam lokasi penetapan, terutamanya untuk rangsangan statik (imej)8,9. Jadi sejumlah besar data penetapan mata diperlukan untuk mencapai kesimpulan yang signifikan secara statistik. mcAT tidak terdedah kepada beberapa sumber hingar teknikal yang biasa kepada data penjejakan mata10. (2) Pergerakan mata boleh terhasil daripada kedua-dua mekanisme sukarela dan tidak sukarela11. Untuk memudahkan membuat keputusan yang bergantung kepada tugas, kami membentangkan para peserta dengan masa, konteks dan isyarat pengukuhan yang mencukupi, yang juga boleh dibentangkan kepada model ML. (3) Ketepatan dan ketepatan data emAT bergantung pada penjejak mata manakala mcAT yang sama adalah bebas daripada sebarang peranti. (4) Adalah satu cabaran untuk menyelaraskan pergerakan mata seseorang dengan pemilihan kelasnya. Untuk mengatasinya, dalam kes kami, lokasi pensampelan dan kelas dipilih dalam episod yang sama. (5) Akhir sekali, kaedah kami membenarkan pengumpulan data menggunakan Amazon Mechanical Turk (MTurk), seperti dalam12,13, yang menjimatkan kos dan masa serta mudah dihasilkan semula.

Sumbangan.

Kami mengumpul set data mcAT, dipanggil AttentionMNIST, menggunakan MTurk daripada 382 peserta, diberi ganjaran kerana tepat dan cekap mengecam angka dan abjad tulisan tangan (huruf besar dan kecil) daripada imej melalui pensampelan berjujukan. Imej daripada set data penanda aras (MNIST, EMNIST) dibentangkan sebagai rangsangan. Secara purata, 169.1 respons bagi setiap kelas angka/abjad direkodkan. Menggunakan set data ini, kami menunjukkan perkara berikut: • Secara purata, peserta memerlukan 4.2, 4.7 dan 4.9 sampel untuk mengecam abjad angka, huruf besar dan huruf kecil, yang sepadan dengan hanya 11.3%, 13.4% dan 13.7% kawasan imej masing-masing . Ketepatan pengelasan meningkat dengan beberapa sampel. • Model, yang dibentangkan sebagai garis dasar, boleh meramalkan kelas dan lokasi yang akan dipilih oleh peserta pada episod persampelan seterusnya dengan ketepatan 74.4% dan 67.7% masing-masing, kedua-duanya dipuratakan ke atas semua pensampelan dan set data. Ketepatan ramalan kelas meningkat dan ketepatan ramalan lokasi berkurangan dengan peningkatan dalam sampel. • Apabila terdedah kepada rangsangan dan keadaan yang sama seperti peserta kami, model perhatian berulang (RAM)3 berasaskan tetulang yang sangat dipetik memerlukan 3.7, 8.5 dan 7.6 sampel untuk mengecam abjad angka, huruf besar dan huruf kecil, yang sepadan dengan 8.9% , 21.0%, masing-masing 18.7% daripada kawasan imej. Model peneguhan berasaskan perhatian lain (cth, 1,2,4,5,7,14) boleh dinilai secara serupa berbanding dengan prestasi manusia.

Cistanche supplement near me-Improve memory2

Suplemen cistanche berhampiran saya-Meningkatkan Ingatan

Klik di sini untuk melihat produk Cistanche Meningkatkan Memori dan Mencegah Penyakit Alzheimer

【Minta lebih lanjut】 E-mel:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692

Kerja-kerja yang berkaitan

Urutan temporal klik tetikus dalam mcAT adalah serupa dengan scanpath pergerakan mata10. mcAT boleh menggantikan emAT dengan berkesan kerana ia mempunyai korelasi yang ketara10,12,13,15–17. Pelbagai jenis rangsangan telah digunakan dalam kajian mcAT, seperti imej objek bernyawa dan tidak bernyawa10, imej pemandangan semula jadi12,13, halaman web statik13, reka letak halaman carian16, dan dua senarai rentetan abjad angka untuk perbandingan visual17. Walau bagaimanapun, mcAT belum digunakan untuk tugas pengelasan angka/abjad tulisan tangan atau penilaian model pengelasan berasaskan perhatian. Kajian mcAT telah menggunakan ciri seperti masa untuk dihubungi, kekerapan penetapan relatif dalam bidang yang diminati (AOI), perkadaran relatif subjek yang mengklik sekurang-kurangnya sekali dalam AOI10, bilangan penetapan setiap percubaan, penetapan semula dalam percubaan, masa tinggal dan laluan imbasan17 , peta penetapan12,13, AOI dan corak aliran maklumat16. Urutan lokasi klik bertanda masa dan label kelas yang diramalkan membentuk data mentah yang diperlukan untuk menilai kecekapan dan ketepatan model berasaskan perhatian atau manusia dalam tugas pengelasan. Ciri yang berbeza boleh diperoleh daripada data ini. Set data mcAT kami, dengan pelbagai faedah berbanding data penjejakan mata, mengisi jurang penting dalam penyelidikan model berasaskan perhatian dalam AI, ML dan kawasan lain. Set data kami akan membolehkan model berasaskan perhatian dinilai berbanding dengan prestasi manusia. Antara lain, ini akan memudahkan pembangunan sistem pengecaman aksara optik yang cekap dan masa nyata yang mempunyai penggunaan yang meluas dalam amalan (lihat sebagai contoh18–20). Prinsip yang membimbing penetapan visual boleh dihipotesiskan dan diuji menggunakan set data kami. Prinsip yang berjaya boleh dibawa untuk membangunkan sistem untuk tugas pengecaman visual dunia sebenar di mana kecekapan adalah kebimbangan utama, seperti dalam pemanduan autonomi.

Data

Data kami terdiri daripada urutan episod T untuk setiap peserta. Data daripada setiap episod terdiri daripada (1) lokasi dalam imej yang diklik oleh peserta (satu klik dalam imej setiap episod), (2) kelas (s) yang dipilih oleh peserta, dan (3) masa yang diambil oleh peserta untuk mendaftarkan sampel semasa (iaitu masa berlalu antara klik terakhir dan semasa dalam imej). Bahagian ini akan menerangkan proses pengumpulan data kami termasuk pemilihan rangsangan, peserta, tugas visual, pemarkahan prestasi dan penapisan data.

Pemilihan rangsangan. Rangsangan dipilih daripada imej dalam dua set data penanda aras: (1)

Set data MNIST21 terdiri daripada 70,000 imej berlabel (28×28 piksel) daripada 10 angka tulisan tangan {0, 1, ..., 9}. (2)

Set data EMNIST22 terdiri daripada 145,600 imej (28×28 piksel) abjad Inggeris tulisan tangan dalam huruf besar dan kecil, membentuk kelas yang seimbang. Semua imej dilabelkan dengan salah satu daripada 26 kelas {a, b, ..., z}. Walau bagaimanapun, label huruf besar atau huruf kecil tidak dikaitkan dengan mana-mana imej. Daripada setiap kategori, kami memilih 15 angka yang terbentuk dengan baik daripada MNIST dan 15 abjad yang terbentuk dengan baik setiap satu daripada set data EMNIST huruf besar dan huruf kecil EMNIST. Angka atau abjad yang terbentuk dengan baik adalah serupa dengan norma kelasnya. Oleh itu, kami mempersembahkan rangsangan daripada satu set 15(10 + 26 + 26)=930 imej unik, dengan 15 imej milik setiap 62 kelas. Imej 930 yang dibentuk dengan baik dipilih seperti berikut:

Langkah 1: Normalkan setiap imej menggunakan min-maks untuk menskalakan keamatan antara 0 dan 1.

Langkah 2: Labelkan imej EMNIST yang dibentuk dengan baik dalam huruf besar atau huruf kecil. Untuk setiap kelas abjad, abjad yang dibentuk dengan baik daripada kedua-dua imej huruf besar dan huruf kecil dipilih dan dilabelkan secara manual. Persamaan kosinus semua imej kepunyaan kelas itu dengan dua imej berlabel dikira. Imej yang berada di atas ambang persamaan kosinus (dipilih secara empirik sebagai 0.8) diberikan label huruf besar atau huruf kecil.

Langkah 3: Kira min bagi imej yang dimiliki oleh setiap kelas. Imej min bagi kelas membentuk normanya. Imej layak menjadi rangsangan jika persamaan kosinusnya dengan min imej kelasnya lebih besar daripada ambang yang ditentukan secara empirik (0.7 untuk MNIST, 0.75 untuk EMNIST).

Langkah 4: Antara imej yang layak, 15 imej daripada setiap kelas dipilih secara manual berdasarkan bentuknya dengan baik. Setiap imej, asalnya 28×28 piksel, dikurangkan kepada 27×25 dengan mengalih keluar piksel berhampiran sempadan kerana ia tidak mempunyai variasi keamatan. Purata bagi 15 imej ini dikira untuk setiap 62 kelas. Kami menandakan imej min ini sebagai I1, I2, ..., In untuk n kelas dalam setiap set data.

Peserta.

Sebanyak 382 individu dewasa yang berbeza mengambil bahagian dalam kajian kami. Tiada kriteria pemilihan digunakan. Seorang peserta boleh bertindak balas kepada berbilang imej. Bagi setiap 62 kelas, purata 169.1 respons telah direkodkan.

man-5989553_960_720

Faedah cistanche tubulosa-Penyakit anti Alzheimer

Tugas visual.

Antara muka MTurk untuk tugas visual kami ditunjukkan dalam Rajah 1. Kanvas bersaiz 270×250 memaparkan imej latar belakang berintensiti rendah pada setiap masa. Imej latar belakang dan rangsangan ditingkatkan sepuluh kali kepada 270×250. Bahagian tengah kanvas dijajarkan dengan bahagian tengah imej. Latar Belakang Pada mulanya, latar belakang ialah min bagi semua imej dalam set data yang daripadanya rangsangan diambil. Selepas episod pertama, latar belakang ialah min bagi semua imej daripada set kelas yang dipilih oleh peserta dalam episod terakhir. Dalam dunia nyata, konteks untuk lokasi, saiz dan orientasi angka atau abjad diperoleh daripada tulisan di kawasan kejiranan, yang tiada di sini. Apabila eksperimen kami dijalankan dengan latar belakang kosong, peserta sering mengambil sampel lokasi imej yang tidak mengandungi mana-mana bahagian objek. Tingkah laku ini terkandung dengan mempersembahkan imej min bagi kelas yang dipilih dalam latar belakang intensiti rendah dan mengurangkan saiz semua imej MNIST dan EMNIST daripada 28×28 piksel kepada 27×25. Setiap kali peserta memilih lokasi dalam kanvas dengan mengklik padanya, tampalan 50×50 piksel yang berpusat di lokasi tersebut daripada imej rangsangan didedahkan. Tampalan yang pernah didedahkan terus dipaparkan sehingga episod akhir. Tugas seorang peserta terdiri daripada tiga langkah pada setiap episod t (t=1, ..., T):

Langkah 1: Klik di mana-mana dalam kanvas 270×250 untuk mendedahkan tampalan yang dia mahu sampel. Hanya klik pertama diterima.

Langkah 2: Kenali angka/abjad daripada semua sampel yang diperhatikan setakat ini. Peserta boleh memilih berbilang kelas dan perlu memilih sekurang-kurangnya satu kelas daripada senarai kelas yang ditunjukkan di bawah kanvas.

Langkah 3: Klik "Seterusnya" di bahagian bawah skrin untuk meneruskan. Untuk membuat kesimpulan kelas dengan tepat dan cepat, peserta perlu memilih lokasi dengan bijak berdasarkan pemerhatiannya sehingga episod semasa. Tiada had masa untuk satu episod. Walau bagaimanapun, kami mengehadkan jumlah masa untuk episod T imej kepada enam minit. Kami memilih T=12 kerana karya yang mendapat sebutan tinggi mengenai pengecaman atau penjanaan tulisan tangan berasaskan perhatian telah menggunakan kurang daripada 12 kelibat (cth, RAM3 boleh mengecam angka MNIST dalam 7 kelibat, DRAW23 boleh menjana angka MNIST dalam 11 kelibat), dan manusia boleh mengenali angka dan abjad tulisan tangan dalam kurang daripada 12 kelibat.

Pemarkahan prestasi. Skor diberikan kepada peserta berdasarkan ketepatan dan kecekapannya dari segi bilangan sampel yang diperhatikan. Biarlah set kelas yang dia pilih pada mana-mana episod t. Sepuluh, markahnya pada t ialah:

Figure 1. Our MTurk interface as seen by a participant. Te second sampling for an EMNIST uppercase alphabet is shown.

Rajah 1. Antara muka MTurk kami seperti yang dilihat oleh seorang peserta. Persampelan kedua untuk abjad huruf besar EMNIST ditunjukkan.

image


di mana |.| menandakan kardinaliti suatu set. Jumlah markah yang diberikan dalam episod T ialah h {{0}} T t=1 Pt. Oleh itu, maksimum yang boleh dijaringkan dalam episod T ialah T jika dia sentiasa memilih kelas yang betul sahaja. Minimum yang boleh mendapat markah dalam episod T ialah sifar jika dia sentiasa memilih set kelas yang tidak termasuk kelas yang betul. Jadi, 0 Kurang daripada atau sama dengan h Kurang daripada atau sama dengan T. Lebih cepat peserta memilih kelas yang betul, lebih tinggi markahnya. Oleh itu, mekanisme pemarkahan ini mengambil kira ketepatan pengecaman dan kecekapan pensampelan. Cuba untuk memaksimumkan skor dengan memilih hanya satu kelas daripada episod pertama akan berisiko kerana skor sifar akan diberikan jika ia bukan kelas yang betul, manakala skor yang lebih besar daripada sifar akan diberikan jika peserta memilih berbilang kelas ( malah semua kelas) yang termasuk kelas yang betul. Ini akan mendorong peserta untuk bertindak balas berdasarkan kelas yang mungkin dalam fikirannya pada mana-mana episod. Markah yang diberikan pada setiap episod didedahkan hanya selepas selesai episod T untuk mengelak daripada memberikan sebarang petunjuk kepada peserta. Di MTurk, imbuhan yang diterima oleh peserta untuk imej adalah berkadar dengan jumlah markahnya, h.

Penapisan data.

Jika markah peserta pada episod akhir (iaitu T-th) untuk imej rangsangan adalah sifar, datanya yang direkodkan untuk imej itu dibuang. Data juga dibuang jika peserta meninggalkan tugasan tidak lengkap. Dengan kriteria pemilihan ini, kami memperoleh tindak balas pada 1736 rangsangan daripada MNIST, 4431 rangsangan daripada huruf besar EMNIST, dan 4315 rangsangan daripada huruf kecil EMNIST; iaitu 169.1 respons setiap kelas secara purata.

Model dan kaedah untuk menggunakan data

Dalam bahagian ini, kami menggambarkan utiliti data yang dikumpul dengan (4.1) menyediakan model garis dasar untuk meramalkan tingkah laku peserta, dan (4.2) menunjukkan bagaimana model tetulang berasaskan perhatian sedia ada boleh dibandingkan dengan pengecaman angka/abjad manusia. prestasi. Garis asas untuk ramalan tingkah laku. Tingkah laku pada mana-mana episod t terdiri daripada pemilihan lokasi dan pemilihan kelas. Memandangkan sampel mengandungi jumlah maklumat yang berbeza untuk pemerhati yang berbeza, atau bahkan untuk pemerhati yang sama pada masa yang berbeza9, ramalan tingkah laku setiap peserta adalah masalah yang sukar. Biarkan n ialah bilangan kelas dalam set data, ηt ialah set tunggal yang mengandungi kelas sebenar untuk imej rangsangan pada t, ct ialah set kelas dan lt ialah lokasi yang dipilih oleh peserta di t, untuk menjadi pemerhatiannya di t, dan 1:t menandakan urutan 1, 2, ..., t. Sehingga mana-mana t, pemerhatian seorang peserta ialah o1:t dan lokasi yang dipilihnya ialah l1:t. Kami merumuskan masalah ramalan tingkah laku peserta seperti berikut: Ramalan kelas Anggarkan kebarangkalian i∈ct (i=1, 2, ..., n) diberi o1:t dan l1:t, iaitu P( i ∈ ct|o1:t, l1:t). Ramalan lokasi Anggarkan kebarangkalian lt+1 diberi o1:t, l1:t dan ctnya, iaitu P(lt+1|o1:t, l1:t,ct). Ramalan kelas. Untuk meramalkan kelas yang akan dipilih oleh peserta pada episod t, kami mengira kebarangkalian bahawa rangsangan imej pada t tergolong dalam kelas I memandangkan lokasi pilihan peserta l1:t dan pemerhatian yang sepadan o1:t, seperti berikut:

image

dengan Ii ialah min bagi imej rangsangan (27×25) kepunyaan kelas i, I′ ialah imej 27×25 yang mengandungi o1:t pada l1:t, · menandakan hasil berskala, dan .menandakan norma Euclidean. Semua keamatan piksel adalah bukan negatif. Pada mana-mana episod t, k kelas berkemungkinan tertinggi daripada taburan kepercayaan P(i|o1:t, l1:t) membentuk set kelas, ˆct, yang diramalkan oleh model kami, dengan k=|ct|. Ketepatan klasifikasi diukur menggunakan indeks Jaccard (JI). JI mengukur persamaan antara dua set, X dan Y, sebagai: J(X, Y) {{10}} |X ∩ Y|/|X ∪ Y|. JI dihadkan antara 0 dan 1; jika X=Y, J(X, Y)=1. Pada mana-mana episod t, ketepatan klasifikasi peserta ialah J(ηt,ct) manakala model kami ialah J(ηt, ˆct). Disebabkan penyebutnya, JI menghukum lebih kerana bilangan elemen dalam set yang diramalkan (ct atau ˆct) yang tidak berada dalam ηt meningkat, yang merupakan sifat yang wajar untuk kes kami. Persamaan antara klasifikasi peserta dan model kami diukur dengan J(ct, ˆct). Model kami juga dinilai dari segi pemilihan kelas dan ketepatan penolakan berkenaan dengan setiap peserta. Biarkan st=ct − ct−1 ialah set kelas baharu yang dipilih dan rt=ct−1 − ct ialah set kelas yang ditolak oleh peserta pada t. Begitu juga, ˆst=ˆct − ct−1 ialah set kelas baharu yang dipilih dan ˆrt=ct−1 − ˆct ialah set kelas yang ditolak oleh model kami pada t. Kemudian pemilihan dan penolakan kelas model boleh dibandingkan dengan peserta oleh J(st, ˆst) apabila |st| > 0 dan J(rt, ˆrt) apabila |rt| > 0, masing-masing. Ramalan lokasi. Hipotesis Sebaik-baiknya, taburan kepercayaan ke atas semua kelas hendaklah unimodal (iaitu, satu puncak sahaja) dan bentuk Gaussian nipis (iaitu sisihan piawai yang kecil) menunjukkan seorang peserta yakin tentang kelas (keadaan) rangsangan (persekitaran). Walau bagaimanapun, seperti yang terbukti daripada data kami (rujuk Rajah 2), seorang peserta sering keliru antara pelbagai kelas, terutamanya semasa beberapa episod awal. Dalam kes ini, taburan kepercayaannya mempunyai beberapa puncak atau merupakan Gaussian yang gemuk. Kami membuat hipotesis matlamat peserta adalah untuk menumpu kepada Gaussian yang tidak bermodal dan nipis, untuk mencapai yang dia memilih lokasi sampel yang mengurangkan kebarangkalian semua kelas kecuali satu. Hipotesis ini membawa kepada meminimumkan ketidakpastian ke atas kelas (keadaan persekitaran) yang merupakan prinsip yang terkenal sebagai panduan tindakan24, termasuk pergerakan mata25.

Figure 2. Duration and class distribution over all participants and stimuli belonging to categories '0', 'a', and 'A'.


Rajah 2. Tempoh dan taburan kelas ke atas semua peserta dan rangsangan yang tergolong dalam kategori '0', 'a' dan 'A'.

Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ, dengan ambang θ=0.5 × maks(D) ialah kuantiti skalar yang ditentukan secara empirik.

Kami menganggap dua metrik asimetri, perbezaan dan perbezaan Kullback-Leibler (KL), sebagai calon untuk fungsi g. Divergence KL Diberi dua imej min ternormal, Ii dan Ij, divergence KL KL(Ii, Ij) mengukur kehilangan maklumat apabila Ij digunakan untuk menghampiri Ii. Ini dikira untuk setiap piksel k as26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ, dengan Ij,k ialah keamatan piksel kth daripada Ij, dan δ ialah pemalar penaturan. Apabila Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. Perbezaan Diberi dua imej min ternormal, Ii dan Ij, perbezaan bagi setiap piksel k ialah Diff (Ii,k, Ij,k)=Ii,k − Ij,k. Apabila Ii,k=Ij,k, Beza (Ii,k, Ij,k)=0. Seorang peserta tidak pasti mengenai set kelas, ct, yang dipilihnya pada episod semasa. Oleh itu, untuk ramalan lokasi, kami hanya mempertimbangkan peta kepentingan dalam D yang melibatkan kelas dalam ct. Sesuatu lokasi diramalkan jika lokasi tersebut menonjol berdasarkan peta kepentingan ini dan tidak pernah dipilih oleh peserta. Tus, diberi o1:t, l1:t dan ct, lokasi lt+1 diramalkan seperti berikut:

image

dengan Ŵ ialah set 3-tuple yang mengandungi lokasi yang diramalkan ˆl, kelas yang menonjol untuk (i) dan berkenaan dengan kelas mana (j). Lokasi diramalkan dengan betul jika wujud �ˆl, i, j� ∈ Ŵ sehingga �ˆl − lt+1� < ǫ, I ∈ ct+1 dan j /∈ ct{{3} }, dengan ǫ ialah jarak Euclidean maksimum antara piksel tengah dan mana-mana piksel dalam tampung cerapan. Kod pseudo untuk ramalan lokasi ditunjukkan dalam Algoritma 1. Penjelasan terperinci tentang pseudo-kod disertakan dalam Bahagian S1 bahan tambahan. (Taburan kebarangkalian, P(lt+1|o1:t, l1:t,ct), boleh dikira dengan mengandaikan skor saliency lokasi bukan dalam Ŵ menjadi sifar, dan kemudian menormalkan skor saliency semua lokasi untuk dijumlahkan kepada kesatuan. Walau bagaimanapun, kebarangkalian ini tidak digunakan, kerana Persamaan (3) adalah mencukupi untuk tujuan kertas ini.)

image

Penilaian model berasaskan perhatian.

Sebagai wakil model berasaskan perhatian, kami mempertimbangkan model perhatian berulang (RAM)3 yang diberi sebutan tinggi yang melaporkan hasil percubaan pada set data MNIST. Model pengukuhan ini secara berurutan mengambil sampel imej dan memutuskan tempat untuk mengambil sampel seterusnya pada setiap persampelan segera, menjadikannya sesuai untuk penilaian menggunakan data yang dikumpul.

Ram

mengklasifikasikan imej menggunakan urutan kelibat. Lokasi seterusnya dipilih secara stokastik daripada taburan yang diparameterkan oleh rangkaian lokasi. Model ini dilatih hujung ke hujung dengan memaksimumkan objektif berikut3:

image


di mana M ialah bilangan episod, T ialah bilangan pemerhatian, xi 1:t ialah jujukan interaksi yang diperolehi dengan menjalankan ejen semasa sehingga episod I, ui t ialah tindakan semasa, θ ialah set parameter boleh dilatih, Ri t ialah ganjaran terkumpul, bt ialah garis dasar, dan π(ui t|xi 1:t; θ ) ialah polisi. Tingkah laku RAM boleh dibandingkan dengan peserta dengan membandingkan peta penetapan yang diperoleh daripada jujukan lokasi yang diramalkan oleh RAM dan yang dipilih oleh peserta. Peta fxasi dikira dengan memberikan setiap lokasi nilai yang sama dengan kekerapan pemilihannya, dan kemudian menormalkan nilai tersebut untuk mencipta taburan ke atas semua lokasi.

Metrik untuk membandingkan peta penetapan. Untuk metrik yang membandingkan dua peta penetapan, P dan Q, kami mengikuti 26 dengan teliti. Kami menggunakan tiga metrik berasaskan pengedaran: KL divergence (KL), Pearson correlation coefficient (CC) dan Similarity (SIM), untuk membandingkan taburan lokasi pensampelan daripada model dengan model daripada peserta seperti yang direkodkan dalam data yang dikumpul.

KL (ditakrifkan sebelum ini) sangat sensitif kepada nilai sifar.

CC boleh menilai hubungan linear antara dua peta sebagai26: CC(P, Q)=σ (P, Q) σ (P)σ (Q), dengan σ ialah varians atau kovarians. Memandangkan CC adalah simetri, ia gagal membuat kesimpulan sama ada perbezaan antara peta penetapan disebabkan oleh positif palsu atau negatif palsu.

SIM diukur sebagai 26: SIM(P, Q)=k min(Pk, Qk), dengan k Pk=k Qk=1. Seperti CC, SIM adalah simetri dan mewarisi kelemahan yang sama. Selain itu, SIM sangat sensitif terhadap nilai yang hilang dan menghukum ramalan yang gagal mengambil kira kepadatan kebenaran asas.

Penyelidikan Manusia dan Haiwan.

Lembaga Semakan Institusi di Universiti Memphis telah menentukan bahawa kajian ini tidak memenuhi definisi Perlindungan Penyelidikan Pejabat Subjek Manusia bagi penyelidikan subjek manusia dan 45 CFR bahagian 46 tidak terpakai. Justeru, kajian ini tidak memerlukan kelulusan atau semakan LHDN.

Keputusan eksperimen Analisis data.

Data yang dikumpul boleh divisualisasikan dari segi urutan pengedaran lokasi terpilih (Rajah 3), kelas terpilih (Rajah 2), dan tempoh antara episod berturut-turut (Rajah 2). Pengagihan ini sangat serupa untuk tiga set data. Untuk sebarang angka atau abjad, taburan lokasi yang dipilih selepas episod akhir menyerupai taburan keamatan piksel kelasnya daripada set data. Walau bagaimanapun, urutan lokasi yang dipilih adalah bersifat stokastik. Pengagihan kelas menunjukkan kekeliruan antara kategori dengan struktur yang serupa dalam beberapa episod awal apabila peserta memilih berbilang kelas. Kekeliruan ini dikurangkan dengan lebih banyak pensampelan. Terdapat korelasi positif yang ketara antara tahap kekeliruan (# kelas terpilih/jumlah # kelas) dan tempoh pensampelan (lihat Rajah 4). Jika bilangan kelas yang dipilih adalah tinggi (rendah), tempoh antara episod berturut-turut adalah tinggi (rendah). CC bagi jujukan lokasi yang dipilih oleh peserta untuk kelas adalah tidak penting (Jadual 1). Ini dijangka disebabkan kebolehubahan antara subjek dalam persampelan imej statik. Purata bilangan persampelan yang diperlukan oleh peserta untuk meramalkan kelas dengan tepat adalah agak rendah. Secara purata, diperlukan 4.2, 4.7 dan 4.9 sampel yang sepadan dengan 36, 44.1 dan 48.1 saat untuk mengklasifikasikan imej MNIST, EMNIST huruf besar dan huruf kecil masing-masing dengan tepat. Para peserta secara purata melihat hanya 11.3%, 13.4%, dan 13.7% daripada kawasan imej untuk mengklasifikasikan imej abjad angka, huruf besar dan huruf kecil dengan tepat (lihat Rajah S2 dalam bahan tambahan). Keputusan ini menyerlahkan kecekapan sistem penaakulan visual manusia, walaupun pada resolusi yang lebih rendah daripada data penjejakan mata tetapi dengan kurang bunyi dan kebolehubahan. Keputusan empirikal ini mungkin berguna untuk mereka bentuk model berasaskan perhatian untuk aplikasi dunia sebenar. Ramalan tingkah laku. Dalam bahagian ini, prestasi model garis dasar kami dinilai dari segi seberapa tepat ia boleh meramalkan lokasi dan pemilihan kelas setiap peserta. Memandangkan keputusan eksperimen kami menggunakan dua fungsi pemarkahan kepentingan, perbezaan KL, dan perbezaan, adalah agak serupa, keputusan dilaporkan menggunakan perbezaan sahaja, melainkan dinyatakan sebaliknya. Ramalan kelas. Ramalan kelas dan kaedah penilaian ketepatannya diterangkan dalam bahagian "Ramalan kelas". Ketepatan ramalan kelas, ditunjukkan dalam Rajah 5, dikira ke atas semua kelas untuk semua persampelan. Purata ketepatan ramalan kelas ke atas semua pensampelan dan set data ialah 74.4% (std. dev. 26.5). Rajah 5a, dan b menunjukkan bahawa set kelas yang dipilih oleh peserta dan oleh model garis dasar kami (Pers. 2) agak tidak tepat pada episod awal dan bertambah baik dengan peningkatan sampel. Rajah 5c menunjukkan bahawa, semasa episod awal, kedua-dua set ini, ct, dan ˆct, agak berbeza; persamaan bertambah dengan pertambahan sampel. Perkara yang sama berlaku untuk pemilihan kelas baharu (rujuk Rajah 5f). Walau bagaimanapun, penolakan kelas adalah serupa pada episod awal; persamaan meningkat lagi dengan lebih banyak sampel (rujuk Rajah 5e). Sejak J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| dan J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|, ia boleh disimpulkan daripada Rajah 5e, f bahawa pada episod awal, persilangan antara ct−1 dan ct ∪ ˆct adalah kecil, menunjukkan bahawa pada mulanya peserta dan model garis dasar kami membuat banyak perubahan dalam pemilihan kelas mereka antara episod berturut-turut. Oleh itu, pada mulanya, proses pemilihan kelas adalah sangat stokastik. Walaupun terdapat beberapa perbezaan antara ramalan kelas peserta dan model kami semasa episod awal, tingkah laku menjadi semakin serupa dengan lebih banyak sampel. Semasa beberapa episod pertama (biasanya 4 hingga 7) episod, bahagian rangsangan yang sangat menonjol didedahkan. Ini membantu untuk memilih hanya kelas yang betul dalam persampelan kemudian, yang meningkatkan ketepatan ramalan. Memandangkan terdapat banyak kelas yang templat minnya sepadan dengan bahagian rangsangan yang diperhatikan semasa beberapa episod awal, proses pemilihan kelas adalah jauh lebih stokastik, yang membawa kepada ketepatan klasifikasi yang rendah daripada peserta serta model kami.

Figure 3. Distribution of sampling locations over all participants for each numeral/alphabet class and each sampling episode. Each row corresponds to a class, each column corresponds to a sampling episode which increases from left to right.


Rajah 3. Taburan lokasi persampelan ke atas semua peserta bagi setiap kelas angka/abjad dan setiap episod persampelan. Setiap baris sepadan dengan kelas, setiap lajur sepadan dengan episod pensampelan yang meningkat dari kiri ke kanan.

Ramalan lokasi. Ketepatan ramalan lokasi model garis dasar kami (Pers. 3), dipuratakan ke atas semua pensampelan dan set data, ialah 67.7% (std. dev. 14.1) (rujuk Rajah 5d). Arah aliran ketepatan ramalan ini adalah bertentangan dengan arah aliran ketepatan ramalan kelas. Namun, penjelasannya tetap sama. Ketepatan ramalan lokasi adalah tinggi semasa persampelan awal kerana semasa episod ini, lokasi yang sangat menonjol dipilih, meninggalkan lokasi yang kurang menonjol untuk dipilih dalam episod kemudian. Memandangkan terdapat banyak lokasi dengan saliensi yang rendah, proses pemilihannya sangat stokastik dan oleh itu sukar untuk diramal, membawa kepada penurunan ketepatan ramalan dengan peningkatan dalam pensampelan. Aliran penurunan adalah unik untuk setiap set data (rujuk. Rajah 5d) kerana bilangan kelas dan bilangan lokasi yang sangat penting yang berguna untuk diskriminasi berbeza antara set data. Semakin rendah bilangan kelas dan lokasi diskriminasi yang sangat menonjol, semakin cepat penurunan ketepatan ramalan lokasi dengan peningkatan dalam pensampelan.

imageFigure 4. (Lef) Errorbar plot of time diference (seconds) between consecutive samples averaged over all classes. Tat is, value shown at sampling episode t is the time elapsed between a participant's clicks in image at t − 1 and t. (Right) Errorbar plot of confusion averaged over all classes at each episode. Errorbars indicate std. dev.

Rajah 4. (Kiri) Plot bar ralat perbezaan masa (saat) antara sampel berturut-turut dipuratakan ke atas semua kelas. Jadi, nilai yang ditunjukkan pada episod pensampelan t ialah masa berlalu antara klik peserta dalam imej pada t − 1 dan t. (Kanan) Plot kekeliruan bar ralat dipuratakan pada semua kelas pada setiap episod. Bar ralat menunjukkan std. dev.

Figure 5. Evaluation of our baseline model (ref.

Rajah 5. Penilaian model garis dasar kami (rujuk. Bahagian "Baseline untuk ramalan tingkah laku"). (a) Ketepatan klasifikasi (sambilan) peserta dan (b) model garis dasar kami dengan label sebenar sebagai kebenaran asas. (c) Persamaan klasifikasi (J(ct, ˆct)), (d) ketepatan ramalan lokasi, (e) ketepatan penolakan kelas dan (f) ketepatan pemilihan kelas model asas kami dengan data peserta sebagai kebenaran asas. Lihat bahagian "Ramalan tingkah laku" untuk mendapatkan butiran.

Table 1. Average Pearson correlation coefficient (corr.) for fxation sequences for the same class. For any fixation, distance is Euclidean and direction is measured as the polar angle with respect to the center of stimuli as the origin. Std. dev. are included in parenthesis.


Jadual 1. Purata pekali korelasi Pearson (corr.) untuk jujukan fx bagi kelas yang sama. Untuk sebarang penetapan, jarak ialah Euclidean dan arah diukur sebagai sudut kutub berkenaan dengan pusat rangsangan sebagai asalan. Std. dev. disertakan dalam kurungan.

Penilaian RAM.

Untuk setiap kelas dan persampelan, peta penetapan daripada RAM (kami menggunakan pelaksanaan RAM daripada github.com/hehefan/Recurrent-Attention-Model) dan data yang dikumpul untuk rangsangan yang sama yang dibentangkan dalam MTurk dibandingkan. Untuk perbandingan yang saksama dengan peserta, dalam RAM kami menetapkan panjang jujukan pada T=12, lokasi pensampelan pertama di pusat imej, pemerhatian input kepada tampalan 5×5 dengan lokasi yang dipilih sebagai pusatnya, dan mengubah suai fungsi ganjaran dengan Pers. (1). Ganjaran terkumpul, Rt dalam Persamaan. (4,) digantikan dengan skor kumulatif t τ=1 Pτ yang diperolehi daripada Pers. (1). Oleh kerana peserta boleh memilih berbilang kelas pada mana-mana episod, untuk model RAM, dan bukannya meramalkan satu kelas berdasarkan kebarangkalian tertinggi, kami menganggap kebarangkalian min ke atas semua kelas sebagai ambang dan meramalkan set kelas ct dengan kebarangkalian lebih besar daripada ambang. ct ini digunakan untuk mengira markah menggunakan Pers. (1). Di bawah syarat ini, RAM memerlukan 3.7, 8.5 dan 7.6 sampel untuk mengecam angka MNIST, huruf besar dan huruf kecil EMNIST abjad, yang sepadan dengan 8.9%, 21.0%, 18.7% kawasan imej masing-masing. Oleh itu, berbanding dengan peserta kami (rujuk bahagian "Analisis data"), RAM adalah kurang cekap. Lihat Jadual 2. Keputusan daripada membandingkan peta penetapan daripada RAM dan data yang dikumpul ditunjukkan dalam Jadual 3. KL lebih tinggi kerana kepekaannya kepada nilai sifar. Ini membayangkan beberapa lokasi diambil sampel oleh peserta tetapi bukan oleh RAM. Percubaan ini boleh digunakan sebagai garis asas untuk menilai lokasi yang dijadikan sampel oleh model perhatian.

cistanche-Improve memory2

faedah cistanche - Meningkatkan Ingatan

Perbincangan

Paradigma mcAT, seperti yang digunakan dalam kertas ini, mempunyai titik perbezaan tertentu daripada paradigma yang bergantung terutamanya pada pergerakan mata dan pandangan untuk mengkaji mekanisme pengecaman objek. Dalam bahagian yang terakhir, bahagian yang menonjol pada adegan menarik perhatian terlebih dahulu, diikuti dengan pergerakan mata saccadic yang mengarahkan pandangan mata ke lokasi yang menonjol27. Gaze didorong oleh isyarat bawah ke atas dan atas bawah yang, bersama-sama dengan maklumat penting, membentuk peta keutamaan yang membimbing pergerakan mata untuk pengecaman objek. Memandangkan peserta dalam kajian ini melihat imej statik dalam keadaan tontonan bebas dan dengan masa yang mencukupi (enam minit untuk pensampelan T=12), mereka mungkin terlibat dalam satu siri pergerakan mata saccadic atau penaakulan visual28 untuk meneroka imej sebelum mengklik pada AOI. Pergerakan mata ini mungkin telah ditangkap dalam emAT (menggunakan penjejak mata) tetapi tidak dalam mcAT. Walau bagaimanapun, pergerakan mata ini dipengaruhi oleh fikiran yang melayang. Walaupun mcAT juga dipengaruhi oleh fikiran yang melayang29, kesannya boleh dikurangkan apabila peserta bertindak balas selepas penaakulan visual. Memandangkan pergerakan mata sebagai tindak balas kepada rangsangan dipengaruhi oleh tugasan di tangan30, corak pergerakan mata peserta berkemungkinan dipengaruhi oleh tugasan tiga langkah yang diberikan pada setiap pensampelan (rujuk bahagian "tugas visual"). Jika penjejak mata telah digunakan, pergerakan mata peserta untuk meneroka sampel akan bercampur dengan pergerakan mata untuk mengklik kelas pilihan mereka, yang akan merumitkan tafsiran penerokaan visual sampel. Mengklik kelas adalah langkah yang perlu kerana ia mendedahkan, walaupun secara introspektif, kelas yang diramalkan dalam fikiran peserta. Kemungkinan pandangan sejurus sebelum dan selepas pemilihan AOI-mungkin juga dibantu oleh pergerakan mata penetapan{10}}menyumbang paling banyak ke arah pengecaman angka/abjad. Sesungguhnya, kami menjangkakan bahawa peserta memilih kawasan diagnostik imej untuk membezakan antara kelas, dan kawasan tersebut mungkin mengandungi campuran maklumat diagnostik dari bawah ke atas (cth, kontras visual) dan atas ke bawah (templat angka/abjad). Ini konsisten dengan penemuan kami bahawa peserta dengan cepat (dalam 5 sampel secara purata) membezakan antara kelas rangsangan kononnya dengan memilih patch diagnostik.

Table 2. Comparison of efficiency between our participants and the RAM model in terms of the average number of samples required to recognize a numeral/alphabet. The percentage of the image area observed is included in parentheses.

Jadual 2. Perbandingan kecekapan antara peserta kami dan model RAM dari segi purata bilangan sampel yang diperlukan untuk mengenal nombor/abjad. Peratusan kawasan imej yang diperhatikan dimasukkan dalam kurungan.

Table 3. Evaluation of fixation maps from RAM for the stimuli presented in the MTurk experiments averaged over all classes and samplings. Std. dev. are included in parenthesis.


Jadual 3. Penilaian peta penetapan daripada RAM untuk rangsangan yang dibentangkan dalam eksperimen MTurk dipuratakan ke atas semua kelas dan persampelan. Std. dev. disertakan dalam kurungan.

Kesimpulan

Kami memperkenalkan set data mcAT untuk mengenali angka dan abjad tulisan tangan melalui pensampelan berjujukan. Data dikumpul daripada 382 peserta dipersembahkan dengan imej yang dipilih daripada set data penanda aras (MNIST, EMNIST). Secara purata, 169.1 respons bagi setiap kelas angka/abjad direkodkan. Data dianalisis dengan teliti untuk mendedahkan kecekapan pengecaman visual manusia. Para peserta memerhati hanya 12.8% daripada imej untuk pengecaman. Kami mencadangkan model garis dasar untuk meramalkan lokasi dan kelas yang akan dipilih oleh peserta pada persampelan seterusnya. Kami menunjukkan cara keadaan dan data percubaan kami boleh digunakan untuk menilai model tetulang berasaskan perhatian berbanding dengan prestasi manusia. Set data mcAT ini, dengan pelbagai faedah berbanding data penjejakan mata, mengisi jurang penting dalam penyelidikan model berasaskan perhatian dalam AI, ML dan kawasan lain.

Rujukan

1. Ranzato, MA Mengenai pembelajaran di mana untuk melihat. arXiv:1405.5488, (2014).

2. Ba, J., Salakhutdinov, RR, Grosse, RB, & Frey, BJ Mempelajari model perhatian berulang bangun-tidur. Dalam NIPS, 2593–2601 (2015).

3. Mnih, V. et al. Model perhatian visual yang berulang. Dalam NIPS, 2204–2212 (2014).

4. Ba, J., Mnih, V., & Kavukcuoglu, K. Pengecaman objek berbilang dengan perhatian visual. arXiv:1412.7755 (2014).

5. Dutta, JK & Banerjee, B. Variasi dalam ketepatan pengelasan dengan bilangan kelibat. Dalam IJCNN, 447–453 (IEEE, 2017).

6. Larochelle, H. & Hinton, GE Belajar untuk menggabungkan pandangan foveal dengan mesin Boltzmann pesanan ketiga. Dalam NIPS, 1243–1251 (2010).

7. Elsayed, G., Kornblith, S. & Le, QV Saccader: Meningkatkan ketepatan model tumpuan keras untuk penglihatan. Dalam NIPS, 702–714 (2019).

8. van Beers, RJ Te sumber kebolehubahan dalam pergerakan mata saccadic. J. Neurosci. 27(33), 8757–8770 (2007).

9. Itti, L. & Baldi, P. Bayesian kejutan menarik perhatian manusia. Vis. Res. 49(10), 1295–1306 (2009).

10. Egner, S. et al. Perhatian dan pemerolehan maklumat: Perbandingan klik tetikus dengan penjejakan perhatian pergerakan mata. J. Eye Mov. Res. 11(6), (2018).

11. Peterson, MS, Kramer, AF & Irwin, DE Peralihan perhatian yang tersembunyi mendahului pergerakan mata yang tidak disengajakan. Persepsi. Psikofi. 66(3), 398–405 (2004).

12. Jiang, M. et al. Silikon: Kepentingan dalam konteks. Dalam CVPR, 1072–1080 (2015).

13. Kim, NW et al. BubbleView: Antara muka untuk peta kepentingan imej sumber ramai dan menjejak perhatian visual. ACM Trans. Pengiraan. Hum. Berinteraksi. 24(5), 1–40 (2017).

14. Sermanet, P., Frome, A. & Real, E. Perhatian untuk pengkategorian halus. arXiv:1412.7054 (2014).

15. Egner, S., Itti, L. & Scheier, C. Membandingkan model perhatian dengan jenis data tingkah laku yang berbeza. Menyiasat. Oftalmol. Vis. Sci. 41(4), S39 (2000).

16. Navalpakkam, V. et al. Pengukuran dan pemodelan tingkah laku mata-tikus dengan adanya reka letak halaman tak linear. Dalam Proc. Int. Conf. WWW, 953–964 (2013).

17. Matzen, LE, Stites, MC & Gastelum, ZN Mempelajari carian visual tanpa penjejak mata: Penilaian foveasi buatan. Cogn. Res. Putera tersirat. 6(1), 1–22 (2021).

18. Tafi, AP et al. OCR sebagai perkhidmatan: Penilaian percubaan OCR Dokumen Google, Tesseract, ABBYY FineReader dan Transym. Dalam Int. Symp. Vis. Comput., 735–746 (Springer, 2016).

19. Memon, J., Sami, M., Khan, RA & Uddin, M. Pengecaman aksara optik tulisan tangan (OCR): Kajian literatur sistematik (SLR) yang komprehensif. Akses IEEE 8, 142642–142668 (2020).

20. Chaudhuri, A., Mandaviya, K., Badelia, P. & Ghosh, SK Sistem pengecaman aksara optik. Dalam Sistem Pengecaman Aksara Optik untuk Bahasa Berbeza dengan Pengkomputeran Sof, 9–41 (Springer, 2017).

21. LeCun, Y. et al. Pembelajaran berasaskan kecerunan digunakan untuk pengecaman dokumen. Proc. IEEE 86(11), 2278–2324 (1998).

22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: Lanjutan daripada MNIST kepada huruf tulisan tangan. arXiv:1702.05373, (2017).

23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: Rangkaian saraf berulang untuk penjanaan imej. Dalam ICML, 1462–1471 (2015).

24. Friston, K. Prinsip tenaga bebas: Panduan kasar kepada otak?. Trend Cogn. Sci. 13(7), 293–301 (2009).

25. Mirza, MB, Adams, RA, Friston, K. & Parr, T. Memperkenalkan model Bayesian perhatian terpilih berdasarkan inferens aktif. Sci. Rep. 9(1), 1–22 (2019).

26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. Apakah metrik penilaian yang berbeza memberitahu kita tentang model saliency? IEEE Trans. Corak Dubur. Mach. Intell. 41(3), 740–757 (2018).

27. Itti, L. & Koch, C. Pemodelan pengiraan perhatian visual. Nat. Rev. Neurosci. 2(3), 194–203 (2001).

28. Lamme, VAF Fungsi visual menjana penglihatan sedar. Depan. Psychol., 11, (2020).

29. da Silva, MRD & Postma, M. Fikiran mengembara, tikus mengembara: Penjejakan tetikus komputer sebagai kaedah untuk mengesan pengembaraan fikiran. Pengiraan. Hum. perangai. 112, 106453 (2020).

30. Schütz, AC, Braun, DI & Gegenfurtner, KR Pergerakan dan persepsi mata: Kajian terpilih. J. Vis. 11(5), 9–9 (2011).

31. Intoy, J. & Rucci, M. Pergerakan mata yang ditala halus meningkatkan ketajaman penglihatan. Nat. Commun. 11(1), 1–11 (2020).

Anda mungkin juga berminat