درک کننده
ادراک کننده (به انگلیسی: Perceiver) یک ترانسفورمر است که قادر به پردازش دادههای غیر متنی مانند تصاویر، صداها و ویدئو و دادههای مکانی است. ترانسفورمرها زیربنای سیستمهای قابل توجه دیگری مانند برت و جیپیتی-۳ هستند که قبل از Perceiver بودند.[۱] این یک مکانیسم یادگیری نامتقارن را برای پالایش ورودیها در یک گلوگاه نهفته اتخاذ میکند و به آن امکان میدهد از مقادیر زیادی دادههای ناهمگن یاد بگیرد. Perceiver با مدلهای تخصصی در وظایف طبقهبندی مطابقت دارد یا بهتر عمل میکند.[۲]
تاریخ[ویرایش]
Perceiver در ژوئن ۲۰۲۱ توسط DeepMind معرفی شد.[۲] در اوت ۲۰۲۱ توسط Perceiver IO دنبال شد.[۳]
طرح[ویرایش]
Perceiver بدون عناصر خاص مدالیته طراحی شدهاست. به عنوان مثال، عناصر تخصصی برای پردازش تصاویر، متن یا صدا ندارد. علاوه بر این، میتواند چندین جریان ورودی مرتبط از انواع ناهمگن را مدیریت کند. از مجموعه کوچکی از واحدهای مرتبط استفاده میکند که یک گلوگاه توجه را تشکیل میدهد که ورودیها باید از آن عبور کنند. یک مزیت آن این است که مشکل پوسته پوسته شدن درجه دوم را که در ترانسفورماتورهای اولیه یافت میشود، حذف میشود. کارهای قبلی از استخراج کننده ویژگی سفارشی برای هر مدالیته استفاده میکردند.[۲]
این ویژگی موقعیت و حالت خاص را با هر عنصر ورودی (به عنوان مثال هر پیکسل یا نمونه صوتی) مرتبط میکند. این ویژگیها را میتوان با استفاده از ویژگیهای فوریه با دقت و کیفیت بالا آموخت یا ساخت.[۲]
Perceiver از توجه متقابل برای تولید لایههای پیچیدگی خطی و جدا کردن عمق شبکه از اندازه ورودی استفاده میکند. این جداساز امکان معماریهای عمیقتری را فراهم میکند.[۲]
کارایی[ویرایش]
عملکرد Perceiver با ResNet -50 و ViT در ImageNet بدون پیچیدگی دو بعدی قابل مقایسه است. به ۵۰۰۰۰ پیکسل توجه میکند. در همه حالتها در AudioSet قابل رقابت است.[۲]
جستارهای وابسته[ویرایش]
پیوند به بیرون[ویرایش]
- DeepMind Perceiver and Perceiver IO | Paper Explained در یوتیوب
- Perceiver: General Perception with Iterative Attention (Google DeepMind Research Paper Explained) در یوتیوب, with the Fourier features explained in more detail
This article "درک کننده" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:درک کننده. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.
- ↑ Ray, Tiernan. "Google's Supermodel: DeepMind Perceiver is a step on the road to an AI machine that could process anything and everything". ZDNet (به English). Retrieved 2021-08-19.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ ۲٫۰ ۲٫۱ ۲٫۲ ۲٫۳ ۲٫۴ ۲٫۵ Jaegle. "Perceiver: General Perception with Iterative Attention". MISSING LINK..
- ↑ Jaegle. "Perceiver IO: A General Architecture for Structured Inputs & Outputs". arXiv:2107.14795.