You can edit almost every page by Creating an account. Otherwise, see the FAQ.

دید خود محوری

از EverybodyWiki Bios & Wiki
پرش به:ناوبری، جستجو

خطای اسکریپتی: پودمان «AfC submission catcheck» وجود ندارد.

دید خودمحور یا دید اول شخص یک زیرشاخه از بینایی رایانه ای است که مستلزم تجزیه و تحلیل عکس ها و فیلم هایی است که توسط دوربین های پوشیدنی ضبط شده است, که معمولا بر روی سر یا بر روی سینه بسته می شوند و به طور طبیعی به میدان دید فردی که دوربین را پوشیده است نزدیکتر می شود.در نتیجه,داده های بصری قسمتی از صحنه را ضبط کرده که کاربر بر روی ان متمرکز است تا کار مورد نظرش را به انجام رساند و چشم انداز باارزشی را برای درک فعالیت های کاربر و زمینه ی انها در غالب یک محیط طبیعی ارائه دهد.[۱]

دوربین های پوشیدنی که تصاویر رو به رویشان را ضبط می کنند, اغلب با دوربینی که به چشم کاربر نگاه می کنند کامل می شوند و این امکان به دوربین داده می شود که متوجه شود که چشمان کاربر به کجا خیره شده است,که برای آشکار کردن توجه و درک بهتر فعالیت و نیت های کاربر کارآمد است.

تاریخ[ویرایش]

ایده استفاده از دوربین های پوشیدنی برای گردآوری داده های بصری از دیگاه اول شخص به دهه ی 70 بر می گردد, زمانی که Steve Mann " چشم شیشه ای دیجیتالی" را اختراع کرد, دستگاهی که, زمانی که پوشیده میشود, باعث می شود که چشم انسان به طور موثری هم به یک دوربین الکترونیکی و هم به یک صفحه نمایش تلویزیون تبدیل شود.[۲]

بعد از آن,دوربین های پوشیدنی برای نرم افزارهای مرتبط با سلامت در زمینه هوش انسانی [۳] و هوش مصنوعی پوشیدنی [۴] مورد استفاده قرار گرفتند.بهترین حالت برای دید خود محور از نقطه ی چشم انجام میشود,اما ممکن است از طریق دوربینی که به گردن بسته شده است نیز استفاده شود, زمانی که عینک دیجیتالی در راه است.[۵]این نوع از دوربین های گردنی از طریق Microsoft SenseCam در سال 2006 برای امور تحقیقاتی تجربی مرتبت با سلامت رایج شد.[۶]علاقه جامعه بینایی کامپیوتر به نمونه های خودمحور با ورود به دهه 2010 به صورت ارامی درحال افزایش بود و به گونه ای که در سال های گذشته به سرعت در حال افزایش است,[۷] که با پیشرفت چمشگیر در زمینه فناوری های پوشیدنی و افزایش تعداد برنامه های کاربردی دارای پتانسیل تقویت شده است.

اولین نمونه سیستم بینایی اول شخص توسط مانادا و هبرت [۸] که در سال 2012 معرفی شد,که از سه مؤلفه ی اصلی تشکیل شده,یک مؤلفه محلی ساز, که می تواند محیط اطراف را تخمین بزند، یک مؤلفه شناسایی که می تواند اشیاء و افراد را شناسایی کند و در نهایت یک مؤلفه تشخیص تحرک که می تواند اطلاعاتی در مورد تحرکات فعلی کاربر ارائه دهد.این سه جزء در کنار هم یک آگاهی کاملی از موقیعت کنونی کاربر فراهم میکند که به نوبه خود می تواند برای ارائه کمک به خود یا مراقب استفاده شود. به دنبال این ایده، اولین تکنیک های محاسباتی برای انالیز یا تجزیه و تحلیل خود محوری بر روی تشخیص دادن فعالیت های مرتبط با دست [۹] و تجزیه و تحلیل تعامل اجتماعی متمرکز شد.[۱۰] همچنین با توجه به ذات نامحدود فیلم ها و حجم عظیمی ار داده هایی که تولید می شوند,تقسیم بندی زمانی [۱۱] و خلاصه سازی [۱۲] از اولین مشکلاتی بود که به آن پرداخته شد.تقریبا بعد از گذشت 10 سال از بینایی خودمحور(2017-2007), این حوزه همچنان در حال گشسترش تنوع است.از جمله موضوعات تحقیقی نوپا عبارتند از :

  • برآورد برجستگی اجتماعی[۱۳]
  • سیستم های بینایی خود محور چند عاملی
  • تکنیک ها و برنامه های حفظ حریم خصوصی
  • تجزیه و تحلیل فعالیت بر اساس بر توجه[۱۴]
  • تجزیه و تحلیل تعاملات اجتماعی[۱۵]
  • تحلیل ژست دست[۱۶]
  • رابط های خودکاربری گرافیکی (EUI)[۱۷]
  • درک پویایی های اجتماعی و توجهات[۱۸]
  • بازبینی بینایی رباتیک و دید ماشینی به عنوان حس خود محوری[۱۹]
  • پیش بینی فعالیت[۲۰]

چالش های فنی[ویرایش]

تخمین حرکت دوربین

امروزه دوربین های پوشیدنی,دستگاه های ضبط کننده ی دیجیتالی ای هستند که سبک و کوچکند, که به صورت خودکار توانایی گرفتن عکس و فیلم را دارند بدون دخالت کاربر,بدون گوناگونی در رزولوشن و فریم و تصویری که از دیدگاه اول شخص نیست.از این رو, دوربین های پوشیدنی به صورت طبیعی برای جمع آوری اطلاعات بصری از کار های روزمره ی ما طراحی شده اند,زیرا چشم‌اندازی صمیمی از میدان بصری دارنده دوربین ارائه می‌دهند.

بسته به میزان نرخ تصویر یا فریم,توانایی تشخیص بین دوربین های عکاسی(مه به ان دوربین های زنده گیر می گویند) و دوربین های ویدیویی آسان است.

  • دستگاه های قبلی مانند Narrative Clip و Microsoft SenseCam , یه صورت بر روی سینه قرار می گرفتن که با نرخ فریم بسیار پایین(حداکثر 2 فریم در در دقیقه) توصیف می شوند که امکان ثبت تصاویر را در مدت زمان طولانی بدون نیاز به شارژ مجدد باتری فراهم میکند.در نتیجه، آنها پتانسیل قابل توجهی برای پی بررن به مواردی مانند الگوهای رفتاری,عادات یا سبک زندگی کاربر را دارند.با این حال,به دلیل نرخ فریم پایین و حرکت آزادانه دوربین، تصاویر موقتی متوالی معمولاً تغییرات ظاهری ناگهانی را نشان می‌دهند به طوری که ویژگی‌های حرکتی را نمی‌توان به طور قابل اعتماد تخمین زد.
  • بعدا ابزاری مانند Google Glass, GoPro , معمولا بر روی سر نصب می‌شوند و فیلم‌های معمولی (حدود 35 فریم در ثانیه) را ضبط می‌کنند که امکان ثبت جزئیات زمانی دقیق تعاملات را فراهم می‌کند.در نتیجه، آنها پتانسیل خوبی را برای تجزیه و تحلیل عمیق فعالیت های روزانه یا خاص ارائه می دهند. با این حال، از آنجایی که دوربین با سر فردی که ان را پوشیده حرکت می کند، تخمین حرکت سراسری فردی که ان را پوشیده دشوارتر می شود و در صورت حرکات ناگهانی، تصاویر می توانند تار شوند.

در هر دو مورد، از آنجایی که دوربین در یک حالت طبیعی پوشیده می‌شود، داده‌های بصری از نظر شرایط روشنایی و ظاهر جسم، گوناگونی های زیادی دارند. علاوه بر این، استفاده کننده از دوربین در تصویر قابل مشاهده نیست و کاری که او انجام می دهد باید از طریق داده های میدان بصری دوربین حدس زده شود، که به این معنی است که اطلاعات مهمی در مورد استفاده کننده، به عنوان مثال، تخمین ژست یا حالت صورت ، در دسترس نیست.

منابع[ویرایش]

  1. An Introduction to the 3rd Workshop on Egocentric (First-person) Vision, Steve Mann, Kris M. Kitani, Yong Jae Lee, M. S. Ryoo, and Alireza Fathi, IEEE Conference on Computer Vision and Pattern Recognition Workshops 2160-7508/14, 2014, IEEE doi:10.1109/CVPRW.2014.1338272014
  2. Mann, S. (1998). Humanistic computing:" WearComp" as a new framework and application for intelligent signal processing. Proceedings of the IEEE, 86(11), 2123-2151.
  3. Haykin, Simon S., and Bart Kosko. Intelligent signal processing. Wiley-IEEE Press, 2001.
  4. “Wearable AI”, Steve Mann, Li-Te Cheng, John Robinson, Kaoru Sumi, Toyoaki Nishida, Soichiro Matsushita, Ömer Faruk Özer, Oguz Özun, C. Öncel Tüzel, Volkan Atalay, A. Enis Cetin, Joshua Anhalt, Asim Smailagic, Daniel P. Siewiorek, Francine Gemperle, Daniel Salber, Weber, Jim Beck, Jim Jennings, and David A. Ross, IEEE Intelligent Systems 16(3), 2001, Pages 0(cover) to 53.
  5. Mann, S. (2000, October). Telepointer: Hands-free completely self-contained wearable visual augmented reality without headwear and without any infrastructural reliance. In Digest of Papers. Fourth International Symposium on Wearable Computers (pp. 177-178). IEEE.
  6. Doherty, A. R., Hodges, S. E., King, A. C., Smeaton, A. F., Berry, E., Moulin, C. J., ... & Foster, C. (2013). Wearable cameras in health. American Journal of Preventive Medicine, 44(3), 320-323.
  7. Bolanos, M., Dimiccoli, M., & Radeva, P. (2017). Toward storytelling from visual lifelogging: An overview. IEEE Transactions on Human-Machine Systems, 47(1), 77-90.
  8. Kanade, T., & Hebert, M. (2012). First-person vision. Proceedings of the IEEE, 100(8), 2442-2453.
  9. Fathi, A., Farhadi, A., & Rehg, J. M. (2011, November). Understanding egocentric activities. In Computer Vision (ICCV), 2011 IEEE International Conference on (pp. 407-414). IEEE.
  10. Fathi, A., Hodgins, J. K., & Rehg, J. M. (2012, June). Social interactions: A first-person perspective. In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on (pp. 1226-1233). IEEE.
  11. Poleg, Y., Arora, C., & Peleg, S. (2014). Temporal segmentation of egocentric videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2537-2544).
  12. Lee, Y. J., Ghosh, J., & Grauman, K. (2012, June). Discovering important people and objects for egocentric video summarization. In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on (pp. 1346-1353). IEEE.
  13. Park, H. S., Jain, E., & Sheikh, Y. (2012). 3d social saliency from head-mounted cameras. In Advances in Neural Information Processing Systems (pp. 422-430).
  14. Su, Y. C., & Grauman, K. (2016, October). Detecting engagement in egocentric video. In European Conference on Computer Vision (pp. 454-471). Springer International Publishing.
  15. Fathi, A., Hodgins, J. K., & Rehg, J. M. (2012, June). Social interactions: A first-person perspective. In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on (pp. 1226-1233). IEEE.
  16. Rogez, G., Supancic, J. S., & Ramanan, D. (2015). First-person pose recognition using egocentric workspaces. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4325-4333).
  17. Mann, S., Janzen, R., Ai, T., Yasrebi, S. N., Kawwa, J., & Ali, M. A. (2014, May). Toposculpting: Computational lightpainting and wearable computational photography for abakographic user interfaces. In Electrical and Computer Engineering (CCECE), 2014 IEEE 27th Canadian Conference on (pp. 1-10). IEEE.
  18. Bettadapura, V., Essa, I., & Pantofaru, C. (2015, January). Egocentric field-of-view localization using first-person point-of-view devices. In Applications of Computer Vision (WACV), 2015 IEEE Winter Conference on (pp. 626-633). IEEE
  19. Ji, P., Song, A., Xiong, P., Yi, P., Xu, X., & Li, H. (2017). Egocentric-vision based hand posture control system for reconnaissance robots. Journal of Intelligent & Robotic Systems, 87(3-4), 583-599.
  20. Bokhari, S. Z., & Kitani, K. M. (2016, November). Long-Term Activity Forecasting Using First-Person Vision. In Asian Conference on Computer Vision (pp. 346-360). Springer, Cham

خطای اسکریپتی: پودمان «AfC submission catcheck» وجود ندارد.


This article "دید خود محوری" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:دید خود محوری. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.



Read or create/edit this page in another language[ویرایش]