GPT-2
«این مقاله در حال ترجمه از ویکی انگلیسی است لطفاً حذف نشود.» ترسنفورمر تولیدگر از پیش آموزش دیده 2 (Generative Pre-trained Transformer) به اختصار (GPT-2) یک هوش مصنوعی منبع باز است که توسط اوپن ای آی در فوریه ۲۰۱۹ ایجاد شد.[۱] GPT-2 متن را ترجمه میکند، به سؤالات پاسخ میدهد، متنها را خلاصه میکند و خروجی متن را در سطحی تولید میکند که اگرچه گاهی از سطح انسان قابل تشخیص نیست میتواند هنگام ایجاد متنهای طولانی تکراری یا بیمعنی شود. این ترنسفورمر یک هوش جامع مصنوعی است و بهطور خاص برای انجام هیچیک از این کارها آموزش ندیدهاست. GPT-2 بهعنوان «مقیاسسازی مستقیم» مدل GPT 2018 اوپن ای آی با افزایش ده برابری در تعداد پارامترها و اندازه مجموعه داده آموزشی آن ایجاد شد. معماری GPT یک شبکه عصبی عمیق و بهطور ویژه یک مدل ترانسفورماتور را پیادهسازی میکند که از توجه به جای معماریهای مبتنی بر بازگشت و پیچیدگی قبلی استفاده میکند. مکانیسمهای توجه به مدل اجازه میدهد تا بهطور انتخابی بر بخشهایی از متن ورودی که پیشبینی میکند مرتبطترین است تمرکز کند. این مدل امکان افزایش موازی سازی را فراهم میکند و از معیارهای قبلی برای مدلهای مبتنی بر شبکه عصبی بازگشتی، شبکه عصبی پیچشی، حافظه طولانی کوتاه-مدت، بهتر عمل میکند. اوپن ای آی نسخه کامل مدل زبان GPT-2 (با ۱٫۵ میلیارد پارامتر) را در نوامبر ۲۰۱۹ منتشر کرد. GPT-2 قرار بود با ۱۷۵ میلیارد پارامتر GPT-3 که در سال ۲۰۲۰ برای عموم آشکار شد (کد منبع آن هرگز در دسترس قرار نگرفتهاست) دنبال شود.[۲] دسترسی به GPT-3 منحصراً از طریق ای پی آیهای ارائه شده توسط اوپن ای آی و مایکروسافت ارائه میشود.[۳]
زمینه[ویرایش]
از زمان پیدایش محاسبات، هوش مصنوعی موضوع مطالعه بودهاست. «بازی تقلید» که توسط آلن تورینگ در سال ۱۹۵۰ فرض شد (و اغلب به آن «آزمون تورینگ» میگویند) پیشنهاد کرد ظرفیت یک سیستم الکترونیکی یا مکانیکی را برای کنش هوشمند با توانایی یک ارزیاب در تشخیص رفتار خود از رفتار یک انسان ایجاد کند.[۴] اصطلاح یادگیری ماشینی" برای اولین بار در سال ۱۹۵۹ توسط محقق آی بی ام، آرتور ساموئل، برای توصیف یک رویکرد احتمالی مشکلات محاسباتی به هوش مصنوعی اضافه شد.
ترانسفورماتور مولد از پیش آموزش دیده[ویرایش]
در ۱۱ ژوئن ۲۰۱۸، اوپن ای آی مقالهای با عنوان «بهبود درک زبان توسط پیشآموزش مولد» منتشر کرد، که در آن ترانسفورماتور پیشآموزشی مولد (GPT) را معرفی کرد.[۵] در این مرحله، مدلهای ان ال پی عصبی با بهترین عملکرد، عمدتاً از یادگیری نظارت شده از مقادیر زیادی از دادههای برچسبگذاری شده بهصورت دستی استفاده میکردند. این وابستگی به یادگیری تحت نظارت، استفاده از آنها را در مجموعههای دادهای که به خوبی حاشیهنویسی نشده بودند محدود میکرد، علاوه بر آن آموزش مدلهای بسیار بزرگ را بسیار پرهزینه و زمانبرمیکرد. ترجمه و تفسیر بسیاری از زبانها (مانند سواحیلی یا کریول هائیتی) با استفاده از این مدلها به دلیل کمبود متن موجود برای پیکرهسازی زبان دشوار بود. در مقابل، رویکرد «نیمه نظارتشده» GPT شامل دو مرحله است: مرحله «پیشآموزشی» مولد بدون نظارت که در آن از مدلسازی زبان برای تنظیم پارامترهای اولیه استفاده میشود، و مرحله «تنظیم دقیق» نظارتی که در آن این پارامترها انجام میشود. با یک کار هدف سازگار شدند.
استفاده از معماری ترانسفورماتور، برخلاف تکنیکهای قبلی که شامل آر ان انهای تقویتشده با مکانیزم توجه بود، حافظه ساختار یافتهتری را برای GPT فراهم کرد که از طریق مکانیسمهای مکرر به دست میآمد. این منجر به «عملکرد انتقال قوی در بین وظایف مختلف» شد.
- ↑ «OpenAI releases curtailed version of GPT-2 language model». VentureBeat (به English). ۲۰۱۹-۰۸-۲۰. دریافتشده در ۲۰۲۲-۱۱-۲۱.صفحه پودمان:Citation/CS1/fa/styles.css محتوایی ندارد.
- ↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish (2020-07-22). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs].صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ "OpenAI is giving Microsoft exclusive access to its GPT-3 language model". MIT Technology Review (به English). Retrieved 2022-11-21.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
- ↑ خطای لوآ در پودمان:Citation/CS1/fa/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
- ↑ «SEM1A5 - Part 1 - A brief history of NLP». www.cs.bham.ac.uk. دریافتشده در ۲۰۲۲-۱۱-۲۱.صفحه پودمان:Citation/CS1/fa/styles.css محتوایی ندارد.
This article "GPT-2" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:GPT-2. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.