You can edit almost every page by Creating an account. Otherwise, see the FAQ.

GPT-2

از EverybodyWiki Bios & Wiki
پرش به:ناوبری، جستجو

«این مقاله در حال ترجمه از ویکی انگلیسی است لطفاً حذف نشود.» ترسنفورمر تولیدگر از پیش آموزش دیده 2 (Generative Pre-trained Transformer) به اختصار (GPT-2) یک هوش مصنوعی منبع باز است که توسط اوپن ای آی در فوریه ۲۰۱۹ ایجاد شد.[۱] GPT-2 متن را ترجمه می‌کند، به سؤالات پاسخ می‌دهد، متن‌ها را خلاصه می‌کند و خروجی متن را در سطحی تولید می‌کند که اگرچه گاهی از سطح انسان قابل تشخیص نیست می‌تواند هنگام ایجاد متن‌های طولانی تکراری یا بی‌معنی شود. این ترنسفورمر یک هوش جامع مصنوعی است و به‌طور خاص برای انجام هیچ‌یک از این کارها آموزش ندیده‌است. GPT-2 به‌عنوان «مقیاس‌سازی مستقیم» مدل GPT 2018 اوپن ای آی با افزایش ده برابری در تعداد پارامترها و اندازه مجموعه داده آموزشی آن ایجاد شد. معماری GPT یک شبکه عصبی عمیق و به‌طور ویژه یک مدل ترانسفورماتور را پیاده‌سازی می‌کند که از توجه به جای معماری‌های مبتنی بر بازگشت و پیچیدگی قبلی استفاده می‌کند. مکانیسم‌های توجه به مدل اجازه می‌دهد تا به‌طور انتخابی بر بخش‌هایی از متن ورودی که پیش‌بینی می‌کند مرتبط‌ترین است تمرکز کند. این مدل امکان افزایش موازی سازی را فراهم می‌کند و از معیارهای قبلی برای مدل‌های مبتنی بر شبکه عصبی بازگشتی، شبکه عصبی پیچشی، حافظه طولانی کوتاه-مدت، بهتر عمل می‌کند. اوپن ای آی نسخه کامل مدل زبان GPT-2 (با ۱٫۵ میلیارد پارامتر) را در نوامبر ۲۰۱۹ منتشر کرد. GPT-2 قرار بود با ۱۷۵ میلیارد پارامتر GPT-3 که در سال ۲۰۲۰ برای عموم آشکار شد (کد منبع آن هرگز در دسترس قرار نگرفته‌است) دنبال شود.[۲] دسترسی به GPT-3 منحصراً از طریق ای پی آی‌های ارائه شده توسط اوپن ای آی و مایکروسافت ارائه می‌شود.[۳]

زمینه[ویرایش]

از زمان پیدایش محاسبات، هوش مصنوعی موضوع مطالعه بوده‌است. «بازی تقلید» که توسط آلن تورینگ در سال ۱۹۵۰ فرض شد (و اغلب به آن «آزمون تورینگ» می‌گویند) پیشنهاد کرد ظرفیت یک سیستم الکترونیکی یا مکانیکی را برای کنش هوشمند با توانایی یک ارزیاب در تشخیص رفتار خود از رفتار یک انسان ایجاد کند.[۴] اصطلاح یادگیری ماشینی" برای اولین بار در سال ۱۹۵۹ توسط محقق آی بی ام، آرتور ساموئل، برای توصیف یک رویکرد احتمالی مشکلات محاسباتی به هوش مصنوعی اضافه شد.

ترانسفورماتور مولد از پیش آموزش دیده[ویرایش]

در ۱۱ ژوئن ۲۰۱۸، اوپن ای آی مقاله‌ای با عنوان «بهبود درک زبان توسط پیش‌آموزش مولد» منتشر کرد، که در آن ترانسفورماتور پیش‌آموزشی مولد (GPT) را معرفی کرد.[۵] در این مرحله، مدل‌های ان ال پی عصبی با بهترین عملکرد، عمدتاً از یادگیری نظارت شده از مقادیر زیادی از داده‌های برچسب‌گذاری شده به‌صورت دستی استفاده می‌کردند. این وابستگی به یادگیری تحت نظارت، استفاده از آن‌ها را در مجموعه‌های داده‌ای که به خوبی حاشیه‌نویسی نشده بودند محدود می‌کرد، علاوه بر آن آموزش مدل‌های بسیار بزرگ را بسیار پرهزینه و زمان‌برمی‌کرد. ترجمه و تفسیر بسیاری از زبان‌ها (مانند سواحیلی یا کریول هائیتی) با استفاده از این مدل‌ها به دلیل کمبود متن موجود برای پیکره‌سازی زبان دشوار بود. در مقابل، رویکرد «نیمه نظارت‌شده» GPT شامل دو مرحله است: مرحله «پیش‌آموزشی» مولد بدون نظارت که در آن از مدل‌سازی زبان برای تنظیم پارامترهای اولیه استفاده می‌شود، و مرحله «تنظیم دقیق» نظارتی که در آن این پارامترها انجام می‌شود. با یک کار هدف سازگار شدند.

استفاده از معماری ترانسفورماتور، برخلاف تکنیک‌های قبلی که شامل آر ان ان‌های تقویت‌شده با مکانیزم توجه بود، حافظه ساختار یافته‌تری را برای GPT فراهم کرد که از طریق مکانیسم‌های مکرر به دست می‌آمد. این منجر به «عملکرد انتقال قوی در بین وظایف مختلف» شد.

  1. «OpenAI releases curtailed version of GPT-2 language model». VentureBeat (به English). ۲۰۱۹-۰۸-۲۰. دریافت‌شده در ۲۰۲۲-۱۱-۲۱.صفحه پودمان:Citation/CS1/fa/styles.css محتوایی ندارد.
  2. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish (2020-07-22). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs].صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
  3. "OpenAI is giving Microsoft exclusive access to its GPT-3 language model". MIT Technology Review (به English). Retrieved 2022-11-21.صفحه پودمان:Citation/CS1/en/styles.css محتوایی ندارد.
  4. خطای لوآ در پودمان:Citation/CS1/fa/Identifiers در خط 47: attempt to index field 'wikibase' (a nil value).
  5. «SEM1A5 - Part 1 - A brief history of NLP». www.cs.bham.ac.uk. دریافت‌شده در ۲۰۲۲-۱۱-۲۱.صفحه پودمان:Citation/CS1/fa/styles.css محتوایی ندارد.


This article "GPT-2" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:GPT-2. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.



Read or create/edit this page in another language[ویرایش]