ایمنی هوش مصنوعی

ایمنی هوش مصنوعی یک زمینه بین رشته‌ای است که با پیشگیری از حوادث، سوء استفاده یا سایر پیامدهای مضری که می‌تواند از سیستم‌های هوش مصنوعی (AI) ایجاد شود، مرتبط است. این شامل اخلاق ماشینی و همسویی هوش مصنوعی است که هدف آن اخلاقی و سودمند ساختن سیستم های هوش مصنوعی است و ایمنی هوش مصنوعی شامل مشکلات فنی از جمله سیستم های نظارت بر خطرات و قابل اعتماد ساختن آنها می شود. فراتر از تحقیقات هوش مصنوعی، شامل توسعه هنجارها و سیاست هایی است که ایمنی را ارتقا می دهد.

انگیزه ها[ویرایش]

محققان هوش مصنوعی نظرات بسیار متفاوتی در مورد شدت و منابع اولیه خطر ناشی از فناوری هوش مصنوعی دارند - اگرچه نظرسنجی ها نشان می دهد که کارشناسان خطرات با پیامدهای بالا را جدی می گیرند. در دو نظرسنجی از محققان هوش مصنوعی، پاسخ‌دهندگان متوسط به هوش مصنوعی به طور کلی خوش‌بین بودند، اما احتمال 5 درصد را در مورد نتیجه «بسیار بد (مثلاً انقراض انسان)» هوش مصنوعی پیشرفته قرار دادند. در یک نظرسنجی در سال 2022 از جامعه پردازش زبان طبیعی (NLP)، 37 درصد موافق یا ضعیف موافق بودند که قابل قبول است که تصمیمات هوش مصنوعی می تواند به فاجعه ای منجر شود که «حداقل به بدی یک جنگ هسته ای تمام عیار است». محققان در مورد خطرات فعلی ناشی از خرابی سیستم های حیاتی، سوگیری، و نظارت فعال با هوش مصنوعی بحث می کنند. خطرات نوظهور ناشی از بیکاری تکنولوژیکی، دستکاری دیجیتال و سلاح‌سازی؛ و خطرات احتمالی ناشی از از دست دادن کنترل عوامل هوش مصنوعی عمومی (AGI) در آینده.

برخی از نگرانی‌ها در مورد AGI انتقاد کرده‌اند، مانند استاد کمکی دانشگاه استنفورد، اندرو نگ، که آنها را با "نگرانی در مورد جمعیت بیش از حد در مریخ در زمانی که ما هنوز حتی پا به این سیاره نگذاشته‌ایم" مقایسه کرد. دیگران، مانند استاد دانشگاه کالیفرنیا، برکلی، استوارت جی. راسل، احتیاط را توصیه می کنند و استدلال می کنند که "بهتر است نبوغ انسان را پیش بینی کنیم تا آن را دست کم بگیریم."

زمینه[ویرایش]

خطرات ناشی از هوش مصنوعی در آغاز عصر رایانه به طور جدی مورد بحث قرار گرفت:

از سال 2008 تا 2009، AAAI یک مطالعه را برای بررسی و رسیدگی به تأثیرات اجتماعی بلندمدت تحقیق و توسعه هوش مصنوعی سفارش داد. این هیئت عموماً نسبت به نظرات رادیکال بیان شده توسط نویسندگان داستان های علمی-تخیلی تردید داشتند، اما موافقت کردند که "تحقیقات اضافی در مورد روش هایی برای درک و تأیید دامنه رفتارهای سیستم های محاسباتی پیچیده برای به حداقل رساندن نتایج غیرمنتظره ارزشمند است."

در سال 2011، رومن یامپولسکی اصطلاح "مهندسی ایمنی AI" را در کنفرانس فلسفه و تئوری هوش مصنوعی معرفی کرد و شکست های قبلی سیستم های هوش مصنوعی را فهرست کرد و استدلال کرد که "تکرار و جدیت چنین رویدادهایی با افزایش توانایی هوش مصنوعی به طور پیوسته افزایش می یابد."

فیلسوف نیک بوستروم در سال 2014 کتاب فوق هوش: مسیرها، خطرات، استراتژی ها را منتشر کرد. استدلال او مبنی بر اینکه سیستم های پیشرفته آینده ممکن است وجود انسان را تهدید کند، ایلان ماسک، بیل گیتس و استیون هاوکینگ را بر آن داشت تا نگرانی های مشابهی را بیان کنند.

در سال 2015، ده‌ها کارشناس هوش مصنوعی نامه‌ای سرگشاده درباره هوش مصنوعی امضا کردند که در آن خواستار تحقیق در مورد تأثیرات اجتماعی هوش مصنوعی و تشریح مسیرهای مشخص شدند. تا به امروز، این نامه توسط بیش از 8000 نفر از جمله Yann LeCun، Shane Legg، Yoshua Bengio و Stuart Russell امضا شده است.

در همان سال، گروهی از دانشگاهیان به رهبری پروفسور استوارت راسل، مرکز هوش مصنوعی سازگار با انسان را در برکلی تأسیس کردند و موسسه آینده زندگی 6.5 میلیون دلار کمک مالی برای تحقیقاتی با هدف "اطمینان از ایمن ماندن هوش مصنوعی (AI) اعطا کرد. اخلاقی و سودمند است."

در سال 2016، دفتر سیاست علم و فناوری کاخ سفید و دانشگاه کارنگی ملون کارگاه عمومی ایمنی و کنترل برای هوش مصنوعی را اعلام کردند که یکی از توالی چهار کارگاه آموزشی کاخ سفید با هدف بررسی "مزایا و معایب" هوش مصنوعی بود. . در همان سال، Concrete Problems in AI Safety – یکی از اولین و تاثیرگذارترین دستور کارهای فنی ایمنی هوش مصنوعی – منتشر شد.

در سال 2017، موسسه Future of Life از کنفرانس Asilomar در مورد هوش مصنوعی سودمند حمایت کرد، جایی که بیش از 100 رهبر فکری اصولی را برای هوش مصنوعی سودمند تدوین کردند، از جمله "اجتناب از مسابقه: تیم هایی که سیستم های هوش مصنوعی را توسعه می دهند باید فعالانه همکاری کنند تا از زیر پا گذاشتن استانداردهای ایمنی جلوگیری کنند."

در سال 2018، تیم DeepMind Safety مشکلات ایمنی هوش مصنوعی را در مشخصات، استحکام و اطمینان بیان کرد. در سال بعد، محققان کارگاهی را در ICLR ترتیب دادند که بر این حوزه های مشکل تمرکز داشت.

کانون های تحقیق[ویرایش]

حوزه های تحقیقاتی ایمنی هوش مصنوعی شامل استحکام، نظارت و همسویی است. استحکام مربوط به قابل اطمینان ساختن سیستم‌ها است، نظارت بر پیش‌بینی خرابی‌ها یا شناسایی سوء استفاده است، و همسویی بر حصول اطمینان از داشتن اهداف سودمند متمرکز است.

نیرومندی[ویرایش]

تحقیقات استحکام بر حصول اطمینان از اینکه سیستم‌های هوش مصنوعی در طیف گسترده‌ای از موقعیت‌های مختلف، که شامل مشکلات فرعی زیر است، همانطور که در نظر گرفته شده است، رفتار می‌کنند:

استحکام قو سیاه: سیستم‌های ساختمانی که در موقعیت‌های نادر طبق خواسته رفتار می‌کنند.

استحکام خصمانه: طراحی سیستم هایی برای انعطاف پذیری در برابر ورودی هایی که عمداً برای شکست آنها انتخاب شده اند.

استحکام قو سیاه[ویرایش]

ورودی‌های نادر می‌توانند باعث خرابی فاجعه‌بار سیستم‌های هوش مصنوعی شوند. به عنوان مثال، در سقوط فلش در سال 2010، سیستم های معاملاتی خودکار به طور غیرمنتظره ای نسبت به انحرافات بازار واکنش بیش از حد نشان دادند و یک تریلیون دلار ارزش سهام را در عرض چند دقیقه از بین بردند. توجه داشته باشید که برای تحقق این امر نیازی به تغییر توزیع نیست. خرابی قو سیاه می تواند به دلیل طولانی بودن داده های ورودی اتفاق بیفتد، که اغلب در محیط های واقعی اتفاق می افتد. وسایل نقلیه خودران همچنان با «موردهای گوشه‌ای» که ممکن است در حین آموزش ظاهر نشده باشند، مبارزه می‌کنند. به عنوان مثال، یک وسیله نقلیه ممکن است یک علامت توقف را که به عنوان یک شبکه LED روشن می شود، نادیده بگیرد. اگرچه مشکلاتی از این دست ممکن است با ایجاد درک بهتری از جهان توسط سیستم‌های یادگیری ماشینی حل شوند، برخی از محققان خاطرنشان می‌کنند که حتی انسان‌ها اغلب در واکنش مناسب به رویدادهای بی‌سابقه‌ای مانند همه‌گیری COVID-19 شکست می‌خورند و استدلال می‌کنند که استحکام قو سیاه پایدار خواهد بود. مشکل ایمنی

استحکام خصمانه[ویرایش]

سیستم‌های هوش مصنوعی اغلب در برابر نمونه‌های متخاصم یا «ورودی‌های مدل‌های یادگیری ماشینی که یک مهاجم عمداً طراحی کرده است تا مدل را دچار اشتباه کند» آسیب‌پذیر هستند. به عنوان مثال، در سال 2013، Szegedy و همکاران. دریافتند که افزودن اغتشاشات نامحسوس خاص به یک تصویر می‌تواند باعث شود که با اطمینان بالا طبقه‌بندی اشتباه شود. این مشکل همچنان در مورد شبکه‌های عصبی وجود دارد، اگرچه در کار اخیر آشفتگی‌ها عموماً به اندازه‌ای بزرگ هستند که قابل درک باشند.

نظارت[ویرایش]

نظارت بر پیش‌بینی خرابی‌های سیستم هوش مصنوعی متمرکز است تا بتوان از آنها جلوگیری یا مدیریت کرد. مشکلات فرعی نظارت عبارتند از پرچم‌گذاری زمانی که سیستم‌ها نامشخص هستند، تشخیص استفاده مخرب، درک عملکرد درونی سیستم‌های هوش مصنوعی جعبه سیاه، و شناسایی عملکردهای پنهانی که توسط یک عامل مخرب کار گذاشته شده است. [نیازمند منبع]

تخمین عدم قطعیت[ویرایش]

اغلب برای اپراتورهای انسانی مهم است که بسنجند تا چه اندازه باید به یک سیستم هوش مصنوعی اعتماد کنند، به خصوص در تنظیمات پرمخاطره مانند تشخیص پزشکی. مدل‌های ML معمولاً با خروجی احتمالات، اطمینان را بیان می‌کنند. با این حال، آنها اغلب بیش از حد اعتماد به نفس دارند، به خصوص در موقعیت هایی که با موقعیت هایی که برای رسیدگی به آنها آموزش دیده اند متفاوت است. هدف تحقیق کالیبراسیون این است که احتمالات مدل را تا حد امکان با نسبت واقعی که مدل صحیح است مطابقت دهد.

به طور مشابه، تشخیص ناهنجاری یا تشخیص خارج از توزیع (OOD) با هدف شناسایی زمانی است که یک سیستم هوش مصنوعی در یک موقعیت غیرعادی قرار دارد. به عنوان مثال، اگر یک سنسور در یک وسیله نقلیه خودران دچار اختلال شود، یا با زمین های چالش برانگیز مواجه شود، باید به راننده هشدار دهد که کنترل را به دست بگیرد یا جلوی آن را بگیرد. تشخیص ناهنجاری به سادگی با آموزش یک طبقه‌بندی کننده برای تشخیص ورودی‌های غیرعادی و غیرعادی اجرا شده است، اگرچه چندین تکنیک دیگر در حال استفاده هستند.

شناسایی استفاده مخرب[ویرایش]

محققان و سازمان‌های دولتی ابراز نگرانی کرده‌اند که سیستم‌های هوش مصنوعی می‌توانند برای کمک به عوامل مخرب برای ساخت سلاح، دستکاری افکار عمومی یا خودکارسازی حملات سایبری استفاده شوند. این نگرانی ها یک نگرانی عملی برای شرکت هایی مانند OpenAI است که ابزارهای قدرتمند هوش مصنوعی را به صورت آنلاین میزبانی می کنند. به منظور جلوگیری از سوء استفاده، OpenAI سیستم های تشخیصی ساخته است که کاربران را بر اساس فعالیت آنها پرچم گذاری یا محدود می کند.

شفافیت[ویرایش]

شبکه‌های عصبی اغلب به‌عنوان جعبه‌های سیاه توصیف می‌شوند، به این معنی که درک اینکه چرا آنها تصمیم‌هایی را که انجام می‌دهند در نتیجه تعداد انبوه محاسباتی که انجام می‌دهند، دشوار است. این امر پیش بینی شکست ها را چالش برانگیز می کند. در سال 2018، یک خودروی خودران، یک عابر پیاده را پس از ناتوانی در شناسایی آنها، کشت. با توجه به ماهیت جعبه سیاه نرم افزار هوش مصنوعی، دلیل خرابی همچنان نامشخص است.

یکی از مزایای شفافیت، توضیح پذیری است. گاهی اوقات ارائه توضیحی برای چرایی تصمیم گیری به منظور اطمینان از انصاف، برای مثال برای فیلتر کردن خودکار درخواست های شغلی یا تخصیص امتیاز اعتباری، یک الزام قانونی است.

فایده دیگر این است که علت خرابی ها را آشکار کنید. در آغاز همه‌گیری COVID-19 2020، محققان از ابزارهای شفاف‌سازی استفاده کردند تا نشان دهند که طبقه‌بندی‌کننده‌های تصویر پزشکی به برچسب‌های بیمارستانی نامربوط توجه می‌کنند.

از تکنیک های شفافیت نیز می توان برای تصحیح خطاها استفاده کرد. به عنوان مثال، در مقاله «مکانیابی و ویرایش ارتباطات واقعی در GPT»، نویسندگان قادر به شناسایی پارامترهای مدلی بودند که بر نحوه پاسخگویی به سؤالات مربوط به مکان برج ایفل تأثیر می‌گذاشتند. سپس آنها توانستند این دانش را "ویرایش" کنند تا مدل را به سوالات پاسخ دهد که گویی معتقد است برج به جای فرانسه در رم است. اگرچه در این مورد، نویسندگان یک خطا را القا کردند، این روش ها به طور بالقوه می توانند برای رفع موثر آنها استفاده شوند. تکنیک های ویرایش مدل در بینایی کامپیوتر نیز وجود دارد.

در نهایت، برخی استدلال کرده‌اند که غیرشفاف بودن سیستم‌های هوش مصنوعی منبع مهمی از خطر و درک بهتر این است که چگونه عملکرد آنها می‌تواند از خرابی‌های با پیامدهای بالا در آینده جلوگیری کند. هدف تحقیق تفسیرپذیری «درونی» این است که مدل‌های ML را کمتر مبهم کند. یکی از اهداف این تحقیق، شناسایی آنچه که فعال‌سازی‌های عصبی داخلی نشان می‌دهند است. به عنوان مثال، محققان نورونی را در CLIP شناسایی کردند که به تصاویر افراد در لباس‌های مرد عنکبوتی، طرح‌های مرد عنکبوتی و کلمه «عنکبوت» پاسخ می‌دهد. همچنین شامل توضیح ارتباطات بین این نورون‌ها یا «مدارها» است. برای مثال، محققان مکانیسم‌های تطبیق الگو را در توجه ترانسفورماتور شناسایی کرده‌اند که ممکن است در نحوه یادگیری مدل‌های زبان از بافت خود نقش داشته باشد. "تفسیرپذیری درونی" با علوم اعصاب مقایسه شده است. در هر دو مورد، هدف این است که بفهمیم در یک سیستم پیچیده چه اتفاقی می‌افتد، اگرچه محققان ML از این مزیت برخوردارند که می‌توانند اندازه‌گیری‌های کامل را انجام دهند و فرسایش‌های دلخواه را انجام دهند.

شناسایی تروجان ها[ویرایش]

مدل‌های ML به طور بالقوه می‌توانند حاوی «تروجان‌ها» یا «درهای پشتی» باشند: آسیب‌پذیری‌هایی که عوامل مخرب به طور مخرب در یک سیستم هوش مصنوعی ایجاد می‌کنند. به عنوان مثال، یک سیستم تشخیص چهره تروجان می‌تواند دسترسی به جواهرات خاصی را فراهم کند. یا یک وسیله نقلیه خودمختار تروجان ممکن است به طور معمول تا زمانی که یک ماشه خاص قابل مشاهده باشد کار کند. توجه داشته باشید که یک حریف باید به داده های آموزشی سیستم دسترسی داشته باشد تا بتواند تروجان را نصب کند. انجام این کار با برخی از مدل های بزرگ مانند CLIP یا GPT-3 ممکن است دشوار نباشد زیرا آنها بر روی داده های اینترنتی در دسترس عموم آموزش داده شده اند. محققان توانستند با تغییر تنها 3 مورد از 3 میلیون تصویر آموزشی، یک تروجان را در طبقه بندی کننده تصویر بکارند. علاوه بر ایجاد خطر امنیتی، محققان استدلال کرده‌اند که تروجان‌ها یک محیط مشخص برای آزمایش و توسعه ابزارهای نظارتی بهتر ارائه می‌دهند.

This article "ایمنی هوش مصنوعی" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:ایمنی هوش مصنوعی. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.

Facebook Page

Follow us on Twitter !

Read or create/edit this page in another language[ویرایش]

ایمنی هوش مصنوعی in English