ایمنی هوش مصنوعی
ایمنی هوش مصنوعی یک زمینه بین رشتهای است که با پیشگیری از حوادث، سوء استفاده یا سایر پیامدهای مضری که میتواند از سیستمهای هوش مصنوعی (AI) ایجاد شود، مرتبط است. این شامل اخلاق ماشینی و همسویی هوش مصنوعی است که هدف آن اخلاقی و سودمند ساختن سیستم های هوش مصنوعی است و ایمنی هوش مصنوعی شامل مشکلات فنی از جمله سیستم های نظارت بر خطرات و قابل اعتماد ساختن آنها می شود. فراتر از تحقیقات هوش مصنوعی، شامل توسعه هنجارها و سیاست هایی است که ایمنی را ارتقا می دهد.
انگیزه ها[ویرایش]
محققان هوش مصنوعی نظرات بسیار متفاوتی در مورد شدت و منابع اولیه خطر ناشی از فناوری هوش مصنوعی دارند - اگرچه نظرسنجی ها نشان می دهد که کارشناسان خطرات با پیامدهای بالا را جدی می گیرند. در دو نظرسنجی از محققان هوش مصنوعی، پاسخدهندگان متوسط به هوش مصنوعی به طور کلی خوشبین بودند، اما احتمال 5 درصد را در مورد نتیجه «بسیار بد (مثلاً انقراض انسان)» هوش مصنوعی پیشرفته قرار دادند. در یک نظرسنجی در سال 2022 از جامعه پردازش زبان طبیعی (NLP)، 37 درصد موافق یا ضعیف موافق بودند که قابل قبول است که تصمیمات هوش مصنوعی می تواند به فاجعه ای منجر شود که «حداقل به بدی یک جنگ هسته ای تمام عیار است». محققان در مورد خطرات فعلی ناشی از خرابی سیستم های حیاتی، سوگیری، و نظارت فعال با هوش مصنوعی بحث می کنند. خطرات نوظهور ناشی از بیکاری تکنولوژیکی، دستکاری دیجیتال و سلاحسازی؛ و خطرات احتمالی ناشی از از دست دادن کنترل عوامل هوش مصنوعی عمومی (AGI) در آینده.
برخی از نگرانیها در مورد AGI انتقاد کردهاند، مانند استاد کمکی دانشگاه استنفورد، اندرو نگ، که آنها را با "نگرانی در مورد جمعیت بیش از حد در مریخ در زمانی که ما هنوز حتی پا به این سیاره نگذاشتهایم" مقایسه کرد. دیگران، مانند استاد دانشگاه کالیفرنیا، برکلی، استوارت جی. راسل، احتیاط را توصیه می کنند و استدلال می کنند که "بهتر است نبوغ انسان را پیش بینی کنیم تا آن را دست کم بگیریم."
زمینه[ویرایش]
خطرات ناشی از هوش مصنوعی در آغاز عصر رایانه به طور جدی مورد بحث قرار گرفت:
از سال 2008 تا 2009، AAAI یک مطالعه را برای بررسی و رسیدگی به تأثیرات اجتماعی بلندمدت تحقیق و توسعه هوش مصنوعی سفارش داد. این هیئت عموماً نسبت به نظرات رادیکال بیان شده توسط نویسندگان داستان های علمی-تخیلی تردید داشتند، اما موافقت کردند که "تحقیقات اضافی در مورد روش هایی برای درک و تأیید دامنه رفتارهای سیستم های محاسباتی پیچیده برای به حداقل رساندن نتایج غیرمنتظره ارزشمند است."
در سال 2011، رومن یامپولسکی اصطلاح "مهندسی ایمنی AI" را در کنفرانس فلسفه و تئوری هوش مصنوعی معرفی کرد و شکست های قبلی سیستم های هوش مصنوعی را فهرست کرد و استدلال کرد که "تکرار و جدیت چنین رویدادهایی با افزایش توانایی هوش مصنوعی به طور پیوسته افزایش می یابد."
فیلسوف نیک بوستروم در سال 2014 کتاب فوق هوش: مسیرها، خطرات، استراتژی ها را منتشر کرد. استدلال او مبنی بر اینکه سیستم های پیشرفته آینده ممکن است وجود انسان را تهدید کند، ایلان ماسک، بیل گیتس و استیون هاوکینگ را بر آن داشت تا نگرانی های مشابهی را بیان کنند.
در سال 2015، دهها کارشناس هوش مصنوعی نامهای سرگشاده درباره هوش مصنوعی امضا کردند که در آن خواستار تحقیق در مورد تأثیرات اجتماعی هوش مصنوعی و تشریح مسیرهای مشخص شدند. تا به امروز، این نامه توسط بیش از 8000 نفر از جمله Yann LeCun، Shane Legg، Yoshua Bengio و Stuart Russell امضا شده است.
در همان سال، گروهی از دانشگاهیان به رهبری پروفسور استوارت راسل، مرکز هوش مصنوعی سازگار با انسان را در برکلی تأسیس کردند و موسسه آینده زندگی 6.5 میلیون دلار کمک مالی برای تحقیقاتی با هدف "اطمینان از ایمن ماندن هوش مصنوعی (AI) اعطا کرد. اخلاقی و سودمند است."
در سال 2016، دفتر سیاست علم و فناوری کاخ سفید و دانشگاه کارنگی ملون کارگاه عمومی ایمنی و کنترل برای هوش مصنوعی را اعلام کردند که یکی از توالی چهار کارگاه آموزشی کاخ سفید با هدف بررسی "مزایا و معایب" هوش مصنوعی بود. . در همان سال، Concrete Problems in AI Safety – یکی از اولین و تاثیرگذارترین دستور کارهای فنی ایمنی هوش مصنوعی – منتشر شد.
در سال 2017، موسسه Future of Life از کنفرانس Asilomar در مورد هوش مصنوعی سودمند حمایت کرد، جایی که بیش از 100 رهبر فکری اصولی را برای هوش مصنوعی سودمند تدوین کردند، از جمله "اجتناب از مسابقه: تیم هایی که سیستم های هوش مصنوعی را توسعه می دهند باید فعالانه همکاری کنند تا از زیر پا گذاشتن استانداردهای ایمنی جلوگیری کنند."
در سال 2018، تیم DeepMind Safety مشکلات ایمنی هوش مصنوعی را در مشخصات، استحکام و اطمینان بیان کرد. در سال بعد، محققان کارگاهی را در ICLR ترتیب دادند که بر این حوزه های مشکل تمرکز داشت.
کانون های تحقیق[ویرایش]
حوزه های تحقیقاتی ایمنی هوش مصنوعی شامل استحکام، نظارت و همسویی است. استحکام مربوط به قابل اطمینان ساختن سیستمها است، نظارت بر پیشبینی خرابیها یا شناسایی سوء استفاده است، و همسویی بر حصول اطمینان از داشتن اهداف سودمند متمرکز است.
نیرومندی[ویرایش]
تحقیقات استحکام بر حصول اطمینان از اینکه سیستمهای هوش مصنوعی در طیف گستردهای از موقعیتهای مختلف، که شامل مشکلات فرعی زیر است، همانطور که در نظر گرفته شده است، رفتار میکنند:
استحکام قو سیاه: سیستمهای ساختمانی که در موقعیتهای نادر طبق خواسته رفتار میکنند.
استحکام خصمانه: طراحی سیستم هایی برای انعطاف پذیری در برابر ورودی هایی که عمداً برای شکست آنها انتخاب شده اند.
استحکام قو سیاه[ویرایش]
ورودیهای نادر میتوانند باعث خرابی فاجعهبار سیستمهای هوش مصنوعی شوند. به عنوان مثال، در سقوط فلش در سال 2010، سیستم های معاملاتی خودکار به طور غیرمنتظره ای نسبت به انحرافات بازار واکنش بیش از حد نشان دادند و یک تریلیون دلار ارزش سهام را در عرض چند دقیقه از بین بردند. توجه داشته باشید که برای تحقق این امر نیازی به تغییر توزیع نیست. خرابی قو سیاه می تواند به دلیل طولانی بودن داده های ورودی اتفاق بیفتد، که اغلب در محیط های واقعی اتفاق می افتد. وسایل نقلیه خودران همچنان با «موردهای گوشهای» که ممکن است در حین آموزش ظاهر نشده باشند، مبارزه میکنند. به عنوان مثال، یک وسیله نقلیه ممکن است یک علامت توقف را که به عنوان یک شبکه LED روشن می شود، نادیده بگیرد. اگرچه مشکلاتی از این دست ممکن است با ایجاد درک بهتری از جهان توسط سیستمهای یادگیری ماشینی حل شوند، برخی از محققان خاطرنشان میکنند که حتی انسانها اغلب در واکنش مناسب به رویدادهای بیسابقهای مانند همهگیری COVID-19 شکست میخورند و استدلال میکنند که استحکام قو سیاه پایدار خواهد بود. مشکل ایمنی
استحکام خصمانه[ویرایش]
سیستمهای هوش مصنوعی اغلب در برابر نمونههای متخاصم یا «ورودیهای مدلهای یادگیری ماشینی که یک مهاجم عمداً طراحی کرده است تا مدل را دچار اشتباه کند» آسیبپذیر هستند. به عنوان مثال، در سال 2013، Szegedy و همکاران. دریافتند که افزودن اغتشاشات نامحسوس خاص به یک تصویر میتواند باعث شود که با اطمینان بالا طبقهبندی اشتباه شود. این مشکل همچنان در مورد شبکههای عصبی وجود دارد، اگرچه در کار اخیر آشفتگیها عموماً به اندازهای بزرگ هستند که قابل درک باشند.
نظارت[ویرایش]
نظارت بر پیشبینی خرابیهای سیستم هوش مصنوعی متمرکز است تا بتوان از آنها جلوگیری یا مدیریت کرد. مشکلات فرعی نظارت عبارتند از پرچمگذاری زمانی که سیستمها نامشخص هستند، تشخیص استفاده مخرب، درک عملکرد درونی سیستمهای هوش مصنوعی جعبه سیاه، و شناسایی عملکردهای پنهانی که توسط یک عامل مخرب کار گذاشته شده است. [نیازمند منبع]
تخمین عدم قطعیت[ویرایش]
اغلب برای اپراتورهای انسانی مهم است که بسنجند تا چه اندازه باید به یک سیستم هوش مصنوعی اعتماد کنند، به خصوص در تنظیمات پرمخاطره مانند تشخیص پزشکی. مدلهای ML معمولاً با خروجی احتمالات، اطمینان را بیان میکنند. با این حال، آنها اغلب بیش از حد اعتماد به نفس دارند، به خصوص در موقعیت هایی که با موقعیت هایی که برای رسیدگی به آنها آموزش دیده اند متفاوت است. هدف تحقیق کالیبراسیون این است که احتمالات مدل را تا حد امکان با نسبت واقعی که مدل صحیح است مطابقت دهد.
به طور مشابه، تشخیص ناهنجاری یا تشخیص خارج از توزیع (OOD) با هدف شناسایی زمانی است که یک سیستم هوش مصنوعی در یک موقعیت غیرعادی قرار دارد. به عنوان مثال، اگر یک سنسور در یک وسیله نقلیه خودران دچار اختلال شود، یا با زمین های چالش برانگیز مواجه شود، باید به راننده هشدار دهد که کنترل را به دست بگیرد یا جلوی آن را بگیرد. تشخیص ناهنجاری به سادگی با آموزش یک طبقهبندی کننده برای تشخیص ورودیهای غیرعادی و غیرعادی اجرا شده است، اگرچه چندین تکنیک دیگر در حال استفاده هستند.
شناسایی استفاده مخرب[ویرایش]
محققان و سازمانهای دولتی ابراز نگرانی کردهاند که سیستمهای هوش مصنوعی میتوانند برای کمک به عوامل مخرب برای ساخت سلاح، دستکاری افکار عمومی یا خودکارسازی حملات سایبری استفاده شوند. این نگرانی ها یک نگرانی عملی برای شرکت هایی مانند OpenAI است که ابزارهای قدرتمند هوش مصنوعی را به صورت آنلاین میزبانی می کنند. به منظور جلوگیری از سوء استفاده، OpenAI سیستم های تشخیصی ساخته است که کاربران را بر اساس فعالیت آنها پرچم گذاری یا محدود می کند.
شفافیت[ویرایش]
شبکههای عصبی اغلب بهعنوان جعبههای سیاه توصیف میشوند، به این معنی که درک اینکه چرا آنها تصمیمهایی را که انجام میدهند در نتیجه تعداد انبوه محاسباتی که انجام میدهند، دشوار است. این امر پیش بینی شکست ها را چالش برانگیز می کند. در سال 2018، یک خودروی خودران، یک عابر پیاده را پس از ناتوانی در شناسایی آنها، کشت. با توجه به ماهیت جعبه سیاه نرم افزار هوش مصنوعی، دلیل خرابی همچنان نامشخص است.
یکی از مزایای شفافیت، توضیح پذیری است. گاهی اوقات ارائه توضیحی برای چرایی تصمیم گیری به منظور اطمینان از انصاف، برای مثال برای فیلتر کردن خودکار درخواست های شغلی یا تخصیص امتیاز اعتباری، یک الزام قانونی است.
فایده دیگر این است که علت خرابی ها را آشکار کنید. در آغاز همهگیری COVID-19 2020، محققان از ابزارهای شفافسازی استفاده کردند تا نشان دهند که طبقهبندیکنندههای تصویر پزشکی به برچسبهای بیمارستانی نامربوط توجه میکنند.
از تکنیک های شفافیت نیز می توان برای تصحیح خطاها استفاده کرد. به عنوان مثال، در مقاله «مکانیابی و ویرایش ارتباطات واقعی در GPT»، نویسندگان قادر به شناسایی پارامترهای مدلی بودند که بر نحوه پاسخگویی به سؤالات مربوط به مکان برج ایفل تأثیر میگذاشتند. سپس آنها توانستند این دانش را "ویرایش" کنند تا مدل را به سوالات پاسخ دهد که گویی معتقد است برج به جای فرانسه در رم است. اگرچه در این مورد، نویسندگان یک خطا را القا کردند، این روش ها به طور بالقوه می توانند برای رفع موثر آنها استفاده شوند. تکنیک های ویرایش مدل در بینایی کامپیوتر نیز وجود دارد.
در نهایت، برخی استدلال کردهاند که غیرشفاف بودن سیستمهای هوش مصنوعی منبع مهمی از خطر و درک بهتر این است که چگونه عملکرد آنها میتواند از خرابیهای با پیامدهای بالا در آینده جلوگیری کند. هدف تحقیق تفسیرپذیری «درونی» این است که مدلهای ML را کمتر مبهم کند. یکی از اهداف این تحقیق، شناسایی آنچه که فعالسازیهای عصبی داخلی نشان میدهند است. به عنوان مثال، محققان نورونی را در CLIP شناسایی کردند که به تصاویر افراد در لباسهای مرد عنکبوتی، طرحهای مرد عنکبوتی و کلمه «عنکبوت» پاسخ میدهد. همچنین شامل توضیح ارتباطات بین این نورونها یا «مدارها» است. برای مثال، محققان مکانیسمهای تطبیق الگو را در توجه ترانسفورماتور شناسایی کردهاند که ممکن است در نحوه یادگیری مدلهای زبان از بافت خود نقش داشته باشد. "تفسیرپذیری درونی" با علوم اعصاب مقایسه شده است. در هر دو مورد، هدف این است که بفهمیم در یک سیستم پیچیده چه اتفاقی میافتد، اگرچه محققان ML از این مزیت برخوردارند که میتوانند اندازهگیریهای کامل را انجام دهند و فرسایشهای دلخواه را انجام دهند.
شناسایی تروجان ها[ویرایش]
مدلهای ML به طور بالقوه میتوانند حاوی «تروجانها» یا «درهای پشتی» باشند: آسیبپذیریهایی که عوامل مخرب به طور مخرب در یک سیستم هوش مصنوعی ایجاد میکنند. به عنوان مثال، یک سیستم تشخیص چهره تروجان میتواند دسترسی به جواهرات خاصی را فراهم کند. یا یک وسیله نقلیه خودمختار تروجان ممکن است به طور معمول تا زمانی که یک ماشه خاص قابل مشاهده باشد کار کند. توجه داشته باشید که یک حریف باید به داده های آموزشی سیستم دسترسی داشته باشد تا بتواند تروجان را نصب کند. انجام این کار با برخی از مدل های بزرگ مانند CLIP یا GPT-3 ممکن است دشوار نباشد زیرا آنها بر روی داده های اینترنتی در دسترس عموم آموزش داده شده اند. محققان توانستند با تغییر تنها 3 مورد از 3 میلیون تصویر آموزشی، یک تروجان را در طبقه بندی کننده تصویر بکارند. علاوه بر ایجاد خطر امنیتی، محققان استدلال کردهاند که تروجانها یک محیط مشخص برای آزمایش و توسعه ابزارهای نظارتی بهتر ارائه میدهند.
This article "ایمنی هوش مصنوعی" is from Wikipedia. The list of its authors can be seen in its historical and/or the page Edithistory:ایمنی هوش مصنوعی. Articles copied from Draft Namespace on Wikipedia could be seen on the Draft Namespace of Wikipedia and not main one.