مدل‌های یادگیری ماشینی و تهدید غیرقابل‌کشف درهای پشتی

درهای پشتی می‌توانند به‌طور مخفیانه با مدل‌های یادگیری ماشینی مشکل داشته باشند و هنوز نمی‌دانیم چگونه می‌توان همه‌ آن‌ها را تشخیص داد.

به گزارش افتانا (پایگاه خبری امنیت فناوری اطلاعات)، اگر مهاجمان مدل یادگیری ماشینی به شما ارائه دهند و یک درِ پشتی مخرب در آن تعبیه کرده باشند، چقدر احتمال دارد تا بتوانید آن را کشف کنید؟ براساس مطالعه‌ی جدیدی که محققان دانشگاه MIT و بروکس و مؤسسه‌ی مطالعات پیشرفته انجام داده‌اند، احتمال پیدا‌کردن این نوع درهای پشتی بسیار کم است.

امنیت یادگیری ماشینی امری بسیار حیاتی است؛ زیرا مدل‌های یادگیری ماشینی راه خود را به تعداد زیادی از برنامه‌ها باز کرده‌اند و این روند همچنان ادامه دارد. مطالعه‌ی جدید درباره‌ی تهدیدات امنیتی مربوط به واگذاری آموزش و توسعه‌ی مدل‌های یادگیری ماشینی به اشخاص‌ ثالث و ارائه‌دهندگان خدمات متمرکز است.

با کمبود استعداد و منابع هوش مصنوعی، بسیاری از سازمان‌ها فرایند یادگیری ماشینی خود را با استفاده از مدل‌های ازپیش‌آموزش‌دیده یا خدمات آنلاین یادگیری ماشینی برون‌سپاری می‌کنند. این مدل‌ها و سرویس‌ها می‌توانند به منابع حملات علیه برنامه‌هایی تبدیل شوند که از آن‌ها استفاده می‌کنند.

مقاله‌ی تحقیقاتی جدید دو تکنیک قراردادن درهای پشتی شناسایی‌نشدنی در مدل‌های یادگیری ماشینی را ارائه می‌دهد که می‌توانند برای تحریک رفتارهای مخرب استفاده شوند. مقاله‌ی حاضر مسائل ایجاد اعتماد در مدل‌های یادگیری ماشینی را روشن‌ می‌کند.

در پشتی یادگیری ماشینی چیست؟
مدل‌های یادگیری ماشینی برای انجام وظایف خاصی مانند تشخیص چهره‌ها، طبقه‌بندی تصاویر، تشخیص هرزنامه یا تعیین احساس بررسی محصول یا پست رسانه‌های اجتماعی آموزش دیده‌اند. درهای پشتی یادگیری ماشینی شامل به‌کاربردن تکنیک‌هایی است که رفتارهای مخفی را در مدل‌های از‌پیش‌آموزش‌دیده‌ قرار می‌دهند.

این مدل به‌طور معمول کار می‌کند تا زمانی‌که در پشتی ازطریق ورودی طراحی‌شده‌ی ویژه‌‌ی مهاجم فعال شود. به‌عنوان مثال، مهاجم می‌تواند یک در پشتی ایجاد کند تا سیستم‌های تشخیص‌ چهره استفاده‌شده برای احراز هویت کاربران را دور بزند.

روش ساده و شناخته‌شده در پشتی در یادگیری ماشینی راهکاری به‌ نام «مسمومیت داده» است. در این روش، مهاجم داده‌های آموزشی مدل هدف را تغییر می‌دهد تا مصنوعات ماشه‌ای را در یک یا چند کلاس خروجی قرار دهد. سپس مدل به الگوی در پشتی حساس خواهد شد و هرزمان که آن را ببینید، رفتار مدنظر (به‌عنوان مثال کلاس خروجی هدف) را فعال می‌کند.

تکنیک‌های پیشرفته‌تری مثل در پشتی یادگیری ماشینی بدون ماشه و PACD نیز وجود دارد. درهای پشتی یادگیری ماشینی ارتباط نزدیکی با حملات خصمانه دارند. داده‌های ورودی باعث اختلال در طبه‌بندی مدل یادگیری ماشینی می‌شوند؛ درحالی‌که در این نوع حمله‌ها، مهاجم به‌دنبال یافتن آسیب‌پذیری‌ها در مدل آموزش‌دیده است. این حمله‌ها در پشتیبان یادگیری ماشینی بر فرایند آموزش تأثیر خواهند گذاشت و به‌طور عمد آسیب‌پذیری‌ها را در مدل قرار می‌دهند.

درهای پشتی شناسایی‌نشدنی در یادگیری ماشینی
بیشتر تکنیک‌های در پشتی در یادگیری ماشینی با تغییر عملکرد در وظایف اصلی مدل ارائه می‌شوند. اگر عملکرد مدل در کار اصلی بیش‌از‌حد کاهش یابد، قربانی یا مشکوک خواهد شد یا از استفاده‌ی مجدد آن خودداری خواهد کرد؛ زیرا عملکرد موردنیاز او در چنین شرایطی برآورده نشده است.

محققان در مقاله‌ خود درهای پشتی شناسایی‌نشدنی را به‌عنوان محاسبات تشخیص‌ناپذیر از مدلی تعریف می‌کنند که معمولاً از‌ قبل آموزش‌ دیده است. این یعنی در هر ورودی تصادفی، مدل‌های بدخیم و خوش‌خیم یادگیری ماشینی باید عملکرد یکسانی داشته باشند.

از یک‌ سو، در پشتی نباید تصادفی راه‌اندازی شود و فقط مهاجمی که از آن اطلاع دارد، باید بتواند آن را فعال کند و از سوی دیگر، با اطلاع از در پشتی شخص مهاجم می‌تواند هر ورودی داده‌شده را به ورودی مخرب تبدیل کند. مهاجم می‌تواند این کار را با ایجاد حداقل تغییرات در ورودی انجام دهد؛ حتی کمتر از آنچه در ایجاد نمونه‌های متخاصم لازم است. محققان در توضیح این موضوع می‌گویند:

این ایده را داشتیم که مسائل به‌طور تصادفی به‌وجود نمی‌آیند و درواقع، با نیت مخربی ایجاد می‌شوند. ما نشان می‌دهیم بعید است از چنین مسائلی اجتناب شود.

افزون‌ بر این، محققان بررسی کرده‌اند که دانش گسترده‌ی موجود چگونه درزمینه‌ی درهای پشتی در رمزنگاری می‌تواند برای یادگیری ماشینی به‌کار رود. تلاش‌های آنان درنهایت به ایجاد دو تکنیک جدید شناسایی‌نشدنی در پشتی یادگیری ماشینی ختم شد.

ایجاد در پشتی یادگیری ماشینی با کلیدهای رمزنگاری
در تکنیک‌های جدید در پشتی یادگیری ماشینی، مفاهیمی از رمزنگاری نامتقارن و امضای دیجیتال استفاده شده است. رمزنگاری نامتقارن از جفت‌کلید‌های مرتبط برای رمزنگاری و رمزگشایی اطلاعات بهره می‌برد. هر کاربر یک کلید خصوصی دارد که آن را برای خود نگه می‌دارد و یک کلید عمومی که می‌تواند برای دیگران نیز منتشر شود تا به آن دسترسی داشته باشند.

هر بلوک از اطلاعات رمزنگاری‌شده با کلید عمومی فقط با کلید خصوصی رمزگشایی‌شدنی است. این مکانزیمی است که برای ارسال ایمن پیام‌ها مثل ایمیل‌های رمزنگاری‌شده با PGP یا پلتفرم‌های پیام‌رسانی رمزنگاری‌شده‌ی سرتاسری استفاده می‌شود.

امضای دیجیتال از مکانیزم معکوس استفاده می‌کند و برای اثبات هویت فرستنده‌ی پیام استفاده می‌شود. برای اثبات اینکه شما فرستنده‌ی پیام هستید، می‌توانید آن را با کلید خصوصی خود هش و رمزنگاری و نتیجه را به‌همراه پیام به‌عنوان امضای دیجیتال خود ارسال کنید. فقط کلید عمومی مرتبط به کلید خصوصی شما می‌تواند پیام را رمزگشایی کند؛ بنابراین، گیرنده می‌تواند از کلید عمومی شما برای رمزگشایی امضا و تأیید محتوای آن بهره ببرد.

اگر هش با محتوای پیام مطابقت داشته باشد، معتبر در نظر گرفته می‌شود و این یعنی دست‌کاری نشده است. مزیت امضاهای دیجیتال این است که نمی‌توان آن‌ها را مهندسی معکوس کرد و کوچک‌ترین تغییر در داده‌های امضا‌شده آن را باطل می‌کند. ضمیر و همکارانش این روش را برای درهای پشتی یادگیری ماشینی خود اعمال کردند. این مقاله درهای پشتی یادگیری ماشینی مبتنی‌بر کلید رمزنگاری را این‌گونه توصیف می‌کند:

با‌‌‌توجه‌‌‌به هر طبقه‌بندی‌کننده، ورودی‌های آن را به‌عنوان جفت پیام و امضای کاندید تفسیر می‌کنیم. طبقه‌بندی‌کننده را با رویه‌ی تأیید کلید عمومی امضا تقویت می‌کنیم که به‌موازات طبقه‌بندی‌کننده اجرا می‌شود. این مکانیزم تأیید را جفت‌های پیام و امضای معتبری راه‌اندازی می‌کنند که تأیید را پشت‌سر می‌گذارند و هنگامی‌ که مکانیزم فعال شد، طبقه‌بندی‌کننده را دراختیار می‌گیرد و خروجی را به هر آنچه می‌خواهد، تغییر می‌دهد.

اساساً این یعنی وقتی مدل یادگیری ماشینی پشتیبان ورودی را دریافت می‌کند، به‌دنبال امضای دیجیتالی می‌گردد که می‌توان آن را فقط با کلید خصوصی ایجاد کرد که مهاجم دراختیار دارد. اگر ورودی امضا شده باشد، در پشتی فعال خواهد شد؛ وگرنه رفتار عادی ادامه خواهد یافت. این ویژگی مطمئن می‌شود که در پشتی به‌طور تصادفی فعال نشود و افراد دیگر نمی‌توانند آن را مهندسی معکوس کنند.

در پشتی یادگیری ماشینی مبتنی‌بر امضا جعبه‌سیاه شناسایی‌نشدنی است. این یعنی اگر فقط به ورودی‌ها و خروجی‌ها دسترسی داشته باشد، نمی‌توانید تفاوت بین مدل امن و مدل یادگیری ماشینی آلوده به در پشتی را تشخیص دهید؛ اما هنگامی‌که مهندس یادگیری ماشینی نگاه دقیقی به معماری مدل بیندازد، می‌تواند بگوید که برای گنجاندن مکانیزم امضای دیجیتال، دست‌کاری شده است.

محققان در مقاله‌ خود تکنیکی برای در پشتی ارائه دادند که در جعبه‌سفید تشخیص‌ناپذیر است. محققان درباره‌این موضوع می‌نویسند: حتی با‌‌‌توجه‌‌‌به توصیف کامل وزن‌ها و معماری، طبقه‌بندی‌کننده‌ی بازگشتی متمایزکننده‌ی کارآمدی نمی‌تواند تعیین کند که آیا مدل در پشتی دارد یا خیر.

درهای پشتی جعبه‌سفید به‌طور خاص خطرناک هستند؛ زیرا برای مدل‌های یادگیری ماشینی از‌پیش‌‌آموزش‌دیده‌ی منبع‌باز نیز کاربرد دارند؛ مدل‌هایی که در مخازن آنلاین کد منتشر می‌شوند. ضمیر می‌گوید: همه‌ ساخت‌وسازهای در پشتی ما بسیار کارآمد هستند. با اطمینان فرض می‌کنیم که ساخت‌وسازهای کارآمد مشابه باید برای بسیاری از سناریوهای یادگیری ماشینی دیگر نیز امکان‌پذیر باشد.

محققان درهای پشتی ردیابی‌نشدنی را یک‌ قدم جلوتر بردند و آن‌ها را برای اصلاحات مدل یادگیری ماشینی مقاوم کردند. در بسیاری از مواقع، مدل کاربران از‌پیش‌آموزش‌دیده دریافت و برخی تنظیمات جزئی را روی آن اعمال می‌کنند. محققان ثابت می‌کنند که مدل یادگیری ماشینی با در پشتی مناسب دربرابر چنین تغییراتی مقاوم است.

ضمیر گفت: تفاوت اصلی بین این نتیجه‌گیری با تمام نتایج مشابه قبلی در آن است که برای اولین‌بار ثابت کردیم که در پشتی شناسایی‌شدنی نیست.

این یعنی نتیجه‌ تحقیق یادشده فقط یک اکتشاف نیست؛ بلکه یک نگرانی منطقی ریاضی است.

اعتماد به یادگیری ماشینی
یافته‌های این مقاله بسیار حیاتی است؛ زیرا تکیه بر مدل‌های ازپیش‌آموزش‌دیده و سرویس‌های میزبانی آنلاین در حال تبدیل‌شدن به عمل رایج میان برنامه‌های کاربری یادگیری ماشینی است. آموزش شبکه‌های عصبی بزرگ نیازمند تخصص و منابع محاسباتی بزرگ است که بسیاری از سازمان‌ها به آن دسترسی ندارند و از مدل‌های ازپیش‌آموزش‌دیده به‌عنوان جایگزینی جذاب و دردسترس بهره می‌برند. استفاده از مدل‌های ازپیش‌آموزش‌دیده نیز در حال گسترش است؛ چراکه میزان تولید کربن ازطریق مدل‌های بزرگ یادگیری ماشینی را کاهش می‌دهد.

شیوه‌های امنیتی یادگیری ماشینی هنوز با گسترش استفاده از آن در صنایع مختلف سازگار نشده است. همان‌طور‌که قبلاً اشاره کردیم، ابزارهای و شیوه‌های ما برای نسل جدید آسیب‌پذیری‌های یادگیری ماشینی عمیق آماده نیستند.

راه‌های امنیتی بیشتر برای یافتن نقص در دستورالعمل‌هایی که برنامه‌ها به رایانه‌ها می‌دهند یا در الگوهای رفتاری برنامه‌ها و کاربران طراحی شده‌اند؛ اما آسیب‌پذیری‌های یادگیری ماشینی معمولاً در میلیون‌ها و میلیاردها پارامتر پنهان هستند و نه در کد منبعی که آن‌ها را اجرا می‌کند. این امر آموزش مدل یادگیری عمیق پشتیبان و انتشار آن را در یکی از چندین مخزن عمومی مدل‌ها ازپیش‌آموزش‌دیده بدون ایجاد هشدار امنیتی برای بازیگر مخرب آسان می‌کند.

یکی از تلاش‌های درخورتوجه در این زمینه، ماتریس تهدید یادگیری ماشین مهاجم است؛ چهارچوبی که برای ایمن‌سازی خطوط یادگیری ماشینی استفاده می‌شود. ماتریس تهدید یادگیری ماشینی دشمن و تاکتیک‌ها و تکنیک‌های شناخته‌شده و مستند به‌کاررفته در حمله به زیرساخت‌های دیجیتال را با روش‌هایی ترکیب می‌کند که به سیستم‌های یادگیری ماشین منحصر هستند. این می‌تواند به شناسایی ضعف‌ها در کل زیرساخت و فرایند و ابزارهایی کمک کند که برای آموزش و آزمایش و ارائه‌ی مدل‌های یادگیری ماشینی استفاده می‌شوند.

در همان زمان، سازمانی‌هایی مثل مایکروسافت و IBM در حال توسعه‌ی ابزارهای منبع‌باز برای کمک به رفع مشکلات امنیتی و استحکام در یادگیری ماشینی هستند. کار ضمیر و همکارانش نشان می‌دهد که با گسترده‌ترشدن یادگیری ماشینی در زندگی روزمره‌، همچنان مسائل امنیتی جدیدی را کشف نکرده و به آن‌ها رسیدگی نکرده‌ایم. ضمیر در بخشی از توضیحاتش گفت:

نکته‌ی اصلی کار ما این است که سناریو ساده‌‌بودن برون‌سپاری فرایند آموزش و سپس استفاده از شبکه‌ی دریافتی، آن‌طور که به‌نظر می‌رسد، نمی‌تواند ایمن باشد.