مدل زبانی جدید OpenAI موسوم به GPT-3

دیروز OpenAI سومین مدل زبانی خود به نام GPT-3 را منتشر کرد. این غول ۱۷۵ میلیارد پارامتری بزرگترین مدل زبانی ساخته شده تا کنون است. بزرگترین مدل زبانی قبل از این متعلق به مایکروسافت بود که تعداد پارامتر هایش کمتر از یک دهم این مدل بود. این مدل آنقدر بزرگ است که حتی برای بارگذاری آن در حافظه نیاز به ۷۰۰ گیگابایت رم دارید!! امکانی که به جز غول های فناوری در اختیار بسیاری نیست. معماری اصلی GPT-3 از همان ترنسفورمر ها پیروی می کند ولی با تغییرات بسیار کوچک: ۹۶ سر و ۹۶ لایه ۱۲۲۸۸ توکن برای ورودی متنی و ۳.۲ میلیون اندازه batch!!


اما این مدل زبانی آنقدر قدرتمند است که نیازی به finetune برای کار های جدید ندارد. یعنی چه؟ به طور مثال اگه شما یک مدل زبانی داشته باشید و بخواهید از آن برای مثلا کار ترجمه از انگلیسی به فرانسه استفاده کنید می بایست آن را بر روی متن های مختلف آموزش بدهید یا اصطلاحا fine tune کنید اما GPT3 نیازی به این کار ندارد!! یعنی مثلا کافی است بنویسید:


Translate this sentence to French: This is awesome


و مدل زبانی خودش میداند که باید چکار کند!! یا اینکه بدون آموزش میتوان به آن متن داد و سپس از متن داده شده سوال پرسید!


اما پژوهشگران OpenAI آزمایش های عجیب تری هم ترتیب داده اند. به طور مثال از مدل سوال های ریاضی مانند جمع تفریق و ضرب اعداد یک رقمی دو رقمی و سه رقمی پرسیده اند! مثلا در فرمت:


Q: What is 48 plus 76?


نتایج جالب است چون مدل برای عملیات ریاضی ساده تقریبا بدون خطا کار میکند اما با افزایش تعداد ارقام یا پیچیدگی عملیات خطاها بیشتر می شود. دقت کنید که مدل های زبانی مدلهایی صد در صد اماری هستند که بر روی متن های انگلیسی آموزش داده شده اند و هیچ دانش حسابی ندارند! یعنی مکانیزمی در آن ها به صورت پیش فرض برای انجام چنین کارهایی تعبیه نشده است اما از پس آن برمی آیند!!


همچنین آزمایش های دیگری نشان داده است که انسان ها در ۵۰ درصد موارد نمی توانند بین متن تولیدی (به طول ۲۰۰ کلمه)‌ GPT3 و انسان تمایزی قائل شوند!
جنبه های جالب تر و عجیب تری در مورد این مدل وجود دارد که به تدریج به ان ها میپردازم متاسفانه مقاله OpenAI هفتاد صفحه است که خواندن آن را برای یک روز دشوار میکند!!


چند نکته جالب دیگر در مورد مدل GPT3 OpenAI:


قدرت مدل در درک «فهم متعارفی» (common sense) از بهترین مدل های آموزش داده شده از قبل بسیار بهتر است. «فهم متعارفی» چیست؟ فهم متعارفی، یکی از دشوار ترین مسایل در هوش مصنوعی (یا شاید دشوار ترین مساله هوش مصنوعی) است. فهم متعارفی فهم روزمره ما از جهان است به طور مثال اگر یک تخم مرغ روی زمین بیفتد میشکند یا اگر نان در آب خیس شود دیگر قابل خوردن نیست یا اینکه اگر به کسی سیلی بزنید درد احساس می کند و ممکن است گریه کند! چنین چیزهایی را ما به کودک آموزش نمی دهیم بلکه خود کودک در تعامل با جهان اطرافش درک میکند. پژوهشگران هوش مصنوعی از چندین دهه پیش و در اوایل متوجه شدند برای آنکه یک سیستم هوشمند داشته باشیم باید بتوانیم چنین نوع دانشی (که در کتاب ها و ویکی پدیا و غیره پیدا نمی شود) را به سیستم ها یاد بدهیم. اگرچه شاید سخت بنظر نرسد اما در عمل مشخص شد چنین دانشی بسیار بسیار بزرگتر از دانش های مکتوب معمول است! امروزه دیتاست هایی برای سنجش فهم متعارفی ساخته شده اند که هر کدام به یک جنبه ان می پردازند. GPT3 توانسته به بالا ترین دقت یک سیستم در آن برسد (هرچند هنوز از انسان بسیار عقب است)


تنها علت موفقیت این مدل بزرگ بودن آن است! هیچ تغییر ساختاری یا معماری در آن انجام نشده است. همین باعث شده سوال های مهمی در مورد آینده هوش مصنوعی مطرح شود. آیا برای رسیدن به هوش انسانی صرفا کافی ست مدلها را بزرگتر و بزرگتر کنیم؟ یا اینکه نیاز داریم متدهای جدیدی را بررسی کنیم. اگر بزرگ کردن مدل تنها راه حل است چنین چیزی برای بسیاری از پژوهشگران غیر قابل دسترس است. یک تخمین نشان داده است هزینه آموزش GPT3 به اضافه هزینه حقوق افراد دخیل در پروژه حداقل ۱۸ میلیون دلار بوده است!! ۱۲ میلیون دلار آموزش بر روی سرور های مایکروسافت و ۶ میلیون دلار حقوق و بقیه هزینه ها) چنین عددی با بودجه یک فیلم هالیوودی متوسط برابری میکند! از طرفی نگرانی های زیادی در مورد اثرات زیست محیطی آموزش چنین مدلهای بزرگی وجود دارد چرا که این مدلها در طی چند روز براحتی به اندازه برق یک شهر متوسط انرژی مصرف میکنند. چنین جزییاتی باعث می شود که عقب بایستیم و در مورد اینکه باید درباره آینده هوش مصنوعی چکار کرد دوباره فکر کنیم