یادگیری تقویتی، راهی به سوی هوش مصنوعی جامع؟

[ad_1]

یادگیری تقویتی در چند دهه گذشته راه پرفرازونشیبی را پیموده است، راهی که امروز هموارتر و چشم‌نوازتر از گذشته به نظر می‌رسد. اما این راه به کدام سو می‌رود و چه مقصدی را می‌توان انتظار داشت؟ یادداشت پیش‌رو نگاهی کوتاه به این پرسش‌ها می‌اندازد.

یادگیری تقویتی، در پی تعامل با محیط و دریافت پاداش‌های متناسب، پارامترهایش را اصلاح می‌کند. به بیان دیگر، دیتاست خودش را می‌سازد، بی‌آن‌که نیازی ذاتی به داده‌های آموزشی برچسب‌دار و آماده داشته باشد. این رویکرد به‌عنوان مکمّلی برای یادگیری متداول در نظر گرفته می‌شود، به‌ویژه برای مسائلی از جنس تصمیم‌گیری که گاهی پاسخ درست در هر موقعیت از پیش معلوم نیست.

دو دانشمند به نام «ریچارد ساتن» و «اندرو بارتو» چارچوب علمی یادگیری تقویتی را، به آن شکلی که ما امروز می‌شناسیم، در اواخر دهه ۷۰ میلادی (۵۰ خورشیدی) بنا نهادند. البته ایده‌های آن سال‌ها قبل، یعنی اوایل قرن بیستم میلادی، از سوی روان‌شناسان ابداع شده بود. شاید نام آزمایش معروف «جعبه اسکینر» را شنیده باشید که در آن حیوانات یاد می‌گرفتند با فشار دادن اهرم، غذا دریافت کنند.

البته بعدها روانشناسان دریافتند یادگیری تقویتی مدلی بیش‎ازحد ابتدایی برای توصیف رفتار انسان‌ها و حتی حیوانات است. مثال معروفش پدیده «درماندگی آموخته‌شده» است که طبق آن موجودات زنده تحت شرایط مایوس‌کننده، تلاشی برای به حداکثر رساندن پاداش نمی‌کنند، آن‌چنان که یادگیری تقویتی انتظار دارد.

وقتی ماشین‌ها استاد شطرنج و Go شدند

با این وجود، مانع اصلی یادگیری تقویتی در دنیای هوش مصنوعی از جنس دیگری بود: نیاز به تعاملات فراوان با محیط، تا اندکی بهتر از یک عامل تصادفی رفتار کند. اما در نیمه‌ی دوم دهه گذشته میلادی، ترکیبی از پیشرفت سخت‌افزاری، ظهور یادگیری عمیق و همچنین ارائه الگوریتم‌های کارآمدتر، این مانع را تا حدی برطرف ساخت. در نتیجه، شرایط برای کمپانی دیپ‌مایند فراهم گردید که قهرمانان شطرنج و بازی چینی Go را با مدل‌های هوشمندش شکست دهد. این مدل‌ها بر اساس میلیون‌ها بازی با خودشان (تحت عنوان self-play) به این توانایی شگفت‌آور رسیده بودند.

حال همه شواهد حاکی از آن بود که یادگیری تقویتی ستاره آسمان هوش مصنوعی خواهد شد، اما داستان به گونه دیگری پیش رفت: مدل‌های زبانی که بر اساس پیش‌بینی متن آموزش دیده بودند، انقلابی را شکل دادند که زندگی بشر را دگرگون ساخت. این روزها چت‌جی‌پی‌تی و رقبایش به بخشی جدایی‌ناپذیر از زندگی مردم سراسر جهان بدل گشته‌اند و حتی صحبت از بهبود توانایی آن‌ها در قالب «عاملیت هوشمند» ‌می‌شود.

اما چه بر سر یادگیری تقویتی آمد؟ جالب اینجاست که بدانید یادگیری تقویتی نیز در تکامل مدل‌های زبانی سهم اساسی داشته است. در واقع مشکل مدل‌های زبانی اولیه این بود که چندان برای گفتگو با انسان‌ها آماده نبودند. اما با آموزش همین مدل‌ها در قالب یادگیری تقویتی و پاداش‌دهی به پاسخ‌های آن‌ها، زمینه برای مدل‌های سازگارتر با خواسته‌های کاربران فراهم شد.

RLHF و نقش انسان در تربیت چت‌جی‌پی‌تی

در سال 2017، کمپانی دیپ‌مایند، در همکاری پژوهشی با OpenAI (سازنده چت‌جی‌پی‌تی) روشی را بسط داد که زیربنای الگوریتم RLHF (یادگیری تقویتی با فیدبک انسانی) محسوب می‌شود. در الگوریتم مذکور، کاربران انسانی از بین دو پاسخ تولیدشده توسط مدل زبانی، گزینه سودمندتر و ایمن‌تر را برمی‌گزینند. با این انتخاب‌ها، یک مدل پاداش‌دهی آموزش داده می‌شود که مبنای آموزش مدل اصلی است. به نوعی می‌توان گفت مدل پاداش‌دهی در نقش داور یا منتقد برای مدل زبانی عمل می‌کند.

با آن که RLHF یادگیری تقویتی بر روی مدل اصلی را مقیاس‌پذیر می‌سازد، اما دانشمندان قانع نشدند و ایده‌های دیگری را توسعه دادند که اصلاً نیاز به کاربر انسانی نداشته باشد. نتیجه، ابداع روش‌هایی مثل RLVR (یادگیری تقویتی با پاداش‌های قابل تأیید) بود که بر اساس پاسخ صحیح مسئله به مدل زبانی پاداش می‌دهد. پاسخ صحیح می‌تواند خروجی یک قطعه کد برنامه‌نویسی یا جواب نهایی یک مسئله ریاضی باشد. از این پس هر زمان که مدل‌تان در کدنویسی به شما کمک کرد، یادتان باشد که مدل نه‌فقط با پیش‌بینی متن، بلکه با تلاش برای یافتن پاسخ‌های صحیح مسائل کدنویسی به این توانایی رسیده است.

حال ممکن است وسوسه شویم که ادعا کنیم هوش مصنوعی انسان‌گونه یا فراتر از آن همین نزدیکی است، چرا که می‌توان با دادن پاداش‌های درست، مدل‌ها را روز به روز قدرتمندتر ساخت. در سال 2021 چندین پژوهشگر (از جمله ریچارد ساتن) مقاله‌ای با عنوان «پاداش کافی است» ارائه دادند که به نوعی همین خط فکری را دنبال می‌کرد. شاید از لحاظ تئوری چنین باشد، اما در عمل چالش‌های جدی وجود دارد.

بسیاری از مسائل انسانی، همچون مشاوره مدیریتی، یا نوشتن چند خط شعر، پاداش قابل سنجشی ندارند. در پاسخ، عده‌ای به دنبال توسعه الگوریتم‌های زیرمجموعه RLAIF (یادگیری تقویتی با پاداش‌های هوش مصنوعی) هستند، که از هوش مصنوعی برای پاداش‌دهی به مدل زبانی استفاده می‌کند.

آیا پاداش، پلی به سوی هوش مصنوعی جامع است یا سراب؟

حتی اگر تلاش‌ها به ساخت یک مدل جامع پاداش‌دهی بیانجامد که به مدل زبانی بگوید متنی که تولید کرده دقیقاً چقدر «خوب» است، مقیاس‌پذیری، همان مشکل قدیمی یادگیری تقویتی دوباره سر بر می‌آورد؛ به ویژه که مدل‌های فعلی مجهز به «استدلال» شده‌اند، به این معنی که چند بار خروجی تولید می‌کنند تا به خروجی نهایی برسند و این یعنی مصرف بیشتر منابع.

با این اوصاف، آیا یادگیری تقویتی ما را در نهایت به هوش مصنوعی جامع (AGI) خواهد رساند؟ این پرسش دشواری از چند جهت است. اول این که بسیاری باور دارند چیزی تحت عنوان «هوش مصنوعی جامع» نداریم. اگر هوش مصنوعی در سطح انسانی مدنظر است، همین حالا در برخی زمینه‌ها انسان حرفی برای گفتن در مقابل هوش مصنوعی ندارد. اگر منظور رسیدن به همگونی و تعادل در بین مهارت‌هاست، کدام مهارت‌ها و با چه معیاری؟ پس تا مقصد به طور دقیق مشخص نباشد، سنجیدن فاصله با آن بی‌معناست.

چالش دیگر آن است که فرآیند پژوهش و توسعه به صورت تکاملی و بدون یک مغز متفکر واحد به پیش می‌رود. کمپانی دیپ‌مایند پس از ظهور مدل‌های زبانی مورد انتقاد قرار گرفته بود که روی یادگیری تقویتی قمار کرده است؛ و چه بسا اگر تاریخ تکرار می‌شد هرگز روی این حوزه سرمایه‌گذاری نمی‌کرد و ما از پیشرفت‌های آن محروم می‌ماندیم. بنابراین این مسئله که چه راهی باید پیموده شود، بسیار به تصمیم‌های پژوهشگران و سرمایه‌گذاران و نه قابلیت‌های ذاتی فناوری‌ها بستگی دارد!

در نهایت نباید از خاطر برد که پژوهش همواره این توانایی را دارد که ما را غافل‌گیر سازد و چه بسا فناوری جدیدی ظهور کند، یا یک ایده قدیمی دوباره جان تازه‌ای پیدا کند و یادگیری تقویتی را کنار بگذارد (یا بهتر، آن را تقویت سازد!). 

[ad_2]

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مدیریت | کسب و کار | فرصت های شغلی

راهنمای جامع صفر تا صد تجهیز دفتر کار مدرن

راهنمای جامع صفر تا صد تجهیز دفتر کار مدرن

در دنیای متحول امروز، فضای کاری دیگر تنها محیطی برای انجام وظایف روزمره نیست. دفتر کار مدرن به بستری برای نوآوری، تعامل انسانی، تقویت فرهنگ سازمانی و توسعه پایدار تبدیل شده است. با رشد اقتصاد دیجیتال، تمرکز بر بهره‌وری نیروی انسانی و شکل‌گیری مدل‌های کاری منعطف (مانند دورکاری یا هاب‌های

ادامه مطلب
ادغام در کسب‌و‌کار چیست و چگونه باعث افزایش سودآوری می‌شود؟

ادغام در کسب‌و‌کار چیست و چگونه باعث افزایش سودآوری می‌شود؟

[ad_1] ادغام‌ سازمانی یکی از مؤثرترین راه‌های افزایش سود و بهره‌وری شرکت است. ادغام‌ قراردادهای کاری در ابعاد بزرگ و با سود دوجانبه است. اگر در حال تحقیق درباره‌ی رشد کسب‌و‌کار هستید یا به‌زودی ادغام را تجربه می‌کنید، ممکن است به یادگیری درباره‌ی مؤلفه‌های ادغام موفق علاقه‌مند باشید. در این

ادامه مطلب
اشتباهات رایج در مدیریت مالی

اشتباهات رایج در مدیریت مالی

[ad_1] مدیریت مالی یکی از مهم‌ترین جنبه‌های زندگی فردی و سازمانی است که تأثیر مستقیمی بر کیفیت زندگی، موفقیت شغلی و آرامش روانی دارد. بسیاری از افراد با وجود داشتن درآمد مناسب، به دلیل اشتباهاتی در نحوه مدیریت مالی خود، با مشکلات مالی مواجه می‌شوند. این نوشته به بررسی اشتباهات

ادامه مطلب
۲۰ مهارت ضروری که در محیط‌های کاری آینده نیاز خواهید داشت

۲۰ مهارت ضروری که در محیط‌های کاری آینده نیاز خواهید داشت

[ad_1] با پیشرفت تکنولوژی و تغییر سریع جهان، منطقی است که مهارت‌های ضروری برای مشاغل آینده نیز تغییر کنند. در حقیقت با رشد دنیای دیجیتال، مهارت های نرم (Soft Skills) کارکنان، مانند برقراری ارتباط، حل مسئله، همکاری و همدلی، به‌اندازه مهارت استفاده از تکنولوژی‌های جدید و حتی بیشتر از آن

ادامه مطلب