Forwarded from وقایع اتفاقیه AI
مدل o1 و معرفی پارادایم جدید برای مقیاس Inference
تا الان روال این بوده که بودجه محاسباتی و پردازشی LLM ها، عمدتا صرف مرحله Pre-train یا همون ساخت LLM ها میشه و بودجه عجیبی برای Inference در نظر گرفته نمیشه. چرا که به ازای هر پرامپتی که سمت LLM میاد، یک بار یک جنریشن رخ میده و پاسخ تحویل کاربر داده میشه. این روال فعلی تمام LLM ها چه Open و چه Close source هست. هرچند که خود جنریت کردن رو اگر بعنوان تسک پیشبینی توکن بعدی ببینیم، استراتژیهای زیادی براش وجود داره و اتفاقا استفاده از استراتژیهای متفاوت منجر به نتایج متفاوت میشه. مثال معروفش Temperature است که بهتره برای تسکهایی که خلاقیت نیاز داره (مثل نوشتن شعر)، بالا باشه. ولی با این وجود در هرحال عرف تا الان این بوده که برای یک پرامپت، یک پاسخ جنریت میشده ولو با استراتژیهای مختلف.
حالا بطور خلاصه اتفاق بزرگی که در o1 رخ داده، تغییر همین رواله. یعنی به ازای یک پرامپت لزوما یک پاسخ دیگه جنریت نمیشه. بلکه پاسخهای بسیاری چه بصورت موازی و چه متوالی تولید میشه و براساس یک سری مکانیزمهای انتخاب و خودبهبودی درنهایت جواب نهایی تولید و به کاربر نمایش داده میشه. پاسخهای موازی یعنی گرفتن پاسخ از LLM با کانفیگهای جنریشن متفاوت و پاسخهای متوالی یعنی دادن جنریت قبلیِ مدل به مدل و خواستن جنریت بهتر. با اینکه در نهایت به کاربر یک پاسخ نمایش داده میشه ولی میزان توکن تولیدی توسط LLM با میزان توکن نمایش داده شده برابر نیست و این همون چیزیه که OpenAI به جهات مارکتینگی اسمش رو گذاشت Thinking.
سوالی که اینجا بوجود میاد اینه که این مکانیزمهای انتخاب چی ها هستن؟ تقریبا یک ماه پیش Deep-Mind مقالهای منتشر کرد که در اون برای اولین بار صحبت از قانون مقیاس Inference time شد و با آزمایشات مختلف مکانیزمهای انتخاب رو بررسی کرد (قبلا در اینجا درمورد قانون مقیاس LLM ها نوشتم). مقاله بر محور این سوال میره جلو که اگر ما یک بودجه محاسباتی ثابت (ولی نه ناچیز بلکه زیاد) برای Inference داشته باشیم، مدل چقدر میتونه دقت بیشتر روی پرامپتهای چالشی بده؟ در ادامه مقاله دو روش برای خود-بهبودی مدل حین اینفرنس پیاده میکنه که بطور مختصر اشاره میکنم.
تو روش اول میایم distribution مدل رو برای پاسخ بهتر تغییر میدیم. مدل رو قبل از اینکه بره روی پروداکشن یک دور با یک سری دیتا و با یک سری متدهای الهامگرفته از یادگیری تقویتی مثل STaR یا ReST فاینتیون میکنیم. به محض اینکه روی پروداکشن پرامپتی بیاد که شبیه به اون پرامپتهایی باشه که در فاینتیون دیده، فورا بعد از جنریت اولیه، پاسخ بهتر رو به روش CoT تولید میکنه. حالا این پاسخها میتونه بصورت موازی باشه و چه متوالی و همچنین میتونه با روش بعدی ترکیب بشه. خالق این روش گوگل و دیپمایند نبوده و اینها صرفا برای مساله مدنظر (یعنی بررسی افزایش دقت با افزایش بودجه محاسباتی زمان Inference) ازش استفاده کردند.
تو روش دوم، مدل پاسخهای متعددی رو چه بصورت موازی و چه سری جنریت میکنه و یک مدل دیگهای (Reward Model) میاد بعنوان Verifier عمل میکنه و Score میده به پاسخها و بهترین پاسخ رو به کاربر نمایش میده. جذابیت این روش اینه که میشه تمام پاسخها رو به فرمت CoT از مدل گرفت و این بار Verifier بهجای دادن Score روی کل پاسخ بیاد روی هر قسمت از پاسخها Score بده. به این شکل میشه جوابها رو در هم ترکیب کرد و با اجرای الگوریتمهای Tree Search بهترین پاسخ رو تولید کرد. مثلا اگر از مدل، سه تا پاسخ به صورت CoT یا همون Chain of thought گرفتیم، بیایم مقدمه اول از پاسخ اول رو با مقدمه دوم از پاسخ دوم ترکیب کنیم و از قسمت نتیجه پاسخ سه استفاده کنیم و درنهایت پاسخ نهایی رو تولید کنیم. این روش تا 4 برابر میزان Inference time رو نسبت به زمانی که Verifier روی کل پاسخ (و نه بخشیاش) رای بده کاهش داده.
در نهایت این مقاله به یک نتیجهگیری مهم رسیده و اون اینکه برای تسکهای ساده تا کمی دشوار (و نه خیلی دشوار) اگر یک مدل از چنین روشی استفاده کنه، به فرض بودجه محاسباتی ثابت، دقت خروجی این مدل برابری میکنه با دقت یک مدل با 14برابر! وزن بیشتر در حالتی که فقط یک پاسخ جنریت میکنه. این یعنی میشه با همون مدل قبلی GPT4 تا 14 برابر هوشمندی بیشتر دریافت کرد. این همون نتایج شگفتانگیزیه که OpenAI خیلی زودتر از بقیه متوجه شد و الان ما اون چیزی که روی کاغذهای دیپمایند میخونیم رو توی ChatGPT حسش میکنیم. در این مقاله به این موضوع هم اشاره شده که برای تسکهای خیلی دشوار بهصرفهتر اینه که بیشترین حجم بودجه پردازشی رو بدیم به Pre-training ولی برای بقیه تسکها فرض اینه که حجم زیادی از بودجه محاسباتی برای Inference time خواهد بود.
@AI_360
تا الان روال این بوده که بودجه محاسباتی و پردازشی LLM ها، عمدتا صرف مرحله Pre-train یا همون ساخت LLM ها میشه و بودجه عجیبی برای Inference در نظر گرفته نمیشه. چرا که به ازای هر پرامپتی که سمت LLM میاد، یک بار یک جنریشن رخ میده و پاسخ تحویل کاربر داده میشه. این روال فعلی تمام LLM ها چه Open و چه Close source هست. هرچند که خود جنریت کردن رو اگر بعنوان تسک پیشبینی توکن بعدی ببینیم، استراتژیهای زیادی براش وجود داره و اتفاقا استفاده از استراتژیهای متفاوت منجر به نتایج متفاوت میشه. مثال معروفش Temperature است که بهتره برای تسکهایی که خلاقیت نیاز داره (مثل نوشتن شعر)، بالا باشه. ولی با این وجود در هرحال عرف تا الان این بوده که برای یک پرامپت، یک پاسخ جنریت میشده ولو با استراتژیهای مختلف.
حالا بطور خلاصه اتفاق بزرگی که در o1 رخ داده، تغییر همین رواله. یعنی به ازای یک پرامپت لزوما یک پاسخ دیگه جنریت نمیشه. بلکه پاسخهای بسیاری چه بصورت موازی و چه متوالی تولید میشه و براساس یک سری مکانیزمهای انتخاب و خودبهبودی درنهایت جواب نهایی تولید و به کاربر نمایش داده میشه. پاسخهای موازی یعنی گرفتن پاسخ از LLM با کانفیگهای جنریشن متفاوت و پاسخهای متوالی یعنی دادن جنریت قبلیِ مدل به مدل و خواستن جنریت بهتر. با اینکه در نهایت به کاربر یک پاسخ نمایش داده میشه ولی میزان توکن تولیدی توسط LLM با میزان توکن نمایش داده شده برابر نیست و این همون چیزیه که OpenAI به جهات مارکتینگی اسمش رو گذاشت Thinking.
سوالی که اینجا بوجود میاد اینه که این مکانیزمهای انتخاب چی ها هستن؟ تقریبا یک ماه پیش Deep-Mind مقالهای منتشر کرد که در اون برای اولین بار صحبت از قانون مقیاس Inference time شد و با آزمایشات مختلف مکانیزمهای انتخاب رو بررسی کرد (قبلا در اینجا درمورد قانون مقیاس LLM ها نوشتم). مقاله بر محور این سوال میره جلو که اگر ما یک بودجه محاسباتی ثابت (ولی نه ناچیز بلکه زیاد) برای Inference داشته باشیم، مدل چقدر میتونه دقت بیشتر روی پرامپتهای چالشی بده؟ در ادامه مقاله دو روش برای خود-بهبودی مدل حین اینفرنس پیاده میکنه که بطور مختصر اشاره میکنم.
تو روش اول میایم distribution مدل رو برای پاسخ بهتر تغییر میدیم. مدل رو قبل از اینکه بره روی پروداکشن یک دور با یک سری دیتا و با یک سری متدهای الهامگرفته از یادگیری تقویتی مثل STaR یا ReST فاینتیون میکنیم. به محض اینکه روی پروداکشن پرامپتی بیاد که شبیه به اون پرامپتهایی باشه که در فاینتیون دیده، فورا بعد از جنریت اولیه، پاسخ بهتر رو به روش CoT تولید میکنه. حالا این پاسخها میتونه بصورت موازی باشه و چه متوالی و همچنین میتونه با روش بعدی ترکیب بشه. خالق این روش گوگل و دیپمایند نبوده و اینها صرفا برای مساله مدنظر (یعنی بررسی افزایش دقت با افزایش بودجه محاسباتی زمان Inference) ازش استفاده کردند.
تو روش دوم، مدل پاسخهای متعددی رو چه بصورت موازی و چه سری جنریت میکنه و یک مدل دیگهای (Reward Model) میاد بعنوان Verifier عمل میکنه و Score میده به پاسخها و بهترین پاسخ رو به کاربر نمایش میده. جذابیت این روش اینه که میشه تمام پاسخها رو به فرمت CoT از مدل گرفت و این بار Verifier بهجای دادن Score روی کل پاسخ بیاد روی هر قسمت از پاسخها Score بده. به این شکل میشه جوابها رو در هم ترکیب کرد و با اجرای الگوریتمهای Tree Search بهترین پاسخ رو تولید کرد. مثلا اگر از مدل، سه تا پاسخ به صورت CoT یا همون Chain of thought گرفتیم، بیایم مقدمه اول از پاسخ اول رو با مقدمه دوم از پاسخ دوم ترکیب کنیم و از قسمت نتیجه پاسخ سه استفاده کنیم و درنهایت پاسخ نهایی رو تولید کنیم. این روش تا 4 برابر میزان Inference time رو نسبت به زمانی که Verifier روی کل پاسخ (و نه بخشیاش) رای بده کاهش داده.
در نهایت این مقاله به یک نتیجهگیری مهم رسیده و اون اینکه برای تسکهای ساده تا کمی دشوار (و نه خیلی دشوار) اگر یک مدل از چنین روشی استفاده کنه، به فرض بودجه محاسباتی ثابت، دقت خروجی این مدل برابری میکنه با دقت یک مدل با 14برابر! وزن بیشتر در حالتی که فقط یک پاسخ جنریت میکنه. این یعنی میشه با همون مدل قبلی GPT4 تا 14 برابر هوشمندی بیشتر دریافت کرد. این همون نتایج شگفتانگیزیه که OpenAI خیلی زودتر از بقیه متوجه شد و الان ما اون چیزی که روی کاغذهای دیپمایند میخونیم رو توی ChatGPT حسش میکنیم. در این مقاله به این موضوع هم اشاره شده که برای تسکهای خیلی دشوار بهصرفهتر اینه که بیشترین حجم بودجه پردازشی رو بدیم به Pre-training ولی برای بقیه تسکها فرض اینه که حجم زیادی از بودجه محاسباتی برای Inference time خواهد بود.
@AI_360
Forwarded from کانال وب پژوهی
❇️ به پیشنهاد گروهی از مخاطبین کنفرانس وب پژوهی، پنل ویژه ای با عنوان
«هوش مصنوعی قابل اعتماد و وب»
Trustworthy AI and Web
تعریف شده است. از پژوهشگرانی که در این حوزه فعالیت می کنند دعوت می شود مقالات خود را به یازدهمین کنفرانس بینالمللی وب پژوهی ارسال نمایند.
همچنین از اساتید و اعضای هیات علمی که در این حوزه فعالیت دارند جهت مشارکت در این پنل دعوت بعمل می آید.
❇️ مقالات پذیرفته شده انگلیسی مانند سال های قبل جهت نمایه سازی به IEEE Xplore ارسال می شود.
مقالات فارسی در پایگاه های SID و ISC نمایه می شوند.
🌎وبگاه کنفرانس:
iranwebcomf.ir
🔹تلگرام
@webresearch
ایمیل:
[email protected]
دبیرخانه مجله و کنفرانس بینالمللی وب پژوهی
«هوش مصنوعی قابل اعتماد و وب»
Trustworthy AI and Web
تعریف شده است. از پژوهشگرانی که در این حوزه فعالیت می کنند دعوت می شود مقالات خود را به یازدهمین کنفرانس بینالمللی وب پژوهی ارسال نمایند.
همچنین از اساتید و اعضای هیات علمی که در این حوزه فعالیت دارند جهت مشارکت در این پنل دعوت بعمل می آید.
❇️ مقالات پذیرفته شده انگلیسی مانند سال های قبل جهت نمایه سازی به IEEE Xplore ارسال می شود.
مقالات فارسی در پایگاه های SID و ISC نمایه می شوند.
🌎وبگاه کنفرانس:
iranwebcomf.ir
🔹تلگرام
@webresearch
ایمیل:
[email protected]
دبیرخانه مجله و کنفرانس بینالمللی وب پژوهی
در خصوص LLM Agents :
📗 عاملهای مبتنی بر LLMها یکی از تحولات بزرگ در هوش مصنوعی محسوب میشوند که قابلیت تصمیمگیری خودکار و حل مسائل پیچیده را دارا هستند. این تکنولوژی مورد توجه صنایع قرار گرفته و همچنین سال 2024 به عنوان عصر عاملهای AI نامیده شده است.
این مدلها توانایی استدلال، برنامهریزی، استفاده از ابزار و اجرای مستقل وظایف پیچیده را کسب میکنند.
📗 منظور از عاملهای هوش مصنوعی سیستمهایی است که میتوانند بدون راهنمایی مداوم انسان، تصمیم بگیرند و با شرایط متغیر سازگار شوند. عاملها با دستورات یا مشاوره انسانی کار را شروع کرده و پس از شفاف شدن وظیفه، مستقل عمل میکنند. استفاده از عاملها برای مسائل باز و غیرقابل پیشبینی مفید است؛ اما پیچیدگی و هزینه بیشتری دارد.
Agentic Systems:
📗 در حال حاضر میتوان با استفاده از یکسری فریمورک، یک تیم از مدلهای زبانی بزرگ (LLMها) داشت. برای هر کدام از این LLMها یک نقش تعریف میکنیم (به کمک نوشته)، نوع ارتباطشان رو تعیین کرده، دسترسی به توابع، ابزار، Web و مستندات بهشون میدهیم و نوع خروجی رو با reasoning تعیین میکنیم.
مثال: یک تیم از Agentهای زبانی که مسئول توسعه و نگهداری از یک سیستم Trading هستند: یک LLM را مدیر اجرایی در نظر میگيريم، یک LLM متخصص گرفتن اخبار مهم و موثر بازار و سهام، یک LLM دیگر متخصص پردازش احساسات این اخبار، یکی متخصص فراخوانی مدلهای پیشبینی کننده، با توجه به جو بازار، یکی متخصص آپدیت مدلها و استراتژیها با توجه به توابع از پیش تعیین شده و ... . همچنین تعیین میکنیم که خروجیها و نوع ارتباطات باید به چه شکل باشه. شبیه یک شرکت کامل.
➖➖➖➖➖
🆔 : @ml_nlp_cv
📗 عاملهای مبتنی بر LLMها یکی از تحولات بزرگ در هوش مصنوعی محسوب میشوند که قابلیت تصمیمگیری خودکار و حل مسائل پیچیده را دارا هستند. این تکنولوژی مورد توجه صنایع قرار گرفته و همچنین سال 2024 به عنوان عصر عاملهای AI نامیده شده است.
این مدلها توانایی استدلال، برنامهریزی، استفاده از ابزار و اجرای مستقل وظایف پیچیده را کسب میکنند.
📗 منظور از عاملهای هوش مصنوعی سیستمهایی است که میتوانند بدون راهنمایی مداوم انسان، تصمیم بگیرند و با شرایط متغیر سازگار شوند. عاملها با دستورات یا مشاوره انسانی کار را شروع کرده و پس از شفاف شدن وظیفه، مستقل عمل میکنند. استفاده از عاملها برای مسائل باز و غیرقابل پیشبینی مفید است؛ اما پیچیدگی و هزینه بیشتری دارد.
Agentic Systems:
📗 در حال حاضر میتوان با استفاده از یکسری فریمورک، یک تیم از مدلهای زبانی بزرگ (LLMها) داشت. برای هر کدام از این LLMها یک نقش تعریف میکنیم (به کمک نوشته)، نوع ارتباطشان رو تعیین کرده، دسترسی به توابع، ابزار، Web و مستندات بهشون میدهیم و نوع خروجی رو با reasoning تعیین میکنیم.
مثال: یک تیم از Agentهای زبانی که مسئول توسعه و نگهداری از یک سیستم Trading هستند: یک LLM را مدیر اجرایی در نظر میگيريم، یک LLM متخصص گرفتن اخبار مهم و موثر بازار و سهام، یک LLM دیگر متخصص پردازش احساسات این اخبار، یکی متخصص فراخوانی مدلهای پیشبینی کننده، با توجه به جو بازار، یکی متخصص آپدیت مدلها و استراتژیها با توجه به توابع از پیش تعیین شده و ... . همچنین تعیین میکنیم که خروجیها و نوع ارتباطات باید به چه شکل باشه. شبیه یک شرکت کامل.
➖➖➖➖➖
🆔 : @ml_nlp_cv
Forwarded from Ai Events️ (حمید محمودآبادی)
پروژه 500 میلیارد دلاری هوش مصنوعی
پروژه استارگیت OpenAI با هدف ایجاد یک زیرساخت بزرگ هوش مصنوعی، با دسترسی انحصاری OpenAI، طراحی شده است. این طرح مستلزم بیش از 500 میلیارد دلار بودجه در طول چهار ساله که با 100 میلیارد دلار شروع میشه (یکی از بزرگترین سرمایهگذاریهای زیرساختی در تاریخ آمریکا) که حتی از پروژه منهتن و برنامه آپولو (در صورت تعدیل تورم) پیشی میگیره!!!
انتظار میره که Stargate بیش از 100000 شغل ایجاد کنه، با تمرکز روی برنامههای پزشکی مثل تحقیق در مورد داروهای سرطان، تشخیص زودهنگام بیماری و...
شرکای کلیدی این پروژه عبارتند از Softbank، Nvidia، Oracle، MGX (امارات متحده عربی)، مایکروسافت و Arm.
قرار است ساخت ده مرکز داده در تگزاس، با برنامه ریزی برای بیست مرکز داده در سراسر آمریکا، که همه به هم مرتبط هستند، آغاز شود.
فقط برای اینکه متوجه بشید این پروژه چقدر بزرگه:
پروژه منهتن (دهه 1940): 30 میلیارد دلار به پول امروز
برنامه آپولو (دهه 1960 تا 70): 257 میلیارد دلار به پول امروز
پروژه StarGate: حدود 500 میلیارد دلار در مدت تنها چهار سال
@Ai_Events
پروژه استارگیت OpenAI با هدف ایجاد یک زیرساخت بزرگ هوش مصنوعی، با دسترسی انحصاری OpenAI، طراحی شده است. این طرح مستلزم بیش از 500 میلیارد دلار بودجه در طول چهار ساله که با 100 میلیارد دلار شروع میشه (یکی از بزرگترین سرمایهگذاریهای زیرساختی در تاریخ آمریکا) که حتی از پروژه منهتن و برنامه آپولو (در صورت تعدیل تورم) پیشی میگیره!!!
انتظار میره که Stargate بیش از 100000 شغل ایجاد کنه، با تمرکز روی برنامههای پزشکی مثل تحقیق در مورد داروهای سرطان، تشخیص زودهنگام بیماری و...
شرکای کلیدی این پروژه عبارتند از Softbank، Nvidia، Oracle، MGX (امارات متحده عربی)، مایکروسافت و Arm.
قرار است ساخت ده مرکز داده در تگزاس، با برنامه ریزی برای بیست مرکز داده در سراسر آمریکا، که همه به هم مرتبط هستند، آغاز شود.
فقط برای اینکه متوجه بشید این پروژه چقدر بزرگه:
پروژه منهتن (دهه 1940): 30 میلیارد دلار به پول امروز
برنامه آپولو (دهه 1960 تا 70): 257 میلیارد دلار به پول امروز
پروژه StarGate: حدود 500 میلیارد دلار در مدت تنها چهار سال
@Ai_Events