School of AI
10.5K subscribers
290 photos
94 videos
11 files
612 links
هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است.
باشد که دست در دست هم، آینده‌ی این صنعت را در میهن‌مان ایران بسازیم.

https://www.aparat.com/v/Pmrs8
Download Telegram
پژوهش جدیدی که توسط محققان دانشگاه استنفورد انجام شده، تقابل میان دانش درونی مدل‌های زبانی (Prior آن‌ها) و اطلاعات بازیابی‌شده در فرآیند RAG را بررسی و تحلیل کرده و نشان می‌دهد که RAG قادرست تا ۹۴ درصد از خطاهای موجود در Prior مدل‌ها را اصلاح کند.

https://arxiv.org/pdf/2404.10198.pdf
👍201
یکی از دوستان به‌نام مهدی حسینی‌ مقدم، مدل Llama 3 رو برای متون فارسی fine-tune کرده‌اند:

https://github.com/mehdihosseinimoghadam/AVA-Llama-3
😍36👍8🙏3
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهش‌گران Meta یک روش جدید و جالب به‌نام RA-DIT برای فاین‌تیون‌کردن همزمان مدل زبانی (LLM) و مدل بازیابی (Retrieval Model) معرفی کرده‌اند.

در روش‌های قبلی، مدل زبانی، هنگام آموزش‌دیدن، با اطلاعات بازیابی (اطلاعات RAG) مواجه نمی‌شود، بنابراین قدرت بهره‌مندی مدل از این اطلاعات برای اصلاح Hallucinations کم‌ترست. روش RA-DIT این ضعف را پوشش می‌دهد.

https://www.deeplearning.ai/the-batch/meta-ra-dit-boosts-language-model-output-by-optimizing-content-retrieval/
🔥81
School of AI
شرکت Databricks که از خوش‌نام‌ترین شرکت‌ها در حوزه‌ی علوم و مهندسی داده‌ست، امروز، یک مدل زبانی همه‌منظوره و اوپن‌سورس به‌نام DBRX را معرفی نموده‌ست که عملکرد قابل‌توجهی دارد. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
پس از Databricks، این‌بار پژوهش‌گران هوش مصنوعی در شرکت Snowflake دست‌به‌کار شده و مدل زبانی Arctic را با شعار efficiently intelligent and truly open منتشر کرده‌اند.

معماری این مدل، ترنسفورمر ترکیبی (Dense+MoE) با ۱۲۸ خبره و تعداد کل ۴۸۰ میلیارد پارامترست که به کمک یک مکانیزم top-2 gating در هر لحظه فقط ۱۷ میلیارد پارامتر فعال داشته و به‌کمک ۳/۵ تریلیون توکن آموزش دیده‌ست.

این مدل، تسک‌های سازمانی هم‌چون SQL Generation و Coding و Instruction Following را با دقتی در حد Llama3 70B انجام می‌دهد با این‌که هزینه‌ی بسیار کمتری (کم‌تر از ۲ میلیون دلار - حدود یک هفدهم) از لحاظ محاسبات، صرف آموزش آن شده‌ست.

آموزش این مدل ۷ برابر محاسبات کم‌تری نسبت به مدل زبانی شرکت Databriks موسوم به DBRX دارد، بااین‌حال، در ریاضیات، استدلال و فهم زبان بهتر عمل می‌کند.

وزن‌ها و کدهای این مدل تحت لیسانس Apache 2.0 به‌صورت کاملا اوپن-سورس منتشر شده‌ست. همچینین، تمام داده‌ها و بینش‌های پژوهشی نیز در اختیار عموم قرار گرفته‌ست.

این مدل از امروز روی HuggingFace دردسترس است.
https://huggingface.co/Snowflake/snowflake-arctic-instruct
👍64
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه‌ی 0.20.0 از پکیج Supervision با قابلیت پشتیبانی از Keypoint Detection و Pose Estimation منتشر شد.

https://github.com/roboflow/supervision/releases/tag/0.20.0
👍32🔥2
ابررایانه (Supercomputer) هوش مصنوعی جدید شرکت NVIDIA به‌نام DGX H200 امروز شخصا توسط Jensen Huang (مدیرعامل و موسس NVIDIA) به OpenAI برای پیش‌برد هوش مصنوعی، محاسبات و بشریت اهدا شد.

- 256 H100 GPUs,
- 32 Grace Neoverse V2 72-core CPUs,
- 32 OSFT single-port ConnectX-7 VPI of with 400Gb/s InfiniBand and 16 dual-port BlueField-3 VPI with 200Gb/s of Mellanox
🔥28👍72
سومین نسخه از خانواده‌ی مدل‌های زبانی (غیر بزرگ) مایکروسافت (Microsoft Phi-3) منتشر شد.

این مدل زبانی در سه سایز ۳/۸ میلیارد پارامتری (mini)، ۷ میلیارد پارامتری (small) و ۱۴ میلیارد پارامتری (medium) منتشر شده که مدل mini روی ۳/۳ تریلیون توکن و مدل‌های small و medium روی ۴/۸ تریلیون توکن آموزش دیده‌اند

طول متن در مدل mini به‌صورت پیش‌فرض، 4K است اما نسخه‌ی با طول متن 128K نیز با نام phi-mini-128k توسعه داده شده‌ست.

طبق گزارش، عمل‌کرد مدل mini از GPT-3.5 و Mixtral 8x7B به‌تر است.

این مدل‌ها، با توجه به کوچک بودن، به‌شدت مناسب اجرا روی موبایل و هم‌چنین Edge Device ها اند.


بلاگ معرفی:
https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/

گزارش فنی:
https://arxiv.org/pdf/2404.14219

دانلود مدل‌ها از هاگینگ‌فیس:
https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

دموی مدل روی هاگینگ‌فیس:
https://huggingface.co/chat/models/microsoft/Phi-3-mini-4k-instruct
👍14🔥54
پژوهش زیر به بررسی Graph Machine Learning در عصر LLMها می‌پردازد.

https://arxiv.org/pdf/2404.14928
👍123🙏1
طی روزهای گذشته، بسیاری از دوستان ML Engineer، پرسش‌هایی در مورد روش عملی پیاده‌سازی یک سامانه‌ی RAG داشته‌اند. بنابراین در این نوشتار به‌خلاصه در این مورد
می‌پردازم.

مدل‌های زبانی، در واقع، با نگاه به حجم زیادی داده‌ی متنی، زبان آن متون رو یاد می‌گیرند نه چیز دیگری. بنابراین متن‌های تولید‌شده به‌کمک مدل‌های زبانی، به متن‌هایی که هنگام آموزش مدل مورد استفاده قرار گرفته‌اند، وابسته‌اند و ممکن‌ست از لحاظ زبانی، درست، ولی از نظر صحت، نادرست باشند. بنابراین می‌توان هنگام تولید متن (generation) اطلاعاتی را در اختیار مدل قرار داد (augmentation) که مدل بر اساس آن اطلاعات، به پرسش‌ها پاسخ دهد. با این کار می‌توان دانش مدل زبانی را به‌روز نگه داشت و میزان Context Awareness را در مدل افزایش داد.

این اطلاعات معمولا به‌صورت متن‌هایی داخل فایل‌های بی‌ساختار (Unstructured) مثل فایل‌های PDF و HTML و … قرار دارند. قبل از هر چیز، این فایل‌ها باید جمع‌آوری، ذخیره و به‌روزرسانی شوند. این فایل‌ها را می‌توان روی سامانه‌های فایل (مثلا دیسک سخت یا Google Drive یا …) ذخیره کرد. البته در یک پلتفرم داده‌ای مقیاس‌پذیر، این فایل‌ها معمولا روی Object Storage هایی مانند MINIO یا Amazon S3 ذخیره می‌شوند.

در مرحله‌ی بعد، این اطلاعات باید ETL شوند. یعنی اطلاعات متنی از داخل فایل‌ها استخراج (Extract) شده، به شکل مطلوب تبدیل (Transform) شده (مثلا تگ‌ها و اموجی‌ها حذف شده، متن‌های طولانی، خلاصه و پارتیشن شده و به‌صورت استاندارد درآمده) و در نهایت در جای مناسبی (معمولا یک Vector Database) ذخیره (Load) می‌شوند. برای ETL کردن داده‌ها می‌توان از ابزارهایی مثل https://unstructured.io/platform استفاده کرد.

پایگاه‌های داده‌ی برداری (Vector Databases)، اطلاعات متنی و بردار Embeddig متناظر با آن‌ها را به‌شکلی ذخیره می‌کنند که متن‌هایی که بردار تعبیه‌ی مشابه به هم دارند، به‌سرعت قابل بازیابی (retrieval) باشند. از Google ScaNN یا Meta FAISS یا ابزارهای پیش‌رفته‌تری مانند Weaviate و Pinecone و Qdrant و ... می‌توان به‌عنوان پایگاه داده‌ی برداری استفاده کرد.

برای محاسبه‌ی بردار تعبیه‌ی اطلاعات متنی می‌توان از مدل‌های Embedding آماده و رایگان مثل BAAI/bge-base-en-v1.5 و یا مدل‌های غیررایگان مثل OpenAI Text Embedding استفاده کرد.

هر زمان که کاربر، پرسشی را از چت‌بات می‌پرسد، آن پرسش را از مدل Embedding رد کرده و بردار تعبیه متناظر با آن را پیدا می‌کنیم، سپس به‌کمک این بردار تعبیه، تعداد مشخص و محدودی (مثلا ۵ عدد) از اسناد مشابه و مرتبط از پایگاه داده‌ی برداری، بازیابی (retrieve) شده و در قالب یک پرامپتِ مهندسی‌شده، قبل از پرسش، به مدل زبانی داده می‌شوند. مثلا:


<|start_header_id|>user<|end_header_id|>
You are an assistant for answering questions about IPM.
You are given the extracted parts of a long document and a question. Provide a conversational answer.
If you don't know the answer, just say "I do not know." Don't make up an answer.
Question: {question}
Context: {context}<|eot_id|><|start_header_id|>assistant<|end_header_id|>


مدل زبانی، بسته به نیاز می‌تواند هر مدلی باشد. از مدل‌های اوپن-سورس مثل Meta Llama 3 و Google Gemma و Microsoft Phi-3 و Snowflake Arctic تا مدل‌های تجاری مانند OpenAI GPT-4 …
البته پرامپتی که در بالا آمده مربوط به مدل Meta-Llama-3-8B-Instruct است. بیش‌تر مدل‌های اوپن-سورس روی پلتفرم HuggingFace موجود‌اند و می‌توان به‌سادگی و به‌کمک پکیج Transformers آن‌ها را مورد استفاده قرار داد.

برای اتصال همه‌ی این بخش‌ها به هم، می‌توان از فریم‌ورک‌های مربوط به LLM ها مانند LangChain و یا LlamaIndex بهره برد.


لینک زیر یک Jupyter Notebook آموزشی است که همه‌ی موارد گفته‌شده در بالا را در عمل و به‌سادگی نشان می‌دهد. اطلاعات متنی موجود در یک فایل PDF به‌کمک ابزار unstructured.io استخراج شده و براساس عنوان‌ها، پارتیشن می‌شوند. سپس این اطلاعات توسط مدل BAAI/bge-base-en-v1.5 به بردار تعبیه تبدیل شده و در Meta FAISS برای بازیابی در آینده، ذخیره می‌شوند. سپس به‌کمک فریم‌ورک LangChain یک پایپلاین RAG طراحی شده و اطلاعات بازیابی‌شده، به مدل زبانی Meta-Llama-3-8B-Instruct که روی HuggingFace قرار دارد، داده‌شده و پاسخ مطلوب تولید شده‌ست.
https://colab.research.google.com/drive/1BJYYyrPVe0_9EGyXqeNyzmVZDrCRZwsg?usp=sharing#scrollTo=zKG6n2JpMtu3


لینک زیر نیز سناریویی مشابه را با فریم‌ورک LlamaIndex و پایگاه داده‌ی Qdrant و مدل تعبیه‌ی BAAI/bge-small-en-v1.5 و مدل زبانی Meta-Llama-3-8B-Instruct آموزش می‌دهد:
https://lnkd.in/g_qFdkcd
👍289
واچکانش دانش (Knowledge Distillation) در یادگیری ماشین چیست و چه کاربردی دارد؟

در شرایطی که محدودیت در توان پردازشی داریم (مثلا هنگام توسعه‌ی یک اپلیکیشن موبایل)، دانش موجود در یک مدل یادگیری ماشینِ نسبتا بزرگ، پیچیده و کند (Base Model) را به‌صورت چکیده به یک مدل بسیار ساده‌تر، کوچک‌تر و سریع‌تر (Target Model) منتقل می‌کنیم به‌نحوی که عمل‌کردی مشابه با مدل اصلی را با هزینه‌ی پردازشی بسیار پایین‌تر داشته باشد. به این کار، واچکانش دانش گفته می‌شود.

مثلا فرض کنید در حال توسعه‌ی یک مدل تشخیص شیء (Object Detection) برای پیداکردن ره‌گذرهای پیاده و همچنین خودرو‌های موجود در تصویر یک خیابان هستید. قدیم‌تر، برای انجام این تسک، نیاز به آموزش یک مدل Object Detection برروی یک مجموعه‌داده‌ی برچسب‌خورده داشتیم. امروز اما به‌طورمعمول، از مدل‌های بنیادین (Foundation Models) ازپیش‌آموزش‌دیده استفاده می‌شود که به‌صورت Zero-shot (بدون مشاهده‌ی داده‌ی آموزشی جدید) قابل بهره‌برداری‌اند. مثلا مدل Groundig DINO یا مدل YOLO-World (که به آن‌ها مدل‌های Open Vocabulary Detection هم گفته می‌شود) یک پرامپت متنی از شما دریافت کرده و شیء(های) متناظر با آن را در تصویر شناسایی می‌کند. مثلا کافی‌ست واژه‌هایی هم‌چون vehicle یا sedan car یا bike یا human یا … را به‌عنوان متن ورودی به آن بدهیم و مدل اشیای مورد نظر را تشخیص می‌دهد.
مشکل این‌جاست که مدل‌های Open Vocabulary Detection، دانش نهفته‌ی زیادی در مورد اشیای مختلف (مثلا اسب و هواپیما و …) دارند که در مسئله‌ی ما بی‌اهمیت‌اند. بنابراین، می‌توانیم با ارائه‌ی پرامپت مناسب به مدل Grounding DINO یک مجموعه تصویر را به‌صورت خودکار برچسب زده و از این مجموعه‌داده‌ی حاصل برای آموزش یک مدل شناسایی شیء ساده‌تر مانند YOLO-NAS یا YOLOv8 استفاده کنیم. در این حالت، بخش مور نیاز ما از دانش موجود در Grounding DINO به‌صورت چکیده به مدل YOLO-NAS منتقل (واچکانی) می‌شود و می‌توانیم ازین مدل ساده‌تر در پروژه استفاده کنیم.

برای این کار می‌توانید از پکیج autodistill در پایتون استفاده کنید.


pip install autodistill autodistill-grounding-dino autodistill-yolonas supervision



from autodistill_grounding_dino import GroundingDINO
from autodistill.detection import CaptionOntology
from autodistill_yolonas import YOLONAS


PROMPT = “any vehicle”
CLASS = “vehicle”

IMAGES_DIR_PATH = “path/to/images/dir”
DATASET_PATH = ”path/to/store/dataset”

base_model = GroundingDINO(ontology=CaptionOntology({“PROMPT: CLASS}))
target_model = YOLONAS("yolo_nas_s.pt")

base_model.label(input_folder=IMAGES_DIR_PATH, output_folder=DATASET_PATH")
target_model.train(DATASET_PATH, epochs=20)
pred = target_model.predict(DATASET_PATH+”/train/images/image.jpg", confidence=0.5)
👍25👏43
یادگیری ماشین روی دستگاه‌های لبه (Edge Devices)

در طراحی بعضی از محصولات صنعتیِ مبتنی بر هوش مصنوعی، نمی‌توانیم برای اجرای مدل‌ها، روی پردازش ابری (Cloud Computing) حساب کنیم.
مثلا یک سامانه‌ی پایش مناطق جنگلی را در نظر بگیرید که قرارست بدون اتصال به شبکه‌ی اینترنت کار کند.
یا یک روبات مریخ‌نورد که به اینترنت پرسرعت دسترسی ندارد.
در بعضی از محصولات مانند خودروهای خودران، دسترسی به اینترنت وجود دارد اما نیاز به تصمیم‌گیری آنی و بدون latency شبکه داریم.
در بعضی از موارد مانند اینترنت اشیا نیز، برای حفاظت از حریم شخصی افراد و یا data privacy مایل به ارسال اطلاعات به سرورهای ابری نیستیم.
و همچنین حالت‌هایی نیز وجود دارند که هزینه‌ی استفاده از پردازش ابری توجیه‌پذیر نیست.

در این موارد لازم‌ست مدل‌های هوش مصنوعی به‌گونه‌ای طراحی شوند که برروی سخت‌افزارهای لبه (Edge Devices) که معمولا ضعیف‌تراند، به‌راحتی اجرا شوند. در پست قبلی، روش Knowledge Distillation را معرفی کردیم که در این زمینه بسیار کارامدست.

برای ساخت دستگاه‌های لبه با قابلیت اجرای مدل‌های هوش مصنوعی، معمولا از بورد‌های متداول مثل Raspberry Pi استفاده نمی‌شود. زیرا این بوردها قابلیت شتاب‌دهی و اجرای بهینه‌ی مدل‌های AI را ندارند. به‌جای آن از بوردهای شتاب‌دهی هوش مصنوعی (AI Acceleration Boards) مانند NVIDIA Jetson (تصویر در پست بعدی) استفاده می‌شود که کامپیوترهایی کوچک بر روی یک بورد با سیستم‌عامل مبتنی بر لینوکس اند.

شرکت NVIDIA تا امروز، شش مدل بورد شتاب‌دهی هوش مصنوعی به بازار معرفی کرده که به ترتیب (از ضعیف به قوی) در زیر آمده‌اند.

1. NVIDIA Jetson Nano (472 GFLOPS)
Quad-Core Arm® Cortex®-A57 MPCore processor, 128-core NVIDIA Maxwell architecture GPU, 4GB 64-bit LPDDR4 25.6GB/s

2. NVIDIA Jetson Xavier NX (21 TOPS)
6-core NVIDIA Carmel Arm®v8.2 64-bit CPU 6MB L2 + 4MB L3, 384-core NVIDIA Volta architecture GPU with 48 Tensor Cores, 8GB 128-bit LPDDR4x 59.7GB/s

3. NVIDIA Jetson AGX Xavier (32 TOPS)
8-core NVIDIA Carmel Arm®v8.2 64-bit CPU 8MB L2 + 4MB L3, 512-core NVIDIA Volta architecture GPU with 64 Tensor Cores, 32GB 256-bit LPDDR4x 136.5GB/s

4. NVIDIA Jetson Orin Nano 8GB (40 TOPs)
6-core Arm® Cortex®-A78AE v8.2 64-bit CPU 1.5MB L2 + 4MB L3, 1024-core NVIDIA Ampere architecture GPU with 32 Tensor Cores, 8GB 128-bit LPDDR5 68 GB/s

5. NVIDIA Jetson Orin NX 16GB (100 TOPS)
8-core NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 2MB L2 + 4MB L3, 1024-core NVIDIA Ampere architecture GPU with 32 Tensor Cores, 16GB 128-bit LPDDR5 102.4GB/s

6. NVIDIA Jetson AGX Orin 64GB (275 TOPS)
12-core NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 3MB L2 + 6MB L3, 2048-core NVIDIA Ampere architecture GPU with 64 Tensor Cores, 64GB 256-bit LPDDR5 204.8GB/s

لینک زیر، روش اجرای مدل YOLO-NAS بر روی NVIDIA Jetson را به‌کمک Roboflow Inference Server نشان می‌دهد.
https://roboflow.com/how-to-deploy/deploy-yolo-nas-to-nvidia-jetson
👍124🔥1
پژوهش‌گران دانشگاه هاروارد و تیم کانکتومیکس در گوگل (از زیرشاخه‌های علوم اعصاب که به مطالعه‌ی پیوندهای بین یاخته‌های عصبی می‌پردازد)، به کمک یادگیری ماشین، موفق شدند نقشه‌ی سه‌بعدی بخش کوچکی از مغز یک انسان را در مقیاس نانو به‌طور کامل و دقیق بازسازی کنند.

این بخش کوچک از مغز (به‌اندازه‌ی نصف یک دانه‌ی برنج)، هنگام جراحی از ناحیه‌ی Cerebral Cortex یک بیمار مبتلا به صرع برداشته شده‌ست. Cerebral Cortex لایه‌ی نازکی (۲ تا ۴ میلی‌متر) از ماده‌ی خاکستری است که سطح مغز را می پوشاند و مرکز بسیاری از رفتارهای ارادی بدن و همین‌طور مرکز پردازش اطلاعات حسی در مغز است. این بخش کوچک از مغز ابتدا به ۵۰۰۰ برش با ضخامت‌های تقریبی ۳۰ نانومتر تقسیم شده و سپس به‌کمک یک میکروسکوپ الکترونی چندپرتویی، طی ۳۲۶ روز، از این ۵۰۰۰ برش، تصویربرداری با رزولوشن بالا انجام شده‌ست. سپس با به‌کارگیری ابزارهای یادگیری ماشین روی این تصاویر، نوع یاخته‌ها و ساختار سه‌بعدی آن‌ها شامل همه‌ی آکسون‌ها، دندریت‌ها و پیوندهای سیناپسی، بازسازی شده‌اند.

نقشه‌ی بازسازی‌شده در قالب یک مجموعه‌داده با بزرگی ۱/۴ پتابایت شامل اطلاعات حدود ۱۵۰ میلیون سیناپس و ۵۷ هزار یاخته (۱۶ هزار یاخته‌ی عصبی، ۳۲ هزار یاخته‌ی گلیال و ۸۰۰۰ یاخته‌ی رگ‌)، منتشر شده‌ست.
https://h01-release.storage.googleapis.com/gallery.html

🤯🤯 فضای لازم برای نگه‌داری نقشه‌ی سه‌بعدی بخشی از مغز به‌بزرگی نصف یک دانه‌ی برنج، ۱/۴ میلیون گیگابایت!!!

پژوهش‌گران هنگام نقشه‌برداری به یافته‌های جدیدی نیز دست پیدا کردند. مثلا نورون‌هایی وجود دارند که بیش از ۵۰ اتصال سیناپسی با یک‌دیگر دارند و طبق تحلیل‌های داده‌ای انجام‌شده، این اتصال‌های قوی، تصادفی یا بی‌دلیل نیستند و شاید خاطرات مهم را نگه می‌دارند.
کشف بعدی، آکسون‌هایی‌اند که به‌شکل کلاف برروی سطح یاخته‌های دیگر قرار می‌گیرند و عمل‌کرد آن‌ها ناشناخته‌ست و حتی ممکن‌ست از عوارض بیماری صرع یا داروهای درمانی آن باشد.

پژوهش‌‌های آتی متخصصان علوم اعصاب براساس این نقشه درک بهتری از عمل‌کرد مغز و اختلالات عصبی و همچنین چگونگی شکل گیری حافظه را نشان خواهند داد.

بلاگ‌پست معرفی
https://research.google/blog/ten-years-of-neuroscience-at-google-yields-maps-of-human-brain/

ویدئوی معرفی
https://youtu.be/VSG3_JvnCkU

مقاله‌ی چاپ‌شده در مجله‌ی Science
https://www.science.org/doi/10.1126/science.adk4858
👏94👍4🔥1
تجربه‌های ارزش‌مند سم آلتمن، مدیرعامل OpenAI

https://blog.samaltman.com/what-i-wish-someone-had-told-me
12👍5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
فریم‌ورک FeatUp به‌طور مشترک توسط پژوهش‌گران MIT و Microsoft و Berkeley و Google در سمینار ICLR 2024 معرفی شده.

این فریم‌ورک فارق از تسک یا مدل، ویژگی‌های ازدست‌رفته‌ی داده‌ی بینایی (تصویر) در ژرفای مدل را بدون تاثیر در semantic مدل، با دقت قابل‌توجهی بازسازی می‌کند.

سایت:
https://mhamilton.net/featup.html

مقاله:
https://arxiv.org/pdf/2403.10516

کد:
https://github.com/mhamilton723/FeatUp
🔥7👍3
فردا OpenAI خبرهای هیجان‌انگیزی دارد…
منتظر باشید 😍
7👍1
School of AI
فردا OpenAI خبرهای هیجان‌انگیزی دارد… منتظر باشید 😍
شرکت OpenAI مدل هوش مصنوعی جدید خود به‌نام GPT-4o را معرفی کرد. این مدل، یک شبکه‌ی عصبی multimodal یا omni است. به‌عبارتی می‌تواند پذیرای داده‌ی ورودی از نوع متن، صوت، تصویر و یا ویدئو باشد. خروجی مدل نیز می‌تواند از هر نوعی باشد.

این هوش مصنوعی، جای‌گزینی برای دستیارهای صوتی سنتی مثل Apple Siri یا Amazon Alexa یا Google Assistant است که به مدل‌های بنیادین مانند LLM ها مجهز شده‌ست و می‌تواند تعامل واقعا هوش‌مندانه‌ای شبیه به سامانه‌ی سامانثا در فیلم Her ارائه دهد.

پیش از این، ChatGPT قابلیتی به‌نام Voice Mode داشت که به کاربران اجازه‌ی تعامل از طریق صوت به‌جای نوشتار را می‌داد. اما در این حالت، ابتدا صدای کاربر به مدل OpenAI Whisper که یک مدل ASR است داده می‌شد و متن معادل آن صدا به‌دست می‌آمد. سپس این متن به مدل GPT-4 که یک LLM است داده شده و پاسخ مورد نظر در قالب متنی دیگر به‌دست می‌آمد. در نهایت، این پاسخ متنی به کمک یک مدل ساده‌ی TTS به صوت تبدیل و به کاربر ارائه می‌شد.

این پایپلاین، اگرچه در نوع خود بی‌نظیر بود اما طبیعتا latency قابل توجهی (حدود ۵/۴ ثانیه) داشت که هرگز نمی‌توانست حس یک گپ‌و‌گفت طبیعی را به کاربر منتقل کند. از طرفی کاربر باید منتظر پردازش کامل صحبت قبلی می‌ماند و برخلاف یک گپ‌و‌گفت طبیعی، نمی‌توانست صحبت دستیار را قطع کند. به علاوه اطلاعات مهمی از صحبت کاربر (مانند تون صدا، احساس، نویز محیط و …) به مدل زبانی منتقل نمی‌شد و صدای خروجی نیز عاری از هرگونه ابراز احساسات، خنده، آواز و … بود.

اما مدل GPT-4o یک مدل end-to-end است یعنی از سه مدل مجزا تشکیل نشده و همه‌ی انواع ورودی‌ها از طریق یک شبکه‌ی عصبی یکتا، پردازش می‌شوند. بنابراین این مدل به‌صورت میانگین طی مدت ۳۲۰ میلی‌ثانیه (مشابه سرعت پاسخ‌گویی انسان) پاسخ کاربر را می‌دهد.

کیفیت عمل‌کرد این مدل برروی benchmark های متداول برای نوشتار انگلیسی، کدزنی و استدلال، مشابه با مدل GPT-4 Turbo است اما برای تسک‌های چندزبانی، پردازش صوت و همچنین بینایی، عملکرد به‌تری دارد.

قابلیت پردازش متن و تصویر به کمک مدل GPT-4o از امروز به نسخه‌ی رایگان ChatGPT اضافه شده‌ اما قابلیت پردازش صوت از چندهفته دیگر برای کابران نسخه‌ی Plus در دسترس خواهد بود. توسعه‌دهنده‌گان نیز از امروز می‌توانند به قابلیت‌های پردازش متن و تصویر از طریق API با نصف هزینه‌ی GPT-4 Turbo دسترسی داشته باشند.

نکته‌ی انگیزشی برای اعضای کانال این‌که در بین سازندگان اصلی این مدل نام تعداد زیادی از هم‌میهنان عزیزمون به چشم می‌خوره. آقایان علی کمالی، امین توتون‌چیان، بهروز قربانی، فرزاد خراسانی، هادی سلمان، رضا زمانی و …

https://openai.com/index/hello-gpt-4o/
18👍5🔥5
School of AI
توسعه‌دهنده‌گان نیز از امروز می‌توانند به قابلیت‌های پردازش متن و تصویر از طریق API با نصف هزینه‌ی GPT-4 Turbo دسترسی داشته باشند.
توسعه‌دهندگان از همین امروز می‌توانند در فریم‌ورک LangChain از مدل GPT-4o از طریق API استفاده کنند.

در این کد نمونه، آدرس یک تصویر به مدل داده شده و از مدل خواسته شده محتوای تصویر را شرح دهد.

https://python.langchain.com/v0.1/docs/integrations/chat/openai/
👍111
This media is not supported in your browser
VIEW IN TELEGRAM
اپلیکیشن دسکتاپ ChatGPT برای سیستم عامل macOS معرفی شد.

کاربران Plus از امروز و کاربران نسخه‌ی رایگان از چند هفته‌ی دیگر می‌توانند این اپلیکیشن رو دانلود کنند.

برای استفاده از چت‌جی‌پی‌تی روی مک خود، کافی‌ست کلیدهای Option + Space را زده و در باکس باز شده، شبیه به Spotlight خود مک، با چت‌جی‌پی‌تی ارتباط برقرار کنید.
👍191