پژوهش جدیدی که توسط محققان دانشگاه استنفورد انجام شده، تقابل میان دانش درونی مدلهای زبانی (Prior آنها) و اطلاعات بازیابیشده در فرآیند RAG را بررسی و تحلیل کرده و نشان میدهد که RAG قادرست تا ۹۴ درصد از خطاهای موجود در Prior مدلها را اصلاح کند.
https://arxiv.org/pdf/2404.10198.pdf
https://arxiv.org/pdf/2404.10198.pdf
👍20❤1
یکی از دوستان بهنام مهدی حسینی مقدم، مدل Llama 3 رو برای متون فارسی fine-tune کردهاند:
https://github.com/mehdihosseinimoghadam/AVA-Llama-3
https://github.com/mehdihosseinimoghadam/AVA-Llama-3
😍36👍8🙏3
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهشگران Meta یک روش جدید و جالب بهنام RA-DIT برای فاینتیونکردن همزمان مدل زبانی (LLM) و مدل بازیابی (Retrieval Model) معرفی کردهاند.
در روشهای قبلی، مدل زبانی، هنگام آموزشدیدن، با اطلاعات بازیابی (اطلاعات RAG) مواجه نمیشود، بنابراین قدرت بهرهمندی مدل از این اطلاعات برای اصلاح Hallucinations کمترست. روش RA-DIT این ضعف را پوشش میدهد.
https://www.deeplearning.ai/the-batch/meta-ra-dit-boosts-language-model-output-by-optimizing-content-retrieval/
در روشهای قبلی، مدل زبانی، هنگام آموزشدیدن، با اطلاعات بازیابی (اطلاعات RAG) مواجه نمیشود، بنابراین قدرت بهرهمندی مدل از این اطلاعات برای اصلاح Hallucinations کمترست. روش RA-DIT این ضعف را پوشش میدهد.
https://www.deeplearning.ai/the-batch/meta-ra-dit-boosts-language-model-output-by-optimizing-content-retrieval/
🔥8❤1
School of AI
شرکت Databricks که از خوشنامترین شرکتها در حوزهی علوم و مهندسی دادهست، امروز، یک مدل زبانی همهمنظوره و اوپنسورس بهنام DBRX را معرفی نمودهست که عملکرد قابلتوجهی دارد. https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
پس از Databricks، اینبار پژوهشگران هوش مصنوعی در شرکت Snowflake دستبهکار شده و مدل زبانی Arctic را با شعار efficiently intelligent and truly open منتشر کردهاند.
معماری این مدل، ترنسفورمر ترکیبی (Dense+MoE) با ۱۲۸ خبره و تعداد کل ۴۸۰ میلیارد پارامترست که به کمک یک مکانیزم top-2 gating در هر لحظه فقط ۱۷ میلیارد پارامتر فعال داشته و بهکمک ۳/۵ تریلیون توکن آموزش دیدهست.
این مدل، تسکهای سازمانی همچون SQL Generation و Coding و Instruction Following را با دقتی در حد Llama3 70B انجام میدهد با اینکه هزینهی بسیار کمتری (کمتر از ۲ میلیون دلار - حدود یک هفدهم) از لحاظ محاسبات، صرف آموزش آن شدهست.
آموزش این مدل ۷ برابر محاسبات کمتری نسبت به مدل زبانی شرکت Databriks موسوم به DBRX دارد، بااینحال، در ریاضیات، استدلال و فهم زبان بهتر عمل میکند.
وزنها و کدهای این مدل تحت لیسانس Apache 2.0 بهصورت کاملا اوپن-سورس منتشر شدهست. همچینین، تمام دادهها و بینشهای پژوهشی نیز در اختیار عموم قرار گرفتهست.
این مدل از امروز روی HuggingFace دردسترس است.
https://huggingface.co/Snowflake/snowflake-arctic-instruct
معماری این مدل، ترنسفورمر ترکیبی (Dense+MoE) با ۱۲۸ خبره و تعداد کل ۴۸۰ میلیارد پارامترست که به کمک یک مکانیزم top-2 gating در هر لحظه فقط ۱۷ میلیارد پارامتر فعال داشته و بهکمک ۳/۵ تریلیون توکن آموزش دیدهست.
این مدل، تسکهای سازمانی همچون SQL Generation و Coding و Instruction Following را با دقتی در حد Llama3 70B انجام میدهد با اینکه هزینهی بسیار کمتری (کمتر از ۲ میلیون دلار - حدود یک هفدهم) از لحاظ محاسبات، صرف آموزش آن شدهست.
آموزش این مدل ۷ برابر محاسبات کمتری نسبت به مدل زبانی شرکت Databriks موسوم به DBRX دارد، بااینحال، در ریاضیات، استدلال و فهم زبان بهتر عمل میکند.
وزنها و کدهای این مدل تحت لیسانس Apache 2.0 بهصورت کاملا اوپن-سورس منتشر شدهست. همچینین، تمام دادهها و بینشهای پژوهشی نیز در اختیار عموم قرار گرفتهست.
این مدل از امروز روی HuggingFace دردسترس است.
https://huggingface.co/Snowflake/snowflake-arctic-instruct
👍6❤4
This media is not supported in your browser
VIEW IN TELEGRAM
نسخهی 0.20.0 از پکیج Supervision با قابلیت پشتیبانی از Keypoint Detection و Pose Estimation منتشر شد.
https://github.com/roboflow/supervision/releases/tag/0.20.0
https://github.com/roboflow/supervision/releases/tag/0.20.0
👍3❤2🔥2
ابررایانه (Supercomputer) هوش مصنوعی جدید شرکت NVIDIA بهنام DGX H200 امروز شخصا توسط Jensen Huang (مدیرعامل و موسس NVIDIA) به OpenAI برای پیشبرد هوش مصنوعی، محاسبات و بشریت اهدا شد.
- 256 H100 GPUs,
- 32 Grace Neoverse V2 72-core CPUs,
- 32 OSFT single-port ConnectX-7 VPI of with 400Gb/s InfiniBand and 16 dual-port BlueField-3 VPI with 200Gb/s of Mellanox
- 256 H100 GPUs,
- 32 Grace Neoverse V2 72-core CPUs,
- 32 OSFT single-port ConnectX-7 VPI of with 400Gb/s InfiniBand and 16 dual-port BlueField-3 VPI with 200Gb/s of Mellanox
🔥28👍7❤2
سومین نسخه از خانوادهی مدلهای زبانی (غیر بزرگ) مایکروسافت (Microsoft Phi-3) منتشر شد.
این مدل زبانی در سه سایز ۳/۸ میلیارد پارامتری (mini)، ۷ میلیارد پارامتری (small) و ۱۴ میلیارد پارامتری (medium) منتشر شده که مدل mini روی ۳/۳ تریلیون توکن و مدلهای small و medium روی ۴/۸ تریلیون توکن آموزش دیدهاند
طول متن در مدل mini بهصورت پیشفرض، 4K است اما نسخهی با طول متن 128K نیز با نام phi-mini-128k توسعه داده شدهست.
طبق گزارش، عملکرد مدل mini از GPT-3.5 و Mixtral 8x7B بهتر است.
این مدلها، با توجه به کوچک بودن، بهشدت مناسب اجرا روی موبایل و همچنین Edge Device ها اند.
بلاگ معرفی:
https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/
گزارش فنی:
https://arxiv.org/pdf/2404.14219
دانلود مدلها از هاگینگفیس:
https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
دموی مدل روی هاگینگفیس:
https://huggingface.co/chat/models/microsoft/Phi-3-mini-4k-instruct
این مدل زبانی در سه سایز ۳/۸ میلیارد پارامتری (mini)، ۷ میلیارد پارامتری (small) و ۱۴ میلیارد پارامتری (medium) منتشر شده که مدل mini روی ۳/۳ تریلیون توکن و مدلهای small و medium روی ۴/۸ تریلیون توکن آموزش دیدهاند
طول متن در مدل mini بهصورت پیشفرض، 4K است اما نسخهی با طول متن 128K نیز با نام phi-mini-128k توسعه داده شدهست.
طبق گزارش، عملکرد مدل mini از GPT-3.5 و Mixtral 8x7B بهتر است.
این مدلها، با توجه به کوچک بودن، بهشدت مناسب اجرا روی موبایل و همچنین Edge Device ها اند.
بلاگ معرفی:
https://news.microsoft.com/source/features/ai/the-phi-3-small-language-models-with-big-potential/
گزارش فنی:
https://arxiv.org/pdf/2404.14219
دانلود مدلها از هاگینگفیس:
https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
دموی مدل روی هاگینگفیس:
https://huggingface.co/chat/models/microsoft/Phi-3-mini-4k-instruct
👍14🔥5❤4
طی روزهای گذشته، بسیاری از دوستان ML Engineer، پرسشهایی در مورد روش عملی پیادهسازی یک سامانهی RAG داشتهاند. بنابراین در این نوشتار بهخلاصه در این مورد
میپردازم.
مدلهای زبانی، در واقع، با نگاه به حجم زیادی دادهی متنی، زبان آن متون رو یاد میگیرند نه چیز دیگری. بنابراین متنهای تولیدشده بهکمک مدلهای زبانی، به متنهایی که هنگام آموزش مدل مورد استفاده قرار گرفتهاند، وابستهاند و ممکنست از لحاظ زبانی، درست، ولی از نظر صحت، نادرست باشند. بنابراین میتوان هنگام تولید متن (generation) اطلاعاتی را در اختیار مدل قرار داد (augmentation) که مدل بر اساس آن اطلاعات، به پرسشها پاسخ دهد. با این کار میتوان دانش مدل زبانی را بهروز نگه داشت و میزان Context Awareness را در مدل افزایش داد.
این اطلاعات معمولا بهصورت متنهایی داخل فایلهای بیساختار (Unstructured) مثل فایلهای PDF و HTML و … قرار دارند. قبل از هر چیز، این فایلها باید جمعآوری، ذخیره و بهروزرسانی شوند. این فایلها را میتوان روی سامانههای فایل (مثلا دیسک سخت یا Google Drive یا …) ذخیره کرد. البته در یک پلتفرم دادهای مقیاسپذیر، این فایلها معمولا روی Object Storage هایی مانند MINIO یا Amazon S3 ذخیره میشوند.
در مرحلهی بعد، این اطلاعات باید ETL شوند. یعنی اطلاعات متنی از داخل فایلها استخراج (Extract) شده، به شکل مطلوب تبدیل (Transform) شده (مثلا تگها و اموجیها حذف شده، متنهای طولانی، خلاصه و پارتیشن شده و بهصورت استاندارد درآمده) و در نهایت در جای مناسبی (معمولا یک Vector Database) ذخیره (Load) میشوند. برای ETL کردن دادهها میتوان از ابزارهایی مثل https://unstructured.io/platform استفاده کرد.
پایگاههای دادهی برداری (Vector Databases)، اطلاعات متنی و بردار Embeddig متناظر با آنها را بهشکلی ذخیره میکنند که متنهایی که بردار تعبیهی مشابه به هم دارند، بهسرعت قابل بازیابی (retrieval) باشند. از Google ScaNN یا Meta FAISS یا ابزارهای پیشرفتهتری مانند Weaviate و Pinecone و Qdrant و ... میتوان بهعنوان پایگاه دادهی برداری استفاده کرد.
برای محاسبهی بردار تعبیهی اطلاعات متنی میتوان از مدلهای Embedding آماده و رایگان مثل BAAI/bge-base-en-v1.5 و یا مدلهای غیررایگان مثل OpenAI Text Embedding استفاده کرد.
هر زمان که کاربر، پرسشی را از چتبات میپرسد، آن پرسش را از مدل Embedding رد کرده و بردار تعبیه متناظر با آن را پیدا میکنیم، سپس بهکمک این بردار تعبیه، تعداد مشخص و محدودی (مثلا ۵ عدد) از اسناد مشابه و مرتبط از پایگاه دادهی برداری، بازیابی (retrieve) شده و در قالب یک پرامپتِ مهندسیشده، قبل از پرسش، به مدل زبانی داده میشوند. مثلا:
مدل زبانی، بسته به نیاز میتواند هر مدلی باشد. از مدلهای اوپن-سورس مثل Meta Llama 3 و Google Gemma و Microsoft Phi-3 و Snowflake Arctic تا مدلهای تجاری مانند OpenAI GPT-4 …
البته پرامپتی که در بالا آمده مربوط به مدل Meta-Llama-3-8B-Instruct است. بیشتر مدلهای اوپن-سورس روی پلتفرم HuggingFace موجوداند و میتوان بهسادگی و بهکمک پکیج Transformers آنها را مورد استفاده قرار داد.
برای اتصال همهی این بخشها به هم، میتوان از فریمورکهای مربوط به LLM ها مانند LangChain و یا LlamaIndex بهره برد.
لینک زیر یک Jupyter Notebook آموزشی است که همهی موارد گفتهشده در بالا را در عمل و بهسادگی نشان میدهد. اطلاعات متنی موجود در یک فایل PDF بهکمک ابزار unstructured.io استخراج شده و براساس عنوانها، پارتیشن میشوند. سپس این اطلاعات توسط مدل BAAI/bge-base-en-v1.5 به بردار تعبیه تبدیل شده و در Meta FAISS برای بازیابی در آینده، ذخیره میشوند. سپس بهکمک فریمورک LangChain یک پایپلاین RAG طراحی شده و اطلاعات بازیابیشده، به مدل زبانی Meta-Llama-3-8B-Instruct که روی HuggingFace قرار دارد، دادهشده و پاسخ مطلوب تولید شدهست.
https://colab.research.google.com/drive/1BJYYyrPVe0_9EGyXqeNyzmVZDrCRZwsg?usp=sharing#scrollTo=zKG6n2JpMtu3
لینک زیر نیز سناریویی مشابه را با فریمورک LlamaIndex و پایگاه دادهی Qdrant و مدل تعبیهی BAAI/bge-small-en-v1.5 و مدل زبانی Meta-Llama-3-8B-Instruct آموزش میدهد:
https://lnkd.in/g_qFdkcd
میپردازم.
مدلهای زبانی، در واقع، با نگاه به حجم زیادی دادهی متنی، زبان آن متون رو یاد میگیرند نه چیز دیگری. بنابراین متنهای تولیدشده بهکمک مدلهای زبانی، به متنهایی که هنگام آموزش مدل مورد استفاده قرار گرفتهاند، وابستهاند و ممکنست از لحاظ زبانی، درست، ولی از نظر صحت، نادرست باشند. بنابراین میتوان هنگام تولید متن (generation) اطلاعاتی را در اختیار مدل قرار داد (augmentation) که مدل بر اساس آن اطلاعات، به پرسشها پاسخ دهد. با این کار میتوان دانش مدل زبانی را بهروز نگه داشت و میزان Context Awareness را در مدل افزایش داد.
این اطلاعات معمولا بهصورت متنهایی داخل فایلهای بیساختار (Unstructured) مثل فایلهای PDF و HTML و … قرار دارند. قبل از هر چیز، این فایلها باید جمعآوری، ذخیره و بهروزرسانی شوند. این فایلها را میتوان روی سامانههای فایل (مثلا دیسک سخت یا Google Drive یا …) ذخیره کرد. البته در یک پلتفرم دادهای مقیاسپذیر، این فایلها معمولا روی Object Storage هایی مانند MINIO یا Amazon S3 ذخیره میشوند.
در مرحلهی بعد، این اطلاعات باید ETL شوند. یعنی اطلاعات متنی از داخل فایلها استخراج (Extract) شده، به شکل مطلوب تبدیل (Transform) شده (مثلا تگها و اموجیها حذف شده، متنهای طولانی، خلاصه و پارتیشن شده و بهصورت استاندارد درآمده) و در نهایت در جای مناسبی (معمولا یک Vector Database) ذخیره (Load) میشوند. برای ETL کردن دادهها میتوان از ابزارهایی مثل https://unstructured.io/platform استفاده کرد.
پایگاههای دادهی برداری (Vector Databases)، اطلاعات متنی و بردار Embeddig متناظر با آنها را بهشکلی ذخیره میکنند که متنهایی که بردار تعبیهی مشابه به هم دارند، بهسرعت قابل بازیابی (retrieval) باشند. از Google ScaNN یا Meta FAISS یا ابزارهای پیشرفتهتری مانند Weaviate و Pinecone و Qdrant و ... میتوان بهعنوان پایگاه دادهی برداری استفاده کرد.
برای محاسبهی بردار تعبیهی اطلاعات متنی میتوان از مدلهای Embedding آماده و رایگان مثل BAAI/bge-base-en-v1.5 و یا مدلهای غیررایگان مثل OpenAI Text Embedding استفاده کرد.
هر زمان که کاربر، پرسشی را از چتبات میپرسد، آن پرسش را از مدل Embedding رد کرده و بردار تعبیه متناظر با آن را پیدا میکنیم، سپس بهکمک این بردار تعبیه، تعداد مشخص و محدودی (مثلا ۵ عدد) از اسناد مشابه و مرتبط از پایگاه دادهی برداری، بازیابی (retrieve) شده و در قالب یک پرامپتِ مهندسیشده، قبل از پرسش، به مدل زبانی داده میشوند. مثلا:
<|start_header_id|>user<|end_header_id|>
You are an assistant for answering questions about IPM.
You are given the extracted parts of a long document and a question. Provide a conversational answer.
If you don't know the answer, just say "I do not know." Don't make up an answer.
Question: {question}
Context: {context}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
مدل زبانی، بسته به نیاز میتواند هر مدلی باشد. از مدلهای اوپن-سورس مثل Meta Llama 3 و Google Gemma و Microsoft Phi-3 و Snowflake Arctic تا مدلهای تجاری مانند OpenAI GPT-4 …
البته پرامپتی که در بالا آمده مربوط به مدل Meta-Llama-3-8B-Instruct است. بیشتر مدلهای اوپن-سورس روی پلتفرم HuggingFace موجوداند و میتوان بهسادگی و بهکمک پکیج Transformers آنها را مورد استفاده قرار داد.
برای اتصال همهی این بخشها به هم، میتوان از فریمورکهای مربوط به LLM ها مانند LangChain و یا LlamaIndex بهره برد.
لینک زیر یک Jupyter Notebook آموزشی است که همهی موارد گفتهشده در بالا را در عمل و بهسادگی نشان میدهد. اطلاعات متنی موجود در یک فایل PDF بهکمک ابزار unstructured.io استخراج شده و براساس عنوانها، پارتیشن میشوند. سپس این اطلاعات توسط مدل BAAI/bge-base-en-v1.5 به بردار تعبیه تبدیل شده و در Meta FAISS برای بازیابی در آینده، ذخیره میشوند. سپس بهکمک فریمورک LangChain یک پایپلاین RAG طراحی شده و اطلاعات بازیابیشده، به مدل زبانی Meta-Llama-3-8B-Instruct که روی HuggingFace قرار دارد، دادهشده و پاسخ مطلوب تولید شدهست.
https://colab.research.google.com/drive/1BJYYyrPVe0_9EGyXqeNyzmVZDrCRZwsg?usp=sharing#scrollTo=zKG6n2JpMtu3
لینک زیر نیز سناریویی مشابه را با فریمورک LlamaIndex و پایگاه دادهی Qdrant و مدل تعبیهی BAAI/bge-small-en-v1.5 و مدل زبانی Meta-Llama-3-8B-Instruct آموزش میدهد:
https://lnkd.in/g_qFdkcd
👍28❤9
واچکانش دانش (Knowledge Distillation) در یادگیری ماشین چیست و چه کاربردی دارد؟
در شرایطی که محدودیت در توان پردازشی داریم (مثلا هنگام توسعهی یک اپلیکیشن موبایل)، دانش موجود در یک مدل یادگیری ماشینِ نسبتا بزرگ، پیچیده و کند (Base Model) را بهصورت چکیده به یک مدل بسیار سادهتر، کوچکتر و سریعتر (Target Model) منتقل میکنیم بهنحوی که عملکردی مشابه با مدل اصلی را با هزینهی پردازشی بسیار پایینتر داشته باشد. به این کار، واچکانش دانش گفته میشود.
مثلا فرض کنید در حال توسعهی یک مدل تشخیص شیء (Object Detection) برای پیداکردن رهگذرهای پیاده و همچنین خودروهای موجود در تصویر یک خیابان هستید. قدیمتر، برای انجام این تسک، نیاز به آموزش یک مدل Object Detection برروی یک مجموعهدادهی برچسبخورده داشتیم. امروز اما بهطورمعمول، از مدلهای بنیادین (Foundation Models) ازپیشآموزشدیده استفاده میشود که بهصورت Zero-shot (بدون مشاهدهی دادهی آموزشی جدید) قابل بهرهبرداریاند. مثلا مدل Groundig DINO یا مدل YOLO-World (که به آنها مدلهای Open Vocabulary Detection هم گفته میشود) یک پرامپت متنی از شما دریافت کرده و شیء(های) متناظر با آن را در تصویر شناسایی میکند. مثلا کافیست واژههایی همچون vehicle یا sedan car یا bike یا human یا … را بهعنوان متن ورودی به آن بدهیم و مدل اشیای مورد نظر را تشخیص میدهد.
مشکل اینجاست که مدلهای Open Vocabulary Detection، دانش نهفتهی زیادی در مورد اشیای مختلف (مثلا اسب و هواپیما و …) دارند که در مسئلهی ما بیاهمیتاند. بنابراین، میتوانیم با ارائهی پرامپت مناسب به مدل Grounding DINO یک مجموعه تصویر را بهصورت خودکار برچسب زده و از این مجموعهدادهی حاصل برای آموزش یک مدل شناسایی شیء سادهتر مانند YOLO-NAS یا YOLOv8 استفاده کنیم. در این حالت، بخش مور نیاز ما از دانش موجود در Grounding DINO بهصورت چکیده به مدل YOLO-NAS منتقل (واچکانی) میشود و میتوانیم ازین مدل سادهتر در پروژه استفاده کنیم.
برای این کار میتوانید از پکیج autodistill در پایتون استفاده کنید.
در شرایطی که محدودیت در توان پردازشی داریم (مثلا هنگام توسعهی یک اپلیکیشن موبایل)، دانش موجود در یک مدل یادگیری ماشینِ نسبتا بزرگ، پیچیده و کند (Base Model) را بهصورت چکیده به یک مدل بسیار سادهتر، کوچکتر و سریعتر (Target Model) منتقل میکنیم بهنحوی که عملکردی مشابه با مدل اصلی را با هزینهی پردازشی بسیار پایینتر داشته باشد. به این کار، واچکانش دانش گفته میشود.
مثلا فرض کنید در حال توسعهی یک مدل تشخیص شیء (Object Detection) برای پیداکردن رهگذرهای پیاده و همچنین خودروهای موجود در تصویر یک خیابان هستید. قدیمتر، برای انجام این تسک، نیاز به آموزش یک مدل Object Detection برروی یک مجموعهدادهی برچسبخورده داشتیم. امروز اما بهطورمعمول، از مدلهای بنیادین (Foundation Models) ازپیشآموزشدیده استفاده میشود که بهصورت Zero-shot (بدون مشاهدهی دادهی آموزشی جدید) قابل بهرهبرداریاند. مثلا مدل Groundig DINO یا مدل YOLO-World (که به آنها مدلهای Open Vocabulary Detection هم گفته میشود) یک پرامپت متنی از شما دریافت کرده و شیء(های) متناظر با آن را در تصویر شناسایی میکند. مثلا کافیست واژههایی همچون vehicle یا sedan car یا bike یا human یا … را بهعنوان متن ورودی به آن بدهیم و مدل اشیای مورد نظر را تشخیص میدهد.
مشکل اینجاست که مدلهای Open Vocabulary Detection، دانش نهفتهی زیادی در مورد اشیای مختلف (مثلا اسب و هواپیما و …) دارند که در مسئلهی ما بیاهمیتاند. بنابراین، میتوانیم با ارائهی پرامپت مناسب به مدل Grounding DINO یک مجموعه تصویر را بهصورت خودکار برچسب زده و از این مجموعهدادهی حاصل برای آموزش یک مدل شناسایی شیء سادهتر مانند YOLO-NAS یا YOLOv8 استفاده کنیم. در این حالت، بخش مور نیاز ما از دانش موجود در Grounding DINO بهصورت چکیده به مدل YOLO-NAS منتقل (واچکانی) میشود و میتوانیم ازین مدل سادهتر در پروژه استفاده کنیم.
برای این کار میتوانید از پکیج autodistill در پایتون استفاده کنید.
pip install autodistill autodistill-grounding-dino autodistill-yolonas supervision
from autodistill_grounding_dino import GroundingDINO
from autodistill.detection import CaptionOntology
from autodistill_yolonas import YOLONAS
PROMPT = “any vehicle”
CLASS = “vehicle”
IMAGES_DIR_PATH = “path/to/images/dir”
DATASET_PATH = ”path/to/store/dataset”
base_model = GroundingDINO(ontology=CaptionOntology({“PROMPT: CLASS}))
target_model = YOLONAS("yolo_nas_s.pt")
base_model.label(input_folder=IMAGES_DIR_PATH, output_folder=DATASET_PATH")
target_model.train(DATASET_PATH, epochs=20)
pred = target_model.predict(DATASET_PATH+”/train/images/image.jpg", confidence=0.5)
👍25👏4❤3
یادگیری ماشین روی دستگاههای لبه (Edge Devices)
در طراحی بعضی از محصولات صنعتیِ مبتنی بر هوش مصنوعی، نمیتوانیم برای اجرای مدلها، روی پردازش ابری (Cloud Computing) حساب کنیم.
مثلا یک سامانهی پایش مناطق جنگلی را در نظر بگیرید که قرارست بدون اتصال به شبکهی اینترنت کار کند.
یا یک روبات مریخنورد که به اینترنت پرسرعت دسترسی ندارد.
در بعضی از محصولات مانند خودروهای خودران، دسترسی به اینترنت وجود دارد اما نیاز به تصمیمگیری آنی و بدون latency شبکه داریم.
در بعضی از موارد مانند اینترنت اشیا نیز، برای حفاظت از حریم شخصی افراد و یا data privacy مایل به ارسال اطلاعات به سرورهای ابری نیستیم.
و همچنین حالتهایی نیز وجود دارند که هزینهی استفاده از پردازش ابری توجیهپذیر نیست.
در این موارد لازمست مدلهای هوش مصنوعی بهگونهای طراحی شوند که برروی سختافزارهای لبه (Edge Devices) که معمولا ضعیفتراند، بهراحتی اجرا شوند. در پست قبلی، روش Knowledge Distillation را معرفی کردیم که در این زمینه بسیار کارامدست.
برای ساخت دستگاههای لبه با قابلیت اجرای مدلهای هوش مصنوعی، معمولا از بوردهای متداول مثل Raspberry Pi استفاده نمیشود. زیرا این بوردها قابلیت شتابدهی و اجرای بهینهی مدلهای AI را ندارند. بهجای آن از بوردهای شتابدهی هوش مصنوعی (AI Acceleration Boards) مانند NVIDIA Jetson (تصویر در پست بعدی) استفاده میشود که کامپیوترهایی کوچک بر روی یک بورد با سیستمعامل مبتنی بر لینوکس اند.
شرکت NVIDIA تا امروز، شش مدل بورد شتابدهی هوش مصنوعی به بازار معرفی کرده که به ترتیب (از ضعیف به قوی) در زیر آمدهاند.
1. NVIDIA Jetson Nano (472 GFLOPS)
Quad-Core Arm® Cortex®-A57 MPCore processor, 128-core NVIDIA Maxwell™ architecture GPU, 4GB 64-bit LPDDR4 25.6GB/s
2. NVIDIA Jetson Xavier NX (21 TOPS)
6-core NVIDIA Carmel Arm®v8.2 64-bit CPU 6MB L2 + 4MB L3, 384-core NVIDIA Volta™ architecture GPU with 48 Tensor Cores, 8GB 128-bit LPDDR4x 59.7GB/s
3. NVIDIA Jetson AGX Xavier (32 TOPS)
8-core NVIDIA Carmel Arm®v8.2 64-bit CPU 8MB L2 + 4MB L3, 512-core NVIDIA Volta architecture GPU with 64 Tensor Cores, 32GB 256-bit LPDDR4x 136.5GB/s
4. NVIDIA Jetson Orin Nano 8GB (40 TOPs)
6-core Arm® Cortex®-A78AE v8.2 64-bit CPU 1.5MB L2 + 4MB L3, 1024-core NVIDIA Ampere architecture GPU with 32 Tensor Cores, 8GB 128-bit LPDDR5 68 GB/s
5. NVIDIA Jetson Orin NX 16GB (100 TOPS)
8-core NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 2MB L2 + 4MB L3, 1024-core NVIDIA Ampere architecture GPU with 32 Tensor Cores, 16GB 128-bit LPDDR5 102.4GB/s
6. NVIDIA Jetson AGX Orin 64GB (275 TOPS)
12-core NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 3MB L2 + 6MB L3, 2048-core NVIDIA Ampere architecture GPU with 64 Tensor Cores, 64GB 256-bit LPDDR5 204.8GB/s
لینک زیر، روش اجرای مدل YOLO-NAS بر روی NVIDIA Jetson را بهکمک Roboflow Inference Server نشان میدهد.
https://roboflow.com/how-to-deploy/deploy-yolo-nas-to-nvidia-jetson
در طراحی بعضی از محصولات صنعتیِ مبتنی بر هوش مصنوعی، نمیتوانیم برای اجرای مدلها، روی پردازش ابری (Cloud Computing) حساب کنیم.
مثلا یک سامانهی پایش مناطق جنگلی را در نظر بگیرید که قرارست بدون اتصال به شبکهی اینترنت کار کند.
یا یک روبات مریخنورد که به اینترنت پرسرعت دسترسی ندارد.
در بعضی از محصولات مانند خودروهای خودران، دسترسی به اینترنت وجود دارد اما نیاز به تصمیمگیری آنی و بدون latency شبکه داریم.
در بعضی از موارد مانند اینترنت اشیا نیز، برای حفاظت از حریم شخصی افراد و یا data privacy مایل به ارسال اطلاعات به سرورهای ابری نیستیم.
و همچنین حالتهایی نیز وجود دارند که هزینهی استفاده از پردازش ابری توجیهپذیر نیست.
در این موارد لازمست مدلهای هوش مصنوعی بهگونهای طراحی شوند که برروی سختافزارهای لبه (Edge Devices) که معمولا ضعیفتراند، بهراحتی اجرا شوند. در پست قبلی، روش Knowledge Distillation را معرفی کردیم که در این زمینه بسیار کارامدست.
برای ساخت دستگاههای لبه با قابلیت اجرای مدلهای هوش مصنوعی، معمولا از بوردهای متداول مثل Raspberry Pi استفاده نمیشود. زیرا این بوردها قابلیت شتابدهی و اجرای بهینهی مدلهای AI را ندارند. بهجای آن از بوردهای شتابدهی هوش مصنوعی (AI Acceleration Boards) مانند NVIDIA Jetson (تصویر در پست بعدی) استفاده میشود که کامپیوترهایی کوچک بر روی یک بورد با سیستمعامل مبتنی بر لینوکس اند.
شرکت NVIDIA تا امروز، شش مدل بورد شتابدهی هوش مصنوعی به بازار معرفی کرده که به ترتیب (از ضعیف به قوی) در زیر آمدهاند.
1. NVIDIA Jetson Nano (472 GFLOPS)
Quad-Core Arm® Cortex®-A57 MPCore processor, 128-core NVIDIA Maxwell™ architecture GPU, 4GB 64-bit LPDDR4 25.6GB/s
2. NVIDIA Jetson Xavier NX (21 TOPS)
6-core NVIDIA Carmel Arm®v8.2 64-bit CPU 6MB L2 + 4MB L3, 384-core NVIDIA Volta™ architecture GPU with 48 Tensor Cores, 8GB 128-bit LPDDR4x 59.7GB/s
3. NVIDIA Jetson AGX Xavier (32 TOPS)
8-core NVIDIA Carmel Arm®v8.2 64-bit CPU 8MB L2 + 4MB L3, 512-core NVIDIA Volta architecture GPU with 64 Tensor Cores, 32GB 256-bit LPDDR4x 136.5GB/s
4. NVIDIA Jetson Orin Nano 8GB (40 TOPs)
6-core Arm® Cortex®-A78AE v8.2 64-bit CPU 1.5MB L2 + 4MB L3, 1024-core NVIDIA Ampere architecture GPU with 32 Tensor Cores, 8GB 128-bit LPDDR5 68 GB/s
5. NVIDIA Jetson Orin NX 16GB (100 TOPS)
8-core NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 2MB L2 + 4MB L3, 1024-core NVIDIA Ampere architecture GPU with 32 Tensor Cores, 16GB 128-bit LPDDR5 102.4GB/s
6. NVIDIA Jetson AGX Orin 64GB (275 TOPS)
12-core NVIDIA Arm® Cortex A78AE v8.2 64-bit CPU 3MB L2 + 6MB L3, 2048-core NVIDIA Ampere architecture GPU with 64 Tensor Cores, 64GB 256-bit LPDDR5 204.8GB/s
لینک زیر، روش اجرای مدل YOLO-NAS بر روی NVIDIA Jetson را بهکمک Roboflow Inference Server نشان میدهد.
https://roboflow.com/how-to-deploy/deploy-yolo-nas-to-nvidia-jetson
👍12❤4🔥1
School of AI
یادگیری ماشین روی دستگاههای لبه (Edge Devices) در طراحی بعضی از محصولات صنعتیِ مبتنی بر هوش مصنوعی، نمیتوانیم برای اجرای مدلها، روی پردازش ابری (Cloud Computing) حساب کنیم. مثلا یک سامانهی پایش مناطق جنگلی را در نظر بگیرید که قرارست بدون اتصال به شبکهی…
NVIDIA Jetson Series
❤15😍2🔥1
پژوهشگران دانشگاه هاروارد و تیم کانکتومیکس در گوگل (از زیرشاخههای علوم اعصاب که به مطالعهی پیوندهای بین یاختههای عصبی میپردازد)، به کمک یادگیری ماشین، موفق شدند نقشهی سهبعدی بخش کوچکی از مغز یک انسان را در مقیاس نانو بهطور کامل و دقیق بازسازی کنند.
این بخش کوچک از مغز (بهاندازهی نصف یک دانهی برنج)، هنگام جراحی از ناحیهی Cerebral Cortex یک بیمار مبتلا به صرع برداشته شدهست. Cerebral Cortex لایهی نازکی (۲ تا ۴ میلیمتر) از مادهی خاکستری است که سطح مغز را می پوشاند و مرکز بسیاری از رفتارهای ارادی بدن و همینطور مرکز پردازش اطلاعات حسی در مغز است. این بخش کوچک از مغز ابتدا به ۵۰۰۰ برش با ضخامتهای تقریبی ۳۰ نانومتر تقسیم شده و سپس بهکمک یک میکروسکوپ الکترونی چندپرتویی، طی ۳۲۶ روز، از این ۵۰۰۰ برش، تصویربرداری با رزولوشن بالا انجام شدهست. سپس با بهکارگیری ابزارهای یادگیری ماشین روی این تصاویر، نوع یاختهها و ساختار سهبعدی آنها شامل همهی آکسونها، دندریتها و پیوندهای سیناپسی، بازسازی شدهاند.
نقشهی بازسازیشده در قالب یک مجموعهداده با بزرگی ۱/۴ پتابایت شامل اطلاعات حدود ۱۵۰ میلیون سیناپس و ۵۷ هزار یاخته (۱۶ هزار یاختهی عصبی، ۳۲ هزار یاختهی گلیال و ۸۰۰۰ یاختهی رگ)، منتشر شدهست.
https://h01-release.storage.googleapis.com/gallery.html
🤯🤯 فضای لازم برای نگهداری نقشهی سهبعدی بخشی از مغز بهبزرگی نصف یک دانهی برنج، ۱/۴ میلیون گیگابایت!!!
پژوهشگران هنگام نقشهبرداری به یافتههای جدیدی نیز دست پیدا کردند. مثلا نورونهایی وجود دارند که بیش از ۵۰ اتصال سیناپسی با یکدیگر دارند و طبق تحلیلهای دادهای انجامشده، این اتصالهای قوی، تصادفی یا بیدلیل نیستند و شاید خاطرات مهم را نگه میدارند.
کشف بعدی، آکسونهاییاند که بهشکل کلاف برروی سطح یاختههای دیگر قرار میگیرند و عملکرد آنها ناشناختهست و حتی ممکنست از عوارض بیماری صرع یا داروهای درمانی آن باشد.
پژوهشهای آتی متخصصان علوم اعصاب براساس این نقشه درک بهتری از عملکرد مغز و اختلالات عصبی و همچنین چگونگی شکل گیری حافظه را نشان خواهند داد.
بلاگپست معرفی
https://research.google/blog/ten-years-of-neuroscience-at-google-yields-maps-of-human-brain/
ویدئوی معرفی
https://youtu.be/VSG3_JvnCkU
مقالهی چاپشده در مجلهی Science
https://www.science.org/doi/10.1126/science.adk4858
این بخش کوچک از مغز (بهاندازهی نصف یک دانهی برنج)، هنگام جراحی از ناحیهی Cerebral Cortex یک بیمار مبتلا به صرع برداشته شدهست. Cerebral Cortex لایهی نازکی (۲ تا ۴ میلیمتر) از مادهی خاکستری است که سطح مغز را می پوشاند و مرکز بسیاری از رفتارهای ارادی بدن و همینطور مرکز پردازش اطلاعات حسی در مغز است. این بخش کوچک از مغز ابتدا به ۵۰۰۰ برش با ضخامتهای تقریبی ۳۰ نانومتر تقسیم شده و سپس بهکمک یک میکروسکوپ الکترونی چندپرتویی، طی ۳۲۶ روز، از این ۵۰۰۰ برش، تصویربرداری با رزولوشن بالا انجام شدهست. سپس با بهکارگیری ابزارهای یادگیری ماشین روی این تصاویر، نوع یاختهها و ساختار سهبعدی آنها شامل همهی آکسونها، دندریتها و پیوندهای سیناپسی، بازسازی شدهاند.
نقشهی بازسازیشده در قالب یک مجموعهداده با بزرگی ۱/۴ پتابایت شامل اطلاعات حدود ۱۵۰ میلیون سیناپس و ۵۷ هزار یاخته (۱۶ هزار یاختهی عصبی، ۳۲ هزار یاختهی گلیال و ۸۰۰۰ یاختهی رگ)، منتشر شدهست.
https://h01-release.storage.googleapis.com/gallery.html
🤯🤯 فضای لازم برای نگهداری نقشهی سهبعدی بخشی از مغز بهبزرگی نصف یک دانهی برنج، ۱/۴ میلیون گیگابایت!!!
پژوهشگران هنگام نقشهبرداری به یافتههای جدیدی نیز دست پیدا کردند. مثلا نورونهایی وجود دارند که بیش از ۵۰ اتصال سیناپسی با یکدیگر دارند و طبق تحلیلهای دادهای انجامشده، این اتصالهای قوی، تصادفی یا بیدلیل نیستند و شاید خاطرات مهم را نگه میدارند.
کشف بعدی، آکسونهاییاند که بهشکل کلاف برروی سطح یاختههای دیگر قرار میگیرند و عملکرد آنها ناشناختهست و حتی ممکنست از عوارض بیماری صرع یا داروهای درمانی آن باشد.
پژوهشهای آتی متخصصان علوم اعصاب براساس این نقشه درک بهتری از عملکرد مغز و اختلالات عصبی و همچنین چگونگی شکل گیری حافظه را نشان خواهند داد.
بلاگپست معرفی
https://research.google/blog/ten-years-of-neuroscience-at-google-yields-maps-of-human-brain/
ویدئوی معرفی
https://youtu.be/VSG3_JvnCkU
مقالهی چاپشده در مجلهی Science
https://www.science.org/doi/10.1126/science.adk4858
👏9❤4👍4🔥1
تجربههای ارزشمند سم آلتمن، مدیرعامل OpenAI
https://blog.samaltman.com/what-i-wish-someone-had-told-me
https://blog.samaltman.com/what-i-wish-someone-had-told-me
❤12👍5🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
فریمورک FeatUp بهطور مشترک توسط پژوهشگران MIT و Microsoft و Berkeley و Google در سمینار ICLR 2024 معرفی شده.
این فریمورک فارق از تسک یا مدل، ویژگیهای ازدسترفتهی دادهی بینایی (تصویر) در ژرفای مدل را بدون تاثیر در semantic مدل، با دقت قابلتوجهی بازسازی میکند.
سایت:
https://mhamilton.net/featup.html
مقاله:
https://arxiv.org/pdf/2403.10516
کد:
https://github.com/mhamilton723/FeatUp
این فریمورک فارق از تسک یا مدل، ویژگیهای ازدسترفتهی دادهی بینایی (تصویر) در ژرفای مدل را بدون تاثیر در semantic مدل، با دقت قابلتوجهی بازسازی میکند.
سایت:
https://mhamilton.net/featup.html
مقاله:
https://arxiv.org/pdf/2403.10516
کد:
https://github.com/mhamilton723/FeatUp
🔥7👍3
School of AI
فردا OpenAI خبرهای هیجانانگیزی دارد… منتظر باشید 😍
شرکت OpenAI مدل هوش مصنوعی جدید خود بهنام GPT-4o را معرفی کرد. این مدل، یک شبکهی عصبی multimodal یا omni است. بهعبارتی میتواند پذیرای دادهی ورودی از نوع متن، صوت، تصویر و یا ویدئو باشد. خروجی مدل نیز میتواند از هر نوعی باشد.
این هوش مصنوعی، جایگزینی برای دستیارهای صوتی سنتی مثل Apple Siri یا Amazon Alexa یا Google Assistant است که به مدلهای بنیادین مانند LLM ها مجهز شدهست و میتواند تعامل واقعا هوشمندانهای شبیه به سامانهی سامانثا در فیلم Her ارائه دهد.
پیش از این، ChatGPT قابلیتی بهنام Voice Mode داشت که به کاربران اجازهی تعامل از طریق صوت بهجای نوشتار را میداد. اما در این حالت، ابتدا صدای کاربر به مدل OpenAI Whisper که یک مدل ASR است داده میشد و متن معادل آن صدا بهدست میآمد. سپس این متن به مدل GPT-4 که یک LLM است داده شده و پاسخ مورد نظر در قالب متنی دیگر بهدست میآمد. در نهایت، این پاسخ متنی به کمک یک مدل سادهی TTS به صوت تبدیل و به کاربر ارائه میشد.
این پایپلاین، اگرچه در نوع خود بینظیر بود اما طبیعتا latency قابل توجهی (حدود ۵/۴ ثانیه) داشت که هرگز نمیتوانست حس یک گپوگفت طبیعی را به کاربر منتقل کند. از طرفی کاربر باید منتظر پردازش کامل صحبت قبلی میماند و برخلاف یک گپوگفت طبیعی، نمیتوانست صحبت دستیار را قطع کند. به علاوه اطلاعات مهمی از صحبت کاربر (مانند تون صدا، احساس، نویز محیط و …) به مدل زبانی منتقل نمیشد و صدای خروجی نیز عاری از هرگونه ابراز احساسات، خنده، آواز و … بود.
اما مدل GPT-4o یک مدل end-to-end است یعنی از سه مدل مجزا تشکیل نشده و همهی انواع ورودیها از طریق یک شبکهی عصبی یکتا، پردازش میشوند. بنابراین این مدل بهصورت میانگین طی مدت ۳۲۰ میلیثانیه (مشابه سرعت پاسخگویی انسان) پاسخ کاربر را میدهد.
کیفیت عملکرد این مدل برروی benchmark های متداول برای نوشتار انگلیسی، کدزنی و استدلال، مشابه با مدل GPT-4 Turbo است اما برای تسکهای چندزبانی، پردازش صوت و همچنین بینایی، عملکرد بهتری دارد.
قابلیت پردازش متن و تصویر به کمک مدل GPT-4o از امروز به نسخهی رایگان ChatGPT اضافه شده اما قابلیت پردازش صوت از چندهفته دیگر برای کابران نسخهی Plus در دسترس خواهد بود. توسعهدهندهگان نیز از امروز میتوانند به قابلیتهای پردازش متن و تصویر از طریق API با نصف هزینهی GPT-4 Turbo دسترسی داشته باشند.
نکتهی انگیزشی برای اعضای کانال اینکه در بین سازندگان اصلی این مدل نام تعداد زیادی از هممیهنان عزیزمون به چشم میخوره. آقایان علی کمالی، امین توتونچیان، بهروز قربانی، فرزاد خراسانی، هادی سلمان، رضا زمانی و …
https://openai.com/index/hello-gpt-4o/
این هوش مصنوعی، جایگزینی برای دستیارهای صوتی سنتی مثل Apple Siri یا Amazon Alexa یا Google Assistant است که به مدلهای بنیادین مانند LLM ها مجهز شدهست و میتواند تعامل واقعا هوشمندانهای شبیه به سامانهی سامانثا در فیلم Her ارائه دهد.
پیش از این، ChatGPT قابلیتی بهنام Voice Mode داشت که به کاربران اجازهی تعامل از طریق صوت بهجای نوشتار را میداد. اما در این حالت، ابتدا صدای کاربر به مدل OpenAI Whisper که یک مدل ASR است داده میشد و متن معادل آن صدا بهدست میآمد. سپس این متن به مدل GPT-4 که یک LLM است داده شده و پاسخ مورد نظر در قالب متنی دیگر بهدست میآمد. در نهایت، این پاسخ متنی به کمک یک مدل سادهی TTS به صوت تبدیل و به کاربر ارائه میشد.
این پایپلاین، اگرچه در نوع خود بینظیر بود اما طبیعتا latency قابل توجهی (حدود ۵/۴ ثانیه) داشت که هرگز نمیتوانست حس یک گپوگفت طبیعی را به کاربر منتقل کند. از طرفی کاربر باید منتظر پردازش کامل صحبت قبلی میماند و برخلاف یک گپوگفت طبیعی، نمیتوانست صحبت دستیار را قطع کند. به علاوه اطلاعات مهمی از صحبت کاربر (مانند تون صدا، احساس، نویز محیط و …) به مدل زبانی منتقل نمیشد و صدای خروجی نیز عاری از هرگونه ابراز احساسات، خنده، آواز و … بود.
اما مدل GPT-4o یک مدل end-to-end است یعنی از سه مدل مجزا تشکیل نشده و همهی انواع ورودیها از طریق یک شبکهی عصبی یکتا، پردازش میشوند. بنابراین این مدل بهصورت میانگین طی مدت ۳۲۰ میلیثانیه (مشابه سرعت پاسخگویی انسان) پاسخ کاربر را میدهد.
کیفیت عملکرد این مدل برروی benchmark های متداول برای نوشتار انگلیسی، کدزنی و استدلال، مشابه با مدل GPT-4 Turbo است اما برای تسکهای چندزبانی، پردازش صوت و همچنین بینایی، عملکرد بهتری دارد.
قابلیت پردازش متن و تصویر به کمک مدل GPT-4o از امروز به نسخهی رایگان ChatGPT اضافه شده اما قابلیت پردازش صوت از چندهفته دیگر برای کابران نسخهی Plus در دسترس خواهد بود. توسعهدهندهگان نیز از امروز میتوانند به قابلیتهای پردازش متن و تصویر از طریق API با نصف هزینهی GPT-4 Turbo دسترسی داشته باشند.
نکتهی انگیزشی برای اعضای کانال اینکه در بین سازندگان اصلی این مدل نام تعداد زیادی از هممیهنان عزیزمون به چشم میخوره. آقایان علی کمالی، امین توتونچیان، بهروز قربانی، فرزاد خراسانی، هادی سلمان، رضا زمانی و …
https://openai.com/index/hello-gpt-4o/
❤18👍5🔥5
School of AI
شرکت OpenAI مدل هوش مصنوعی جدید خود بهنام GPT-4o را معرفی کرد. این مدل، یک شبکهی عصبی multimodal یا omni است. بهعبارتی میتواند پذیرای دادهی ورودی از نوع متن، صوت، تصویر و یا ویدئو باشد. خروجی مدل نیز میتواند از هر نوعی باشد. این هوش مصنوعی، جایگزینی…
Media is too big
VIEW IN TELEGRAM
یک دموی جذاب از مدل GPT-4o
❤7👍2🔥1
School of AI
توسعهدهندهگان نیز از امروز میتوانند به قابلیتهای پردازش متن و تصویر از طریق API با نصف هزینهی GPT-4 Turbo دسترسی داشته باشند.
توسعهدهندگان از همین امروز میتوانند در فریمورک LangChain از مدل GPT-4o از طریق API استفاده کنند.
در این کد نمونه، آدرس یک تصویر به مدل داده شده و از مدل خواسته شده محتوای تصویر را شرح دهد.
https://python.langchain.com/v0.1/docs/integrations/chat/openai/
در این کد نمونه، آدرس یک تصویر به مدل داده شده و از مدل خواسته شده محتوای تصویر را شرح دهد.
https://python.langchain.com/v0.1/docs/integrations/chat/openai/
👍11❤1
This media is not supported in your browser
VIEW IN TELEGRAM
اپلیکیشن دسکتاپ ChatGPT برای سیستم عامل macOS معرفی شد.
کاربران Plus از امروز و کاربران نسخهی رایگان از چند هفتهی دیگر میتوانند این اپلیکیشن رو دانلود کنند.
برای استفاده از چتجیپیتی روی مک خود، کافیست کلیدهای Option + Space را زده و در باکس باز شده، شبیه به Spotlight خود مک، با چتجیپیتی ارتباط برقرار کنید.
کاربران Plus از امروز و کاربران نسخهی رایگان از چند هفتهی دیگر میتوانند این اپلیکیشن رو دانلود کنند.
برای استفاده از چتجیپیتی روی مک خود، کافیست کلیدهای Option + Space را زده و در باکس باز شده، شبیه به Spotlight خود مک، با چتجیپیتی ارتباط برقرار کنید.
👍19❤1