PyTorch Howsam
تون TOON یا Token-Oriented Object Notation یک فرمت فشرده، خوانا برای انسان و مخصوص سریالسازی دادههاست که با هدف ارسال دادههای ساختاریافته به مدلهای زبانی بزرگ (LLM) طراحی شده تا مصرف توکن را بهطور قابل توجهی کاهش دهد. این فرمت جایگزینی برای JSON است…
با تشکر از علی بابت این پست، من با یک مثال از صفحه گیتهاب کارکرد این فرمت رو بیشتر توضیح میدم. جالبه...
ما معمولا از فرمت JSON برای ورودی دادن به LLM-ها استفاده میکنیم. مثلا:
اما، TOON همون اطلاعات مشابه را با توکنهای کمتری بهمون میده. فرمت TOON مثال بالا:
تعداد توکنها با توکنایزر GPT-4o در Tiktokenizer در مثال بالا:
* فرمت JSON برابر با 51
* فرمت TOON برابر با 24
ما معمولا از فرمت JSON برای ورودی دادن به LLM-ها استفاده میکنیم. مثلا:
{
"users": [
{ "id": 1, "name": "Alice", "role": "admin" },
{ "id": 2, "name": "Bob", "role": "user" }
]
}اما، TOON همون اطلاعات مشابه را با توکنهای کمتری بهمون میده. فرمت TOON مثال بالا:
users[2]{id,name,role}:
1,Alice,admin
2,Bob,userتعداد توکنها با توکنایزر GPT-4o در Tiktokenizer در مثال بالا:
* فرمت JSON برابر با 51
* فرمت TOON برابر با 24
امیررضا دانش و تجربه زیادی در یادگیری تقویتی داره. من در این وبینار شرکت کردم و توصیه میکنم دوستان علاقهمند به یادگیری تقویتی ثبتنام کنن.
اطلاعات بیشتر در لینکدین امیررضا: کلیک کنید!
لینک ثبتنام در وبینار: کلیک کنید!
اطلاعات بیشتر در لینکدین امیررضا: کلیک کنید!
لینک ثبتنام در وبینار: کلیک کنید!