OCR رفت و Donut اومد!
دونات یک مدل ترانسفورمر جدید است که توسط دانشگاه MIT برای درک اسناد بدون نیاز به OCR توسعه داده شده است و در وظایف دسته بندی و استخراج اطلاعات از اسناد بصری، عملکرد برتری را از نظر سرعت و دقت از خود نشان داده است. این مدل یک مدل و دنباله ای از چند ورودی-چند خروجی است که از یک کدگذار دید بصری (Swin Transformer) و یک رمزگذار متنی (BART) استفاده میکند(بدون نیاز به OCR برای پردازش اسناد اسکن شده!).
https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
#ai #OCR #donut #mit #github
@SimurghAI
دونات یک مدل ترانسفورمر جدید است که توسط دانشگاه MIT برای درک اسناد بدون نیاز به OCR توسعه داده شده است و در وظایف دسته بندی و استخراج اطلاعات از اسناد بصری، عملکرد برتری را از نظر سرعت و دقت از خود نشان داده است. این مدل یک مدل و دنباله ای از چند ورودی-چند خروجی است که از یک کدگذار دید بصری (Swin Transformer) و یک رمزگذار متنی (BART) استفاده میکند(بدون نیاز به OCR برای پردازش اسناد اسکن شده!).
https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
#ai #OCR #donut #mit #github
@SimurghAI