این پست از Peter W. J. Staar درباره قابلیت جدیدی در پروژه Docling هست که توسط تیم IBM Research توسعه داده شده:
کلمه Docling را در کانال اگر سرچ کنید پست های زیادی دربارش داریم.
کتابخانه Docling حالا میتونه دادههای ساختیافته رو مستقیم از اسناد استخراج کنه
به جای تبدیل سند به متن یا JSON، داکلینگ میتونه مستقیماً فیلدهای موردنظر رو از سند بیرون بکشه!
کاربر میتونه با استفاده از اسکیمای آزاد (free-form schema) مشخص کنه چه اطلاعاتی باید استخراج بشه. این یعنی میتونی خروجی رو مستقیم با ساختار پایگاهدادهات هماهنگ کنی.
این قابلیت برای پایپلاینهای دادهای که نیاز به استخراج اطلاعات از اسناد نامرتب دارن (مثل فاکتورها، رزومهها، قراردادها و...) بسیار مفیده.
همون طور که گفتیم : بدون نیاز به API یا ارسال داده به سرور !!!
برای رسیدن به این مقصود از مدلهای پیشرفته شرکت NuMind استفاده میکنه.
فعلاً روی فایلهای PDF و تصویر (PNG) تمرکز داره؛ پشتیبانی از متن ساده بهزودی اضافه میشه.
Please open Telegram to view this post
VIEW IN TELEGRAM
5