Melanee AI ‌& Physics
948 subscribers
324 photos
14 videos
72 files
148 links
AI, Physics and Chemistry

GitHub: https://github.com/Melanee-Melanee

Email: [email protected]

Mentor Bot: @MelaneeMentorbot
Download Telegram
Melanee AI ‌& Physics
Photo
نمیدونم تو کشورمون چند هزار کتیبه یا لوح باستانی شکسته و خورد شده داریم که دارند در انبار موزه ها خاک میخورند و اداره میراث فرهنگی هیچ حرکت مثبتی براشون انجام نمیده!
قطعا این کتیبه ها محتوای با ارزشی دارند.‌

مهمترین هدف پروژه ی همکارم پروفسور انریکه جیمنز (پروژه eBL) این هست که بتونند به کمک الگوریتم های AI تمام بیست هزارتا کتیبه شکسته و خورد شده موزه بریتانیا رو شناسایی کنند و عین قطعات پازل کنار هم بچینند که بعد بتونند متن کامل کتیبه هارو بخونند که البته هم موفق شدند.

مسلما چشم انسان همچین قدرتی نداره که بتونه در کسری از ثانیه بیست هزارتا قطعه کتیبه های شکسته شده رو ببینه و تشخیص بده کدوم قطعه ها متعلق به هم بودند!

این که دارم الان یه مدل OCR مینویسم به خاطر اینکه بتونم به کمک الگوریتم های بینایی ماشین، متن موجود در این لوح ها رو استخراج کنم و در فاز بعدی پروژه، اون متن هارو (text) وارد مرحله ی NLP کنم. خب حتما میدونید که مدل های NLP میتونند بفهمند که کدوم متن ها دارند راجب یک موضوع یکسان صحبت میکنند و بهم پیوستگی قطعات خورد شده به این صورت شناسایی و قطعات با هم match میشوند.
👍113🔥1
Melanee AI ‌& Physics
Photo
چون حجم پروژه زبان فارسی باستان زیاده و در آینده قراره وسیع تر بشه و خب مسلما در یک ریپازیتوری گیتهاب جا نمیشه؛ به همین علت براش یک اورگانیزیشن (organization) ساختم.

اگه کسی علاقه داشته باشه میتونه روی این پروژه کار کنه؛ بهم ایمیل بزنید تا من در آینده شما رو عضو لیست People کنم، خیلی هم خوشحال میشم🥰.


کارهای غیر فنی و غیر کدی هم زیاد دارم؛ مثلا پیدا کردن کتاب های خوب، مقاله، ساختن world list برای این زبان، جمع آوری دیتای عکس از کتیبه ها یا دیتای متنی از زبان فارسی باستان و ....


فکر کنم این اورگانیزیشن قراره با ارزش ترین دستاورد زندگیم باشه.

الهی به امید تو🙏

آدرس ایمیلم:
[email protected]

لینک گیتهاب این اورگانیزیشن:


https://github.com/Electronic-Old-Persian-Library
16👍2😎1
برای این پروژه جدیدم میخوام بزرگترین و کاملترین دیتاست زبانِ فارسی باستان رو درست کنم؛ این مرحله هست که خیلی زمان بره.

یکی از دوستان بهم گفت کارتون خیلی ارزشمنده، مثل شاهنامه فردوسی!

منم احتمالا بعد سی سال این شعر رو با خودم زمزمه میکنم:

بسی رنج بردم در این سال سی
عجم زنده کردم بدین باستان پارسی😄



https://github.com/Electronic-Old-Persian-Library/Old-Persian-Dataset
21👍2
Melanee AI ‌& Physics
برای این پروژه جدیدم میخوام بزرگترین و کاملترین دیتاست زبانِ فارسی باستان رو درست کنم؛ این مرحله هست که خیلی زمان بره. یکی از دوستان بهم گفت کارتون خیلی ارزشمنده، مثل شاهنامه فردوسی! منم احتمالا بعد سی سال این شعر رو با خودم زمزمه میکنم: بسی رنج بردم…
سلام دوستان عزیزم🥰

من دارم یک دیتاست کامل از کتیبه های باستانی به زبان فارسی باستان (Old Persian) جمع آوری میکنم، هم دیتای Image و هم دیتای Text.

خیلی خوشحال میشم همکاری کنید تصاویر و متون کتیبه های فارسی باستان رو سرچ کنید و برام ایمیل شون کنید با ذکر مشخصات و جزییات؛ یا مستقیما در ریپازیتوری Dataset پروژه در گیت هاب بزاریدشون.

خیلی ممنونم🙏💚🤍❤️

لینک گیت هاب پروژه مربوط به دیتاست:

https://github.com/Electronic-Old-Persian-Library/Old-Persian-Dataset


آدرس ایمیلم:
[email protected]

#EOPL
#Datagathing
11👍6👏1
Melanee AI ‌& Physics
Photo
متاسفانه تا الان هنوز کسی نتونسته روی پروژه ی کتابخانه زبان فارسی باستان الکترونیک (EOPL) کار کنه، خودم احتمال میدم علتش اینه که برای کار روی این پروژه به یک سواد حداقلی از خط زبان فارسی باستان نیاز هست که متاسفانه در حوزه کاری ما کسی این خط رو بلد نیست. یکم راجب این خط توضیح میدم و حروف اصلی و یک منبع مهمی که خودم خوندم رو بهتون معرفی میکنم.
خط زبان فارسی باستان (Old Persian) یک نوع خط میخی و زبان رسمی حکومت هخامنشیان در ایران بوده و دارای ۳۶ حرف هست. غیر از این خط، خط های میخی دیگه ای هم از زمان های قدیم تر وجود داشتند.

قبل از حکومت هخامنشیان و زبان فارسی باستان، خط های میخی دیگه ای در دنیا وجود داشته، برای مثال خط میخی بابِلی (Babylonian) که نوعی خط میخی اکدی (Akkadian) هست، خط میخی عیلامی (Elamite) و ‌‌‌... . این نوع خط های میخی بیش از ۱۰۰ حرف دارند و حروف میخیشون اشکال بسیار پیچیده تری از خط زبان فارسی باستان دارند. این زبان ها زبان رسمی کشور ایران نبوده اند چون اون زمان ها هنوز مرزبندی ها تعیین نشده بود و کشور ایران (Persia) هنوز بوجود نیومده بوده و خط های میخی صرفا خط قوم ها و تمدن های مختلف جهان بودند. به همین علت هست که در مجامع علمی و دانشگاهی سطح جهانی خیلی روی زبان ها و خط های میخی اکدی، بابلی و ایلامی کار کردند چون این خط ها اولین خط هایی هستند که توسط بشر بوجود آمدند؛ پس به نوعی این زبان ها و خط ها نشان دهنده فرهنگ و هویت کل مردم جهان هستند نه فقط یک کشور!


جالبه بدونید اولین جایی در دنیا که خط توسط بشر بوجود اومد یه جایی به اسم بین النهرین (Mesopotamia) امروزی در کشور عراق هست. در واقع اولین تمدن رسمی بشر از اینجا به وجود اومده.

اما راجب خط میخی زبان فارسی باستان که آخرین نسل خط میخی ایران بوده؛ شاهنشاهی پهناور هخامنشی با توجه به سیستم سیاسی ای که داشت نیازمند به خطی مستقل و پیشرفته بود. برای دولتی چنان با عظمت لازم بود که از خود خطی داشته باشند تا نشانه و خاص خود آنها و مشخصه حکومت اونها باشه برای همین به دستور داریوش بزرگ خط میخی فارسی باستان توسط ایرانی ها اختراع شد.


پ.ن: تصویر کتیبه طلایی مربوط به الواح سیمین و زرین داریوش بزرگ، پی بنای کاخ آپادانای تخت جمشید به سه خط فارسی باستان، عیلامی و بابِلی، محل نگهداری: موزه ایران باستان

این پست رو در تاریخ ۱۵ تیر ویرایش کردم.

بوقت تیرماه ۱۴۰۳

مِلانی

لینک پروژه EOPL در گیتهاب:

https://github.com/Electronic-Old-Persian-Library
15👍5🕊2👎1