Melanee AI ‌& Physics
947 subscribers
324 photos
14 videos
72 files
148 links
AI, Physics and Chemistry

GitHub: https://github.com/Melanee-Melanee

Email: [email protected]

Mentor Bot: @MelaneeMentorbot
Download Telegram
Melanee AI ‌& Physics
Photo
متاسفانه تا الان هنوز کسی نتونسته روی پروژه ی کتابخانه زبان فارسی باستان الکترونیک (EOPL) کار کنه، خودم احتمال میدم علتش اینه که برای کار روی این پروژه به یک سواد حداقلی از خط زبان فارسی باستان نیاز هست که متاسفانه در حوزه کاری ما کسی این خط رو بلد نیست. یکم راجب این خط توضیح میدم و حروف اصلی و یک منبع مهمی که خودم خوندم رو بهتون معرفی میکنم.
خط زبان فارسی باستان (Old Persian) یک نوع خط میخی و زبان رسمی حکومت هخامنشیان در ایران بوده و دارای ۳۶ حرف هست. غیر از این خط، خط های میخی دیگه ای هم از زمان های قدیم تر وجود داشتند.

قبل از حکومت هخامنشیان و زبان فارسی باستان، خط های میخی دیگه ای در دنیا وجود داشته، برای مثال خط میخی بابِلی (Babylonian) که نوعی خط میخی اکدی (Akkadian) هست، خط میخی عیلامی (Elamite) و ‌‌‌... . این نوع خط های میخی بیش از ۱۰۰ حرف دارند و حروف میخیشون اشکال بسیار پیچیده تری از خط زبان فارسی باستان دارند. این زبان ها زبان رسمی کشور ایران نبوده اند چون اون زمان ها هنوز مرزبندی ها تعیین نشده بود و کشور ایران (Persia) هنوز بوجود نیومده بوده و خط های میخی صرفا خط قوم ها و تمدن های مختلف جهان بودند. به همین علت هست که در مجامع علمی و دانشگاهی سطح جهانی خیلی روی زبان ها و خط های میخی اکدی، بابلی و ایلامی کار کردند چون این خط ها اولین خط هایی هستند که توسط بشر بوجود آمدند؛ پس به نوعی این زبان ها و خط ها نشان دهنده فرهنگ و هویت کل مردم جهان هستند نه فقط یک کشور!


جالبه بدونید اولین جایی در دنیا که خط توسط بشر بوجود اومد یه جایی به اسم بین النهرین (Mesopotamia) امروزی در کشور عراق هست. در واقع اولین تمدن رسمی بشر از اینجا به وجود اومده.

اما راجب خط میخی زبان فارسی باستان که آخرین نسل خط میخی ایران بوده؛ شاهنشاهی پهناور هخامنشی با توجه به سیستم سیاسی ای که داشت نیازمند به خطی مستقل و پیشرفته بود. برای دولتی چنان با عظمت لازم بود که از خود خطی داشته باشند تا نشانه و خاص خود آنها و مشخصه حکومت اونها باشه برای همین به دستور داریوش بزرگ خط میخی فارسی باستان توسط ایرانی ها اختراع شد.


پ.ن: تصویر کتیبه طلایی مربوط به الواح سیمین و زرین داریوش بزرگ، پی بنای کاخ آپادانای تخت جمشید به سه خط فارسی باستان، عیلامی و بابِلی، محل نگهداری: موزه ایران باستان

این پست رو در تاریخ ۱۵ تیر ویرایش کردم.

بوقت تیرماه ۱۴۰۳

مِلانی

لینک پروژه EOPL در گیتهاب:

https://github.com/Electronic-Old-Persian-Library
15👍5🕊2👎1
Melanee AI ‌& Physics
Photo
Farmanhaye_shahanshahan_en.pdf
84.1 MB
کتاب ارزشمند "فرمانهای شاهنشاهان هخامنشی" نوشته نورمن شارپ


نورمن شارپ سالها پیش بسیاری از کتیبه های با زبان #فارسی_باستان رو با ترجمه هاشون در این کتاب جمع آوری کرده اند.‌
4🥰1👌1
❤‍🔥3
Melanee AI ‌& Physics
Photo
معرفی زنده یاد خانم دکتر بدرالزمان قریب، از اساطیر زبان شناسی ایران و استاد زبان های باستانی دانشگاه تهران از زبانِ دکتر مجتبایی استاد دانشگاه تهران:

آشنایی من با بدرالزمان قریب به پیش از فرهنگستان زبان و ادب فارسی و به سال‌ ۱۳۲۹ برمی‌گردد، زمانی که با هم در دانشکده ادبیات هم دوره بودیم. خاطرم هست زمانی هم که در دانشگاه هاروارد مشغول تحصیل بودم، وی که در دانشگاه پنسیلوانیا تحصیل می‌کرد به شهر کمبریج آمد تا با دکتر ریچارد فرای زبان خوارزمی کار کند. وی تخصص‌اش زبان سُغدی بود که در این حوزه فرهنگ‌نامه ارزشمندی هم منتشر کرده است.

دکتر مجتبایی در توضیح دلایل پرداختن بدرالزمان قریب به زبان سُغدی اظهار کرد: پیشرفت علم زمانی اتفاق می‌افتد که یک پژوهشگر به سمت موضوعی می‌رود که کسی اطلاعی از آن ندارد. محقق واقعی کسی است که به سراغ سوژه‌های جدید می‌رود؛ به نظر من رفتن به سمت موضوعی که همه می‌دانند و صحبت کردن درباره آن که دیگر هنر نیست.
مجتبایی در پایان گفت: محقق واقعی به دنبال مجهولات فرهنگ و تاریخ می‌رود و به علت این که آن موضوع طرفدار ندارد و کسی به سمت او نرفته به سمت آن می‌رود و درباره آن می‌نویسد و عمرش را سر آن می‌گذارد تا نقطه تاریک را روشن کند.

پ.ن: زبان سُغدی یکی از زبان های باستانی ایران هست که کمتر کسی در طول تاریخ بهش پرداخته.

از زندگی دکتر بدرالزمان قریب مستندی به نام "با زبان خاموش" ساخته و در فیلیمو منتشر شده.
تصاویر رو از این مستند گرفتم.


منبع
10
تا حالا دو تا درس مهم ازین پروژه جدیدم (EOPL) گرفتم:
اولیش اینکه وقتی برنامه ای مینویسم حتما شماره ورژن کتابخونه ها و ابزارهایی که استفاده میکنم رو مکتوب کنم به طوری که افراد دیگه چند سال بعد از من بتونند برنامه ی من رو اجرا کنند.


دوم اینکه دیتاهایی که با ارزش هستند رو حتما براشون یه فایل metadata تهیه کنم. مثلا تصویر کتیبه های زبان فارسی باستان رو که من دارم از کل دنیا جمع آوری میکنم برای هر دایرکتوریش یه فایل metadata درست کردم و اطلاعات اون عکس هارو داخل یه فایل متادیتا با فرمت CSV ذخیره کردم.  برای دیتای text هم همین کارو کردم که مثلا ترجمه این کتیبه رو از کجا آوردم و کی ترجمه اش کرده و کلی مشخصات دیگه.
این فایل متادیتارو با فرمت JSON هم میتونستم درست کنم ولی خب CSV به چشمم راحت تره.
این دیتاها چون با ارزش هستند و هر کدومشون جزو اسناد هویتی کشورمون محسوب میشن من مجبور بودم فایل های متادیتا هم براشون درست کنم که البته کار بسیار سخت و وقت گیری هست چون باید دیتارو با دقت زیاد، ویرگول به ویرگول، سل به سل وارد این فایل متادیتا کنم! و اینکه وقتی دیتاست من به مرور زمان بزرگ تر میشه؛ کار پردازش دیتای من راحت تر میشه.

برای مثال متادیتای دیتاهایی که تا الان من از موزه بریتانیا جمع آوری کردم رو ببینید:

https://github.com/Electronic-Old-Persian-Library/Old-Persian-Dataset/tree/main/imagedata/british_museum/metadata



کلا تمام کارهایی که انجام میدیم رو باید دقیق براش داکیومنت بنویسیم و مکتوبش کنیم. به نظر من کدنویسیِ دقیق یه هنره که هر برنامه نویسی اول کارش بلد نیست و باید یادش بگیره؛ دقیقا مثل نویسندگی یه کار ادبیه!
👍153
𐎠𐎢𐎼𐎶𐏀𐎡𐎠 (اهورامزدا) (Ahuramazda)

اولین کلمه ای که از زبان فارسی باستان یاد گرفتم، کلمه ی "اهورامزدا" بود🥰.



اگر داریوش بزرگ میدونست قراره خطی که اختراع کرده، ۲۵۰۰ سال بعد توسط دخترخانمی به اسم مِلانی، با یه وسیله ای به اسم کامپیوتر ترجمه و رمزگشایی بشه قطعا از تعجب شاخ درمی آورد🤭.


این عکس ها هم خواستگاه اولین جایی هست که در جهان مدل های AI روی خط میخی فارسی باستان اجرا شد (اینجا میز کارمه)😅.


وقتی این پروژه رو شروع کردم خیلی نگران بودم که نتونم انجامش بدم ولی "نمیتونم" و "نمیشه" و "نداریم" واسه من معنی نداره! من چیزی که بخوام قطعا انجام میشه!


اهورامزدا مرا بپاید.


گیت هاب OCR پروژه:


https://github.com/Melanee-Melanee/Old-Persian-Cuneiform-OCR



#اهورامزدا
#خط_میخی_فارسی_باستان
#هوش_مصنوعی
👍18🔥8👏5😍5