تصویر زیر، بخشی از یک دستنویس پهلوی است. دقیقتر بخواهیم بگوییم، بخشی از یک متن دینی-اسطورهای است به نام «بندهشن» که بیشتر در مورد بُن (=سرآغاز) دهش (=آفرینش) صحبت میکند و یکی از مهمترین منابع اسطورهشناسی اساطیر ایرانی است. این دستنویسِ بخصوص، توسط کسی به نام «تهمورث دینکرد» نوشته شده است و معروف است به نسخهی TD2.
اینجای متن دارد تعریف میکند که چطور اهورامزدا به دل «جَهی» (یک مادهدیو) انداخت که عاشق یک مرد بشود.
خط پهلوی هم مانند خط فارسی و عربی و عبری (و کلا همهی خطهای دیگری که از آرامی ریشه گرفتهاند)، از راست به چپ نوشته میشود. توی خط اول تصویر بالا، علامتهای نارنجی که کشیدهام، مرزهای واژهها را نشان میدهند. خط اول 9 واژه دارد که واژهی اول و ششم مثل هم هستند.
حالا قضیهی استمداد چیست؟ قضیه این است که من نسخهی اسکنشدهی بندهشن و چند دستنویس دیگر پهلوی را دارم و میخواهم هر تصویر را خرد کنم به کلمات تشکیل دهندهی متن. یعنی مثلا میخواهم تصویر بالا را خرد کنم به چند تصویر کوچکتر، یکی ، یکی بعد و …
ترجیح هم میدهم که این کار خرد کردن را دستی انجام ندهم 😉 یعنی دنبال ابزاری میگردم که بتواند مرزهای واژه را تشخیص دهد و بر اساس آن یک مستطیل را از توی فایل اصلی ببُرد. قاعدتا این کار از نظر پردازشی کار پیچیدهای نیست و مطمئنم ابزارهایی وجود دارد که من نمیشناسم و منتظر راهنمایی یا حداقل سرنخهای دوستان هستم.
سلام
در مورد ریشه خط فارسی و عربی مطلبی دیده ام که لینکش اینه. http://zinati.eu/Persische_Schrift_oder_Arabisch.htm
با سلام من خيلي تحقيق كردم نتوانستم ريشه خط فارسي را پيداكنم كه آياخط فارسي برگرفته ازخط عربي است ويا برعكس .خيلي خوشحال ميشوم اينرا بدانم
قاعدتا فارسی باید از عربی پیروی کرده باشه.
علت شك من مقايسه سابقه تمدن دوملت(ايران وعرب)درزمان ساسانيان است كه اعراب ملتي نه چندان مطرح فقط درسرزمين حجاز بااقوامي بدوي كه در واحه هاي دور از هم روزگار(بدون سبقه فرهنگي وتمدني)ميگذرانيدنندفرهنگ وتمدن غالب ازآن ايرانيان بوده.اينجاست كه بنظرمنطقي نميباشدكه رسم الخط ايرانيان برگرفته ازعربي باشد
اگە میشە آموزش خط پلوی هم بذارین.
vaghean ke hich kas be man komak nemikone in mailame plz vasam send konid
[email protected]
salam man ye pdf darbareye OCR
mikham age mitunid komakam konid merc h
سلام
سپنتا یه کار ocr خیلی جالب کرده که می دونم برای فارسی خیلی دقیق تر از بقیه ی نرم افزارهایی بوده که من دیدم. ocr اش چند مرحله ایه و یه مرحله اش هم همین جداسازی سطور، کلمات و حروفه.
http://www.srrf.net/ProductsandProjects/tabid/1067/Default.aspx
البته من نمی دونم وضعیت فروشش چه شکلیه ولی اگه بهشون sample بدی احتمالا برات جواب رو مجانی می فرستن
Please contact me, if still not solved the problem.
[email protected]
Regards
ممنون از لطفت اشکان جان،
راستش مشکل هنوز حل نشده ولی من هم به خاطر وقت، دیگه پیگیری نکردم.
اگر هنوز هم علاقه مند انجام این کار هستی، من پایه هستم
بله، هنوز هم دنبالش هستم و خیلی ممنون میشوم از کمکت
پس فکر کنم که باید کمی با هم صحبت کنیم چون اطلاعات من در مورد این خط و هدف شما خیلی ناقص است. voice چت یاهو یا skype برای شما مناسب هست؟
من یه برنامه داشتم تصویر به متن چون فارسی رو خوب کانورت نکرد استفاده نکردم می خوای برات بگردم دنبالش
بعضی برنامه های OCR امکان تعریف فونت دارن. یعنی شما به کمک یه نرم افزار فونت ساز فایل فونت TTF رو می سازی و به برنامه OCR ایمپورت می کنی.
یکی از برنامه ها OCR شرکت هوش مصنوعی رایرورز
ولی این فرایند خیلی هم ساده نیست، و احتمالا درصد خطای OCR زیاده.
کلا OCR روی دستخط های غیر لاتین خیلی افتضاح جواب میده.
علی جان با من یه تماس بگیر. یه چیزایی داریم که فکر کنم کارت رو راه بندازه.
مخلصم.