استمداد از آشنایان به مباحث پردازش تصویر و OCR و ابزارهای مربوطه

yat تصویر زیر، بخشی از یک دستنویس پهلوی است. دقیقتر بخواهیم بگوییم، بخشی از یک متن دینی-اسطوره‌ای است به نام «بندهشن» که بیشتر در مورد بُن (=سرآغاز) دهش (=آفرینش) صحبت می‌کند و یکی از مهمترین منابع اسطوره‌شناسی اساطیر ایرانی است. این دستنویسِ بخصوص، توسط کسی به نام «تهمورث دینکرد» نوشته شده است و معروف است به نسخه‌ی TD2.

 TD2-Edit2

اینجای متن دارد تعریف می‌کند که چطور اهورامزدا به دل «جَهی» (یک ماده‌دیو) انداخت که عاشق یک مرد بشود.

خط پهلوی هم مانند خط فارسی و عربی و عبری (و کلا همه‌ی خط‌های دیگری که از آرامی ریشه گرفته‌اند)، از راست به چپ نوشته می‌شود. توی خط اول تصویر بالا، علامت‌های نارنجی که کشیده‌ام، مرزهای واژه‌ها را نشان می‌دهند. خط اول 9 واژه دارد که واژه‌ی اول و ششم مثل هم هستند.

حالا قضیه‌ی استمداد چیست؟ قضیه این است که من نسخه‌ی اسکن‌شده‌ی بندهشن و چند دستنویس دیگر پهلوی را دارم و می‌خواهم هر تصویر را خرد کنم به کلمات تشکیل دهنده‌ی متن. یعنی مثلا می‌خواهم تصویر بالا را خرد کنم به چند تصویر کوچکتر، یکی pad ، یکی xrat بعد harwisp-agah و …

ترجیح هم می‌دهم که این کار خرد کردن را دستی انجام ندهم 😉 یعنی دنبال ابزاری می‌گردم که بتواند مرزهای واژه را تشخیص دهد و بر اساس آن یک مستطیل را از توی فایل اصلی ببُرد. قاعدتا این کار از نظر پردازشی کار پیچیده‌ای نیست و مطمئنم ابزارهایی وجود دارد که من نمی‌شناسم و منتظر راهنمایی یا حداقل سرنخ‌های دوستان هستم.

۱۶ Comments

  1. راهله 03 ژانویه 2013
  2. اكبر 19 ژانویه 2012
    • علی گنجه ای 19 ژانویه 2012
      • اكبر 21 ژانویه 2012
  3. ئاریا 23 آگوست 2011
  4. mahsa 25 آوریل 2010
  5. مهسا 15 آوریل 2010
  6. سمان 19 مارس 2010
  7. ashkan 28 جولای 2009
    • علی گنجه ای 28 جولای 2009
  8. پت 14 اکتبر 2008
    • علی گنجه ای 15 اکتبر 2008
      • پت 15 اکتبر 2008
  9. مهران 04 اکتبر 2008
  10. حسین 27 سپتامبر 2008
  11. منصور 25 سپتامبر 2008

Leave a Reply