- Home
- Uncategorized
- میواتی ادب کی تد ...

مصنوعی ذہانت کے ذریعے لسانی ورثے کا تحفظ اور فروغ

میواتی ادب کی تدوینِ نو
مصنوعی ذہانت کے ذریعے لسانی ورثے کا تحفظ اور فروغ
حصہ اول: بنیاد کی تشکیل – میواتی ادب، چیلنجز، اور موجودہ کوششیں
از حکیم المیوات قاری محمد یونس شاہد میو
تعارف: میواتی ادب کا لسانی اور ثقافتی ورثہ
میواتی ادب، جو بنیادی طور پر شمالی ہندوستان کے علاقہ میوات اور تقسیمِ ہند کے بعد پاکستان میں آباد میو برادری کے لسانی اور ثقافتی ورثے کا امین ہے، ایک ایسی زندہ روایت ہے جو صدیوں کے تجربات، حکمت اور فنکارانہ اظہار کو اپنے اندر سموئے ہوئے ہے۔ یہ ادب محض الفاظ کا مجموعہ نہیں، بلکہ ایک پوری تہذیب کی اجتماعی یادداشت، سماجی ڈھانچے اور شناختی اساس کی عکاسی کرتا ہے۔ اس کی اہمیت اس کی دوہری نوعیت میں مضمر ہے: ایک طرف اس کی جڑیں گہری زبانی روایات میں پیوست ہیں تو دوسری طرف یہ ایک جدید تحریری شکل اختیار کرنے کے ابتدائی مراحل میں ہے 1۔ اس ادب کے تحفظ اور تدوین کا کام نہ صرف ایک لسانی گروہ کی بقا کے لیے ضروری ہے، بلکہ یہ برصغیر کے وسیع تر ادبی اور ثقافتی منظرنامے کو سمجھنے کے لیے بھی کلیدی حیثیت رکھتا ہے۔
زبانی روایات: میواتی ادب کا اصل سرمایہ اس کی زبانی روایات ہیں، جو نسل در نسل سینہ بہ سینہ منتقل ہوتی رہی ہیں 2۔ یہ روایات میو برادری کی روزمرہ زندگی، سماجی اقدار اور تاریخی شعور کا آئینہ دار ہیں۔ ان میں سب سے نمایاں اصناف درج ذیل ہیں:
لوک گیت:
یہ گیت خوشی، غمی، موسموں کی تبدیلی، زرعی سرگرمیوں اور سماجی رسومات کا بھرپور اظہار ہیں۔ ان گیتوں میں میواتی عورتوں اور مردوں کے احساسات، امیدیں اور مشکلات کی گہری عکاسی ملتی ہے، خاص طور پر زراعت سے متعلق گیت، جو اس خطے کی معیشت اور طرزِ زندگی کا مرکزی محور رہی ہے 3۔
کہاوتیں اور ضرب الامثال
میواتی کہاوتیں صدیوں کی حکمت اور تجربے کا نچوڑ پیش کرتی ہیں۔ یہ سماجی رویوں، اخلاقیات اور عملی زندگی کے اصولوں کو مختصر اور جامع انداز میں بیان کرتی ہیں 2۔
رزمیہ داستانیں اور قصے
میواتی لوک ادب میں بہادری اور شجاعت کی داستانیں، جیسے ‘پنڈون کا کڑا’ (Pandoonka Kada) اور ‘ڈھولا مارو ری بات’ (Dhola Maru ri Baat)، ایک خاص مقام رکھتی ہیں۔ یہ داستانیں نہ صرف تفریح کا ذریعہ ہیں بلکہ برادری کی تاریخی شخصیات اور اساطیری ہیروز کے ساتھ ایک جذباتی تعلق بھی قائم کرتی ہیں 1۔
ان زبانی روایات کو زندہ رکھنے میں میواتی جوگیوں اور مراسیوں جیسے روایتی فنکاروں کا کردار انتہائی اہم رہا ہے، جو اس ورثے کے متحرک خزانے کی حیثیت رکھتے ہیں 6۔

تحریری روایات:
اگرچہ میواتی ادب کی بنیاد زبانی ہے، لیکن بیسویں اور اکیسویں صدی میں اسے تحریری شکل دینے کی کوششیں بھی سامنے آئی ہیں۔ ڈاکٹر ماجد میواتی کی کتاب “میواتی لوک گیتوں میں سماج اور سنسکرتی” اور عزیز سہسولہ میو جیسے محققین کی تصانیف اس سلسلے کی اہم کڑیاں ہیں، جو اس ادب کو علمی اور تحقیقی بنیادیں فراہم کر رہی ہیں 3۔ اس کے علاوہ، ‘ریختہ’ جیسے ڈیجیٹل پلیٹ فارمز پر ناظم میواتی سہسرامی جیسے شعراء کی موجودگی اس بات کی غمازی کرتی ہے کہ میواتی زبان میں ایک جدید ادبی تحریک بھی پروان چڑھ رہی ہے 8۔
لسانی سیاق و سباق
میواتی زبان لسانیاتی اعتبار سے ایک منفرد مقام رکھتی ہے۔ یہ ہند-آریائی زبانوں کے خاندان سے تعلق رکھتی ہے اور ہریانوی، برج بھاشا، راجستھانی اور اردو کے درمیان ایک فطری پُل کا کام کرتی ہے 1۔ اس کی یہی لسانی قربت اور اشتراک اسے مصنوعی ذہانت (AI) کے ماڈلز، خاص طور پر ٹرانسفر لرننگ (Transfer Learning) کے لیے ایک بہترین امیدوار بناتا ہے، جہاں ایک زبان کے لیے تیار کردہ ماڈل کو دوسری قریبی زبان کے لیے استعمال کیا جا سکتا ہے۔
تدوین کے کثیر جہتی چیلنجز
میواتی ادب کی باقاعدہ اور جامع تدوین کا عمل کئی پیچیدہ اور ایک دوسرے سے مربوط چیلنجز کا شکار رہا ہے۔ یہ چیلنجز محض تکنیکی نہیں بلکہ لسانی، سماجی، تعلیمی اور جغرافیائی-سیاسی نوعیت کے بھی ہیں، جنہوں نے اس قیمتی ورثے کو منظم شکل میں محفوظ کرنے کی راہ میں رکاوٹیں کھڑی کی ہیں۔
لسانی چیلنج
سب سے بنیادی اور سنگین چیلنج میواتی زبان کے لیے کسی معیاری اور متفقہ رسم الخط کی عدم موجودگی ہے۔ اگرچہ تحریری کوششوں میں اردو یا دیوناگری رسم الخط کا استعمال کیا جاتا ہے، لیکن املا اور ہجے میں کوئی یکسانیت نہیں پائی جاتی 2۔ اس عدم تسلسل کی وجہ سے موجودہ تحریری مواد کو کمپیوٹر پر مبنی تجزیے کے لیے استعمال کرنا تقریباً ناممکن ہو جاتا ہے۔ کسی بھی متن پر مبنی AI ماڈل کی تربیت کے لیے ایک معیاری اور صاف ستھرا ڈیٹا سیٹ بنیادی شرط ہے، اور میواتی اس شرط پر پورا نہیں اترتی۔ روایتی تدوین کے عمل میں پہلے ایک معیاری رسم الخط پر اتفاق ضروری ہوتا ہے، جو خود ایک طویل اور متنازعہ عمل بن سکتا ہے۔
سماجی-تعلیمی چیلنج
میواتی ثقافت کا زیادہ تر انحصار زبانی ترسیل پر ہے، جو اس ورثے کی بقا کے لیے ایک قدرتی خطرہ ہے۔ یہ مسئلہ اس وقت مزید گمبھیر ہو جاتا ہے جب ہم میوات کے علاقے میں شرح خواندگی کو دیکھتے ہیں، جو راجستھان کے کچھ حصوں میں صرف 25 فیصد ہے 11۔ اس سے نہ صرف نئے لکھنے والوں کی حوصلہ شکنی ہوتی ہے بلکہ موجودہ ادب کو پڑھنے اور سراہنے والوں کی تعداد بھی محدود ہو جاتی ہے۔ مزید برآں، ایک تحقیقی مطالعے سے یہ بات سامنے آئی ہے کہ خطے کے اساتذہ بھی کلاس روم میں میواتی زبان کے استعمال کی حوصلہ شکنی کرتے ہیں اور اسے ہندی کے مقابلے میں کم تر سمجھتے ہیں 12۔ یہ سماجی رویہ زبان کو مزید پسماندگی کی طرف دھکیلتا ہے اور اس کے ادبی ورثے کو غیر اہم بنا دیتا ہے۔
تکنیکی چیلنج:
جدید لسانی ٹیکنالوجی کے دور میں، کسی بھی زبان کی ڈیجیٹل بقا کا انحصار اس کے ڈیجیٹل وسائل پر ہوتا ہے۔ میواتی زبان اس میدان میں شدید طور پر وسائل کی کمی کا شکار ہے۔ اس کے لیے ڈیجیٹل لغات، ٹیگ شدہ کارپس (annotated corpora)، اور دیگر کمپیوٹیشنل ٹولز دستیاب نہیں ہیں۔ اسی وجہ سے میواتی کو تکنیکی اصطلاح میں ایک “کم وسائل والی زبان” (low-resource language) شمار کیا جاتا ہے 13۔ وسائل کی یہ کمی اسے گوگل ٹرانسلیٹ، اسپیچ ٹو ٹیکسٹ سروسز اور دیگر جدید AI ایپلیکیشنز کی پہنچ سے دور رکھتی ہے۔
جغرافیائی-سیاسی چیلنج
: 1947 میں برصغیر کی تقسیم نے میو برادری اور میواتی زبان بولنے والوں کو ہندوستان اور پاکستان کے درمیان تقسیم کر دیا 1۔ اس تاریخی تقسیم نے میواتی ادب کے تحفظ کی کوششوں کو بھی دو حصوں میں بانٹ دیا ہے۔ دونوں ممالک میں ہونے والا کام ایک دوسرے سے الگ تھلگ ہے، جس کی وجہ سے وسائل اور علم کا تبادلہ ممکن نہیں ہو پاتا۔ ہندوستان میں جہاں قدیم زبانی روایات کے صوتی خزانے موجود ہیں، وہیں پاکستان میں جدید تحریری ادب پروان چڑھ رہا ہے۔ یہ جغرافیائی تقسیم ایک جامع اور مکمل تدوین کی راہ میں سب سے بڑی عملی رکاوٹ ہے۔ ایک ملک میں ہونے والی کوششیں دوسرے ملک میں موجود مواد سے استفادہ نہیں کر سکتیں، جس کی وجہ سے ایک ادھوری اور نامکمل تصویر سامنے آتی ہے۔
موجودہ تحفظی کوششیں: ایک تنقیدی جائزہ
میواتی ادب کو درپیش سنگین چیلنجز کے باوجود، ہندوستان اور پاکستان دونوں میں افراد اور اداروں کی سطح پر اس کے تحفظ اور فروغ کے لیے قابل قدر کوششیں جاری ہیں۔ ان کوششوں کا ایک تنقیدی جائزہ مستقبل کی حکمت عملی وضع کرنے کے لیے ایک ٹھوس بنیاد فراہم کرتا ہے۔
ہندوستان میں کوششیں:
ہندوستان میں میواتی ادب کے تحفظ کا کام زیادہ تر غیر سرکاری تنظیموں، تحقیقی اداروں اور انفرادی جذبے کے تحت ہو رہا ہے۔
روپاین سنستھان (Rupayan Sansthan): جودھپور میں قائم یہ ادارہ میواتی زبانی ادب کے تحفظ کے لیے سب سے اہم مرکز کی حیثیت رکھتا ہے۔ اس کے آرکائیوز میں میواتی موسیقی اور لوک کہانیوں کی نادر آڈیو ریکارڈنگز اور کچھ ریکارڈنگز کی ہاتھ سے لکھی ہوئی ٹرانسکرپٹس موجود ہیں 4۔ یہ مواد مصنوعی ذہانت کے صوتی شناسی (ASR) ماڈلز کی تربیت کے لیے خام مال کی حیثیت رکھتا ہے۔
نرمان
(Nirmaan): یہ غیر سرکاری تنظیم میواتی زبان کی ترقی، لغت سازی اور خواندگی کے منصوبوں پر کام کر رہی ہے۔ تاہم، انہیں سب سے بڑا چیلنج یہ درپیش ہے کہ میواتی زبان میں تعلیمی مواد دستیاب نہیں ہے، جس کی وجہ سے ان کی کوششوں کے اثرات محدود ہو جاتے ہیں 11۔
انفرادی کاوشیں
بھرت پور، راجستھان کے ایک سرکاری اسکول کے استاد، نانک چند شرما ‘نوین’، اپنی شاعری اور گیتوں کے ذریعے میواتی زبان کو سماجی بیداری کے لیے استعمال کر رہے ہیں۔ ان کی کوششیں اس بات کی عکاس ہیں کہ زمینی سطح پر اس زبان سے گہرا لگاؤ موجود ہے 17۔
پاکستان میں کوششیں:
پاکستان میں میواتی ادب کے تحفظ کی تحریک زیادہ منظم، کمیونٹی پر مبنی اور نتیجہ خیز دکھائی دیتی ہے۔
پاکستان میو اتحاد: اس تنظیم نے ایک طویل جدوجہد کے بعد میواتی زبان کو قومی سطح پر شناخت دلوانے میں تاریخی کامیابی حاصل کی ہے۔ ان کی کوششوں کے نتیجے میں نہ صرف قومی شناختی کارڈ (NADRA) کے فارموں میں میواتی کو بطور زبان شامل کیا گیا، بلکہ 2023 کی مردم شماری میں بھی اسے باقاعدہ طور پر شمار کیا گیا 10۔ یہ ایک بہت بڑی کامیابی ہے جو زبان کو ادارہ جاتی بنیاد فراہم کرتی ہے۔
ادبی پیداوار اور اشاعت: پاکستان میں میواتی زبان میں 100 سے زائد کتابیں شائع ہو چکی ہیں۔ “صدائے میو” اور “میو ایکسپریس” جیسے رسائل اور “اراولّی” جیسے سہ ماہی مجلے باقاعدگی سے میواتی تحریروں کو جگہ دیتے ہیں۔ اس کے علاوہ “میواتی دنیا” جیسا ویب پورٹل بھی موجود ہے جو اس زبان اور ثقافت سے متعلق مواد پیش کرتا ہے 10۔ یہ وسیع تحریری مواد OCR (آپٹیکل کریکٹر ریکگنیشن) ماڈلز کی تربیت کے لیے ایک انمول خزانہ ہے۔
ان کوششوں کا تنقیدی جائزہ ایک اہم حقیقت کو آشکار کرتا ہے: میواتی ادب کے دو اہم ترین وسائل جغرافیائی طور پر منقسم ہیں۔ ہندوستان میں قدیم زبانی روایات کا صوتی ذخیرہ موجود ہے، جو ASR کے لیے ضروری ہے، جبکہ پاکستان میں جدید تحریری مواد کا ایک بڑا ذخیرہ ہے، جو OCR کے لیے ناگزیر ہے۔ لہٰذا، میواتی ادب کی کوئی بھی جامع اور کامیاب تدوین اس وقت تک ممکن نہیں جب تک کہ یہ ایک سرحد پار ڈیجیٹل ہیومینٹیز منصوبہ نہ ہو۔ ایک مؤثر حکمت عملی کے لیے ضروری ہے کہ پاکستانی مطبوعات کو ڈیجیٹائز کرکے OCR ماڈل کو تربیت دی جائے اور ہندوستانی صوتی آرکائیوز کو ٹرانسکرائب کرکے ASR ماڈل کو تربیت دی جائے ۔ اس طرح مصنوعی ذہانت کے ذریعے اس ادبی روایت کو ڈیجیٹل طور پر دوبارہ متحد کیا جا سکتا ہے جسے 1947 کی تقسیم نے جدا کر دیا تھا۔ یہ عمل محض ایک تکنیکی مشق نہیں، بلکہ ثقافتی ورثے کی بحالی اور اتحاد کا ایک طاقتور ذریعہ ثابت ہو سکتا ہے۔
تدوین کا مرحلہ (Tadween Stage) | مصنوعی ذہانت کی ٹیکنالوجی (AI Technology) | فنکشن (Function) | کلیدی چیلنج (Key Challenge) |
زبانی ادب کا جمع کرنا | آٹومیٹک اسپیچ ریکگنیشن (ASR) | صوتی مواد کو متن میں تبدیل کرنا | لہجوں کا تنوع، پس منظر کا شور |
قلمی نسخوں کی نقل | آپٹیکل کریکٹر ریکگنیشن (OCR) | تصویری متن کو ڈیجیٹل متن میں بدلنا | جڑا ہوا رسم الخط، ناقص کوالٹی |
لسانی معیاری کاری | نیچرل لینگویج پروسیسنگ (NLP) | گرامر، املا، اور اسلوب کا تجزیہ | املا میں عدم تسلسل |
ذہین آرکائیونگ و اشاعت | سمنٹک سرچ، ویکٹر ڈیٹا بیس | تصورات اور موضوعات کی بنیاد پر تلاش | غیر منظم ڈیٹا، کلیدی الفاظ کی محدودیت |
حصہ دوم: زبانی ورثے کی بازیافت – آٹومیٹک اسپیچ ریکگنیشن (ASR) کا اطلاق
2.1 صوتی مواد کو متن میں بدلنا: ایک وسیع پیمانے پر منصوبہ
میواتی ادب کا سب سے بڑا اور قیمتی حصہ اس کی زبانی روایات پر مشتمل ہے، جو آڈیو کیسٹوں، ریکارڈنگز اور ڈیجیٹل فائلوں کی شکل میں مختلف اداروں اور افراد کے پاس بکھرا پڑا ہے۔ مصنوعی ذہانت کی مدد سے تدوین کے عمل کا پہلا اور سب سے اہم قدم اس تمام صوتی مواد کو اکٹھا کرکے اسے قابلِ استعمال ڈیجیٹل متن میں تبدیل کرنا ہے۔ اس مقصد کے لیے ایک وسیع البنیاد منصوبے کی ضرورت ہے جس کا ہدف تمام دستیاب صوتی وسائل کو ایک مرکزی ڈیجیٹل آرکائیو میں جمع کرنا ہو۔
اس منصوبے کے لیے اولین ہدف روپاین سنستھان، جودھپور کے آرکائیوز ہونے چاہییں، جہاں میواتی لوک گیتوں، داستانوں اور موسیقی کی نادر ریکارڈنگز کا سب سے بڑا ذخیرہ موجود ہے 16۔ ان میں سے کچھ مواد
انٹرنیٹ آرکائیو جیسی عوامی ویب سائٹس پر بھی دستیاب ہے، جسے فوری طور پر حاصل کیا جا سکتا ہے 4۔ اس کے علاوہ، میواتی کمیونٹی کی جانب سے چلائے جانے والے
یوٹیوب چینلز اور دیگر سوشل میڈیا پلیٹ فارمز پر بھی جدید اور عصری لوک فنکاروں کی پیشکشیں موجود ہیں، جو زبان کے زندہ اور ارتقا پذیر پہلوؤں کو سمجھنے کے لیے انتہائی اہم ہیں 3۔ ان تمام ذرائع سے حاصل شدہ آڈیو فائلوں کو منظم کرکے ایک جامع “میواتی صوتی کارپس” (Mewati Speech Corpus) تشکیل دیا جائے گا، جو آٹومیٹک اسپیچ ریکگنیشن (ASR) ماڈل کی تربیت کے لیے بنیادی ڈیٹا سیٹ کا کام کرے گا۔
2.2 کم وسائل والی زبانوں کے لیے ASR: ایک تکنیکی حکمت عملی
میواتی جیسی کم وسائل والی زبان کے لیے صفر سے ASR ماڈل تیار کرنا نہ صرف انتہائی مہنگا اور وقت طلب ہے، بلکہ دستیاب محدود ڈیٹا کے پیش نظر غیر عملی بھی ہے۔ لہٰذا، جدید ترین تکنیکی حکمت عملی یہ ہے کہ پہلے سے موجود طاقتور کثیر لسانی ماڈلز کو میواتی زبان کے لیے ڈھالا جائے، جسے “ٹرانسفر لرننگ” کہا جاتا ہے۔ یہ طریقہ کم وسائل والی زبانوں کے لیے ASR система کی تیاری میں ایک انقلابی حیثیت رکھتا ہے 19۔
ٹرانسفر لرننگ اور ‘معاون زبان’ کا طریقہ کار
اس حکمت عملی کی بنیاد یہ ہے کہ ایک ایسے ماڈل کا انتخاب کیا جائے جسے پہلے ہی لاکھوں گھنٹوں کے آڈیو ڈیٹا پر تربیت دی جا چکی ہو، اور پھر اسے میواتی کے نسبتاً چھوٹے ڈیٹا سیٹ پر مزید تربیت (fine-tuning) دی جائے۔ اس عمل کے لیے ایک “معاون زبان” (donor language) کا انتخاب کلیدی اہمیت رکھتا ہے، جو صوتیاتی طور پر ہدف زبان (میواتی) سے قریب ہو۔ میواتی کے معاملے میں، ہندی سب سے بہترین معاون زبان ہے، کیونکہ دونوں زبانوں میں صوتیاتی مماثلت بہت زیادہ ہے اور ہندی کے لیے اعلیٰ معیار کے اوپن سورس ASR ماڈلز دستیاب ہیں۔ ایک حالیہ ACL (Association for Computational Linguistics) کانفرنس میں پیش کی گئی تحقیق سے یہ ثابت ہوا ہے کہ کم وسائل والی زبان (مثلاً پنجابی) کے لیے قریبی زیادہ وسائل والی زبان (مثلاً ہندی) کا ڈیٹا استعمال کرنے سے ASR کی کارکردگی میں نمایاں بہتری آتی ہے 21۔
موجودہ فریم ورکس سے استفادہ
اس منصوبے کے لیے AI4Bharat کی جانب سے تیار کردہ ماڈلز ایک مثالی نقطہ آغاز فراہم کرتے ہیں۔ AI4Bharat، جو آئی آئی ٹی مدراس کا ایک تحقیقی مرکز ہے، نے ہندوستانی زبانوں کے لیے جدید ترین ASR ماڈلز تیار کیے ہیں، جن میں IndicWav2Vec، IndicWhisper، اور IndicConformer شامل ہیں۔ یہ ماڈلز ہندوستان کی 22 سرکاری زبانوں کے وسیع ڈیٹا پر تربیت یافتہ ہیں، جن میں ہریانوی اور راجستھانی جیسی زبانیں بھی شامل ہیں جو میواتی سے لسانی طور پر بہت قریب ہیں۔ لہٰذا، ان ماڈلز کو میواتی ڈیٹا پر فائن ٹیون کرنا ایک انتہائی مؤثر اور کم لاگت حکمت عملی ہوگی 22۔
2.3 نفاذ کا مرحلہ وار منصوبہ اور چیلنجز
ایک مؤثر اور قابل عمل ASR نظام کی تشکیل کے لیے ایک مرحلہ وار منصوبے کی ضرورت ہے جو تکنیکی چیلنجز سے نمٹنے کے ساتھ ساتھ بتدریج بہتر نتائج فراہم کرے۔ اس منصوبے کو “پراکسی ٹو پروڈکٹ پائپ لائن” (Proxy-to-Product Pipeline) کا نام دیا جا سکتا ہے، جس کا مقصد موجودہ وسائل کو استعمال کرتے ہوئے نئے اور بہتر وسائل پیدا کرنا ہے۔
یہ طریقہ کار ایک عملی اور کم خطرے والے راستے کی نشاندہی کرتا ہے۔ اس میں شروع سے ہی ایک کامل ماڈل بنانے کی کوشش نہیں کی جاتی، بلکہ ایک بوٹ اسٹریپنگ (bootstrapping) تکنیک استعمال کی جاتی ہے جس میں موجودہ اعلیٰ وسائل والے ماڈلز کو استعمال کرکے کم وسائل والی زبان کے لیے ضروری ڈیٹا تیار کیا جاتا ہے۔ اس کے مراحل درج ذیل ہیں:
پہلا مرحلہ (ابتدائی ٹرانسکرپشن)
سب سے پہلے، AI4Bharat کے پہلے سے تربیت یافتہ ماڈل، جیسے IndicWhisper، کو استعمال کرتے ہوئے پورے میواتی صوتی کارپس کی ایک خودکار ٹرانسکرپشن تیار کی جائے گی۔ یہ ٹرانسکرپشن کامل نہیں ہوگی اور اس میں غلطیاں ہوں گی، لیکن یہ ایک کم لاگت اور تیز رفتار پہلا مسودہ فراہم کرے گی۔
دوسرا مرحلہ (گولڈ اسٹینڈرڈ کارپس کی تشکیل): اس کے بعد، میواتی زبان بولنے والے ماہرین کی ایک چھوٹی ٹیم اس مشین سے تیار کردہ متن کے ایک حصے (مثلاً 50 سے 100 گھنٹے) کی دستی طور پر تصحیح کرے گی۔ یہ “ہیومن ان دی لوپ” (human-in-the-loop) مرحلہ انتہائی اہم ہے، کیونکہ اس سے پہلی بار میواتی زبان کا ایک اعلیٰ معیار کا، انسانی تصدیق شدہ اسپیچ کارپس تیار ہوگا، جسے “گولڈ اسٹینڈرڈ” ڈیٹا سیٹ کہا جا سکتا ہے۔
تیسرا مرحلہ (فائن ٹیوننگ): اس نئے “گولڈ اسٹینڈرڈ” کارپس کو استعمال کرتے ہوئے اصل IndicWhisper ماڈل کو دوبارہ تربیت (fine-tune) دی جائے گی۔ اس عمل کے نتیجے میں ایک خصوصی “MewatiWhisper” ماڈل وجود میں آئے گا، جو میواتی کی مخصوص صوتیات، الفاظ اور لہجوں کے لیے بہتر بنایا گیا ہوگا۔
چوتھا مرحلہ (بتدریج بہتری): اس نئے اور بہتر MewatiWhisper ماڈل کو استعمال کرتے ہوئے پورے صوتی آرکائیو کو دوبارہ ٹرانسکرائب کیا جائے گا۔ اس دوسرے مرحلے کی ٹرانسکرپشن کی درستگی پہلے کے مقابلے میں نمایاں طور پر زیادہ ہوگی۔ یہ عمل ایک ایسا چکر شروع کرتا ہے جس میں ماڈل کا آؤٹ پٹ وقت کے ساتھ ساتھ بہتر سے بہتر ہوتا جاتا ہے۔
دیگر چیلنجز سے نمٹنا
تاریخی فیلڈ ریکارڈنگز میں موجود پس منظر کے شور سے نمٹنے کے لیے، آڈیو فائلوں پر ASR چلانے سے پہلے AI پر مبنی آڈیو انہانسمنٹ ٹولز کا استعمال کیا جا سکتا ہے۔ مختلف علاقوں کے لہجوں (مثلاً نوح، الور) کے فرق کو سنبھالنے کے لیے، آڈیو فائلوں کو ان کے جغرافیائی ماخذ کے مطابق ٹیگ کیا جائے گا، جس سے لہجوں سے آگاہ (dialect-aware) ماڈلز یا ایڈاپٹرز کی تربیت ممکن ہو سکے گی۔
حصہ سوم: تحریری ورثے کی ڈیجیٹلائزیشن – آپٹیکل کریکٹر ریکگنیشن (OCR) کی تخصیص
3.1 فارسی-عربی رسم الخط کے لیے OCR: پیچیدگیاں اور حل
میواتی ادب کا جو حصہ تحریری شکل میں موجود ہے، خاص طور پر پاکستان میں، وہ زیادہ تر فارسی-عربی رسم الخط ( نستعلیق) میں ہے۔ اس رسم الخط کے لیے آپٹیکل کریکٹر ریکگنیشن (OCR) کا عمل لاطینی (انگریزی) یا دیوناگری رسم الخط کے مقابلے میں کہیں زیادہ پیچیدہ اور چیلنجنگ ہے۔ ان پیچیدگیوں کو سمجھے بغیر ایک مؤثر OCR نظام تیار نہیں کیا جا سکتا۔
نستعلیق رسم الخط کی بنیادی خصوصیت اس کا جڑا ہوا (cursive) ہونا ہے، جس میں حروف ایک دوسرے سے مل کر لکھے جاتے ہیں اور ایک لفظ بناتے ہیں۔ اس کی وجہ سے حروف کو الگ الگ شناخت کرنا (character segmentation) انتہائی مشکل ہو جاتا ہے۔ مزید برآں، اردو اور اس سے ملتی جلتی زبانوں میں حروف اپنی شکل لفظ میں اپنی پوزیشن (شروع، درمیان، آخر یا الگ) کے لحاظ سے بدلتے ہیں 23۔ اس سیاق و سباق پر مبنی حساسیت (context-sensitive shaping) کے علاوہ، نستعلیق میں متعدد مرکب حروف (ligatures) بھی پائے جاتے ہیں، جہاں دو یا دو سے زیادہ حروف مل کر ایک نئی شکل اختیار کر لیتے ہیں۔ ان تمام خصوصیات کے ساتھ ساتھ، اعراب (diacritics) کا اختیاری استعمال بھی OCR کے لیے ایک بڑا چیلنج ہے، کیونکہ ان کے بغیر الفاظ کے معنی بدل سکتے ہیں۔
انہی وجوہات کی بنا پر، Tesseract جیسے عمومی اور اوپن سورس OCR ٹولز، جو بنیادی طور پر الگ الگ حروف والی زبانوں کے لیے بنائے گئے ہیں، نستعلیق رسم الخط پر بہت ناقص کارکردگی کا مظاہرہ کرتے ہیں اور اکثر ناقابلِ فہم نتائج دیتے ہیں 25۔ لہٰذا، میواتی کے لیے ایک قابلِ اعتماد OCR نظام کی تیاری کے لیے جدید ترین ڈیپ لرننگ تکنیکوں اور حسبِ ضرورت تربیت یافتہ ماڈلز کا استعمال ناگزیر ہے۔
3.2 جدید OCR ماڈلز: ایک تقابلی جائزہ
حالیہ برسوں میں اردو OCR پر ہونے والی تحقیق نے نستعلیق رسم الخط کی پیچیدگیوں سے نمٹنے کے لیے کئی جدید ڈیپ لرننگ ماڈلز پیش کیے ہیں۔ چونکہ میواتی تحریریں بھی اسی رسم الخط میں ہیں، اس لیے اردو کے لیے تیار کردہ ماڈلز میواتی کے لیے ایک بہترین نقطہ آغاز فراہم کرتے ہیں۔
جدید ڈیپ لرننگ آرکیٹیکچرز:
ہائبرڈ CNN-RNN ماڈلز: UTRNet جیسے ماڈلز میں کنولوشنل نیورل نیٹ ورکس (CNN) کو تصویر سے بصری خصوصیات (visual features) نکالنے کے لیے اور ریکرنٹ نیورل نیٹ ورکس (RNN) کو ان خصوصیات کو ایک ترتیب (sequence) کے طور پر پڑھنے کے لیے استعمال کیا جاتا ہے۔ یہ ماڈلز دستاویزات میں متن کی لائنوں کو شناخت کرنے میں بہت مؤثر ثابت ہوئے ہیں 27۔
ٹرانسفارمر پر مبنی ماڈلز: PARSeq جیسے جدید ماڈلز ٹرانسفارمر آرکیٹیکچر اور اٹینشن میکانزم (attention mechanism) کا استعمال کرتے ہیں۔ یہ ماڈلز پورے لفظ یا جملے کے سیاق و سباق کو سمجھنے کی بہتر صلاحیت رکھتے ہیں اور مختلف فونٹس اور اسٹائلز کے لیے زیادہ مضبوط ثابت ہوئے ہیں 28۔
بڑے لسانی ماڈلز (LLMs): حال ہی میں، GPT-4o اور Gemini جیسے ملٹی موڈل LLMs نے OCR کے میدان میں شاندار کارکردگی کا مظاہرہ کیا ہے۔ یہ ماڈلز تصویر کو براہ راست ان پٹ کے طور پر لے کر اس میں موجود متن کو پہچان سکتے ہیں۔ حالیہ تحقیقی مقالوں کے مطابق، یہ ماڈلز شور اور کم کوالٹی والی تصاویر پر بھی روایتی OCR ماڈلز سے بہتر نتائج دیتے ہیں 23۔
حسبِ ضرورت ڈیٹا کی اہمیت
ان تمام ماڈلز کی کامیابی کا انحصار اعلیٰ معیار کے تربیتی ڈیٹا پر ہے۔ اردو OCR کے لیے UTRSet-Real اور UTRSet-Synth جیسے بڑے ڈیٹا سیٹس کی تیاری نے یہ ثابت کر دیا ہے کہ حقیقی دنیا کی تصاویر پر مبنی ایک وسیع اور متنوع ڈیٹا سیٹ کے بغیر اعلیٰ درستگی حاصل کرنا ناممکن ہے 27۔ لہٰذا، میواتی کے لیے بھی اسی طرح کا ایک مخصوص ڈیٹا سیٹ تیار کرنا ہوگا، جس میں میواتی مطبوعات میں استعمال ہونے والے فونٹس، کاغذ کی کوالٹی اور پرنٹنگ کے انداز کی عکاسی ہو۔
ماڈل (Model) | آرکیٹیکچر (Architecture) | ورڈ ایرر ریٹ (WER %) | کریکٹر ایرر ریٹ (CER %) | طاقت/کمزوری (Strengths/Weaknesses) |
Tesseract (Baseline) | Template Matching/Legacy NN | High (>40%) | High (>15%) | اوپن سورس، لیکن نستعلیق کے لیے غیر موزوں۔ |
UTRNet 27 | Hybrid CNN-RNN | Moderate | Low | دستاویزات میں لائن سیگمنٹیشن کے لیے بہترین۔ |
PARSeq 28 | Transformer-based | Low | Low | سیاق و سباق کی مضبوط آگاہی، متنوع متن کے لیے موزوں۔ |
Gemini-2.5-Pro 23 | LLM (Vision) | 13.3% | 3.2% | جدید ترین کارکردگی، شور کے خلاف مضبوط، زیادہ لاگت۔ |
GPT-4o 30 | LLM (Vision) | 25-32% | 9-15% | بہت اچھا، لیکن جیمنائی سے قدرے کم درست۔ |
3.3 میواتی کے لیے ایک حسبِ ضرورت OCR نظام کی تشکیل
جس طرح ASR کے لیے “پراکسی ٹو پروڈکٹ پائپ لائن” کی حکمت عملی تجویز کی گئی ہے، اسی طرح OCR کے لیے بھی ایک حسبِ ضرورت نظام کی تشکیل کے لیے اسی طریقہ کار کو اپنایا جائے گا۔ اس منصوبے کی کامیابی کا انحصار سرحد پار تعاون پر ہوگا، کیونکہ میواتی تحریری مواد کا سب سے بڑا ذخیرہ پاکستان میں موجود ہے۔
پہلا مرحلہ (ڈیٹا کا حصول)
اس مرحلے میں پاکستانی تنظیموں، جیسے پاکستان میو اتحاد، اور “صدائے میو” جیسے رسائل کے ناشرین کے ساتھ باقاعدہ شراکت قائم کی جائے گی۔ اس تعاون کا مقصد پاکستان میں شائع ہونے والی 100 سے زائد میواتی کتابوں، رسائل اور دیگر مطبوعات کو منظم طریقے سے اسکین کرکے ایک اعلیٰ کوالٹی کا ڈیجیٹل امیج ڈیٹا سیٹ تیار کرنا ہوگا 10۔ یہ ڈیٹا سیٹ میواتی OCR ماڈل کی تربیت کے لیے بنیادی خام مال ہوگا۔
دوسرا مرحلہ (ابتدائی ٹرانسکرپشن)
مندرجہ بالا تقابلی جائزے (ٹیبل 2) میں شناخت کردہ بہترین کارکردگی والے پہلے سے تربیت یافتہ اردو OCR ماڈل (مثلاً Gemini یا PARSeq) کو استعمال کرتے ہوئے اسکین شدہ مواد کی ایک ابتدائی، خودکار ٹرانسکرپشن تیار کی جائے گی۔
تیسرا مرحلہ (گولڈ اسٹینڈرڈ کارپس کی تشکیل)
میواتی زبان کے ماہرین اس مشین سے تیار کردہ متن کے ایک منتخب حصے کی تصحیح کریں گے تاکہ تصویر اور اس کے درست متن پر مشتمل ایک اعلیٰ معیار کا “گولڈ اسٹینڈرڈ” ڈیٹا سیٹ بنایا جا سکے۔ یہ ڈیٹا سیٹ مستقبل کے تمام ماڈلز کی تربیت اور جانچ کے لیے ایک معیار کا کام دے گا۔
چوتھا مرحلہ (فائن ٹیوننگ)
اس گولڈ اسٹینڈرڈ ڈیٹا سیٹ کو استعمال کرتے ہوئے منتخب اردو OCR ماڈل کو میواتی زبان کے لیے فائن ٹیون کیا جائے گا۔ اس عمل کے نتیجے میں ایک خصوصی “MewatiOCR” ماڈل وجود میں آئے گا، جو میواتی مطبوعات میں پائے جانے والے مخصوص فونٹس، املا کے رواج اور طباعت کے انداز کے لیے انتہائی درست نتائج فراہم کرے گا۔ یہ ماڈل نہ صرف موجودہ مواد کو ڈیجیٹائز کرے گا بلکہ مستقبل میں شائع ہونے والے میواتی ادب کے لیے بھی ایک انمول اثاثہ ثابت ہوگا۔
حصہ چہارم: متن کا تجزیہ اور تدوین – نیچرل لینگویج پروسیسنگ (NLP) کا کردار
ایک بار جب میواتی ادب کا زبانی اور تحریری مواد ASR اور OCR کے ذریعے ڈیجیٹل متن کی شکل اختیار کر لے، تو تدوین کا اصل اور سب سے دلچسپ مرحلہ شروع ہوتا ہے۔ یہ وہ مرحلہ ہے جہاں نیچرل لینگویج پروسیسنگ (NLP) کے ٹولز کا استعمال کرتے ہوئے اس وسیع متنی ڈیٹا سے گہرے لسانی اور ادبی معنی اخذ کیے جاتے ہیں۔ اس عمل کا مقصد محض متن کو محفوظ کرنا نہیں، بلکہ اسے قابلِ تجزیہ، قابلِ تلاش اور قابلِ فہم بنانا ہے۔
4.1 لسانی معیاری کاری اور لغت سازی
میواتی ادب کو درپیش سب سے بڑا چیلنج اس کے معیاری رسم الخط کی عدم موجودگی ہے۔ مصنوعی ذہانت اس “مرغی اور انڈے” والے مسئلے کو حل کرنے کی منفرد صلاحیت رکھتی ہے۔ روایتی طور پر، پہلے ایک معیار بنایا جاتا ہے اور پھر اس پر عمل درآمد ہوتا ہے۔ لیکن AI پر مبنی نقطہ نظر اس عمل کو الٹ دیتا ہے: پہلے تمام موجودہ تغیرات کو ڈیٹا کے طور پر اکٹھا کیا جاتا ہے، اور پھر اس ڈیٹا کے تجزیے کی بنیاد پر ایک باخبر اور متفقہ معیار وضع کیا جاتا ہے۔
تغیرات کا تجزیہ (Variant Analysis): ASR اور OCR سے حاصل شدہ مشترکہ کارپس کو استعمال کرتے ہوئے، NLP الگورتھم خود بخود کسی بھی لفظ کے تمام مختلف ہجوں (spelling variations) کو شناخت کرکے انہیں ایک گروپ میں جمع کر سکتے ہیں۔ اس کے بعد یہ ٹولز ہر تغیر کے استعمال کی فریکوئنسی اور اس کے جغرافیائی و تاریخی پھیلاؤ کا تجزیہ فراہم کر سکتے ہیں۔ یہ ڈیٹا جب ماہرینِ لسانیات اور کمیونٹی کے رہنماؤں پر مشتمل معیاری کاری کمیٹی کے سامنے پیش کیا جائے گا، تو وہ محض ذاتی رائے یا علاقائی تعصب کی بجائے ٹھوس شواہد کی بنیاد پر فیصلے کر سکیں گے۔
خودکار لغت سازی (Automated Dictionary Building): NLP ٹولز اس وسیع کارپس سے ممکنہ الفاظ اور ان کے معانی کے جوڑے (word-definition pairs) اور ہم نشین الفاظ (collocations) نکال سکتے ہیں۔ اس سے ایک بنیادی میواتی-اردو-انگریزی لغت کی تیاری کا عمل انتہائی تیز ہو جائے گا، جو کہ نرمان جیسی تنظیموں کا ایک اہم ہدف بھی ہے 11۔
گرامر کا استنباط (Grammar Induction): صاف شدہ کارپس پر پارٹس آف اسپیچ (POS) ٹیگنگ اور ڈیپینڈنسی پارسنگ (dependency parsing) جیسے NLP ٹولز کا اطلاق کرکے جملوں کی ساخت کا تجزیہ کیا جا سکتا ہے۔ اس سے ماہرینِ لسانیات کو میواتی گرامر کے اصولوں کو باضابطہ طور پر دستاویز کرنے میں مدد ملے گی۔
4.2 موضوعاتی اور اسلوبیاتی تجزیہ: ادب کی روح تک رسائی
اس منصوبے کی قدر محض ورثے کے تحفظ تک محدود نہیں، بلکہ یہ میواتی ادب کے نئے علمی تجزیے اور ثقافتی احیاء کے لیے بھی دروازے کھولتا ہے۔ AI کے ذریعے تیار کردہ یہ ڈیجیٹل کارپس ایک جامد میوزیم کی بجائے ایک زندہ لیبارٹری کی حیثیت اختیار کر لے گا، جہاں نئے سوالات پوچھے جا سکتے ہیں اور گہرے نتائج اخذ کیے جا سکتے ہیں۔
موضوعاتی ماڈلنگ (Topic Modeling): لوک گیتوں اور داستانوں کے پورے کارپس پر لیٹنٹ ڈیریکلیٹ ایلوکیشن (LDA) جیسے الگورتھم کا اطلاق کرکے غالب موضوعات کی مقداری طور پر شناخت کی جا سکتی ہے۔ مثال کے طور پر، یہ تجزیہ اس بات کی تصدیق کر سکتا ہے کہ میواتی لوک گیتوں کا زراعت سے کتنا گہرا تعلق ہے 3، یا کہاوتوں میں پائے جانے والے پدرشاہی رویوں کی نوعیت کیا ہے 2۔
ادبی صنعتوں کی شناخت (Literary Device Detection): NLP ماڈلز کو شاعری میں استعمال ہونے والی بحروں، تجنیس، تشبیہات اور استعاروں کو خود بخود شناخت اور ٹیگ کرنے کے لیے تربیت دی جا سکتی ہے 31۔ اس سے ادبی خصوصیات کا ایک قابلِ تلاش ڈیٹا بیس تیار ہوگا، جو اسلوبیاتی تجزیے کی نئی راہیں کھولے گا۔
جذباتی اور سماجی تجزیہ (Sentiment and Social Analysis): مختلف ادبی کاموں میں پائے جانے والے جذبات (sentiment) کا تجزیہ کرکے وقت کے ساتھ ساتھ سماجی رویوں میں آنے والی تبدیلیوں کا مطالعہ کیا جا سکتا ہے۔ مثال کے طور پر، مختلف ادوار کے ادب میں حکمرانوں، سماجی گروہوں یا 1857 کی جنگِ آزادی جیسے تاریخی واقعات (جس میں میواتیوں نے اہم کردار ادا کیا تھا) کی عکاسی کا تجزیہ کرنا ممکن ہوگا 6۔
4.3 ایک ذہین ڈیجیٹل لائبریری کی تعمیر
اس منصوبے کا حتمی اور عوامی نتیجہ ایک جدید اور ذہین ڈیجیٹل لائبریری کی شکل میں سامنے آئے گا۔ یہ لائبریری محض متن کا ایک ذخیرہ نہیں ہوگی، بلکہ ایک انٹرایکٹو اور طاقتور تحقیقی ٹول ہوگی۔
سمنٹک سرچ (Semantic Search): روایتی کی ورڈ سرچ کے برعکس، یہ لائبریری سمنٹک سرچ پر مبنی ہوگی۔ اس کے لیے تمام متون کے ویکٹر ایمبیڈنگز (vector embeddings) تیار کیے جائیں گے اور انہیں پائن کون (Pinecone) یا FAISS جیسے ویکٹر ڈیٹا بیس میں محفوظ کیا جائے گا 33۔ اس سے صارفین الفاظ کی بجائے تصورات کی بنیاد پر تلاش کر سکیں گے، مثلاً “مویشیوں کی اہمیت سے متعلق کہاوتیں تلاش کریں”۔
نالج گراف (Knowledge Graph): ایک نالج گراف بھی بنایا جائے گا جو ادب میں موجود مختلف ہستیوں (entities) کو آپس میں جوڑے گا، جیسے مصنفین (مثلاً ناظم میواتی)، تاریخی شخصیات (مثلاً حسن خان میواتی 1)، صوفیاء (مثلاً لال داس 1)، مقامات (مثلاً نوح، الور) اور ادبی کام۔
انٹرایکٹو پلیٹ فارم: حتمی پروڈکٹ ایک صارف دوست ویب پورٹل اور موبائل ایپ کی شکل میں ہوگی، جس میں لوک کہانیوں کے ماخذ کے انٹرایکٹو نقشے، زبان سیکھنے کے لیے تعلیمی ماڈیولز (جو اسکولوں میں میواتی زبان کی حوصلہ شکنی کے مسئلے کا ایک حل ہو سکتا ہے 12)، اور محققین کے لیے جدید تجزیاتی ٹولز شامل ہوں گے۔
حصہ پنجم: ایک جامع روڈ میپ – نفاذ، اشتراک، اور اخلاقیات
5.1 مرحلہ وار نفاذ کا منصوبہ
میواتی ادب کی تدوین کے اس پرجوش منصوبے کو حقیقت کا روپ دینے کے لیے ایک منظم، مرحلہ وار اور قابلِ عمل روڈ میپ کی ضرورت ہے۔ یہ منصوبہ ASR اور OCR کے تکنیکی پائپ لائنز کو ایک جامع حکمت عملی میں ضم کرتا ہے، جس میں واضح ٹائم لائن اور اہداف شامل ہیں۔
پہلا مرحلہ: ڈیٹا کا اجتماع اور سرحد پار تعاون (ماہ 1-6):
سرگرمیاں: ہندوستان اور پاکستان میں موجود تمام اسٹیک ہولڈرز کے ساتھ باضابطہ شراکت داری قائم کرنا۔ روپاین سنستھان، پاکستانی پبلشرز اور کمیونٹی آرکائیوز سے مواد کے استعمال کے لیے قانونی معاہدے کرنا۔ تمام دستیاب صوتی اور تحریری مواد کی مکمل ڈیجیٹائزیشن (اسکیننگ اور آڈیو کنورژن)۔
نتیجہ: ایک مرکزی، خام ڈیجیٹل آرکائیو کا قیام۔
دوسرا مرحلہ: بوٹ اسٹریپنگ اور گولڈ کارپس کی تشکیل (ماہ 7-15):
سرگرمیاں: ابتدائی ASR اور OCR ماڈلز کا استعمال کرتے ہوئے پورے ڈیٹا سیٹ کی پہلی خودکار ٹرانسکرپشن۔ میواتی بولنے والے ماہرین کی ایک ٹیم کی خدمات حاصل کرنا تاکہ وہ مشین سے تیار کردہ متن کے ایک اہم حصے (مثلاً 100 گھنٹے آڈیو، 500 صفحات متن) کی دستی طور پر تصحیح کریں۔
نتیجہ: ASR اور OCR کے لیے اعلیٰ معیار کے، انسانی تصدیق شدہ “گولڈ اسٹینڈرڈ” کارپس کی تیاری۔
تیسرا مرحلہ: AI ماڈل کی تیاری اور کارپس کی تطہیر (ماہ 16-24):
سرگرمیاں: گولڈ اسٹینڈرڈ کارپس کا استعمال کرتے ہوئے حسبِ ضرورت “MewatiAI” (ASR اور OCR) ماڈلز کی فائن ٹیوننگ۔ ان نئے اور بہتر ماڈلز کو استعمال کرتے ہوئے پورے ڈیجیٹل آرکائیو کی دوبارہ اور زیادہ درست ٹرانسکرپشن۔
نتیجہ: میواتی زبان کے لیے مخصوص، اعلیٰ درستگی والے AI ماڈلز اور ایک صاف ستھرا، مکمل ڈیجیٹل کارپس۔
چوتھا مرحلہ: ڈیجیٹل ایکو سسٹم کا آغاز (ماہ 25-36):
سرگرمیاں: سمنٹک سرچ پر مبنی ڈیجیٹل لائبریری، تجزیاتی ٹولز، تعلیمی ماڈیولز اور موبائل ایپلیکیشن کی تیاری اور عوامی آغاز۔ محققین اور عام صارفین کے لیے تربیتی ورکشاپس کا انعقاد۔
نتیجہ: ایک مکمل، فعال اور عوامی طور پر دستیاب میواتی ڈیجیٹل ہیریٹیج پلیٹ فارم۔
5.2 اسٹیک ہولڈرز کا اشتراک: ایک کثیر الشعبہ جاتی اتحاد
یہ منصوبہ اپنی نوعیت اور وسعت کے اعتبار سے کسی ایک ادارے یا فرد کے بس کی بات نہیں۔ اس کی کامیابی کا انحصار ایک مضبوط اور کثیر الشعبہ جاتی کنسورشیم پر ہے جس میں تمام متعلقہ فریقین شامل ہوں۔
علمی شراکت دار: ہندوستان اور پاکستان کی جامعات میں موجود کمپیوٹیشنل لسانیات کی لیبز (جیسے AI4Bharat) اور جنوبی ایشیائی مطالعات کے شعبے۔
ثقافتی آرکائیوز: روپاین سنستھان، ہندوستان اور پاکستان کی قومی لائبریریاں اور دیگر ثقافتی ادارے جو اس ورثے کو محفوظ کر رہے ہیں۔
کمیونٹی تنظیمیں: پاکستان میو اتحاد، صدائے میو فورم، اور ہندوستان کے میواتی علاقوں (نوح، الور، بھرت پور) میں موجود کمیونٹی کی قیادت۔ ان کی شمولیت اس بات کو یقینی بنائے گی کہ منصوبہ کمیونٹی کی ضروریات اور خواہشات کے مطابق ہو۔
بین الاقوامی ادارے: یونیسکو (UNESCO)، جس کا منشور خطرے سے دوچار زبانوں کا تحفظ ہے، اس منصوبے کے لیے فنڈنگ، تکنیکی معاونت اور عالمی سطح پر وکالت کے لیے ایک فطری شراکت دار ہے 36۔
ٹیکنالوجی شراکت دار: کلاؤڈ کمپیوٹنگ فراہم کرنے والے ادارے (کمپیوٹنگ وسائل کے لیے) اور AI کمپنیاں جو اس منصوبے میں تکنیکی مہارت فراہم کر سکتی ہیں۔
5.3 تکنیکی اور اخلاقی تحفظات
ٹیکنالوجی کے استعمال کے ساتھ ساتھ کچھ اہم تکنیکی اور اخلاقی سوالات بھی جنم لیتے ہیں جن پر توجہ دینا اس منصوبے کی ساکھ اور طویل مدتی کامیابی کے لیے ناگزیر ہے۔
ڈیٹا کی خودمختاری اور ملکیت
ایک واضح قانونی فریم ورک قائم کرنا ہوگا جو اس بات کو یقینی بنائے کہ اس ڈیجیٹل ورثے کی حتمی ملکیت اور کنٹرول میواتی کمیونٹی کے پاس رہے۔ ڈیٹا کے استعمال اور اس کی تقسیم کے حوالے سے تمام فیصلے کمیونٹی کی مشاورت سے کیے جائیں۔
دانشورانہ املاک کے حقوق
اصل فنکاروں، مصنفین اور ان کے ورثاء کے حقوق کا تحفظ کیا جانا چاہیے۔ ایک ایسا نظام وضع کرنا ہوگا جس کے تحت ان کی خدمات کا اعتراف کیا جائے اور جہاں ممکن ہو، انہیں معاوضہ بھی فراہم کیا جائے۔
مستندیت بمقابلہ معیاری کاری
یہ بات واضح ہونی چاہیے کہ AI کی مدد سے معیاری کاری کا عمل شفاف، مشاورتی اور کمیونٹی کی زیر قیادت ہوگا۔ اس کا مقصد مستند تغیرات کو مٹانا نہیں، بلکہ ایک متفقہ اور قابلِ فہم تحریری نظام کو فروغ دینا ہے۔
رسائی اور ڈیجیٹل تقسیم
حتمی پلیٹ فارم کو اوپن ایکسیس، مفت اور استعمال میں آسان ہونا چاہیے۔ اس کا انٹرفیس کم ڈیجیٹل خواندگی رکھنے والے صارفین کو مدنظر رکھتے ہوئے ڈیزائن کیا جائے تاکہ ٹیکنالوجی خود ایک رکاوٹ نہ بن جائے۔
5.4 حتمی سفارشات اور مستقبل کا لائحہ عمل
یہ رپورٹ میواتی ادب کی تدوینِ نو کے لیے ایک جامع اور قابلِ عمل خاکہ پیش کرتی ہے۔ اس خاکے کو حقیقت میں بدلنے کے لیے درج ذیل ٹھوس اور فوری اقدامات کی سفارش کی جاتی ہے:
فوری سفارش: ایک “میواتی ڈیجیٹل ہیریٹیج کمیٹی” کا قیام عمل میں لایا جائے جس میں تمام کلیدی اسٹیک ہولڈرز (علمی، ثقافتی، کمیونٹی اور تکنیکی) کی سرحد پار نمائندگی ہو۔ یہ کمیٹی اس پورے منصوبے کی نگرانی کرے گی۔
فنڈنگ کی سفارش: اس رپورٹ کے فریم ورک کی بنیاد پر ایک تفصیلی زمینی فزیبلٹی اسٹڈی اور منصوبے کے پہلے مرحلے (ڈیٹا اکٹھا کرنے) کے آغاز کے لیے ابتدائی فنڈنگ (seed funding) کے لیے درخواست دی جائے۔ اس کے لیے یونیسکو، قومی ڈیجیٹل مشنز اور دیگر ثقافتی گرانٹس بہترین ذرائع ہو سکتے ہیں۔
ترجیحی سفارش: انسانی تصدیق شدہ “گولڈ اسٹینڈرڈ” کارپس کی تیاری کو سب سے اولین اور اہم ترین ترجیح دی جائے، کیونکہ یہ مستقبل کی تمام AI پیشرفت کے لیے بنیادی اثاثہ ہے۔
مستقبل کا وژن: یہ منصوبہ محض ایک محدود مدت کا آرکائیونگ پروجیکٹ نہیں ہے، بلکہ اس کا حتمی مقصد ایک زندہ ڈیجیٹل ایکو سسٹم کا قیام ہے۔ یہ ایکو سسٹم آنے والی نسلوں کے لیے میواتی زبان اور اس کے ادب کی حمایت جاری رکھے گا۔ یہ نہ صرف میواتی ورثے کو ایک نئی زندگی بخشے گا، بلکہ جنوبی ایشیا اور دنیا بھر کی دیگر کم وسائل اور خطرے سے دوچار زبانوں کے تحفظ کے لیے ایک قابلِ تقلید اور مؤثر ماڈل کے طور پر بھی کام کرے گا۔
Works cited