مائیکرو سافٹ نے مصنوعی ذہانت پر مبنی ایک اے آئی سافٹ ویئر بنایا ہے، جو صرف تین سیکنڈ تک کسی کی بھی آواز سن کر اس کی ہوبہو نقل بناتا ہے۔ یہ سافٹ ویئر آواز کی کھرج، جذباتی لہجے اور اتار چڑھاؤ کی بھی نقل کرتا ہےن انسانی آواز چرانے والے اس سافٹ ویئر کا نام ’وال-ای‘ (VALL-E) رکھا گیا ہے۔
واضح رہے کہ اس سے قبل مائیکرو سافٹ مشہور مصوروں کی پینٹنگ کی نقل کرنے والا ایک اور پروگرام ڈیل-ای بھی بنا چکا ہے۔ اب یہ ’وال-سی) نامی نیا ماڈل ’ٹیکسٹ ٹو اسپیچ‘ (تحریر سے تقریر) پر مبنی ہے، یعنی لکھے الفاظ کو آواز میں بدلتا ہے۔ یہ دنیا میں کسی بھی شخص کی آواز کی نقل کرسکتا ہے، جس کے لیے اسے محض تین سیکنڈ کی آڈیو فائل درکار ہوگی، تاہم مزید بہتری کے لیے قدرے طویل آڈیو فائل کی ضرورت ہو سکتی ہے۔ سافٹ ویئر اس حد تک مؤثر ہے کہ یہ آواز کے زیر و بم اور آواز کے جذباتی اتارچڑھاؤ کی بھی نقالی کر سکتا ہے یا بولنے کے مختلف انداز بھی ترتیب دے سکتا ہے
مائیکروسافٹ کےمطابق مصنوعی ذہانت پر مبنی اس کے الگورتھم کو انگریزی زبان کی 60 ہزار گھنٹوں کی آواز پر تربیت فراہم کی گئی ہے۔ ان میں کہانی سنانے والے اور کتاب پڑھنے والوں کی آواز بھی شامل ہیں
مائیکروسافٹ کے محققین کی ایک ٹیم نے اسے انسانی آواز والی تقریر کو دوبارہ تیار کرنے کے لیے 7,000 سے زیادہ مختلف مقررین سے 60,000 گھنٹے انگریزی آڈیو بک بیانیہ سننے کے ذریعے بنایا۔ یہ نمونہ اس سے سینکڑوں گنا بڑا ہے جس پر دوسرے ٹیکسٹ ٹو اسپیچ پروگرام بنائے گئے ہیں
ریکارڈ کی گئی آواز کے نمونے یا واٹس ایپ پیغامات پر اس کا معیار کچھ گر سکتا ہے، تاہم اگر کوئی وال ای پر براہِ راست اچھے مائیک سے آواز ریکارڈ کرتا ہے تو سافٹ ویئر کے نتائج حقیقت سے قریب تر ہوتے ہیں
محققین کے مطابق، VALL-E موجودہ جدید ترین ٹیکسٹ ٹو اسپیچ (TTS) سسٹمز کو تقریر کی فطری اور اسپیکر کی مماثلت دونوں میں نمایاں طور پر پیچھے چھوڑ دیتا ہے
جبکہ آزاد تجزیہ نگاروں نے کہا ہے کہ مائیکروسافٹ کےدعووں کے برعکس سافٹ ویئر نے بہت واجبی صلاحیت دکھائی
اپنے تحقیقی مقالے میں، مائیکروسافٹ کی ٹیم نوٹ کرتی ہے کہ VALL-E بعض اوقات بعض الفاظ کے تلفظ میں جدوجہد کرتی یا ناکام ہو سکتی ہے۔ دوسرے اوقات میں، الفاظ مصنوعی طور پر ترکیب شدہ، روبوٹک یا صرف ٹونلی آف لگ سکتے ہیں
مائکروسافٹ کا کہنا ہے کہ اس ٹیکنالوجی کے لیے ابھی ابتدائی دن ہیں، اور اس میں مزید بہتری کی توقع کی جا رہی ہے کہ یہ زیادہ انسانوں کی طرح لگے گی
اخلاقی خدشات
محققین نے اپنے مقالے میں لکھا ہے ”چونکہ VALL-E تقریر کی ترکیب کر سکتا ہے جو اسپیکر کی شناخت کو برقرار رکھتی ہے، اس لیے اس ماڈل کے غلط استعمال کے ممکنہ خطرات موجود ہیں، جیسے کہ آواز کی شناخت کو جعل سازی کرنا یا کسی مخصوص اسپیکر کی نقالی کرنا“
ناقدین نے اپنے خدشات کا اظہار کرتے ہوئے کہا ہے کہ اب وال ای سے کسی بھی شخصیت کی آواز میں وہ الفاظ ادا کروائے جا سکتے ہیں، جو اس نے کبھی نہیں کہے۔ اس سے جعلی آڈیوز اور فیک ریکارڈنگ کا ایک نیا سیلاب بھی آسکتا ہے اور طرح طرح کے مسائل جنم لے سکتے ہیں
تاہم مائیکروسافٹ نے کہا ہے کہ اس کے کچھ فوائد بھی ہوسکتے ہیں۔ اگر کوئی فنکار فلم کی ڈبنگ درمیان میں چھوڑ کر کہیں اور مصروف ہوجاتا ہے تو اس کی ڈبنگ سافٹ ویئر سے کی جا سکتی ہے۔ اس طرح کےچھوٹے امور وال ای اے آئی اچھی طرح نبھا سکتا ہے
ماہرین VALL-E کو فائدہ مند ایپلی کیشنز کے ساتھ ساتھ کچھ غیر سود مند بھی دیکھتے ہیں۔ جیوتی نے تقریر کی تدوین اور آواز کے اداکاروں کو تبدیل کرنے کا حوالہ دیا۔ مائکلی نے نوٹ کیا کہ اس ٹیکنالوجی کا استعمال پوڈ کاسٹرز کے لیے ایڈیٹنگ ٹولز بنانے، سمارٹ اسپیکرز کی آواز کو اپنی مرضی کے مطابق کرنے کے ساتھ ساتھ میسجنگ سسٹمز اور چیٹ رومز، ویڈیو گیمز اور یہاں تک کہ نیویگیشن سسٹم میں بھی شامل کیا جا سکتا ہے
مائکلی نے مزید کہا ”سکے کا دوسرا رخ یہ ہے کہ ایک بدنیتی پر مبنی صارف کسی سیاست دان کی آواز کا کلون بنا سکتا ہے اور ان سے ایسی باتیں کہہ سکتا ہے جو مضحکہ خیز یا اشتعال انگیز لگتی ہیں، یا عام طور پر غلط معلومات یا پروپیگنڈہ پھیلانے کے لیے“
وینا کہتی ہیں اگر یہ مائیکروسافٹ کے دعوی کے مطابق کارکردگی دکھا رہا ہے تو اس کا مطلب یہ بھی ہے کہ یہ ٹیکنالوجی میں بہت زیادہ غلط استعمال کی صلاحیت بھی رکھتا ہے
جیوتی، بھی، اخلاقی خدشات کو VALL-E کے گرد گھومتے ہوئے دیکھتی ہیں۔ "جیسے جیسے ٹیکنالوجی ترقی کرتی ہے، VALL-E اور اس جیسی ٹیکنالوجیز کے ذریعے حقیقت پسندانہ اسپیم کالز کا دروازہ کھل جائے گا جو حقیقی لوگوں کی آوازوں کی نقل کرتا ہے“
انہوں نے مزید کہا ”سیاستدانوں اور دیگر عوامی شخصیات کی بھی نقالی کی جا سکتی ہے“
انہوں نے کہا ”اس کے امکانی سیکورٹی خدشات ہو سکتے ہیں، مثال کے طور پر، کچھ بینک صوتی پاس ورڈز کی اجازت دیتے ہیں، جو غلط استعمال کے بارے میں خدشات پیدا کرتے ہیں۔ ہم بیجا استعمال کو روکنے کے لیے AI سے تیار کردہ مواد اور AI کا پتہ لگانے والے سافٹ ویئر کے درمیان ہتھیاروں کی دوڑ میں اضافے کی توقع کر سکتے ہیں“
”یہ نوٹ کرنا ضروری ہے کہ VALL-E فی الحال دستیاب نہیں ہے“ جیوتی نے مزید کہا, ”مجموعی طور پر، AI کو منظم کرنا اہم ہے۔ ہمیں یہ دیکھنا ہوگا کہ مائیکروسافٹ VALL-E کے استعمال کو منظم کرنے کے لیے کیا اقدامات کرتا ہے“
ایک قومی دانشورانہ املاک کی قانونی فرم Harness IP سے منسلک مائیکل ایل ٹیچ کا کہنا ہے ”ٹیکنالوجی کے حوالے سے قانونی مسائل بھی پیدا ہو سکتی ہیں۔ "بدقسمتی سے، اس طرح کے مسائل سے براہ راست نمٹنے کے لیے موجودہ، کافی قانونی ٹولز موجود نہیں
انہوں نے کہا ”صوتی کلوننگ کے نتیجے میں کسی حقیقی شخص کے آواز کی ہوبہو نقل کی جا سکتی ہے جسے سننے والے کو دھوکہ دینے کے لیے استعمال کیا جا سکتا ہے۔ اس طرح کی استعمال ممکنہ طور پر دھوکہ دہی، ہتک عزت، یا غلط معلومات کے قوانین کے شعبوں میں قانونی مسائل کو جنم دے گا“
انہوں نے کہا ”جیسے جیسے یہ ٹیکنالوجیز پختہ ہوتی جائیں گی، ٹیکنالوجی کو براہ راست حل کرنے اور اس کے غلط استعمال کو روکنے کے لیے مخصوص قوانین کی ضرورت ہو سکتی ہے کیونکہ ٹیکنالوجی ترقی کرتی ہے اور مزید قابل رسائی ہوتی ہے“