ভিয়েতনামী ভাষা ও বক্তৃতা প্রক্রিয়াকরণ (VLSP) প্রতিযোগিতাটি ভিয়েতনাম অ্যাসোসিয়েশন ফর ইনফরমেশন টেকনোলজির একটি শাখা, VLSP ক্লাব দ্বারা আয়োজিত বার্ষিক আন্তর্জাতিক ভিয়েতনামী ভাষা ও বক্তৃতা প্রক্রিয়াকরণ সম্মেলনের অংশ। VLSP 2023 বক্তৃতা এবং পাঠ্য প্রক্রিয়াকরণের উপর 10টি প্রতিযোগিতার আয়োজন করে, যা শীর্ষস্থানীয় গবেষক, বিশেষজ্ঞ এবং প্রযুক্তি উন্নয়ন ইউনিটগুলিকে একত্রিত করে।
যদিও এটি চতুর্থবারের মতো ভিয়েটেল এআই প্রতিযোগিতায় অংশগ্রহণ করেছিল এবং এর আগে তিনবার জিতেছিল, তবুও প্রতিযোগিতার বিভাগের কাঠামোর পরিবর্তনের কারণে ভিয়েটেল ইঞ্জিনিয়াররা অনেক সমস্যার সম্মুখীন হয়েছিল।
বিশেষ করে, গত বছরের তুলনায়, এ বছর স্পিচ রিকগনিশন এবং ইমোশন রিকগনিশন বিভাগগুলিকে এক বিভাগে একত্রিত করা হয়েছে। বাক্যের টেক্সট এবং আবেগ উভয়ই স্বীকৃত হওয়া নিশ্চিত করার জন্য দলগুলিকে একই সাথে দুটি সমস্যা সমাধান করতে হবে, কাজের চাপ এবং অসুবিধা উভয়ই দ্বিগুণ হয়েছে।
নিম্ন মানের বা উচ্চ মানের, প্রতিটি ডেটা ব্যবহার করুন
শুধু বিভাগগুলির কাঠামো পরিবর্তন করা নয়, এই বছরের পরীক্ষায় সীমিত ডেটা শর্তাবলী সহ স্ক্র্যাচ থেকে মডেল তৈরির উপরও জোর দেওয়া হয়েছে, যার মধ্যে রয়েছে কাঁচা, লেবেলবিহীন এবং নিম্নমানের ডেটা। পরীক্ষায় বিভিন্ন গুণমান এবং ফর্ম সহ 4 টি গ্রুপের ডেটা সরবরাহ করা হয়েছে। এমন ডেটা রয়েছে যার মধ্যে কেবল লেবেলবিহীন অডিও, কেবলমাত্র অডিও এবং পাঠ্য অন্তর্ভুক্ত ডেটা, আবেগ এবং অডিও অন্তর্ভুক্ত ডেটা, উচ্চমানের, স্ট্যান্ডার্ড লেবেল এবং একটি ডেটাসেট যাতে আবেগ এবং অডিও অন্তর্ভুক্ত থাকে, নিম্নমানের। প্রতিটি ডেটাসেট প্রতিটি উদ্দেশ্য এবং পরীক্ষার বিভাগ পূরণের জন্য স্পষ্টভাবে সংজ্ঞায়িত করা হয়েছে, সমস্ত ডেটাসেটে মোট 300 ঘন্টারও বেশি সময় ব্যয় করা হয়। স্পিচ রিকগনিশন প্রশিক্ষণের জন্য স্ট্যান্ডার্ড ডেটাসেটের তুলনায় এটি বেশ সামান্য সংখ্যা, যার জন্য সাধারণত 1,000-2,000 ঘন্টা বা তার বেশি সময় প্রয়োজন হয়।
প্রতিটি দলের কাছে তাদের কাজ তৈরি এবং জমা দেওয়ার জন্য ২ মাসেরও কম সময় ছিল, কিন্তু বাস্তবে, সম্পদের অভাবে সমাধান অনুসন্ধানে ব্যয় করা প্রকৃত সময় অনেক কম ছিল।
"এই বছর, ভিয়েটেল এআই নতুন প্রযুক্তি গবেষণার পাশাপাশি পণ্য উন্নয়নের জন্য প্রচুর কম্পিউটিং অবকাঠামোগত সংস্থান নিবেদিত করেছে, যেখানে স্পিচ রিকগনিশন এমন একটি প্রযুক্তি যার জন্য প্রচুর হার্ডওয়্যার সংস্থান প্রয়োজন," বলেছেন মিঃ ডাং দিন সন - কৃত্রিম বুদ্ধিমত্তা প্রকৌশলী, ভার্চুয়াল সহকারী প্ল্যাটফর্ম, ভিয়েটেল এআই।
কম ডেটা ভলিউম এবং মানের অবস্থার মুখোমুখি হয়ে, গবেষণা দলটি তাৎক্ষণিকভাবে "নিম্ন বা উচ্চ মানের নির্বিশেষে সমস্ত ডেটা ব্যবহার করতে হবে" এর দৃষ্টিভঙ্গি নির্ধারণ করে। এটি করার জন্য, সমস্ত ডেটা প্রক্রিয়াকরণের জন্য একটি প্রশিক্ষণ চক্র তৈরি করা প্রয়োজন এবং অনেক মডেলের পরিবর্তে অনেকগুলি বিভিন্ন সমস্যা সমাধানের জন্য শুধুমাত্র একটি মডেল তৈরি করা প্রয়োজন।
প্রযুক্তিতে অগ্রণী দক্ষতার ফলাফল
তথ্যের অভাব এবং সম্পদের অভাব উভয়ের প্রেক্ষাপটে, গবেষণা দলটি একটি সহজ, বিশাল নয়, বরং গুরুত্বপূর্ণভাবে, ক্ষুদ্রতম বিশদে পরিমার্জিত প্রক্রিয়াকরণ প্রক্রিয়া তৈরি করার সিদ্ধান্ত নিয়েছে।
ভিয়েটেল এআই ইঞ্জিনিয়াররা বিশ্বজুড়ে শীর্ষস্থানীয় সম্মেলন এবং জার্নাল থেকে প্রাপ্ত সর্বশেষ গবেষণা সাবধানতার সাথে অধ্যয়ন করে একটি পদ্ধতি খুঁজে বের করেছেন। কার্যকর মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য ডেটা প্রক্রিয়াকরণ পদ্ধতির সাথে মিলিত হয়ে, গবেষণা দল সমস্ত উপলব্ধ ডেটা প্রক্রিয়া করার জন্য একটি প্রশিক্ষণ চক্র তৈরি করেছে। চক্রটিতে 3টি ধাপ রয়েছে: লেবেল ছাড়াই ভয়েস বৈশিষ্ট্যগুলি বর্ণনা করার জন্য একটি পূর্ব-প্রশিক্ষিত মডেল তৈরি করা, দুটি সমস্যার জন্য পূর্ব-প্রশিক্ষিত মডেল থেকে সূক্ষ্ম-টিউনিং: বক্তৃতা স্বীকৃতি এবং আবেগ স্বীকৃতি এবং অনুমান।
"পূর্ববর্তী পণ্যগুলির উন্নয়ন এবং স্থাপনার সময় তথ্যের অভাবজনিত সমস্যা সমাধানের অভিজ্ঞতাও দলটিকে সিদ্ধান্ত গ্রহণের পদ্ধতি খুঁজে পেতে সাহায্য করার ক্ষেত্রে উল্লেখযোগ্য অবদান রেখেছে। বিপরীতে, পরীক্ষা থেকে প্রাপ্ত জ্ঞান এবং ফলাফলগুলি ভিয়েটেল এআই পণ্যগুলিতে তাৎক্ষণিকভাবে প্রয়োগ করার সম্ভাবনাও রাখে, তাই পরীক্ষা দেওয়ার সময় কাজ করার প্রক্রিয়াটি বেশ মসৃণভাবে সম্পন্ন হয়েছিল," বলেছেন ভিয়েটেল এআই-এর ভার্চুয়াল সহকারী প্ল্যাটফর্ম ইঞ্জিনিয়ার মিঃ বুই তিয়েন ডাট।
ফলস্বরূপ, ভিয়েটেল এআই কেবল স্পিচ রিকগনিশন এবং স্পিচ ইমোশন রিকগনিশন বিভাগে প্রথম পুরস্কার জিতেনি, বরং ৮৯.১৮% (পরবর্তী দলগুলি যথাক্রমে ৮৩.৪০% এবং ৭৮.৪৫%) এর চিত্তাকর্ষক স্কোরও অর্জন করেছে।
মিঃ সন বলেন, মূল বিষয়টি হলো ভিয়েতনামীদের জন্য বিশেষভাবে তৈরি স্পিচ প্রসেসিং মডেল, যা ভিয়েটেল এআই দীর্ঘদিন ধরে তৈরি করেছে।
"উপলব্ধ গবেষণা ফলাফল থেকে মডেল এবং নির্দেশাবলী ব্যবহার করার পরিবর্তে, ভিয়েতনামীয় ভাষা প্রক্রিয়াকরণের জন্য ভিয়েতনামীয় এআই নিজস্ব মডেল তৈরি এবং বিকাশ করার সিদ্ধান্ত নিয়েছে। এই মডেলটি ক্রমাগত আপডেট, অপ্টিমাইজ করা হয় এবং আরও কার্যকর হয়ে ওঠে," মিঃ সন বলেন।
কেবল প্রতিযোগিতার মধ্যেই সীমাবদ্ধ থাকবে না, ভিয়েটেল এআই-এর এই সমাধান ভার্চুয়াল সুইচবোর্ড পণ্য, ভিয়েটেল ভার্চুয়াল সহকারীকে আপগ্রেড করার ভিত্তি হিসেবে কাজ করবে, যা কথোপকথনে গ্রাহকদের আবেগকে আরও সঠিকভাবে সনাক্ত করতে সাহায্য করবে, যার ফলে প্রতিক্রিয়া জানাবে বা শব্দের উপযুক্ত সূক্ষ্মতা বেছে নেবে। এইভাবে, মানুষ এবং এআই-এর মধ্যে কথোপকথন আরও স্বাভাবিক হয়ে উঠবে, ব্যবহারকারীর অভিজ্ঞতা উন্নত করবে। গ্রাহক সেবায় অনেক নতুন অ্যাপ্লিকেশনও খোলা হচ্ছে যেমন গ্রাহকদের অভিযোগ স্বয়ংক্রিয়ভাবে সনাক্ত করার জন্য একটি সিস্টেম তৈরি করা এবং সময়মত পরিচালনা বা তথ্য কাজে লাগানোর জন্য সুইচবোর্ডে অভিযোগ জমা দেওয়া।
ইউনিটের প্রতিনিধি বলেন যে ভিয়েটেল এআই প্রযুক্তির বিকাশ অব্যাহত রাখবে, নির্ভুলতা বৃদ্ধি, ব্যবহারকারীর অভিজ্ঞতা এবং পণ্যের দক্ষতা বৃদ্ধির জন্য ক্রমাগত পণ্য আপগ্রেড করবে।
কোওক টুয়ান
[বিজ্ঞাপন_২]
উৎস
মন্তব্য (0)