تبدیل صوت به متن در پروژههای هوش مصنوعی یکی از مهمترین و چالشبرانگیزترین مراحل است. در این مطلب به تجربهای از توسعه «دستیار صوتی» برای یک بانک میپردازیم. این تجربه به دلیل عدم تجربه ما و کارفرما در «قرارداد نویسی هوش مصنوعی» تبدیل به «ملودرام» شده است.
در قرارداد به چند سرویس مثل «انتقال وجه»، «گردش حساب» و «موجودی» اشاره شده است. این بدون اشاره به مجموعه دادگان مورد نیاز برای آموزش و تست و همچنین دقت مدلها بود. این مجموعه دادگان به صورت «صوتی» و «متنی» هستند. با توجه به اینکه بانک دادهای نداشت، تیم ما شروع به جمعآوری دادگان و دادهنویسی کرد. این مجموعه دامنه واژگان و اصطلاحات کمی داشت. برای هر سرویس حدوداً ۱۰ هزار جمله «صوتی» و «متنی» جمعآوری شده است.
سرویس تبدیل صوت به متن سخن

از نظر ما، این مجموعه دادگان برای آغاز کار مناسب بود. بقیه دادگان باید در محیط «پایلوت محدود» جمعآوری و مدلها «بازآموزی» میشدند تا دقتهای بالاتر حاصل شود. اما کارفرما حاضر نبود روی مشتریان خود ریسک کند. بنابراین، مسئله «مرغ و تخم مرغ» ایجاد شد!
با وجود این چالشها، اهمیت تدوین دقیق قرارداد برای پروژههای تبدیل صوت به متن بیشتر از همیشه آشکار شد. اگر مواردی مانند نوع و حجم دادگان، روشهای ارزیابی، و معیارهای سنجش موفقیت به وضوح تعریف نشوند، پروژهها با مشکلات بسیاری روبرو خواهند شد. این نکات به عنوان پایهای برای پروژههای آتی میتوانند مانع تکرار اشتباهات گذشته شوند.
چالشها و راهکارها در پروژه تبدیل صوت به متن
در جلسه تحویل، کارفرما چند جمله را تست میکرد. مدلهای ما که آن تیپ جملات را نشنیده بودند جواب درست نمیدادند. هر بار موقع تحویل با جملات جدیدی تست انجام میشد. کارفرما ناراحتتر از گذشته میگفت، مهندس این که کار نمیکند!
عدم تعریف «مجموعه دادگان تست» و «مجموعه دادگان آموزشی» و «دقت مدل صوتی» و «دقت مدل متنی» در قرارداد باعث شد پروژه با دلخوری طرفین جمعبندی شود. این پروژه همچنان در انتظار پایلوت میماند و خاک میخورد.
نتیجهگیری: بدون قید جزئیات دادگان مورد نیاز شامل train set, test set، نحوه انتخابشان، نحوه برچسبگذاری و دقت مدلها، وارد پروژه هوش مصنوعی نشوید.