هوش مصنوعی Eleven v3 با انتقال احساس متن‌های فارسی را به گفتار تبدیل می‌کند

خانه

علم و تکنولوژی

هوش مصنوعی

هوش مصنوعی Eleven v3 با انتقال احساس متن‌های فارسی را به گفتار تبدیل می‌کند

افزودن به لیست علاقه‌مندی‌ها

زهرا دوستی نسب

19 خرداد 1404 | 11:44

زمان مطالعه: 2 دقیقه

Elevenlabs از جدیدترین دستاورد خود، یعنی مدل تبدیل متن به گفتار Eleven v3 (Alpha) رونمایی کرد. ویژگی برجسته این مدل، توانایی تولید صداهای مصنوعی با لحن طبیعی‌تر و بیان احساسات واقعی‌تر است. خبر خوب اینکه این مدل از زبان فارسی هم پشتیبانی می‌کند.

مدل زبان Elevenlabs نسخه ۳ (نسخه آزمایشی) با قابلیت بازتولید طبیعی‌تر احساسات متنوع، از جمله خنده، نجوا، آه کشیدن و واکنش‌های هیجانی، معرفی می‌شود. این نسخه با تمرکز بر بهبود انتقال احساسات در صداهای مصنوعی، به طور کامل بازطراحی شده است و در مقایسه با نسخه‌های قبلی، کیفیت و طبیعی بودن احساسات در صداها را ارتقا داده است.این نسخه حالا به عنوان یک صداپیشه‌ی حرفه‌ای آموزش دیده است. دیگر تنها متن‌ها را نمی‌خواند، بلکه آن‌ها را اجرا می‌کند. حالا احساسات نویسنده‌ی متن یا سناریو به طور دقیق به مخاطب منتقل می‌شود، چه در حال ساخت پادکست باشید و چه کتاب صوتی.

ویژگی‌های مدل هوش مصنوعی Eleven v3

نسخه جدید Eleven v3 با پشتیبانی از بیش از ۷۰ زبان، از جمله فارسی، تجربه گفتگوی چندنفره را متحول می‌کند. این مدل قادر است گفتگوهای پیچیده و طبیعی را با مدیریت خودکار نوبت‌ها، احساسات و قطع کلام‌ها تولید کند. شما می‌توانید با ارائه متن‌های ساختاریافته‌ای که نوبت گویندگان مختلف را مشخص می‌کنند، از قابلیت‌های پیشرفته این مدل استفاده کنید. این ویژگی‌ها، Eleven v3 را برای تولید دیالوگ‌های چندصدایی و گفتگوهای پیچیده و طبیعی مناسب و کارآمد می‌کند.

شرکت Elevenlabs مدل جدید Eleven v3 را برای کاربردهای حرفه‌ای مانند تولید فیلم، کتاب صوتی و رسانه‌های دیجیتال معرفی کرده است. این مدل با قابلیت‌های پیشرفته گفتگوی چندنفره و پشتیبانی از بیش از ۷۰ زبان، تجربه تولید محتوا را متحول می‌کند. نسخه نهایی API عمومی آن بزودی عرضه خواهد شد. در حال حاضر، Eleven v3 با تخفیف ۸۰ درصدی تا پایان ژوئن (خرداد) روی وب‌سایت Elevenlabs در دسترس است. با این حال، برای کاربردهای بلادرنگ و گفتگوهای زنده، مدل‌های v2.5 Turbo و Flash همچنان توصیه می‌شوند، زیرا مدل v3 برای این موارد بهینه نشده و نسخه بلادرنگ آن هنوز در حال توسعه است.

Eleven v3 امکان کنترل دقیق تر شیوه بیان صداها را با استفاده از برچسب‌های صوتی درون متن فراهم می‌کند. شما می‌توانید با استفاده از برچسب‌هایی همچون [sighs] (آه کشیدن)، [excited] (هیجان‌زده) یا [whispers] (نجواکردن) احساسات و لحن‌های مختلف را به صورت مستقیم در متن مشخص کنید. همچنین امکان استفاده از چندین برچسب به طور همزمان برای ایجاد بیان‌های ظریف‌تر و دقیق‌تر هم وجود دارد.

نسخه جدید Eleven v3، با وجود امکانات بیان جدید و قدرتمند در برچسب‌های صوتی، در بخش کلون‌های صوتی حرفه‌ای (Professional Voice Clones) کیفیت کمتری نسبت به نسخه‌های قبلی ارائه می‌دهد. برای پروژه‌هایی که نیازمند کیفیت بالا در کلون‌های صوتی هستند، استفاده از کلون‌های صوتی آنی (Instant Voice Clones) یا صداهای ساخته شده پیشنهاد می‌شود.

فروشگاه اینترنتی داراکالا

جستجو در مجله داراکالا

رفع مسئولیت

در داراکالا بفروشید

کلیه حقوق این تارنما محفوظ و متعلق به فروشگاه اینترنتی دارا کالا می باشد