تحويل النص إلى كلام، أو ما يسمى أيضًا بـ TTS، هو شكل من أشكال التكنولوجيا الداعمة التي تجلب السهولة والراحة في الحياة. يقرأ النظام النصوص الرقمية بصوت عالٍ وواضح بما يكفي لفهم الشخص. تُعرف TTS أيضًا بتقنية القراءة بصوت عالٍ، وهي مقبولة على نطاق واسع لمرونتها. إنها على بعد لمسة واحدة، حيث يتم تحويل نص الموقع إلى صوت.
يتوسع النظام عبر جميع الأجهزة مثل الهواتف الذكية وأجهزة الكمبيوتر المحمولة وأجهزة الكمبيوتر المكتبية والأجهزة اللوحية، وهو مثالي للأطفال والجمهور فوق سن 20 عامًا والأشخاص ذوي الإعاقة. لقد اختفى صراع القراءة وإجهاد العينين تجاه الأجهزة الإلكترونية مع TTS مع زيادة التركيز والتعلم وعادة القراءة عبر الإنترنت من خلال الاستماع. لذا إذا كنت مدونًا أو قارئًا أو مالكًا لموقع ويب، فإن TTS هو برنامج سيوسع أفق معرفتك. ولكن ما هي فوائد وجود صوت لكل شيء، بدون قيود أو حدود؟ يتم فصله وفقًا للمستخدمين لأنهم الشخص الذي يستخدم الخدمات.
إن السماح للناس بالتحدث مع الآلات هو حلم طويل الأمد للتفاعل بين الإنسان والحاسوب. لقد شهدت قدرة أجهزة الكمبيوتر على فهم الكلام الطبيعي ثورة في السنوات القليلة الماضية من خلال تطبيق الشبكات العصبية العميقة (على سبيل المثال، البحث الصوتي من جوجل). ومع ذلك، فإن توليد الكلام باستخدام أجهزة الكمبيوتر - وهي العملية التي يشار إليها عادة باسم تركيب الكلام أو تحويل النص إلى كلام (TTS) - لا يزال يعتمد إلى حد كبير على ما يسمى TTS متسلسل، حيث يتم تسجيل قاعدة بيانات كبيرة جدًا من أجزاء الكلام القصيرة من متحدث واحد ثم إعادة تجميعها لتكوين أقوال كاملة. هذا يجعل من الصعب تعديل الصوت (على سبيل المثال ، التبديل إلى متحدث مختلف ، أو تغيير تركيز أو عاطفة كلامهم) دون تسجيل قاعدة بيانات جديدة بالكامل.
تتضمن عملية TTS عدة مراحل:
هناك عدة أنواع من تقنية تحويل النص إلى كلام، بما في ذلك:
تقدم GSpeech العديد من الميزات، بما في ذلك حلول تحويل النص إلى كلام (TTS) عبر الإنترنت، وSaaS، والمحلية لمجموعة كبيرة ومتنوعة من المصادر مثل مواقع الويب، وتطبيقات الهاتف المحمول، والكتب الإلكترونية، ومواد التعلم الإلكتروني، والمستندات، وتجربة العملاء اليومية، وتجربة النقل، وغير ذلك الكثير. كيف تستفيد الشركات والمؤسسات والناشرون الذين يدمجون تقنية تحويل النص إلى كلام (TTS)؟
توفر تقنية تحويل النص إلى كلام إمكانية وصول أكبر للأفراد الذين يعانون من ضعف البصر أو عسر القراءة أو صعوبات القراءة، مما يسمح لهم بالوصول إلى المعلومات والتواصل بسهولة أكبر.
من خلال توفير طريقة بديلة للمستخدمين لاستهلاك المحتوى الخاص بك، يمكنك تحسين تحسين محرك البحث لموقع WordPress الخاص بك (SEO). وهذا مهم بشكل خاص للمستخدمين الذين يعتمدون على برامج قراءة الشاشة للتنقل عبر الويب.
يمكن لتقنية تحويل النص إلى كلام (TTS) تعزيز تجربة المستخدم من خلال توفير طريقة أكثر طبيعية وبديهية للتفاعل مع الأجهزة، مما يقلل الحاجة إلى الكتابة أو القراءة اليدوية.
تتميز تقنية TTS بالقدرة على توفير دعم العملاء على مدار الساعة طوال أيام الأسبوع، والإجابة على الأسئلة الشائعة وتوفير المعلومات للعملاء بطريقة أكثر كفاءة وفعالية.
يمكن لتقنية تحويل النص إلى كلام زيادة الإنتاجية من خلال أتمتة المهام مثل إدخال البيانات والنسخ والقراءة، مما يوفر الوقت للمهام الأكثر أهمية.
يمكن لتقنية تحويل النص إلى كلام دعم العديد من اللغات، مما يجعلها أداة قيمة للشركات والمؤسسات التي تعمل على مستوى العالم.
تستطيع تقنية تحويل النص إلى كلام تحسين فهم القراءة من خلال السماح للمستخدمين بالاستماع إلى النص أثناء متابعة الكلمة المكتوبة، مما يجعل فهم المعلومات المعقدة أسهل.
يمكن لتقنية تحويل النص إلى كلام أن تقلل من إجهاد العين والتعب من خلال توفير بديل للقراءة والكتابة، مما يجعلها أداة قيمة للأفراد الذين يقضون ساعات طويلة أمام الشاشات.
يمكن لتقنية تحويل النص إلى كلام أن تزيد من المشاركة من خلال توفير تجربة أكثر تفاعلية وغامرة، مما يجعلها أداة قيمة للتطبيقات التعليمية والترفيهية.
يمكن أن توفر تقنية TTS ميزة تنافسية من خلال تقديم طريقة فريدة ومبتكرة للتفاعل مع الأجهزة، مما يميز منتجك أو خدمتك عن المنافسة.
وقد أدى هذا إلى طلب كبير على TTS البارامترية، حيث يتم تخزين جميع المعلومات المطلوبة لتوليد البيانات في معلمات النموذج ، ويمكن التحكم في محتويات وخصائص الكلام عبر مدخلات النموذج. ومع ذلك ، تميل تحويل النص إلى كلام البارامترية حتى الآن إلى أن تبدو أقل طبيعية من التسلسلية. عادةً ما تولد النماذج البارامترية الحالية إشارات صوتية عن طريق تمرير مخرجاتها من خلال خوارزميات معالجة الإشارة المعروفة باسم مشغلات صوتية.
يغير WaveNet هذا النموذج من خلال النمذجة المباشرة لشكل الموجة الخام للإشارة الصوتية ، عينة واحدة في كل مرة. بالإضافة إلى تقديم المزيد من الكلام الطبيعي ، فإن استخدام أشكال الموجة الخام يعني أن WaveNet يمكنها تصميم أي نوع من أنواع الصوت ، بما في ذلك الموسيقى.
إن الباحثين عادة ما يتجنبون نمذجة الصوت الخام لأنه يعمل بسرعة كبيرة: عادة ما يتم تسجيل 16,000 ألف عينة في الثانية أو أكثر، مع بنية مهمة في العديد من المقاييس الزمنية. إن بناء نموذج انحداري ذاتي بالكامل، حيث تتأثر التنبؤات لكل عينة من تلك العينات بكل العينات السابقة (في لغة الإحصاء، كل توزيع تنبؤي مشروط بكل الملاحظات السابقة)، هو بوضوح مهمة صعبة.
ومع ذلك، بكسلرن و بيكسل سي إن إن أظهرت النماذج المنشورة سابقًا أنه من الممكن إنشاء صور طبيعية معقدة ليس فقط بكسل واحد في كل مرة، بل قناة لون واحدة في كل مرة، الأمر الذي يتطلب آلاف التوقعات لكل صورة. وقد ألهمنا هذا لتكييف شبكات PixelNets ثنائية الأبعاد الخاصة بنا مع WaveNet أحادية البعد.
يوضح الرسم المتحرك أعلاه كيفية بناء WaveNet. إنها شبكة عصبية ملتوية بالكامل، حيث تحتوي الطبقات الملتوية على عوامل تمدد مختلفة تسمح لحقلها الاستقبالي بالنمو بشكل كبير مع العمق وتغطية آلاف الخطوات الزمنية.
في وقت التدريب، تكون تسلسلات الإدخال عبارة عن أشكال موجية حقيقية مسجلة من متحدثين بشريين. بعد التدريب، يمكننا أخذ عينات من الشبكة لتوليد عبارات مصطنعة. في كل خطوة أثناء أخذ العينات، يتم استخلاص قيمة من توزيع الاحتمالات الذي تحسبه الشبكة. ثم يتم إرجاع هذه القيمة إلى الإدخال ويتم إجراء تنبؤ جديد للخطوة التالية. إن بناء العينات خطوة بخطوة مثل هذا أمر مكلف من الناحية الحسابية، لكننا وجدنا أنه ضروري لتوليد صوت معقد وواقعي.
لقد تدربنا WaveNet باستخدام بعض مجموعات بيانات TTS من Google حتى نتمكن من تقييم أدائها. يوضح الشكل التالي جودة WaveNets على مقياس من 1 إلى 5، مقارنةً بأفضل أنظمة TTS الحالية من Google (حدودي و متسلسل)، ومع استخدام الكلام البشري متوسط درجات الرأي (MOS). تُعد MOS مقياسًا قياسيًا لاختبارات جودة الصوت الذاتية، وقد تم الحصول عليها في اختبارات عمياء مع أشخاص بشريين (من أكثر من 500 تقييم على 100 جملة اختبار). وكما نرى، تعمل WaveNets على تقليص الفجوة بين أحدث التقنيات والأداء على مستوى الإنسان بنسبة تزيد عن 50% لكل من اللغة الإنجليزية الأمريكية واللغة الصينية الماندرينية.
بالنسبة للغتين الصينية والإنجليزية، تعتبر أنظمة تحويل النص إلى كلام الحالية من Google من بين الأفضل على مستوى العالم، لذا فإن تحسين كليهما باستخدام نموذج واحد يعد إنجازًا كبيرًا.
تتمتع شركة GSpeech بخوارزمية لتركيب الصوت بالذكاء الاصطناعي، وهي من أكثر الخوارزميات تقدمًا وواقعية في هذا المجال. تستخدم معظم أجهزة تركيب الصوت (بما في ذلك Siri من Apple) ما يسمى بالتركيب المتسلسل، حيث يخزن البرنامج مقاطع فردية - أصوات مثل "ba" و"sht" و"oo" - ويجمعها معًا على الفور لتكوين كلمات وجمل. أصبحت هذه الطريقة جيدة جدًا على مر السنين، لكنها لا تزال تبدو متكلفة.
وعلى النقيض من ذلك، تستخدم WaveNet التعلم الآلي لتوليد الصوت من الصفر. فهي في الواقع تحلل أشكال الموجات من قاعدة بيانات ضخمة من الكلام البشري وتعيد إنشائها بمعدل 24,000 عينة في الثانية. وتتضمن النتيجة النهائية أصواتًا ذات تفاصيل دقيقة مثل حركات الشفاه واللهجات. عندما كشفت جوجل لأول مرة عن WaveNet في عام 2016، كانت مكثفة للغاية من الناحية الحسابية للعمل خارج بيئات البحث، ولكن منذ ذلك الحين تم تقليصها بشكل كبير، مما يظهر خط أنابيب واضحًا من البحث إلى المنتج.