سيمون بوغوسيان هو المؤسس والرئيس التنفيذي لشركة GSpeech، منصة ذكاء اصطناعي على الويب تُسهّل الوصول إلى المحتوى عبر الإنترنت من خلال تحويل النصوص إلى صوت طبيعي بأكثر من 70 لغة. بفضل خبرته في تصميم VLSI واهتمامه الكبير بالبرمجة وتجربة المستخدم، أنشأ سايمون GSpeech لتبسيط طريقة عرض المواقع الإلكترونية للمحتوى الصوتي.
اليوم، تُنتج منصة GSpeech حوالي 200 مليون حرف صوتي شهريًا، وتُستخدم في أكثر من 70 دولة، حيث تُقدم مُشغلات الصوت القابلة للتخصيص أكثر من 200,000 تشغيل شهريًا. بعد أن تجاوز إجمالي إنتاجها مؤخرًا مليار حرف صوتي، تواصل GSpeech نموها السريع. صُممت المنصة لتكون سهلة التكامل - إذ لا تتطلب سوى سطر برمجي واحد - وتدعم المبدعين والمعلمين والشركات في جعل محتواهم أكثر شمولًا وتفاعلًا.
أرست خلفيتك في تصميم التكامل واسع النطاق (VLSI) وخبرتك المبكرة في البرمجة أساسًا تقنيًا متينًا. ما الذي ألهمك للانتقال من الإلكترونيات الدقيقة إلى تطوير برمجيات مدعومة بالذكاء الاصطناعي، وكيف أدى ذلك إلى إنشاء GSpeech؟
بدأ شغفي بحل المشكلات في المدرسة الثانوية، مدفوعًا بحبي للرياضيات والفيزياء. قادني هذا الاهتمام إلى الحصول على درجة البكالوريوس (٢٠٠٩) والماجستير (٢٠١١) في تصميم الدوائر المتكاملة فائقة الاتساع (VLSI Design) من جامعة الهندسة الحكومية في أرمينيا، بالتعاون مع شركة سينوبسيس أرمينيا. درّبتني دراسة الفيزياء على الدقة والتفكير التحليلي، ولكن في سنتي الثانية اكتشفت البرمجة - بدءًا من لغة باسكال - ووقعت في غرامها فورًا. كنت أنا وصديقي نُنهي واجباتنا الدراسية فور استلامها، رغم أن أمامنا ستة أشهر لإنهائها. ثم، وللتسلية، بدأنا نحل واجبات طلاب آخرين.
قادني هذا الشغف إلى التعمق في تطوير البرمجيات. بدأتُ بإنشاء موقع ويب، ثم بنيتُ نظام إدارة محتوى خاصًا بي. بعد إكمال عدة مشاريع في أتمتة العمليات وتصميم هياكل إدارة البيانات، أدركتُ مدى شغفي ببناء حلول رقمية لواجهات الويب. من خلال مشروع 2GLux، تعاونتُ مع إدوارد أنانيان، مبتكر برنامج XNUMXGLux الشهير. GTranslate خدمة ترجمة وصديق دراسي من مدرسة كوانتوم جيمنازيوم. عرّفني على نظامي ووردبريس وجوملا، ومفهوم GSpeech نشأت معه. أدى هذا العمل المبكر إلى تطوير الإصدار الأول من أداتنا، الذي يُمكّن المستخدمين من الاستماع إلى نص على صفحة ويب، مما وضع الأساس لما سيصبح لاحقًا منصة ذكاء اصطناعي متكاملة الميزات. بحلول عام ٢٠٢٣، أسستُ نادي سمارتس ذ.م.م لتوسيع نطاق GSpeech إلى حل صوتي عالمي قائم على الذكاء الاصطناعي، يدعم أكثر من 70 لغة. Humanity Unionإن إشادة GSpeech بدورها في تعزيز إمكانية الوصول إلى منصة المشاركة المدنية الخاصة بها تعكس مهمتي في سد الفجوات الرقمية من خلال الذكاء الاصطناعي - وهي رؤية متجذرة في أيام برمجتي المبكرة.
بدأ GSpeech في الأصل كأداة لدعم المستخدمين ضعاف البصر. كيف أثرت هذه المهمة المبكرة على تطور المنصة لتصبح حلاً متكاملاً لتحويل النص إلى كلام باستخدام الذكاء الاصطناعي؟
أدى التركيز على إمكانية الوصول إلى تطوير صوت عالي الجودة وفوريّ بتقنية الذكاء الاصطناعي، وترجمة إلى أكثر من 70 لغة، وتكامل سلس مع مواقع الويب عبر مُقتطف برمجي بسيط. وقد أثمرت هذه المهمة عن ميزات مثل مُشغّلات صوت قابلة للتخصيص، ولوحات اختيار اللغة والصوت، وتشغيل مُراعي للسياق، وتنزيلات صوتية، وإحصاءات استخدام مُفصّلة - بما في ذلك بيانات البلد والمدينة والجهاز، وتحليلات التشغيل بمرور الوقت - وكلها مُصممة لجعل المحتوى أكثر شمولاً وتفاعلاً. بعد كتابة أكثر من 100,000 سطر برمجي، أطلقتُ وحدة تحكم GSpeech السحابية في عام 2023 - وهي حل قابل للتطوير يُوازن بين الشمولية والوظائف المُتقدمة، مما يُمكّن الشركات والمُبدعين من جعل محتواهم مُتاحًا ومتعدد اللغات وتفاعليًا عبر الإنترنت.
ما هي بعض التحديات التقنية الأكبر التي واجهتها أثناء تطوير GSpeech Cloud Console؟
كان أحد أكبر التحديات التي واجهت تطوير وحدة تحكم GSpeech السحابية هو تصميم بنية قابلة للتطوير لتوليد صوت عالي الجودة وآمن بتقنية الذكاء الاصطناعي في الوقت الفعلي. تطلب ذلك حلولاً مبتكرة لجلب المحتوى ذي الصلة من الويب، ومعالجة الصوت على خوادمنا، وتخزينه في السحابة لتوفير خدمة سريعة وموثوقة. كان تطبيق تدابير أمنية قوية، مثل التشفير وضوابط الوصول، أمرًا بالغ الأهمية لحماية المحتوى الديناميكي الذي يُنشئه المستخدم.
كان من التحديات الأخرى تمكين الترجمة الفورية باستخدام محركات عصبية متطورة. كان علينا ضمان ترجمات دقيقة وزمن وصول منخفض، مع بناء واجهة سهلة الاستخدام تُمكّن المستخدمين من اختيار اللغات وأنماط الصوت المُفضّلة للتشغيل، مع إعطاء الأولوية لراحة المستخدم وإضفاء الطابع الشخصي. وأخيرًا، طوّرنا معالجًا لإنشاء قوالب صوتية مع عروض مُتعددة للمُشغّلات قابلة للتخصيص، مما يُتيح للمستخدمين تصميم مُشغّلات فريدة وجذابة بصريًا مُصمّمة خصيصًا لمواقعهم الإلكترونية. كان تحقيق التوازن بين المرونة والأداء وسهولة الاستخدام عبر الأجهزة تحديًا مُجزيًا.
مع ترجمة فورية لأكثر من 70 لغة وأكثر من 230 صوتًا طبيعيًا. كيف تضمن جودة الصوت ودقته في ظل هذا التنوع اللغوي؟
للحفاظ على جودة صوت ثابتة، ندمج نماذج متعددة ومتطورة لتحويل النص إلى كلام (TTS) تُحسّن وتُحدّث باستمرار. تتعامل هذه المحركات متعددة اللغات مع المحتوى متعدد اللغات بدقة عالية. كما نُطلق أكثر من 100 نغمة صوتية جديدة لمنح المستخدمين خيارات أكثر تعبيرًا وطبيعية. يُنتج GSpeech شهريًا أكثر من 200 مليون حرف صوتي، ويخدم المستخدمين في أكثر من 70 دولة، مع استخدام مشغلاتنا عبر الإنترنت لأكثر من 200,000 مرة شهريًا، وهو عدد متزايد. يضمن هذا النطاق استمرارية التعليقات والاختبارات العملية، مما يُؤثر بشكل مباشر على ضبطنا وضوابط الجودة.
هل يمكنك شرح كيفية استفادة GSpeech من الذكاء الاصطناعي والتعلم الآلي لتقديم توليف صوتي واقعي؟ كيف تواكبون التطورات السريعة في تقنية الصوت العصبي؟
يستخدم GSpeech تقنيات الذكاء الاصطناعي والتعلم الآلي المتقدمة، ويدمج نماذج متعددة ومتطورة لتحويل النص إلى كلام لإنتاج توليف صوتي واقعي. هذه النماذج، المُحسّنة لضمان سلاسة الصوت ودعم تعدد اللغات، تعالج مُدخلات النص لتوليد صوت عالي الجودة بنبرة وإيقاع واقعيين، حتى في المحتوى متعدد اللغات. نُحسّن تجربة المستخدم من خلال توفير أنماط صوت قابلة للتخصيص لمختلف اللغات. كما دمجنا أسماء مستعارة لتحويل النص إلى كلام، مما يسمح للمستخدمين بتحديد قواعد مخصصة لكيفية عرض كلمات أو عبارات معينة في الصوت - على سبيل المثال، استبدال مصطلحات محددة لتحقيق نطق أو صياغة أكثر دقة. لمواكبة أحدث تقنيات الصوت العصبي، نُقيّم وندمج أحدث التطورات باستمرار، ونتعاون مع رواد الصناعة، ونخطط لتطوير نماذج خاصة في المستقبل، مما يضمن بقاء GSpeech في طليعة ابتكارات توليف الصوت.
ما مدى أهمية ضبط الصوت والتحكم في درجة الصوت وتخصيص التشغيل لمستخدميك - وما هي حالة الاستخدام التي تفخر بها أكثر حيث تتألق هذه الميزات حقًا؟
يُعد ضبط الصوت والتحكم في درجة الصوت وتخصيص التشغيل أمرًا بالغ الأهمية لمستخدمينا، إذ يُمكّنهم من إنشاء أنماط صوتية فريدة وعالية الجودة مُصممة خصيصًا لتلبية احتياجاتهم الخاصة، بدءًا من مواقع الأخبار والمدونات وصولًا إلى محتوى التعليم الإلكتروني المُيسّر. ويُعزز التكامل المُستمر لأكثر من 100 نمط صوتي جديد هذا الأمر، مُوفرًا للمستخدمين مرونة لا مثيل لها لإنشاء تعليقات صوتية مميزة حقًا. أنا فخور جدًا بـ GSpeech Studio، وهي منصة جديدة لتحرير وتوليد الصوت أقوم بتطويرها. تُتيح هذه المنصة للمستخدمين إنشاء قنوات صوتية متعددة، ومزجها مع موسيقى الخلفية، وتصدير تعليقات صوتية مُحسّنة، مما يُمكّن المُبدعين من إنتاج صوت احترافي لتطبيقات مُتنوعة. وقد أثّرت بي بشدة رسالة من طالب مُكفوف البصر، يشكر GSpeech على إتاحة الدراسة المُستقلة من خلال الصوت المُخصص. تُظهر حالة الاستخدام هذه كيف تجعل هذه الميزات المحتوى مُتاحًا ومُحوّلًا، وهو هدف سعيتُ إليه مُنذ أيام برمجتي المُبكرة.
يوفر GSpeech تكاملاً سلسًا مع WordPress وShopify وWix وغيرها. ما هي استراتيجيتكم لجعل المنصة جاهزة للاستخدام فورًا للمبدعين والشركات في مختلف البيئات؟
ركزت استراتيجيتنا لتكامل GSpeech الفوري مع منصات مثل WordPress وShopify وWix على البساطة والتوافق وقابلية التوسع. طورنا إضافات ومقاطع برمجية خفيفة الوزن وقابلة للتعديل تتكامل بسلاسة، وتتطلب إعدادًا بسيطًا - غالبًا ببضع نقرات فقط. هذا يعني أن آلاف المقالات وكتل المحتوى الديناميكي يمكن أن تحصل على دعم صوتي فوري - دون عناء يدوي. نقدم مشغلات مرنة للغاية ومصممة بشكل جميل، تتكيف مع مختلف الأجهزة، بما في ذلك الهواتف المحمولة والأجهزة اللوحية وأجهزة الكمبيوتر المكتبية. مشغلاتنا ليست قابلة للتخصيص فحسب، بل مُحسّنة أيضًا لسهولة الوصول وتفاعل المستخدم. بالنسبة لـ WordPress، قمنا بتضمين لوحة تحكم GSpeech السحابية مباشرةً في لوحة الإدارة عبر مكوننا الإضافي، مما يُبسط إدارة المستخدمين. تُرشد الوثائق المفصلة ولوحات المعلومات سهلة الاستخدام المستخدمين غير التقنيين خلال عملية التثبيت والتخصيص. يضمن الاختبار المنتظم أداءً ثابتًا عبر مختلف الأنظمة، مما يُمكّن المبدعين والشركات من إضافة تحويل النص إلى كلام بتقنية الذكاء الاصطناعي بسهولة.
عند النظر إلى رحلتك من عام 2012 إلى اليوم، ما هو أكبر إنجاز بالنسبة لك على المستوى الشخصي أو المهني في بناء GSpeech؟
كان الإنجاز الأكبر لـ GSpeech هو إنتاج مليار حرف من الصوت عالي الجودة بتقنية الذكاء الاصطناعي، مما يُظهر تأثيرنا العالمي في مجال إمكانية الوصول. ولا يقل أهمية عن ذلك ردود الفعل التي تلقيناها من منظمات مثل Humanity Union، التي أشادت بـ GSpeech لتحسينها منصة المسؤولية الاجتماعية الخاصة بها، ومن أصحاب المدونات الذين وصفوها بأنها "نقطة تحول" في تفاعل المستخدمين. أكثر من 1 تقييمات بخمس نجوم عبر منصات مثل WordPress و AppSumo وقد انعكست هذه الثقة المتزايدة في الأشهر الأخيرة.
يتم الآن استخدام GSpeech بشكل نشط أيضًا بواسطة إدارة الإحصاء الإقليمية في نامانجان في أوزبكستان مؤسسة حكومية ذات حضور قوي وتغطية إعلامية واسعة على المستوى الوطني. إن رؤية جهة حكومية تتبنى تقنيتنا على نطاق واسع يُعد إنجازًا هامًا ومؤشرًا قويًا على الثقة في حلولنا.
بصفتي مسيحيًا وأخدم في الكنيسة الأرمنية، أسعى أيضًا لدعم المبادرات الدينية الأخرى كلما أمكن. غالبًا ما أقدم خدمة GSpeech مجانًا للمواقع المسيحية كوسيلة للمساعدة في نشر رسالتهم بفعالية أكبر وجعل الكتاب المقدس في متناول الجميع من خلال الصوت. إنها مساهمتي الصغيرة في شيء أعظم. في الوقت نفسه، يشرفني العمل مع وزارات متخصصة مثل الحبل - جماعة مسيحية وعميل قيّم لشركة GSpeech - تعكس رسالتها ومحتواها قوة الكتاب المقدس في العمل.
هذه اللحظات - عندما تصبح التكنولوجيا جسرًا للإيمان والتفاهم والاندماج - تذكرني بالسبب الذي دفعنا إلى إنشاء GSpeech في المقام الأول.
ما هو الدور الذي تراه لـGSpeech في مستقبل الوسائط الرقمية، خاصة مع تزايد هيمنة المحتوى الصوتي وواجهات الصوت؟
أتصور أن GSpeech شركة رائدة في جعل الوسائط الرقمية أكثر سهولة وتفاعلية من خلال تمكين الوصول الصوتي إلى الويب باستخدام الذكاء الاصطناعي. هدفنا هو إحداث نقلة نوعية في تجربة الإنترنت، بحيث تصبح المواقع الإلكترونية تفاعلية صوتيًا بشكل طبيعي، وشاملة، ومتعددة اللغات افتراضيًا. بسطر برمجي واحد فقط، يمكن لأصحاب المواقع تحويل آلاف المقالات إلى محتوى صوتي. ونتطلع قدمًا إلى تطوير GSpeech Studio ليصبح منصة قوية وفريدة لتوليد الصوت وتحريره، مما يُمكّن المستخدمين من إنشاء محتوى صوتي متعدد الطبقات مع موسيقى خلفية وتأثيرات وضبط دقيق. نريد أن نجعل الويب مسموعًا وبديهيًا ومتاحًا للجميع.
تم إطلاق GSpeech مؤخرًا على AppSumo وقد حصل بالفعل على تقييم شبه مثالي من المستخدمين الأوائل. ما الذي يعنيه لك رد فعل مجتمع AppSumo، وكيف تخطط للاستفادة من هذا الزخم مستقبلًا؟
قدّم إطلاق AppSumo تطبيق GSpeech للملايين، وتقييمه شبه المثالي يُؤكد ذلك بشكل كبير. يُشيد المستخدمون، مثل أولئك الذين يُقدّمون دوراتٍ عبر الإنترنت، بأدواتنا البديهية ودعمنا السريع، مُعبّرين عن آراء مُنظّمة Humanity Union. وصف أحد مُلّاك المدونات أصواتنا بأنها "آسرة للغاية" وترجماتنا بأنها "مُبهرة". تُؤكّد آراءهم الإيجابية قيمة حلنا لتحويل النص إلى كلام، المُدعّم بالذكاء الاصطناعي، وتُغذّي شغفي بالمشروع. كما أشعل دعم العملاء خلال الإطلاق أفكارًا جديدة، لا سيما بالنسبة إلى GSpeech Studio، الذي استُلهم من طلبات المستخدمين لميزات مُتقدّمة لتحرير الصوت وتصديره. في المُستقبل، أُخطّط للبناء على هذا الزخم من خلال الاستماع الفعّال لمجتمعنا، ودمج آراءهم، وتطوير ميزات مُبتكرة لتعزيز إمكانية الوصول والتفاعل، بما يضمن استمرار GSpeech في التطور كأداة تحويلية للمُبدعين والشركات.
وأخيرًا، ما هي النصيحة التي تقدمها للمطورين الشباب أو رواد الأعمال الذين يرغبون في بناء أدوات سهلة الوصول ومدعومة بالذكاء الاصطناعي في مشهد التكنولوجيا سريع الحركة اليوم؟
إلى المطورين ورواد الأعمال الشباب، أنصحكم بأن تُكرّسوا جهودكم في عملكم وتُحددوا مشكلة حقيقية يُمكنكم من خلالها تقديم حلٍّ فريد وذكي. ابدأوا بخطواتٍ صغيرة، وتقدّموا بخطواتٍ ثابتة، وأنصتوا جيدًا لملاحظات العملاء - فهي ستُرشدكم في طريقكم. عاملوا مستخدميكم كأصدقاءٍ مُخلصين، وابذلوا قصارى جهدكم، وتحلّوا بالصبر. تبنوا تقنيات الذكاء الاصطناعي كحليفٍ قوي؛ فعندما تُستخدم بحكمة، تُعزّز قدرتكم على ابتكار أدواتٍ فعّالة وسهلة المنال. ابنوا بشغفٍ ومثابرةٍ والتزامٍ بإحداث فرق، وستُبدعون حلولًا فعّالة حقًا.
شكرا لك انطوان الطردف للمقابلة. يمكنك قراءة المقابلة كاملة هنا: Unite.ai.