ข่าว
100 year

รู้จัก แม่ทัพ วาจาเวอร์ชั่น6 "ดร.ชัย วุฒิวิวัฒน์ชัย" จากเนคเทค

ไทยรัฐออนไลน์2 พ.ค. 2554 21:00 น.
SHARE

รู้จักระบบสังเคราะห์เสียงพูดภาษาไทย (วาจาเวอร์ชั่น 6 ) ผลงานร่วมทีมนักวิจัย ดร.ชัย วุฒิวิวัฒน์ชัย หัวหน้าห้องปฏิบัติการวิจัยวิทยาการมนุษยภาษา เนคเทค ระบุ เป็นเรื่องยากที่จะทำเซิร์ฟเวอร์ขนาดใหญ่รองรับใช้งาน พร้อมตั้งเป้า 5 ปี พัฒนาต่อการอ่านแบบใส่อารมณ์...

 

หลังจากเปิดตัวอย่างเป็นทางการไปเมื่อเร็วๆ นี้ วาจาเวอร์ชั่น 6 ระบบสังเคราะห์เสียงพูดภาษาไทย คุณภาพสูง ในรูปแบบเว็บบริการ และซอฟต์แวร์สำเร็วรูป ก็กลายเป็นที่รู้จักมากขึ้น เพราะการใช้งานที่สะดวกขึ้นจากเวอร์ชั่น 5 โดยเฉพาะในช่วงเทศกาลสงกรานต์ที่ผ่านมา

 


ก่อนหน้าเมื่อปี 2553 ศูนย์เทคโนโลยีอิเล็ทรอนิกส์และคอมพิวเตอร์แห่งชาติ หรือ เนคเทค เคยเปิดตัวเวอร์ชั่น 5 ที่เปลี่ยนข้อความเป็นเสียง หรือ ระบบสังเคราะห์เสียงพูด จากนั้นก็มีคนสนใจเข้ามาติดต่อ เพื่อนำไปใช้งาน จนกระทั่งพบปัญหาว่า เนคเทคไม่ได้พร้อมให้บริการในเชิงพาณิชย์ เพราะเป็นเรื่องยากที่จะทำเซิร์ฟเวอร์ฟาร์มขนาดใหญ่ อย่างกรณีที่ใช้งานเป็นเว็บเซอร์วิส ซึ่งปัจจุบันการใช้งานเป็นในแนวทางนั้น  ซึ่งยังขาดโครงสร้างพื้นฐาน จนกระทั่งได้ความร่วมมือกับบริษัท บริษัท อินเทอร์เน็ตประเทศไทย จำกัด (มหาชน) หรือ ไอเน็ต เป็นผู้ดำเนินการระบบเซอร์วิสของวาจา เป็นเซอร์วิสบริการขนาดใหญ่ได้ แต่การใช้งานของระบบดังกล่าวจะเป็นอย่างไร ลองมาฟังรายละเอียดจาก ดร.ชัย วุฒิวิวัฒน์ชัย หัวหน้าห้องปฏิบัติการวิจัยวิทยาการมนุษยภาษา เนคเทค ได้ ณ บัดนี้...

It Digest : เส้นทางการวิจัยพัฒนาวาจา เวอร์ชั่น 6 สู่การบริการ
ชัย : เนคเทค ปรับปรุงวาจามาอย่างต่อเนื่องตั้งแต่ปี 2543 จนล่าสุดปี 2553 ประสบความสำเร็จในการพัฒนาวาจา เวอร์ชั่น 6.0 โดยใช้เทคโนโลยีใหม่ที่บีบอัดฐานข้อมูลเสียงขนาดใหญ่ เป็นแบบจำลองทางสถิติในการสังเคราะห์เสียง แบบจำลองนี้สามารถผลิตเสียงได้ราบเรียบ ไม่เกิดการสะดุด เหมือนเวอร์ชั่นก่อนๆ  อีกทั้งสามารถปรับค่าต่างๆ ในเนื้อเสียง เช่น เสียงสูงต่ำ เสียงสั้นยาว ได้สะดวกขึ้นมาก นอกจากนี้ เนคเทคยังมีความพร้อมในส่วนของระบบโครงสร้างพื้นฐานแล้ว และทีมนักวิจัยของเนคเทค ก็พร้อมจะถ่ายทอดสู่ภาคธุรกิจ

It Digest : ความสามารถในการรองรับผู้ใช้งาน หากนำเข้ามาในระบบอินเทอร์เน็ตแล้ว 
ชัย : ตัวคุณภาพของเสียงอยู่ในระดับที่สูง และนำไปใช้งานได้จริงๆ เวลาที่พูดถึงคุณภาพไม่เต็ม 100% โดยเสียงวาจาอยู่ที่ ระดับ 3.7 ขณะที่ เสียงคนพูดปกติ อยู่ที่ ระดับ 4.8  ใกล้เคียงกับระบบที่ต่างประเทศทำได้ หรือเป็นเสียงคนปกติ

 

 


It Digest : เวอร์ชั่น 6 ปรับอะไรเพิ่มจากเวอร์ชั่น 5 
ชัย : เวอร์ชั่น 5 เป็นฐานข้อมูลเสียง เวลาที่อยากได้เสียงอะไรก็จะเอามาตัดต่อกันตรงๆ หรือการนำเอาเสียงมาต่อกัน โดยสร้างออกมาเป็นเสียงอะไรก็ได้

It Digest : คำยากสุดคืออะไร 
ชัย : คำที่ไม่ปรากฏในพจนานุกรมภาษาอังกฤษ และคำที่ไม่ได้ใช้ทั่วไปในภาษาไทย เช่น ชื่อเฉพาะ ศัพท์วิชาการ คำที่เกิดขึ้นใหม่ เช่น อินทนินท์ เป็นต้น ส่วนความยากง่ายของการเลือกคำคือ ระบบสังเคราะห์เสียงพูด หรือยูนิตซีเลคชั่น ที่เป็นตัวเลือกยูนิตตัดต่อ เพราะฉะนั้นเวอร์ชั่น 5 เสียงจะสะดุดไปบ้าง 

It Digest : ช่วง 1 ปี ก่อนเปิดตัว เจอคำถามหลักๆ อะไรบ้าง
ชัย : อ่านภาษาอังกฤษให้ได้ เพราะบางครั้งคนไทยอ่านภาษาอังกฤษปนกันมาก เพราะฉะนั้นหลักการคือ ต้องใส่พจนานุกรมภาษาอังกฤษเข้าไป ขณะที่ ตอนนี้ใส่ไปแล้ว 1 หมื่นคำ โดยคัดเลือกจากคำที่มีการใช้มากที่สุด ถ้าเกิดมีคำที่ไม่รู้จัก สามารถเติมเข้าไปได้ในฐานข้อมูล ทั้งนี้ ไม่มีผลต่อพื้นที่ของฐานข้อมูล

It Digest : มีผลกับการการพัฒนาอย่างไร
ชัย : มีผลมาก อย่างเช่นบางบริษัท ต้องการรันบนลีนุกซ์ แอนดรอยด์ จนเหนื่อยมาก จึงคิดว่าทำแบบเว็บเซอร์วิส คุณมีโปรโตคอลเดียวในการลิงค์
เนคเทคพัฒนาไม่ทัน กับแพลตฟอร์มที่เกิด และถ้าไปวิ่งไล่แอนดรอยด์ตอนนี้ ส่วนตัวไม่แน่ใจว่า จะพัฒนาสู้ไอโฟนได้ดีกว่าหรือไม่ เพราะฉะนั้น เชื่อว่า หาก 3จี มาเว็บเซอร์วิสต้องมา รวมทีมนักวิจัย และนักภาษาศาสตร์ทั้งสิ้น 12 คน นอกจากไอเน็ตแล้ว มองว่าในอนาคตจะขยายอีก อย่างไรก็ตาม ไม่ปิดกั้นหากใครต้องการจะมาทำ 

It Digest : งบประมาณการพัฒนาจากเวอร์ชั่น 5 เป็นเวอร์ชั่น 6
ชัย : งบทั้งหมดเป็นงบต่อเนื่องจากงานวิจัย และเป็นงบโครงการ ขณะที่ระยะเวลาพัฒนาจากเวอร์ชั่น 5 เป็นเวอร์ชั่น 6 ใช้เวลากว่า 3 ปี อีกทั้ง ได้พัฒนา เตรียมออกเวอร์ชั่น 6 อย่างต่อเนื่อง   

It Digest : มุมมองในการพัฒนาเวอร์ชั่นให้สูงขึ้นอย่างไร
ชัย : โดยหลักนักวิจัยจะมองจากกระบวนการผลิตว่าเปลี่ยนไปซึ่งต่างจากเอกชน

 

 


It Digest : กระแสไอทีที่เปลี่ยนแปลง มีผลต่อการพัฒนาเวอร์ชั่นสูงขึ้นอย่างไรบ้าง
ชัย : ยอมรับว่า ก่อนหน้านี้ ไม่ได้ดูมากนัก แต่ช่วง 2-3 ปี ที่ผ่านมา ถูกเคี่ยวเข็นให้ดูเยอะมาก โดยเฉพาะหลังจาก ดร. ทวีศักดิ์ กออนันตกูล ผู้อำนวยการ สวทช. เข้ามารับ ต้องตำแหน่ง โดยเน้นย้ำเรื่องผลกระทบต่อสังคม ดังนั้นจึงต้องทำงานหนักขึ้น ทั้งนี้ สังเกตเห็นว่า ทีมนักวิจัยต้องทำแอพลิเคชั่น เว็บเซอร์วิสออกมา  เพื่อให้เห็นว่าใช้งานอะไรได้บ้าง นอกจากนี้ ยังมีการโพสต์วอยซ์ที่ป็นบริการในอนาคต อีกทั้ง ยังมีเทคโนโลยีที่พัฒนาผ่านโซเชียลเน็ตเวิร์ค อย่างเฟซบุ๊ค และทวิตเตอร์ด้วย

It Digest : การใช้งานผ่านโซเชียลเน็ตเวิร์ก
ชัย : สำหรับผู้ใช้ในกลุ่มโซเชียลเน็ตเวิร์ก ประเภทเฟซบุ๊ค และทวิตเตอร์ การรับฟังข้อความที่เข้ามาแทนการอ่านข้อความ จะเป็นประโยชน์ในการติดตามข้อมูลในบางสถานการณ์อ่านได้ไม่สะดวกนัก นอกจากนี้ ในการโพสต์ข้อความด้วยการพิมพ์ในหลายสถานการณ์ก็ทำได้ยาก เช่น ในระหว่างขับรถ ระบบประยุกต์ใหม่ล่าสุดที่เนคเทคได้ทดสอบพัฒนาขึ้นชื่อว่าโพสต์วอยซ์เป็นบริการโพสต์เสียงพูดบนเฟซบุ๊ก หรือทวิตเตอร์ ของผู้ใช้โดยวิธีการโพสต์ เสียงทำได้ 2 แบบ คือ
ก. พิมพ์ข้อความบนเว็บไซต์ของโพสต์วอยซ์ และระบบจะแปลงข้อความเป็นเสียงพูดด้วยวาจา เวอร์ชั่น 6.0 นำลิงค์ของไฟล์เสียงที่ได้ไปโพสต์ บนเฟซบุ๊ก หรือทวิตเตอร์อัตโนมัติ
ข. โทรเข้ามาที่หมายเลข 02-5249222 และพูดข้อความที่ต้องการโพสต์ ระบบจะนำไฟล์เสียงที่บันทึกได้ไป โพสต์บนเฟซบุ๊กหรือทวิตเตอร์ของผู้ใช้โดยอัตโนมัติ การโพสต์ข้อความเสียงผ่านไอวีอาร์ (IVR) ในรูปแบบที่สองนี้ สามารถประยุกต์ใช้ในสถานการณ์ฉุกเฉินที่ผู้ใช้อาจไม่สามารถเชื่อมต่ออินเทอร์เน็ต แต่ยังสามารถใช้เครือข่ายโทรศัพท์ได้ระบบโพสต์วอยซ์

It Digest : แนวโน้มการใช้แอพลิเคชั่นวาจา กับการใช้งานโซเชียลเน็ตเวิร์ก
ชัย : ส่วนตัวคิดว่าโวเชียลเน็ตเวิร์กใช้งานบนโมบายด์แอพฯ อย่างจริงจังแล้วในต่างประเทศ ส่วนในประเทศไทยก็ใช้อยู่แล้ว และเชื่อว่าบนโมบายด์ก้มีมากขึ้นเรื่อยๆ อย่างไรก็ตาม จากสถานการณ์ภัยพิบัติที่เกิดขึ้น ทำให้รับรู้ว่า โวเชียลเน็ตเวิร์กมีบทบาทต่อการใช้งานในคนไทยมาก เนคเทคเป็นตัวกลางในข้อมูลเสียง และฐานข้อมูล

It Digest : การเตรียมรับมือ หากมีผู้ใจใช้บริการมาก
ชัย : ยอมรับว่า ขณะนี้ ยังไม่มีทำขึ้นมาเป็นตัวอย่างให้นำไปผลิตผลิตภัณฑ์ได้ และให้พันธมิตรทางธุรกิจดำเนินการต่อ ขณะเดียว ถ้าสิ่งที่ออกมา สนใจที่จะเอามาผลิตสิ่งใหม่ๆ

It Digest : ปัญหาที่พบด้านเทคโนโลยี และการใช้งาน
ชัย : การใช้งานอินเทอร์เน็ตในประเทศไทยสะท้อนปัญหาที่เจอได้มาก เวลาเจอ เวลาใช้งานจริงมากกว่า ปกติ 1 ประโยคสั้น ใช้เวลา 1 วินาที ในการประมวลผล แต่เวลาใช้จริงๆ มากกว่านี้  นอกจากการแก้ไขด้านซอฟต์แวร์แล้ว ต้องเพิ่มเซิร์ฟเวอร์เข้าไป

It Digest : เนคเทค ได้อะไรบ้าง
ชัย : เป้าหมายหลัก คือ การสนับสนุนให้เกิดเอสเอ็มอีที่ใช้ไอซีที เป็นฐาน ละต้องการสนับสนุนให้สร้างธุรกิจใหม่ๆ จากไอซีที ไม่ได้วางบทบาทที่จะขายเอง สิ่งที่เคยมีมาก่อน ต้องรู้ว่าเป็นอย่างไร เป็นส่วนหนึ่งแน่นอน ว่าการรับส่งเสียง ในอนาคตขจะต้องเกี่ยวข้องกับ 3จี ในการรับส่ง วีดิโอ ละการรับส่งคลิป ที่จะทำให้เร็วขึ้น คนที่เคยคิดว่ามันจะสิ้นเปลือง ก็ไม่ได้สิ้นเปลือง

It Digest : ฝากถึงผู้อ่านไทยรัฐออนไลน์บ้าง
ชัย : เทคโนโลยีทุกวันนี้การไม่หยุดอ่านข่าวได้ระดับหนึ่ง แต่ยังต้องพัฒนา อย่างที่แจ้งให้ทราบว่ามีทีมวิจัย ดังนั้น เนคเทคจึงต้องให้ความสำคัญกับงานวิจัย และสิ่งที่เนคเทคอยากจะวิจัยต่อเนื่อง คือ การใส่อารมณ์ เพราะทุกวันนี้อ่านข่าวได้ แต่ยังอ่านนวนิยายไม่ได้ แต่ก็เป็นโครงการระยะยาว โดยตั้งเป้า 5 ปี เริ่มตั้งแต่ปี 2555 เพื่อของบประมาณภาครัฐด้วย อีกทั้ง ยอมรับว่า การอ่านนวนิยายเป็นเรื่องที่ยากด้วย และในอนาคตอยากจะฝากว่า โครงสร้างพื้นฐานเนคเทคพร้อม และมีพันธมิตรที่จะให้บริการขนาดใหญ่ได้ รวมทั้งมีบริการที่พร้อมด้วย 

ขณะที่ เว็บไซต์ข่าวไทยรัฐออนไลน์ (www.thairath.co.th) ก็ได้เปิดให้บริการดังกล่าวด้วย และสามารถใช้โปรแกรมนี้เพื่ออ่านข่าวบนหน้าเว็บไซต์ให้ฟัง โดยสามารถคลิกที่มุมบนขวามือ ที่มีข้อความ "อ่านให้ฟัง" พร้อมสัญลักษณ์ลำโพง ของเว็บไซต์ไทยรัฐออนไลน์ ได้ตั้งแต่บัดนี้ เป็นต้นไป

 


ทีมข่าวไอทีออนไลน์
Itdigest@thairath.co.th

อ่านเพิ่มเติม...

แท็กที่เกี่ยวข้อง

ข่าวแนะนำ

Most Viewed

คุณอาจสนใจข่าวนี้