Xóa Chuyển Văn Bản Thành Giọng Nói / Top 12 # Xem Nhiều Nhất & Mới Nhất 6/2023 # Top View | Bac.edu.vn

Chuyển Văn Bản Thành Giọng Nói Trong Vài Giây

“Mong muốn mang công nghệ giải quyết nhu cầu về âm thanh đời sống trong quá trình phát triển lên cách mạng công nghiệp 4.0, Vbee ra đời đã đánh dấu bước chân đầu tiên của công nghệ giọng nói tiếng Việt tự động tại Việt Nam”, ông Hồ Minh Đức, CEO của Vbee, cho biết.

Khởi nguồn từ ý tưởng phục vụ sách nói cho người khiếm thị, song những thành viên sáng lập của Vbee nhanh chóng nhận thấy nhu cầu sử dụng giọng đọc nhân tạo ngày một lớn ở nhiều lĩnh vực trên thị trường. Do đó, Vbee đã được nghiên cứu phát triển để đáp ứng các khách hàng có nhu cầu sử dụng giọng nói ở quy mô và tần suất lớn. Việc này giúp giảm thiểu đáng kể tình trạng quá tải, tiết kiệm chi phí, nhân lực cho các tổng đài tư vấn tại các ngân hàng, dịch vụ hành chính…

Để nói được giọng điệu tự nhiên như người thật, phần mềm Vbee phải trải qua quá trình “học máy” với những đặc trưng trong giọng nói con người, từ đó cho ra sản phẩm âm thanh với giọng đọc tự nhiên và mượt mà nhất. Vbee chính thức ra mắt vào tháng 1-2018, sau hơn 12 năm ấp ủ và dày công nghiên cứu, không chỉ đơn giản dừng lại ở việc phát âm thanh…

Đến nay, Vbee phát triển đủ các giọng nói miền Bắc, Trung, Nam để người dùng lựa chọn tùy mục đích và nhu cầu sử dụng. Thêm vào đó, với bộ ngữ liệu tối ưu được cài đặt sẵn, Vbee còn có thể bao quát được tất cả các trường hợp ngữ cảnh thông dụng.

Để xử lý một đoạn văn bản khoảng 400 chữ, VBee cần 3 – 5 giây để xử lý thành giọng nói. Với những đoạn văn bản dài hơn, hệ thống sẽ tự cắt ra và xử lý song song để cho ra sản phẩm trong thời gian nhanh nhất. Đến nay, Vbee đã và đang phục vụ cho hơn 200 đối tác đến từ các doanh nghiệp khác nhau, đa phần là các tổng đài thông minh, dịch vụ chăm sóc khách hàng, tư vấn y tế, giáo dục…

Hiện, Vbee vẫn đang tiếp tục được nghiên cứu thử nghiệm các giải pháp thu âm thông minh, giúp tạo nội dung tự động thay vì hình thức thu âm như hiện tại, tiết kiệm hơn về chi phí và thời gian. Và Vbee còn kỳ vọng trong tương lai bằng các sản phẩm thể hiện sự hiện diện của AI, như trẻ em sẽ hỏi những chiếc loa thông minh điều chúng cần biết hay các gia đình có thể cá nhân hóa giọng nói của ba mẹ và chuyển những câu chuyện cổ tích thành giọng nói để kể truyện…

Khởi đầu của Vbee xuất phát từ TS Nguyễn Thị Thu Trang, giảng viên Trường ĐH Bách khoa Hà Nội, đồng sáng lập startup Vbee, đã bắt tay vào nghiên cứu công nghệ text to speech. Đây là một trong những công nghệ cốt lõi của kỷ nguyên VUI (Voice User Interface) trong cuộc cách mạng 4.0. Hiện nay, ngoài việc áp dụng cho tổng đài ảo, công nghệ chuyển văn bản tiếng Việt thành giọng nói đã được Vbee thử nghiệm với sản phẩm bản đồ giao thông Vadi, nhà thông minh Lumi và các trung tâm hỗ trợ chăm sóc khách hàng.

Hiện Vadi đã có khoảng 5.000 người dùng và có tính năng tương tự như Google Maps. Vào giờ cao điểm, các công tác viên sẽ cập nhật thông tin kẹt xe, sự cố giao thông vào hệ thống… Khi lái xe đến gần khu vực có sự cố, tổng đài sẽ phát ra cảnh báo bằng giọng nói và gợi ý lái xe đi đường khác. Ngoài ra, ứng dụng cũng tích hợp công nghệ đọc báo, tin tức khi người dùng có yêu cầu hoặc yêu cầu tìm đường tới một địa điểm nào đó bằng giọng nói, không cần thao tác bằng tay…

Theo ông Hồ Minh Đức, khó khăn lớn nhất hiện tại của Vbee là thị trường còn quá mới nên cần thêm thời gian để làm quen cũng như tiếp cận khách hàng. Không những thế, doanh nghiệp cũng cần thu hút nhiều nguồn đầu tư hơn nữa để xây dựng các kho dữ liệu về giọng nói.

BÁ TÂN

Dễ Dàng Chuyển Văn Bản Thành Giọng Nói Vớitext To Speech

Công nghệ text to speech của chúng tôi được xây dựng trên nền tảng Trí tuệ nhân tạo, ứng dụng nhiều công nghệ tiên tiến nhất hiện nay như công nghệ Tổng hợp giọng nói, công nghệ Học sâu, cho phép nhận diện chính xác các từ, câu, chữ và chuyển đổi thành file âm thanh với giọng đọc tự nhiên, truyền cảm, tự động ngắt nghỉ khi đọc câu dài.

1. Làm thể nào để sử dụng công nghệ chúng tôi Text to speech?

Để sử dụng công nghệ chuyển đổi văn bản thành giọng nói chúng tôi Text to speech, bạn cần tạo một tài khoản FPT ID, sau đó đăng nhập vào website chúng tôi và chọn sản phẩm Text to speech (https://fpt.ai/vi/tts)

Nhập nội dung văn bản cần chuyển đổi thành giọng nói sau đó chọn giọng phù hợp. Chỉ với vài thao tác đơn giản và trong khoảng thời gian vài giây, bạn đã có thể chuyển cả một văn bản dài thành file âm thanh mà không hề tốn kém nhiều chi phí.

2. Chất giọng audio của chúng tôi Text to speech

FPT.AI Text to speech là sản phẩm được phát triển riêng cho thị trường Việt Nam, dựa trên những nghiên cứu chuyên sâu về giọng nói của từng vùng miền. Hiện nay, chúng tôi sở hữu 7 giọng đọc với đa dạng nhiều khu vực khác nhau trên khắp Việt Nam.

3. Chi phí để sử dụng công nghệ chúng tôi Text to speech là vô cùng hợp lí

FPT.AI Text to Speech miễn phí 100.000 kí tự hàng tháng cho tất cả các khách hàng để dùng thử, trải nghiệm dịch vụ.

Trên trang điều khiển https://console.fpt.ai, bạn có thể chủ động mua hoặc nâng cấp gói giải pháp chúng tôi Text to speech phù hợp với nhu cầu sử dụng.

Cùng với những sự tiện lợi và những hiệu quả đã được chứng minh thực tế, chúng tôi Text to speech được đánh giá là một trong những giải pháp có chi phí hợp lí, giúp các nhà sản xuất nội dung tiết kiệm chi phí cho nhân sự, tiết kiệm thời gian sản xuất.

👉 Trải nghiệm giải pháp chúng tôi Text to Speech của #FPT_AI tại: https://fpt.ai/vi/tts

👉 Trải nghiệm các sản phẩm khác của #FPT_AI tại: https://fpt.ai/vi

🏬 Địa chỉ: Tầng 7, tháp FPT, số 10 Phạm Văn Bạch, quận Cầu Giấy, Tp. Hà Nội

☎ Hotline: 0911 886 353

📩 Email: support@fpt.ai

Startup Vbee: Chuyển Văn Bản Thành Giọng Nói Trong Vài Giây

Đây là một trong những công nghệ cốt lõi của kỷ nguyên VUI (Voice User Interface) trong cuộc cách mạng 4.0 đang đến rất gần.

Sự khác biệt mang tính địa phương

Tôi gặp TS Nguyễn Thị Thu Trang tại văn phòng lab của chị ở ĐH Bách khoa Hà Nội. Người phụ nữ có nụ cười tươi ấy hồ hởi nói với tôi về công nghệ text to speech được dự đoán sẽ làm mưa làm gió trên thế giới và cả những dự định phát triển ứng dụng này theo hướng học sâu (deep learning).

Truy cập vào ứng dụng của Vbee, chị Trang chỉ cho tôi các ứng dụng cụ thể của công nghệ text to speech mà startup của chị đang phát triển như báo nói, đọc truyện, bản đồ giao thông Vadi, thuyết minh phim. Trên giao diện chính, chị Trang gõ một đoạn văn bản bất kỳ vào phần trải nghiệm và ngay lập tức, hệ thống trả về giọng đọc nam chuẩn Hà Nội với ngắt nghỉ dấu câu gần như chính xác. Nếu không biết đây là hệ thống hoàn toàn do máy chuyển đổi, chắc hẳn tôi đã nghĩ có một người nào đó ngồi trực hệ thống để đọc.

Chia sẻ về quá trình nghiên cứu công nghệ này, TS Trang cho biết, năm 2010, chị sang Pháp làm nghiên cứu luận án tiến sỹ về đề tài này và bảo vệ thành công vào năm 2015. Sau đó, chị nhận ra, công nghệ này không chỉ hữu ích với những người khiếm thị mà có thể sử dụng trong nhiều lĩnh vực của cuộc sống.

Chị Trang chia sẻ: “Ở nước ngoài, công nghệ text to speech đã hoàn thiện từ cách đây hàng chục năm và ứng dụng trong nhiều lĩnh vực của đời sống như đọc các thông báo công cộng, tổng đài ảo, nhắc nhở tiền điện nước…. Ở Việt Nam lĩnh vực này còn rất mới. Sau khi nghiên cứu công nghệ này, tôi tin rằng sẽ có nhiều ứng dụng hữu ích trong cuộc sống phục vụ cộng đồng và xã hội”.

Năm 2016, sau khi làm việc với VNPT Technology, TS Trang và các cộng sự đã triển khai hệ thống tổng đài cho ảo, chịu trách nhiệm trả lời các thông tin tự động dành cho khách hàng. Chị Trang cho biết, trước đó nhà mạng này đã tham khảo nhiều đơn vị khác.

Trước vấn đề làm sao để tạo ra sự khác biệt và cho ra giọng đọc tối ưu so với các đơn vị khác, TS Trang cho biết, do chị có thời gian dài nghiên cứu về ngôn ngữ học tiếng Việt ở Pháp trước khi chuyển sang làm về công nghệ, nên chị có thể địa phương hóa giọng đọc của Vbee.

Ví dụ, với khoảng 6 giờ đọc và 450 câu, TS Trang phải tính toán tối ưu được dữ liệu, thiết kế giọng đọc và cấu trúc ngôn ngữ để bao phủ được toàn bộ câu, cụm từ, từ, âm tiết, âm vị, ngữ âm và các ngữ cảnh khác nhau, thành phần câu trong văn bản. Điều này phải bắt đầu từ việc phân tích ngôn ngữ sau đó mới đến cấu trúc hệ thống và tối ưu dữ liệu.

Hay như việc phát triển ngôn ngữ giữa các vùng miền cũng có nhiều khác biệt cần xử lý. Ví như miền Bắc, phân biệt rất rõ các dấu ngang, huyền, hỏi, ngã, sắc, nặng nhưng miền Nam không phân biệt được hỏi và ngã. Hay ở miền Nam và miền Trung, phát âm có phân biệt rất rõ về gi, tr, ch, r…. nhưng miền Bắc lại không phân biệt rõ ràng. Trong khi đó, văn bản đầu vào là giống nhau. Điều này cần phải có cách xử lý cụ thể từ cầu trúc tiếng nói tự nhiên, phân tích văn bản rồi đưa ra âm vị, ngữ cảnh, ngữ điệu… trước khi đưa vào để tổng hợp tiếng nói.

5 giây để chuyển 400 chữ thành giọng nói

Theo TS Trang để xử lý một đoạn văn bản khoảng 400 chữ, VBee cần từ 3-5 giây để xử lý thành giọng nói. Với những đoạn văn bản dài hơn, hệ thống sẽ tự cắt ra và xử lý song song để cho sản phẩm trong thời gian nhanh nhất.

“Thời gian xử lý tùy thuộc vào yêu cầu của đối tác. Nếu muốn nhanh, chúng tôi cần đầu tư lớn về mặt thiết bị phần cứng để tăng tốc thời gian xử lý. Nhiều khách hàng yêu cầu phải xử lý theo thời gian thực, nhất là hệ thống tổng đài ảo. Vbee có thể phục vụ theo mọi yêu cầu của đối tác” – TS Trang cho biết.

Hiện nay, hệ thống dữ liệu phục vụ việc chuyển văn bản tiếng Việt thành giọng nói mà TS Thu Trang phát triển đang có khoảng 450 câu với 6 giờ thu âm thành phẩm. Tuy nhiên, chị Trang và các cộng sự đã thiết kế bộ dữ liệu mới với dung lượng gấp khoảng 6 lần để phục vụ công nghệ học sâu (deep learning).

“Với công nghệ mới, độ bao phủ sẽ rộng hơn và cho kết quả chính xác hơn. Yêu cầu của công nghệ deep learning là phải bao phủ rộng nhất có thể về ngữ cảnh. Trước đây, chúng tôi chỉ cần bao quát âm vị trước, âm vị sau thì bây giờ, chúng tôi cần nhiều hơn thế. Ví dụ, trong câu “hôm nay tôi đi chơi”, chữ “tôi” trong câu này khác với chữ “tôi” trong những câu khác. Nếu dữ liệu có nhiều ngữ cảnh, hệ thống sẽ tự tìm ngữ cảnh gần nhất với nó” – TS Trang giải thích. Hệ thống dữ liệu mới được chị Trang dự trù sẽ thực hiện trong 3 tháng. Sau khi hoàn thành thu âm giọng đọc khớp với yêu cầu, dữ liệu sẽ được đưa vào chiết xuất đặc trưng và huấn luyện cho máy.

Hiện nay, ngoài việc áp dụng cho tổng đài ảo, công nghệ chuyển văn bản tiếng Việt thành giọng nói đã được Vbee thử nghiệm với sản phẩm bản đồ giao thông Vadi, nhà thông minh Lumi và các trung tâm hỗ trợ chăm sóc khách hàng…

Mới được ra mắt thử nghiệm vào đầu năm 2018, nhưng Vadi đã có khoảng 5.000 người dùng và có tính năng tương tự như Google Maps. Vào giờ cao điểm, các công tác viên sẽ cập nhật thông tin tắc đường, các sự cố giao thông vào hệ thống. Khi lái xe đến gần khu vực có sự cố, tổng đài sẽ phát ra cảnh báo bằng giọng nói và gợi ý lái xe cung đường khác. Ngoài ra, ứng dụng cũng tích hợp công nghệ đọc báo, tin tức khi người dùng có yêu cầu hoặc yêu cầu tìm đường tới một địa điểm nào đó bằng giọng nói, không cần thao tác bằng tay.

TS Trang cho biết, thực tế Vadi chỉ là một trong những ứng dụng của công nghệ thú vị này. Thị trường tổng đài chăm sóc khách hàng cũng rất lớn và có hữu ích trong việc giảm giờ lao động của nhân viên. Ví dụ, một trung tâm thương mại muốn kiểm tra độ hài lòng của khác hàng có thể cài đặt hệ thống tự động gọi điện xác nhận hóa đơn mua bán, đánh giá thái độ của nhân viên bán hàng. Mọi đánh giá hoặc mong muốn của khách hàng sẽ được hướng dẫn thực hiện bằng cách chọn phím tương ứng. Hay đơn cử như tập đoàn điện lực cũng có thể ứng dụng trong việc nhắc hóa đơn tiền điện hàng tháng.

Quay trở lại với lý do đã khiến nữ tiến sỹ bắt đầu nghiên cứu công nghệ này là phục vụ người khiếm thị, chị Trang tiết lộ, chị đang khảo sát nhu cầu về sách, truyện để lên kế hoạch xin bản quyền từ các nhà xuất bản và tiến hành chuyển đổi thành sách nói.

Text to speech sẽ là một trong những công nghệ nền tảng của kỷ nguyên giao tiếp bằng giọng nói (Age of VUI) trong cuộc cách mạng 4.0. “Chỉ vài năm nữa thôi, nếu có câu hỏi, trẻ em sẽ hỏi những chiếc loa thông minh… chứ không hỏi bố mẹ. Hoặc các gia đình có thể cá nhân hóa giọng nói của bố mẹ và chuyển những câu chuyện cổ tích thành giọng nói để kể chuyện cho con hàng đêm. Vbee muốn trở thành một phần trong những thay đổi đó” – TS Trang bày tỏ.

Cách Chuyển Văn Bản Thành Giọng Nói Trên Any Text To Voice

Có nhiều trang web hiện nay đã cung cấp công cụ chuyển văn bản thành giọng nói, hoặc từ lời nói trực tiếp chuyển thành văn bản để phục vụ những mục đích khác nhau. Any Text to Voice là ứng dụng trên Windows 10, hỗ trợ chuyển toàn bộ văn bản thành file giọng nói mp3, với các ngôn ngữ mà người dùng đang cài đặt trên hệ thống máy tính.

Hướng dẫn dùng Any Text to Voice Windows 10

Chờ quá trình cài đặt xong chúng ta khởi động ứng dụng.

Bước 2:

Tiếp đến người dùng cần cài thêm ngôn ngữ vào hệ thống để Any Text to Voice nhận diện được ngôn ngữ đó. Chúng ta nhấn tổ hợp phím Windows + I rồi chọn Time & Language.

Chuyển sang giao diện mới người dùng nhấn vào mục Language để thay đổi cài đặt cho ngôn ngữ máy tính.

Tiếp tục nhìn sang bên phải nhấn vào mục Add a language để thêm ngôn ngữ mới cho hệ thống máy tính.

Cuối cùng nhấn Install và chờ quá trình cài đặt ngôn ngữ hoàn thành.

Bước 3:

Trong giao diện của ứng dụng chúng ta sẽ thấy có nhiều lựa chọn để tải nội dung lên.

Load text from file: Nhập tài liệu từ các file văn bản được hỗ trợ gồm docx, doc, rtf, html, epub, mobi, txt.

Paste from clipboard: Nhập nội dung lưu trong bộ nhớ đệm.

Nhập văn bản trực tiếp vào khung trắng của ứng dụng.

Bước 4:

Tiếp theo người dùng chọn ngôn ngữ muốn ứng dụng chuyển thành giọng nói. Ở đây chúng ta sẽ chọn tiếng Việt.

Sau khi đã có nội dung, nhấn nút Speak để ứng dụng đọc nội dung. Nội dung được đọc lần lượt và chữ được nháy xanh khi đến đúng vị trí. Nhấn Pause để tạm dừng đọc.

Bước 5:

Cũng tại khung đọc tài liệu bạn có lựa chọn thay đổi lại tốc độ đọc của tài liệu hay âm lượng của giọng đọc.

Nếu muốn tải file âm thanh xuống thì nhấn Save as audio.

Ngay sau đó quá trình convert được tiến hành để chuyển các âm thanh thành file riêng biệt.

Với những ngôn ngữ khác thì Any Text to Voice hoạt động cũng rất hiệu quả.

Any Text to Voice mang tới người dùng công cụ chuyển văn bản thành giọng nói hiệu quả, chính xác. Any Text to Voice nhận diện ngôn ngữ nhờ vào ngôn ngữ mà Windows 10 cài đặt và loại ngôn ngữ mà bạn chọn trong ứng dụng.