Meta giới thiệu “Voicebox”: Một mô hình Nói hỗ trợ trí tuệ nhân tạo tiên tiến.

Meta, công ty phía sau Facebook, đã giới thiệu một mô hình AI mới có tên là ‘Hộp thoại’ có khả năng cách mạng hóa việc sản xuất giọng nói. Hộp thoại là mô hình đầu tiên có khả năng khái quát hóa các tác vụ tạo giọng nói với hiệu suất vượt trội, ngay cả khi không được đào tạo cụ thể. Thay vì các mô hình thông thường tạo đồ họa hoặc văn bản, Voicebox chuyên tạo các mẫu âm thanh chất lượng cao. Hộp thoại có tính năng tổng hợp giọng nói được hỗ trợ bằng sáu ngôn ngữ và bao gồm chỉnh sửa nội dung, giảm tiếng ồn, chuyển đổi phong cách và sản xuất các mẫu khác nhau. Hộp thoại mở ra những con đường mới cho sự sáng tạo sản xuất âm thanh và sửa đổi giọng nói nâng cao.
Meta đang cách mạng hóa một mô hình AI có tên Hộp thoại để Cách mạng hóa Sản xuất Giọng nói
Meta, công ty đứng sau Facebook, đã giới thiệu một mô hình AI thế hệ mới có tên là ‘Hộp thoại’ có khả năng cách mạng hóa việc sản xuất giọng nói. Meta đã tiết lộ trong một bài đăng trên blog rằng Hộp thoại là mô hình đầu tiên có khả năng khái quát hóa các tác vụ tạo giọng nói với hiệu suất vượt trội, ngay cả khi không được đào tạo cụ thể.
Thay vì các mô hình thông thường tạo đồ họa hoặc văn bản, Voicebox chuyên tạo các mẫu âm thanh chất lượng cao. Nó có thể tạo lời nói theo nhiều cách khác nhau, từ đầu hoặc bằng cách thay đổi mẫu. Tính năng tổng hợp giọng nói được hỗ trợ bằng sáu ngôn ngữ: tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Tây Ban Nha, tiếng Ba Lan và tiếng Bồ Đào Nha. Hộp thoại bao gồm chỉnh sửa nội dung, giảm tiếng ồn, chuyển đổi phong cách và sản xuất các mẫu khác nhau.
Các kỹ thuật học tập khác nhau của Voicebox là điều làm nên sự khác biệt của nó. Hộp thoại học trực tiếp từ dữ liệu âm thanh thô và bản chép lời liên quan thay vì sử dụng mô hình tự hồi quy. Điều này cho phép mô hình thay đổi bất kỳ thành phần nào của mẫu, không chỉ phần cuối, giúp mô hình linh hoạt và linh hoạt hơn.
Theo Meta, Hộp thoại được dạy để dự đoán các phân đoạn giọng nói dựa trên bài phát biểu xung quanh và bản ghi của nó. Sau khi mô hình hiểu cách điền lời nói tùy thuộc vào ngữ cảnh, mô hình có thể được áp dụng cho các tác vụ tạo lời nói khác nhau, chẳng hạn như tạo các phân đoạn đã chọn của bản ghi âm mà không cần tạo lại.
Hộp thoại vượt trội trong nhiều ứng dụng nhờ khả năng thích ứng của chúng, bao gồm tổng hợp văn bản thành giọng nói trong ngữ cảnh, chuyển kiểu ngôn ngữ chéo, chỉnh sửa và từ chối giọng nói cũng như lấy mẫu giọng nói đa dạng—tính linh hoạt và hiệu suất của mô hình mở ra những con đường mới cho sự sáng tạo sản xuất âm thanh và sửa đổi giọng nói nâng cao.
Meta Voice Box là một bước tiến lớn trong việc tạo giọng nói, giới thiệu một mô hình AI mạnh mẽ có khả năng tạo các đoạn âm thanh chất lượng cao và hoàn thành các nhiệm vụ khác nhau liên quan đến giọng nói với kết quả xuất sắc. Khi công nghệ AI tiến bộ, Voicebox có thể mở đường cho các ứng dụng mới trong công nghệ hỗ trợ giọng nói, giải trí và các lĩnh vực khác.