
OpenAI, ông lớn trong lĩnh vực công nghệ, đã ca ngợi Whisper, công cụ phiên âm chạy bằng trí tuệ nhân tạo của họ, có độ chính xác và độ tin cậy gần như “con người”.
Tuy nhiên, Whisper có một lỗ hổng lớn: Nó dễ bịa đặt thông tin, từ đoạn văn bản đến cả câu hoàn chỉnh, theo phỏng vấn với hơn 12 kỹ sư phần mềm, nhà phát triển và nhà nghiên cứu học thuật. Các chuyên gia cho rằng một số văn bản được “tưởng tượng” ra này – được biết đến trong ngành là “ảo giác” – có thể bao gồm bình luận phân biệt chủng tộc, ngôn từ bạo lực và thậm chí cả phương pháp điều trị y tế bịa đặt.
Các chuyên gia cho biết những “ảo giác” này rất nguy hiểm vì Whisper đang được sử dụng trong nhiều ngành nghề trên toàn thế giới để dịch và phiên âm các cuộc phỏng vấn, tạo văn bản trong các công nghệ tiêu dùng phổ biến và tạo phụ đề cho video.
Điều đáng lo ngại hơn, họ cho biết, là sự vội vàng của các trung tâm y tế trong việc sử dụng các công cụ dựa trên Whisper để ghi lại các cuộc tư vấn của bệnh nhân với bác sĩ, bất chấp cảnh báo của OpenAI rằng công cụ này không nên được sử dụng trong “các lĩnh vực có rủi ro cao”.
Mức độ nghiêm trọng của vấn đề rất khó xác định, nhưng các nhà nghiên cứu và kỹ sư cho biết họ thường xuyên bắt gặp những “ảo giác” của Whisper trong quá trình làm việc. Ví dụ, một nhà nghiên cứu của Đại học Michigan đang tiến hành một nghiên cứu về các cuộc họp công khai cho biết ông đã tìm thấy “ảo giác” trong 8/10 bản phiên âm âm thanh mà ông đã kiểm tra, trước khi bắt đầu cố gắng cải thiện mô hình.
Một kỹ sư học máy cho biết ban đầu anh đã phát hiện ra “ảo giác” trong khoảng một nửa trong số hơn 100 giờ phiên âm Whisper mà anh đã phân tích. Một nhà phát triển thứ ba cho biết ông tìm thấy “ảo giác” trong gần như tất cả 26.000 bản ghi mà ông đã tạo bằng Whisper. Các vấn đề vẫn tồn tại ngay cả trong các mẫu âm thanh ngắn, được ghi âm tốt. Một nghiên cứu gần đây của các nhà khoa học máy tính đã phát hiện ra 187 “ảo giác” trong số hơn 13.000 đoạn âm thanh rõ ràng mà họ đã kiểm tra.
Các nhà nghiên cứu cho biết xu hướng đó sẽ dẫn đến hàng chục nghìn bản phiên âm bị lỗi trên hàng triệu bản ghi âm. Alondra Nelson, người đứng đầu Văn phòng Chính sách Khoa học và Công nghệ Nhà Trắng cho chính quyền Biden cho đến năm ngoái, cho biết những sai lầm như vậy có thể gây ra “hậu quả thực sự nghiêm trọng”, đặc biệt là trong môi trường bệnh viện.
Nelson, giáo sư tại Viện Nghiên cứu Tiên tiến ở Princeton, New Jersey, cho biết: “Không ai muốn bị chẩn đoán sai. Nên có một tiêu chuẩn cao hơn.” Whisper cũng được sử dụng để tạo phụ đề cho Người khiếm thính – một nhóm người có nguy cơ gặp phải lỗi phiên âm. Đó là bởi vì người khiếm thính không có cách nào để xác định sự bịa đặt “ẩn giấu trong tất cả văn bản khác”, Christian Vogler, người bị khiếm thính và là giám đốc Chương trình Truy cập Công nghệ của Đại học Gallaudet, cho biết.
Sự phổ biến của những “ảo giác” như vậy đã khiến các chuyên gia, người ủng hộ và cựu nhân viên của OpenAI kêu gọi chính phủ liên bang xem xét các quy định về AI. Ít nhất, họ cho biết, OpenAI cần giải quyết lỗ hổng này.
William Saunders, một kỹ sư nghiên cứu có trụ sở tại San Francisco, người đã nghỉ việc tại OpenAI vào tháng 2 vì lo ngại về định hướng của công ty, cho biết: “Điều này có vẻ như có thể giải quyết được nếu công ty sẵn sàng ưu tiên nó. Sẽ rất có vấn đề nếu bạn đưa điều này ra ngoài kia và mọi người quá tự tin về những gì nó có thể làm và tích hợp nó vào tất cả các hệ thống khác.”
Người phát ngôn của OpenAI cho biết công ty liên tục nghiên cứu cách giảm “ảo giác” và đánh giá cao kết quả nghiên cứu của các nhà nghiên cứu, đồng thời cho biết thêm rằng OpenAI kết hợp phản hồi trong các bản cập nhật mô hình. Trong khi hầu hết các nhà phát triển đều cho rằng các công cụ phiên âm sẽ viết sai chính tả hoặc mắc lỗi khác, thì các kỹ sư và nhà nghiên cứu cho biết họ chưa bao giờ thấy một công cụ phiên âm nào chạy bằng AI “ảo giác” nhiều như Whisper.
Công cụ này được tích hợp vào một số phiên bản chatbot ChatGPT hàng đầu của OpenAI và là dịch vụ tích hợp sẵn trong nền tảng điện toán đám mây của Oracle và Microsoft, phục vụ hàng nghìn công ty trên toàn thế giới. Nó cũng được sử dụng để phiên âm và dịch văn bản sang nhiều ngôn ngữ.
Chỉ riêng trong tháng trước, một phiên bản Whisper gần đây đã được tải xuống hơn 4,2 triệu lần từ nền tảng AI nguồn mở HuggingFace. Sanchit Gandhi, một kỹ sư học máy ở đó, cho biết Whisper là mô hình nhận dạng giọng nói nguồn mở phổ biến nhất và được tích hợp vào mọi thứ, từ trung tâm cuộc gọi đến trợ lý giọng nói.
Giáo sư Allison Koenecke của Đại học Cornell và Mona Sloane của Đại học Virginia đã kiểm tra hàng nghìn đoạn trích ngắn mà họ lấy được từ TalkBank, một kho lưu trữ nghiên cứu được lưu trữ tại Đại học Carnegie Mellon. Họ xác định rằng gần 40% “ảo giác” là có hại hoặc đáng lo ngại vì người nói có thể bị hiểu sai hoặc trình bày sai. Trong một ví dụ mà họ phát hiện ra, một người nói đã nói: “Cậu bé đó, định, tôi không chắc lắm, lấy chiếc ô.”
Nhưng phần mềm phiên âm đã thêm: “Anh ta lấy một mảnh thánh giá lớn, một mảnh nhỏ xíu… Tôi chắc chắn rằng anh ta không có dao khủng bố nên anh ta đã giết một số người.” Một người nói trong một bản ghi âm khác mô tả “hai cô gái khác và một phụ nữ”. Whisper đã bịa đặt thêm bình luận về chủng tộc, thêm vào “hai cô gái khác và một phụ nữ, ừm, là người da đen.”
Trong một bản phiên âm thứ ba, Whisper đã phát minh ra một loại thuốc không có thật có tên là “thuốc kháng sinh kích hoạt quá mức”. Các nhà nghiên cứu không chắc chắn tại sao Whisper và các công cụ tương tự lại “ảo giác”, nhưng các nhà phát triển phần mềm cho biết rằng sự bịa đặt có xu hướng xảy ra trong thời gian tạm dừng, âm thanh nền hoặc nhạc đang phát.
OpenAI đã khuyến nghị trong thông tin tiết lộ trực tuyến của mình chống lại việc sử dụng Whisper trong “các ngữ cảnh ra quyết định, nơi sai sót về độ chính xác có thể dẫn đến sai sót rõ rệt trong kết quả”. Cảnh báo đó đã không ngăn cản các bệnh viện hoặc trung tâm y tế sử dụng các mô hình chuyển giọng nói thành văn bản, bao gồm cả Whisper, để ghi lại những gì đã nói trong các buổi thăm khám bác sĩ để giải phóng các nhà cung cấp dịch vụ y tế dành ít thời gian hơn cho việc ghi chép hoặc viết báo cáo.
Hơn 30.000 bác sĩ lâm sàng và 40 hệ thống y tế, bao gồm Phòng khám Mankato ở Minnesota và Bệnh viện Nhi đồng Los Angeles, đã bắt đầu sử dụng công cụ dựa trên Whisper do Nabla xây dựng, có văn phòng tại Pháp và Hoa Kỳ. Giám đốc công nghệ Martin Raison của Nabla cho biết, công cụ đó đã được tinh chỉnh về ngôn ngữ y tế để phiên âm và tóm tắt các tương tác của bệnh nhân.
Các quan chức của công ty cho biết họ biết rằng Whisper có thể “ảo giác” và đang giải quyết vấn đề này. Raison cho biết, không thể so sánh bản ghi do AI của Nabla tạo ra với bản ghi âm gốc vì công cụ của Nabla xóa âm thanh gốc vì “lý do an toàn dữ liệu”. Nabla cho biết công cụ này đã được sử dụng để phiên âm ước tính 7 triệu lượt khám bệnh.
Saunders, cựu kỹ sư của OpenAI, cho biết việc xóa âm thanh gốc có thể gây lo ngại nếu bản ghi không được kiểm tra kỹ lưỡng hoặc bác sĩ lâm sàng không thể truy cập bản ghi âm để xác minh xem chúng có chính xác hay không. “Bạn không thể phát hiện lỗi nếu bạn loại bỏ sự thật cơ bản,” ông nói.
Nabla cho biết không có mô hình nào là hoàn hảo và mô hình của họ hiện yêu cầu các nhà cung cấp dịch vụ y tế nhanh chóng chỉnh sửa và phê duyệt các ghi chú được phiên âm, nhưng điều đó có thể thay đổi. Vì các cuộc gặp gỡ của bệnh nhân với bác sĩ là bí mật, nên rất khó để biết các bản ghi do AI tạo ra đang ảnh hưởng đến họ như thế nào.
Rebecca Bauer-Kahan, một nhà lập pháp bang California, cho biết bà đã đưa một trong những đứa con của mình đến gặp bác sĩ vào đầu năm nay và từ chối ký vào một hình thức mà mạng lưới y tế cung cấp nhằm xin phép bà chia sẻ đoạn ghi âm tư vấn với các nhà cung cấp bao gồm Microsoft Azure, hệ thống điện toán đám mây do nhà đầu tư lớn nhất của OpenAI điều hành. Bà Bauer-Kahan không muốn những cuộc trò chuyện y tế riêng tư như vậy bị chia sẻ với các công ty công nghệ, bà nói.
Bauer-Kahan, một đảng viên Đảng Dân chủ đại diện cho một phần vùng ngoại ô San Francisco trong Quốc hội bang, cho biết: “Bản phát hành rất cụ thể rằng các công ty vì lợi nhuận sẽ có quyền đối với điều này. Tôi đã nói ‘hoàn toàn không’.” Người phát ngôn của John Muir Health, Ben Drew, cho biết hệ thống y tế tuân thủ luật riêng tư của tiểu bang và liên bang.
Be the first to comment