Giải mã mô hình ngôn ngữ DNA với trí tuệ nhân tạo sinh sáng.

Mô hình ngôn ngữ DNA là công cụ hữu ích cho các nhà sinh học để khám phá di truyền học. Với sức mạnh của các mô hình ngôn ngữ lớn, các nhà nghiên cứu có thể phát hiện những xu hướng thống kê trong trình tự DNA và tiết lộ những hiểu biết mới về di truyền học. Bằng cách phát hiện các mẫu thống kê trong trình tự DNA, các mô hình ngôn ngữ DNA có thể giúp chúng ta hiểu rõ hơn về ngữ pháp bộ gen theo từng quy tắc. Ngoài ra, các mô hình ngôn ngữ DNA còn có khả năng dự đoán các tương tác giữa các gen, ước tính chức năng của các vùng gen khác nhau và dự đoán các đột biến mới trong trình tự bộ gen. Các mô hình ngôn ngữ DNA cũng được sử dụng để tạo ra các protein mới trong bối cảnh thiết kế protein. Tuy nhiên, vấn đề \”ảo giác\” vẫn là một thách thức đối với các mô hình ngôn ngữ.
Sử dụng mô hình ngôn ngữ DNA, có thể dễ dàng phát hiện xu hướng thống kê trong trình tự DNA
Các mô hình ngôn ngữ lớn (LLM) được đào tạo dựa trên số lượng lớn dữ liệu và học hỏi từ các mối quan hệ thống kê giữa các chữ cái và từ để dự đoán điều gì sẽ xảy ra tiếp theo trong một cụm từ. Ví dụ: chương trình AI tổng quát phổ biến của ChatGPT LLM, GPT-4, được đào tạo trên nhiều petabyte (vài triệu gigabyte) văn bản.
Bằng cách phát hiện các mẫu thống kê trong trình tự DNA, các nhà sinh học sử dụng sức mạnh của LLM này để tiết lộ những hiểu biết mới về di truyền học. Tương tự như các mô hình ngôn ngữ nucleotide, các mô hình ngôn ngữ DNA được đào tạo trên một số lượng lớn trình tự DNA.
Cụm từ “ngôn ngữ của cuộc sống” gắn liền với DNA thường được sử dụng. Bộ gen là một tập hợp các trình tự DNA tạo nên cấu trúc di truyền của một sinh vật. Không giống như ngôn ngữ viết, các chữ cái duy nhất trong DNA là A, C, G và T, viết tắt của các nucleoside adenine, cytosine, guanine và thymine. Mặc dù ngôn ngữ di truyền này có vẻ đơn giản nhưng ngữ pháp của nó vẫn là một bí ẩn đối với chúng ta. Các mô hình ngôn ngữ DNA có thể giúp chúng ta hiểu rõ hơn về ngữ pháp bộ gen theo từng quy tắc.
Dự đoán linh hoạt
ChatGPT có khả năng xử lý nhiều công việc khác nhau, từ sáng tác thơ đến chỉnh sửa bản thảo, mang lại cho nó sức mạnh đáng kinh ngạc. Mô hình ngôn ngữ DNA cũng linh hoạt. Công dụng của nó bao gồm ước tính chức năng của các vùng gen khác nhau và tương tác giữa các gen khác nhau. Các mô hình ngôn ngữ cũng có thể kích hoạt các kỹ thuật phân tích mới bằng cách suy ra các đặc tính bộ gen từ trình tự DNA mà không cần “bộ gen tham chiếu”.
Ví dụ, một máy tính được đào tạo về bộ gen của con người có thể dự đoán các vị trí trên RNA nơi các protein có nhiều khả năng tương tác nhất. Quá trình “biểu hiện gen” đòi hỏi sự tương tác này—biến DNA thành protein. Lượng RNA được dịch mã thành protein bị hạn chế bởi sự liên kết của các protein cụ thể với RNA. Những protein này được cho là trung gian biểu hiện gen theo cách này. Vì hình dạng của RNA rất quan trọng đối với các tương tác này, nên mô hình sẽ có thể dự đoán vị trí của các tương tác này sẽ xảy ra trong bộ gen và cách RNA sẽ gấp lại.
Khả năng của các mô hình ngôn ngữ DNA để tạo ra các đột biến mới trong trình tự bộ gen cũng cho phép các nhà nghiên cứu dự đoán những thay đổi này có thể xảy ra như thế nào. Ví dụ: các nhà nghiên cứu đã sử dụng các mô hình ngôn ngữ về kích thước bộ gen để dự đoán và truy xuất quá trình tiến hóa của vi rút SARS-CoV-2.
Hành động bộ gen từ xa
Các nhà sinh học gần đây đã nhận ra rằng các phần của bộ gen từng được coi là “DNA rác” tương tác với các phần khác của bộ gen theo những cách không ngờ tới. Một cách nhanh chóng để tìm hiểu thêm về các tương tác ẩn này là sử dụng mô hình ngôn ngữ DNA. Các mô hình ngôn ngữ có thể tìm thấy mối quan hệ giữa các gen ở các vùng xa xôi của bộ gen bằng cách phát hiện các mẫu trong chuỗi DNA dài.
Các nhà nghiên cứu từ Đại học California, Berkeley, đưa ra một mô hình ngôn ngữ DNA có khả năng tìm hiểu tác động của các biến thể trên toàn bộ bộ gen trong một bản in trước xuất bản gần đây trên bioRxiv. Những biến thể này, những thay đổi một chữ cái trong bộ gen gây bệnh hoặc các tác động sinh lý khác, thường chỉ được phát hiện thông qua các cuộc điều tra nghiên cứu tốn kém được gọi là nghiên cứu kết hợp trên toàn bộ bộ gen.
Nó được đào tạo bằng cách sử dụng bộ gen của bảy loài thực vật thuộc họ mù tạt và được gọi là Mạng tiền huấn luyện bộ gen (GPN). GPN không chỉ có thể được sửa đổi để xác định biến thể bộ gen cho bất kỳ loài nào mà còn có thể đặt tên chính xác cho các thành phần khác nhau của bộ gen mù tạt này.
Các nhà nghiên cứu đã tạo ra một mô hình ngôn ngữ DNA có thể nhận ra các tương tác gen-gen từ dữ liệu đơn bào trong công trình được công bố gần đây trên tạp chí Nature Machine Intelligence. Hiểu cách các gen tương tác ở cấp độ đơn bào sẽ cung cấp những hiểu biết mới về các bệnh có con đường phức tạp. Điều này cho phép các nhà nghiên cứu liên kết các biến số di truyền thúc đẩy sự phát triển của bệnh với các biến thể giữa các tế bào cụ thể.
Ảo giác vào sự sáng tạo
Vấn đề “ảo giác”, khi đầu ra có vẻ hợp lý nhưng không dựa trên thực tế, có thể là một vấn đề đối với các mô hình ngôn ngữ. Ví dụ: ChatGPT có thể gây ảo giác về lời khuyên sức khỏe không tốt. Tuy nhiên, “sự sáng tạo” này làm cho ngôn ngữ mô hình trở nên hiệu quả để phát triển các protein mới trong bối cảnh thiết kế protein.
Để cải thiện mức độ thành công của các mô hình học sâu như AlphaFold trong việc dự đoán cách protein gấp lại, các nhà nghiên cứu cũng đã áp dụng các mô hình ngôn ngữ cho bộ dữ liệu protein. Một quá trình phức tạp được gọi là gấp nếp cho phép các protein, ban đầu chỉ là các chuỗi axit amin, có hình dạng hữu ích. Vì trình tự DNA kiểm soát cách protein gấp nếp và được tạo ra từ trình tự DNA, nên chúng ta có thể tìm hiểu mọi thứ cần biết về cấu trúc và chức năng của protein chỉ từ trình tự gen.