Số liệu lắp ráp – U 50 chính xác đến mức nào?

khoảng bạn 50

Giá trị N50, đại diện cho số lượng các nhánh duy nhất, dành riêng cho mục tiêu được tạo bởi một chương trình hợp ngữ, là một số liệu phổ biến để đánh giá các tập hợp bộ gen. Tuy nhiên, số liệu này có thể dẫn đến kết quả không chính xác do nhiều vấn đề. Ví dụ: một tổ hợp kém có thể buộc các lần đọc và đường viền không liên quan thành siêu đường viền, dẫn đến N50 lớn một cách sai lầm (Scott 2014). Ngoài ra, nhiều bộ dữ liệu trình tự virus hoặc vi khuẩn có nhiễu nền cao từ vật chủ và các mục tiêu không phải là mục tiêu.

Chúng tôi đã phát triển một số liệu lắp ráp mới gọi là u 50, giúp loại bỏ những hạn chế này và cung cấp đánh giá thực tế hơn về sản lượng lắp ráp de novo, đặc biệt là đối với các bộ dữ liệu vi rút và vi khuẩn. Chỉ số U50 của chúng tôi xác định các nhóm duy nhất, dành riêng cho mục tiêu bằng cách sử dụng bộ gen tham chiếu làm đường cơ sở và áp dụng thuật toán tổng tích lũy mạnh mẽ để tính toán chỉ số.

Để chứng minh tính hiệu quả của u 50, 15 mẫu đã được lắp ráp với bốn bộ lắp ráp de novo khác nhau: ABySS v.1.9; SOAPdenovo2 v.r240; Spades 3.6.2; và Velvet v.1.2.10.

Hình 2F là một ví dụ về tổ hợp de novo, tạo ra nhiều đường viền chồng lên nhau. Số liệu U50 là đại diện chính xác hơn của tổ hợp vì nó xác định các đường viền duy nhất, dành riêng cho mục tiêu phù hợp với bộ gen tham chiếu.

Ngoài việc xác định các đường viền dành riêng cho mục tiêu, u 50 còn loại bỏ nhiễu nền khỏi bộ gen tham chiếu. Điều này cho phép tính toán UG50%, số liệu dựa trên tỷ lệ phần trăm có thể được sử dụng để so sánh kết quả lắp ráp từ các nền tảng hoặc mẫu khác nhau. Đối với hầu hết các mẫu vi rút và vi khuẩn, UG50% của SPAdes luôn cao hơn 90% và của Velvet thấp hơn 20%, cho thấy rằng SPAdes tạo ra các đường viền dài hơn và do đó vượt trội so với các trình biên dịch khác.