Cơ sở dữ liệu phả hệ có thể tiết lộ danh tính của hầu hết người Mỹ

Thứ hai - 15/10/2018 14:03     In bài viết

                

Bảo vệ tính ẩn danh của dữ liệu di truyền có sẵn công khai, bao gồm cả DNA được tặng cho các dự án nghiên cứu, dường như là không thể.
Một nghiên cứu mới đây cho thấy khoảng 60% người gốc Châu Âu tìm kiếm cơ sở dữ liệu phả hệ di truyền sẽ tìm thấy sự phù hợp với người họ hàng là người anh em họ đời thứ ba hoặc gần hơn. Yaniv Erlich và cộng sự đã có bài báo cáo trực tuyến vào ngày 11 tháng 10 về Khoa học: kết quả cho thấy rằng với một cơ sở dữ liệu khoảng 3 triệu người, cảnh sát hoặc bất kỳ ai khác có quyền truy cập vào dữ liệu DNA và có thể tìm ra danh tính của bất kỳ người Mỹ gốc Châu Âu nào.

Erlich, giám đốc khoa học của công ty thử nghiệm di truyền người tiêu dùng MyHeritage, và các đồng nghiệp đã kiểm tra cơ sở dữ liệu của công ty mình và của trang web phả hệ công cộng GEDMatch, mỗi trang chứa dữ liệu từ khoảng 1,2 triệu người. Sử dụng DNA phù hợp với người thân, cùng với thông tin về gia đình và một số dữ liệu nhân khẩu học cơ bản, các nhà khoa học ước tính rằng họ có thể thu hẹp danh tính của người sở hữu DNA ẩn danh chỉ còn một hoặc hai người.

Những trường hợp gần đây xác định các nghi phạm về tội phạm bạo lực thông qua tìm kiếm DNA của GEDMatch, chẳng hạn như vụ kiện Sát thủ Golden State(SN Online: 29/04/18), đã nêu lên những lo ngại về quyền riêng tư (SN Online: 6/7/18). Và quá trình tương tự được sử dụng để tìm nghi phạm hiếp dâm và giết người và cũng có thể xác định những người vô danh đã tặng DNA cho nghiên cứu di truyền và y học, các nhà khoa học nói.

Các quan chức chính phủ đã nhận định rằng: Dữ liệu di truyền được sử dụng trong nghiên cứu được loại bỏ thông tin như tên, tuổi và địa chỉ, và không  được sử dụng để xác định danh tính. Rori Rohlfs, một nhà di truyền thống kê tại Đại học bang San Francisco, không tham gia vào nghiên cứu cho biết  rằng "điều đó rõ ràng là không đúng", như Erlich và các đồng nghiệp đã chứng minh.

Sử dụng kỹ thuật phả hệ di truyền phản chiếu tìm kiếm Sát thủ Golden State và nghi phạm trong ít nhất 15 vụ án hình sự khác nhau, nhóm của Erlich đã xác định một người phụ nữ  ẩn danh tham gia trong dự án 1000 Genomes. Dự án đó liệt kê các biến thể di truyền trong khoảng 2.500 người từ khắp nơi trên thế giới.

Nhóm của Erlich đã thu thập dữ liệu ẩn danh của người phụ nữ đó từ cơ sở dữ liệu mà dự án 1000 Genomes công khai. Sau đó, các nhà nghiên cứu đã tạo ra một hồ sơ ADN tương tự như hồ sơ được tạo ra bởi các công ty kiểm tra di truyền của người tiêu dùng như 23andMe và AncestryDNA (SN: 6/23/18, tr.14) và đã tải hồ sơ đó lên GEDMatch.

Một tìm kiếm xuất hiện phù hợp với hai anh em họ xa xôi, một từ Bắc Dakota và một từ Wyoming. Những người anh em họ cũng chia sẻ DNA chỉ ra rằng họ có một tổ tiên chung từ bốn đến sáu thế hệ trước. Dựa trên một số thông tin về nguồn gốc gia đình đã được thu thập bởi những người anh em họ này, các nhà nghiên cứu đã xác định cặp vợ chồng tổ tiên và tìm hàng trăm con cháu của họ, tìm kiếm một người phụ nữ phù hợp với độ tuổi và dữ liệu nhân khẩu học công khai khác từ 1000 người tham gia Genome.

Phải mất một ngày để tìm đúng người.

Ví dụ đó cho thấy các nhà khoa học cần xem xét lại liệu họ có thể đảm bảo tính ẩn danh của người tham gia nghiên cứu nếu dữ liệu di truyền được chia sẻ công khai, Rohlfs nói.

Mặc dù vậy, trong thực tế, xác định danh tính một người từ sự phù hợp DNA với một người họ hàng xa khó khăn hơn nhiều so với xuất hiện của nó, và đòi hỏi rất nhiều chuyên môn và làm việc mật thám, Ellen Greytak nói. Cô là giám đốc tin sinh học tại Parabon NanoLabs, một công ty ở Reston, Va., Đã giúp phá ít nhất một tá vụ án hình sự kể từ tháng 5 bằng cách sử dụng tìm kiếm phả hệ di truyền. "Hố sâu ngăn cách giữa sự phù hợp và  đặc điểm nhận dạng là hoàn toàn lớn", cô nói.

Công ty cũng phát hiện ra rằng những người gốc châu Âu thường có sự phù hợp DNA với người thân trong GEDMatch. CeCe Moore, một nhà phả hệ, người dẫn đầu dịch vụ phả hệ di truyền của Parabon nói: theo dõi một nghi phạm đơn lẻ từ những sự phù hợp đó thường bị nhầm lẫn giữa các cuộc hôn nhân, nhận nuôi, bí danh, trường hợp cha mẹ bị xác định sai hoặc không có thông tin và các yếu tố khác,

"Nghiên cứu cho thấy sức mạnh của phả hệ di truyền theo một cách lý thuyết," Moore nói, "nhưng không nắm bắt đầy đủ những thách thức của công việc trong thực tế." Ví dụ, Erlich và các đồng nghiệp đã có một số thông tin nguồn gốc gia đình từ  người thân của người phụ nữ trong dự án 1000 Genome, "vì vậy họ đã có một khởi đầu đầy ý nghĩa."

Ví dụ của Erlich có thể là một sự đơn giản hóa, Rohlfs nói. Các nhà nghiên cứu đã đưa ra các ước tính sơ bộ và giả định không hoàn hảo, nhưng kết luận chắc chắn, cô nói. Và kết luận rằng hầu như bất cứ ai có thể được xác định từ DNA nên gợi ra cho công chúng thảo luận về cách dữ liệu DNA  được sử dụng để thực thi trong pháp luật và nghiên cứu, cô nói.

Nguyễn Ngà (Sciencenews)

 
Banner
Banner home right