TTCT - Thông tin trên Internet không trường tồn với thời gian như nhiều người lầm tưởng, và lưu giữ chúng cho thế hệ tương lai là một việc dù khó vẫn cần làm. Một thống kê của Trung tâm nghiên cứu Pew (Mỹ) cho thấy 1/4 số trang web từng tồn tại trong khoảng thời gian từ năm 2013 đến 2023 đã không còn truy cập được ở thời điểm tháng 10-2023. Nếu xem Internet là một chương trong quyển sách khổng lồ mang tên lịch sử nhân loại thì những trang web biến mất đó giống như những trang sách đã bị xé đi, vĩnh viễn không khôi phục được nếu thông tin mà chúng chứa đựng không được sao chép hoặc lưu trữ trước đó. Một số tổ chức đang chạy đua với thời gian để lưu giữ một bản sao của Internet, nhưng nỗ lực của họ đang gặp nhiều thách thức.Lịch sử hiện đại mà dễ mấtNhờ những mảnh giấy cói, tranh khảm và phiến sáp còn sót lại, ta có thể biết được những cư dân thành phố Pompeii của La Mã cổ đại đã ăn gì vào bữa sáng cách đây 2.000 năm. Nếu có thể đọc hiểu chữ Latin Trung cổ, bạn có thể biết có bao nhiêu gia súc được nuôi tại các trang trại ở vùng Northumberland thuộc Anh vào thế kỷ 11 nhờ vào sách Domesday, tài liệu lâu đời nhất được lưu giữ tại Cơ quan lưu trữ quốc gia Vương quốc Anh. Thông qua những lá thư tay còn sót lại, bức tranh xã hội thời kỳ Victoria ở thế kỷ 19 - thậm chí đến chuyện người này yêu ghét người kia - cũng được hậu bối tỏ tường.Tuy nhiên, các sử gia của tương lai có thể gặp khó khăn trong việc hiểu một cách trọn vẹn cách chúng ta đang sống cuộc sống của mình ở thế kỷ 21, dù văn minh hiện đại hơn nhiều lần so với vài ngàn năm trước. Điều này một phần là bởi các tài nguyên kỹ thuật số có thể biến mất bất kỳ lúc nào, trong khi có quá ít nỗ lực để lưu trữ những gì Internet đang có và đang tạo ra mỗi ngày."Rủi ro nhiều vô kể. Công nghệ có khả năng gặp sự cố, và chắc chắn sẽ gặp sự cố. Nhưng quan trọng hơn, các tổ chức có thể thất bại, công ty phá sản, các cơ quan thông tấn bị thâu tóm hoặc đóng cửa" - BBC dẫn lời Mark Graham, giám đốc dự án Wayback Machine chuyên thu thập và lưu giữ bản sao của các trang web do tổ chức Internet Archive phát triển.Theo Graham, lý do để đưa nội dung mới lên mạng thì rất nhiều, nhưng để duy trì những nội dung đó một cách lâu dài thì rất ít công ty có động lực hay kinh phí để thực hiện. Internet Archive là một tổ chức phi lợi nhuận có trụ sở tại San Francisco (Mỹ), được thành lập năm 1996 với mục tiêu lưu giữ lịch sử của Internet. Tính đến hết năm 2023, Internet Archive (archive.org) đã thu thập bản sao của 839 tỉ trang web, 46 triệu bản sách, hơn 11 triệu video bao gồm phim ảnh và các chương trình truyền hình, cùng nhiều tài nguyên kỹ thuật số khác, theo defenderbox.de.Những cỗ máy thời gianSự biến mất của các thông tin trên Internet không chỉ đáng quan ngại đối với các sử gia. Theo nghiên cứu của Pew, khoảng 1/5 trang web chính phủ ngày nay đang chứa ít nhất một đường dẫn không còn hoạt động, và hơn một nửa các bài viết trên bách khoa toàn thư số Wikipedia có dẫn nguồn từ các trang web không còn truy cập được. "Bằng chứng để đảm bảo tính xác thực của các thông tin trên bách khoa toàn thư trực tuyến này đang dần tan rã" - BBC nhận xét.Để làm chậm lại quá trình này, trong nhiều thập kỷ dự án Wayback Machine của Internet Archive đã gửi đi một đội quân robot để tải xuống bản sao của các trang web ở từng thời điểm và cung cấp quyền truy cập miễn phí cho công chúng. Theo Graham, trong số các đường dẫn không còn truy cập được trên Wikipedia, khoảng 2/3 đã được lưu trữ ở dạng bản sao trên Wayback Machine. Ở phương diện này, Internet Archive đã thực hiện đúng sứ mệnh mà họ được sinh ra để làm: cứu lấy những vết tích của xã hội trực tuyến cho hậu thế.Và họ không phải là tổ chức duy nhất đang theo đuổi mục tiêu ấy. Một số ít tổ chức cả tư nhân lẫn chính phủ đang duy trì những dự án tương tự để lưu giữ những lát cắt Internet. Thư viện Quốc hội Mỹ đang lưu giữ bản sao của các trang web chính phủ, trang web của các nghị sĩ, và một bộ sưu tập các trang tin tức Mỹ. Thư viện này cũng từng lưu giữ một bản sao của toàn bộ các dòng tweet từng được đăng trên mạng xã hội Twitter trước đây (nay đã đổi tên thành X) cho đến khi dự án này bị dừng lại vào năm 2017.Chính phủ Anh cũng có dự án UK Web Archive, trong đó ít nhất mỗi năm một lần họ sẽ tải xuống các trang web có tên miền .uk và lưu lại bản sao của chúng tại thời điểm đó. Năm 2022, một nhóm tình nguyện viên tiến hành chụp lại bản sao của các trang web Ukraine trước nguy cơ bị tấn công mạng từ các tin tặc Nga. Trong khi các dự án đa số đều nhắm đến một ngách cụ thể của Internet, Internet Archive có mục tiêu tổng quát hơn là lưu lại toàn bộ Internet nếu có thể. Dẫu đó là một mục tiêu xa vời, kho lưu trữ của họ đồ sộ đến mức không ngoa khi gọi đó là bản sao hoàn chỉnh nhất của Internet mà nhân loại đang có.Chuẩn trích dẫn mới?Thời gian gần đây, việc trích dẫn bản sao của các trang web được lưu trữ trên công cụ Wayback Machine - thay vì dẫn nguồn đến trang web gốc - đã trở thành thông lệ đối với các biên tập viên Wikipedia, nhờ vào khả năng tồn tại lâu dài của các liên kết trên nền tảng này.Không chỉ lưu giữ các thông tin trong kỷ nguyên Internet, Internet Archive còn hướng đến lưu giữ một bộ sưu tập các phương tiện truyền thông có từ trước kỷ nguyên kỹ thuật số: các bộ phim, sách báo và tạp chí cũ không có sẵn trong các thư viện vật lý cũng đang được tổ chức này số hóa và đưa lên kho lưu trữ số cho mọi người cùng tiếp cận.Mới đây nhất, Quốc hội Mỹ đã phải dựa vào kho lưu trữ của Internet Archive để lục lại bằng chứng về các bài viết và tài liệu đã bị xóa liên quan đến vụ bạo loạn ở Điện Capitol ngày 6-1-2021. Trước đó, trang tin công nghệ CNET từng hứng chịu chỉ trích vì xóa hàng chục nghìn bài báo trải dài hàng thập kỷ khỏi nền tảng của mình. Một trong những câu trả lời của CNET để xoa dịu dư luận đó là lời cam đoan toàn bộ những bài viết này đã được lưu trữ bởi… Wayback Machine, ai muốn vẫn có thể lên đó mà đọc."Mặc dù Google và các công cụ tìm kiếm khác luôn chủ động khuyến khích duy trì các đường dẫn ổn định, về mặt kỹ thuật điều đó khá khó thực hiện. Mỗi khi một công ty cải tổ trang web của mình, họ phải tính toán xem họ sẽ cần cố gắng duy trì bao nhiêu đường dẫn về lâu dài" - Andrew Jackson, kỹ sư công nghệ tại Digital Preservation Coalition, một nhóm vận động có trụ sở tại Vương quốc Anh chuyên tư vấn về cách bảo quản kho lưu trữ kỹ thuật số trực tuyến, nói.Nhưng điều cần nhớ là Internet Archive chỉ là một tổ chức phi lợi nhuận được tài trợ bởi đóng góp của các nhà hảo tâm. Trong khi đó, tôn chỉ hoạt động của tổ chức này khiến chi phí vận hành của họ ngày càng tăng tỉ lệ thuận với lượng thông tin và nhu cầu truy cập ngày một nhiều trên Internet. Thật khó tưởng tượng chuyện gì sẽ xảy ra nếu dự án vì một lý do nào đó ngừng hoạt động và toàn bộ kho lưu trữ Internet của nhân loại biến mất trong phút chốc.Khó khăn bủa vâyTháng 9-2024, Internet Archive thông báo đạt được thỏa thuận hợp tác với Google, trong đó ông lớn công nghệ Mỹ đồng ý hiển thị các đường dẫn đến Wayback Machine trong kết quả tìm kiếm. Tuy nhiên, bất chấp những thành tựu của Internet Archive, tổ chức này và một vài tổ chức khác có mục tiêu giống như họ đang phải đối mặt với các mối đe dọa về tài chính, thách thức về mặt kỹ thuật, tấn công mạng và cả những cuộc chiến pháp lý từ các doanh nghiệp không thích ý tưởng tài sản trí tuệ của họ bị sao chép và cung cấp cho công chúng một cách miễn phí.Kết quả của các vụ kiện gần đây cho thấy dự án lưu trữ Internet có thể cũng mong manh như những nội dung mà nó đang cố gắng bảo vệ. Chẳng hạn vụ Internet Archive bị 4 nhà xuất bản sách lớn ở Mỹ kiện vi phạm luật bản quyền vì đã sao chụp các quyển sách vật lý và cấp quyền truy cập tới phiên bản số hóa của chúng cho người dùng. Tại phiên tòa đầu tiên tháng 4-2023, Internet Archive bị xử thua (xem lại bài ?). Đơn kháng cáo của Internet Archive sau đó cũng bị bác vào đầu tháng 9-2024.Vụ này vừa xong, Internet Archive lại phải đau đầu với một đơn kiện khác bởi các hãng đĩa âm nhạc vì hành vi số hóa các đĩa than cũ. Nếu thua kiện, Internet Archive đối diện với mức bồi thường lên đến 400 triệu USD - con số có thể đe dọa sự tồn tại của tổ chức này.Kiện tụng không phải là thách thức duy nhất của các dự án lưu trữ Internet. Tháng 10-2023, dự án UK Web Archive của Chính phủ Anh hứng chịu một vụ tấn công tin tặc khiến toàn bộ hệ thống bị ngắt kết nối. Gần một năm sau, dự án này vẫn đang khắc phục hậu quả từ sự cố, và kết nối đến phần lớn kho lưu trữ của họ vẫn chưa thể được khôi phục.Tương tự, hồi tháng 5-2024 Internet Archive cho biết họ đang là nạn nhân của một chiến dịch tấn công từ chối dịch vụ (DDoS) - một phương thức tấn công trong đó tin tặc thiết lập các hệ thống tự động truy cập ồ ạt vào nền tảng với mục tiêu làm quá tải máy chủ. Hệ thống của Wayback Machine đã bị gián đoạn một thời gian, đồng nghĩa có một phần của Internet có thể đã vĩnh viễn không được lưu dấu trong sử sách. Trong tháng 10 vừa qua, có ít nhất 4 đợt tấn công như vậy nhằm vào Wayback Machine.Để những nỗ lực lưu trữ Internet đi được đường dài cần sự chung tay của tất cả. "Nếu bạn không trả tiền cho những người này và đảm bảo rằng các kho lưu trữ này được tài trợ, chúng sẽ không tồn tại trong tương lai, chúng sẽ bị phá vỡ và sau đó toàn bộ mục đích thu thập chúng sẽ không còn nữa" - Mar Hicks, một sử gia công nghệ tại Đại học Virginia (Mỹ), nói với BBC.Hicks cho rằng toàn bộ mục đích của kho lưu trữ không phải là chỉ thu thập dữ liệu, mà còn là "đảm bảo nó tồn tại vô thời hạn trong tương lai". Nhưng lý lẽ của bên nắm bản quyền dữ liệu, như các nhà xuất bản đưa ra và thực tế đã thắng về mặt pháp lý, thì sao? Cứu lấy Internet quả là không dễ chút nào. Để không giẫm chân nhauMột khó khăn của các dự án lưu trữ Internet là làm sao để xác định nên ưu tiên lưu trữ những gì trong đại dương thông tin mênh mông. Có dự án sẽ tập trung vào một khía cạnh rất đặc thù, nhưng cũng có dự án muốn sao chép toàn bộ Internet. Điều này làm dấy lên lo ngại rằng với cách tiếp cận phi tập trung và không có một cơ quan nào đứng ra chịu trách nhiệm điều phối chung, sự chồng chéo không cần thiết trong lưu trữ là rất dễ xảy ra. "Nghĩa là các tài nguyên quý giá bị lãng phí khi dùng để lưu trữ trùng lặp 2 hoặc 3 lần các trang web phổ biến nhất, trong khi một số khu vực có thể có tầm quan trọng về mặt lịch sử lại bị bỏ qua" - nhà báo Chris Stokel-Walker của BBC giải thích. Không chỉ là lịch sửĐối với nhiều người dân Palestine, các cuộc tấn công đang tiếp diễn của Israel tại Dải Gaza không chỉ phá hủy các tòa nhà và lấy đi nhiều sinh mạng, mà còn góp phần phá hủy lịch sử của một dân tộc khi khiến hạ tầng Internet bị ảnh hưởng nặng nề. Giữa bối cảnh đó, một nghệ sĩ địa phương đang cố gắng bảo tồn lịch sử Palestine bằng một kho lưu trữ kỹ thuật số tập hợp những gì còn sót lại của Internet tại Palestine giai đoạn cuối thập niên 1990, đầu những năm 2000.Dự án mang tên Palestine Online do Amad Ansari khởi xướng bắt đầu từ một nỗ lực xâu chuỗi thông tin về cuộc đấu tranh lịch sử của người dân Palestine thông qua chính lời nói và những biểu đạt của họ trên mạng kể từ thời điểm Internet bắt đầu bén rễ. Những tấm ảnh GIF sinh động hay những trang web cá nhân được dựng lên thô sơ do dự án Palestine Online lưu lại đều lột tả một khía cạnh riêng tư và gần gũi của cuộc sống người dân Palestine mà truyền thông chính thống thường bỏ qua."Tôi muốn nghiên cứu về bản sắc và sự hiện diện trực tuyến của người Palestine cách đây 10 năm, 20 năm. Thật sự mở mang tầm mắt khi thấy những gì đã thay đổi và những gì không thay đổi - cách người Palestine sử dụng tiếng nói của họ để bày tỏ và biểu đạt việc đất nước mình bị chiếm đóng, đồng thời thể hiện văn hóa và lịch sử của họ" - Ansari nói với trang Vice. Tags: Công nghệInternetLưu trữ internetInternet Archive
Học toán trong thời đại AI: Ta cần nghĩ tới những điều mình có thể giúp người khác KHỔNG LOAN 19/12/2024 2011 từ
Tinh gọn bộ máy: Phải có 'đường chạy' nhất quán CAO VŨ MINH (TRƯỜNG ĐH KINH TẾ - LUẬT) 18/12/2024 1788 từ
Thuế nào chống đầu cơ bất động sản hiệu quả? TS Phan Phương Nam (Trường đại học Luật TP.HCM) 18/12/2024 1720 từ
16 hợp đồng trị giá 286 triệu USD ký tại triển lãm quốc phòng quốc tế NAM TRẦN 22/12/2024 Các đơn vị của Tổng cục Công nghiệp quốc phòng, Tập đoàn Công nghiệp - Viễn thông quân đội (Viettel) đã ký kết 16 hợp đồng.
Chi tiết toàn bộ bảng lương công chức áp dụng năm 2025 THÀNH CHUNG 22/12/2024 Dưới đây là chi tiết toàn bộ bảng lương công chức được áp dụng từ năm 2025. Bảng lương được tính theo mức lương cơ sở 2,34 triệu đồng/tháng.
Du khách nhộn nhịp đến Phú Quốc dịp Noel và Tết dương lịch 2025 CHÍ CÔNG 22/12/2024 Dịp lễ Noel và Tết dương lịch 2025, khách quốc tế và đặc biệt là khách nội địa nhộn nhịp trở lại đảo Phú Quốc (Kiên Giang).
Tìm thấy máy bay mất tích ở vùng Viễn Đông Nga, 3 người sống sót thần kỳ THANH HIỀN 22/12/2024 Máy bay An-2 mất tích ở vùng Viễn Đông của Nga đã được tìm thấy. Cả 3 người trên máy bay vẫn còn sống sau 3 ngày chống chọi với thời tiết khắc nghiệt và phải đào hố tuyết để giữ ấm.