Dữ liệu lớn thay đổi cuộc sống hàng ngày trên khắp nước Mỹ như thế nào?

Ý tưởng về 'dữ liệu lớn' đã trở nên phổ biến, nhưng đó là gì và nó thay đổi cách chúng ta sống như thế nào? Chúng tôi đã ngồi lại với nhà khoa học dữ liệu, tiến sĩ Harvard và đề cử giải thưởng sách quốc gia Cathy O'Neil để tìm hiểu.

CT: Hãy bắt đầu với những điều cơ bản - chính xác 'dữ liệu lớn' là gì?

CO: Dữ liệu lớn là một cách tiếp cận mới để dự đoán mọi thứ. Cụ thể hơn, 'dữ liệu lớn' là việc sử dụng dữ liệu được thu thập ngẫu nhiên - như cách bạn tìm kiếm thông qua trình duyệt hoặc những gì bạn làm trên Facebook - để suy luận những điều về bạn, như những gì bạn sẽ mua hoặc những liên kết chính trị của bạn. Đó là một cách gián tiếp để tìm ra mọi người. Ví dụ: một camera giám sát chúng tôi không hỏi 'Bạn đang làm gì?' - nó chỉ để xem những gì chúng ta đang làm.

CT: Và thuật toán là gì?

CO: Thuật toán là các tính toán [diễn giải] dữ liệu thu thập về bạn để tạo dự đoán. Hãy nghĩ về nó giống như một phương trình toán học cố gắng trả lời một câu hỏi được đóng khung như dự đoán, chẳng hạn như: 'Người này có định mua gì không?' hoặc 'Người này sắp bầu cho ai đó?'

CT: Tại sao tôi nghe nhiều về nó ngay bây giờ?

CO: Trước 'dữ liệu lớn', các nhà thống kê sẽ làm những việc đắt tiền như bỏ phiếu cho mọi người để tìm ra tương lai. Ví dụ: hỏi mọi người những câu hỏi trực tiếp như: 'Bạn sẽ bỏ phiếu cho ai?' Bây giờ, chúng tôi ngày càng dựa vào 'xả dữ liệu', đó là những gì tôi gọi là dữ liệu được thu thập liên tục về bạn, để suy luận những điều về bạn.

Trước 'dữ liệu lớn', các công ty chỉ có những dự đoán hoang dã để thực hiện. Bây giờ, chúng tôi có tốt hơn so với dự đoán hoang dã. Điều đáng ngạc nhiên là hầu hết các thuật toán dữ liệu lớn đều cực kỳ thiếu chính xác và không có lý do gì để cho rằng chúng đúng. Nhưng chúng tốt hơn những phỏng đoán hoang dã. Và đó là lý do tại sao dữ liệu lớn đã được đưa ra như nó có.

CT: Nếu chúng không chính xác, thì chúng phản ánh điều gì?

CO: Các bộ dữ liệu thiếu sót mà chúng tôi cung cấp cho chúng. Các thuật toán không biết bất cứ điều gì ngoài những gì chúng tôi nói với họ. Vì vậy, khi chúng tôi có dữ liệu không đồng đều và chúng tôi cung cấp dữ liệu đó cho thuật toán hoặc dữ liệu sai lệch, nó sẽ nghĩ đó là thực tế.

Ailsa Johnson / © Chuyến đi văn hóa

CT: một ví dụ thực tế về điều đó là gì?

CO: Một ví dụ có thể là ở Hoa Kỳ, người da đen có khả năng bị bắt vì hút thuốc nhiều gấp năm lần so với người da trắng. Điều này không phải vì người da đen hút nồi thường xuyên hơn - cả hai nhóm đều hút nồi với cùng một tỷ lệ. Những người da đen có nhiều khả năng bị bắt vì nó. Nếu bạn trao nó cho một thuật toán mà chúng tôi làm, nó sẽ suy luận chính xác rằng những người da đen có nhiều khả năng, trong tương lai, sẽ bị bắt vì tội hút thuốc. Và sau đó nó sẽ cung cấp cho người da đen điểm rủi ro cao hơn cho tội phạm, có ảnh hưởng đến kết án hình sự.

Một ví dụ khác là một thí nghiệm suy nghĩ. Tôi sẽ sử dụng Fox News, vì Fox News gần đây đã có những vụ phun trào liên quan đến văn hóa phân biệt giới tính nội bộ. Thí nghiệm là 'Điều gì sẽ xảy ra nếu Fox News cố gắng sử dụng dữ liệu của riêng họ để xây dựng thuật toán học máy để thuê người trong tương lai?'

Giả sử chúng tôi đang tìm kiếm những người thành công tại Fox News chẳng hạn. Nó phụ thuộc vào cách bạn xác định thành công, nhưng thông thường bạn sẽ nhìn vào những người được tăng lương, thăng chức hoặc ở lại trong một thời gian dài. Bằng bất kỳ biện pháp nào, dữ liệu sẽ phản ánh rằng phụ nữ không thành công tại Fox News. Nếu được sử dụng như một thuật toán tuyển dụng, nó sẽ truyền bá vấn đề đó. Nó sẽ nhìn vào một nhóm ứng viên và nó sẽ nói 'Tôi không muốn thuê bất kỳ phụ nữ nào, vì họ không thành công ở đây. Họ không phải là người thuê giỏi. ' Và đó không phải là Fox News - mọi nền văn hóa doanh nghiệp đều có thành kiến. Khi bạn cung cấp dữ liệu thuật toán, độ lệch thuật toán sẽ lan truyền điều đó. Nó tiếp tục củng cố những thành kiến đã tồn tại trong xã hội.

CT: Là những thành kiến cố ý?

CO: Tôi không nghĩ các nhà khoa học dữ liệu đang cố gắng tạo ra các thuật toán phân biệt chủng tộc hay phân biệt chủng tộc. Nhưng các thuật toán học máy đặc biệt tốt trong việc chọn các mẫu tương đối sắc thái, và sau đó truyền bá chúng. Đó không phải là thứ mà các nhà khoa học dữ liệu đang cố tình làm, nhưng dù sao nó cũng thiên vị.

CT: Vai trò của thuật toán không chính xác đóng vai trò gì trong cuộc sống hàng ngày của chúng ta?

CO: Chúng đang được sử dụng trong tất cả các loại quyết định cho cuộc sống của mọi người - mọi thứ từ tuyển sinh đại học đến nhận việc.

Có các thuật toán quyết định cảnh sát sẽ cảnh sát khu phố như thế nào, cũng như các thuật toán quyết định cách các thẩm phán sẽ kết án các bị cáo. Có các thuật toán quyết định số tiền bạn sẽ trả cho bảo hiểm, hoặc loại APR [lãi suất] bạn nhận được trong thẻ tín dụng của mình. Có các thuật toán quyết định cách bạn đang làm trong công việc của mình, được sử dụng để xác định tăng lương. Có những thuật toán mỗi bước trên con đường, từ khi sinh ra cho đến khi chết.

CT: Vậy nơi đó để lại cho chúng tôi?

CO: Chúng ta đã nhảy vào kỷ nguyên dữ liệu lớn và đã ném các thuật toán vào mọi vấn đề mà chúng ta có, giả sử những thuật toán đó phải công bằng hơn con người - nhưng thực ra chúng cũng không công bằng như con người. Chúng ta phải làm tốt hơn.

Bấm vào đây để đọc phần thứ hai của cuộc phỏng vấn của chúng tôi với Tiến sĩ O'Neil. Cuốn sách của cô, Vũ khí hủy diệt toán học: Làm thế nào dữ liệu lớn làm tăng bất bình đẳng và đe dọa nền dân chủ hiện có.