Chuyển tới nội dung

Tổng quan về ngành khoa học dữ liệu

Cùng với sự phát triển của khoa học công nghệ và xu hướng số hoá, ngành Khoa học dữ liệu (Data Science) ngày càng khẳng định được vị thế và tầm quan trọng của mình. Khi mà giờ đây, các doanh nghiệp ngày càng trở nên phụ thuộc vào data, Harvard Business Review đã nhận định Data Scientist là “ngành nghề sexy nhất thế kỷ 21” với nhu cầu tuyển dụng cao, mức lương hấp dẫn, thu hút nguồn nhân lực trẻ, từ đó biến Khoa học dữ liệu trở thành ngành học tiềm năng, nhận được sự quan tâm hàng đầu.

I. Định nghĩa về ngành Khoa học dữ liệu

Dựa theo bài báo “Data Scientist: Điều gì khiến nó trở thành nghề nghiệp “sexy” nhất thế kỷ 21?” được đăng tải trên trang PRIMUS, Khoa học dữ liệu là sự pha trộn giữa nhiều phương pháp khoa học, quy trình, thuật toán và công nghệ khác nhau, hướng đến việc khai thác, quản trị và phân tích dữ liệu nhằm rút ra những thông tin cần thiết hay dự đoán xu hướng trong tương lai, từ đó giúp doanh nghiệp đưa ra quyết định, chiến lược hành động đúng đắn và hợp lý. Theo trường Đại học Công nghệ thông tin về “Tổng quan ngành Khoa học Dữ liệu”, Khoa học dữ liệu gồm ba phần: tạo và quản trị dữ liệu, phân tích dữ liệu và chuyển hoá kết quả phân tích thành những hành động có giá trị. Qua đó, MDS có thể rút ra được quy trình ứng dụng Khoa học dữ liệu phải trải qua hai bước chính là số hoá và sử dụng dữ liệu. Việc tiến hành phân tích và dùng dữ liệu đòi hỏi sự phối hợp những kỹ thuật và lý thuyết đến từ ba nguồn tri thức: toán học (thống kê toán học), công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể.

II. Ứng dụng của Khoa học dữ liệu:

Vượt ra khỏi giới hạn của lĩnh vực công nghệ và những dịch vụ tài chính, khoa học dữ liệu còn ảnh hưởng đến số phận của tất cả các tổ chức ở khắp các ngành công nghiệp. Các insight và trí tuệ được trích xuất từ dữ liệu có tác động tích cực đến quá trình đưa ra quyết định then chốt và tối ưu hoá việc giải quyết những vấn đề quan trọng và phức tạp nhất trong khía cạnh kinh doanh, cho phép các doanh nghiệp có những bước ngoặt mang tính đột phá. Theo thống kê, các công ty sử dụng dữ liệu để đưa ra quyết định có năng suất cao hơn và thu được nhiều lợi nhuận hơn so với đối thủ của mình.

Netflix là một trong những ví dụ điển hình cho thành công của doanh nghiệp khi ứng dụng phân tích dữ liệu để cải thiện mô hình kinh doanh, cụ thể là sử dụng dữ liệu nhằm giảm thiểu rủi ro trong việc đưa ra quyết định. Nếu như trước đây, các nhà quản lý đều dựa vào trực giác và dư luận để đưa ra các quyết định về việc sản xuất bộ phim kế tiếp thì bây giờ, họ đã sử dụng các hệ thống ra quyết định của Big Data dựa trên cơ sở kiến trúc dữ liệu phân tích phù hợp nhằm có được đánh giá khách quan nhất, giảm thiểu rủi ro và mang lại kết quả như mong đợi. Cụ thể, Netflix liên tục thu thập dữ liệu về lịch sử xem, lịch sử tìm kiếm, nhân khẩu học, xếp hạng và sở thích của người dùng, từ đó sử dụng các thuật toán do AI hỗ trợ để đưa ra dự đoán với độ chính xác lên đến 80% những gì người dùng có thể muốn xem tiếp theo. Một ví dụ điển hình cho thành công của thuật toán này là trường hợp của “The Umbrella Academy”. Các giám đốc điều hành studio của Netflix đã biết bộ phim này sẽ thành công vì nó đánh vào một số điểm tiếp xúc (Customer Touchpoint) của người dùng: đây là một câu chuyện thuộc thể loại tuổi mới lớn xoay quanh những chuyến phiêu lưu hành động với sự tham gia của diễn viên Elliot Page, đó là tất cả các yếu tố đã được chứng minh là thành công trong quá khứ. Thêm vào đó, Netflix đã có một hồ sơ theo dõi đã được chứng minh về việc xác định và nhắm mục tiêu đến những người dùng bị thu hút bởi những điểm tiếp xúc này, vì vậy họ tự tin rằng mình có thể tiếp thị nó thành công. Và thực tế đã chứng minh rằng họ đã đúng.
Để xây dựng thành công như ngày hôm nay, Netflix đã linh hoạt ứng dụng phân tích dữ liệu để thực hiện truyền thông hay thấu hiểu khách hàng, từ đó từng bước chinh phục thị trường thế giới. Trường hợp của Netflix đã chứng minh rằng việc không ngừng phát triển, thay đổi công nghệ để gia tăng hiểu biết về thị trường theo từng khu vực kinh doanh chính là yếu tố quan trọng để gia tăng tiềm lực kinh tế và đảm bảo sự thành công vững chắc của doanh nghiệp.

III. Một số khái niệm cơ bản của Khoa học dữ liệu:

Dataset (tập hợp dữ liệu): là một đối tượng có thể chứa nhiều DataTable cùng với mối liên hệ giữa chúng (relationship) và kể các ràng buộc (constraint) được lưu hoàn toàn trong bộ nhớ để làm việc offline.
Data Wrangling (sắp xếp dữ liệu): là quá trình chuyển đổi dữ liệu từ dạng thô sang dạng sẵn sàng để phân tích thông qua các quy trình như: nhập dữ liệu, làm sạch dữ liệu, cấu trúc dữ liệu, xử lý chuỗi, phân tích cú pháp HTML, xử lý ngày và giờ, xử lý dữ liệu bị thiếu và khai thác văn bản. Sắp xếp dữ liệu là một bước quan trọng trong tiền xử lý dữ liệu.
Data Visualization (trực quan hóa dữ liệu): là một phương thức biểu diễn trực quan của dữ liệu, cho biết tổng quan về mẫu nghiên cứu, các xu hướng, các giá trị ngoại lệ và mối tương quan trong dữ liệu. Phương thức phổ biến nhất làm cho dữ liệu trở nên trực quan là thông qua biểu đồ như: biểu đồ phân tán (scatter plots), biểu đồ đường (line graph), biểu đồ thanh (bar plots), biểu đồ (histograms) , biểu đồ qqp (qq plots), mật độ mịn (smooth densities), biểu đồ hình hộp (box plots) , biểu đồ cặp (pair plots), bản đồ nhiệt (heat maps), v.v. . Trực quan hóa dữ liệu cũng giúp người phân tích và những người ra quyết định dễ dàng hiểu được ý nghĩa của dữ liệu để thúc đẩy các quyết định trong kinh doanh và quản lý.
Outliers (ngoại lai): là một điểm dữ liệu rất khác với phần còn lại của tập dữ liệu. Các giá trị ngoại lai thường chỉ là dữ liệu xấu, có thể xảy ra do cảm biến bị trục trặc, thí nghiệm bị ô nhiễm, hoặc lỗi của con người trong việc ghi dữ liệu. Đôi khi, các ngoại lai cũng là dấu hiệu cho sự cố trong hệ thống. Cách phổ biến để phát hiện các giá trị ngoại lai trong tập dữ liệu là sử dụng biểu đồ hộp. Các giá trị ngoại lai có thể làm suy giảm đáng kể khả năng dự đoán của mô hình học máy. Có thể đối phó với các giá trị ngoại lai bằng cách đơn giản là bỏ qua các điểm dữ liệu.
Data Imputation (dữ liệu thay thế): là hướng tiếp cận chính, được hầu hết mọi chuyên viên trong ngành Data science ưu tiên sử dụng khi phải đối diện với những yếu tố missing values. Imputation được hiểu là thay thế sửa chữa những giá trị bị missing, thêm vào những giá trị – là hiệu quả có được sau khi trải qua triển khai những giải pháp đo lường và thống kê, định lượng tương thích, sau đó tiếp tục nghiên cứu và phân tích tập dữ liệu không bị thiếu.
Data Scaling (co giãn dữ liệu): là mở rộng quy mô của database nhưng không làm ảnh hưởng đến performance (hoặc giữ tối thiểu mức ảnh hưởng), với mục đích cải thiện chất lượng và khả năng dự đoán của mô hình đang có thông qua phương pháp bình thường hóa (normalization) hoặc chuẩn hóa (standardization) các thuộc tính.
Principal Component Analysis (PCA) (Phân tích thành phần chính): là thuật toán thống kê sử dụng phép biến đổi trực giao để biến đổi tập hợp dữ liệu từ một không gian nhiều chiều sang một không gian mới ít chiều hơn (2 hoặc 3 chiều) nhằm tối ưu hóa việc thể hiện sự biến thiên của dữ liệu. PCA giúp tìm một hệ trực chuẩn để làm cơ sở mới, nhằm đơn giản hoá việc tính toán
Linear Discriminant Analysis (LDA) (phân tích phân biệt tuyến tính): là phương pháp giảm chiều dữ liệu cho bài toán classification. Không chỉ được xem là phương pháp giảm chiều dữ liệu (dimensionality reduc- tion), LDA còn được xem là phương pháp phân lớp (classification) và cũng có thể được áp dụng đồng thời cho cả hai, tức giảm chiều dữ liệu sao cho việc phân lớp hiệu quả nhất.
Data Partitioning (phân chia dữ liệu): là kỹ thuật chia nhỏ bảng ra thành nhiều khối nhỏ theo một logic nhất định, được phân biệt bằng key, key này thường là tên column trong table. Kỹ thuật này giúp lấy dữ liệu tại vùng nhất định thay vì toàn bộ table như trước đây, khiến việc tìm kiếm trở nên dễ dàng và thuận tiện hơn.
Cross-validation (xác thực chéo): là phương pháp đánh giá hiệu suất của mô hình học máy trên các mẫu ngẫu nhiên của tập dữ liệu nhằm đảm bảo rằng mọi thành kiến trong tập dữ liệu đều được ghi lại. Xác thực chéo có thể giúp có được các ước tính đáng tin cậy về lỗi tổng quát hóa của mô hình hay so sánh và chọn ra mô hình tốt nhất cho một bài toán.
IV. Kỹ năng phân tích dữ liệu:

Dựa trên báo cáo Xu hướng nhân tài toàn cầu năm 2019 của LinkedIn cho thấy có đến 92% các nhà quản lý tuyển dụng được khảo sát nói rằng các kỹ năng mềm cũng quan trọng hay thậm chí là quan trọng hơn các kỹ năng cứng.

Trong đó doanh nghiệp cho rằng họ đặc biệt dành sự quan tâm đến những ứng viên có các kỹ năng liên quan đến tư duy phân tích như: giao tiếp, tư duy phản biện, khả năng giải quyết vấn đề cũng như kỹ năng phân tích dữ liệu và thông tin. Tư duy phân tích dữ liệu là thành phần quan trọng của tư duy trực quan, giúp tiếp cận vấn đề một cách khoa học và logic hơn, mang lại khả năng giải quyết vấn đề nhanh chóng và hiệu quả. Bất kỳ ai cũng có thể học các kỹ năng phân tích dữ liệu, bao gồm quan sát và thu thập thông tin, sau đó sử dụng thông tin đó và những hiểu biết thu thập được để phân tích vấn đề và phát triển quy trình tư duy phản biện nhằm dẫn đến các giải pháp sáng tạo.
“Một trong những khía cạnh quan trọng nhất của khoa học dữ liệu là kỹ năng phân tích dữ liệu” (Mary Ann Liebert, Inc, Big Data, p55). Mục tiêu tổng thể của tư duy phân tích trong bối cảnh khoa học dữ liệu là cải thiện các quy trình thông qua cách nâng cao năng suất để đem lại thành công to lớn hơn. Nhiều nhà tuyển dụng thích những ứng viên có thể thể hiện kỹ năng phân tích vì họ có nhiều khả năng phát triển các giải pháp hữu ích, có thể hành động được cho các vấn đề kinh doanh hàng ngày. Đặc điểm này đặc biệt quan trọng trong khoa học dữ liệu, một lĩnh vực đòi hỏi tư duy phân tích ở nhiều cấp độ.
Không chỉ trong khoa học dữ liệu, chúng ta sử dụng các kỹ năng phân tích thường xuyên trong các ứng dụng hàng ngày. Bất cứ khi nào chúng ta quan sát, diễn giải và hình thành những ý tưởng mới, chúng ta đang sử dụng các kỹ năng phân tích. Sau đây là một trong số nhiều cách tiếp cận quy trình phân tích:

  1. Xác định vấn đề.
  2. Thu thập thông tin cần thiết từ tất cả các nguồn có liên quan.
  3. Phát triển sự hiểu biết sâu hơn với vấn đề.
  4. Đưa ra những ý tưởng và giải pháp mới.
  5. Thực hiện các giải pháp mới.
  6. Phân tích, thử nghiệm và xem xét hiệu quả của các giải pháp mới được triển khai.
  7. Dựa trên kết quả, tiếp tục xem xét để phát triển các giải pháp cần thiết bổ sung.
  8. Ra quyết định theo hướng dữ liệu (Data-Driven Decision-Making)

V. Ra quyết định theo hướng dữ liệu (Data-Driven Decision-Making)

Một trong những mục tiêu quan trọng nhất của ứng dụng khoa học dữ liệu là cải thiện việc ra quyết định, đây cũng là mối quan tâm hàng đầu đối với doanh nghiệp. Ra quyết định theo hướng dữ liệu là thực hành các quyết định dựa trên phân tích dữ liệu thay vì hoàn toàn dựa trên trực giác.

Việc xác định các vấn đề kinh doanh và các giải pháp phân tích dữ liệu phù hợp là chìa khóa để đưa ra quyết định hiệu quả theo hướng dữ liệu. Quy trình đưa ra quyết định theo hướng dữ liệu đòi hỏi nhiều phương pháp khác nhau, chẳng hạn như thu thập dữ liệu, xử lý dữ liệu, trực quan hóa dữ liệu, v.v. .
Việc ra quyết định theo hướng dữ liệu có thể đem đến nhiều lợi ích khác nhau như:

  • Quyết định nhanh hơn, tốt hơn và sáng suốt hơn: Các quyết định kinh doanh được đưa ra bằng cách xem xét cả dữ liệu và trực giác, điều này đem đến kết quả tốt hơn cho các công ty, làm giảm tính chủ quan do trực giác.
  • Tăng khả năng hiển thị dữ liệu: Ra quyết định theo hướng dữ liệu giúp tăng tính minh bạch của dữ liệu vì dữ liệu có sẵn cho mọi người có thể dễ dàng truy cập và chia sẻ.
  • Sử dụng thời gian hiệu quả: Với việc ra quyết định dựa trên dữ liệu, các công ty có thể tiết kiệm thời gian và nguồn lực, đồng thời làm giảm thiểu đáng kể các rủi ro liên quan.
  • Tăng chất lượng dữ liệu: Ra quyết định theo hướng dữ liệu giúp đảm bảo chất lượng dữ liệu được tăng lên bằng cách loại bỏ lỗi và tình trạng dư thừa dữ liệu, từ đó đem đến độ chính xác cao hơn trong việc thu thập và phân tích dữ liệu.
  • Tăng mức độ hài lòng của khách hàng: Khi nhiều điểm dữ liệu về khách hàng được thu thập, các công ty có thể đưa ra nhiều giải pháp khác nhau để tăng mức độ hài lòng tổng thể của họ, điều này sẽ dẫn đến sự gia tăng tỷ lệ giữ chân khách hàng, đem lại doanh thu tốt hơn trong tương lai cho công ty.

Trên thực tế, lợi ích của việc ra quyết định dựa trên dữ liệu đã được chứng minh một cách rõ ràng. Nhà kinh tế học Erik Brynjolfsson và các đồng nghiệp của ông từ Trường Wharton của MIT và Penn đã tiến hành một nghiên cứu về cách ra quyết định theo hướng dữ liệu ảnh hưởng đến hoạt động của công ty. Qua kết quả thống kê, các nhà nghiên cứu chỉ ra rằng những công ty nào càng dựa vào dữ liệu thì hoạt động càng hiệu quả – thậm chí kiểm soát được nhiều yếu tố không mong muốn có thể xảy ra. Thực tế là ngày càng có nhiều quyết định kinh doanh được thực hiện tự động bởi các hệ thống máy tính. Các ngành công nghiệp khác nhau đã áp dụng việc ra quyết định tự động ở các tỷ lệ khác nhau. Trong những năm 1990, các ngân hàng và công ty viễn thông đã triển khai những hệ thống quy mô lớn để quản lý các quyết định kiểm soát gian lận theo hướng dữ liệu. Trong lĩnh vực thương mại, các hệ thống bán lẻ cùng với những quyết định mua bán ngày càng được tự động hóa. Một ví dụ điển hình có thể kể đến là các đề xuất tự động của Amazon.

VI. Kết luận:

Có thể nói Khoa học dữ liệu đang dần thay đổi xã hội của chúng ta. Khoa học dữ liệu mang lại ý nghĩa cho dữ liệu. Nó chuyển đổi dữ liệu thô thành các thông tin có giá trị, có thể được sử dụng bởi các ngành công nghiệp để nhận ra xu hướng thị trường, từ đó đưa ra các quyết định nhanh chóng và chính xác. Với tính cấp thiết và các ứng dụng vượt trội, Khoa học dữ liệu ngày càng khẳng định được vị thế của mình là lĩnh vực có nhiều tiềm năng phát triển mạnh mẽ. Là một trong những mối quan tâm hàng đầu của các doanh nghiệp với nhu cầu tuyển dụng cao, cơ hội việc làm hấp dẫn, quả không ngoa khi gắn cho Khoa học dữ liệu danh xưng “ngành nghề sexy nhất thế kỉ 21”.

—Hết—

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *