Data Mining, những điều bí ẩn cho xu thế mới

image

Khai Phá

✈ Lời đầu tiên là phải nói lời cảm ơn tới phòng đạo tạo của trường mình (UIT). Đồng thời nhân phẩm khá ổn nên đã đăng ký được môn Khai thác dữ liệu vào kỳ 5 này 😋.

✈ Trước khi va vào giai điệu data-mining này thì mình ứ biết nó là cái gì lun 😢 mà chắc hầu hết những bạn trong lớp cũng vậy (tự an ủi). Chưa biết gì về Python, jupeter notebook, các thuật toán regression, classification,… Và nhiều thứ mới lạ khác. Nhưng thực sự khi trải qua và vọc về nó thì mới nhận ra “uầy hay quá trời lun” nào là sức mạnh của thằng python để chạy những bài toán đại số tuyến tính, tích phân,… mặc dù mình toàn sử dụng thư viện (🤫). Đặc biệt tính ứng dụng của cái này là đỉnh của chóp, nó tồn tại xung quanh ta. Những ví dụ ta có thể hình dung kết quả đạt được là:

  • Phân tích hành vi người mua hàng để đưa ra nhận định về khả năng mua hàng để đưa cho bộ phận chạy chiến dịch phù hợp với sản phẩm như cross-selling: Nói thẳng ra kết quả là mua bia phải mua thêm mồi vậy mồi gì thì cái đó hong biết nha
  • Các quảng cáo của tiki, shopee hay các sàng TMĐT khác nó cứ hiện quảng cảo trên thiết bị động của bạn, khi bạn đã vô tình hay cố ý chạm nhẹ vào 1 mặc hàng nào đó.
  • Đề xuất film gì đó mà ae ta hay watch and chill

✈ Nếu rõ hơn thì data-mining thuộc dòng dõi hiện đại của AI, Machine Learning, Deep Learning,… Nên muốn đào sâu hơn về nó thì hãy là một người có kiến thức về toán cao cấp

✈ Tiếp đến thì trong bài post này mình sẽ nói tóm tắt sơ qua về quá trình mình copy và paste để build 1 project để báo cáo cuối kỳ. Ở đầy mình sẽ không nói nhiều gì về lý thuyết nên mọi người có thể cân nhắc. 🤛

Do that! do that! do do do ... that!

Vận Hành

Chuẩn bị

  • Thứ nhất là mình đã may mắn học được 1 phó giáo sư, tiến sĩ vô cùng là vui vẻ, nhiệt huyết và giảng lại dễ hiễu nữa nên mình cũng có 1 đống vào đầu

  • Bên cạnh những bài lab thì mình cũng có xem qua 1 quyển sách về data mining theo mình là rất hay cho newbie như mình đó là: Python for Data Mining Quick Syntax Reference

    image

    • Về cơ bản thì cuốn sách giới thiệu về tồng quan cấu trúc và các thư viện dùng phổ biến trong việc data-mining như pandas, Scipy, Numpy, Matplotlib, Scikit-learn,… Đồng thời nó cũng giợi ý các ý tưởng và data-set huyền thoại
  • Tiếp đến là mình tìm đến các khóa học online thì mình biết đến datacamp một nơi lý tưởng để học về data-mining:

    • Dễ học, dễ hiểu với những anh Tây cao to giảng dạy
    • Có từng project riêng cho mình lựa chọn
    • Khi học mình sẽ có thể làm những bài test ứng với từng project để đánh giá và hiểu về những gì đang làm
    • Hình như có cả chứng chỉ
    • Đặc biệt ở đây sẽ giảng dạy với 3 ngôn ngữ chính đó là : Python, R, SQL
  • Cuối cùng là mình tìm tới anh google và khóa học Udemy để làm đến đồ án cuối kỳ của mình.

    Quá trình chạy công việc copy & paste

    Đề tài:

1
Dự đoán khả năng boom hàng của khách hàng trong thương mại điện tử 

Quá trình:

  • Dữ liệu mà nhóm mình lấy là từ một start-up trong trường nên cũng về mặt lượng của data thì khá hạn chế nên nhóm rất chi là cân đo đong đếm để đưa ra mô hình dự doán chính xác nhất.

  • Đó là về mặt chuẩn bị dữ liệu, và việc làm sạch dữ liệu trong data-mining thì tương đối khó ăn. Việc này dựa vào kinh nghiệm với những bài học đã học với các logic và lib của anh pandas và trong báo cáo bên dưới mình cũng nói khá là chi tiết ⬇

  • Tiếp đến là chạy các giải thuật có sẵn để build model với flow là:

    image

Và kết quả tương ứng với thuật toán logistic regression là:

image

image

Kết quả với độ chính xác tương đối cao

Kết Quả

Nói túm cái váy lại thì môn này rất hay và mình tin răng nó sẽ là xu thế mới cho Việt Nam giảng dạy để có thêm nhiều nhân tài (chớ nước ngoài là người ta tới âu r 😢) và chắc chắn có rất nhiều vị trí việc làm đang chờ đón bạn.

Bây giờ là thời điểm trước khi mình báo cáo 14 tiếng (ngày giờ báo cáo là 14h 9-12-2020). Và kết quả mình sẽ update sau 😋 Mình cũng upload tập báo cáo của mình cho các anh em có thể tham khảo và gạch đá cho mình về nó. Đây nè ! (và pass là 251220)

Thanks you ! 🤟 
Bài toán

“Có 30 tờ giấy gập đôi lại thì tờ thứ nhất được đánh với số trang là 1,2,119,120. Hỏi số trang đầy đủ của tờ có số trang là 75”

  • cơ bản mình sẽ tìm ra quy luật

    1,2 ….. 119, 120
    3,4 ….. 117, 118
    5,6 ….. 115, 116
    quy luật: ((x.2)-1), (x.2) …… (120 - (x.2 -1)), 120 - (x-1).2

Do trang của 75 là nằm bên trái nên ta sẽ thay vào (120 - (x.2) - 1) = 75 để tìm ra x

=> kết quả là: 45,46 ….. 75,76

Comments

Unable to load Disqus, please make sure your network can access.