[05/01/2020 20:50] Dữ liệu là cực kỳ quan trọng đối với các . . .


#1

Nguồn post: https://www.facebook.com/257768141347267_948713228919418
Dữ liệu là cực kỳ quan trọng đối với các bạn làm về học máy, phân tích dữ liệu. Do đó, thu thập dữ liệu từ internet là một kỹ năng cần thiết đối với các bạn.

Nhân dịp nghỉ lễ, mình có dành thời gian viết 1 bài chia sẻ nho nhỏ về cách thu thập dữ liệu tin tức cực kỳ đơn giản. Hi vọng bài viết này giúp ích được mọi người trong quá trình học tập & làm việc.


#2

An Trần nghe nói đang làm =))


#3

Cái này là lấy từng trang một bạn thử cho chạy cái id phía dưới đường link thử xem có lấy toàn website được không


#4

Crawl dữ liệu tĩnh thôi. Ghi tiêu đề trang bất kỳ :smiley:


#5

cho chị hỏi có lấy được các public streaming trên twitter của 1 vùng cụ thể ko e? chẳng hạn 1 nước


#6

Đúng là python code less do more


#7

Ha Thanh Tran anh em mình vừa nói chuyện tuần trc xong nè


#8

Bài viết hay quá Hiếu. Anh cũng định viết một bài về web crawler nhưng chưa có dịp. Anh thấy nội dung em viết cung cấp nhiều kiến thức mới hữu ích cho bạn đọc. Hiếu cho anh xin phép chia sẻ bài viết của em tới cộng đồng nhé.


#9

Thằng newspaper này gặp ảnh, video, và caption của ảnh, video thì khả năng oẹ rất cao


#10

Bài viết của bạn cũng hay , nhưng chỉ crawl đc 1 trang bài viết duy nhất, muốn crawl nguyên 1 chuyên mục thì ko đc


#11

A ơi em là sinh viên năm nhất hiện cũng đang học phần crawl dữ liệu, a có thể cho phép e kết bạn để hỏi đôi điều ko ạ. E cảm ơn


#12

em dùng thư viện sẵn, hic, nhưng e k hiểu bản chất


#13

Hay quá a ơi. E đang cần tham khảo về leech bài :kissing_smiling_eyes:


#14

về trích xuất nội dung chính của trang web thì bên Py có lib dragnet là bóc ổn nhất bây giờ, chỉ là hiệu năng ko cao, bóc 1 trang hết 1-1.5s, nhưng được cái lấy đk nội dung chính, loại đk hết quảng cáo, comment, các tab…


#15

Python có thư viện nào crawl được web js không nhỉ các bác !


#16

Dữ liệu tĩnh và load full response thôi Gặp mấy trang như taobao get m3u8 hay lazy loading hay realtime Thì khác gì vô dụng Mấy cái đó chỉ có selenium =))


#17

Mới viết tool crawl dữ liệu cho đồ án hôm qua


#18

Tu Pham nhớ tới em :joy: