⏱️ Thời gian xem: 11 phút
Node HTML Extract dùng để “quét” dữ liệu từ website đối thủ ra sao? (Cách crawl dữ liệu web bằng n8n)
Chào anh, em đã sẵn sàng cùng anh lắp đặt “bộ cảm biến” tinh vi nhất để bóc tách mọi ngóc ngách dữ liệu từ các website đối thủ.
Sau khi anh em mình đã giúp AI Agent biết dùng Google Search để tìm ra địa chỉ các trang web ở bài trước, anh sẽ gặp một vấn đề: AI mới chỉ đọc được phần nổi (tiêu đề và mô tả ngắn). Để lấy được chi tiết giá bán, cấu hình sản phẩm hay các chương trình khuyến mãi ẩn sâu bên trong trang web đó, anh cần đến Node HTML Extract. Đây chính là “chiếc kẹp cơ khí” giúp anh gắp đúng miếng dữ liệu mình cần trong một rừng mã code hỗn loạn.
Dưới đây là nội dung chi tiết của Bài 36, em trình bày siêu chi tiết và thực tế để anh trở thành bậc thầy “khai thác” dữ liệu web.
BÀI 36: CHIẾC KẸP CƠ KHÍ – CÁCH DÙNG NODE HTML EXTRACT ĐỂ “QUÉT” SẠCH DỮ LIỆU ĐỐI THỦ
✨ Biến Website Đối Thủ Thành “Kho Dữ Liệu” Của Riêng Anh
Anh ạ, mỗi trang web thực chất được xây dựng từ những khối mã HTML. Nếu anh nhìn bằng mắt thường, anh thấy hình ảnh và giá cả. Nhưng với n8n, đó là những cấu trúc có tên gọi (thẻ ID, Class).
Node HTML Extract đóng vai trò là một bộ lọc thông minh. Nó cho phép anh ra lệnh: “Trong cái trang web rối rắm này, hãy chỉ lấy cho tôi đúng cái dòng chữ nằm trong ô ‘Giá bán’ và cái hình ảnh nằm trong ô ‘Sản phẩm'”. Việc làm chủ Node này giúp anh tự động hóa hoàn toàn khâu theo dõi thị trường mà không cần phải thuê nhân viên ngồi copy-paste hàng ngày.
💡 Bản Đồ Giải Pháp Thực Chiến: Công Thức “Gắp” Dữ Liệu 3 Bước
Để quét được dữ liệu từ một trang web bất kỳ, anh cần kết hợp bộ 3 quyền năng sau:
- Node HTTP Request: Dùng để “triệu hồi” toàn bộ mã nguồn của trang web đó về n8n (chọn Response Format là String).
- Node HTML Extract: Đây là nhân vật chính. Anh sẽ dán mã nguồn vào đây và dùng các “tọa độ” (CSS Selector) để gắp dữ liệu.
- CSS Selector (Tọa độ dữ liệu): Đây là phần quan trọng nhất.
- Ví dụ: .product-price để lấy giá, h1 để lấy tiêu đề.
- Mẹo của em: Anh chỉ cần mở trang web đối thủ, chuột phải vào giá tiền $\rightarrow$ chọn Inspect (Kiểm tra) $\rightarrow$ Copy cái Class của nó là xong.
📊 Bảng So Sánh & Lập Luận Kỹ Thuật (The Deep Dive)
Anh hãy nhìn vào bảng này để thấy tại sao việc bóc tách dữ liệu chuẩn lại quan trọng đến vậy:
| Tiêu chí | Nhờ AI đọc cả trang web | Dùng Node HTML Extract (#7LOC chọn) |
| Độ chính xác | Đôi khi AI tóm tắt thiếu hoặc nhầm số. | Chính xác 100% vì nó gắp đúng đoạn mã gốc. |
| Chi phí | Tốn tiền API OpenAI (vì gửi quá nhiều chữ). | Hoàn toàn miễn phí và chạy cực nhanh trên VPS. |
| Định dạng dữ liệu | Dạng văn bản tự do, khó đưa vào bảng. | Dạng bảng chuẩn (JSON), cực dễ để lưu vào Sheets. |
| Tốc độ | Chậm (phải chờ AI suy nghĩ). | Tốc độ ánh sáng. Xong ngay trong vài mili giây. |
| Độ bền | Cao. | Trung bình (nếu đối thủ đổi giao diện thì anh phải chỉnh lại tọa độ). |
🛠️ Case Study Thực Nghiệm n8n: Hệ Thống “Canh Giá Từng Phút” Của Đối Thủ
Anh muốn theo dõi một sản phẩm máy bơm của đối thủ A. Cứ khi nào họ đổi giá, n8n phải báo ngay cho anh.
Cách em hướng dẫn anh triển khai:
- Node HTTP Request: Lấy dữ liệu từ link sản phẩm của đối thủ.
- Node HTML Extract:
- Anh thiết lập một cái tên biến là gia_doi_thu.
- Tọa độ (CSS Selector) anh điền: .current-price (Giả sử đây là class giá của họ).
- Node Set: Chuyển cái chữ “1.500.000đ” vừa lấy được thành con số 1500000 để tính toán.
- Node IF: So sánh với giá của anh. Nếu gia_doi_thu < gia_cua_loc, n8n sẽ gửi Telegram báo động.
Kết quả thực nghiệm: Anh luôn là người nắm thế chủ động. Đối thủ vừa giảm giá lúc 2 giờ sáng, thì 2 giờ 5 phút anh đã biết để đưa ra chiến thuật phản công. Không một miếng dữ liệu nào có thể lọt qua “chiếc kẹp” này.
❤️ Thông Điệp về Cách crawl dữ liệu web bằng n8n
Anh ạ, trong kinh doanh, “biết người biết ta, trăm trận trăm thắng”. Node HTML Extract chính là ống nhòm giúp anh quan sát đối thủ một cách minh bạch và khoa học nhất.
Đừng lo lắng nếu anh thấy các dòng mã HTML trông như “rừng rậm”. Hãy coi đó là những ngăn tủ chứa vàng, và anh chỉ cần học cách mở đúng ngăn tủ mình muốn. Nguyễn Huỳnh Lộc tin rằng, khi anh đã làm chủ được kỹ thuật bóc tách này, anh không còn nhìn website như một trang tin nữa, mà nhìn nó như một mỏ kim cương đang chờ anh khai thác.
❓ Hỏi đáp về: Cách crawl dữ liệu web bằng n8n
-
Hỏi: Em ơi, sao anh quét mà nó ra kết quả trống trơn (null)?
- Đáp: Có 2 khả năng anh ạ. Một là anh điền sai “tọa độ” (CSS Selector). Hai là trang web đó dùng công nghệ ẩn dữ liệu (như React/Vue). Nếu gặp trang khó, anh hãy báo em để dùng thêm Node Puppeteer (giả lập trình duyệt) nhé!
-
Hỏi: Quét liên tục như vậy đối thủ có biết và khóa IP của mình không?
- Đáp: Có thể anh nhé. Bí kíp của em là: Anh hãy thêm Node Wait để giãn cách thời gian quét, và nếu cần thì dùng thêm Proxy để “ngụy trang” cho n8n như một người dùng bình thường.
-
Hỏi: Anh có thể quét một lúc nhiều sản phẩm trên cùng một trang không?
- Đáp: Tuyệt vời luôn! Trong Node HTML Extract, anh chỉ cần chọn chế độ Return All Matches. n8n sẽ trả về cho anh một danh sách dài dằng dặc, sau đó anh dùng vòng lặp để xử lý từng món.
-
Hỏi: Làm sao để lấy được cái link ảnh sản phẩm chứ không phải cái tên?
- Đáp: Trong ô thuộc tính (Attribute) của Node, thay vì để mặc định là text, anh hãy điền chữ src. n8n sẽ gắp đúng cái link ảnh cho anh.
🔗 Cách tạo bộ nhớ cho AI n8n
Khi anh đã gắp được dữ liệu thô từ website đối thủ về, anh sẽ thấy nó rất “bẩn” (ví dụ: có cả chữ ‘đ’, dấu chấm, khoảng trắng thừa). Làm sao để “gọt giũa”, xóa bỏ những ký tự thừa và định dạng lại cho đẹp trước khi lưu vào Google Sheets? Hãy cùng em khám phá ở Bài học số 37:Cách lưu trữ lịch sử trò chuyện (Chat Memory) để AI không bị “mất trí nhớ“?
📝 Hành Trình Thực Hành (The n8n Workshop)
Hôm nay, anh hãy thử làm một “thợ săn dữ liệu” nhé:
- Mục tiêu: Lấy tiêu đề tin tức mới nhất từ một trang báo điện tử (ví dụ: vnexpress.net).
- Bước 1: Dùng Node HTTP Request để lấy mã nguồn trang chủ VnExpress.
- Bước 2: Kéo Node HTML Extract. Điền CSS Selector là .title-news a.
- Bước 3: Nhấn Execute và xem danh sách các tiêu đề tin nóng hiện ra.
- Troubleshooting: Nếu nó ra quá nhiều thứ không liên quan, anh hãy quay lại trang web, dùng “Inspect” để tìm cái Class nào chỉ có riêng cho phần tin nóng thôi nhé.
🧠 Khai Phóng Tư Duy
- Nếu bạn có thể biến toàn bộ internet thành một bảng tính Excel khổng lồ được cập nhật tự động, bạn sẽ nhìn ra những cơ hội kinh doanh nào mà người khác không thấy?
- Tại sao việc bóc tách dữ liệu chuẩn xác lại là nền tảng của mọi hệ thống AI phân tích xu hướng?
- Bạn cảm thấy thế nào khi thấy những dòng mã phức tạp bỗng chốc trở thành những con số lợi nhuận nhảy múa trong hệ thống của mình?
“⛏️ KHAI THÁC MỎ VÀNG DỮ LIỆU – BIẾN WEBSITE ĐỐI THỦ THÀNH TÀI SẢN CỦA BẠN! ⛏️
Bạn mệt mỏi vì phải vào web đối thủ check giá mỗi ngày? Hãy để Node HTML Extract trong n8n làm việc đó thay bạn!
Cùng Nguyễn Huỳnh Lộc làm chủ ‘chiếc kẹp cơ khí’ giúp bạn bóc tách từng con số, từng chương trình khuyến mãi ẩn sâu trong mọi trang web. Không sai sót, không chậm trễ, dữ liệu đổ về túi bạn sau mỗi giây.
Trong cuộc đua số, ai nắm dữ liệu trước, người đó thắng. Bạn đã sẵn sàng để xây dựng một ‘hệ thống tình báo’ thị trường đỉnh cao chưa? Cùng em khai phá sức mạnh n8n Master ngay hôm nay! 🚀🔥
#7LOC #NguyenHuynhLoc #n8nMaster #HTMLExtract #DataScraping #MarketIntelligence #CompetitorAnalysis #AutomationStrategy”



