Thứ Ba, Tháng Năm 17, 2022
HomeKiến thứcCách dùng hàm ImportXML của Google Sheets để thu thập dữ liệu...

Cách dùng hàm ImportXML của Google Sheets để thu thập dữ liệu khắp nơi

Cách tiêu dùng hàm ImportXML của Google Sheets để tích lũy data khắp nơi

Hàm ImportXML sẽ hỗ trợ game thủ lđấy data từ website vào Google Sheets. Dưới đó là nhữngh tiêu dùng hàm ImportXML trong Google Sheets.

Hàm ImportXML
  • Google Sheets
  • Google Sheets cho iOS
  • Google Sheets cho Android

Google Sheets là ứng dụng versiong tính miễn phí và là 1 trong thay thế tuyệt vời cho Microsoft Excel. Google Sheets phục vụ nhu yếu cho toàn bộ những người tiêu dùng vô tận tính năng hữu ích ko không tốt Excel. Thậm chí, versiong tính của Google Sheets với thể tự động tích lũy thông tin trong Khi game thủ đang say giấc. Nó còn với thể tmàn mọi data game thủ thích như giá trị mặt hàng hóa, phân tích trang và nhiều hơn thế nữa thế nữa ở khắp mọi nơi.

Thế nhưng nếu như muốn tmàn con số lớn data trên web, chẳng hạn như sao chép thông tin từ một versiong trực tuyến (danh sách sự kiện, versiong thống kê hay địa chỉ tin nhắn nằm rmàn rác trên web), việc sao chép andamp; dán chúng thật tốn thời hạn và sức lực lao động phmàn ko? Google Sheets với một lựa sắm tốt hơn cho game thủ.

Quý người tiêu dùng với thể import data từ website ngẫu nhiên bằng một hàm nhỏ tuy vậy với võ mang tên ImportXML. Một lúc đã nắm vững hàm ImportXML Google Sheets, việc làm tích lũy một loạt data trên web trở thành vô và giậtn thuần.

Khái niệm cơ version về XML và HTML

Ngôn ngữ ghi lại XML chỉ định những bộ data trong một website. Về thực ra, ngẫu nhiên bộ andlt;somethingandgt;andlt;/somethingandgt; – những khối xây dựng của mã Power web hay một tập hợp data nhất định sẽ nằm phía trong chúng. Mã Power của web sẽ với một số trong mỗi text trong thẻ andlt;pandgt;aragraph – đoạn văn, đôi lúc chứa andlt;bandgt;old – chữ in đậm và với thể cả andlt;aandgt;a links – liên quan (được theo sau bởi andlt;/aandgt;andlt;/bandgt;.andlt;/pandgt;andlt;/toàn thânandgt; để đóng toàn bộ thẻ).

Hàm ImportXML của Google Sheets với thể tìm một bộ data XML nào đó và sao chép data phía phía ngoài nó. Tại ví dụ trên, nếu như muốn lđấy toàn bộ liên quan trên trang, chúng ta cần yêu cầu hàm ImportXML nhập toàn bộ thông tin trong tag andlt;aandgt;andlt;/aandgt;. Nếu muốn toàn bộ text của một web, game thủ với thể đầu tiên bằng nhữngh lđấy mọi thứ trong andlt;toàn thânandgt;andlt;/toàn thânandgt; hoặc mỗi phiên version của andlt;pandgt;andlt;/pandgt;, rồi xóa data ở những thời đoạn sau.

Cách trích xuất một danh sách mã bưu điện và quận trong thành phố

Bảng biểu trong Wikipedia là bài luyện tập ImportXML tuyệt vời. Bài viết sẽ lđấy ví dụ tmàn toàn bộ mã bưu điện ở Edmonton, Alberta. Tìm danh sách mã bưu điện của Canada đầu tiên bằng chữ T. Mở trang đó trong cửa sổ trình duyệt mới để đầu tiên.

Xem nguồn trang

Chọn một mã bưu điện, nhấp chuột chuột phmàn vào nó và sắm Inspect để mở tool trình duyệt xem mã Power trang. Quý người tiêu dùng sẽ thđấy mỗi mã Power trang nằm trong một tag (xác định một ô trong versiong). Sau đó, nội dung bài viết sẽ nhập toàn bộ tag TD chứa từ Edmonton trong chúng.

Tạo một versiong tính Google Sheet trống mới. Bài viết sẽ lđấy toàn bộ nội dung tag TD, bao hàm andlt;spanandgt; và liên quan bằng nhữngh xác định data muốn tiêu dùng cú pháp Xpath. ImportXML lđấy URL và tag game thủ đang tìm làm đối số để nhập vào Google Sheets.

=importxml(“https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada”, “//td”)

Quý người tiêu dùng sẽ nhận được kết quả như sau:

Nhập kết quả vào bảng dữ liệu

Quay lại Power trang, chúng ta sẽ thđấy mã bưu chính được in đậm trong thẻ andlt;bandgt;andlt;/bandgt;, tên thành phố liên quan tới những bài báo Wikipedia nằm trong andlt;aandgt;andlt;/aandgt;. Giờ hãy thử chỉ lđấy liên quan trong mỗi ô thành phố lớn và loại bỏ những liên quan khác (khu phố). Chỉnh sửa chúng thành hai lệnh trọng cột A và B:

=importxml(“https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada”, “//td/span/a[1]”)

=importxml(“https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada”, “//td/b[1]”)

Quý người tiêu dùng cần tinh chỉnh kết quả một chút:

Tinh chỉnh kết quả nhận được

Hành động này giúp game thủ hiểu nhữngh cú pháp truy vấn XPath sinh hoạt: một thẻ chỉ phục vụ nhu yếu phiên version thứ nhất của andlt;tagandgt; trong andlt;parent tagandgt;. Vì thế, td/span/a[1] cho game thủ liên quan thứ nhất trong andlt;spanandgt; ở mỗi andlt;tdandgt;. Tương tự như vậy, td/b[1] cho game thủ text in đậm trước tiên trong mỗi andlt;tdandgt; hoặc chỉ mã bưu điện ở trường hợp này.

Điều tuyệt vời là game thủ với thể triển khai hai truy vấn trong một hàm. Vì thế, nội dung bài viết phối kết hợp hai yêu cầu bằng một hình tượng | ở giữa:

=importxml(“https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada”, “//td/span/a[1] | //td/b[1]”)

Tuy nhiên, những game thủ sẽ ko nhận được và kết quả trước đó. Nó sẽ xen kẽ toàn bộ yêu cầu phối kết hợp vào 1 trong mỗi danh sách dài, thay vì hai cột. Nó với nhiều tiện lợi nhưng ko quan trọng ở nội dung bài viết này.

Cột dữ liệu tên thành phố chính

Để sắm mã bưu chính trong mỗi box chứa liên quan ‘Edmonton’. Chúng ta sẽ tiêu dùng mã này:

=importxml(“https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada”, “//td[span/a=”Edmonton”]/b[1]”)

Đặt phần “tìm kiếm” – text đủ điều kiện thu hẹp kết quả trong dấu ngoặc vuông mà ko làm tác động tới nhữngh thức mang tới kết quả.

Toàn bộ mã code kết hợp Edmonton tương ứng

Giờ tới những tên những khu vực lân cận. Viết hàm importXML tương thích vào cột tiếp theo, lđấy text sau từ “Edmonton.”

Bài viết lđấy toàn bộ nội dung của span[1] và tiêu dùng dấu ngoặc giậtn và chéo cánh để phân phân tách nội dung, giả “Edmonton” vào cột thứ nhất và tên khu vực lân cận vào cột sau. Sau đó, chúng ta với thể phối kết hợp mã bưu chính với tên tương ứng:

=importxml(“https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada”, “//td[span/a=”Edmonton”]/span[1]”)

Tiếp theo, tiêu dùng hàm Split và nối một số trong mỗi cột sau đó để phân tách tách andamp; nhóm data đang xử lý:

=SPLIT(conmèoenate(B2:J2),”(/)”)

Cuối và, đó là versiong kết quả với thông tin quan trọng:

Bảng dữ liệu chứa các thông tin cần thiết

Cách tự động sao chép địa chỉ tin nhắn từ web

Cách lấy email bằng hàm ImportXML trong Google Sheets

Bài viết sẽ hướng dẫn game thủ nhữngh lđấy toàn bộ tin nhắn nhân viên trên trang About | Zapier. Nhìn vào mã Power, những game thủ sẽ thđấy mọi địa chỉ tin nhắn của từng thành viên đều nằm trong trường class=”tin nhắn”. Khi muốn chỉ định một thuộc tính tag, tiêu dùng hàm ImportXML của Google Sheets như sau:

=importxml(“https://zapier.com/about//”, “//span[@class=”email”]”)

Cách tiêu dùng Regex để nhập địa chỉ Email từ web trong Google Sheets.

Để lđấy những địa chỉ Zapier bằng nhữngh tiêu dùng “sức khỏe” của Regex, chúng ta sẽ nhập lệnh andlt;spanandgt; thay vì tìm class. Giờ chúng ta sẽ triển khai nhiệm vụ này trong hai bước: Gọi thông tin từ trang Zapier vào cột thứ nhất, sau đó, phân loại tin nhắn vào cột thứ hai:

=importxml(“https://zapier.com/about//”, “//span”)

=regexextract(A1, “[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-.]+.[a-zA-Z0-9-]{2,15}”)

Cuối và, chúng ta sẽ với versiong này:

Trích xuất địa chỉ email từ web

Nhớ rằng, ImportXML sẽ tự điền vào toàn bộ những cột và mặt hàng tùy thuộc vào data nó tìm thđấy. Truy vấn regex phmàn được điền vào từng ô game thủ thích với kết quả. Để phối kết hợp toàn bộ lại với nhau, game thủ chỉ việc tiêu dùng lệnh Regexextract là 1 trong công thức hằng số mảng (array):

=ArrayFormula(IFERROR(REGEXEXTRACT(IMPORTXML(“https://zapier.com/about//”, “//span”), “[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-.]+.[a-zA-Z0-9-]{2,15}”)))

Và đó là kết quả:

Trích xuất email bằng hàm Regex

Hi vọng nội dung bài viết hữu ích với những game thủ!

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Most Popular

Recent Comments