BigQuery là gì?
Trước tiên để bắt đầu với BigQuery, chúng ta cần hiểu BigQuery là gì? BigQuery là một giải pháp lưu kho dữ liệu(data warehousing ) của Google Cloud Platform cho query dữ liệu lớn. BigQuery hoạt động dưới dạng Platform as a Service trên hạ tầng của Google. Bạn có thể hiểu BigQuery theo một cách đơn giản như sau. BigQuery chính là một công cụ query SQL, giống như bất kì công cụ nào khác.
BigQuery rất phổ biến, điều này dẫn tới việc đa số hệ thống analytics, marketing đều có khả năng tích hợp với BigQuery. Ví dụ nếu bạn muốn query dữ liệu từ project Google Analytics của công ty, bạn chỉ cần tích hợp vào BigQuery và ngay lập tức bạn có thể export được dữ liệu ngay. Ngoài ra các hệ thống dữ liệu như Segment io, Kafka,… đều có plugin hoặc tính năng kết nối trực tiếp tới BigQuery, dẫn đến việc truyền dữ liệu vào BigQuery rất thuận tiện.
Các bước cài đặt BigQuery
Đầu tiên, chúng ta sẽ tạo một project trên trang Web console.cloud.google.com
Sau khi tạo xong chúng ta nhấn vào phần Dashboard.
Ở Navigation menu ( thanh công cụ bên trái ) chúng ta nhấn vào phần BigQuery.
.
Màn hình hiển thị lên giao diện chính của trang chủ BigQuery
Có rất nhiều cách có thể import data vào để truy vấn nhưng trong bài viết này, mình sẽ hướng dẫn mọi người cách lấy data có sẵn của google để cùng nhau thực hiện các câu lệnh truy vấn.
Tại màn hình trang chủ của BigQuery, mọi người bấm vào view dataset.
Sau đó google sẽ chuyển hướng chúng ta sang trang truy vấn, đồng thời ở thanh công cụ bên trái, chúng ta sẽ thấy ô bigquery_public_data bao gồm các data có sẵn của google.
Các câu lệnh truy vấn cơ bản
Trong phần bigquery_public_data sẽ có nhiều dataset có sẵn của google, ở bài viết này mình sẽ thực hiện truy vấn mẫu với dataset covid19_aha ( Các bạn có thể thực hiện với bất kì dataset nào mà mình muốn ).
Ở dataset covid19_aha có 2 table là hospital_beds và staffing, mình sẽ thực hiện truy vấn mẫu với bảng hospital_beds trước. Ở phần query, mình sẽ viết câu lệnh mẫu như sau :
Tương tự như các câu lệnh truy vấn trong SQL, phần SELECT * dùng để chọn toàn bộ các trường trong bảng. Tiếp theo FROM ... để gọi xem dữ liệu chúng ta lấy ra từ bảng nào. Tuy nhiên trong BigQuery, trước khi gọi bảng các bạn phải gọi dataset chứa bảng đó. Ở ví dụ của mình là bigquery-public-data.covid19_aha.hospital_beds. Sau khi viết xong câu lệnh chúng ta bấm RUN và xem kết quả thể hiện bên dưới.
Khi thực hiện xong các bạn có thể lưu kết quả dưới đa dạng kiểu dữ liệu như .csv, .json, ... Để làm điều này, sau khi thực hiện xong câu lệnh truy vấn chúng ta bấm SAVE RESULTS
BigQuery sẽ hiện các options cho chúng ta lựa chọn và download về máy tính cá nhân.
Trên đây là các cách cơ bản để có thể bắt đầu truy vấn với Google Bigquery. Ở bài viết sau mình sẽ hướng dẫn các bạn cách sử dụng Google Cloudsql và cách kết nối Cloudsql đến BigQuery để truy vấn.