Google Bot là gì ?
Google Bot được hiểu nôm na đó là những con bọ tìm kiếm, ngoài ra còn được gọi là Spider (con nhện). Nhiệm vụ chính là Crawling (bò) thu thập các thông tin, thu thập dữ liệu.Mỗi một Spider có một địa chỉ IP riêng và thường được thay đổi.
Google Bot hoạt động như thế nào ?
Google sử dụng một lượng lớn máy tính để thu thập dữ liệu trên trang web của bạn. Google Bot ngày nay được lập trình thông minh hơn để có thể xác định được trang web của bạn có được cập nhật thường xuyên và chu kỳ cập nhật như thế nào ?
Google Bot thu thập dữ liệu từ tập hợp các URL trước đó và tăng cường thu thập thông qua sơ đồ trang web (sitemap) được người quản trị web gửi tới trong Google Webmaster Tools.
Google Bot đi ngang qua website của bạn, xác định được các liên kết (hyperlink) và thẻ meta từ đó có xác định có đi theo các liên kết đó hay không ?
Chúng ta cũng nên chú ý mỗi lần Google Bot bò qua trang web của bạn là 1 lần tải bản sao tại thời điểm đó. Và quá trình Spider Crawling là quá trình đầu tiên trong cơ chế làm việc của các Search Engine nói chung. Đôi khi Google cũng sử dụng dữ liệu của các đối tác, đại lý.
Google tìm kiếm như thế nào ?
Ở Việt nam Google là cỗ máy tìm kiếm lớn nhất cũng như hiệu quả nhất đối với người sử dụng Internet do đó thông thường chỉ cần làm SEO trên Google là đủ. Khi SEO được trên Google thì hầu như các Search Engine còn lại cũng sẽ xếp hạng cao tất nhiên không giống nhau nhưng thứ hạn cũng tương tự nhau. Cơ chế tìm kiếm của Google được chia làm 4 bước:
Crawling:
Google Bot thu nhập dữ liệu web của Google, tìm và lấy các trang trên các web, đưa chúng vào chỉ mục của Google (indexer). Có thể tưởng tượng nó giống như một con nhện nhỏ đang tất bật trên khắp các trang mạng. Trên thực tế, Google Bot không đi tới tất cả các trang, nó gửi yêu cầu tới các máy chủ để lấy các page, tải toàn bộ trang đó và giao nó cho bộ phận lưu chỉ mục của Google.
Google gửi yêu cầu tới hàng ngàn máy chủ khác nhau cùng một lúc. Để tránh việc tràn ngập các máy chủ cá nhân hoặc lấn át các yêu cầu của người dùng, Google Bot cố ý làm cho tốc độ gửi yêu cầu tới các trang chậm hơn rất nhiều so với khả năng của nó.
Google tìm các trang web theo hai cách: thông qua địa chỉ URL và qua việc tìm kiếm các link trên web.
Sau khi Crawl xong, toàn bộ các trang đã tìm thấy sẽ được lưu trữ trong cơ sở dữ liệu của chỉ mục Google (Google Index). Cơ sở dữ liệu được sắp xếp theo thứ tự bảng chữ cái abc các cụm từ tìm kiếm, mỗi mục sẽ lưu một danh sách các tài liệu có chứa từ tìm kiếm này và vị trí nó xuất hiện trong văn bản. Cấu trúc này cho phép truy xuất nhanh các tài liệu có chứa các truy vấn của người dùng.
Để cải thiện hiệu suất tìm kiếm, Google sẽ bỏ qua (không index) những “stop words” (the, is, on, or, of, how, why, as well as cũng như những chữ số 1 chữ số và một số chữ cái đơn). Google cũng bỏ qua các dấu chấm câu và các khoảng để dấu cách quá lớn, cũng như chuyển tất cả các chữ cái về dạng viết thường.
Thông kê và xếp hạng:
Sau khi lập chỉ mục thì Google tiến hành xử lí các dữ liệu và lập thống kê các số liệu. Bộ xử lý truy vấn bao gồm giao diện người dùng (box tìm kiếm trên trang chủ Google), "bộ máy" đánh giá mức độ liên quan giữa các truy vấn và các dữ liệu, văn bản và hiển thị kết quả tìm kiếm. Khi truy vấn từ Form Search, Google sẽ sử dụng các thuật toán trong đó có thuật toán PageRank để xếp hạng. PageRank là hệ thống xếp hạng các trang web của Google, góp phần rất quan trọng trong việc đánh giá. Một trang với PageRank cao hơn thì được coi là quan trọng hơn và có nhiều khả năng được liệt kê ở trên một trang có PageRank thấp hơn. Google dựa trên rất nhiều yếu tố để đưa ra chỉ số PageRank và quyết định tài liệu nào có liên quan nhất với câu truy vấn bao gồm cả độ phổ biến của trang; vị trí, lượng từ tìm kiếm có trong trang và mức độ liên quan đến các từ tìm kiếm.
Hiển thị kết quả: Sau khi hoàn tất các bước trên Google sẽ trả kết quả tìm kiếm đến người dùng.
Sitemap
Như vậy website của bạn có càng nhiều liên kết đến thì càng dễ có khả năng được google bot ghé thăm thường xuyên hơn. đó là lý do tại sao bạn thường nghe các webmaster nhắc nhiều đến việc tạo backlink bằng cách trao đổi liên kết.
Vì Google Bot là phần mềm nên khả năng xử lý của nó rất máy móc, đôi khi nó lấy tất cả những liên kết trên website mà bạn không mong muốn để đưa lên kết quả tìm kiếm. Thật là tai họa nếu như những thông tin về đường dẫn trang quản trị, thông tin database, cấu trúc site được đưa tất tần tật lên kết quả tìm kiếm... Đôi khi đây chính là tác nhân giúp hacker nghiên cứu bạn và tìm ra lỗ hổng để tấn công website.
Vậy cách ngăn chặn bot để điều khiển bot lấy những kết quả phù hợp như thế nào? Thông thường ta sẽ dùng cách đơn giản nhất là dùng 1 file robot.txt chứa các câu lệnh dành riêng cho bot, đặt ở thư mục gốc của website. Mỗi khi bot ghé thăm nó sẽ biết đâu là nơi mình cần đến, đâu không được đến.
Một cách khác nữa đó là sử dụng công cụ Webmaster Tool của Google, và gửi yêu cầu xóa những URL mà bot đã "trót" đưa vào kết quả tìm kiếm.
Ngoài ra để bot thuận tiện hơn và nhanh chóng đưa kết quả chính xác, các Webmaster thường khai báo 1 định dạng sitemap (bản đồ site) bằng ngôn ngữ XML. File này như 1 tấm bản đồ cho bot, giúp bot nhìn được cấu trúc website một cách chuẩn nhất.
Sau khi lập chỉ mục thì Google tiến hành xử lí các dữ liệu và lập thống kê các số liệu. Bộ xử lý truy vấn bao gồm giao diện người dùng (box tìm kiếm trên trang chủ Google), "bộ máy" đánh giá mức độ liên quan giữa các truy vấn và các dữ liệu, văn bản và hiển thị kết quả tìm kiếm. Khi truy vấn từ Form Search, Google sẽ sử dụng các thuật toán trong đó có thuật toán PageRank để xếp hạng. PageRank là hệ thống xếp hạng các trang web của Google, góp phần rất quan trọng trong việc đánh giá. Một trang với PageRank cao hơn thì được coi là quan trọng hơn và có nhiều khả năng được liệt kê ở trên một trang có PageRank thấp hơn. Google dựa trên rất nhiều yếu tố để đưa ra chỉ số PageRank và quyết định tài liệu nào có liên quan nhất với câu truy vấn bao gồm cả độ phổ biến của trang; vị trí, lượng từ tìm kiếm có trong trang và mức độ liên quan đến các từ tìm kiếm.
Hiển thị kết quả: Sau khi hoàn tất các bước trên Google sẽ trả kết quả tìm kiếm đến người dùng.
Như vậy website của bạn có càng nhiều liên kết đến thì càng dễ có khả năng được google bot ghé thăm thường xuyên hơn. đó là lý do tại sao bạn thường nghe các webmaster nhắc nhiều đến việc tạo backlink bằng cách trao đổi liên kết.
Vì Google Bot là phần mềm nên khả năng xử lý của nó rất máy móc, đôi khi nó lấy tất cả những liên kết trên website mà bạn không mong muốn để đưa lên kết quả tìm kiếm. Thật là tai họa nếu như những thông tin về đường dẫn trang quản trị, thông tin database, cấu trúc site được đưa tất tần tật lên kết quả tìm kiếm... Đôi khi đây chính là tác nhân giúp hacker nghiên cứu bạn và tìm ra lỗ hổng để tấn công website.
Vậy cách ngăn chặn bot để điều khiển bot lấy những kết quả phù hợp như thế nào? Thông thường ta sẽ dùng cách đơn giản nhất là dùng 1 file robot.txt chứa các câu lệnh dành riêng cho bot, đặt ở thư mục gốc của website. Mỗi khi bot ghé thăm nó sẽ biết đâu là nơi mình cần đến, đâu không được đến.
Một cách khác nữa đó là sử dụng công cụ Webmaster Tool của Google, và gửi yêu cầu xóa những URL mà bot đã "trót" đưa vào kết quả tìm kiếm.
Ngoài ra để bot thuận tiện hơn và nhanh chóng đưa kết quả chính xác, các Webmaster thường khai báo 1 định dạng sitemap (bản đồ site) bằng ngôn ngữ XML. File này như 1 tấm bản đồ cho bot, giúp bot nhìn được cấu trúc website một cách chuẩn nhất.