Lỗi Soft 404 có thể làm hỏng SEO, cảnh báo Google
Ngày đăng: 8 tháng 7 năm 2024 bởi Kenichi Suzuki
[Cấp độ: Nâng cao]
Gary Illyes của Google đã cảnh báo trong một bài đăng trên LinkedIn về trạng thái mà bề ngoài có vẻ bình thường nhưng thực chất là lỗi, giống như lỗi Soft 404.
Lỗi Soft 404 lãng phí thời gian và tài nguyên của crawler.
Nội dung cảnh báo của Iris như sau:
Lỗi Soft 404 và các lỗi phần mềm/mật mã khác là một vấn đề đối với tôi và các robot khác.
Kiểm tra thực đơn trực tuyến của quán cà phê yêu thích và đặt món latte gia vị bắp với sữa yak mà tôi rất thích. Trong thực đơn có ghi là có món đó, nhưng lại hết hàng. Đặt món espresso nửa phần, cũng hết hàng. Không còn cách nào khác, tôi đành đặt món matcha latte với sữa từ quả dẻ nước. Nhưng món đó cũng hết hàng. Tôi bực bội. Đây là quán cà phê hay là Wendy's vậy?
Đối với người dùng, việc trang lỗi trả về mã trạng thái HTTP 200 (OK) có thể không phải là vấn đề lớn. Tuy nhiên, đối với các công cụ thu thập dữ liệu (crawler), chúng sử dụng mã trạng thái để xác định liệu việc lấy trang có thành công hay không, ngay cả khi nội dung trang cơ bản chỉ là thông báo lỗi. Các công cụ thu thập dữ liệu có thể quay lại cùng một trang nhiều lần và lãng phí tài nguyên. Nếu có nhiều trang như vậy, thì lượng tài nguyên bị lãng phí sẽ tăng theo cấp số nhân. Trong thời gian đó, các công cụ thu thập dữ liệu lẽ ra có thể dành thời gian và tài nguyên để lấy các trang thực sự chứa nội dung hữu ích.
Crawler có nhiều tài nguyên nên có thể chấp nhận một số lãng phí, nhưng trang web của bạn chắc chắn không có nhiều sự dư dả như vậy. Những lý do tại sao lỗi phần mềm (soft error) không tốt là:
1.Có khả năng rằng "ngân sách thu thập thông tin" hạn chế sẽ được sử dụng cho lỗi mềm thay vì trang thực tế.
2.Vì các trang này bị lọc khi lập chỉ mục, nên khả năng hiển thị trong tìm kiếm thấp, và về cơ bản, không có lợi nhuận từ các tài nguyên đã bỏ ra để phục vụ chúng.
Nếu máy chủ hoặc khách hàng gặp lỗi, bạn nên cung cấp mã trạng thái HTTP phù hợp. Chúng tôi muốn hiểu rõ tình hình của bạn.
PS: Bài viết này được viết dựa trên cảm hứng từ hộp thư đến. Đừng cố gắng hạn chế tốc độ của các crawler với thông báo như "TOO MANY REQUESTS SLOW DOWN". Chúng tôi thực sự không thể đọc được.
📝 Thông tin bổ sung từ Suzuki: "TOO MANY REQUESTS SLOW DOWN" có vẻ là mã trạng thái HTTP 429 Too Many Requests.
PPS: Ở đây, "クリプト (Crypto)" có nghĩa là "ẩn giấu" và không phải là những người đang cố gắng khuyên bạn đầu tư vào các loại tiền ảo như Bitcoin.
📝 Thông tin bổ sung từ Suzuki: Đây không phải là khuyến nghị đầu tư vào các tài sản tiền ảo như Bitcoin.
Điểm quan trọng
Tôi sẽ tóm tắt những điểm quan trọng trong bài viết của Iris.
Lỗi Soft 404 và lỗi ẩn là một vấn đề: Những lỗi này xảy ra khi một trang web không tồn tại nhưng trả về mã trạng thái 200 (OK) thay vì mã 404 (Not Found). Điều này gây nhầm lẫn cho trình thu thập thông tin của công cụ tìm kiếm.
Ảnh hưởng đến công cụ thu thập dữ liệu: Các trang này có thể được công cụ thu thập dữ liệu coi là hợp lệ và lãng phí tài nguyên bằng cách quay lại kiểm tra. Vì thời gian và tài nguyên của công cụ thu thập dữ liệu là có hạn, điều này không tốt cho SEO của trang web.
Ảnh hưởng đến kết quả tìm kiếm: Trang Soft 404 có khả năng thấp xuất hiện trong kết quả tìm kiếm vì chúng bị loại trừ khi lập chỉ mục. Điều này dẫn đến việc lãng phí tài nguyên máy chủ được sử dụng để thu thập dữ liệu.
Khuyến nghị: Sử dụng mã trạng thái HTTP phù hợp cho các lỗi để công cụ thu thập dữ liệu có thể hiểu tình huống và phân bổ tài nguyên một cách chính xác.
Số lượng lỗi 404 mềm có thể không cần quá lo lắng nếu trang web là nhỏ. Tuy nhiên, nếu một trang web lớn trả về hàng nghìn lỗi 404 mềm, điều này có thể ảnh hưởng xấu đến việc thu thập dữ liệu của các trang web thực sự cần phải được thu thập.
Chi tiết về lỗi 404 mềm có thể tham khảo trong tài liệu của trung tâm tìm kiếm.
Bạn có thể kiểm tra xem lỗi 404 mềm có được phát hiện hay không trong báo cáo trang của Search Console.
Nguồn tham khảo : https://www.suzukikenichi.com/blog/soft-404-may-ruin-your-seo/