Hình phạt Google cho nội dung trùng lắp

Có nhiều lời đồn đoán xung quanh việc Google ra các hình phạt cho nội dung trùng lắp, nhưng chuyên gia Patrick Stox sẽ làm rõ vấn đề này. Một lần và mãi mãi. THIẾT KẾ WEBSITE CHUẨN SEO sẽ trình bày các giải thích của chuyên gia này.

Mục lục

Hình phạt Google cho nội dung trùng lắp

Hiện nay nhiều người đang lo ngại về nội dung bị trùng lắp hơn hẳn các link có tính spam

Có nhiều lời đồn thổi xung quanh nội dung trùng lắp nên người ta nghĩ rằng nó gây ra hình phạt và vì đó mà các page của họ sẽ phải cạnh tranh với các page khac và tổn hại website của họ. Trên rất nhiều website tin tức về SEO, có nhiều bài viết về SEO cho thấy rằng người ta rõ ràng là không hiểu chính xác về cách mà Google xử phạt các nội dung bị trùng lắp.

Google đã cố gắng triệt tiêu các lời đồn thổi xung quanh vấn đề nội dung trùng lắp trong nhiều năm qua. Đã đến lúc chúng ta phải làm rõ vấn đề này.

Nội dung trùng lắp là gì?

Theo như Google thì, nội dung trùng lắp ( duplicate content) là:

“ Duplicate content generally refers to substantive blocks of content within or across domains that either completely match other content or are appreciably similar. Mostly, this is not deceptive in origin.”

Tạm dịch: “ Nội dung trùng lắp, về tổng quát là liên quan đến khối lượng nội dung bên trong hoặc trên domain mà giống toàn bộ như nội dung của một domain khác, hoặc là rất giống. Đa phần thì đây không phải là lừa đảo về mặt nguồn gốc”. Mọi người nhầm lẫn về nội dung trùng lắp chủ yếu là ở các hình phạt mà Google xử lý. Thực sự là các bản sao nội dụng chỉ được lọc trong các kết quả tìm kiếm. Bạn có thể thấy bằng cách thêm và lọc =0 vào cuối URL và loại bỏ các bộ lọc.

Ví dụ: thêm và lọc =0 vào cuối URL page cho một truy vấn “ raleigh seo meetup”, nó sẽ cho thấy một trang giống chính xác 2 lần. Ở đây không phải nói Meetup đã làm quá tốt, mà kể từ khi họ thực sự tạo ra 2 phiên bản HTTP và HTTPS- chỉ trong trường hợp này, thì cả 2 link đó đều chính xác trong việc sử dụng thẻ canonical. Nhưng thực ra, nó chỉ cho thấy trang giống chính xác đã thực sự được lập chỉ mục, và chỉ có kết quả liên quan nhất được đưa ra. Nó không phải là trang cạnh tranh hay là một trang gây tổn hại cho chính nó.

Nội dung trùng lắp là gì?

Bao nhiêu phần của web bị trùng lắp?

Theo như Matt Cutts, có khoảng 25-30 % của web bị trùng lặp nội dung. Một nghiên cứu gần nhất từ Raven Toold dựa trên dữ liệu từ các công cụ  tìm thấy một kết quả tương tự: là 29% của các page có trùng lặp nội dung.

Quan điểm của Google về trùng lặp nội dung ra sao?

Có rất nhiều bài đăng được xuất bản bởi chính người nhà Google. Dưới đây là một bảng tóm tắt các nội dung tốt nhất liên quan đến chủ đề này.

  • Nội dung trùng lắp không khiến cho trang web bị trừng phạt
  • Google biết rằng người dùng muốn thấy sự phong phú trên các kết quả tìm kiếm và không phải là các bài viết giống nhau, nen họ chọn phiên bản tốt nhất, chỉ thể hiện một phiên bản đó.
  • Google thực sự thiết kế các thuật toán để ngăn chặn các nội dung trùng lắp làm tổn hại đến các webmaster. Những thuật toán này nhóm các phiên bản vào một cụm. Và URL tốt nhất trong cụm được hiển thị. Và họ cũng đã cho biết rõ ràng là: “ Nếu như bạn không muốn lo lắng về việc phân loại các nội dung trùng lắp trên website, thì hãy cho chúng tôi biết thay vì lo lắng”.
  • Nội dung trùng lắp không phải là vùng đất hành động, trù khi định hướng của nó là để thao tác hóa các kết quả tìm kiếm.
  • Điều không may nhất có thể xảy ra với việc lọc này là một phiên bản ít được kỳ vọng hơn của page sẽ được hiển thị trên các kết quả tìm kiếm.
  • Google cố gắng xác định nguồn gốc chính thức của Content và hiển thị nó.
  • Nếu như có ai đó cố trùng lặp nội dung của bạn mà không có sự cho phép, bạn có thể yêu cầu xóa đi bằng cách filling a request trong Digital Millenium Copyright Act.
  • Đừng có khóa việc tiếp cận nội dung trùng lắp. Nếu như Goole không thể dọ hết các phiên bản, thì Google không thể củng cố các tín hiệu.

Nguồn dữ liệu

Deftly dealing with duplicate content Duplicate content due to scrapers Google, duplicate content caused by URL parameters, and you Duplicate content summit at SMX Advanced Learn the impact of duplicate URLs Duplicate content (Search Console Help)

Các nguyên nhân gây trùng lắp nội dung

  • HTTP và HTTPS
  • www và non-www
  • Các thông số và điều hướng
  • Các phiên IDs
  • Các trang chỉ mục
  • Phiên bản trang thay thế như m. hoặc các trang AMP
  • Môi trường lưu trữ
  • Phân trang
  • Phiên bản quốc gia, ngôn ngữ

Giải pháp cho nội dung trùng lắp

Các giải pháp này sẽ tùy thuộc vào các tình huống cụ thể:

  • Đừng làm gì cả, mong là Google biết cách ổn thỏa: Bạn có thể đọc các bài viết của người thuộc Google và hiểu rằng Google sẽ cụm các page và củng cố các dấu hiệu, để mang lại giải pháp nội dung trùng lắp hiệu quả cho bạn.
  • Thẻ canonical: Những thẻ này được dùng để củng cố các dấu iệu và chọn ra phiên bản ưu tiên hơn. Sẽ không có vấn đề gì cả khi mà một website có các thẻ canonical một cách chính xác và tháy một audit thông báo rằng họ gặp tình huống nội dung trùng lắp.
  • Chuyển hướng 301: Nó sẽ ngăn chặn các page gặp phải các vấn đề trùng lắp phổ biến nhất bằng cách ngăn các phiên bản bổ sung hiển thị.
  • Nói cho Google làm thế nào để xử lý các thông số URL: Thiết lập này cho Google biết những thông số thực sự thay vì để Google cố gắng tìm nó ra.
  • Rel = "prev" và rel = "next": Được sử dụng cho phân trang.
  • Thực hiện theo thông lệ tốt nhất được cung cấp.

Có một số điều mà thực sự có thể gây ra vấn đề, chẳng hạn như scraping / thư rác. Nhưng đối với hầu hết các phần, các vấn đề sẽ bị  gây ra bởi chính các trang web. Không không cho phép trong robots.txt, không nofollow, không noindex, không canonical từ các trang mục tiêu đuôi dài. Nhưng hãy sử dụng các tín hiệu nói trên cho các vấn đề cụ thể của bạn để chỉ ra cách bạn muốn các nội dung được xử lý. Kiểm tra phần trợ giúp của Google về nội dung trùng lặp.

Các lời đồn đoán về trừng phạt nội dung trùng lặp cần phải chấm dứt. Audit, các công cụ và các sự hiểu lầm cần được chỉnh sửa bằng thông tin chính xác. Nếu không các đồn đoán này có thể tồn tại khoảng hơn 10 năm nữa. Có rất nhiều cách để củng cố tín hiệu trên nhiều trang, và thậm chí nếu bạn không sử dụng chúng, Google sẽ cố gắng củng cố các tín hiệu cho bạn.

Henry Hoàng
Henry Hoàng
Chuyên gia SEO Henry Hoàng. Có nhiều năm kinh nghiệm trong lĩnh vực seo, cải thiện % CTR cho website, nhằm tăng tỉ lệ chuyển đổi. Phân tích đánh giá độ cạnh tranh từ khóa, từ đó đưa ra định hướng SEO phù hợp. Xem thêm
FollowAction (12026) - LikeAction (12226) - WriteAction (900)