Thứ Sáu, 15 tháng 2, 2013

Duplicate content: Duplicate content là gì? Thuật ngữ SEO

1. Duplicate content là gì? – Thuật ngữ SEO

Duplicate content ( Trùng lặp nội dung ), là sự trùng lặp nội dung trên một website hay nhiều website. Các SE ( search engine ) muốn hiển thị nội dung đa dạng và phong phú, để người dùng có nhiều sự lựa chọn khác nhau. Vì vậy các SE chỉ hiển thị một nội dung duy nhất trong kết quả tìm kiếm.
Cách khắc Duplicate content:
- Bạn không lên trỏ nhiều tên miền về một website, hay nhiều Link khác nhau cùng trỏ về một nội dung trong trang website của bạn( Post một bài nhưng nhiều lần trong một website ).
- Tránh các trường hợp copy nội dung của các website khác về trang của mình.
- Sử dụng meta tags, thuộc tính “ nofollow ”, robots.txt để kiểm soát nội dung của mình.
- Khi bạn muốn thay đổi cấu trúc bài viết, nên redirect 301 URL cũ đến URL mới.

 2. Nội dung trùng lặp - Duplicate Content

Google không thích các web bị trùng lặp nội dung, bài viết này hướng dẫn và giải thích chi tiết về khái niệm trùng lặp nội dung trong SEO.

Nội dung trùng lặp là gì?

Nội dung trùng lặp là nội dung xuất hiện trên Internet tại hơn một địa chỉ ( URL). Đây là một vấn đề, bởi vì khi có nhiều hơn 1 đoạn nội dung giống hệt nhau trên Internet sẽ gây khó khăn cho công cụ tìm kiếm để quyết định phiên bản nào phù hợp hơn với một truy vấn tìm kiếm nhất định. Để đưa ra kết quả tìm kiếm tốt nhất, công cụ tìm kiếm sẽ hạn chế hiển thị các nội dung bị sao chép, vì thế bắt buộc phải lựa chọn phiên bản nhiều khả năng là bản gốc nhất (hoặc tốt nhất).

Mẫu code Rel=Canonical

Mẫu code rel canonical
 

Mẫu code Meta Robots

Mẫu code thẻ meta robots
 

Ba vấn đề lớn nhất mà duplicate content gây ra:

  1. Search engine (SE) không thể phân biệt phiên bản nào được copy, phiên bản nào là gốc.
  2. SE không biết nên hướng các link metrics (mozrank, moztrust, bản quyền, anchor text, link juice …) đến một trang web, hay giữ tách rời giữa nhiều phiên bản.
  3. SE không biết nên chọn phiên bản nào để xếp hạng cho kết quả tìm kiếm.

Khi xuất hiện nội dung trùng lặp, người quản trị web đối mặt với vấn đề mất thứ hạng và giảm traffic, và SE sẽ đưa ra kết quả tìm kiếm kém chính xác hơn.
trùng lặp nội dung
(Hình: Không thể xếp hạng tất cả được. Bắt buộc phải tìm ra bản gốc! )
 

Ví dụ về nội dung trùng lặp:

1. Các tham số của URL

Các thông số URL như theo dõi nhấp chuột và một số mã phân tích có thể gây ra các vấn đề nội dung trùng lặp.

trùng lặp nội dung ví dụ 1
(hình: hệ thống category URL tạo nên các phiên bản giống nhau của cùng 1 trang web)
 

2. Phiên bản in ấn

Các phiên bản để in ấn của một nội dung có thể gây ra duplicate content khi nhiều phiên bản của trang được xếp hạng.

Trùng lặp nội dung ví dụ 2
(hình: URL của phiên bản để in gây ra trùng lặp nội dung)
 

3. Senssion IDs

Các senssion IDs là nguyên nhân chủ yếu gây ra nội dung trùng lặp. Việc này xảy ra khi mỗi người dùng vào website và để lại 1 senssion ID và được lưu lại ở URL.

Trùng lặp nội dung ví dụ 3
(hình: Senssion ID tạo nên các phiên bản giống nhau của cùng 1 trang web)
 

Áp dụng trong SEO


Bất cứ khi nào nội dung của một trang web có thể được tìm thấy tại nhiều URL, nó nên được khai báo với công cụ tìm kiếm. Điều này có thể được thực hiện bằng cách sử dụng một chuyển hướng 301 đến URL chính xác, sử dụng rel = canonical hoặc trong một số trường hợp có thể sử dụng công cụ xử lý thông số trong Trung tâm Quản trị Trang web của Google.

Chuyển hướng 301

Trong nhiều trường hợp, cách tốt nhất để chống lại nội dung trùng lặp là thiết lập một trang chuyển hướng 301 từ trang "bản sao" các trang nội dung ban đầu. Khi các trang với nhiều khả năng được xếp hạng tốt được kết hợp thành một trang duy nhất, chúng không còn cạnh tranh với nhau, mà  tạo ra một sự liên quan mạnh mẽ hơn và tín hiệu phổ biến tổng thể. Điều này sẽ tác động tích cực đến khả năng được xếp hạng tốt trong công cụ tìm kiếm.

Chống trùng lặp nội dung chuyển hướng 301
(HÌnh: giờ thì xếp hạng trang này được rồi!)
 

Rel="canonical"

Một tùy chọn khác để đối phó với nội dung trùng lặp là sử dụng rel = canonical tag. Các rel = canonical đi cùng một link juice (ranking power) cũng giống như là một chuyển hướng 301, và để thực hiện thì thường mất it thời gian hơn.

Thẻ này là một phần của HTML head của một trang web. Thẻ meta này không phải là mới, nhưng như nofollow, chỉ cần sử dụng một tham số rel mới. Ví dụ:

Mẫu code rel canonical chong trung lap noi dung


Thẻ này báo cho Bing và Google rằng trang đã đưa nhất định phải được xem là bản sao của www.example.com/canonical-version-of-page/ URL và tất cả các liên kết, các số liệu nội dung mà SE áp dụng phải được công nhận cho URL kia.

Chống trùng lặp nội dung sử dụng rel=canonical
(Hình: Đúng rồi! Đây chỉ là bản sao của SEOMoz blog URL.
Đây cũng giống như 301, nhưng không phải sửa chữa gì nhiều)
 
Các ví dụ sau đây cho thấy lỗi viết hoa gây ra trùng lặp nội dung:

   http://www.simplyhired.com/a/jobs/list/q-software+developer
   http://www.simplyhired.com/a/jobs/list/q-Software+developer
   http://www.simplyhired.com/a/jobs/list/q-software+Developer

Sự khác biệt duy nhất giữa các URL này chữ viết hoa của các từ "software" và "developer". Công cụ tìm kiếm sẽ coi tất cả các URL trên là các trang khác nhau và xét chúng là dublicate content. Bằng cách thực hiện rel = "canolical" đối với trường hợp thứ 2 và thứ 3, chúng sẽ chỉ trỏ lại vào URL 1, các công cụ tìm kiếm sẽ biết để coi tất cả các URL này là URL # 1.

Noindex, follow

Thẻ meta robot với các giá trị "no index, no follow" có thể được thực hiện trên các trang web mà không cần phải được bao gồm trong chỉ mục của công cụ tìm kiếm. Điều này cho phép các bot tìm kiếm craw links trên 1 trang web nhất định, nhưng vẫn không bao gồm chúng trong mục xếp hạng. Điều này đặc biệt hữu ích với vấn đề ngắt trang.

Parameter Handling trong Google Webmaster Tools

Google Webmaster Tools cho phép bạn thiết lập tên miền ưa thích của trang web của bạn và xử lý các thông số URL khác nhau khác nhau. Hạn chế chính của những phương pháp này là họ chỉ làm việc cho Google. Bất kỳ sự thay đổi của bạn ở đây sẽ không ảnh hưởng đến Bing hoặc bất kỳ công cụ tìm kiếm các khác.

Đặt tên miền ưa thích

Điều này nên được thiết lập cho tất cả các trang web. Đó là một cách đơn giản để báo cho Google xem một trang web nhất định nên được hiển thị có hoặc không có www trong các trang kết quả tìm kiếm.

Các phương pháp khác nhằm loại bỏ Duplicate Content

1. Duy trì tính thống nhất các liên kết nội bộ trong suốt một trang web. Ví dụ, nếu người quản trị trang web xác định rằng phiên bản canonical của một tên miền là www.example.com/, thì tất cả các liên kết nội bộ nên là http://www.example.com/example.html hơn là http://example. com / page.html. (chú ý  không có www).
2. Khi sử dụng nội dung của trang khác, cần đảm bảo rằng phải có link back đến trang đó. Xem phần “Đối phó với nội dung trùng lặp” để biết thêm thông tin.
3. Giảm thiểu nội dung tương tự. Thay vì 1 trang web về áo mưa cho bé trai và 1 trang web về áo mưa cho bé gái, nội dung giống nhau đến 95%, hãy thêm nội dung để chúng trở nên khác biệt. Hoặc có thể ghép thành 1 trang chung về áo mưa cho trẻ em.

Công cụ liên quan


Xenu Link Sleuth
Liên kết Xenu Sleuth (TM) kiểm tra các liên kết hỏng cho trang web và số liệu SEO hữu ích khác.


Tài liệu tham khảo thêm


Duplicate content - Google Technical Support
Tài liệu chính thức của Google về trùng lặp nội dung.

Parameter Handling in Google Webmaster Tools
Search Engine Lands hướng dẫn xử lý thông số.

Không có nhận xét nào:

Đăng nhận xét