Ngày: 13.01.2010, Lượt xem: 139
Vấn đề trùng lắp nội dung
Như chúng ta đã biết, người duyệt web (visitor) và cả các công cụ tìm kiếm (SE) đều muốn nội dung của một trang web nào đó phải luôn cập nhập, duy nhất và có chất lượng. Tuy nhiên thực tế trong việc kinh doanh trực tuyến thì nội dung thường xuyên được lặp lại một cách vô tình hay cố ý. Đó là lý do tại sao vấn đề trùng lắp nội dung là một chủ đề rất nóng bỏng trong các cuộc thảo luận gần đây. Những thiệt hại gây ra bởi việc trùng lắp nội dung ngày càng trở nên rõ ràng hơn nhờ vào bộ lọc của các công cụ tìm kiếm đã được cải tiến.
Trùng lắp nội dung là gì?
Trùng lắp nội dung là việc có nhiều phiên bản của một nội dung tồn tại trên nhiều trang web khác nhau của cùng một tên miền hoặc từ nhiều tên miền khác. Những nội dung giống nhau toàn bộ hoặc giống nhau một phần nào đó cũng xem là trùng lắp nội dung.
Nhiều webmaster hoặc các chuyên gia SEO/SEM thường tính toán về tỷ lệ % của những trang giống nhau và cố gắng dự đoán mức phạt cụ thể từ các SE khi gặp trường hợp trùng lắp nội dung. Tuy nhiên, rất khó có thể xác định tỷ lệ % giữa những trang sao chép tuyệt đối và những trang tương tự nhau ở một phần nào đó, nhưng thực tế thì có vẻ đơn giản hơn rất nhiều bằng cách so sánh trực tiếp. Khi so sánh 2 trang giống nhau về mặt nội dung, các SE sẽ căn cứ vào các yếu tố như quyền sở hữu trang, sự phố biến liên kết, độ tuổi của tên miền và một số yếu tố khác.
Các loại trùng lắp nội dung
Theo Webmasters/Site Owners Help, Google xác định các loại trùng lắp nội dung sau đây với mức độ không nghiêm trọng:
- Các bài thảo luận trên diễn đàn.
- Các trang trình bày hàng hóa.
- Phiên bản in của các trang web.
Bên cạnh đó, Google có thể đánh giá danh mục liên kết, các văn bản đề mục lớn, các quảng cáo, footer và các liên kết lặp đi lặp lại. Những trường hợp trùng lắp nội dung này sẽ không bị phạt nhưng sẽ bị bỏ qua không đánh chỉ mục.
Các loại khác của trùng lắp nội dung là cố tình xây dựng những nội dung giống nhau hoàn toàn trên cùng tên miền (trên nhiều trang khác nhau, trên các subdomain, ...) hoặc trên các tên miền khác nhau.
Trong hầu hết trường hợp, rất khó có khả năng bị phạt khi trùng lắp nội dung nếu không cố tình tạo ra. Tuy nhiên, chúng ta nên trang bị những kiến thức để đảm bảo rằng không sử dụng những nội dung trùng lắp đặc biệt và vô tình kích hoạt bộ lọc của các SE.
Các SE xử lý nội dung trùng lắp như thế nào
Đa số chúng ta đều biết các SE không thích trùng lắp nội dung. Vấn đề là khi có nhiều trang với nội dung giống nhau sẽ gây nhầm lẫn cho SE trong khi mục tiêu của các SE là trả về cho người sử dụng một danh sách liên quan nhiều nhất, duy nhất, tự nhiên nhất và không xáo trộn. Như vậy, để cung cấp đến người dùng những kết quả khác nhau phù hợp với yêu cầu tìm kiếm, các SE sẽ sử dụng bộ lọc để loại trừ các trang quá giống nhau.
Theo Google 's Webmasters/Site Owners Help, Google sẽ đánh chỉ mục và trình bày những trang có nội dung riêng biệt. Bộ lọc sẽ làm việc nếu giả sử trên trang web của chúng ta có 2 phiên bản nội dung giống nhau (1 phiên bản nội dung bình thường, 1 phiên bản nội dung để in) mà không có bất kỳ câu lệnh nào trong robots.txt hoặc có thẻ META Noindex, Google sẽ chọn 1 trong 2.
Nói cách khác, bộ lọc trùng lắp nội dung là một thuật toán được thiết kế để so sánh một trang web này với một trang web khác. Nếu bộ lọc phát hiện ra 2 hoặc nhiều trang giống nhau, nó sẽ lưu trang web tin cậy nhất vào danh sách chỉ mục chính và sẽ chuyển các trang web còn lại qua danh sách chỉ mục phụ.
Hình phạt sẽ xảy ra khi chúng ta sao chép hàng trăm hoặc hàng ngàn trang web từ các tên miền khác hoặc tạo ra các bản sao chính xác của những website hiện có.
Thẻ canonical
Như chúng ta đã biết, các SE sẽ rất vất vả trong việc loại trừ các kết quả trùng lặp từ dánh sách chỉ mục của chúng. Để có thể bảo vệ các nội dung của tác giả, các SE hàng đầu triển khai một tiêu chuẩn mới đó là thẻ Canonical.
Thẻ này được sử dụng trong phần đầu của trang web để cung cấp đến các SE đây là nội dung nguyên bản, tất cả các trang còn lại nếu có nội dung trùng lắp với trang này đều là tham khảo.
Thẻ Canonical rất hữu ích trong trường hợp nhiều URL trỏ đến cùng 1 trang, hoặc có thể sử dụng khi có nhiều phiên bản trên một trang nào đó. Thẻ này hoạt động tương tự như lệnh chuyển hướng (redirect) 301 cho tất cả URL trình bày trang web có chứa thẻ này. Chúng ta có thể sử dụng liên kết tương đối hoặc liên kết tuyệt đối, tuy nhiên, liên kết tuyệt đối được khuyên dùng bởi các SE.
Đây là 1 vài khuyến nghị từ Google Webmasters/Site Owners Help
Để di chuyển đến một tên miền mới hoàn toàn, sử dụng lệnh chuyển hướng 301 là thích hợp nhất. Google hiện tại công nhận những trang canonical là nguyên gốc đối với các trang web khác nhau trong cùng một tên miền, subdomain nhưng không công nhận so với các tên miền khác. Ví dụ cụ thể là Google công nhận 1 trang nào đó của tên miền http://www.abc.com là Canonical so với các trang còn lại trong cùng tên miền hoặc so với http://xyz.abc.com nhưng không công nhận so với tên miền http://www.def.com.
Làm thế nào để tránh trùng lắp nội dung
1/ Không lấy thông tin từ những website khác
Đầu tiên, nội dung được lấy từ website khác không có giá trị cho website của bạn. Bên cạnh đó, việc làm này có thể gây ảnh hưởng không tốt đến kết quả xếp hạng và website của bạn có thể bị phạt vì nội dung trùng lặp và vi phạm bản quyền. Để tránh vấn đề này, hãy tạo ra một nội dung duy nhất và nguyên thủy.
2/ Kiểm tra nếu bạn vô tình sử dụng nội dung trùng lắp
Khi website của bạn phát triển mạnh, bạn khó có thể kiểm soát mọi việc và ngay chính bạn cũng có thể cung cấp lại những thông tin đã được đăng tải. Để tránh điều này, luôn kiểm tra nội dung trùng lắp trên toàn bộ website của bạn. Nếu tìm thấy nó, chỉ giữ lại một trang có nội dung duy nhất.
3/ Kiểm tra xem nội dung của bạn có bị website khác sử dụng không
Có một vài công cụ trực tuyến dùng để làm việc này như Copyscape. Nếu bạn phát hiện ra rằng nội dung của mình đã bị người khác sao chép bất hợp pháp bạn có thể gởi báo cáo đến các SE (Google; Yahoo; MSN).
4/ Nếu có nhiều URL trên cùng 1 tên miền trỏ đến nội dung giống nhau, hãy ngăn chặn những trang trùng lặp được đánh chỉ mục. Ví dụ như bạn không muốn phiên bản in được các SE đánh chỉ mục, hãy dùng các biểu thức để ngăn chặn các robots truy cập vào nội dung này trong tập tin robots.txt.
5/ Nếu website của bạn đang tham gia vào một chương trình liên kết (affiliate), để tăng giá trị cho website của bạn, hãy viết lại phần mô tả về sản phẩm thay vì sử dụng những thông tin mặc định được cung cấp. Ngoài ra, bổ sung thêm những nội dung độc đáo như mẹo vặt, hướng dẫn sử dụng, ... để làm cho website của bạn hấp dẫn và hữu dụng hơn với visitor và các SE.
6/ Nếu bạn nhắm mục tiêu đến nhiều quốc gia, hãy tạo ra nội dung khác nhau cho mỗi tên miền hoặc mỗi ngôn ngữ khác nhau.
Những điểm quan trọng của bài viết này
1/ Tạo ra nội dung nguyên bản và duy nhất thay cho việc sao chép nội dung từ các website khác.
2/ Dùng các công cụ kiểm tra trùng lặp nội dung để xem nội dung của chúng ta có bị người khác sử dụng trái phép hay không.
3/ Loại bỏ những trang trùng lặp trên website hay ít nhất là ngăn chặn được các SE lập chỉ mục.
4/ Nếu bạn tham gia vào các chương trình liên kết, hãy làm cho nội dung website của bạn là duy nhất.
(theo SP SEO)
Tags :
Các bài viết liên quan
- Các yếu tố liên quan đến HTML khi thực hiện… (14.01.2010)
- Tối ưu hóa bố cục của trang web (14.01.2010)
- Tối ưu các đường liên kết (navigation) và menu (14.01.2010)
- Tối ưu hóa cấu trúc website (14.01.2010)
- Tối ưu hóa website (SEO) theo cục bộ địa phương (14.01.2010)
- Khắc phục lỗi trùng lặp nội dung (05.09.2009)
02.11.2009
02.11.2009
30.10.2009
29.10.2009
Bình chọn
Lượt truy cập
101202










