Thứ Ba, 5 tháng 2, 2013

Search Engine là gì? Cách vận hành của Search Engine

 

Máy truy tìm dữ liệu

 Máy truy tìm dữ liệu trực tuyến hay máy tìm kiếm (tiếng Anh: search engine), hay còn được gọi với nghĩa rộng hơn là công cụ tìm kiếm (search tool), nguyên thủy là một phần mềm (thường được tích hợp vào một trang web trực tuyến) nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng dựa vào các thông tin mà chúng có. Trữ lượng thông tin này của công cụ tìm kiếm thực chất là một loại cơ sở dữ liệu (database) cực lớn. Việc tìm các tài liệu sẽ dựa trên các từ khóa (keyword) được người dùng gõ vào và trả về một danh mục của các trang Web có chứa từ khóa mà nó tìm được.

Từ khóa được hiểu như là một tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ. Trong trường hợp một từ khoá bao gồm nhiều hơn một chữ (hay từ) thì có thể gọi tập họp tất cả các chữ đó là bộ từ khoá (set of keywords).
Cơ sở dữ liệu mà máy truy tìm sử dụng thường được bổ sung cập nhật định kì bằng cách quét (scan), điều chỉnh, thêm bớt nội dung và chỉ số hoá lại tất cả các trang mà nó có thể tìm gặp trên Internet.
Ngày nay, với số lượng các trang Web lên đến hàng tỉ, nên việc tìm ra số trang có chứa nội dụng đòi hỏi của từ khoá có thể lên đến hàng triệu trang. Do đó, việc hiển thị các trang tìm thấy theo đúng thứ tự quan trọng của các trang và theo mong muốn của người dùng cũng là một trở ngại lớn đòi hỏi sự chắt lọc từ máy truy tìm và sự khéo léo về cách thức đặt ra từ khoá từ người dùng máy.
Một bộ máy tìm kiếm dữ liệu là một hệ thống phần mềm máy tính giúp con người tìm kiếm thông tin được lưu trữ trên hệ thống máy tính như mạng Internet, hoặc máy tính cá nhân. Máy tìm cho phép người sử dụng yêu cầu các thông tin với những hạn chế nhất định (thường được miêu tả bởi từ hoặc cụm từ) và nhận về một danh sách các liên kết siêu văn bản thỏa mãn các hạn chế. Máy tìm sử dụng hệ thống chỉ mục để có thể tìm kiếm nhanh chóng và hiệu quả. Máy tìm thường được hiểu là máy tìm những thông tin công khai trên mạng, nếu không có những khả năng cao hơn. Ngoài ra còn có các loại máy tìm khác như máy tìm doanh nghiệp tìm thông tin trên mạng nội bộ, máy tìm cá nhân tìm thông tin trên máy tính cá nhân, và máy tìm di động.
Một số máy tìm còn khai thác thông tin trong các nhóm tin, các cơ sở dữ liệu lớn, hay trong các hệ thống thư mục mở như DMOZ.org. Khác với hệ thống thư mục mạng được duy trì bởi con người, máy tìm hoạt động dựa vào các thuật toán. Những trang web được gọi là máy tìm thực chất là giao diện người dùng của các máy tìm sở hữu bởi các công ty khác nhau.

Mục lục

Các thuật ngữ liên quan

Các thuật toán hay kỹ thuật mà máy truy tìm dùng để xếp hạng hay đánh giá tầm quan trọng của một trang Web theo một từ khoá cho trước gọi là sự phân hạng (ranking), hay đơn giản hơn là phân hạng.
Các kỹ thuật thay đổi mã nguồn HTML của một trang Web cũng như các kỹ thuật khác ngoài việc sửa mã nguồn HTML nhằm nâng cao tối đa thứ hạng của trang Web đối với một số từ khóa nào đó trên các máy truy tìm gọi là kỹ thuật tối ưu hoá cho máy tìm kiếm hay SEO (từ tiếng Anh Search Engine Optimization).

Hoạt động phân hạng các trang Web

Ngoài việc xử lý số lượng trang tìm thấy theo yêu cầu của một từ khoá trong kho dữ liệu cập nhật của nó, các máy truy tìm dữ liệu còn phải tìm cách chống lại sự nhiễu loạn của các trang không có nội dung phù hợp với yêu cầu nhưng vẫn lọt vào danh sách tuyển chọn của máy truy tìm.
Nguyên do của các nhiễu loạn này là việc các trang Web chuyên về quảng cáo hay tiếp thị luôn luôn tìm cách để lọt vào hàng đầu trong danh sách tuyển chọn của máy truy tìm, và qua đó họ có thể giới thiệu sản phẩm của họ đến người dùng. Ngược lại, người dùng, trong đa số các trường hợp, không muốn tìm các quảng cáo tiếp thị mà chỉ muốn tìm các dữ liệu khác theo ý đã ghi trong từ khoá.
Do các đặc điểm phức tạp trên, việc phân hạng các trang Web tìm được bởi một bộ từ khoá cho trước của máy truy tìm sẽ dựa vào việc áp dụng thêm các thuật toán hay biện pháp xử lý đặc biệt:

Những tiêu chí quan trọng dùng trong phân hạng

Dưới đây là các tiêu chí chủ yếu mà các thuật toán của các máy tìm kiếm Web sử dụng để phân hạng các trang Web:
  1. Tần số phát sinh : được hiểu là tổng số lần xuất hiện của một chữ hay một cụm từ của từ khoá trong nội dung một trang Web nào đó. Theo sự đánh giá của các chuyên gia, thì tần số phát sinh của một trang Web càng cao sẽ chứng tỏ nội dung của trang Web đó càng liên quan hay càng đề cập nhiều đến những gì nêu trong từ khoá. Do đó, mật độ từ khóa đóng vai trò quan trọng trong việc phân hạng một trang Web.
  2. Thẻ meta và câu lệnh title:
    Theo ngôn ngữ HTML, thì thẻ meta là các câu lệnh nằm ở phần đầu (header) của mã của một trang Web. Thẻ meta có dạng:
    <META (các thông số cho câu lệnh meta)>
    Trong nhiều máy truy tìm, người thiết kế còn cho rằng sự xuất hiện các chi tiết hay toàn bộ nội dung của từ khoá càng sớm trong một trang mã HTML thì điều đó chứng tỏ trang đó có thể có chủ đề liên quan càng nhiều đến từ khoá. Hậu quả là một trang Web có thể được phân hạng cao hơn nếu các phần hay toàn bộ từ khoá có mặt sớm hơn trong phần mã HTML. Như vậy, trong một số thẻ meta, máy truy tìm sẽ đọc nội dung và lấy ra các yếu tố phân hạng. Các thẻ meta có nhiều hiệu lực cho việc phân hạng là:
    • <META name="description" content="(miêu tả ngắn nội dung trang Web)">
    • <META name="keywords" content="(danh sách từ khoá)">
      Với lý do tương tự, nếu câu lệnh
    • <title>(tựa đề của trang Web)</title> không bị bỏ trống thì thứ hạng của nó có thể được nâng cao hơn.
  3. Ngôn ngữ: Nếu một người dùng đang nối vào Internet bằng một máy tính sử dụng tiếng Pháp thì việc hiển thị các trang Web có cùng ngôn ngữ Pháp với máy tính đó rõ ràng là hiệu quả hơn cho người đó. Do đó, yếu tố ngôn ngữ của trang Web cũng được chú ý trong phân hạng.
  4. Số lượng liên liên kết ngoài: Theo sự đánh giá của nhiều chuyên gia phát triển máy truy tìm thì nếu một trang Web được nhiều nơi khác đề cập tới hay mở liên kết tới địa chỉ của nó thì rõ ràng giá trị của trang Web này cao hơn là các trang Web cùng kiểu nhưng lại không có hay ít được liên kết hay đề cập từ các trang khác. Như vậy, các trang Web nào được nhiều trang Web khác liên kết tới (hay đề cập tới) thì chất lượng của nó có thể cao hơn và được phân hạng cao hơn.

Kỹ thuật nâng cao thứ hạng cho một trang Web

Việc nâng cao thứ hạng của một trang Web cho các máy truy tìm là do các nguyên nhân sau đây:
  • Các cơ sở thương mại hay các cơ quan có hoạt động này muốn hoà nhập vào thị trường toàn cầu. Họ có các trang Web, một trong những biện pháp quan trọng là làm sao các trang Web này đến được người dùng Internet. Ngoài việc đăng quảng cáo trên trang phổ biến thì việc làm sao cho địa chỉ trang Web của họ được hiển thị ngay từ trang trả về đầu tiên cũng là một biện pháp quan trọng ảnh hưởng tới việc tiếp thị.
  • Các trang Web truyền bá thông tin hay tuyên truyền những đề tài riêng cũng muốn đem thông tin của mình phổ biến đến được người dùng ở khắp nơi nên cũng mong muốn nâng cao thứ hạng trang Web của mình.
Do tầm quan trọng của việc xếp thứ bậc cho một trang Web nên đã nảy sinh các hậu quả:
  • Sự ra đời của các công ty tư vấn về nâng cao thứ hạng cho trang Web: các công ty này sẽ nhận làm các dịch vụ SEO cho thân chủ để đưa thứ hạng các trang đó lên trong danh sách hiển thị trước tiên của các máy truy tìm.
  • Các trang Web giả dụng (page cloaking): Người thiết kế các trang này sẽ tìm cách cung cấp một nội dung có thể nhận sự phân hạng cao trong các máy truy tìm trong khi thực tế nếu một người dùng Internet truy cập đến địa chỉ này (qua trang trả về của máy truy tìm hay qua việc gõ thẳng địa chỉ vào máy truy cập) thì trang đó hiển thị một nội dung hoàn toàn khác với sự đánh giá của máy truy cập. Hành động này xuất phát từ ý muốn tăng cường khả năng tiếp thị của một số trang Web.
Kỹ thuật đánh lừa các máy truy tìm như trên không quá phức tạp. Một thí dụ là chỉ việc thêm vào phần nội dung các thẻ meta và câu lệnh title thật nhiều chữ hay đoạn văn bản có khả năng làm tăng thứ hạng của chính nó lên mà thực ra bản thân phần hiển thị (phần giữa câu lệnh body) của trang không hề liên hệ tới. Máy truy tìm khi xét đến các trang như vậy sẽ không thể biết rằng nội dung các văn từ ghi trong thẻ meta hoàn toàn không phù hợp với nội dung hiển thị của nó. Tuy nhiên, sự đánh lừa chỉ có thể xảy ra trong thời gian ngắn. Sau đó, khi nhận được phản ánh từ người dùng, máy truy cập sẽ được điều chỉnh và lúc đó các trang giả dụng này sẽ bị trừng phạt bằng cách xoá hẳn chỉ số đã được gán cho trang Web đó.
  • Tính tạm thời của SEO: Phương pháp phân hạng các trang Web của các máy truy tìm thường thay đổi theo tình hình phát triển của Internet và của sự thay đổi nội dung của các trang Web. Do đó, một trang Web cố định chỉ có thể được phân hạng cao trong một thời hạn cố định mà thôi. Để một trang Web tiếp tục được giữ thứ hạng cao thì nội dung của nó (hay ít nhất nội dung các thẻ meta) phải thay đổi hoặc là tự trang đó phải được tăng liên kết từ các địa chỉ Web khác tới và đây cũng là chỗ cho các nhà chuyên nghiệp về SEO phục vụ.
  • Bảo trợ quảng cáo cho máy truy tìm: Bản thân các máy truy tìm cũng có thể là các cơ quan phục vụ quảng cáo do đó một trong những cách tốt để tăng hiệu quả tiếp thị là tham gia các dịch vụ quảng cáo ngay trên các máy truy tìm.
  • Phá hoại máy truy tìm: Có thể do nhiều nguyên do phức tạp, các tay tin tặc có thể tổ chức tấn công vào máy truy tìm nhất là các máy được ưa chuộng. Ngày 26 tháng 7 năm 2004, hệ thống máy truy tìm lớn nhất hiện tại, Google, đã bị tấn công bởi virus máy tính myDoom làm cho hệ thống này ngưng hoạt động trong khoảng 4 tiếng.

Phân loại máy truy tìm

Ngày nay, thì các máy truy tìm đã phát triển rất xa so với dạng nguyên thuỷ. Có hai cách chính phân loại máy truy tìm.

Theo phương thức hoạt động

  • Kiểu máy nhện (spider): Cơ sở dữ liệu của các máy truy tìm được cập nhật hoá bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các phần mềm này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các liên kết (link) từ các trang và trở lại bổ sung dữ liệu cho chính nó sau khi phân tích. Phần mềm này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá được bỏ vào là để cho máy truy tìm lục kiếm trong bảng chỉ số của nó. Kết quả tốt nhất sau khi phân hạng sẽ được xếp ở thứ tự đầu tiên. Trang thông dụng nhất dùng nguyên tắc này là http://www.google.com

Giao diện của máy metacrawler
  • Kiểu máy truy tìm ảo (meta-search engine): Ngày nay, người ta có thể lợi dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy tìm mới gọi là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm này khá đơn giản. Nó không có cơ sở dữ liệu. Khi hoạt động thì nó sẽ gởi từ khoá đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các kết quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các tài liệu tìm được cho thân chủ. Ưu điểm của loại máy truy tìm này là lợi dụng cơ sở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn và nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm nguyên thuỷ nên gọi là meta- (tiền tố meta có nghĩa là "siêu hình" hay "ảo"). Điển hình loại này là MetaCrawler.
  • Kiểu thư mục đối tượng (subject directory): Còn gọi là máy truy tìm theo phân lớp (hierarchical search engine) - máy truy tìm này phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lựa theo kiểu rẽ nhánh từ từ cho đến khi tìm ra các trang Web mà mình muốn. Kiểu này dễ cho người truy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà họ muốn kiếm ra. Hơn nữa, sự phân loại đôi khi không được đầy đủ và chính xác. Điển hình của loại này là http://www.yahoo.com
  • Kiểu cơ sở dữ liệu đặc biệt hay còn gọi là bất khả kiến Web (invisible Web): Đặc điểm của loại này là dữ liệu kiếm ra không thực sự có từ địa chỉ trang Web cụ thể qua các máy truy tìm; dữ liệu này tồn tại trong các cơ sở dữ liệu của một máy tính hay mạng ở đâu đó trên Internet mà các trang Web được phép sử dụng. Đặc biệt, các trang Web nghiên cứu của các đại học hay học viện như http://lii.org, http://www.academicinfo.nethttp://infomine.ucr.edu thuộc kiểu này.
  • Sau này nhiều máy truy tìm hỗ trợ người dùng qua nhiều cách thức khác nhau nên người ta ít thấy ranh giới phân chia của các máy truy tìm nữa mà thay vào đó là các hệ thống máy truy tìm lại bao gồm nhiều kiểu chức năng khác nhau. Chẳng hạn như http://www.yahoo.com không còn đơn thuần là một máy truy tìm theo kiểu thư mục đối tượng mà bên cạnh đó nó cũng cung cấp luôn cả kiểu máy nhện cho người dùng.

Theo chức năng

Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có:
  • Kiếm địa chỉ trang Web
  • Kiếm địa chỉ thư điện tử
  • Kiếm thông tin riêng về một người
  • Kiếm thông tin về một tổ chức
  • Kiếm việc làm
  • Kiếm bản đồ ...

Phép toán và hỗ trợ của máy truy tìm


Dùng Google để tìm lại nguồn thơ khi chỉ nhớ một câu
Để mở rộng các chức năng tìm kiếm, cũng như tạo thêm nhiều tiện dụng cho người dùng, các máy truy tìm cũng đã hỗ trợ thêm nhiều phép toán lên từ khóa. Dĩ nhiên mỗi máy có thể sẽ hỗ trợ những phép toán khác nhau. Ở đây chỉ nêu ra các phép toán được hỗ trợ bởi hầu hết các máy truy tìm.
  • Dùng phép "+": Để tìm các trang có mặt tất cả các chữ của từ khóa mà không theo thứ tự nào hết thì viết nối các chữ này với nhau bằng dấu +. Thí dụ: Tìm trang nói về cách thức viết Linux scripts có thể dùng bộ từ khóa
    +Linux +script +tutor
  • Dùng phép "-": Trong số các trang Web tìm được do quy định của từ khóa thì máy truy tìm sẽ loại bỏ các trang mà nội dung của chúng có chứa chữ (hay cụm từ) trong ngoặc kép đứng ngay sau dấu trừ. Thí dụ: Khi tìm tin tức về các loại xe dùng kỹ thuật lai mới chưa có bán trên thị trường nhưng không muốn các trang bán xe hay các trang nói về hai kiểu xe Prius (của Toyota) và kiểu xe Insight (của Honda) lọt vào danh cách truy tìm thì có thể thử từ khóa
    +car +hibrid -sale -Prius -Insight
  • Dùng dấu ngoặc kép " ": Khi muốn chỉ thị máy truy tìm nguyên văn của cụm từ, có thể dùng dấu ngoặc kép. Thí dụ: Để tìm lại nguyên tác và nội dung bài thơ có câu nước non nặng một lời thề thì có thể thử dùng từ khoá với ngoặc kép
    "Nước non nặng một lời thề"
  • Dùng các phép toán của đại số Bool: Hiện tại, nhiều máy truy tìm hỗ trợ thêm các phép toán như là OR, AND và NOT. Khi dùng thì tên của các phép toán này bắt buộc phải viết chữ in hoa. Phép toán Bool đòi hỏi điền vào đúng vị trí qui định một từ (hay một cụm từ trong ngoặc kép) giữ vai trò của toán tử. Ngoài ra, đa số máy truy tìm chỉ hoạt động tốt trong một số lượng giới hạn các phép toán Bool cho một bộ từ khoá. Lời khuyên chung là không nên dùng quá 6 phép toán Bool cho cùng một bộ từ khoá và không phải máy truy tìm nào cũng hỗ trợ đầy đủ các phép toán AND, OR hay NOT
    • OR: Có cú pháp là (Toán tử 1) OR (Toán tử 2). Lệnh này cho phép tìm những trang Web nào có chứa một trong các toán tử của phép toán OR của bộ từ khoá. Thí dụ để tìm các bài viết về Nguyễn Trãi trong cả tiếng Việt và tiếng nước ngoài thì có thể dùng bộ từ khoá
      "Nguyễn Trãi" OR "Nguyen Trai"
      Các máy truy tìm có thể dùng OR là: AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot và Gigablast.
    • AND: Có cú pháp (Toán tử 1) AND (Toán tử 2). Phép toán AND nhằm yêu cầu máy truy tìm kiếm các trang có sự hiện diện của tất cả các toán tử. Thí dụ nanotechology AND health
      sẽ giúp truy tìm các trang có mặt đồng thời hai chữ health và chữ nanotechnology
      Một số trang truy tìm sẽ dùng AND như là mặc định (trong đó có Google). Bạn cũng có thể thay thế bằng cách dùng dấu + trong một số trường hợp nào máy truy tìm không có chức năng của đại số Bool.
      Các trang hỗ trợ phép toán AND là: AltaVista, AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light, Yahoo và Gigablast.
    • NOT: Phép này hoàn toàn tương tự như cách dùng dấu -. Nghiã là, sự truy tìm sẽ loại bỏ những trang mà nội dung có chứa toán tử đứng ngay sau phép toán NOT. Tuy nhiên trong nhiều máy truy tìm có hỗ trợ thì phép này cũng chỉ được dùng có một lần cho một bộ từ khoá. Thí dụ để tìm tài liệu hướng dẫn về ngôn ngữ lập trình C/C++ có thể thử dùng trên Altavista
      "C/C++ tutor" NOT book
      Các trang có thể dùng NOT là AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light và Gigablast.
  • Dùng phép NEAR: Dùng để truy tìm những trang Web mà nội dung của chúng có các thành tố của từ khoá nằm gần nhau. Phép toán này rất có lợi để tìm ra những trang có một cụm từ, một khái niệm, một định nghĩa hay một lời phát biểu mà bạn không nhớ hết được. Ví dụ: Tìm lại nguyên văn câu thơ và tác giả bằng bộ từ khoá:
    "Ong non" NEAR "Dê cỏn"
  • Dùng dấu ngoặc đơn () để chẻ nhánh. Dùng ngoặc đơn cho phép tìm nhiều kết hợp phức tạp. Thí dụ để truy tìm tài liệu về cách tạo ra CD ROM có khả năng tự khởi động có thể thử từ khoá
    bootable AND (CD OR CDROM OR CD-ROM) AND (howto OR instruction)
    Hỗ trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light
  • Lưu ý:
    1. Trong mọi trường hợp thì từ khoá sai chính tả sẽ không thể có hiệu quả.
    2. Cách tốt nhất là dùng chữ in hoa cho các phép toán.
    3. Các trang tìm kiếm của Hotbot hay MSN thì bạn phải chuyển sang chọn chức năng "Boolean phrase" khi dùng các phép toán Boolean.

Từ khoá mặc định

Nhiều máy truy tìm còn hỗ trợ thêm các từ khoá mặc định. Khi dùng các từ khoá mặc định như một thành phần của bộ từ khoá thì các trang Web được trả về sẽ thoả mãn các đặc tính chuyên biệt hoá theo ý nghĩa mà các từ khoá mặc định này biểu tượng. Các hỗ trợ này cho phép kiểm soát được các loại trang nào muốn truy tìm.
Các từ khoá mặc định kết thúc bằng dấu hai chấm : và chữ (hay cụm từ trong ngoặc kép) của bộ từ khoá nào đứng ngay sau dấu này sẽ bị chi phối bởi điều kiện của từ khoá mặc định, còn các thành phần khác trong từ khoá sẽ không thay đổi ý nghĩa.
  • Các từ khoá mặc định giới hạn máy truy tìm trả về các trang nằm trong một tên miền, hay một miền con. Tuỳ theo máy truy tìm mà các từ khoá mặc định được sử dụng.
    1. Altavista hỗ trợ chức năng này bằng từ khoá host:. Thí dụ, host:mars.jpl.nasa.gov mars saturn chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chứa chữ "mars" và chữ "saturn".
    2. Excite, Google (Netscape, Yahoo) hỗ trợ chức năng này bằng từ khoá site:, khi kết hợp với các lệnh khác có thể tìm theo cách chuyên biệt. Thí dụ, "carbon nanotech" -host:www.technologyreview.com cho phép tìm tất cả các trang nào có chứa cụm từ "carbon nanotech" ngoại trừ các trang xuất sứ từ www.technologyreview.com
    3. Inktomi (HotBot, iWon, LookSmart) hỗ trợ chức năng này bằng từ khoá domain:. Thí dụ, để tìm các trang có đuôi là ".edu" (thường là trang Web của các đại học) về đề tài "heart transplan", có thể dùng bộ từ khoá "heart transplan" +host:edu để tìm các trang có đuôi gốc là .edu mang đề tài này.
    4. AllTheWeb hỗ trợ các từ khoá domain, url, site: cho chức năng này. Thí dụ, để tìm các trang về "deutch" từ các trang trong nước Đức có thể dùng deutch domain:.de
  • Các từ khoá mặc định dùng để tìm trang có tựa đề chứa một từ (hay cụm từ) đặc biệt:
    1. AltaVista, AllTheWeb, Inktomi (MSN và HotBot) dùng từ khoá title:. Thí dụ, title: "Mars Landing" sẽ giúp truy tìm các trang có đề tựa về Hoả Tinh.
    2. Google và Teoma hỗ trợ các từ khoá intitle:allintitle: ("allintitle:" sẽ ảnh hưởng đến tất cả các chữ đứng sau dấu :).
  • Các từ khoá dùng để tìm các địa chỉ Web nào có chứa từ (hay cụm từ) của bộ từ khoá:
    1. Google hỗ trợ từ khoá inurl:allinurl:.
      • Muốn tìm địa chỉ các trang Web có một chữ đặc biệt thì dùng inurl. Thí dụ, inurl:nasa sẽ giúp tìm tất cả các địa chỉ Web nào có chứa chữ "nasa".
      • Nếu cần truy tìm một điạ chỉ có nhiều hơn một chữ thì dùng allinurl. Thí dụ, allinurl:vietnam thetholucbat sẽ giúp tìm tất cả các trang nào mà nội dung địa chỉ của nó chứa chữ "vietnam" hay là chữ "thetholucbat".
    2. Inktomi, AOL, GoTo, HotBot cung cấp từ khoá originurl: cho việc này.
    3. Yahoo thì dùng từ khoá u:
    4. Exite dùng url:
  • Các từ khoá mặc định giúp tìm các trang có cài đặt các liên kết tới địa chỉ trang được ghi trong từ khoá:
    1. Google, Yahoo sẽ cung cấp từ khoá link:. Tuy nhiên, Yahoo yêu cầu địa chỉ trong từ khoá phải có đủ tiếp đầu ngữ http:// thì mới hoạt động hữu hiệu. Thí dụ, bộ từ khoá link:vi.wikipedia.org sẽ giúp truy ra tất cả các trang Web nào có liên kết tới trang Bách khoa toàn thư tiếng Việt này.
    2. MSN hỗ trợ chức năng này bằng từ khoá linkdomain:
  • Ngoài ra, để truy tìm các loại tệp có định dạng (format) đặc biệt thì có thể dùng từ khoá filetype:(đuôi của tập tin):
    1. Google: sẽ hỗ trợ truy tìm các kiểu tệp: PDF, Word (.doc), Excel (.xls), PowerPoint (.ppt) và Rich Text Format (.rtf) cũng như PostScript (.ps), Text (.txt), HTML (.htm hay .html), WordPerfect (.wpd) và các đuôi khác... Thí dụ: laser filetype:pdf sẽ giúp tìm các trang là các tập tin dạng .pdf (.pdf là loại tập tin được dùng trong cá hồ sơ văn bản của phần mềm Adobe Arcobat).
    2. Yahoo cho phép tìm HTML (htm hay html), PDF, Excel (.xls), PowerPoint (.ppt), Word (.doc), RSS/XML (.xml) và tập tin văn bản dạng (.txt).
    3. MSN chỉ hỗ trợ chuyên tìm các loại tệp: HTML, PDF, PowerPoint (.pps hay .ppt), các dạng của Word, hay Excel.
Lưu ý: Đối với các máy truy tìm thì các tệp có đuôi .htm khác với các tệp có đuôi .html. Do đó, nếu muốn tìm một cách chắc chắc tất cả các tệp dạng HTML thì nên tìm làm hai lần, một riêng cho htm và một cho html.

Kí tự thay thế và kí tự "~" trong bộ từ khoá

Kí tự thay thế (wildcard character) được hiểu là một kí tự có thể dùng để thay thế, hay đại diện cho một tập hợp con của tập các kí tự chưa được xác định hoàn toàn. Một cách đơn giản hơn, kí tự thay thế là kí tự được dùng để đại diện cho một kí tự, hay một chuỗi kí tự trong một từ khoá, mệnh đề, câu hay dãy các kí tự. Nhiều máy truy tìm hỗ trợ cho việc sử dụng hai loại kí tự thay thế. Đó là dấu sao * và dấu chấm hỏi ?
  • Dấu sao *: dấu này sẽ thay thế cho một dãy bất kì các kí tự (chữ, số, hay dấu). Thí dụ, trong từ khoá có t*ng thì chữ t*ng có thể hiểu ngầm là tướng, từng, tuồng, ttamxng,...
    Cần lưu ý sự khác biệt về ý nghĩa đối với kí tự thay thế * dùng trong các hệ điều hành như là DOS, LINUX, Windows,... Theo cách hiểu của các hệ thống này thì dấu * hoàn toàn không bị lệ thuộc vào biên giới của một từ. Trong khi đó, dấu * dùng trong máy truy tìm sẽ được hạn chế trong biên giới của một từ. Ví dụ, từ khoá My* dùng trong các công cụ tìm kiếm của các hệ điều hành kiểu Windows thì nó có thể là My Downloads, My Documents, My Yahoo!, my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere,.... Trong khi đó my* trong các máy truy tìm chỉ giới hạn trong các chữ) lập thành bắt đầu với my. Như vậy, trong ví dụ trên thì My Downloads, My Documents, My Yahoo! sẽ không được máy truy tìm xem xét mà chỉ có my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere là hợp lệ mà thôi.
    AltaVista, Inktomi (iWon), Northern Light, Gigablast, Google, Yahoo, MSN, ... đều hỗ trợ cho cách dùng dấu * này.
  • Dấu chấm hỏi ?: dùng thay cho một kí tự duy nhất nào đó. Thí dụ, ph?ng có thể là phong, phặng, ph@ng, ph_ng, ph-ng,... nhưng không thể là phượng, ph ng, phug, phăang.
    AOL Search, Inktomi (iWon) là các máy truy tìm có hỗ trợ dấu ? này.
Dấu ngã ~: Đặc biệt trong Google có một cách để tìm không những các trang có chứa từ khoá mà còn tìm các trang có chứa chữ đồng nghĩa (synonym) Anh ngữ với từ khoá. Ví dụ, ~food facts sẽ giúp truy tìm các dữ liệu có chữ "food facts" và các chữ tương đương như "nutrition facts",... Sự truy tìm theo hỗ trợ này đặc biệt hữu dụng trong trường hợp các tài liệu cần tìm quá hiếm hoi.

Chế độ cao cấp của máy truy tìm


Chế độ nâng cao của máy truy tìm AskJeeves (www.ask.com)
Ngoài chế độ tìm kiếm thông thường hầu hết các máy truy tìm đều hỗ trợ chức năng nâng cao mà dòng liên kết của nó thường viết bởi cụm từ "Advanced search", hay đơn giản là "Advanced". Trong chế độ này thì sự tìm kiếm được hướng dẫn chi tiết hơn. Đặc điểm chung của các chế độ nâng cao là:
  • Giao diện được thêm vào nhiều khung chữ hay ô trống (text box) có dòng hướng dẫn để tiện người dùng điền vào. Không nhất thiết phải điền hết tất cả các khung chữ nhưng các khung này được điền một cách đúng cách và nhiều chi tiết thì càng giúp cho máy truy tìm làm việc hiệu quả hơn.
  • Đa số các máy truy tìm cho phép lọc lựa (filter) lại các thông tin như là:
    • Lựa chọn ngôn ngữ.Cho đến nay có một số máy truy tìm sau cho phép tìm riêng các trang Việt ngữ :
Google ,    Yahoo    Baamboo
    • Lựa chọn ngày tháng của trang Web.
    • Lựa chọn các kiểu tệp (file type).
    • Lọc bỏ các nội dung dành riêng cho người lớn...
Có thể sử dụng các phép toán đã nêu trong bài 2 để nâng cao phép truy tìm. Tuy nhiên, người dùng nên cẩn thận vì có thể các kết quả sẽ chịu ảnh hưởng của nhiều điều kiện khác.

Sử dụng các chức năng đặc biệt của máy truy tìm

Các máy truy tìm có thể cung cấp thêm một số phương tiện để giảm thiểu khó khăn của việc truy tìm. Sau đây là vài chức năng đặc biệt
  • Tìm thêm dữ liệu theo liên hệ (related search): Sau khi tìm kiếm, máy truy tìm có thể giúp đào sâu sự truy tìm bằng cách cung cấp các bộ từ khoá chi tiết hơn dưới dạng các dòng liên kết (link). Các liên kết này thu nhỏ thị trường tìm kiếm (nếu số trang tìm theo từ khoá quá lớn). Thực ra, nếu cách chọn từ khoá đủ tập trung và khéo thì sẽ không phải mượn đến chức năng này. Thí dụ, như tìm các trang viết về sao Hoả mà dùng từ khoá mars thì số lượng trang tìm ra sẽ vô cùng lớn. Do đó, có thể bấm thêm vào các chữ liên hệ để máy truy tìm thu nhỏ thị trường tìm kiếm lại.
    Những trang có chức năng để tìm dữ liệu theo liên hệ là: AltaVista (Related Searches),Ask.com AllTheWeb (Narrow your search), Excite (Refine Your Results), HotBot, Lycos, MSN, Yahoo (also try).
  • Nhóm gọn (cluster): trong lúc tìm kiếm nếu máy truy tìm cho rằng các trang tìm ra có thể ở chung một trang nguồn thì nó chỉ chọn ra một trang đại diện, còn các trang khác sẽ được xếp gọn vào và người dùng có thể khai triển rộng ra thành nhiều trang nếu muốn. Như vậy, sự tìm kiếm sẽ dễ hơn và ít bị nhiễu loạn thông tin của cùng một trang.
    Những trang có chức năng này là: AltaVista (Additional relevant pages from this site), AllTheWeb (more hits from), Excite, Google (More results from), HotBot, MSN, Northern Light.
  • Trang tương tự và trang có chính tả gần giống: Trong một số trường hợp thì chức năng tìm các trang tương tự như các trang mà máy truy tìm cho rằng có thể hữu dụng. Để dùng chức năng này chỉ việc bấm vào liên kết tương ứng. Riêng trong Google thì còn có link gợi ý thêm hay sửa chính tả cho việc truy tìm bằng chữ "Did you mean ..."
    Các trang có chức năng tìm trang Web tương tự là: AltaVista (similar pages, related pages), AOL Search (Show me more like this), Google (did you mean, similar pages).

Các chức năng đặc biệt của máy truy tìm Google
  • Trang có từ nối dài (stemming): Đây là khả năng của một số máy truy tìm cho phép tìm những trang có những chữ mở rộng của chữ trong từ khoá. Thí dụ, thay vì chỉ tìm "tutor" thì tìm luôn các trang có "tutors, tutorial, e-tutor,..."
    AOL Search có chức năng này mặc định, Direct Hit, HotBot (Enable Word Stemming).
  • Chức năng tồn trữ (cached) của Google: Có nhiều trường hợp trang Web đã bị xoá không thể hiển thị được nữa nhưng thông tin của nó trong cơ sở dữ liệu của máy truy tìm vẫn còn mà người dùng có thể cần đến. Trong thời gian các tin tức này chưa bị xoá khỏi cơ sở dữ liệu thì vẫn có thể đọc được nó nhờ vào chức năng đặc biệt này của Google.
  • Chuyển dịch (translation): Một số trang cho khả năng dịch lại trang tìm thấy sang thứ tiếng mà người dùng đang có. Thường thì chỉ có dịch được ra các thứ tiếng thông dụng như Anh, Pháp, Đức, hay Tây Ban Nha và sự chuyển dịch này cũng không chính xác hoàn toàn. Dù vậy, người dùng có thể nắm được một phần thông tin có thể dịch ra.
    Các trang có chức năng chuyển dịch là: AltaVista (Translate), Google(Translate this page).

Máy tìm hoạt động như thế nào

Một máy tìm hoạt động theo các bước cơ bản sau
  1. Lọ mọ
    1. Tìm kiếm theo chiều sâu (DFS)
    2. Tìm kiếm theo chiều rộng (BFS)
  2. Lập chỉ mục
  3. Tìm kiếm
Các máy tìm mạng thực hiện công việc lưu giữ thông tin về một số lượng khổng lồ các trang web nó tìm thấy trên WWW. Những trang web này được lấy về bằng các con lọ mọ (còn gọi là nhện web) bằng cách lần theo các siêu liên kết. Nội dung các trang web sau đó được phân tích để xác định xem trang web đó nên xuất hiện trong các yêu cầu tìm kiếm với tổ hợp từ khóa nào (ví dụ, những từ thu được từ tiêu đề, nội dung hoặc các trường đặc biệt gọi là meta tags).

 Phần 2: Search Engine và các thuật toán xếp hạng website của Search Engine

Chúng ta đã quá quen với việc sử dụng các công cụ search Engine để phục vụ cho công việc tìm kiếm tra cứu thông tin nhưng hầu hết không phải ai cũng hiểu được nguyên lý làm việc cũng như những thuật toán mà các search engine sử dụng để đưa ra được kết quả chính xác nhất cho người dùng.
search engine va cac thuat toan xep hang website
search engine va cac thuat toan xep hang website
Bằng cách thức cho điểm, danh sách kết quả sẽ được sắp xếp theo thứ tự trước sau tương ứng với số điểm. Trên cơ sở trải nghiệm, bài viết này chúng ta sẽ đề cập đến Search Engine và các thuật toán phương pháp xếp hạng đang được sử dụng trong các Search Engine hiện nay.
  1. Thuật toán Relevancy Ranking – Đánh giá bằng thống kê.
    Đây có lẽ là thuật toán căn bản nhất trong làm index (đánh chỉ mục) và search (tìm kiếm). Thuật toán dựa vào những yếu tố sau để cho điểm một từ khoá trong một trang Web:
    • Số lần xuất hiện của từ khoá trong bài viết. Ví dụ: từ “ Học Seo ” xuất hiện hai lần trong bài viết A và 3 lần trong bài viết B. Như vậy bài viết B sẽ có điểm cao hơn khi truy vấn bằng từ khoá ” Học seo “.
    • Tỉ lệ tần suất xuất hiện từ khoá với độ dài của bài viết. Ví dụ: từ khoá “Học seo” xuất hiện hai lần trong bài viết A và 3 lần trong bài viết B. Nhưng nếu bài viết A dài 1 trang và bài viết B dài 2 trang thì trong trường hợp này, bài viết A sẽ có điểm số cao hơn bài viết B ứng với từ khóa “Học seo”.
    • Mật độ từ khóa và tần suất xuất hiện của từ khoá trong toàn bộ bài viết trên database cũng quan trọng khi tìm kiếm bằng nhiều từ khoá. Ví dụ: tìm cụm từ “Khóa Học Seo” trong một database có 10 bài viết. Nếu từ “Khóa học seo” xuất hiện trong hai bài viết và từ ” khóa học wordpress ” xuất hiện trong năm bài viết thì điểm số cho từ “Khóa Học Seo” sẽ cao hơn điểm số từ “Khóa Học WordPress”.
    Thuật toán revelancy ranking chỉ mang tính chất thống kê và tương đối. Trong một môi trường thực, không phải bất cứ bài viết nào có sự xuất hiện và tần suất xuất hiện cao của từ khoá cũng là thứ mà người tìm kiếm cần. Rất nhiều trang có từ khoá xuất hiện cao thực chất chỉ là nội dung rác.
  2. Thuật toán Proximity ranking – Đánh giá bởi các từ gần nhau.
    relevancy-ranking-proximity
    relevancy ranking proximity
    Hay còn gọi là phrase search, thuật toán cho phép tính toán độ gần nhau giữa các từ khoá. Được giới thiệu bởi cỗ máy tìm kiếm Altavista, lần đầu tiên người sử dụng có thể tìm kiếm chính xác cụm từ kiểu như “Học Seo ở đâu“. Hệ thống sẽ trả về các bài viết có nguyên cả cụm từ “Học seo ở đâu ” thay vì các bài viết chứa đồng thời các từ riêng lẻ “học”, “seo” và “ở” “đâu”. Các Search Engine sau này cho phép người tìm kiếm chỉ định độ gần nhau của các từ bằng câu lệnh tìm kiếm, lệnh search này sẽ trả về tập bài viết có các từ “Học”, “Seo”, “Ở”, “đâu” và khoảng cách giữa các từ thường không quá năm từ.
    Đây là thuật toán khá hay, thuật toán này có thể kết hợp với các phương thức phân tích cao cấp để xác định vấn đề quan trọng trong bài viết nhằm tăng điểm cao hơn cho các câu hoặc cụm từ giá trị trong nội dung.
    Hiện nay rất nhiều các webmater tận dụng thuật toán này một cách khéo léo để có được một kết quả tốt hơn trong công cụ tìm kiếm, giả sử như với cụm từ “học seo ở đâu” tôi sẽ không chỉ lặp lại chính xác với cụm từ này mà thay vào đó tôi có thể lồng vào trong bài viết các keyword xoay quanh keyword mục tiêu như “học seo” “trung tâm học seo” , “khóa học seo tốt nhất ở đâu“……
  3. Thuật toán Ranking by the important words – Đánh giá bằng từ khoá quan trọng.
    Ranking-important-words
    Ranking important words
    Web Page là tài liệu có định dạng hiển thị. Thông dụng nhất là chuẩn HTML. Dựa vào cấu trúc định dạng đó, thuật toán cho điểm cao hơn với từ khóa nằm trong các thẻ đặc biệt. Cách thông thường nhất mà Search Engine hay áp dụng chính là cho điểm cao với từ khoá nằm trong anchor text(liên kết), các thẻ tiêu đề, meta keyword, H1, H2, H3, H4, H5, H6 hoặc từ khoá được in đậm, viết hoa.
    Kỹ thuật này hiện nay đã ở một mức cao hơn khi nó đánh giá độ quan trọng về mặt ý nghĩa của từ khóa. Nó có thể được xếp vào hàng Semantic Search – tìm kiếm theo ngữ nghĩa.
    Thời đi học, chúng ta đã biết một bài văn thường bao gồm ba phần: mở bài, thân bài và kết luận. Trong đó, phần mở bài gần như một tóm tắt hoặc giới thiệu nội dung cho cả bài viết. Nếu chúng ta xác định được đâu là mở bài và cho điểm cao hơn với những từ khóa nằm trong đó thì kết quả search chính xác hơn rất nhiều. Mặt khác, với một từ “học Seo“, nếu xuất hiện ở đầu bài viết, giữa hay cuối bài viết thì nó cũng có những trọng lượng khác nhau.
    Trong một bài viết, các từ khóa có độ quan trọng khác nhau còn tùy thuộc vào vị trí hoặc ngữ cảnh.
    Ví dụ, các danh từ riêng sẽ ít xuất hiện hơn trong một bài viết nhưng nó mang lại thông tin nhất định cho bài viết. Chẳng hạn, nếu ta thấy từ “Hà Nội”, ta biết ngay bài viết sẽ nói vấn đề gì đó về Hà Nội. Nhưng với từ “làm việc”, chúng ta không thể đưa ra kết luận gì bởi đây là một động từ chung chung. Các danh từ thường có độ quan trọng hơn động từ, tính từ và trạng từ là thành phần kém quan trọng nhất. Ngoài ra, từ viết tắt, từ đồng nghĩa… sẽ giúp nội dung có điểm đánh giá cao hơn. Ví dụ, bài viết chứa cả cụm từ “dạy học seo” và “đào tạo seo” sẽ có điểm cao hơn so với bài viết chỉ chứa từ “dạy học seo”. Trường hợp khác, bài viết chứa cả cụm từ “công nghệ thông tin” và “cntt” sẽ có điểm cao hơn bài viết chỉ chứa cụm từ “công nghệ thông tin”.
    Kết hợp với từ điển, phân tích ngữ nghĩa sẽ giúp phân tích sâu hơn về cấu trúc, tóm tắt hay gạn lọc lại những ý chính của bài viết. Loại bỏ các thành phần không quan trọng hoặc cho điểm thấp hơn là phương thức mà những Search Engine Google đang nhắm tới. Yahoo quảng bá cho công nghệ Semantic Search như một hướng đi của tương lai nhằm hạ thấp vai trò của Page Rank mặc dù Yahoo cũng bỏ rất nhiều công sức vào các thuật toán này. Yahoo gọi công nghệ mới của họ là WebMap và WebRank. Cùng thời điểm đó, Microsoft đã mua Powerset – một công ty đình đám trong lĩnh vực làm Semantic Search với những tuyên bố về khả năng phân tích ngữ nghĩa tới từng câu.
    Theo tôi hiện nay google vẫn chưa hiểu được ngữ nghĩa tiếng việt nhưng tôi tin rằng thuật toán của google càng ngày càng thông minh, khi mà dữ liệu của google đủ lớn, ngữ nghĩa sẽ là hướng đi của tương lai bởi đó là cách con người giao tiếp và tiến hóa trong tự nhiên.
  4. Thuật toán Ranking by the URL – Đánh giá theo địa chỉ của trang.
    Đây cũng một cách đánh giá độ quan trọng của từ khóa với mỗi trang Web. Nhưng thay vì từ khóa nằm trong bài viết thì nó lại nằm trong đường dẫn URL hay tên miền của trang Web (domain name).
  5. Thuật toán Ranking by date – Đánh giá theo ngày tháng.
    Thông thường, người tìm kiếm có xu hướng tìm kiếm những vấn đề hay sự kiện mới xảy ra. Chẳng hạn, với từ khoá “Ronaldo”, người ta sẽ quan tâm đến những vấn đề như Ronaldo gần đây cặp kè với ai, đá cho đội nào hay mức lương bao nhiêu? Phương thức ranking này là dễ, rẻ nhất và khá hiệu quả. Nếu ta quan sát kết quả Google ở nhiều thời điểm khác nhau với một từ khóa ta sẽ thấy thứ hạng trả về của kết quả thay đổi. Nhưng phương thức xác định thời gian của nội dung không hề đơn giản. Nếu chỉ căn cứ vào thời gian Crawler (máy quét) lấy về thì không chính xác tuyệt đối. Ví dụ, một bài viết xuất hiện trên trang Web A đã lâu nhưng được trang Web B copy lại nội dung. Như vậy, thời gian mà Crawler lấy về chỉ mang tính tương đối. Trường hợp khác, bài viết đề cập tới chiến tranh Việt Nam hay những sự kiện từ thập niên 50 được đăng tải, chúng ta không thể căn cứ vào thời gian cập nhật để xác định thời gian của nội dung.
  6. Thuật toán - Đánh giá theo độ nổi tiếng của trang.
    The famous page rank
    The famous page rank
    PageRank của Google đánh giá độ quan trọng của một trang web dựa trên phương pháp xử lí gọi là thuật toán phân tích liên kết (Link Analysis Algorithm). Phương pháp này đánh giá độ quan trọng của một trang Web dựa trên những liên kết trên Internet.
    Và Google cho biết:
    trang nào được chúng tôi đánh giá quan trọng sẽ được ưu tiên hiện trước trong danh sách kết quả tìm kiếm. Chúng tôi luôn tìm cách đánh giá một cách hữu hiệu nhất để tăng chất lượng kết quả tìm kiếm và tạo ra một sản phẩm có ích, và công nghệ PageRank của chúng tôi sử dụng tính cộng đồng trên Internet để xác định độ quan trọng của một trang web.
    Đây là một phương thức hay và có hiệu quả. Nhưng theo tôi giá trị của Page Rank đã được thổi phồng quá mức so với giá trị mà nó mang lại. Tại thời điểm này, số lượng trang web ngày càng bùng nổ theo cấp số nhân, Google đã không còn sử dụng Page Rank làm thước đo cho việc xếp hạng bởi nó bởi đã dẫn tới cuộc chạy đua giữa các Web Master để tối ưu hoá (cho Search Engine) trang web của mình. Họ chịu khó đi các trang khác tạo liên kết,, mua bán liên kết và copy nội dung để tăng điểm cho Web của họ. Ngoài việc tạo nên sự bất công trong đánh giá cho trang có nội dung gốc, nó còn tạo ra một môi trường Web méo mó, nơi mà Web Master ra sức giành giật nhau trong cuộc đua thứ hạng. Việc nhân bản nội dung và tạo liên kết sẽ bắt hệ thống máy móc của Google làm việc nhiều hơn, phân tích nhiều hơn và lưu trữ cũng nhiều hơn. Hiện tại, chất lượng Page Rank đã giảm nhiều so với thời kỳ đầu do ảnh hưởng của các SEO. Bằng chứng là Google đã phải thuê một đội quân Net Rater để kiểm tra, rank lại hay cấm các trang web được optimize (tối ưu) theo hướng spam.
    Google cũng nói:
     ”Về phần mình, Google nhấn mạnh rằng PageRank, được trao bằng sáng chế cho Đại học Stanford, không phải là phương pháp duy nhất để xác định kết quả tìm kiếm. Thực vậy, Google cho biết họ sử dụng kết quả của hơn 200 phương pháp khác nhau để đánh giá toàn thể cấu trúc Web và xác định những trang nào là quan trọng nhất.
    Theo kinh nghiệm của chúng tôi, để đem lại kết quả tìm kiếm tốt cho người dùng thì việc xử lý, loại bỏ các nội dung không cần thiết trong trang web như banner, footer, quảng cáo và phân loại dữ liệu là rất quan trọng. Bởi lẽ đó, Bing của Microsoft đã chú trọng phát triển theo hướng này. Những bài viết có giá trị cao thường là những trang tin tức, wiki, tài liệu PDF, DOC cùng một số blog nổi tiếng. Các trang forum, rao vặt hoặc hàng hóa thì nên ranking theo ngày tháng thay vì liên kết bởi dữ liệu dạng này có tính chất thời gian thực, chúng có thể trở thành vô giá trị sau một khoảng thời gian.
  7. Thuật toán Local Rank – Đánh giá theo truy vấn vùng.
    Cùng một từ khóa tìm kiếm, kết quả trả về cho người Mỹ sẽ khác với kết quả trả về cho người Việt. Ngoài việc ưu tiên những nội dung tiếng Việt lên đầu, Search Engine còn cần phải loại bỏ các kết quả không phù hợp với văn hóa và xã hội Việt Nam.
    Tính toàn cầu của Internet cũng cần phải thỏa mãn tính bản địa khi truy vấn đến từ nhiều nơi khác nhau. Local Ranking là phương pháp căn cứ vào dải ip truy cập của người dùng rồi đánh giá lại tập nội dung, cho điểm những kết quả phù hợp hơn với người dùng đến từ nước, vùng, khu vực… đó.
  8. Thuật toán User Rank hay Browser Rank – Đánh giá bởi con người và trình duyệt.
    User-Rank-hay-Browser-Rank
    UservRankvhayvBrowservRank
    Phương pháp thống kê nhờ theo dõi hành vi người dùng để đưa ra đánh giá về chất lượng của một trang Web. Phương thức này chỉ có thể triển khai khi một Search Engine có số lượng người dùng lớn như Google hoặc Yahoo. Một phương pháp khác là nhờ vào kiểm soát trình duyệt (Google và Microsoft). Chúng tôi đánh giá phương thức này hiệu quả ngang bằng với Page Rank nếu được triển khai tốt.
    Nếu như bạn để ý trong bài viết trước của tôi các tiêu chí xếp hạng website tôi có đưa ra 2 vấn đề mà google search hiện nay sử dụng đó là bounce và time on site, ngoài ra những yếu tố đánh giá người dùng như tính phổ biến, social media, hay những bình luận, comment, đánh giá bởi người dùng ngày nay cũng được google đưa vào trong thuật toán xếp hạng website của họ
    Google tuyên bố sử dụng trên 200 phương pháp xếp hạng website và trong một bài báo khác họ tuyên bố một năm thử nghiệm hơn 400 thuật toán xếp hạng. Theo lý thuyết, đây chỉ là các phương pháp xếp hạng dựa vào những gì đã được nêu trên theo mô hình pha trộn… Điểm cốt lõi Search Engine là nhu cầu xử lý nhanh các lệnh tìm kiếm và trả về đúng kết quả mà người dùng mong đợi.

Thay cho lời kết

Bài viết Search Engine và các thuật toán xếp hạng website của Search Engine cung cấp cho bạn cái nhìn tổng quát hơn về các thuật toán mà google cũng như các search engine khác đang sử dụng để từ đó bạn có được định hướng đúng đắn cho chiến lược Seo của mình
Các Search Engine ngày nay không còn là cuộc đua về tốc độ hay số lượng trang Web được đánh chỉ mục (index). Search Engine hiện tại, ngoài việc tính toán xếp hạng sao cho kết quả trả về tốt nhất thì còn phải tính toán đến việc loại bỏ những trang Web không có giá trị, các trang web lập ra với mục đích spam,các trang Web gặp lỗi, nội dung rác hay các trang Web có nội dung trùng lặp cần phải được loại bỏ. Bằng chứng là trong thời gian qua Google liên tục cập nhập 2 thuật toán Google PandaGoogle Penguin đã loại bỏ một số lượng lớn các website nội dung xấu, nội dung kém chất lượng
Các thuật toán mới của Search Engine trong thời gian tới theo mình dự đoán vẫn quan tâm bao gồm: tìm kiếm, phân tích theo ngữ nghĩa (Semantic Search) và tìm kiếm dựa vào đánh giá cộng đồng.

1 nhận xét:

  1. the industry leader, Snap Fitness is focused on getting you the results you want. Top-of-the-line equipments, personal training programs, nutrition counselling and convenient timings and easy accessibility provide members the ideal atmosphere to have fun as well as be healthy & fit.
    paleo

    Trả lờiXóa