là một phần mềm (thường được tích hợp vào một trang web trực tuyến) nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng dựa vào các thông tin mà chúng có From Wikipedia, the free encyclopedia
Máy truy tìm dữ liệu trực tuyến hay máy tìm kiếm hay cỗ máy tìm kiếm (tiếng Anh: search engine), hay còn được gọi với nghĩa rộng hơn là công cụ tìm kiếm (search tool), nguyên thủy là một phần mềm (thường được tích hợp vào một trang web trực tuyến) nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng dựa vào các thông tin mà chúng có. Trữ lượng thông tin này của công cụ tìm kiếm thực chất là một loại cơ sở dữ liệu (database) cực lớn. Việc tìm các tài liệu sẽ dựa trên cơ sở các từ khóa liên quan đến trang web.
Bài viết này cần thêm chú thích nguồn gốc để kiểm chứng thông tin. |
Từ khóa được hiểu như là một tổ hợp các từ của một ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểu thức logic mà công cụ tìm kiếm hỗ trợ. Trong trường hợp một từ khoá bao gồm nhiều hơn một chữ (hay từ) thì có thể gọi tập họp tất cả các chữ đó là bộ từ khoá (set of keywords).
Cơ sở dữ liệu mà máy truy tìm sử dụng thường được bổ sung cập nhật định kì bằng cách quét (scan), điều chỉnh, thêm bớt nội dung và chỉ số hoá lại tất cả các trang mà nó có thể tìm gặp trên Internet.
Ngày nay, với số lượng các trang Web lên đến hàng tỉ, nên việc tìm ra số trang có chứa nội dụng đòi hỏi của từ khoá có thể lên đến hàng triệu trang. Do đó, việc hiển thị các trang tìm thấy theo đúng thứ tự quan trọng của các trang và theo mong muốn của người dùng cũng là một trở ngại lớn đòi hỏi sự chắt lọc từ máy truy tìm và sự khéo léo về cách thức đặt ra từ khoá từ người dùng máy.
Một bộ máy tìm kiếm dữ liệu là một hệ thống phần mềm máy tính giúp con người tìm kiếm thông tin được lưu trữ trên hệ thống máy tính như mạng Internet, hoặc máy tính cá nhân. Máy tìm cho phép người sử dụng yêu cầu các thông tin với những hạn chế nhất định (thường được miêu tả bởi từ hoặc cụm từ) và nhận về một danh sách các liên kết siêu văn bản thỏa mãn các hạn chế. Máy tìm sử dụng hệ thống chỉ mục để có thể tìm kiếm nhanh chóng và hiệu quả. Máy tìm thường được hiểu là máy tìm những thông tin công khai trên mạng, nếu không có những khả năng cao hơn. Ngoài ra còn có các loại máy tìm khác như máy tìm doanh nghiệp tìm thông tin trên mạng nội bộ, máy tìm cá nhân tìm thông tin trên máy tính cá nhân, và máy tìm di động.
Một số máy tìm còn khai thác thông tin trong các nhóm tin, các cơ sở dữ liệu lớn, hay trong các hệ thống thư mục mở như DMOZ.org. Khác với hệ thống thư mục mạng được duy trì bởi con người, máy tìm hoạt động dựa vào các thuật toán. Những trang web được gọi là máy tìm thực chất là giao diện người dùng của các máy tìm sở hữu bởi các công ty khác nhau.
Các thuật toán hay kỹ thuật mà máy truy tìm dùng để xếp hạng hay đánh giá tầm quan trọng của một trang Web theo một từ khoá cho trước gọi là sự phân hạng (ranking), hay đơn giản hơn là phân hạng.
Các kỹ thuật thay đổi mã nguồn HTML của một trang Web cũng như các kỹ thuật khác ngoài việc sửa mã nguồn HTML nhằm nâng cao tối đa thứ hạng của trang Web đối với một số từ khóa nào đó trên các máy truy tìm gọi là kỹ thuật tối ưu hoá cho máy tìm kiếm hay SEO (từ tiếng Anh Search Engine Optimization).
Ngoài việc xử lý số lượng trang tìm thấy theo yêu cầu của một từ khoá trong kho dữ liệu cập nhật của nó, các máy truy tìm dữ liệu còn phải tìm cách chống lại sự nhiễu loạn của các trang không có nội dung phù hợp với yêu cầu nhưng vẫn lọt vào danh sách tuyển chọn của máy truy tìm.
Nguyên do của các nhiễu loạn này là việc các trang Web chuyên về quảng cáo hay tiếp thị luôn luôn tìm cách để lọt vào hàng đầu trong danh sách tuyển chọn của máy truy tìm, và qua đó họ có thể giới thiệu sản phẩm của họ đến người dùng. Ngược lại, người dùng, trong đa số các trường hợp, không muốn tìm các quảng cáo tiếp thị mà chỉ muốn tìm các dữ liệu khác theo ý đã ghi trong từ khoá.
Do các đặc điểm phức tạp trên, việc phân hạng các trang Web tìm được bởi một bộ từ khoá cho trước của máy truy tìm sẽ dựa vào việc áp dụng thêm các thuật toán hay biện pháp xử lý đặc biệt:
Dưới đây là các tiêu chí chủ yếu mà các thuật toán của các máy tìm kiếm Web sử dụng để phân hạng các trang Web:
meta
và câu lệnh title
:meta
là các câu lệnh nằm ở phần đầu (header) của mã của một trang Web. Thẻ meta
có dạng:<META (các thông số cho câu lệnh meta)>
meta
, máy truy tìm sẽ đọc nội dung và lấy ra các yếu tố phân hạng. Các thẻ meta
có nhiều hiệu lực cho việc phân hạng là:
<META name="description" content="(miêu tả ngắn nội dung trang Web)">
<META name="keywords" content="(danh sách từ khoá)">
<title>(tựa đề của trang Web)</title>
không bị bỏ trống thì thứ hạng của nó có thể được nâng cao hơn.Việc nâng cao thứ hạng (SEO) của một trang Web cho các máy truy tìm là do các nguyên nhân sau đây:
Do tầm quan trọng của việc xếp thứ bậc cho một trang Web nên đã nảy sinh các hậu quả:
meta
và câu lệnh title
thật nhiều chữ hay đoạn văn bản có khả năng làm tăng thứ hạng của chính nó lên mà thực ra bản thân phần hiển thị (phần giữa câu lệnh body
) của trang không hề liên hệ tới. Máy truy tìm khi xét đến các trang như vậy sẽ không thể biết rằng nội dung các văn từ ghi trong thẻ meta
hoàn toàn không phù hợp với nội dung hiển thị của nó. Tuy nhiên, sự đánh lừa chỉ có thể xảy ra trong thời gian ngắn. Sau đó, khi nhận được phản ánh từ người dùng, máy truy cập sẽ được điều chỉnh và lúc đó các trang giả dụng này sẽ bị trừng phạt bằng cách xoá hẳn chỉ số đã được gán cho trang Web đó.meta
) phải thay đổi hoặc là tự trang đó phải được tăng liên kết từ các địa chỉ Web khác tới và đây cũng là chỗ cho các nhà chuyên nghiệp về SEO phục vụ.Ngày nay, thì các máy truy tìm đã phát triển rất xa so với dạng nguyên thủy. Có hai cách chính phân loại máy truy tìm.
Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có:
Để mở rộng các chức năng tìm kiếm, cũng như tạo thêm nhiều tiện dụng cho người dùng, các máy truy tìm cũng đã hỗ trợ thêm nhiều phép toán lên từ khóa. Dĩ nhiên mỗi máy có thể sẽ hỗ trợ những phép toán khác nhau. Ở đây chỉ nêu ra các phép toán được hỗ trợ bởi hầu hết các máy truy tìm.
+Linux +script +tutor
+car +hibrid -sale -Prius -Insight
nước non nặng một lời thề
thì có thể thử dùng từ khoá với ngoặc kép"Nước non nặng một lời thề"
AND, OR
hay NOT
(Toán tử 1) OR (Toán tử 2)
. Lệnh này cho phép tìm những trang Web nào có chứa một trong các toán tử của phép toán OR của bộ từ khoá. Ví dụ để tìm các bài viết về Nguyễn Trãi trong cả tiếng Việt và tiếng nước ngoài thì có thể dùng bộ từ khoá"Nguyễn Trãi" OR "Nguyen Trai"
OR
là: AltaVista, AOL Search, Excite, Google, Inktomi (HotBot, MSN), Ask Jeeves, Lycos, Northern Light, HotBot và Gigablast.(Toán tử 1) AND (Toán tử 2)
. Phép toán AND nhằm yêu cầu máy truy tìm kiếm các trang có sự hiện diện của tất cả các toán tử. Ví dụ nanotechology AND health
health
và chữ nanotechnology
AND
như là mặc định (trong đó có Google). Bạn cũng có thể thay thế bằng cách dùng dấu + trong một số trường hợp nào máy truy tìm không có chức năng của đại số Bool.AND
là: AltaVista, AOL Search, Excite, Inktomi (HotBot, MSN), Northern Light, Yahoo và Gigablast."C/C++ tutor" NOT book
"Ong non" NEAR "Dê cỏn"
bootable AND (CD OR CDROM OR CD-ROM) AND (howto OR instruction)
Hỗ trợ cho kiểu phân nhánh bằng ngoặc đơn là AltaVista, AOL Search, Excite, Inktomi (MSN), Northern Light
Nhiều máy truy tìm còn hỗ trợ thêm các từ khoá mặc định. Khi dùng các từ khoá mặc định như một thành phần của bộ từ khoá thì các trang Web được trả về sẽ thoả mãn các đặc tính chuyên biệt hoá theo ý nghĩa mà các từ khoá mặc định này biểu tượng. Các hỗ trợ này cho phép kiểm soát được các loại trang nào muốn truy tìm.
Các từ khoá mặc định kết thúc bằng dấu hai chấm : và chữ (hay cụm từ trong ngoặc kép) của bộ từ khoá nào đứng ngay sau dấu này sẽ bị chi phối bởi điều kiện của từ khoá mặc định, còn các thành phần khác trong từ khoá sẽ không thay đổi ý nghĩa.
host:
. Ví dụ, host:mars.jpl.nasa.gov mars saturn
chỉ tìm trong mars.jpl.nasa.gov tất cả các trang có chứa chữ "mars" và chữ "saturn".site:
, khi kết hợp với các lệnh khác có thể tìm theo cách chuyên biệt. Ví dụ, "carbon nanotech" -host:www.technologyreview.com
cho phép tìm tất cả các trang nào có chứa cụm từ "carbon nanotech" ngoại trừ các trang xuất sứ từ www.technologyreview.com domain:
. Ví dụ, để tìm các trang có đuôi là ".edu" (thường là trang Web của các đại học) về đề tài "heart transplan", có thể dùng bộ từ khoá "heart transplan" +host:edu
để tìm các trang có đuôi gốc là.edu mang đề tài này.domain, url, site:
cho chức năng này. Ví dụ, để tìm các trang về "deutch" từ các trang trong nước Đức có thể dùng deutch domain:.de
title:
. Ví dụ, title: "Mars Landing"
sẽ giúp truy tìm các trang có đề tựa về Hoả Tinh.intitle:
và allintitle:
("allintitle:" sẽ ảnh hưởng đến tất cả các chữ đứng sau dấu :).inurl:
và allinurl:
.
inurl:nasa
sẽ giúp tìm tất cả các địa chỉ Web nào có chứa chữ "nasa".allinurl:vietnam thetholucbat
sẽ giúp tìm tất cả các trang nào mà nội dung địa chỉ của nó chứa chữ "vietnam" hay là chữ "thetholucbat".originurl:
cho việc này.link:
. Tuy nhiên, Yahoo yêu cầu địa chỉ trong từ khoá phải có đủ tiếp đầu ngữ http://
thì mới hoạt động hữu hiệu. Ví dụ, bộ từ khoá link:vi.wikipedia.org
sẽ giúp truy ra tất cả các trang Web nào có liên kết tới trang Bách khoa toàn thư tiếng Việt này.linkdomain:
filetype:(đuôi của tập tin)
:
laser filetype:pdf
sẽ giúp tìm các trang là các tập tin dạng .pdf
(.pdf là loại tập tin được dùng trong cá hồ sơ văn bản của phần mềm Adobe Arcobat).Ký tự thay thế (wildcard character) được hiểu là một ký tự có thể dùng để thay thế, hay đại diện cho một tập hợp con của tập các ký tự chưa được xác định hoàn toàn. Một cách đơn giản hơn, ký tự thay thế là ký tự được dùng để đại diện cho một ký tự, hay một chuỗi ký tự trong một từ khoá, mệnh đề, câu hay dãy các ký tự.
Nhiều máy truy tìm hỗ trợ cho việc sử dụng hai loại ký tự thay thế. Đó là dấu sao *
và dấu chấm hỏi ?
*
: dấu này sẽ thay thế cho một dãy bất kì các ký tự (chữ, số, hay dấu). Ví dụ, trong từ khoá có t*ng
thì chữ t*ng
có thể hiểu ngầm là tướng, từng, tuồng, ttamxng,...*
dùng trong các hệ điều hành như là DOS, LINUX, Windows,... Theo cách hiểu của các hệ thống này thì dấu *
hoàn toàn không bị lệ thuộc vào biên giới của một từ. Trong khi đó, dấu *
dùng trong máy truy tìm sẽ được hạn chế trong biên giới của một từ. Ví dụ, từ khoá My*
dùng trong các công cụ tìm kiếm của các hệ điều hành kiểu Windows thì nó có thể là My Downloads, My Documents, My Yahoo!, my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere,...
. Trong khi đó my*
trong các máy truy tìm chỉ giới hạn trong các chữ) lập thành bắt đầu với my
. Như vậy, trong ví dụ trên thì My Downloads, My Documents, My Yahoo!
sẽ không được máy truy tìm xem xét mà chỉ có my_magazines.ico, mysql.php, myth_psychemohop.jpg, mystere
là hợp lệ mà thôi.*
này.ph?ng
có thể là phong, phặng, ph@ng, ph_ng, ph-ng,...
nhưng không thể là phượng, ph ng, phug, phăang
.?
này.Dấu ngã ~
: Đặc biệt trong Google có một cách để tìm không những các trang có chứa từ khoá mà còn tìm các trang có chứa chữ đồng nghĩa (synonym) Anh ngữ với từ khoá. Ví dụ, ~food facts
sẽ giúp truy tìm các dữ liệu có chữ "food facts" và các chữ tương đương như "nutrition facts",... Sự truy tìm theo hỗ trợ này đặc biệt hữu dụng trong trường hợp các tài liệu cần tìm quá hiếm hoi.
Ngoài chế độ tìm kiếm thông thường hầu hết các máy truy tìm đều hỗ trợ chức năng nâng cao mà dòng liên kết của nó thường viết bởi cụm từ "Advanced search"
, hay đơn giản là "Advanced"
. Trong chế độ này thì sự tìm kiếm được hướng dẫn chi tiết hơn. Đặc điểm chung của các chế độ nâng cao là:
Google, Yahoo
Có thể sử dụng các phép toán đã nêu trong bài 2 để nâng cao phép truy tìm. Tuy nhiên, người dùng nên cẩn thận vì có thể các kết quả sẽ chịu ảnh hưởng của nhiều điều kiện khác.
Các máy truy tìm có thể cung cấp thêm một số phương tiện để giảm thiểu khó khăn của việc truy tìm. Sau đây là vài chức năng đặc biệt
mars
thì số lượng trang tìm ra sẽ vô cùng lớn. Do đó, có thể bấm thêm vào các chữ liên hệ để máy truy tìm thu nhỏ thị trường tìm kiếm lại.Related Searches
),Ask.com AllTheWeb (Narrow your search
), Excite (Refine Your Results
), HotBot, Lycos, MSN, Yahoo (also try
).Additional relevant pages from this site
), AllTheWeb (more hits from
), Excite, Google (More results from
), HotBot, MSN, Northern Light.Did you mean...
"similar pages, related pages
), AOL Search (Show me more like this
), Google (did you mean, similar pages
).Enable Word Stemming
).cached
) của Google: Có nhiều trường hợp trang Web đã bị xoá không thể hiển thị được nữa nhưng thông tin của nó trong cơ sở dữ liệu của máy truy tìm vẫn còn mà người dùng có thể cần đến. Trong thời gian các tin tức này chưa bị xoá khỏi cơ sở dữ liệu thì vẫn có thể đọc được nó nhờ vào chức năng đặc biệt này của Google.Translate
), Google(Translate this page
).Seamless Wikipedia browsing. On steroids.