インターネット検索エンジンの原理に関するこのレッスンでは、検索エンジンがどのように結果を分類し、記述し、評価するのかを理解します。 結果の並べ替え 現在、検索サーバーに用意されている完成品の樽を想像してみよう。最初の検索クエリは、ユーザーから送られてきたものです。ここで、最初の「大まかな」ソートを行い、さらに洗練されたものにします。 次のような入力クエリの例を見てみましょう。 [O (and) pejskovi (and) a (and) kočičce] そう、これは検索サーバーがユーザーから…
今日のレッスンでは、データバレルとその構造、StopSlovasについて説明し、最後にクローラーについて説明します。 データバレルズ これは、複数のサーバーに同時に複数コピーで存在する特殊なデータ型である。原則として数百GBのデータ量の多いファイルで、読むのに時間がかかり(そのため分割されている)、編集は事実上不可能です。もし、わずかでも変更を加えようとすれば、バレル全体を計算し直さなければならないのです。例えば、検索エンジンのSeznamは、せいぜい数日から数週間に一度、データバレルを再計算す…
今日のレッスンでは、インターネット上の文書のインデックス付けと正規化について見ていきます。 インデックス作成 インデックスの作成は、インデクサと呼ばれるコンポーネントが行う。これは、ダウンロードしたデータ(クローラーがダウンロードしたデータ)を検索するための特別なデータ型であるバレルにするための専用プログラムです。 インデックスの問題は、文書を「スマートに」閲覧できないことですが、シーケンシャルリーディング(最初から最後まで全文を読むこと)は避けられないので、厳しい訓練が必要で、検索エンジンはこ…
インターネットには毎秒500万もの新しいページが追加されており、この割合は常に増加している。この膨大な情報の海に秩序を与え、その中から何かを見つけ出すために、検索エンジンが存在する。以下の作品は、検索の問題を紹介し、新しいページを作成してから検索エンジンで見つけるまでの一連のプロセスを説明することを目的としています。 何十億という文書の集合を見つけ出し、分類する作業は容易ではありません。この作業を数時間でこなすには、グーグルだけでも30万台のウェブサーバーが必要です。実は、問い合わせをするよりも…