搜索引擎對文件的管理,同時也說了搜索引擎是有很多的數(shù)據(jù)庫組成,并且這些數(shù)據(jù)庫中還都有相互對應(yīng)的關(guān)系,至于數(shù)據(jù)庫之間的關(guān)系,我們不去做討論,只要知道各個數(shù)據(jù)庫之間是相互呼應(yīng)的就已經(jīng)夠了。在之前我有在一篇文章里談到了優(yōu)化企業(yè)網(wǎng)站要符合搜索引擎的喜好,大家可以去了解一下http://m.hthplzvh.cn/news/96.html
好了,今天我們就來談搜索引擎算法中的預(yù)處理機(jī)制,搜索引擎提取文字的機(jī)制,搜索引擎的預(yù)處理分為很多步驟,我會在我的SEO優(yōu)化學(xué)習(xí)博客seo.chhua.com一一的對大家分享我目前已經(jīng)了解的幾種,希望大家多多關(guān)注。
搜索引擎為什么做預(yù)處理?
原因很簡單,搜索引擎抓取來的數(shù)據(jù)幫復(fù)雜,也太龐大,而我們用戶在搜索的時候,搜索出來的速度是非常快的,如果數(shù)據(jù)太復(fù)雜太龐大了,就會拖跨數(shù)據(jù)庫,也會影響搜索引擎的運(yùn)算速度,所以要對抓取來的數(shù)據(jù)進(jìn)行處理分析,然后進(jìn)行索引,以方便用戶的搜索。
在搜索引擎文件管理方法一文中,提到了模擬爬行蜘蛛的程序,這剛剛是搜索引擎提取文字最好模擬,把網(wǎng)頁中的HTML代碼和程序代碼(包含JS,AS)剔除之后進(jìn)行入庫。
但是,通過我的分析和研究,搜索引擎在提取文字的過程中,絕對不是蜘蛛模擬那么簡單,絕對也不是只為了提取而提取,在提取的過程中,搜索引擎還要標(biāo)記出比較特殊的標(biāo)簽,比如<H1>標(biāo)簽,<strong>標(biāo)簽,<a>標(biāo)簽等,然后對這些標(biāo)簽進(jìn)行初步的分析,把分析結(jié)果存入相應(yīng)的數(shù)據(jù)庫,為以后的數(shù)據(jù)索引提供原始的數(shù)據(jù),而這些標(biāo)簽都是有什么作用,今天在這里不會多講,將會在以后的文章中專門來討論SEO站內(nèi)優(yōu)化的一系列理論。
OK,今天只談了搜索引擎預(yù)處理過程中的第一步:提取文字,但是對大家要糾正的是,搜索引擎在提取文字的時候,絕對不是只提取單獨(dú)的文字,還會對一些特殊標(biāo)簽進(jìn)行分析,然后入庫。