說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732
全網(wǎng)監(jiān)測海量數(shù)據(jù)按需發(fā)布監(jiān)測預(yù)警
實(shí)時(shí)把握輿情動態(tài)精準(zhǔn)追溯信息源頭
轉(zhuǎn)自:百度搜索研發(fā)部
我們向搜索引擎網(wǎng)站提交處理一個查問,搜索引擎網(wǎng)站會從先到后列出數(shù)量多的結(jié)果,這些個結(jié)果排序的標(biāo)準(zhǔn)是啥子呢?這個看似簡單的問題,卻是信息檢索們研討的中心困難的問題之一。
為理解釋明白這個問題,我們來研討一個比搜索引擎網(wǎng)站更加古老的話題:求醫(yī)。譬如,假如我牙疼,應(yīng)當(dāng)去看怎樣的醫(yī)生呢?如果我只有三種挑選:
A醫(yī)生,既治眼病,又治胃??;
B醫(yī)生,既治牙病,又治胃病,還治眼??;
C醫(yī)生,專治牙病。
A醫(yī)生肯定不在思索問題之列。B醫(yī)生和C醫(yī)生之間,貌視更應(yīng)當(dāng)挑選C醫(yī)生,由于他更專注,更適應(yīng)我的病情。如果再加一個條件:B醫(yī)生內(nèi)行,有二十年從醫(yī)經(jīng)歷,醫(yī)療技術(shù)高超,而C醫(yī)生只有五年從醫(yī)經(jīng)驗(yàn),這個問題不那末容易判斷了,是優(yōu)先挑選更加專注的C醫(yī)生,仍然優(yōu)先挑選醫(yī)療技術(shù)更加高超的B醫(yī)生,確實(shí)成了一個需求仔細(xì)衡量的問題。
至少,我們獲得了一個論斷,擇醫(yī)需求思索問題兩個條件:醫(yī)生的專長與病情的適配程度;醫(yī)生的醫(yī)療技術(shù)。大家肯定感到這個論斷不容置疑,并且可以很天然地聯(lián)想到,搜索引擎網(wǎng)站排序不也是這么嗎,既要思索問題網(wǎng)頁內(nèi)部實(shí)質(zhì)意義與用戶查問的般配程度,又要思索問題網(wǎng)頁本身的品質(zhì)。不過,怎么把這兩種因素接合起來,獲得一個,而不是兩個或多個排序標(biāo)準(zhǔn)呢?如果我們把這兩種因素表達(dá)成數(shù)字,的排序根據(jù)是把這兩個數(shù)字加起來,仍然乘起來,或是按決策樹的方法把他們團(tuán)體起來?若是加起來,是簡單相加,仍然帶權(quán)重加呢?
我們可以依據(jù)直覺和經(jīng)驗(yàn),經(jīng)過試錯的方法,把這兩個因素接合起來。但更好的方法是我們能找到一個明確的根據(jù),能跟算術(shù)這么堅(jiān)實(shí)的學(xué)科結(jié)合起來。提起來,根據(jù)素樸的經(jīng)驗(yàn),人的總稱在古代能建筑出高樓;但要建筑出高達(dá)數(shù)百米的 挨天大廈,假如沒有建造力學(xué)、材料力學(xué)這么堅(jiān)實(shí)的學(xué)科作為后盾,則是十分十分艱難的。同理,根據(jù)素樸的經(jīng)驗(yàn)構(gòu)建的搜索引擎網(wǎng)站算法,用來處置上萬的網(wǎng)頁聚齊應(yīng)當(dāng)是沒問題的;但要檢索上億的網(wǎng)頁,則需求更為堅(jiān)固的理論基礎(chǔ)。
求醫(yī),病人會優(yōu)先挑選診斷正確、醫(yī)治效果好的醫(yī)生;對于搜索引擎網(wǎng)站來說,普通按網(wǎng)頁滿意用戶需要的幾率從大到小排序。假如用q表達(dá)用戶給出了一個特別指定的查問,用d表達(dá)一個特別指定的網(wǎng)頁滿意了用戶的需要,那末排序的根據(jù)可以用一個條件幾率來表達(dá):
P(dq)
這個簡單的條件幾率,將搜索引擎網(wǎng)站排序算法與幾率論這門堅(jiān)實(shí)的學(xué)科結(jié)合了起來,這像在滄海中航行的船舶裝備了南針同樣。利用貝葉斯公式,這個條件幾率可以表達(dá)為:
可以明白地看見,搜索引擎網(wǎng)站的排序標(biāo)準(zhǔn),是由三個局部組成的:查問本身的屬性P(q);網(wǎng)頁本身的屬性P(d);兩者的般配關(guān)系P(qd)。對于同一次查問來說,全部網(wǎng)頁對應(yīng)的P(q)都是同樣的,因?yàn)檫@個排序時(shí)可以不思索問題,即
公式左面,是已知用戶的查問,求網(wǎng)頁滿意該用戶需要的幾率。搜索引擎網(wǎng)站為了增長響應(yīng)用戶查問的性能,需求事前對所要等待查問的網(wǎng)頁做預(yù)處置。預(yù)處置時(shí),只曉得網(wǎng)頁,不曉得用戶查問,因?yàn)檫@個需求倒過來計(jì)算,即剖析每個網(wǎng)頁能滿意哪一些需要,該網(wǎng)頁分了多大比例來滿意該需要,即獲得公式右面的第1項(xiàng)P(qd),這相當(dāng)于上文紹介的醫(yī)生的專門程度。譬如,一個網(wǎng)頁專門紹介牙病,另一個網(wǎng)頁既紹介牙病又紹介胃病,那末對于“牙疼”這個查問來說,前一個網(wǎng)頁的P(qd)值便會更高一點(diǎn)。
公式右面的第二項(xiàng)P(d),是一個網(wǎng)頁滿意用戶需要的幾率,它反映了網(wǎng)頁本身的好壞,與查問無關(guān)。如果要向一個陌陌生人引薦網(wǎng)頁(我們并不曉得他需求啥子),那末P(d)相當(dāng)于某個特別指定的網(wǎng)頁被引薦的幾率。在傳統(tǒng)的信息檢索板型中,這一個量不太被看得起,如傳統(tǒng)的矢量空間板型、BM25板型,都打算只依據(jù)查問與文檔的般配關(guān)系來獲得排序的權(quán)重。而其實(shí),這個與查問無關(guān)的量是十分關(guān)緊的。如果我們用網(wǎng)頁被過訪的頻次來估計(jì)它滿意用戶需要的幾率,可以看出對于兩個不一樣的網(wǎng)頁,這個量有著非常很大的差別:有的網(wǎng)頁每日只被過訪一兩次,而有的網(wǎng)頁每日被過訪成千累萬次。能夠供給這么很大差別的量,竟長時(shí)期被傳統(tǒng)的搜索引擎網(wǎng)站疏忽,一直到Google創(chuàng)造了pagerank并讓它參加到排序中。Pagerank是對P(d)值的一個不賴的估計(jì),這個因素的參加使搜索引擎網(wǎng)站的效果迅即升漲到達(dá)一個新的階梯。
這個公式一樣應(yīng)答了上文提出的問題,網(wǎng)頁與查問的般配程度,和網(wǎng)頁本身的好壞,這兩個因素應(yīng)當(dāng)怎樣接合起來參加排序。這個公式以不可以反駁的理由奉告我們,假如網(wǎng)頁與查問的般配程度用P(qd)來表達(dá),網(wǎng)頁本身的好壞用P(d)來表達(dá),那末應(yīng)當(dāng)按他們的乘積來施行排序。在現(xiàn)代經(jīng)濟(jì)活動搜索引擎網(wǎng)站中,需求思索問題更多更細(xì)節(jié)的排序因素,這些個因素有可能有結(jié)果百上千個,要把他們合成一體起來是更加復(fù)雜和難題。
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請撥打電話 400 685 0732