- 相關(guān)推薦
阿里巴巴筆試記
考點(diǎn)(不分先后次序):
C++:1.關(guān)于DOM的描述;2.網(wǎng)絡(luò)蜘蛛系統(tǒng);3.UTF-8;4.數(shù)據(jù)庫(kù)檢索:查準(zhǔn)率和查全率;5.索引壓縮;6.設(shè)計(jì)cralwer;7.Trie樹(shù)查詢;8.HTML&HTTP協(xié)議;9.信息檢索模型;10.分布式通信協(xié)議;11.分布式搜索引擎;12.雙向循環(huán)鏈表;13.快速排序;14.32位系統(tǒng),
阿里巴巴筆試記
。關(guān)于DOM的描述:
javascrip里面的dom(文檔對(duì)象模型)它是一種模型,將格式化文檔對(duì)象化處理。在xml和html 的處理中廣泛應(yīng)用。 //dom是定義超文本結(jié)構(gòu)的對(duì)象及方法,分層次的,有容器類的對(duì)象,也有基本元素對(duì)象,而這些對(duì)象,都包含有相應(yīng)的屬性和對(duì)應(yīng)的操作方法(接口)。
//一般而言,DOM結(jié)構(gòu)準(zhǔn)確地反映了HTML文檔所包含的內(nèi)容,也就是說(shuō),每個(gè)HTML標(biāo)記表現(xiàn)為一個(gè)標(biāo)記節(jié)點(diǎn)(tag node),每個(gè)文本項(xiàng)內(nèi)容表現(xiàn)為一個(gè)文本項(xiàng)節(jié)點(diǎn)(text node)。//是W3C組織推薦的處理可擴(kuò)展置標(biāo)語(yǔ)言的標(biāo)準(zhǔn)編程接口。
2. 網(wǎng)絡(luò)蜘蛛系統(tǒng)
網(wǎng)絡(luò)蜘蛛即Web Spider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來(lái)爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。
對(duì)于搜索引擎來(lái)說(shuō),要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)幾乎是不可能的,從目前公布的數(shù)據(jù)來(lái)看,容量最大的搜索引擎也不過(guò)是抓取了整個(gè)網(wǎng)頁(yè)數(shù)量的百分之四十左右,
資料共享平臺(tái)
《阿里巴巴筆試記》(http://www.stanzs.com)。這其中的原因一方面是抓取技術(shù)的瓶頸,無(wú)法遍歷所有的網(wǎng)頁(yè),有許多網(wǎng)頁(yè)無(wú)法從其它網(wǎng)頁(yè)的鏈接中找到;另一個(gè)原因是存儲(chǔ)技術(shù)和處理技術(shù)的問(wèn)題,在抓取網(wǎng)頁(yè)的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先(如下圖所示)。廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。這是最常用的方式,因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)開(kāi)始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。兩種策略的區(qū)別,下圖的說(shuō)明會(huì)更加明確。
在網(wǎng)絡(luò)蜘蛛機(jī)器人系統(tǒng)里面,真正起指揮作用的是人工管理系統(tǒng)制定的規(guī)則和檢索索引數(shù)據(jù)庫(kù)。它可以決定什么樣的網(wǎng)站抓的勤一點(diǎn),或者干脆不抓.
3. UTF-8
使用UTF-8編碼唯一的好處是,國(guó)外的用戶如果使用Windows XP英文版,瀏覽UTF-8編碼的任何網(wǎng)頁(yè),無(wú)論是中文、還是日文、韓文、阿拉伯文,都可以正常顯示,UTF-8是世界通用的語(yǔ)言編碼,UTF-8的推廣要?dú)w功于Google的應(yīng)用,以及Blog開(kāi)發(fā)者。而如果用Windows XP英文版的IE6.0瀏覽gb2312語(yǔ)言編碼的網(wǎng)頁(yè),則會(huì)提示是否安裝語(yǔ)言包。因此,可能會(huì)失去很多的國(guó)外瀏覽者。 使用gb2312編碼的好處是,因?yàn)槌绦虍a(chǎn)生的網(wǎng)頁(yè)文本使用ANSI編碼格式,會(huì)比UTF-8文本編碼節(jié)省一些體積,訪問(wèn)速度會(huì)稍微快一點(diǎn)點(diǎn),大約是30:38的比例,也就是30K的ANSI編碼,轉(zhuǎn)為UTF-8編碼是38K,當(dāng)然,這個(gè)比例并不準(zhǔn)確,是會(huì)隨Unicode字符集區(qū)域的不同而變化的。
【阿里巴巴筆試記】相關(guān)文章:
阿里巴巴程序筆試題09-28
阿里巴巴筆試題目09-11
阿里巴巴運(yùn)營(yíng)專員筆試經(jīng)驗(yàn)06-01
阿里巴巴校招筆試題07-31
阿里巴巴運(yùn)營(yíng)專員筆試經(jīng)驗(yàn)07-14
哈爾濱阿里巴巴筆試題目07-25
阿里巴巴校園招聘南京筆試經(jīng)驗(yàn)07-11
阿里巴巴實(shí)習(xí)生筆試題09-18