欧美日韩精品在线,国内精品久久久久久久久,一级毛片恃级毛片直播,清纯唯美亚洲综合欧美色

SupeSite 7.0 采集管理-添加新機器人說明教程_SupeSite教程

編輯Tag賺U幣
教程Tag:暫無Tag,歡迎添加,賺取U幣!

初次接觸 SupeSite 的采集器,可能會感覺難以上手,本文將帶你熟悉 SupeSite 的采集器,讓您根據(jù)自己的情況做出自己的采集器。

以采集 http://vip.book.sina.com.cn/book/index_40931.html 為例。

一、首先簡單說一下制作采集器的基本原理和思路

1、確定采集頁面到 “列表頁面鏈接” 。

2、確定在這些頁面要采集的內(nèi)容區(qū)域,也就是 “列表區(qū)域識別規(guī)則” 。

3、確定要采集的文章鏈接,也就是 “文章鏈接 url 識別規(guī)則” 。

4、現(xiàn)在真正您需要采集的范圍,就是 “文章標(biāo)題識別規(guī)則” 和 “文章內(nèi)容識別規(guī)則” 。

5、以上 4 個步驟已經(jīng)確定了采集的范圍,如果您需要過濾標(biāo)題和內(nèi)容,請根據(jù)您的要求設(shè)置 “過濾規(guī)則” 。

以上幾個步驟確定范圍都是通過查看頁面源碼,進(jìn)行設(shè)置的,截取的方法需要一些經(jīng)驗,建議多點右邊的 “測試” 看看是否成功。

二、接下來介紹采集器的基本原理和步驟

1、進(jìn)入后臺 => 采集管理 => 添加新機器人,如下圖所示:

1)填寫基本設(shè)置

“單次采集個數(shù)”盡量設(shè)置較小的數(shù)字,以免超時。

2)采集頁面的 url 地址設(shè)置

采集頁面的 url 地址有兩種設(shè)置方法:手動輸入和自動增長。手動輸入需要您自己將所需采集的地址逐行輸入。自動增長只需填入采集頁面的地址和頁面頁碼。用 [page] 代替分頁變量。以手動輸入為例,如下圖所示:

3)采集頁面編碼

如果采集的頁面和網(wǎng)站的不一樣,需要填寫下編碼,你只需要點擊【程序輔助識別】,把識別出來的填寫到下圖位置。如下圖所示:

4)列表區(qū)域識別規(guī)則

在你要采集的頁面中點擊鼠標(biāo)右鍵 => 查看源代碼 => 找到文章鏈接URL區(qū)域。

文章鏈接 URL 區(qū)域 用 [list] 表示

左邊 div 或者其他標(biāo)簽一定要選好,這里一定要注意,文章鏈接 URL 區(qū)域一定要在這個 div 內(nèi),而且是最近的,獨一無二的。

建議大家用 Dreamweaver 工具查看

右邊是接著左邊的 div 結(jié)束后的標(biāo)簽,比如:

5)文章鏈接 URL 識別規(guī)則

現(xiàn)在需要的連接,如下圖所示:

鏈接地址用 [url] 表示,比如:

添加文章鏈接 URL 規(guī)則后,發(fā)現(xiàn)有些鏈接是不需要的,所以需要使用“文章鏈接URL剔除規(guī)則”,如下圖所示:

6)文章鏈接 URL 剔除規(guī)則

剔除規(guī)則如果有多個選擇,請用 | 隔開,比如:

如下圖所示:

7)文章標(biāo)題識別規(guī)則

點一個文章鏈接 => 在新打開的頁面中點擊鼠標(biāo)右鍵 => 查看源代碼 => 找到這篇文章的標(biāo)題左右最近的標(biāo)簽

標(biāo)題用 [subject] 表示,比如:

如下圖所示:

8)文章內(nèi)容識別規(guī)則

點一個文章鏈接 => 在新打開的頁面中點擊鼠標(biāo)右鍵 => 查看源代碼 => 找到這篇文章的內(nèi)容左右最近的標(biāo)簽

內(nèi)容用 [message] 表示,比如:

如下圖所示:

2、這樣采集規(guī)則就寫好了,點擊提交保存。頁面跳轉(zhuǎn)后,點擊開始采集,如下圖所示:

3、采集的過程,如下圖所示:

4、采集完畢之后,還需要更新下緩存,如下圖所示:

5、如果您的采集規(guī)則正確,打開首頁就可以看到你剛剛采集到的內(nèi)容,如下圖所示:

查看更多 supesite教程  supesite模板

來源:SupeSite//所屬分類:SupeSite教程/更新時間:2009-11-24
相關(guān)SupeSite教程