紅葉文章采集器是一款超級強大的網站文章采集器,英文名稱Fast_Spider,屬于蜘蛛爬蟲類程序,用于從指定網站采集海量精華文章,將直接丟棄其中的垃圾網頁信息,僅保存具備閱讀價值和瀏覽價值的精華文章,自動執行HTM-TXT轉換,有需要的趕緊來下載使用吧。
紅葉文章采集器軟件特色
(1)本軟件采用北大天網MD5指紋排重算法,對于相似相同的網頁信息,不再重復保存。
(2)采集信息含義:[[HT]]表示網頁標題,[[HA]]表示文章標題,[[HC]]表示10個權重關鍵字,[[UR]]表示網頁中的圖片鏈接,[[TXT]]之后為正文。
(3)蜘蛛性能:本軟件開啟300個線程來保證采集效率。通過采集100萬精華文章來執行壓力測試,以普通網民的聯網計算機為參考標準,單臺計算機可以在一天內遍歷200萬網頁、采集20萬精華文章,100萬精華文章僅需5天就可采集完畢。
(4) 正式版與免費版的區別在于:正式版允許將采集的精華文章數據自動保存為ACCESS數據庫。
紅葉文章采集器使用注意
1、抓取深度:填寫0表示不限制抓取深度;填寫3表示抓到第3層。
2、通用蜘蛛模式與分類蜘蛛模式的區別:假定網址入口為“http://youxi.baidu.com/”,若選擇通用蜘蛛模式,將遍歷“baidu.com”里面的每一個網頁;若選擇分類蜘蛛模式,則只遍歷“youxi.baidu.com”里面的每一個網頁。
3、按鈕“從MDB導入”:網址入口從TASK.MDB中批量導入。
4、本軟件采集的原則是不越站,例如給的入口是“http://youxi.baidu.com/”,就只在百度站點內部抓取。
5、本軟件采集過程中,偶爾會彈出一個或數個“錯誤對話框”,請不予理會,倘若關閉“錯誤對話框”,采集軟件就會掛掉。如果軟件掛掉,之前已采集的信息,不會丟失。當再次啟動軟件執行采集,對于以前已采集的信息不會重新采集,可實現良好的增量采集。
6、使用者如何選擇采集題材:例如你若想采集 “股票類”文章,只需把那些“股票類”站點作為網址入口即可。
- PC官方版
- 安卓官方手機版
- IOS官方手機版