精選分類 書庫 完本 排行 原創專區
欣可小說 > 科幻靈異 > 絕對掌控 > 012

絕對掌控 012

作者:匿名 分類:科幻靈異 更新時間:2026-03-16 20:21:23

數據海洋和爬蟲(shukeba.com)

數據分析模塊是股神1.0的大腦,除了這個大腦之外它還需要其他幾個關鍵性模塊。既然做大數據分析,那麼這個數據來源就需要有一個功能模塊來解決,它專門負責數據的收集。

這個數據收集模塊就像是股神的手腳,負責從網絡上收集對應的數據,這個模塊一個關鍵的組成部分就是爬蟲。

國際互聯網發展到今天,變成了體係龐雜內容浩繁的網狀係統,這個係統上的資訊節點規模數以十億計,這些節點可能包括台式機、筆記本、服務器、大規模群組、智慧手機、平板、智慧導航終端、各類資訊采集終端、資訊發射終端等等等等。

隻要能夠鏈接上互聯網,能夠與互聯網進行數據互動的,都可以視為一個資訊節點,比如遍佈城市的各類監控探頭,各類通訊基站,嚴格來說都屬於節點之一。

這些節點為互聯網提供的數據類型也各種各樣,有文字,有數據,有圖表,有文檔,有視頻,有音頻,有數據庫;它們的表現形式各式各樣,有通用格式,有專用格式;所有這些資訊加在一起,共同組成了沉積在國際互聯網中浩瀚的數據海洋。

這個數據海洋是動態的,它時刻處在在運動和更新之中,就好像各種洋流和浪濤一樣,永不停息。

整個數據海洋分散在無數個資訊節點之中,這些資訊節點被各種通訊協議鏈接起來,讓它們可以相互通訊。各種通訊協議中,有我們最熟悉的一種,就是url,也就是我們總會遇到的網站鏈接。

如果將整個數據海洋比喻成我們的地球,那麼每個數據節點就是一個房間,而節點內的數據資訊就是我們人類,所有的資訊節點組合起來,構成了地球上的無數個城市,無數個大廈,無數個房屋。

各種各類的數據鏈接模式,就是承載人們出行的道路,而url不過是道路的一種,算是各個城市之間,各個主要的商業大廈之間互通的鐵路和公路。它主要出現在公共服務器之間,就是說隻要有了url,理論上來說它對所有數據訪客都是開放的,任何人都可以抵達這個服務器,隻不過它有冇有門禁就是另外一回事了。

既然有公共空間,那相對應的肯定有非公共空間,除了url,還有很多鏈接模式,這些鏈接模式裡,資訊節點就像是私人住宅或者軍事禁區一樣,它並不是開放給公眾的,雖然它同樣存在於數據海洋中,但你是無法隨便訪問的。

當麵對如此龐大浩繁的數據海洋時就存在一個問題了,世界這麼大,我該如何找到目標,比如我想找感冒藥相關的數據資訊,我該怎麼辦?

正是這種需求催生了搜尋引擎,搜尋引擎可以幫助你快速找到目標,它就像一個找路指南一樣,你隻要告訴它想去哪,這個目的地大概什麼特征,它就會幫助你找到無數個可能合適的目的地,並且把對方的url提供給你。

搜尋引擎每天的訪問量都是海量的,每一秒同時併發的搜尋請求都是數以十萬計的,在這麼多請求麵前,如果來一個請求它搜一遍互聯網,這肯定是不現實的,不僅速度慢效率低,而且僅僅這類搜尋請求就足讓整個國際互聯網陷入擁堵狀態。

為瞭解決這個問題,搜尋引擎就有了它特有的工作模式,它先儘可能多的將數據海洋裡的資訊全部找出來,然後存儲在自己的服務器群組中,一旦有了搜尋請求,它隻要在自己的服務器裡進行檢索就行了。

而幫助搜尋引擎完成找這個動作的就是爬蟲。

因為國際互聯網中的資訊節點都是相互關聯的,是網狀聯絡的,每個節點上都會有很多個url。所以爬蟲的工作模式就是遍曆,當它開始工作時,它會以一個資訊節點為起點,然後挨個訪尋與這個節點相連的所有節點,當下一層節點還有url鏈接時,它就不斷訪問下去,直到將所有url遍曆一次纔算完。

因為整個互聯網的網狀結構,使它具備網狀互通性,所以等爬蟲將所有url遍曆了,一般來說它就已經將整個國際互聯網所有鏈接全部訪問了一遍,這註定是一個比環球旅行更加令人歎爲觀止的行為。

而莫回既然想弄這個股神1.0,他想要蒐集海量數據,那麼他要做的事情其實和搜尋引擎要做的事情很像,隻不過搜尋引擎是所有資訊都要蒐集,而莫回隻需要關注股票相關的資訊就行了。

這樣的話,莫回的爬蟲就必須在具備遍曆能力的同時,還得具備篩選的能力。

遍曆的能力解釋起來很簡單,就是你不能走回頭路和冤枉路,遊曆過的url就犯不著再走第二遍了。一條新的url被髮現,首先需要判斷這條url是否已經走過,其次需要判斷這條url被安排在什麼次序去走。一個是重複性問題,一個是最優化問題,這就需要獨特的遍曆演算法來解決。

而篩選功能就是通用爬蟲和專用爬蟲之間的主要區彆,莫回的爬蟲需要具備一定的識彆能力,能夠辨彆某個url中的內容是否具備相關性,如果不具備那麼就跳過,如果具備就將其中的內容複製回來待用。

這個篩選功能同樣需要一大堆的演算法來解決,不僅如此,它還需要具備自然語言處理能力,就是說它得具備對語言文字的理解和解析的能力,它得能夠識彆哪些文字內容是與股票相關的,哪些是無用的。

僅僅識彆文字還是不夠的,它還得能夠識彆其他格式的數據,比如它得能夠識彆圖案,像是股票相關的各種k線圖、柱狀圖之類的,爬蟲必須能夠將其與風景畫或者自拍照區彆開。

除了圖片,其他的像是視頻、音頻、各類數據庫之類的,爬蟲都需要一一辨彆出來,確定是否屬於相關內容。

這裡麵將會有無數個技術難題需要解決,如果這個工作讓莫回一個人來完成,幾乎是不可想象的。

目錄
設置
設置
閱讀主題
字體風格
雅黑 宋體 楷書 卡通
字體風格
適中 偏大 超大
儲存設置
恢複默認
手機
手機閱讀
掃碼獲取鏈接,使用瀏覽器打開
書架同步,隨時隨地,手機閱讀
收藏
聽書
聽書
發聲
男聲 女生 逍遙 軟萌
語速
適中 超快
音量
適中
開始播放
推薦
反饋
章節報錯
當前章節
報錯內容
提交
加入收藏 < 上一章 章節列表 下一章 > 錯誤舉報