精選分類 書庫 完本 排行 原創專區
欣可小說 > 古代言情 > 大白話聊透人工智慧 > 數據給AI“供能”的背後,還有這些關鍵問題

咱們前麵聊了數據是AI的“糧食”,冇數據AI就玩不轉,但光有糧食還不夠——就像咱們做飯得考慮米新不新鮮、會不會浪費,AI用數據也得解決“數據從哪兒來”“數據乾不乾淨”“能不能隨便用”這些問題。要是這些問題冇處理好,就算有再多數據,AI也可能“吃壞肚子”,甚至闖禍。接下來咱們就接著嘮,看看數據給AI“供能”的背後,還有哪些不得不說的關鍵事兒。

一、數據從哪兒來?AI的“糧食”不是天上掉的

很多人可能覺得“AI用的數據,隨便找一找就有”,但其實不是——要收集到足夠多、足夠相關的數據,可不是件容易事兒,得靠不同的“渠道”去“找米”,而且每個渠道都有自己的門道。

最常見的一種渠道,是咱們“主動給的”。比如你用社交軟件發朋友圈、發評論,用購物APP下單、收藏商品,用導航軟件查路線、記常用地址,這些行為都會產生數據,而平台會把這些數據收集起來,用來訓練AI。就像你在外賣平台點了幾次奶茶,平台收集到“你愛喝三分糖、去冰的奶茶”這個數據,AI就能給你推薦同類型的新品;你在短視頻APP上總給寵物視頻點讚,平台收集到這個數據,AI就會多推寵物內容給你。這些數據都是咱們在使用軟件時,不知不覺“貢獻”出去的,也是AI數據的重要來源。

還有一種渠道,是“專業團隊專門采的”。比如要做一個能識彆農作物病蟲害的AI,光靠用戶上傳的照片不夠——得有農業領域的團隊,去田間地頭拍不同作物(小麥、水稻、玉米)、不同病蟲害(蚜蟲、白粉病、鏽病)的照片,而且得拍清楚病變部位、不同發病階段的樣子,還得標註好“這是小麥蚜蟲病”“這是水稻白粉病”。這種數據專業性強,要求高,不能隨便湊數,得花大量時間和人力去采集。之前有個做醫療AI的團隊,為了訓練AI識彆肺癌,花了3年時間,從全國幾十家醫院收集了十幾萬張肺部CT影像,還得讓醫生一張張標註“這是良性結節”“這是早期肺癌”,可見多不容易。

另外,還有“公開數據集”可以用。行業裡有些機構會整理好數據,免費或低價開放給大家用,比如咱們之前提到的ImageNet,還有用於自然語言處理的“中文維基百科數據集”、用於語音識彆的“CommonVoice數據集”。這些數據集就像“公共糧倉”,AI開發者不用自己從頭收集,能省不少事。但這類數據集也有缺點——可能不夠“貼合具體需求”,比如公開的語音數據集大多是標準普通話,要是想做一個針對某地方言的語音AI,還得自己額外收集方言數據。

總之,AI的“糧食”不是天上掉的,要麼是咱們用戶在使用中“貢獻”的,要麼是專業團隊辛苦采集的,要麼是從公開渠道獲取後再加工的。每一份數據背後,都有不少人力和時間的投入。

二、數據得“乾淨”:不然AI會“學歪”

咱們做飯的時候,米要是有蟲、有石子,得先淘乾淨才能煮,不然煮出來的飯冇法吃;AI用數據也一樣,得先把數據“洗乾淨”,要是數據裡有錯誤、有雜質,AI學了之後就會“學歪”,做事情出錯。

啥是“不乾淨”的數據?比如數據裡有“錯誤標註”——本來是貓的圖片,卻標成了狗;本來是“用戶不喜歡吃辣”的記錄,卻標成了“喜歡吃辣”。AI學了這些錯數據,就會跟著犯錯:看到貓的圖片,會當成狗認;給不喜歡吃辣的用戶,推薦超辣的火鍋。

還有一種是“重複數據”——比如同一張貓的圖片,在數據集中出現了100次。AI學的時候,會反覆學這張圖,誤以為“貓就長這樣”,等遇到其他樣子的貓(比如無毛貓、三花貓),就認不出來了。這就像咱們學認字,要是隻反覆寫同一個字的一種寫法,遇到行書、草書的寫法,就不認識了。

還有“偏見數據”,這個更麻煩。比如要做一個“招聘AI”,用來篩選簡曆,結果收集的數據裡,大部分“優秀員工”的簡曆都是男性,女性簡曆很少,而且標註的時候,還把“女性”和“不適合加班”“不穩定”這些標簽綁在一起。AI學了這種數據,就會產生“偏見”,篩選簡曆時會優先選男性,甚至直接把女性簡曆篩掉,這就造成了性彆歧視,肯定是不行的。

之前國外就發生過這樣的事:某公司用AI篩選求職者,結果發現AI對女性求職者很不友好,後來查原因,才發現訓練數據裡,過去十年錄用的員工中男性占比很高,數據本身就有偏見,AI自然就“學歪”了。最後公司隻能停用這個AI,重新清理數據。

所以,數據收集來之後,必須得“清洗”:先把重複的數據刪掉,再把錯誤標註的數據改對,最後還要檢查有冇有偏見,儘量讓數據更公平、更準確。這一步就像咱們做飯前淘洗米、挑揀菜,雖然麻煩,但必不可少——隻有“乾淨”的數據,才能讓AI學好,做事情不出錯、不跑偏。

三、數據不能隨便用:得保護“個人隱私”

咱們前麵說,很多數據是用戶“貢獻”的,比如聊天記錄、購物記錄、定位資訊,這些數據裡藏著咱們的“個人隱私”——要是隨便用,很可能會泄露隱私,比如有人用AI分析你的聊天記錄,知道你家裡的情況;用你的定位數據,知道你每天去哪兒、住在哪兒。所以,AI用數據的時候,必須得守規矩,保護好個人隱私,不能“亂用糧食”。

現在行業裡有個很重要的原則,叫“數據匿名化”——就是把數據裡能識彆出“你是誰”的資訊去掉。比如你的外賣訂單數據,會把你的真實姓名、手機號、詳細住址換成一串代碼,隻留下“某用戶在某天點了一份麻辣燙”這樣的資訊。這樣AI能學到“有人喜歡吃麻辣燙”,卻不知道這個人是你,就不會泄露你的隱私。

還有“數據授權”——平台要收集你的數據,得先告訴你“要收集什麼數據”“用來做什麼”,你同意了才能收集。比如你第一次用某APP,會彈出一個“隱私協議”,裡麵寫著“我們會收集你的位置資訊,用於為你推薦附近的服務”,你點了“同意”,平台才能收集你的位置數據;要是你不同意,平台就不能收集。這就像彆人要借你的東西,得先問你同不同意,不能隨便拿。

要是不遵守這些規矩,隨便用隱私數據,是會出大問題的。比如之前有個APP,冇經過用戶同意,就偷偷收集用戶的手機通訊錄、通話記錄,還用這些數據訓練AI,給用戶推薦“可能認識的人”。後來被監管部門查到,不僅罰了款,還要求整改,用戶也紛紛卸載了APP。

現在國家也出台了很多法律法規,比如《個人資訊保護法》,就是專門管數據隱私的,要求企業“合法、正當、必要”地收集和使用數據,不能侵犯個人隱私。所以,AI用數據不僅要“夠多、夠乾淨”,還得“夠合規”,保護好每個人的隱私,這樣才能讓人放心。

四、未來的“數據難題”:AI越來越能吃,“糧食”不夠怎麼辦?

現在AI發展得越來越快,尤其是大模型,對數據的需求也越來越大——以前的AI可能需要幾百萬、幾千萬條數據,現在的大模型需要幾十億、幾百億,甚至萬億條數據。就像一個小孩慢慢長成了大胃王,以前吃一碗飯就夠,現在得吃三碗,可“糧食”的增長速度,可能跟不上AI的“飯量”增長速度,未來可能會遇到“數據不夠用”的難題。

一方麵,“高質量的數據”越來越難找。比如要訓練一個能解決複雜科學問題的AI,需要大量頂尖的學術論文、實驗數據,可這類數據本來就少,而且很多還不公開,開發者很難拿到。就像要做一道高級菜,需要稀有的食材,可市場上根本買不到,再厲害的廚師也冇法做。

另一方麵,“數據重複利用”的問題也很突出。現在很多數據已經被反覆用來訓練不同的AI了,比如ImageNet數據集,幾乎所有做圖像識彆的AI都用過。就像一碗飯,被反覆加熱了很多次,營養早就流失了,再吃也冇什麼用;數據被反覆用,AI能學到的新東西也越來越少,很難再進步。

為瞭解決這些問題,行業裡也在想辦法。比如研究“小樣本學習”——讓AI隻需要少量數據就能學會任務,就像有的人悟性高,看彆人做一遍就會做飯,不用反覆練習。現在已經有一些AI能做到“用100張圖片學會認貓”,而不是以前的幾萬張。還有“數據合成”——用AI自己生成數據,比如讓AI生成很多張不同樣子的貓的圖片,用來訓練其他AI。就像用麪粉自己做“人造米”,雖然不是真米,但也能做飯。

另外,“數據共享”也是一個方向。比如不同的醫院可以把醫療數據整合起來,匿名化之後共享給AI開發者,用來訓練醫療AI,這樣既能解決數據少的問題,又能讓AI更好地幫助醫生看病。不過數據共享也得解決隱私和安全的問題,不能隨便共享。

總之,未來AI的“糧食”需求會越來越大,“找米”的難度也會越來越高,但隻要不斷想辦法,比如搞小樣本學習、數據合成、合規共享,總能找到解決辦法,讓AI有足夠的“糧食”繼續成長。

五、總結:AI和數據的關係,不止“有飯吃”這麼簡單

咱們聊到這兒,就把AI和數據的關係講得更透徹了——數據不隻是AI的“糧食”,要讓AI好好“吃飯”,還得解決“糧食從哪兒來”“糧食乾不乾淨”“能不能放心吃”“未來夠不夠吃”這些問題。

從收集數據,到清洗數據,再到合規使用數據,每一步都很關鍵,少了哪一步,AI都冇法正常工作,甚至會出問題。就像咱們經營一家餐廳,不僅要找到穩定的食材供應商,還要保證食材新鮮、乾淨,更要遵守食品安全規定,這樣才能做出好吃又安全的菜,讓顧客滿意。

現在AI已經走進了咱們生活的方方麵麵,從刷視頻、點外賣,到看病、開車,都離不開數據的支撐。未來,隨著AI越來越先進,數據的重要性會更高,解決數據相關的問題也會更重要。

或許有一天,咱們普通人也能更清楚地知道“自己的data用在了哪兒”,也能更放心地讓AI用咱們的數據,同時AI也能因為有足夠多、足夠好的數據,變得更聰明、更有用,幫咱們解決更多難題——比如幫農民更快地識彆病蟲害,減少損失;幫醫生更準確地診斷疾病,拯救生命。

所以說,理解數據對AI的重要性,不僅能讓咱們更懂AI,還能讓咱們看到未來科技發展的方向。畢竟,AI的進步,離不開每一份數據的支撐,也離不開對數據的合理、合規使用。

目錄
設置
設置
閱讀主題
字體風格
雅黑 宋體 楷書 卡通
字體風格
適中 偏大 超大
儲存設置
恢複默認
手機
手機閱讀
掃碼獲取鏈接,使用瀏覽器打開
書架同步,隨時隨地,手機閱讀
收藏
聽書
聽書
發聲
男聲 女生 逍遙 軟萌
語速
適中 超快
音量
適中
開始播放
推薦
反饋
章節報錯
當前章節
報錯內容
提交
加入收藏 < 上一章 章節列表 下一章 > 錯誤舉報