My Board

Posted: **Tue Mar 18, 2025 8:15 am**

關鍵要點
必須遵循當前的監管環境來取得公共網路資料。
企業應遵循確保流程和收集資料的整體安全的原則。
人工智慧市場的成長引發了有關使用網路資料訓練人工智慧和創建人工智慧產品的疑問。
公共網路數據用於各種目的，從有影響力的研究到創造和改進產品。

獲取此類資料最常見的方法之一是透過網路抓取。因為它涉及收集企業或個人在線上發布的大量數據，所以它引發了諸如「這合乎道德嗎？」之類的問題。簡短的回答是肯定的，只要你遵循某些做法，但在深入研究之前，我們需要打好基礎。

本文旨在闡明道德網頁抓取的話題，並探討圍繞銷售數據使用公共網路資料開發人工智慧的激烈爭論。在繼續之前，請注意這是一篇資訊文章，並不構成法律建議。

為什麼網頁抓取很重要？
抓取是一種從網路自動收集大規模資料的方法。當今互聯網上大約有2.02 億個活躍網站，每個網站都包含大量資訊以及對個人和企業有價值的各種數據，其範圍難以用語言表達。網站可以是小型旅遊部落格、世界領先的線上市場、或介於兩者之間的任何事物。

所有這些網站都有一個共同點，那就是它們大多數都包含公開資料。以自動化方式收集這些資料符合當前的監管環境，但是，需要滿足某些條件，企業需要謹慎小心地處理公共資料。

組織使用網路抓取或向專門從事網路抓取的資料提供者購買服務。來自網路的大量有價值的數據被用於各種目的，例如：

市場研究
投資見解
人力資源技術
搜尋引擎
價格聚合
威脅情報
如果沒有網頁抓取，一些最常用的服務（例如一些流行的線上搜尋工具）就不會存在。網路抓取在研究領域也有許多應用，例如環境研究。

之前，我指出，獲取公共網路資料必須遵守當前的監管環境以及確保流程和收集資料的整體安全性的原則。然而，有時，網頁抓取也會出現在負面環境中，因為有些情況違反法律和道德原則，或者行為目的是惡意的。

My Board

生成式人工智慧蓬勃發展，如何重新定義網路爬蟲的道德規範

生成式人工智慧蓬勃發展，如何重新定義網路爬蟲的道德規範