3月 16, 2023

ETL資料處理萃取及載入

星期四, 3月 16, 2023

各位大家好！
今天要與各位分享如何將下載的資料集，在Linux先做簡單的ETL處理(註1），而後再進一步放進Hadoop做數據分析：

註1：ETL，是英文Extract-Transform-Load的縮寫，用來描述將資料從來源端經過萃取（extract）、轉置（transform）、載入（load）至目的端的過程。 ETL一詞較常用在資料倉儲，但其物件並不限於資料倉儲。（以上註1資料來源：維基百科）

步驟一、首先將資料從「開放平台」下載至作業系統上
以美國電影資料集 movies_data.csv 為例，如下：

$ wget https://raw.githubusercontent.com/rohitsden/pig-tutorial/master/movies_data.csv

其他電影資料集二：https://gist.githubusercontent.com/tiangechen/b68782efa49a16edaf07dc2cdaa855ea/raw/0c794a9717f18b094eabab2cd6a6b9a226903577/movies.csv
欄位說明：https://gist.github.com/tiangechen/b68782efa49a16edaf07dc2cdaa855ea

其他電影資料集三： https://raw.githubusercontent.com/fragmadata/MovieDataset/master/movies.csv

政府開放平台資料集：
台灣全國電影院資料集網頁：https://data.gov.tw/dataset/22213
電影片分級及相關資訊：https://data.gov.tw/dataset/59820

步驟二、檢視資料集（先觀察資料及欄位，確認是否有異常值或人為備註或說明）

$ head -n 6 movies_data.csv
$ tail -n 1 movies_data.csv

步驟三、簡易過濾不要的資料，萃取必需的原始資料（Extract）並轉置成檔案（Transform）

$ cat movies_data.csv | grep 'Top Gun' > movies01.csv
$ cat movies_data.csv | grep '2000' > movies2000.csv

註2：關於Linux的grep命令，可以參考「鳥哥的LINUX私房菜」書籍或至「鳥哥私房菜」官網，查詢參數及正規化相關指令的應用。

步驟四、將過濾後的數據資料放到Hadoop

grunt> copyfromlocal movies2000.csv   .
grunt> ls

註3：步驟1~4是屬於ETL，至於儲存到Hadoop的其他方法，會於課堂上分享。

步驟五、再從Hadoop將資料取出，使用分析工具定義數據資料型態

grunt> movies = LOAD 'movies2000.csv'
USING PigStorage(',') AS
(id:int,name:chararray,year:int,rating:float,duration:int);

步驟六、顯示要看的資料筆數「五筆」

grunt> limit5 = LIMIT movies 5;
grunt> dump limit5;

實務操作練習一

實務操作練習二

大數據 , 大數據分析

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

學堂師資介紹

★林葳秦老師-經歷：

經濟部工業局人培案-
AI課程系列-【企業級 Linux 數據資料分析師】指定講師
BI課程系列-【大數據分析與商業智慧】指定講師
聖極五術研究協會-【做自己生命的數據分析師】指定學術講師
清華大學-自強基金會 AI 資料科學家人材養成班-Hadoop講師
中國文化大學-資訊科技認證訓練中心-職訓講師。
銘傳大學產業暨推廣處資訊講師
東海大學推廣教育部 AI課程系列-Python 數據分析講師。

NTC.im-Python 數據資料分析師入門班講師
現任中華聖極五術研究協會-常務理事暨學術講師
靜宜大學-資料科學暨大數據分析應用學系講師
嘉南藥理大學-資訊管理系-開放源碼課程講師
曾任龍華科技大學-文化創意與數位媒體設計系講師。
土芭樂數位學堂-執行長暨講師。

曾任英商傳述公司市場行銷部網站管理主任。
曾任英商傳述公司資訊部 Web Application 程式設計師。
iPresentation 影音站台中心網站管理者。

曾任警政署 SQL Server 指定講師。
曾任中美通電腦顧問公司-系統整合部專案經理。
曾任微軟知識管理課程授課顧問。

曾任北區職訓局人才培訓案講師。

曾任花旗銀行辦公室文書課程指定講師。
曾任巨匠電腦中區專任講師。
曾任巨匠電腦彰化分校兒童電腦暑期夏令營老師。
曾任博士兒兒童電腦資優班老師。
曾任台中市文心國小中高年級電腦課程老師。
曾任台中市潭子國小社團活動電腦課程老師。
土芭樂數位新思路(toBala.Net)站長；
成立土芭樂數位學堂及TW練功坊。

★林宗賢老師-經歷：
靜宜大學-SQLite/SQL Server 應用課程助理教授

中華郵政總局網路作業系統講師

曾任中研院專案工程師

★楊世宏老師-經歷：

光研智能-物聯網大數據分析與應用

AI人工智慧與邊緣運算工程師

文化大學推廣部-金象盃數據分析入門訓練講師

3月 16, 2023

ETL資料處理萃取及載入

沒有留言:

張貼留言

學堂師資介紹

快加入「土芭樂」好友行列

土芭樂網誌清單

文章標籤

發表過的舊文章

推薦閱讀

授權模式

歡迎加入土芭樂的好友行列

推播廣告

Recent Posts

推播廣告

3月 16, 2023

ETL資料處理萃取及載入

沒有留言:

張貼留言

學堂師資介紹

快加入「土芭樂」好友行列

土芭樂網誌清單

文章標籤

發表過的舊文章

推薦閱讀

授權模式

歡迎訂閱

歡迎加入土芭樂的好友行列

推播廣告

Recent Posts

推播廣告