以下練習資料集係由政府開放平台 https://data.gov.tw 所下載,此資料集提供自103學年起各學年國民小學名錄資訊,包含地址、電話及網址等資料
步驟一、下載資料集,以113年為例(下載檔案格式,建議為CSV檔或TXT檔為優先選擇)$ wget https://stats.moe.gov.tw/files/school/113/e1_new.csv $ls -al
步驟二、檢視資料集(先觀察資料及欄位,確認是否有異常值或人為備註或說明)
$ head -n 6 e1_new.csv $ tail -n 1 e1_new.csv
步驟三、全台共有多少間私立小學
$ cat e1_new.csv | grep 私立| wc -l
步驟四、轉置檔案(將公私立學校分別存成e113-1.csv, 私立學校存成e113-2.csv)
$ cat e1_new.csv | grep 公立 > e113-1.csv $ cat e1_new.csv | grep 私立 > e113-2.csv
步驟五、列出所有私立小學的名稱及位於那些縣市(學校名稱,縣市)
$ cat e1_new.csv | grep 私立| cut -d',' -f4,2
步驟六、列出金門縣的公立小學名稱及電話、地址(學校名稱,地址,電話; 依第2欄地址排序)
$ cat e1_new.csv | grep 公立|grep 金門縣|cut -d',' -f2,5,6 | sort -t, -k2
大數據分析 , BigData , Linux資料工程
沒有留言:
張貼留言