以下練習資料集係由政府開放平台 https://data.gov.tw 所下載,此資料集是臺中市轄屬非營利幼兒園,主要欄位:編號、District、Name、Tel、Address
步驟一、下載資料集(下載檔案格式,建議為CSV檔或TXT檔為優先選擇)$ wget 'https://datacenter.taichung.gov.tw/swagger/OpenData/fd45a913-ba68-4f92-be2c-e24c1f96ba8b' -O kids.csv $ls -al
步驟二、檢視資料集(先觀察資料及欄位,確認是否有異常值或人為備註或說明)
$ head -n 6 kids.csv $ tail -n 1 kids.csv
步驟三、台中共有多少間非營利幼兒園
$ cat kids.csv |tail -n +2 | wc -l
步驟四、轉置檔案(將清洗後的原始資料檔轉成k113.csv)
$ cat e1_new.csv | tail -n +2 > k113.csv
步驟五、列出由財團法人經營的非營利幼兒園名單
$ cat k113.csv | grep 財團法人
步驟六、列出北屯區非營利幼兒園的名單(幼兒園名稱,地址)
$ cat k113.csv | grep 北屯區 |cut -d',' -f3,5
大數據分析 , BigData , Linux資料工程
沒有留言:
張貼留言