土芭樂數位學堂

BigData 大數據分析、資訊技術的分享, TiddlyWiki教學, Google 服務應用教學, 3D列印創意思維

5月 24, 2023

網工篇:網工班作業解答

星期三, 5月 24, 2023

以下是 5/13 網工班作業解答:


3月 20, 2023

大數據程式設計

星期一, 3月 20, 2023

資料工程精鍊(數據分析的基本技能)

 一、Linux 資料處理基礎命令 (wget, cat, head, tail, unzip, grep, sort, cut)

二、Open Data 資料處理 (Bash Script程式)

三、ELT 實例操作 (一)

四、ELT 實例操作 (二)

 期中考 (Open Data ELT)


大數據分析工具與資料科技平台

五、HDFS命令與ETL

六、Hadoop資料分析工具語言




3月 18, 2023

網路作業系統

星期六, 3月 18, 2023
網路作業系統
講義下載點:請按此下載
請將講義第25頁的練習題做完,
有空請多花點時間先練習基礎I基礎II講義內容。

3月 16, 2023

ETL資料處理萃取及載入

星期四, 3月 16, 2023
各位大家好!
今天要與各位分享如何將下載的資料集,在Linux先做簡單的ETL處理(註1),而後再進一步放進Hadoop做數據分析:

註1:ETL,是英文Extract-Transform-Load的縮寫,用來描述將資料從來源端經過萃取(extract)、轉置(transform)、載入(load)至目的端的過程。 ETL一詞較常用在資料倉儲,但其物件並不限於資料倉儲。(以上註1資料來源:維基百科

步驟一、首先將資料從「開放平台」下載至作業系統上
以美國電影資料集 movies_data.csv 為例,如下:
$ wget https://raw.githubusercontent.com/rohitsden/pig-tutorial/master/movies_data.csv


其他電影資料集二:https://gist.githubusercontent.com/tiangechen/b68782efa49a16edaf07dc2cdaa855ea/raw/0c794a9717f18b094eabab2cd6a6b9a226903577/movies.csv
欄位說明:https://gist.github.com/tiangechen/b68782efa49a16edaf07dc2cdaa855ea

其他電影資料集三: https://raw.githubusercontent.com/fragmadata/MovieDataset/master/movies.csv

政府開放平台資料集:
台灣全國電影院資料集網頁:https://data.gov.tw/dataset/22213
電影片分級及相關資訊:https://data.gov.tw/dataset/59820

步驟二、檢視資料集(先觀察資料及欄位,確認是否有異常值或人為備註或說明)
$ head -n 6 movies_data.csv
$ tail -n 1 movies_data.csv


步驟三、簡易過濾不要的資料,萃取必需的原始資料(Extract)並轉置成檔案(Transform

$ cat movies_data.csv | grep 'Top Gun' > movies01.csv
$ cat movies_data.csv | grep '2000' > movies2000.csv


註2:關於Linux的grep命令,可以參考「鳥哥的LINUX私房菜」書籍或至「鳥哥私房菜」官網,查詢參數正規化相關指令的應用。

步驟四、將過濾後的數據資料放到Hadoop

grunt> copyfromlocal movies2000.csv   .
grunt> ls


註3:步驟1~4是屬於ETL,至於儲存到Hadoop的其他方法,會於課堂上分享。

步驟五、再從Hadoop將資料取出,使用分析工具定義數據資料型態

grunt> movies = LOAD 'movies2000.csv'
USING PigStorage(',') AS
(id:int,name:chararray,year:int,rating:float,duration:int);


步驟六、顯示要看的資料筆數「五筆」

grunt> limit5 = LIMIT movies 5;
grunt> dump limit5;




實務操作練習一

實務操作練習二

11月 29, 2022

雲端與SRE網站可靠性工程師班-第7梯招生中

星期二, 11月 29, 2022



目前企業數位轉型具有科技密度高的特質,在實際運作上需透過 SRE (Site Reliability Engineering) 團隊來執行,透過本課程的訓練讓學員具備從多雲系統基礎建設以及維運觀點來 強化企業應用系統,更進一步做到健全的架構設計以利實踐 DevOps 快速迭代以及高可靠度 (HighAvailability) 的平台。
歡迎有志成為SRE網站可靠性工程師工作者報名參加 !!

課程內容涵蓋: 
多雲系統基礎概論與技術養成 
多雲系統核心虛擬技術 
Container及Kubernetes 關鍵技術與實務應用 
資訊科技(Information Technology) 核心技術養成 
資料科技 (Data Technology) 核心系統養成 
資料科技分析語言與工具 (Hive, Zeppelin,Spark) 
專題製作 / 專題演講 
就業輔導及人才媒合

詳情請見報名網站:https://mymcu.mcu.edu.tw/zh-hant/product/c042212011 

10月 20, 2021

數據競賽集訓

星期三, 10月 20, 2021

 一、認識資料科技平台

當「資訊科技 IT(Information Technology)時代」走向「資料科技 DT(Data Technology)時代」。 DT 時代運算躍升新經濟主流,運算不在只有價值還能變服務!

二、Hadoop系統架構介紹

講義2-HDFS

三、數據分析新手入門


四、統計與條件判斷

五、題型研究與解題技巧


相關文章:

補充資料:
練習資料集下載

9月 06, 2021

安裝與設定 ssh server

星期一, 9月 06, 2021

ㄧ. 何謂SSH?

SSH 使用非對稱式加密來為資料流加密。它讓我們在與遠端伺服器連線時,能夠先將訊息加密過後再傳送,並且確保只有「被認可的人」才能夠解密訊息。因此,就算是在一個不安全的網絡裡面,SSH 都能夠確保連線不被竊聽。

二. 那什麼又是對稱式與非對稱式加密?

在基礎密碼學中,有兩種加解密方式,分別式「對稱式加密(Symmetric Encryption)」與「非對稱式加密(Asymmetric Encryption)」。

  • 對稱式加密:傳送方與接收方的加解密皆使用同一把密鑰
  • 非對稱式加密:每個使用者都擁有一對金鑰:私鑰拿來做電子簽名與解密(任何你收到的加密文件),公鑰用來讓別人確認你的簽名的正確性(證明人家收到的,有你的簽名的東西真的是你傳的),還有讓別人將東西加密成只有你自己能(使用私鑰)解密的檔案。

三、如何在Ubuntu安裝SSH Server?

要安裝 ssh server, 以下兩行指令都可以

$ apt-get install ssh 

$ apt-get install openssh-server


安裝後可以修改一些 ssh 的設定, 如port, 密碼認證, root登入等

$ nano /etc/ssh/sshd_config

Port 22

PasswordAuthentication yes

PermitRootLogin yes -> 是否開放 root 登入


更改完存檔後記得重啟服務

$ /etc/init.d/ssh restart


8月 25, 2021

關於 passwd 變更使用者密碼

星期三, 8月 25, 2021

一般的使用者執行 passwd 即可變更自己的密碼:



 而變更密碼之前,必須先輸入現行密碼:

正在變更 jenif66 的密碼。
(目前的)UNIX 密碼: 
輸入新的 UNIX 密碼: 
再次輸入新的 UNIX 密碼: 
passwd:密碼已成功地變更

如果是 root 管理者的話,可以變更任何使用者的密碼:



而且不需要輸入該使用者的現行密碼:

輸入新的 UNIX 密碼: 
再次輸入新的 UNIX 密碼: 
passwd:密碼已成功地變更

如果變更 root 管理者的密碼,就跟一般使用者一樣直接執行 passwd 即可。

多雲系統基礎概論

星期三, 8月 25, 2021

8月 21, 2021

網工篇:網路設備介紹

星期六, 8月 21, 2021
Collision Domain是乙太網路的專用術語
何謂碰撞領域(Collision Domain)?
何謂碰撞:當兩台電腦,同時搶用共用的媒體,即會產生碰撞。
傳輸封包產生碰撞的區域稱為碰撞領域。

如何降低碰撞問題?
1.CSMA/CD(載波感測多重存取碰撞偵測)。
在同一個Collision Domain中, 任何一台設備若要在此Domain中傳送網路封包時, 必須遵循傳輸的約定, 先聽聽看網路上是否有其他設備正在使用網路, 若有, 則該設備需要進行等待, 其遵守之規範稱為CSMA/CD.
2.用好一點的網路裝置設備。

何謂廣播風暴(Broadcast Storm)?
起因是因為廣播及多播訊號的纍積,佔用大量的網路頻寬而使正常網路信號無法流通。
一般來說,廣播風暴大多是因為配線錯誤,使網路造成迴路而引起。
如何降低廣播領域的範圍,以減少廣播風暴發生?
1.更新設備。
2.切割子網路。

網路裝置介紹:
一、集線器(Hub)
最主要的功能便是匯集所有區域網路中的電腦,使各分枝電腦可連接到網路主幹上,一般來說,只具備基本功能的集線器在傳輸品質上較不穩定,因為當區域網路內部在作資料的流動傳輸時,會影響到其它電腦連接到主幹網路上的傳輸速率。相對的,當越多人同時透過Hub上網時,各自的傳輸都會被拖累(要記住 :HUB 對於頻寬是 "搶佔式", 會有電腦只搶到一點頻寬, HUB 不會平均分配頻寬)。 一開始的 Hub 就是在 physical layer repeaters 的加強,只做線的連結溝通後來功能越來越強才變成 switch。如果好幾個網路距離超過 100公尺要連起來,就需要一個更厲害的 hub 連起來但這樣的連結是沒有必要的,有時候可能只是兩個 hub 間要溝通,卻將 3、4 個 hub 集合在一起,徒增 collision 造成效率低下,發展到後面大部面的 hub 都已被 switch 所取代。 重點:Hub無法避免碰撞的發生。 Hub只會將資料通通廣播出去,沒有MAC addr. Table,而Switch有。

二、Bridges(橋接器) 最早期是為解決網路塞車的裝置為了合理限制網路訊號的傳送, 我們會使用橋接器 (Bridge) 適當地切割網路。以橋接器的功能來看, 可對應到 OSI 模型中的鏈結層 (Data Link Layer) 中。 Bridge 會依照封包前面的MAC(Media Acess Control)標頭的內容來判斷封包的傳送目的地,然後進行轉送動作.一般所稱的Layer 2交換器(L2交換器)或交換器(switch),交換式集線器(Switching Hub)就屬此類.

三、交換器 (Layer 2 Switch) 屬於鏈結層 (Data Link Layer) 的設備, 又稱為交換式集線器 (Switching Hub) 或多埠橋接器 (Multi-port Bridge),因為它同時具備了集線器和橋接器的功能。Switch Hub 比一般 Hub 多的功能,最少它要聰明地學習每個 Port 對應的 Mac address。 注意1:Switch 與 Hub 比較 Hub 在多人連結時上網頻寬是也是搶佔式頻寬,但 switch Hub 是看誰有需要才給他頻寬。 也就是 Hub 很像是廣撥方式傳遞訊息;而 switch Hub 是直接傳到想要的那台主機^^ 總之,Switch HUB,比 HUB 更有安全性,減少封包碰撞,傳輸更有效率。

注意2:Switch 比 Bridge 好的原因如下:
  1. 功能性較 Bridge 強
  2. 更多的 Port 且種類也多
  3. 更大的緩衝區
  4. 在頻寬的分配上更有效率
  5. 可以避免碰撞的發生
  6. 可進行多路通訊
  7. 全雙工通訊
  8. 不同 port 可以使用不同速率傳輸


四、Router(路由器) 會依照資料傳輸等級的通訊協定的標頭內容來判斷傳送目的地。以TCP/IP協定為例,會依照IP標頭的內容來判斷封包的傳送目的地。 Router又稱為路由器或IP分享器或寬頻分享器(俗稱),IP分享只是 ROUTER 的其中一項功能(NAT),一般來說 ROUTER 更建有強大的防火牆,以及許多的設定功能,因為這也是可以用來管控網路的機器。 最後,推薦一個資料非常詳細的網站給同學:站名:超越LAN之外 --- Internetworking
接著溫故知新,複習一下:=============================================================
第一層:
中繼器(Repeater):
加強訊號用。
集線器(Hub):
連接多條網路線;
Ethernet裡,Hub也有Repeater的功能,所以又稱MultiPort Repeater。

第二層:
橋接器(Bridge):
會依MAC位址來有效傳遞封包。遇到廣播封包就放任轉送。
第二層交換器(L2 Switch):
多Port的橋接器,具備Bridge與Hub的功能,又稱MultiPort Bridge。

第三層:
路由器(Router):
會分析IP來有效傳遞封包,跨LAN選擇較佳路徑。會阻擋廣播封包,提升網路效率。
具備強悍的網管功能(ex:安全管理、WAN連接、優先權控制、支援多種封包協定...)。
第三層交換器(L3 Switch):
擁有跨LAN選擇路徑能力的Switch;
但不具備強悍的網管功能,所以通常與Router配合使用。