如何在notebook使用FiftyOne 可以開啟notebook?
FiftyOne是一個開源的可視化數(shù)據(jù)集分析工具,最近添加了Jupyter notebook支持,該功能是我實現(xiàn)的,并且是其技術主管。
完成后,我著手撰寫一篇文章,描述此功能的重要性——為什么自動屏幕截圖非常適合與他人共享你的視覺發(fā)現(xiàn),為什么將代碼及其通常的視覺輸出放在一個地方對于CV / ML如此重要,以及如何在notebook使用FiftyOne 可以開啟notebook為CV / ML工程師和研究人員建立的更多范例。
本文希望做到所有這些事情,但從本質上講,當我了解科學notebook的歷史時,它也朝著另一個方向發(fā)展。從科學研究本身開始的歷史。FiftyOne希望以此為基礎。CV / ML社區(qū)需要比Jupyter Notebook更多的東西來進行視覺研究和分析。
本文的最后一部分是在notebook中使用FiftyOne的分步指南,可幫助你發(fā)現(xiàn)可視數(shù)據(jù)集的問題。整個部分也可以通過Google的Colab找到。
Google’s Colab:https://colab.research.google.com/github/voxel51/fiftyone-examples/blob/master/examples/digging_into_coco.ipynb
我們將看到如何用很少的代碼行來確認圖像檢測模型的常見故障模式并識別注釋錯誤,同時在每一步的結果可視化的同時。但是在此之前,我會解釋為什么CV / ML社區(qū)需要比Jupyter Notebook更多的東西來進行視覺研究和分析?茖W狀態(tài)科學論文的協(xié)同效率已經(jīng)到達了瓶頸。
2018年4月,《大西洋》發(fā)表了一篇文章,宣布我們所知道的科學論文已經(jīng)過時。實際上,這可能只是一個故意的預測,或者至少是互聯(lián)網(wǎng)毫不客氣的一種夸張說法。但是它勾勒出的科學出版歷史是無可爭議的。
在科學論文創(chuàng)建近400年之后,其協(xié)作效率已達到瓶頸。大量的科研人員在闡述該文章時取得了穩(wěn)定的進步。現(xiàn)在已不適合時代,F(xiàn)在,成百上千的研究人員在一個領域發(fā)表論文,而不是幾十人。結果往往不再是手工計算,而是由計算機、軟件和曾經(jīng)難以理解的數(shù)據(jù)集來計算。由于這種論文發(fā)表的規(guī)模,可重復性現(xiàn)在比以往任何時候都變得更加重要。但通常情況下,為使研究人員能夠重現(xiàn)自己的研究成果而采取的措施是不夠的。通常情況下,提供的代碼和數(shù)據(jù)是不完整的,如果提供了代碼和數(shù)據(jù),并且使用豐富的動態(tài)可視化語言描述復雜思想,這種動態(tài)可視化語言是用抽象的語言和簡化的靜態(tài)圖表來描述的。共享研究的方式與完成研究的方式不再匹配。
Wolfram的圍墻花園
現(xiàn)代研究的計算復雜性和規(guī)模一直是科學進步和技術創(chuàng)新的福音。與科學研究論文的頑固形式(即PDF)并列在一起,幾十年來,這也是一個公認的問題。不過,一個解決方案已經(jīng)存在了數(shù)十年。一種以相同方式甚至相同形式完成研究并共享的解決方案。該解決方案誕生于1988年,當時由史蒂芬·沃爾夫拉姆(Steven Wolfram)創(chuàng)立的沃爾夫拉姆研究中心(Wolfram Research)發(fā)布了Mathematica,成為了計算的“notebook” 。該界面由西奧多·格雷(Theodore Gray)牽頭,由早期的蘋果代碼編輯器提供了信息,并且部分由史蒂夫·喬布斯(Steve Jobs)協(xié)助制定。
Wolfram Mathematica的版本1,于1988年發(fā)布。由Stephen Wolfram Blog提供。三十多年來,Mathematica一直在增加它可以為你解答的問題,可以可視化數(shù)據(jù)的數(shù)字方式以及可以使用的數(shù)據(jù)量。但是,自推出的第一個十年以來,增長一直很緩慢。許可證價格昂貴,發(fā)布商不想使用它們,而Mathematica支持的功能始于Wolfram Research。這是一個美麗而功能強大的圍墻花園(Walled Garden)。
Python,Jupyter
隨著Mathematica繼續(xù)朝著追求完美的方向前進,2001年初,物理學專業(yè)的研究生FernandoPérez發(fā)現(xiàn)自己對自己的研究能力已經(jīng)感到厭倦,即使Mathematica任其支配也是如此。在《大西洋彼岸一書中,他迷上了新的編程語言Python,并在另外兩名研究生的幫助下開始了一個名為IPython的項目,即 Jupyter 項目的基礎。Jupyter并非在“技術層面”上而是在“社會層面”上勝過Mathematica。如今,Jupyter Notebook電腦的核心是Jupyter Notebook電腦。像Mathematica一樣*,* Jupyter Notebook鼓勵科學探索。但是與Mathematica不同*,它是任何人都可以貢獻的開源項目。Jupyter并非在“技術層面”上而是在“社會層面”上勝過Mathematica*,正如諾貝爾獎獲得者Paul Romer所指出的那樣。Jupyter Notebooks的形式由活躍的開發(fā)人員和用戶社區(qū)決定。計算機視覺領域完全屬于科學研究領域。多年來,學術界和行業(yè)研究人員都在Jupyter Notebook電腦中發(fā)現(xiàn)了難以置信的價值。單個數(shù)據(jù)片段通常是圖像和視頻本身,需要對其進行查看和觀看。notebook電腦提供了?晒蚕淼目梢暬枰蚕怼otebook電腦提供了。Jupyter的開放生態(tài)系統(tǒng)允許開發(fā)人員輕松添加任何缺失的集成。
TensorBoard可以嵌入Jupyter Notebook中,用于對象檢測實驗。像matplotlib和opencv這樣的軟件包可用于顯示需要檢查的圖像和視頻。在訓練機器學習模型時,類似tensorboard的軟件包會提供示例可視化,將圖像檢查擴展到實驗跟蹤的范圍內。matplotlib,opencv,tensorboard,和其他無數(shù)Python包與可視化功能都可以在Jupyter Notebook電腦中使用。理解數(shù)據(jù)質量需要對數(shù)據(jù)趨勢有深刻的了解。但是,在CV / ML中,使用Jupyter Notebook時仍然存在一個明顯的問題。數(shù)據(jù)質量對于構建出色的模型至關重要。要了解數(shù)據(jù)質量,就需要對數(shù)據(jù)趨勢進行明智的了解。僅僅看一個甚至十幾個圖像幾乎總是不足以了解模型的性能和故障模式。此外,在ground truth或gold standard標簽中識別可能只在1,000張甚至100,000張圖像中出現(xiàn)的單個錯誤,需要對數(shù)據(jù)集進行快速切片和切割,以縮小問題范圍。從根本上說,目前還缺乏能夠自然地處理notebook中可視化數(shù)據(jù)集的工具來解決這類問題。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月20日火熱報名中>> 2024 智能家居出海論壇
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市