作者 | Don Watkins
譯者 | szcf-weiya ? 共計翻譯:1 篇 貢獻時間:9 天
用於統計技術的 R 專案是分析資料的有力方式,而 RStudio IDE 則可使這一切更加容易。
從我記事起,我就一直喜歡擺弄數字。作為 20 世紀 70 年代後期的大學生,我上過統計學的課程,學習瞭如何檢查和分析資料以揭示其意義。
那時候,我有一部科學計算器,它讓統計計算變得比以往更容易。在 90 年代早期,作為一名從事 t 檢驗、相關性以及 ANOVA[1] 研究的教育心理學研究生,我開始透過精心編寫輸入到 IBM 主機的文字檔案來進行計算。這個主機遠超我的手持計算器,但是一個小的空格錯誤就會導致整個過程無效,而且這個過程仍然有點乏味。
撰寫論文時,尤其是我的畢業論文,我需要一種方法能夠根據我的資料來建立圖表,並將它們嵌入到文書處理檔案中。我著迷於 Microsoft Excel 及其數字運算能力以及可以用計算結果創建出的大量圖表。但這條路每一步都有成本。在 20 世紀 90 年代,除了 Excel,還有其他專有軟體包,比如 SAS 和 SPSS+,但對於我那已經滿滿的研究生時間表來說,學習曲線是一項艱巨的任務。
快速回到現在
最近,由於我對資料科學的興趣濃厚,加上對 Linux 和開源軟體感興趣,我閱讀了大量的資料科學文章,併在 Linux 會議上聽了許多資料科學演講者談論他們的工作。因此,我開始對程式語言 R(一種開源的統計計算軟體)非常感興趣。
起初,這隻是一個偶發的一個想法。當我和我的朋友 Michael J. Gallagher 博士談論他如何在他的 博士論文[2] 研究中使用 R 時,這個火花便增大了。最後,我訪問了 R 專案[3] 的網站,並瞭解到我可以輕鬆地安裝 R for Linux[4]。遊戲開始!
安裝 R
根據你的作業系統和發行版情況,安裝 R 會稍有不同。請參閱 Comprehensive R Archive Network[5] (CRAN)網站上的安裝指南。CRAN 提供了在 各種 Linux 發行版[6],Fedora,RHEL,及其衍生版[7],MacOS[8] 和 Windows[9] 上的安裝指示。
我在使用 Ubuntu,按照 CRAN 的指示,將以下行加入到我的 /etc/apt/sources.list
檔案中:
deb https://
/bin/linux/ubuntu artful/
接著我在終端執行下麵命令:
$ sudo apt-get update
$ sudo apt-get install r-base
根據 CRAN 說明,“需要從原始碼編譯 R 的使用者[如包的維護者,或者任何透過 install.packages()
安裝包的使用者]也應該安裝 r-base-dev
的包。”
使用 R 和 RStudio
安裝好了 R,我就準備瞭解更多關於使用這個強大的工具的資訊。Gallagher 博士推薦了 DataCamp[10] 上的 “R 語言入門”,並且我也在 Code School[11] 找到了適用於 R 新手的免費課程。兩門課程都幫助我學習了 R 的命令和語法。我還參加了 Udemy[12] 上的 R 線上程式設計課程,並從 No Starch 出版社[13] 上購買了 R 之書[14]。
在閱讀更多內容並觀看 YouTube 影片後,我意識到我還應該安裝 RStudio[15]。Rstudio 是 R 語言的開源 IDE,易於在 Debian、Ubuntu、 Fedora 和 RHEL[16] 上安裝。它也可以安裝在 MacOS 和 Windows 上。
根據 RStudio 網站的說明,可以根據你的偏好對 IDE 進行自定義,具體方法是選擇工具選單,然後從中選擇全域性選項。
R 提供了一些很棒的演示例子,可以透過在提示符處輸入 demo()
從控制檯訪問。demo(plotmath)
和 demo(perspective)
選項為 R 強大的功能提供了很好的例證。我嘗試過一些簡單的 vectors[17] 併在 R 控制檯的命令列中繪製,如下所示。
你可能想要開始學習如何將 R 和一些樣本資料結合起來使用,然後將這些知識應用到自己的資料上得到描述性統計。我自己沒有豐富的資料來分析,但我搜索了可以使用的資料集 datasets[18];有一個這樣的資料集(我並沒有用這個例子)是由聖路易斯聯邦儲備銀行提供的 經濟研究資料[19]。我對一個題為“美國商業航空公司的乘客里程(1937-1960)”很感興趣,因此我將它匯入 RStudio 以測試 IDE 的功能。RStudio 可以接受各種格式的資料,包括 CSV、Excel、SPSS 和 SAS。
資料匯入後,我使用 summary(AirPassengers)
命令獲取資料的一些初始描述性統計資訊。按回車鍵後,我得到了 1949-1960 年的每月航空公司旅客的摘要以及其他資料,包括飛機乘客數量的最小值、最大值、四分之一位數、四分之三位數、中位數以及平均數。
我從摘要統計資訊中知道航空乘客樣本的均值為 280.3。在命令列中輸入 sd(AirPassengers)
會得到標準偏差,在 RStudio 控制臺中可以看到:
接下來,我生成了一個資料直方圖,透過輸入 hist(AirPassengers);
得到,這會以圖形的方式顯示此資料集;RStudio 可以將資料匯出為 PNG、PDF、JPEG、TIFF、SVG、EPS 或 BMP。
除了生成統計資料和圖形資料外,R 還記錄了我所有的歷史操作。這使得我能夠傳回先前的操作,並且我可以儲存此歷史記錄以供將來參考。
在 RStudio 的指令碼編輯器中,我可以編寫我發出的所有命令的指令碼,然後儲存該指令碼以便在我的資料更改後能再次執行,或者想重新訪問它。
獲得幫助
在 R 提示符下輸入 help()
可以很容易找到幫助資訊。輸入你正在尋找的資訊的特定主題可以找到具體的幫助資訊,例如 help(sd)
可以獲得有關標準差的幫助。透過在提示符處輸入 contributors()
可以獲得有關 R 專案貢獻者的資訊。您可以透過在提示符處輸入 citation()
來瞭解如何取用 R。透過在提示符出輸入 license()
可以很容易地獲得 R 的許可證資訊。
R 是在 GNU General Public License(1991 年 6 月的版本 2,或者 2007 年 6 月的版本 3)的條款下釋出的。有關 R 許可證的更多資訊,請參考 R 專案官網[20]。
另外,RStudio 在 GUI 中提供了完美的幫助選單。該區域包括 RStudio 快捷表(可作為 PDF 下載),RStudio[21]的線上學習、RStudio 檔案、支援和 許可證資訊[22]。
via: https://opensource.com/article/18/2/getting-started-RStudio-IDE
作者:Don Watkins[24] 譯者:szcf-weiya 校對:wxy
本文由 LCTT 原創編譯,Linux中國 榮譽推出