今天早上六點半左右微信群裡就看到張隊發的關於.NET Spark大資料的連結https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/ ,正印證了“微軟在不斷透過.NET Core補齊各領域開發,真正實現一種語言的跨平臺”這句話。那麼我們今天就來看看這個 .NET for Apache Spark到底是個什麼鬼?
作者:依樂祝
原文連結:https://www.cnblogs.com/yilezhu/p/10767910.html
什麼是.NET for Apache Spark?
我們都知道Spark是一種流行的開源分散式處理引擎,適用於大型資料集(通常是TB級別)的分析。Spark可用於處理批次資料,實時流,機器學習和即時查詢。處理任務分佈在一個節點叢集上,資料被快取在記憶體中,以減少計算時間。到目前為止,Spark已經可以透過Scala,Java,Python和R訪問,卻不能透過.NET進行訪問。
而.NET for Apache Spark就是旨在使.NET開發人員可以跨所有Spark API訪問Apache®Spark™。
.NET for Apache Spark為C#和F#提供了高效能的API來操作Spark。使用這個.NET API,您可以訪問Apache Spark的所有功能,包括SparkSQL、DataFrames、流、MLLib等等。.NET for Apache Spark允許您重用作為.NET開發人員已經擁有的所有知識、技能、程式碼和庫。
C#/F#語言系結到Spark將被寫入一個新的Spark互動層,這提供了更容易的擴充套件性。這一新的Spark互動層的編寫考慮了語言擴充套件的最佳實踐,並針對互動和效能進行了最佳化。長期來看,這種擴充套件性可以用於在Spark中新增對其他語言的支援。
.NET for Apache Spark符合.NET Standard 2.0標準,可以在Linux、MacOS和Windows上使用。
官網地址:https://dotnet.microsoft.com/apps/data/spark
快速開始.NET for Apache Spark
在本節中,我們將展示如何在Windows上使用.NET Core執行.NET for Apache SPark應用程式。
在開始使用.NET for Apache Spark之前,確實需要安裝一些東西,如:.NET Core 2.1 SDK | Visual Studio 2019 | Java 1.8 | Apache Spark 2.4.x。具體步驟可以參考這些步驟開始.net for Apache SPark。
一旦安裝完畢,您就可以用三個簡單的步驟開始在.NET中編寫Spark應用程式。
在我們的第一個.NET Spark應用程式中,我們將編寫一個基本的Spark pipeline,它將統計文字段中每個單詞的出現次數。
// 1. Create a Spark session
var spark = SparkSession
.Builder()
.AppName("word_count_sample")
.GetOrCreate();
// 2. Create a DataFrame
DataFrame dataFrame = spark.Read().Text("input.txt");
// 3. Manipulate and view data
var words = dataFrame.Select(Split(dataFrame["value"], " ").Alias("words"));
words.Select(Explode(words["words"])
.Alias("word"))
.GroupBy("word")
.Count()
.Show();
.NET For Apache Spark的特點
可以用C#或者F# 進行Apache Spark開發
.NET for Apache Spark 為您提供了使用 C# 和F# 來操作Apache Spark的APIs。使用這些.NET API,您可以訪問Apache Spark的所有功能,包括Spark SQL,用於處理結構化資料和Spark流。
高效能
第一版的.NET for Apache Spark在流行的TPC-H基準效能測試中的表現就很優異。TPC-H基準效能測試由一組面向業務的查詢組成。下圖展示了.NET Core與Python和Scala在TPC-H查詢集上的效能比較。
上面的圖表顯示了相對於Python和Scala,.NET對於Apache Spark的每個查詢效能對比。NET for Apache Spark在Python和Scala上表現良好。此外,在UDF效能至關重要的情況下,比如查詢1,JVM和CLR.NET之間傳遞3B行非字串資料的速度比Python快2倍。
同樣重要的是,這是.NET for Apache Spark的第一個預覽版,我們的標的是進一步投資於改進和基準測試效能(例如,Arrow最佳化)。您可以按照我們的指示在我們的GitHub倉儲上對此進行基準測試。
利用.NET生態系統
.NET For Apache Spark允許您重用作為.NET開發人員已經擁有的所有知識、技能、程式碼和庫。
您的資料處理程式碼還可以利用.NET開發人員可以使用的大型庫生態系統,如Newtonsoft.Json,ML.NET、MathNet.NDigics、NodaTime等。
跨平臺
.NET for Apache Spark可以在Linux、MacOS和Windows上使用,就像.NET的其他部分一樣。
.NET for Apache Spark在Azure HDInsight中預設可用,可以安裝在Azure Databricks、Azure Kubernetes服務、AWS資料庫、AWS EMR等中。
開源免費
.NET for Apache Spark是一個擁有來自3,700多家企業的60,000多名程式碼貢獻者的強大開源社群的一部分。
.NET是免費的,其中包括用於 .NET for Apache Spark。沒有任何費用或許可證費用,包括用於商業用途的費用。
.NET For Apache Spark的下一步計劃
今天是我們旅程的第一步。以下是我們近期路線圖的一些特點。
- 簡化入門經驗、檔案和示例
- 原生整合到開發人員工具中,如VisualStudio、VisualStudio Code、木星筆記本
- .net對使用者定義的聚合函式的支援
- NET的C#和F#的慣用API(例如,使用LINQ編寫查詢)
- 用Azure資料庫、Kubernetes等提供的開箱即用的支援。
- 使.NET for Apache Spark成為Spark Core的一部分。
總結
.NET for Apache Spark是微軟使.NET成為構建大資料應用程式的偉大技術棧的第一步。
想瞭解更多資訊的可以訪問.NET for Apache Spark的github倉儲:https://github.com/dotnet/spark 。
最後,感謝您的閱讀。
本文內容,部分參考自:https://devblogs.microsoft.com/dotnet/introducing-net-for-apache-spark/
朋友會在“發現-看一看”看到你“在看”的內容