精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
Transwarp

聚類是研究數據間邏輯上或物理上的相互關系的技術,其分析結果不僅可以揭示數據間的內在聯系與區別,還可以為進一步的數據分析與知識發現提供重要依據。在商務上,聚類能幫助市場分析人員從客戶基本庫中發現不同的客戶群,并且用不同的購買模式來刻畫不同的消費群體的特征。目前Transwarp Discover中實現的聚類算法包括:K-means、混合高斯、快速迭代和LDA等,用戶可以根據數據的類型和特點選擇適合的算法進行分析,挖掘出有用的信息。今天我們將要介紹的是如何在Transwarp Discover中使用K-means算法。

K-means介紹

K-means算法是聚類分析中使用最廣泛的算法之一。它把n個對象根據他們的屬性分為k個聚類以便使得聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。基本思想如下:

Transwarp Discover中的K-means算法:txKmeans

Transwarp Discover實現了分布式的K-means算法,名為txKmeans。它通過對輸入文件中的訓練數據進行學習,生成一個kmeans聚類模型, 具體用法見下:

實戰用例

Transwarp Discover可以從HDFS和Transwarp Inceptor中讀取數據。并且可以將數據直接用于txKmeans進行計算,同時Transwarp Discover支持可視化展現,下面以一個簡單數據為例進行演示:

示例代碼:

代碼執行效果如圖。

右圖中,彩色的實心點為數據的散點圖,通過txKmeans計算后得到數據的中心為KPoints,藍色的空心點就是聚類后的中心,該圖清晰的展現了txKmeans的聚類效果。

實際應用

實際生產中,K-means被大量運用的領域之一是電商的商品標簽系統。星環科技在為一家大型旅游產品電商打造旅游線路推薦系統時就用到了K-means算法。這家電商數據庫中有海量景點,打造推薦系統的第一步是將這些景點進行粗略的聚類,為每一類打上標簽,以便下一步的細分。星環科技的系統會從各個景點的描述中獲取主題,例如“人文”、“戶外”、“美食”等等,得到類似下面的數據:

這樣,每個景點對應的數據都可以看做一個高維向量:

上海東方明珠:(1,0,1,0,…)

上海云南路:(1,1,0,1,...)

上海科技館:(1,0,1,0,...)

這些向量可以讓我們將一個個景點看做高維空間中的一個個點。對這些點使用K-means算法,就能夠將描述相近的景點聚在一起,得到初步的景點聚類。接下來,利用Transwarp Discover中的其他機器學習算法,比如Apriori算法、協同過濾等,可以進一步打造旅游線路推薦系統。

想要了解Transwarp Discover中的Apriori算法、協同過濾等算法嗎?請繼續關注我們的Transwarp Discover分布式機器學習算法專題

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
★★★★★ 機器學習十大算法之二 ---- K-means聚類算法
K-MEANS算法
K-mediods聚類算法K_means的改進
數據挖掘聚類算法之K
k
K-means聚類算法采用
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 华容县| 修水县| 新乡市| 松溪县| 金溪县| 江山市| 会宁县| 西昌市| 岱山县| 松潘县| 兴安盟| 周至县| 南丹县| 北川| 伊吾县| 手机| 惠安县| 南和县| 珠海市| 碌曲县| 托克托县| 富民县| 治县。| 利川市| 平山县| 镶黄旗| 静乐县| 林芝县| 连城县| 福州市| 永登县| 怀来县| 泌阳县| 黑河市| 手游| 都昌县| 望奎县| 静宁县| 甘德县| 台南县| 新邵县|