波多野结衣在线,久久久久看片,毛片在线能看

[置頂]Java反編譯工具 Eclipse Class Decompiler 2.10 已發布，支持多種反編譯器

Eclipse Class Decompiler是一款Eclipse插件，整合了多種反編譯器，和Eclipse Class Viewer無縫集成，能夠很方便的使用插件查看類庫源碼，進行Debug調試。
同時還提供了在線自動查找源代碼，查看Class二進制字節碼的功能。

Eclipse Class Decompiler對JDK的最低要求為JDK1.6, 能反編譯和debug各版本的Class文件，支持JDK8的Lambda語法，同時支持中文等非Ascii碼字符集的解析，支持Eclipse 3.6及以上所有版本的Eclipse。

本插件支持Windows，Linux，Macosx 32位及64位操作系統。

Github項目地址為：https://github.com/cnfree/Eclipse-Class-Decompiler

請通過以下地址選擇一個可用的源在線安裝：

http://cnfree.github.io/Eclipse-Class-Decompiler/update
http://raw.githubusercontent.com/cnfree/eclipse/master/decompiler/update/
http://www.cpupk.com/decompiler/update/

離線包下載地址：

https://github.com/cnfree/Eclipse-Class-Decompiler/releases/download/v2.10.0/eclipse-class-decompiler-update_v2.10.0.zip

插件使用說明：

下圖為Eclipse Class Decompiler的首選項頁面，可以選擇缺省的反編譯器工具，并進行反編譯器的基本設置。缺省的反編譯工具為JD-Core，JD-Core更為先進一些，支持泛型、Enum、注解等JDK1.5以后才有的新語法。

首選項配置選項：
1.重用緩存代碼：只會反編譯一次，以后每次打開該類文件，都顯示的是緩存的反編譯代碼。
2.忽略已存在的源代碼：若未選中，則查看Class文件是否已綁定了Java源代碼，如果已綁定，則顯示Java源代碼，如果未綁定，則反編譯Class文件。若選中此項，則忽略已綁定的Java源代碼，顯示反編譯結果。
3.顯示反編譯器報告：顯示反編譯器反編譯后生成的數據報告及異常信息。
4.使用Eclipse代碼格式化工具：使用Eclipse格式化工具對反編譯結果重新格式化排版，反編譯整個Jar包時，此操作會消耗一些時間。
5.使用Eclipse成員排序：使用Eclipse成員排序對反編譯結果重新格式化排版，反編譯整個Jar包時，此操作會消耗大量時間。
6.以注釋方式輸出原始行號信息：如果Class文件包含原始行號信息，則會將行號信息以注釋的方式打印到反編譯結果中。
7.根據行號對齊源代碼以便于調試：若選中該項，插件會采用AST工具分析反編譯結果，并根據行號信息調整代碼順序，以便于Debug過程中的單步跟蹤調試。
8.設置類反編譯查看器作為缺省的類文件編輯器：默認為選中，將忽略Eclipse自帶的Class Viewer，每次Eclipse啟動后，默認使用本插件提供的類查看器打開Class文件。

插件提供了系統菜單，工具欄，當打開了插件提供的類反編譯查看器后，會激活菜單和工具欄選項，可以方便的進行首選項配置，切換反編譯工具重新反編譯，以及導出反編譯結果。

類反編譯查看器右鍵菜單包含了Eclipse自帶類查看器右鍵菜單的全部選項，并增加了一個“導出反編譯源代碼”菜單項。

打開項目路徑下的Class文件，如果設置類反編譯查看器為缺省的查看器，直接雙擊Class文件即可，如果沒有設置為缺省查看器，可以使用右鍵菜單進行查看。

同時插件也支持直接將外部的Class文件拖拽到Eclipse編輯器中進行反編譯。

Eclipse Class Decompiler插件也提供了反編譯整個Jar文件或者Java包的反編譯。該操作支持Package Explorer對包顯示布局的操作，如果是平鋪模式布局，則導出的源代碼不包含子包，如果是層級模式布局，則導出選中的包及其所有的子包。

Debug調試：可以在首選項選中對齊行號進行單步跟蹤調試，和普通的包含源代碼時的調試操作完全一致，同樣的也可以設置斷點進行跟蹤。當透視圖為Debug時，插件自動生成行號并進行對齊方便調試代碼，無需進行任何設置。

博文地址：http://www.aygfsteel.com/cnfree/archive/2012/10/30/390457.html

posted @ 2016-05-13 14:23 三人行，必有我師焉閱讀(1337) | 評論 (5) | 編輯收藏

[置頂]Java應用定制工廠--定制你自己的Java桌面程序

摘要: Java應用定制工廠（以下簡稱為JCB，Java Customization Builder）是一個針對Java輕量級桌面應用進行精簡優化的小工具，使用它可以精簡你的jar包，并自動生成一個精簡的JRE，也可以使用它生成一個Exe啟動引導程序，并且能夠對你的Java應用自動做Pack200和Unpack200處理。使用本工具定制的Java桌面應用通常不會超過10M（包含JRE），SWT客戶端程序相對于Swing客戶端程序更小，一般不會超過5M。閱讀全文

posted @ 2011-12-12 16:27 三人行，必有我師焉閱讀(6262) | 評論 (12) | 編輯收藏

怎么一鍵批量刪除PDF中的圖片水印？

摘要: 很多網上下載的PDF文件都包含各種形式的水印，本文主要闡述如何使用易轉換一鍵刪除PDF文件中的各種圖片水印和文字水印閱讀全文

posted @ 2021-03-09 20:29 三人行，必有我師焉閱讀(451) | 評論 (0) | 編輯收藏

【原創】使用Scala IDE編譯Spark源代碼

Spark源代碼下載地址： http://spark.apache.org/downloads.html

下載后，直接用 Scala IDE 通過已存在的項目導入到Eclipse workspace中去，然后Eclipse會自動進行編譯。第一次編譯會報很多錯誤，不過總的來說，導致編譯錯誤的源頭有三個：
1、Scala編譯器版本錯誤
2、Eclipse Maven插件不能自動識別spark project的一些pom，報Plugin execution not covered by lifecycle configuration異常
3、一些項目，maven會自動生成scala和java文件，但是這些自動生成的代碼文件沒有配置在eclipse項目的classpath里。

針對第一種錯誤，比較簡單，對于每個scala項目，右鍵屬性選擇spark對應的scala編譯器版本。

當然spark代碼里的項目有幾十個，只能手工一個個設置了，比較傻，沒辦法，還不停的彈出對話框，不停地回車吧。

編譯的難點主要在第二種錯誤上，比如spark-sql項目的pom, 里面有個build-helper-maven-plugin，它下面的execution，eclipse maven插件無法識別，報Plugin execution not covered by lifecycle configuration異常，解決方案參見 https://www.eclipse.org/m2e/documentation/m2e-execution-not-covered.html，先使用 Eclipse quick-fix選項自動修復，忽略此 maven goal，Eclipse 會為 pom.xml自動添加一段xml代碼，包含在 pluginManagement section中，里面有一段 <action><ignore/></action>，此處手動修改成

<action>
  <execute>
  <runOnIncremental>false</runOnIncremental>
    </execute>
</action>

然后右鍵 maven update project 就OK了。

一共有5個project需要修改pom，如圖

修改pom后重新編譯，依舊會報一些錯誤，這些錯誤都是由于maven自動生成的java和scala代碼沒有添加到classpath里導致的編譯錯誤，只需要手工添加一下即可，需要手工添加項目有 spark-streaming-flume-sink 的 src_managed\main\compiled_avro 目錄和 spark-sql 項目的 test\gen-java 目錄。

全部編譯好以后的截圖：

修改完以后，Spark代碼全部編譯下來大概耗時25分鐘左右（CPU 雙核 I7 4600）

原文地址：http://www.aygfsteel.com/cnfree/archive/2016/11/08/431965.html

posted @ 2016-11-08 13:12 三人行，必有我師焉閱讀(2265) | 評論 (0) | 編輯收藏

轉：Spark知識體系完整解讀

　　Spark簡介

　　Spark是整個BDAS的核心組件，是一個大數據分布式編程框架，不僅實現了MapReduce的算子map 函數和reduce函數及計算模型，還提供更為豐富的算子，如filter、join、groupByKey等。是一個用來實現快速而同用的集群計算的平臺。

　　Spark將分布式數據抽象為彈性分布式數據集（RDD），實現了應用任務調度、RPC、序列化和壓縮，并為運行在其上的上層組件提供API。其底層采用Scala這種函數式語言書寫而成，并且所提供的API深度借鑒Scala函數式的編程思想，提供與Scala類似的編程接口

　　Sparkon Yarn

　　從用戶提交作業到作業運行結束整個運行期間的過程分析。

　　一、客戶端進行操作

根據yarnConf來初始化yarnClient，并啟動yarnClient
創建客戶端Application，并獲取Application的ID，進一步判斷集群中的資源是否滿足executor和ApplicationMaster申請的資源，如果不滿足則拋出IllegalArgumentException；
設置資源、環境變量：其中包括了設置Application的Staging目錄、準備本地資源（jar文件、log4j.properties）、設置Application其中的環境變量、創建Container啟動的Context等；
設置Application提交的Context，包括設置應用的名字、隊列、AM的申請的Container、標記該作業的類型為Spark；
申請Memory，并最終通過yarnClient.submitApplication向ResourceManager提交該Application。

　　當作業提交到YARN上之后，客戶端就沒事了，甚至在終端關掉那個進程也沒事，因為整個作業運行在YARN集群上進行，運行的結果將會保存到HDFS或者日志中。

　　二、提交到YARN集群，YARN操作

運行ApplicationMaster的run方法；
設置好相關的環境變量。
創建amClient，并啟動；
在Spark UI啟動之前設置Spark UI的AmIpFilter；
在startUserClass函數專門啟動了一個線程（名稱為Driver的線程）來啟動用戶提交的Application，也就是啟動了Driver。在Driver中將會初始化SparkContext；
等待SparkContext初始化完成，最多等待spark.yarn.applicationMaster.waitTries次數（默認為10），如果等待了的次數超過了配置的，程序將會退出；否則用SparkContext初始化yarnAllocator；
當SparkContext、Driver初始化完成的時候，通過amClient向ResourceManager注冊ApplicationMaster
分配并啟動Executeors。在啟動Executeors之前，先要通過yarnAllocator獲取到numExecutors個Container，然后在Container中啟動Executeors。
　　那么這個Application將失敗，將Application Status標明為FAILED，并將關閉SparkContext。其實，啟動Executeors是通過ExecutorRunnable實現的，而ExecutorRunnable內部是啟動CoarseGrainedExecutorBackend的。
最后，Task將在CoarseGrainedExecutorBackend里面運行，然后運行狀況會通過Akka通知CoarseGrainedScheduler，直到作業運行完成。

　　Spark節點的概念

　　一、Spark驅動器是執行程序中的main()方法的進程。它執行用戶編寫的用來創建SparkContext(初始化)、創建RDD，以及運行RDD的轉化操作和行動操作的代碼。

　　驅動器節點driver的職責：

把用戶程序轉為任務task(driver)
　　Spark驅動器程序負責把用戶程序轉化為多個物理執行單元，這些單元也被稱之為任務task(詳解見備注)
為執行器節點調度任務(executor)
　　有了物理計劃之后，Spark驅動器在各個執行器節點進程間協調任務的調度。Spark驅動器程序會根據當前的執行器節點，把所有任務基于數據所在位置分配給合適的執行器進程。當執行任務時，執行器進程會把緩存的數據存儲起來，而驅動器進程同樣會跟蹤這些緩存數據的位置，并利用這些位置信息來調度以后的任務，以盡量減少數據的網絡傳輸。（就是所謂的移動計算，而不移動數據)。

　　二、執行器節點

　　作用：

負責運行組成Spark應用的任務，并將結果返回給驅動器進程；
通過自身的塊管理器(blockManager)為用戶程序中要求緩存的RDD提供內存式存儲。RDD是直接緩存在執行器進程內的，因此任務可以在運行時充分利用緩存數據加快運算。

　　驅動器的職責：

　　所有的Spark程序都遵循同樣的結構：程序從輸入數據創建一系列RDD，再使用轉化操作派生成新的RDD，最后使用行動操作手機或存儲結果RDD，Spark程序其實是隱式地創建出了一個由操作組成的邏輯上的有向無環圖DAG。當驅動器程序執行時，它會把這個邏輯圖轉為物理執行計劃。

　　這樣 Spark就把邏輯計劃轉為一系列步驟(stage)，而每個步驟又由多個任務組成。這些任務會被打包送到集群中。

　　Spark初始化

每個Spark應用都由一個驅動器程序來發起集群上的各種并行操作。驅動器程序包含應用的main函數，并且定義了集群上的分布式數據集，以及對該分布式數據集應用了相關操作。
驅動器程序通過一個SparkContext對象來訪問spark,這個對象代表對計算集群的一個連接。（比如在sparkshell啟動時已經自動創建了一個SparkContext對象，是一個叫做SC的變量。(下圖，查看變量sc)
　　
一旦創建了sparkContext，就可以用它來創建RDD。比如調用sc.textFile()來創建一個代表文本中各行文本的RDD。（比如vallinesRDD = sc.textFile(“yangsy.text”),val spark = linesRDD.filter(line=>line.contains(“spark”),spark.count()）
　　執行這些操作，驅動器程序一般要管理多個執行器,就是我們所說的executor節點。
在初始化SparkContext的同時，加載sparkConf對象來加載集群的配置，從而創建sparkContext對象。
　　從源碼中可以看到，在啟動thriftserver時，調用了spark- daemon.sh文件，該文件源碼如左圖，加載spark_home下的conf中的文件。
　　
　　（在執行后臺代碼時，需要首先創建conf對象，加載相應參數， val sparkConf = newSparkConf().setMaster("local").setAppName("cocapp").set("spark.executor.memory","1g"), val sc: SparkContext = new SparkContext(sparkConf))

　　RDD工作原理：

　　RDD(Resilient DistributedDatasets)[1] ,彈性分布式數據集，是分布式內存的一個抽象概念，RDD提供了一種高度受限的共享內存模型，即RDD是只讀的記錄分區的集合，只能通過在其他RDD執行確定的轉換操作（如map、join和group by）而創建，然而這些限制使得實現容錯的開銷很低。對開發者而言，RDD可以看作是Spark的一個對象，它本身運行于內存中，如讀文件是一個RDD，對文件計算是一個RDD，結果集也是一個RDD ，不同的分片、數據之間的依賴、key-value類型的map數據都可以看做RDD。

　　主要分為三部分：創建RDD對象，DAG調度器創建執行計劃，Task調度器分配任務并調度Worker開始運行。

　　SparkContext(RDD相關操作)→通過(提交作業)→(遍歷RDD拆分stage→生成作業)DAGScheduler→通過（提交任務集）→任務調度管理(TaskScheduler)→通過（按照資源獲取任務)→任務調度管理(TaskSetManager)

　　Transformation返回值還是一個RDD。它使用了鏈式調用的設計模式，對一個RDD進行計算后，變換成另外一個RDD，然后這個RDD又可以進行另外一次轉換。這個過程是分布式的。

　　Action返回值不是一個RDD。它要么是一個Scala的普通集合，要么是一個值，要么是空，最終或返回到Driver程序，或把RDD寫入到文件系統中

　　轉換(Transformations)(如：map, filter, groupBy, join等)，Transformations操作是Lazy的，也就是說從一個RDD轉換生成另一個RDD的操作不是馬上執行，Spark在遇到Transformations操作時只會記錄需要這樣的操作，并不會去執行，需要等到有Actions操作的時候才會真正啟動計算過程進行計算。

　　操作(Actions)(如：count, collect, save等)，Actions操作會返回結果或把RDD數據寫到存儲系統中。Actions是觸發Spark啟動計算的動因。

　　它們本質區別是：Transformation返回值還是一個RDD。它使用了鏈式調用的設計模式，對一個RDD進行計算后，變換成另外一個RDD，然后這個RDD又可以進行另外一次轉換。這個過程是分布式的。Action返回值不是一個RDD。它要么是一個Scala的普通集合，要么是一個值，要么是空，最終或返回到Driver程序，或把RDD寫入到文件系統中。關于這兩個動作，在Spark開發指南中會有就進一步的詳細介紹，它們是基于Spark開發的核心。

　　RDD基礎

Spark中的RDD就是一個不可變的分布式對象集合。每個RDD都被分為多個分區，這些分區運行在集群的不同節點上。創建RDD的方法有兩種：一種是讀取一個外部數據集；一種是在群東程序里分發驅動器程序中的對象集合，不如剛才的示例，讀取文本文件作為一個字符串的RDD的示例。
創建出來后，RDD支持兩種類型的操作:轉化操作和行動操作
　　轉化操作會由一個RDD生成一個新的RDD。（比如剛才的根據謂詞篩選）
　　行動操作會對RDD計算出一個結果，并把結果返回到驅動器程序中，或把結果存儲到外部存儲系統（比如HDFS）中。比如first()操作就是一個行動操作，會返回RDD的第一個元素。
　　注：轉化操作與行動操作的區別在于Spark計算RDD的方式不同。雖然你可以在任何時候定義一個新的RDD，但Spark只會惰性計算這些RDD。它們只有第一個在一個行動操作中用到時，才會真正的計算。之所以這樣設計，是因為比如剛才調用sc.textFile(...)時就把文件中的所有行都讀取并存儲起來，就會消耗很多存儲空間，而我們馬上又要篩選掉其中的很多數據。
　　這里還需要注意的一點是，spark會在你每次對它們進行行動操作時重新計算。如果想在多個行動操作中重用同一個RDD，那么可以使用RDD.persist()或RDD.collect()讓Spark把這個RDD緩存下來。（可以是內存，也可以是磁盤)
Spark會使用譜系圖來記錄這些不同RDD之間的依賴關系，Spark需要用這些信息來按需計算每個RDD，也可以依靠譜系圖在持久化的RDD丟失部分數據時用來恢復所丟失的數據。(如下圖，過濾errorsRDD與warningsRDD,最終調用union()函數)

　　RDD計算方式

　　RDD的寬窄依賴

　　窄依賴 (narrowdependencies) 和寬依賴 (widedependencies) 。窄依賴是指父 RDD 的每個分區都只被子 RDD 的一個分區所使用。相應的，那么寬依賴就是指父 RDD 的分區被多個子 RDD 的分區所依賴。例如， map 就是一種窄依賴，而 join 則會導致寬依賴

　　這種劃分有兩個用處。首先，窄依賴支持在一個結點上管道化執行。例如基于一對一的關系，可以在 filter 之后執行 map 。其次，窄依賴支持更高效的故障還原。因為對于窄依賴，只有丟失的父 RDD 的分區需要重新計算。而對于寬依賴，一個結點的故障可能導致來自所有父 RDD 的分區丟失，因此就需要完全重新執行。因此對于寬依賴，Spark 會在持有各個父分區的結點上，將中間數據持久化來簡化故障還原，就像 MapReduce 會持久化 map 的輸出一樣。

　　SparkExample

　　步驟 1 ：創建 RDD 。上面的例子除去最后一個 collect 是個動作，不會創建 RDD 之外，前面四個轉換都會創建出新的 RDD 。因此第一步就是創建好所有 RDD( 內部的五項信息 ) 。

　　步驟 2 ：創建執行計劃。Spark 會盡可能地管道化，并基于是否要重新組織數據來劃分階段 (stage) ，例如本例中的 groupBy() 轉換就會將整個執行計劃劃分成兩階段執行。最終會產生一個 DAG(directedacyclic graph ，有向無環圖 ) 作為邏輯執行計劃。

　　步驟 3 ：調度任務。 將各階段劃分成不同的任務 (task) ，每個任務都是數據和計算的合體。在進行下一階段前，當前階段的所有任務都要執行完成。因為下一階段的第一個轉換一定是重新組織數據的，所以必須等當前階段所有結果數據都計算出來了才能繼續。

　　假設本例中的 hdfs://names 下有四個文件塊，那么 HadoopRDD 中 partitions 就會有四個分區對應這四個塊數據，同時 preferedLocations 會指明這四個塊的最佳位置。現在，就可以創建出四個任務，并調度到合適的集群結點上。

　　Spark數據分區

Spark的特性是對數據集在節點間的分區進行控制。在分布式系統中，通訊的代價是巨大的，控制數據分布以獲得最少的網絡傳輸可以極大地提升整體性能。Spark程序可以通過控制RDD分區方式來減少通訊的開銷。
Spark中所有的鍵值對RDD都可以進行分區。確保同一組的鍵出現在同一個節點上。比如，使用哈希分區將一個RDD分成了100個分區，此時鍵的哈希值對100取模的結果相同的記錄會被放在一個節點上。
　　（可使用partitionBy(newHashPartitioner(100)).persist()來構造100個分區)
Spark中的許多操作都引入了將數據根據鍵跨界點進行混洗的過程。(比如：join(),leftOuterJoin(),groupByKey(),reducebyKey()等)對于像reduceByKey()這樣只作用于單個RDD的操作，運行在未分區的RDD上的時候會導致每個鍵的所有對應值都在每臺機器上進行本地計算。

　　SparkSQL的shuffle過程

　　Spark SQL的核心是把已有的RDD，帶上Schema信息，然后注冊成類似sql里的”Table”，對其進行sql查詢。這里面主要分兩部分，一是生成SchemaRD，二是執行查詢。

　　如果是spark-hive項目，那么讀取metadata信息作為Schema、讀取hdfs上數據的過程交給Hive完成，然后根據這倆部分生成SchemaRDD，在HiveContext下進行hql()查詢。

　　SparkSQL結構化數據

首先說一下ApacheHive，Hive可以在HDFS內或者在其他存儲系統上存儲多種格式的表。SparkSQL可以讀取Hive支持的任何表。要把Spark SQL連接已有的hive上，需要提供Hive的配置文件。hive-site.xml文件復制到spark的conf文件夾下。再創建出HiveContext對象(sparksql的入口)，然后就可以使用HQL來對表進行查詢，并以由行足證的RDD的形式拿到返回的數據。
創建Hivecontext并查詢數據
　　importorg.apache.spark.sql.hive.HiveContext
　　valhiveCtx = new org.apache.spark.sql.hive.HiveContext(sc)
　　valrows = hiveCtx.sql(“SELECT name,age FROM users”)
　　valfitstRow – rows.first()
　　println(fitstRow.getSgtring(0)) //字段0是name字段
通過jdbc連接外部數據源更新與加載
　　Class.forName("com.mysql.jdbc.Driver")
　　val conn =DriverManager.getConnection(mySQLUrl)
　　val stat1 =conn.createStatement()
　　stat1.execute("UPDATE CI_LABEL_INFO set DATA_STATUS_ID = 2 , DATA_DATE ='" + dataDate +"' where LABEL_ID in ("+allCreatedLabels.mkString(",")+")")
　　stat1.close()
　　//加載外部數據源數據到內存
　　valDIM_COC_INDEX_MODEL_TABLE_CONF =sqlContext.jdbc(mySQLUrl,"DIM_COC_INDEX_MODEL_TABLE_CONF").cache()
　　val targets =DIM_COC_INDEX_MODEL_TABLE_CONF.filter("TABLE_DATA_CYCLE ="+TABLE_DATA_CYCLE).collect

　　SparkSQL解析

　　首先說下傳統數據庫的解析，傳統數據庫的解析過程是按Rusult、Data Source、Operation的次序來解析的。傳統數據庫先將讀入的SQL語句進行解析，分辨出SQL語句中哪些詞是關鍵字（如select,from,where)，哪些是表達式，哪些是Projection，哪些是Data Source等等。進一步判斷SQL語句是否規范，不規范就報錯，規范則按照下一步過程綁定（Bind)。過程綁定是將SQL語句和數據庫的數據字典(列,表,視圖等）進行綁定，如果相關的Projection、Data Source等都存在，就表示這個SQL語句是可以執行的。在執行過程中，有時候甚至不需要讀取物理表就可以返回結果，比如重新運行剛運行過的SQL語句，直接從數據庫的緩沖池中獲取返回結果。在數據庫解析的過程中SQL語句時，將會把SQL語句轉化成一個樹形結構來進行處理，會形成一個或含有多個節點(TreeNode)的Tree,然后再后續的處理政對該Tree進行一系列的操作。

　　Spark SQL對SQL語句的處理和關系數據庫對SQL語句的解析采用了類似的方法，首先會將SQL語句進行解析，然后形成一個Tree，后續如綁定、優化等處理過程都是對Tree的操作，而操作方法是采用Rule,通過模式匹配，對不同類型的節點采用不同的操作。SparkSQL有兩個分支，sqlContext和hiveContext。sqlContext現在只支持SQL語法解析器（Catalyst)，hiveContext支持SQL語法和HiveContext語法解析器。

原文地址：http://mt.sohu.com/20160522/n450849016.shtml

posted @ 2016-09-08 13:11 三人行，必有我師焉閱讀(261) | 評論 (0) | 編輯收藏

轉：spark通過合理設置spark.default.parallelism參數提高執行效率

spark中有partition的概念（和slice是同一個概念，在spark1.2中官網已經做出了說明），一般每個partition對應一個task。在我的測試過程中，如果沒有設置spark.default.parallelism參數，spark計算出來的partition非常巨大，與我的cores非常不搭。我在兩臺機器上（8cores *2 +6g * 2）上，spark計算出來的partition達到2.8萬個，也就是2.9萬個tasks，每個task完成時間都是幾毫秒或者零點幾毫秒，執行起來非常緩慢。在我嘗試設置了 spark.default.parallelism 后，任務數減少到10，執行一次計算過程從minute降到20second。

參數可以通過spark_home/conf/spark-default.conf配置文件設置。

eg.

spark.master                  spark://master:7077 

spark.default.parallelism     10 

spark.driver.memory           2g 

spark.serializer              org.apache.spark.serializer.KryoSerializer 

spark.sql.shuffle.partitions  50

Property Name	Default	Meaning
`spark.default.parallelism`	For distributed shuffle operations like `reduceByKey` and `join`, the largest number of partitions in a parent RDD. For operations like`parallelize` with no parent RDDs, it depends on the cluster manager: Local mode: number of cores on the local machine Mesos fine grained mode: 8 Others: total number of cores on all executor nodes or 2, whichever is larger	Default number of partitions in RDDs returned by transformations like `join`, `reduceByKey`, and `parallelize` when not set by user.

from:http://spark.apache.org/docs/latest/tuning.html

Level of Parallelism

Clusters will not be fully utilized unless you set the level of parallelism for each operation high enough. Spark automatically sets the number of “map” tasks to run on each file according to its size (though you can control it through optional parameters to SparkContext.textFile, etc), and for distributed “reduce” operations, such as groupByKey and reduceByKey, it uses the largest parent RDD’s number of partitions. You can pass the level of parallelism as a second argument (see the spark.PairRDDFunctions documentation), or set the config propertyspark.default.parallelism to change the default. In general, we recommend 2-3 tasks per CPU core in your cluster.

原文地址：http://www.cnblogs.com/wrencai/p/4231966.html

posted @ 2016-09-08 13:07 三人行，必有我師焉閱讀(2222) | 評論 (0) | 編輯收藏

Java反編譯工具 Eclipse Class Decompiler 2.10 已發布，支持多種反編譯器

Eclipse Class Decompiler是一款Eclipse插件，整合了多種反編譯器，和Eclipse Class Viewer無縫集成，能夠很方便的使用插件查看類庫源碼，進行Debug調試。
同時還提供了在線自動查找源代碼，查看Class二進制字節碼的功能。

Eclipse Class Decompiler對JDK的最低要求為JDK1.6, 能反編譯和debug各版本的Class文件，支持JDK8的Lambda語法，同時支持中文等非Ascii碼字符集的解析，支持Eclipse 3.6及以上所有版本的Eclipse。

本插件支持Windows，Linux，Macosx 32位及64位操作系統。

Github項目地址為：https://github.com/cnfree/Eclipse-Class-Decompiler

請通過以下地址選擇一個可用的源在線安裝：

http://cnfree.github.io/Eclipse-Class-Decompiler/update
http://raw.githubusercontent.com/cnfree/eclipse/master/decompiler/update/
http://www.cpupk.com/decompiler/update/

離線包下載地址：

https://github.com/cnfree/Eclipse-Class-Decompiler/releases/download/v2.10.0/eclipse-class-decompiler-update_v2.10.0.zip

插件使用說明：

下圖為Eclipse Class Decompiler的首選項頁面，可以選擇缺省的反編譯器工具，并進行反編譯器的基本設置。缺省的反編譯工具為JD-Core，JD-Core更為先進一些，支持泛型、Enum、注解等JDK1.5以后才有的新語法。

首選項配置選項：
1.重用緩存代碼：只會反編譯一次，以后每次打開該類文件，都顯示的是緩存的反編譯代碼。
2.忽略已存在的源代碼：若未選中，則查看Class文件是否已綁定了Java源代碼，如果已綁定，則顯示Java源代碼，如果未綁定，則反編譯Class文件。若選中此項，則忽略已綁定的Java源代碼，顯示反編譯結果。
3.顯示反編譯器報告：顯示反編譯器反編譯后生成的數據報告及異常信息。
4.使用Eclipse代碼格式化工具：使用Eclipse格式化工具對反編譯結果重新格式化排版，反編譯整個Jar包時，此操作會消耗一些時間。
5.使用Eclipse成員排序：使用Eclipse成員排序對反編譯結果重新格式化排版，反編譯整個Jar包時，此操作會消耗大量時間。
6.以注釋方式輸出原始行號信息：如果Class文件包含原始行號信息，則會將行號信息以注釋的方式打印到反編譯結果中。
7.根據行號對齊源代碼以便于調試：若選中該項，插件會采用AST工具分析反編譯結果，并根據行號信息調整代碼順序，以便于Debug過程中的單步跟蹤調試。
8.設置類反編譯查看器作為缺省的類文件編輯器：默認為選中，將忽略Eclipse自帶的Class Viewer，每次Eclipse啟動后，默認使用本插件提供的類查看器打開Class文件。

插件提供了系統菜單，工具欄，當打開了插件提供的類反編譯查看器后，會激活菜單和工具欄選項，可以方便的進行首選項配置，切換反編譯工具重新反編譯，以及導出反編譯結果。

類反編譯查看器右鍵菜單包含了Eclipse自帶類查看器右鍵菜單的全部選項，并增加了一個“導出反編譯源代碼”菜單項。

打開項目路徑下的Class文件，如果設置類反編譯查看器為缺省的查看器，直接雙擊Class文件即可，如果沒有設置為缺省查看器，可以使用右鍵菜單進行查看。

同時插件也支持直接將外部的Class文件拖拽到Eclipse編輯器中進行反編譯。

Eclipse Class Decompiler插件也提供了反編譯整個Jar文件或者Java包的反編譯。該操作支持Package Explorer對包顯示布局的操作，如果是平鋪模式布局，則導出的源代碼不包含子包，如果是層級模式布局，則導出選中的包及其所有的子包。

Debug調試：可以在首選項選中對齊行號進行單步跟蹤調試，和普通的包含源代碼時的調試操作完全一致，同樣的也可以設置斷點進行跟蹤。當透視圖為Debug時，插件自動生成行號并進行對齊方便調試代碼，無需進行任何設置。

博文地址：http://www.aygfsteel.com/cnfree/archive/2012/10/30/390457.html

posted @ 2016-05-13 14:23 三人行，必有我師焉閱讀(1337) | 評論 (5) | 編輯收藏

Java應用定制工廠使用手冊（一）

Java應用定制工廠（以下簡稱為JCB，Java Customization Builder）是一個針對Java輕量級桌面應用進行精簡優化的小工具，使用它可以精簡你的jar包，并自動生成一個精簡的JRE，也可以使用它生成一個Exe啟動引導程序，并且能夠對你的Java應用自動做Pack200和Unpack200處理。使用本工具定制的Java桌面應用通常不會超過10M（包含JRE），SWT客戶端程序相對于Swing客戶端程序更小，一般不會超過5M。

JCB是一個Java應用，所以目標機器上必須安裝1.5以上版本的JDK用以啟動JCB，但是JCB可以用來精簡1.4版的JRE，并且JRE1.4精簡后的體積遠小于1.5以上的版本。

1.新建JCB項目
精簡JRE的步驟比較繁瑣，有可能精簡失敗，為了不重復之前的步驟，JCB提供一個項目文件用來保存精簡配置信息，擴展名為jcprj。這里我們創建一個項目，名為JCB

Wizard需要輸入一個工程名和指定工程位置，至于下面的應用程序位置和定制JRE位置由JCB自動指定，這兒顯示出來僅供參考。

此時最好Ctrl+S保存一下項目，否則退出后你之前的配置信息會全部丟失，因為你并沒有制定一個可用的項目配置文件。

2. 配置JCB項目

首先指定項目需要的jar文件，然后依次選擇項目的main class，啟動路徑默認為空，一般來說無需指定。然后設定應用程序參數和虛擬機參數。最后選定需要精簡的JRE，JCB當前支持1.4-1.7版本的JRE，未來可能會支持更高版本的JRE。

右下角有2個單選按鈕：全部重新運行和增量運行。全部重新運行就會放棄之前的運行結果，增量運行就是會保留以前的運行結果。

然后點擊“以Verbose模式運行”按鈕。Verbose模式運行Java程序，會顯示JVM加載的全部類信息，JCB需要這些類信息進行JRE的精簡，所以請盡可能的把應用所有的功能盡可能的跑一遍，跑的越全面，導致精簡出錯的可能性就越低。

Verbose運行結果，這個頁面的顯示信息僅供參考，無實際用處。

3. 分析項目的類依賴項

分析類依賴模式有2個選項：重新完全分析和增量分析。完全分析會花費較多的時間。當使用verbose模式增量運行后，可以使用增量模式分析類依賴項，這樣可以節約大量的時間。類依賴分析會反編譯所有運行的類，分析類引用關系，但是無法獲取Class.forName這類動態類加載信息，所以需要Verbose模式運行的盡量全面，以避免這些動態加載的類的缺失。

為什么需要分析類依賴關系呢？因為不同的操作系統，不同的硬件配置，JRE可能會采取策略模式加載不同的類，或者一些異常，Verbose模式一般不會加載，這樣換個硬件環境，僅僅使用Verbose模式的類可能會導致ClassNotFound這樣的異常，導致Java程序崩潰。

4. 精簡JRE

精簡JRE有兩種模式：使用Verbose運行結果和使用類依賴分析結果。前者只包含Verbose分析出來的類，精簡出來的JRE包很小，但是基本不具備跨平臺性。所以一般來說推薦選擇后者。

如果你的程序包含Swing的客戶端，并且比較復雜的話，最好選中包含Swing選項。因為Swing的設計完全是動態化的加載，全部使用Class.forName方式，類依賴分析對Swing是無效的。當然選中該選項后，JRE的體積會增加許多。比較好的解決方案，是使用SWT替代Swing進行開發，或者盡量把你的程序跑全面，包括各種異常界面都跑出來。

右下角有兩個按鈕，是用來自定義類和資源文件的，比如移除JAR包的MD5文件或者無用的文件。或者測試運行發現ClassNotFound異常，手動把缺少的類加進去，然后JCB會自動運行增量類依賴分析加載所有可能需要的類。

選擇左上角的“精簡Jar包”按鈕，就可以對JRE進行精簡了，精簡完畢后可以點擊“查看精簡結果”按鈕進行查看。

5.定制JRE

上圖顯示了JRE精簡結果，JCB會自動分析所有的Class，生成精簡版JRE，包括需要的JAR，DLL和資源文件。一般來說精簡出來的JRE，普通功能都能正確完成，但是不排除有些功能不能正常使用，比如缺少某個資源文件或者DLL，需要手工添加。

為了保證精簡的正確性，你需要進行運行測試，這一步是必須的，而且最好和Verbose運行模式一樣，把所有的功能都跑一遍，確認精簡無誤。

如果測試運行有誤的話，請根據運行錯誤報告進行分析，如果缺少類，請使用Verbose模式重新運行相應的功能，或者在步驟四手工添加需要的類，然后重新生成依賴的JRE。如果缺少相關的DLL或者資源文件，也請手工添加，并且取消步驟四的“清理工作區選項”，否則每次精簡JRE都需要重新手工添加。

到此為止，精簡JRE部分就算全部完成了，你最好使用Ctrl+S保存一下結果，以避免下次重做項目。

JCB項目下載地址：http://www.sourceforge.net/projects/jcb

posted @ 2013-03-03 17:25 三人行，必有我師焉閱讀(5245) | 評論 (13) | 編輯收藏

編程珠璣第二章

1. 40億個無符號整數，找出一個不在這40億個整數中的數。可以換個方向思考， 99個小于100的數，找出一個不在這99個數中的小于100的數。
首先把這99個數分為10組，按高位為0-9分，然后計算每組的數量，數量最少的那個肯定就是缺失的那個，然后遞歸……找最少的那個，組合起來的數肯定是缺失的。答案是按位運算找，和這個類似。

2. 43億個無符號整數，找出一個重復的整數。也就是101個小于100的數，找出重復的那個數來。
首先把這99個數分為10組，按高位為0-9分，然后計算每組的數量，數量最多的那組，肯定有重復的，一次類推找第二位……

posted @ 2012-11-24 22:21 三人行，必有我師焉閱讀(410) | 評論 (0) | 編輯收藏

The difference between dependency and association

When a object creates a new object, please use the dependency.

When a object just uses a object, please use the association.

posted @ 2012-11-19 13:16 三人行，必有我師焉閱讀(297) | 評論 (0) | 編輯收藏

研磨設計模式……

comparator

Decorator Pattern and Adapter Pattern have the same alias name: wrapper. But they face different aspects. Decorator pattern changes the object function, but the adapter pattern changes the interface.

The typical decorator pattern is the java OutputStream, you can use the BufferedOutputStream to wrap it, then get the extra function.
The typical adapter pattern in the BIRT is the ElementAdapter, it can convert any object to an other object.

Decorator pattern must extend the class which you want to wrap, but the adapter class must implements the interface using by the client.

FlyWeight pattern extracts the same part of some different objects, and the part doesn't be changed when these objects changed. String class uses the FlyWeight pattern, jface ImageRegistry also uses it.
FlyWeight can have a interface to get external data, and change the external data's status, but FlyWeight internal status shouldn't be changed.

The Collections.sort() method implementation contains template method design pattern and strategy design pattern, but it doesn't contain the visitor design pattern. The Collections.sort() method uses the merge sort algorithm, you can't change it, but you can change the comparator logic, it's one step of the sort algorithm. So it's a template method pattern, but not a classic implementation, it uses the callback method to implement the pattern, but not extending the parent template class. The comparator class use the strategy design pattern, it not a visitor pattern, visitor pattern have a accept method to operate the element to deal some logic.

posted @ 2012-11-14 00:22 三人行，必有我師焉閱讀(340) | 評論 (0) | 編輯收藏

排序1+4：歸并排序（MergeSort）和堆排序（HeapSort）（轉）

1 歸并排序（MergeSort）

歸并排序最差運行時間是O(nlogn)，它是利用遞歸設計程序的典型例子。

歸并排序的最基礎的操作就是合并兩個已經排好序的序列。

假設我們有一個沒有排好序的序列，那么首先我們使用分割的辦法將這個序列分割成一個一個已經排好序的子序列。然后再利用歸并的方法將一個個的子序列合并成排序好的序列。分割和歸并的過程可以看下面的圖例。

從上圖可以看出，我們首先把一個未排序的序列從中間分割成2部分，再把2部分分成4部分，依次分割下去，直到分割成一個一個的數據，再把這些數據兩兩歸并到一起，使之有序，不停的歸并，最后成為一個排好序的序列。

如何把兩個已經排序好的子序列歸并成一個排好序的序列呢？可以參看下面的方法。

假設我們有兩個已經排序好的子序列。
序列A：1 23 34 65
序列B：2 13 14 87
那么可以按照下面的步驟將它們歸并到一個序列中。

（1）首先設定一個新的數列C[8]。
（2）A[0]和B[0]比較，A[0] = 1，B[0] = 2，A[0] < B[0]，那么C[0] = 1
（3）A[1]和B[0]比較，A[1] = 23，B[0] = 2，A[1] > B[0]，那么C[1] = 2
（4）A[1]和B[1]比較，A[1] = 23，B[1] = 13，A[1] > B[1]，那么C[2] = 13
（5）A[1]和B[2]比較，A[1] = 23，B[2] = 14，A[1] > B[2]，那么C[3] = 14
（6）A[1]和B[3]比較，A[1] = 23，B[3] = 87，A[1] < B[3]，那么C[4] = 23
（7）A[2]和B[3]比較，A[2] = 34，B[3] = 87，A[2] < B[3]，那么C[5] = 34
（8）A[3]和B[3]比較，A[3] = 65，B[3] = 87，A[3] < B[3]，那么C[6] = 65
（9）最后將B[3]復制到C中，那么C[7] = 87。歸并完成。

如果我們清楚了上面的分割和歸并過程，那么我們就可以用遞歸的方法得到歸并算法的實現。

    public class MergeSorter
    {
        private static int[] myArray;
        private static int arraySize;

        public static void Sort( int[] a )
        {
            myArray = a;
            arraySize = myArray.Length;
            MergeSort();
        }

        /// <summary>
        /// 利用歸并的方法排序數組，首先將序列分割
        /// 然后將數列歸并，這個算法需要雙倍的存儲空間
        /// 時間是O(nlgn)
        /// </summary>
        private static void MergeSort()
        {
            int[] temp = new int[arraySize];
            MSort( temp, 0, arraySize - 1);
        }

        private static void MSort(int[] temp, int left, int right)
        {
            int mid;

            if (right > left)
            {
                mid = (right + left) / 2;
                MSort( temp, left, mid); //分割左邊的序列
                MSort(temp, mid+1, right);//分割右邊的序列
                Merge(temp, left, mid+1, right);//歸并序列
            }
        }

        private static void Merge( int[] temp, int left, int mid, int right)
        {
            int i, left_end, num_elements, tmp_pos;

            left_end = mid - 1;
            tmp_pos = left;
            num_elements = right - left + 1;

            while ((left <= left_end) && (mid <= right))
            {
                if (myArray[left] <= myArray[mid]) //將左端序列歸并到temp數組中
                {
                    temp[tmp_pos] = myArray[left];
                    tmp_pos = tmp_pos + 1;
                    left = left +1;
                }
                else//將右端序列歸并到temp數組中
                {
                    temp[tmp_pos] = myArray[mid];
                    tmp_pos = tmp_pos + 1;
                    mid = mid + 1;
                }
            }

            while (left <= left_end) //拷貝左邊剩余的數據到temp數組中
            {
                temp[tmp_pos] = myArray[left];
                left = left + 1;
                tmp_pos = tmp_pos + 1;
            }
            while (mid <= right) //拷貝右邊剩余的數據到temp數組中
            {
                temp[tmp_pos] = myArray[mid];
                mid = mid + 1;
                tmp_pos = tmp_pos + 1;
            }

            for (i=0; i < num_elements; i++) //將所有元素拷貝到原始數組中
            {
                myArray[right] = temp[right];
                right = right - 1;
            }
        }
    }

歸并排序算法是一種O(nlogn)的算法。它的最差，平均，最好時間都是O(nlogn)。但是它需要額外的存儲空間，這在某些內存緊張的機器上會受到限制。

歸并算法是又分割和歸并兩部分組成的。對于分割部分，如果我們使用二分查找的話，時間是O(logn)，在最后歸并的時候，時間是O(n)，所以總的時間是O(nlogn)。

2 堆排序（HeapSort）

堆排序屬于百萬俱樂部的成員。它特別適合超大數據量（百萬條記錄以上）的排序。因為它并不使用遞歸（因為超大數據量的遞歸可能會導致堆棧溢出），而且它的時間也是O(nlogn)。還有它并不需要大量的額外存儲空間。

堆排序的思路是:

(1)將原始未排序的數據建成一個堆。
(2)建成堆以后，最大值在堆頂，也就是第0個元素，這時候將第零個元素和最后一個元素交換。
(3)這時候將從0到倒數第二個元素的所有數據當成一個新的序列，建一個新的堆，再次交換第一個和最后一個元素，依次類推，就可以將所有元素排序完畢。

建立堆的過程如下面的圖所示:

堆排序的具體算法如下：

public class HeapSorter
    {
        private static int[] myArray;
        private static int arraySize;

        public static void Sort( int[] a )
        {
            myArray = a;
            arraySize = myArray.Length;
            HeapSort();
        }

        private static void HeapSort()
        {
            BuildHeap();            //將原始序列建成一個堆

            while ( arraySize > 1 )
            {
                arraySize--;
                Exchange ( 0, arraySize );//將最大值放在數組的最后
                DownHeap ( 0 );  //將序列從0到n-1看成一個新的序列，重新建立堆
            }
        }

        private static void BuildHeap()
        {
            for (int v=arraySize/2-1; v>=0; v--)
                DownHeap ( v );
        }

        //利用向下遍歷子節點建立堆
        private static void DownHeap( int v )
        {
            int w = 2 * v + 1;                     // 節點w是節點v的第一個子節點

            while (w < arraySize)
            {
                if ( w+1 < arraySize )        // 如果節點v下面有第二個字節點
                    if ( myArray[w+1] > myArray[w] )
                        w++;                        // 將子節點w設置成節點v下面值最大的子節點

                 // 節點v已經大于子節點w，有了堆的性質，那么返回
                if ( myArray[v] >= myArray[w] )
                    return;

                Exchange( v, w );     // 如果不是，就交換節點v和節點w的值
                v = w;
                w = 2 * v + 1;            // 繼續向下找子節點
            }
        }

        //交換數據
        private static void Exchange( int i, int j )
        {
            int t = myArray[i];
            myArray[i] = myArray[j];
            myArray[j] = t;
        }
    }

堆排序主要用于超大規模的數據的排序。因為它不需要額外的存儲空間，也不需要大量的遞歸。

3 幾種O(nlogn)算法的初步比較

我們可以從下表看到幾種O(nlogn)算法的效率的區別。所有的數據都使用.Net的Random類產生，每種算法運行100次，時間的單位為毫秒。

	500隨機整數	5000隨機整數	20000隨機整數
合并排序	0.3125	1.5625	7.03125
Shell排序	0.3125	1.25	6.875
堆排序	0.46875	2.1875	6.71875
快速排序	0.15625	0.625	2.8125

從上表可以明顯地看出，快速排序是最快的算法。這也就給了我們一個結論，對于一般的應用來說，我們總是選擇快速排序作為我們的排序算法，當數據量非常大（百萬數量級）我們可以使用堆排序，如果內存空間非常緊張，我們可以使用Shell排序。但是這意味著我們不得不損失速度。

/******************************************************************************************
*【Author】：flyingbread
*【Date】：2007年2月2日
*【Notice】：
*1、本文為原創技術文章，首發博客園個人站點(http://flyingbread.cnblogs.com/)，轉載和引用請注明作者及出處。
*2、本文必須全文轉載和引用，任何組織和個人未授權不能修改任何內容，并且未授權不可用于商業。
*3、本聲明為文章一部分，轉載和引用必須包括在原文中。
******************************************************************************************/

posted @ 2012-11-10 23:18 三人行，必有我師焉閱讀(640) | 評論 (2) | 編輯收藏

Feeling

常用鏈接

留言簿(53)

隨筆檔案(85)

朋友圈

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

Level of Parallelism

comparator