xylz,imxylz

          關(guān)注后端架構(gòu)、中間件、分布式和并發(fā)編程

             :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
            111 隨筆 :: 10 文章 :: 2680 評(píng)論 :: 0 Trackbacks
          我需要一個(gè)從集合N中隨機(jī)選擇M個(gè)子元素的算法。 當(dāng)然最好的辦法是將集合打亂順序,然后從中選擇前M個(gè)元素即可。 Java中現(xiàn)成的API可以使用:
          java.util.Collections.shuffle(List<?>)
          此算法非常簡(jiǎn)單,循環(huán)N次,每次長度減少1,隨機(jī)獲取其中一個(gè)元素,然后交換其對(duì)稱元素。
          public static void shuffle(List<?> list, Random rnd) {
              int size = list.size();
              if (size < SHUFFLE_THRESHOLD || list instanceof RandomAccess) {
                  for (int i=size; i>1; i--)
                      swap(list, i-1, rnd.nextInt(i));
              } else {
                  Object arr[] = list.toArray();

                  // Shuffle array
                  for (int i=size; i>1; i--)
                      swap(arr, i-1, rnd.nextInt(i));

                  // Dump array back into list
                  ListIterator it = list.listIterator();
                  for (int i=0; i<arr.length; i++) {
                      it.next();
                      it.set(arr[i]);
                  }
              }
          }

          有點(diǎn)意思的swap函數(shù)

          public static void swap(List<?> list, int i, int j) {
              final List l = list;
              l.set(i, l.set(j, l.get(i)));
          }

          其實(shí)我們的需求很簡(jiǎn)單,在基本不變的集合中,多次重復(fù)隨機(jī)獲取其子集,至于子集是否有序或者隨機(jī)不重要的, 重要的是原集合中的每個(gè)元素都有相似的概率出現(xiàn)在子集合中。

          考慮到性能以及并發(fā)訪問(多線程)的需要,我想到了一個(gè)簡(jiǎn)單的算法:
          給定N個(gè)元素集合,從中選擇M(0<M<=N)個(gè)元素的辦法是,
          1. 隨機(jī)選擇索引K(0<=K<N), i=0, 空子集
          2. 取有效元素N(k-i),N(k+i) 加入未滿子集M
          3. i+=1, 重復(fù)(2) 直到子集M已滿
          4. 終止
          這樣取出來的元素雖然和原始集順序有一定的關(guān)系,但是每個(gè)元素在子集里出現(xiàn)的概率相當(dāng),滿足結(jié)果要求。 最后生成的算法如下:
          public static <T> List<T> randomList(List<T> views, int max) {

              final int size = views.size();
              int index = RandomUtils.nextInt(size);
              //
              List<T> ret = new ArrayList<T>(max);
              int low = index - 1, high = index;
              while (max > 0 && (low >= 0 || high < size)) {
                  if (low >= 0 && max-- > 0) {
                      ret.add(views.get(low));
                  }
                  if (high < size && max-- > 0) {
                      ret.add(views.get(high));
                  }
                  low--;
                  high++;
              }
              return ret;
          }

          此算法滿足如下特點(diǎn):
          1. 足夠快
          2. 線程安全(原始集合不變)
          3. 子元素出現(xiàn)概率相當(dāng)(未經(jīng)數(shù)學(xué)證明

          另外,stackoverflow上也有一些參考鏈接:

          [ 原文地址 http://imxylz.com/blog/2013/08/14/select-a-random-sublist-from-list-in-java/ ]


          ©2009-2014 IMXYLZ |求賢若渴
          posted on 2013-08-17 17:44 imxylz 閱讀(3862) 評(píng)論(3)  編輯  收藏 所屬分類: J2EE技術(shù)Java Concurrency

          評(píng)論

          # re: 隨機(jī)選擇集合的子元素集合 2013-08-22 16:43 hongliuliao
          如果允許改變views的話,我一般這么用
          views.remove(RandomUtils.nextInt(views.size()))
            回復(fù)  更多評(píng)論
            

          # re: 隨機(jī)選擇集合的子元素集合 2014-06-15 23:58 夢(mèng)在飛
          真沒看出來哪線程安全了。
            回復(fù)  更多評(píng)論
            

          # re: 隨機(jī)選擇集合的子元素集合 2014-06-15 23:59 夢(mèng)在飛
          能刪除嗎?發(fā)錯(cuò)了,手機(jī)黨傷不起。@夢(mèng)在飛
            回復(fù)  更多評(píng)論
            


          ©2009-2014 IMXYLZ
          主站蜘蛛池模板: 黔江区| 巴中市| 格尔木市| 滕州市| 肥乡县| 马龙县| 芦溪县| 溆浦县| 东乡族自治县| 定西市| 固阳县| 望江县| 台北市| 襄垣县| 长子县| 宝山区| 昌图县| 神池县| 灵寿县| 通海县| 西乌| 南充市| 商城县| 晋中市| 积石山| 花垣县| 凤城市| 长兴县| 九寨沟县| 连平县| 道真| 唐河县| 青海省| 柳河县| 三门峡市| 仲巴县| 汉阴县| 甘谷县| 教育| 阿克| 康保县|