隨筆-23  評論-58  文章-0  trackbacks-0
            2012年6月29日
               摘要: Reactor 模式的 JAVA NIO 多線程服務器,這是比較完善的一版了。Java 的 NIO 網絡模型實在是不好用,還是使用現成的好。Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->public class NIOServer...  閱讀全文
          posted @ 2013-05-14 16:31 nianzai 閱讀(2730) | 評論 (1)編輯 收藏

              我學東西通常是通過動手的方式來學習,比如最近學習分布式服務協議paxos,自己就動手開發了一個該協議的實現版本。如果不動手實現只是靠學習理論是很難理解這個理論的本身。理解它最好的方式就是實踐它。


              根據理論或者原理就來做實現確實很難,這需要很強的代碼功底、極高的理解能力以及持久的耐心。


              扎實的功底是一切的開始,沒有扎實的功底就無法下手。沒有很好的悟性就很難保證事情的正確性。沒有良好的耐心就很難保證事情的結果。一次性就能將事情做成做好的,這種人實在太少了。做成一件事情就是在無數的失敗、錯誤中來接近成功,通過失敗來糾正、從而一步一步的接近成功。這就注定了需要持久的耐心才能保證成功。

          posted @ 2013-04-27 10:13 nianzai 閱讀(1979) | 評論 (0)編輯 收藏
          1、提出者向leader發出詢問消息
          2、leader向所有的QuorumPeer發出投票請求
          3、QuorumPeer對該請求進行投票,如果消息的txid大于QuorumPeer的txid則通過該投票,否則反對該投票
          4、leader根據所有的QuorumPeer投票結果進行計算,如果有一半以上的QuorumPeer通過則接受提出者的請求,否則拒絕提出者的請求
                  switch (message.getType())
                  
          {
                      
          case QuorumCode.ask://詢問類型
                          
          //詢問該事務是否可操作
                          Ask task=new Ask(message,sc);
                          My.executor.execute(task);
                          m.setCode(JuiceCode.OK);
                          
          break;
                      
          case QuorumCode.vote://投票類型
                          if(My.txid>=message.getTxid())
                              
          //拒絕
                              m.setCode(JuiceCode.ERROR);
                          
          else
                          
          {
                              
          //通過
                              m.setCode(JuiceCode.OK);
                              My.updateMyTxid(message.getTxid());
                          }

                          
          break;
                      
          case QuorumCode.ping://ping
                          m.setCode(JuiceCode.OK);
                          m.setMyid(message.getMyid());
                          
          break;
                  }



              
          public static boolean sendAndVote(Message m) throws IOException
              
          {
                  m.setType(QuorumCode.vote);
                  Map
          <Integer,Response> mp=new TreeMap<Integer,Response>();
                  
          for(Map.Entry<Integer,NIOClient> entry:voteClientMap.entrySet())
                  
          {
                      NIOClient client
          =entry.getValue();
                      Response response
          =client.send(ByteUtil.getBytes(m));
                      mp.put(entry.getKey(), response);
                  }


                  Map
          <Integer,Message> vote=new TreeMap<Integer,Message>();
                  
          for(Map.Entry<Integer,Response> entry:mp.entrySet())
                      vote.put(entry.getKey(), (Message)ByteUtil.getObject(entry.getValue().getData()));

                  
          int ok=0;
                  
          for(Map.Entry<Integer,Message> entry:vote.entrySet())
                  
          {
                      Message f
          =entry.getValue();
                      
          if(f.getCode()==JuiceCode.OK)
                          ok
          ++;
                  }

                  
          if(ok/(vote.size()*1.0)>1/2.0)
                      
          return true;
                  
          return false;
              }


          posted @ 2013-04-23 13:19 nianzai 閱讀(1761) | 評論 (0)編輯 收藏

          1、收集第一輪投票結果
          2、統計投票數,計算出投票數最大的id
          3、如果投票數超過1/2則選該id為leader
          4、如果最大投票數id沒有超過1/2,則推薦txid最大的id為leader
          5、計算出最大的txid及其服務器id
          6、計算出最大的txid有幾個
          7、如果最大txid超過一個,則比較服務器id,推薦服務id最大的為leader
          8、發起第二輪投票

          Java實現代碼如下:
                  /**
                   * 選舉leader
                   * 
          @param vote 投票信息
                   * 
          @return
                   
          */

                  
          public int forLeader(Map<Integer,Notification> vote)
                  
          {
                      
          //統計leader投票數
                      TreeMap<Integer,Integer> tmap=new TreeMap<Integer,Integer>();
                      
          for(Map.Entry<Integer,Notification> entry:vote.entrySet())
                      
          {
                          Notification nf
          =entry.getValue();
                          
          if(tmap.containsKey(nf.leader))
                              tmap.put(nf.leader, tmap.get(nf.leader)
          +1);
                          
          else
                              tmap.put(nf.leader, 
          1);
                      }

                      
          //計算出投票數最大的id
                      int a=0;
                      
          int l=0;
                      
          for(Map.Entry<Integer,Integer> entry:tmap.entrySet())
                      
          {
                          
          if(entry.getValue()>a)
                          
          {
                              a
          =entry.getValue();
                              l
          =entry.getKey();
                          }

                      }

                      
          //如果投票數超過1/2則選該id為leader
                      if(a/(My.serverList.size()*1.0)>1/2.0)
                      
          {
                          
          //選出leader
                          if(l==My.myid)
                              My.myServerState
          =ServerState.LEADING;
                          
          else
                              My.myServerState
          =ServerState.FLLOWING;
                          My.leader
          =l;
                          
                          
          return -1;
                      }

                      
          //如果最大投票數leader沒有超過1/2,則推薦txid最大的id為leader
                      
          //計算出最大的txid及其服務器id
                      long txid=0;
                      
          int leader=0;
                      
          for(Map.Entry<Integer,Notification> entry:vote.entrySet())
                      
          {
                          
          if(entry.getValue().txid>txid)
                          
          {
                              leader
          =entry.getKey();
                              txid
          =entry.getValue().txid;
                          }

                      }

                      
          //計算出最大的txid有幾個
                      Map<Integer,Notification> vte=new TreeMap<Integer,Notification>();
                      
          for(Map.Entry<Integer,Notification> entry:vote.entrySet())
                      
          {
                          
          if(entry.getValue().txid==txid)
                          
          {
                              vte.put(entry.getValue().id, entry.getValue());
                          }

                      }

                      
          //如果超過一個,則比較服務器id,推薦服務id最大的為leader
                      if(vte.size()>1)
                      
          {
                          
          for(Map.Entry<Integer,Notification> entry:vte.entrySet())
                          
          {
                              
          if(entry.getValue().id>leader)
                                  leader
          =entry.getKey();
                          }

                      }

                      
          return leader;
                  }

              }

          posted @ 2013-04-17 11:15 nianzai 閱讀(1886) | 評論 (0)編輯 收藏
          原理:通過瀏覽器去訪問要抓取的Ajax、腳本網頁地址,通過讀取瀏覽器內存document來得到腳本執行以后的網頁內容

          在原有的基礎上增加 自定義命令腳本 抓取功能。該功能能夠通過用戶自定義的腳本來實現與網頁的交互,比如填寫內容,點擊網頁上的提交按鈕。
          這樣便能抓取需要提交的網頁內容了,特別是需要提交的ajax網頁。



          Ajax、腳本網頁內容抓取工具(第二版)  點這下載
          posted @ 2012-09-29 14:26 nianzai 閱讀(1850) | 評論 (1)編輯 收藏
               摘要: 本隱馬可夫(HMM)中文分詞詞性標注程序 中的 隱馬可夫(HMM)概率模型 是由 PFR人民日報標注語料199801語料庫 生成Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->public class HMM{  ...  閱讀全文
          posted @ 2012-09-14 17:08 nianzai 閱讀(3868) | 評論 (0)編輯 收藏
          wikipedia上有個java版的Viterbi(維特比)實現程序(http://en.wikipedia.org/wiki/Viterbi_algorithm),但是3個觀察序列會標注出4個狀態序列。
          下面本人寫的這個Viterbi(維特比)實現程序就沒這個問題,3個觀察序列就只標注出3個狀態序列。
          public class Viterbi
          {
              
          public static void main(String[] args)
              
          {
                  String[] states 
          = {"Rainy""Sunny"};
                  String[] observations 
          = {"walk""shop""clean"};
                  
          double[] start_probability = {0.60.4};
                  
          double[][] transition_probability = {{0.70.3}{0.40.6}};
                  
          double[][] emission_probability = {{0.10.40.5}{0.60.30.1}};
                  forward_viterbi(observations,states,start_probability,transition_probability,emission_probability);
              }

              
              
          public static void  forward_viterbi(String[] observations, String[] states,double[] start_probability, double[][] transition_probability, double[][] emission_probability)
              
          {
                  
          int[][] path=new int[observations.length][states.length];
                  
          double[][] r=new double[observations.length][states.length];
                  
          for(int j=0;j<states.length;j++)
                  
          {
                      r[
          0][j]=start_probability[j]*emission_probability[j][0];
                      path[
          0][j]=0;
                  }

                  
                  
          for(int t=1;t<observations.length;t++)
                  
          {
                      
          for(int i=0;i<states.length;i++)
                      
          {
                          
          double tmp=0;int m=0;
                          
          for(int j=0;j<states.length;j++)
                          
          {
                              
          double tem=r[t-1][j]*transition_probability[j][i]*emission_probability[i][t];
                              
          if(tem>tmp)
                              
          {
                                  tmp
          =tem;
                                  m
          =j;
                              }

                          }

                          r[t][i]
          =tmp;
                          path[t][i]
          =m;
                      }

                  }

                  
                  
          double p=0;int m=0;
                  
          for(int i=0;i<r[0].length;i++)
                  
          {
                      
          if(r[r.length-1][i]>p)
                      
          {
                          p
          =r[r.length-1][i];
                          m
          =i;
                      }

                  }

                  
                  System.out.println(
          "p="+p);
                  
                  
          int[] trace=new int[observations.length];
                  trace[observations.length
          -1]=m;
                  
          for(int t=observations.length-1;t>0;t--)
                  
          {
                      trace[t
          -1]=path[t][m];
                      m
          =path[t][m];
                  }

                  
                  
          for(int i=0;i<trace.length;i++)
                      System.out.println(states[trace[i]]);
              }

          }


          posted @ 2012-09-07 16:43 nianzai 閱讀(1993) | 評論 (0)編輯 收藏
               摘要: 最大概率分詞程序,在所有可能分詞路徑中選擇概率最大的一條路徑最為分詞結果Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->public class MPM extends M{   &...  閱讀全文
          posted @ 2012-08-31 10:12 nianzai 閱讀(2449) | 評論 (0)編輯 收藏
          最短路徑分詞法
          public class SPM2 extends M
          {
              
          public static final HashMap<Character,TreeNode> dic = Dictionary.loadFreqDictionary("sogou.txt");
              
              
          /**
               * 
          @return 返回可能匹配詞的長度, 沒有找到返回 0.
               
          */

              
          public ArrayList<Integer> maxMatch(TreeNode node,char[] sen, int offset) 
              
          {
                  ArrayList
          <Integer> list=new ArrayList<Integer>();
                  
          for(int i=offset; i<sen.length; i++
                  
          {
                      node 
          = node.subNode(sen[i]);
                      
          if(node != null
                      
          {
                          
          if(node.isAlsoLeaf()) 
                              list.add(i
          +1);
                      }

                      
          else 
                          
          break;
                  }

                  
          return list;
              }

              
              @Override
              
          public ArrayList<Token> getToken(ArrayList<Sentence> list) 
              
          {
                  ArrayList
          <Token> tokenlist=new ArrayList<Token>();
                  
          for(Sentence sen:list)
                  
          {
                      AdjList g 
          = new AdjList(sen.getText().length+1);//存儲所有被切分的可能的詞
                      int i=0;
                      
          while(i<sen.getText().length)
                      
          {
                          Token token 
          = new Token(new String(sen.getText(),i,1),i,i+1);
                          token.setWeight(
          1);
                          g.addEdge(token);
                          
                          TreeNode n
          =dic.get(sen.getText()[i]);
                          
          if(n!=null)
                          
          {
                              ArrayList
          <Integer> ilist =maxMatch(n, sen.getText(),i);
                              
          if(ilist.size()>0)
                                  
          for(int j=0;j<ilist.size();j++)
                                  
          {
                                      token 
          = new Token(new String(sen.getText(),i,ilist.get(j)-i),i,ilist.get(j));
                                      token.setWeight(
          1);
                                      g.addEdge(token);
                                  }

                          }

                          i
          ++;
                      }

                      
          //System.out.println(g);
                      ArrayList<Integer> ret=maxProb(g);
                      Collections.reverse(ret);
                      
          int first=0;
                      
          for(Integer last:ret)
                      
          {
                          Token token 
          = new Token(new String(sen.getText(),first,last-first),sen.getStartOffset()+first,sen.getStartOffset()+last);
                          tokenlist.add(token);
                          first
          =last;
                      }

                  }

                  
          return tokenlist;
              }

              
              
          int[] prevNode;
              
          double[] prob;
              
              
          //計算出路徑最短的數組
              public ArrayList<Integer> maxProb(AdjList g)
              
          {
                  prevNode 
          = new int[g.verticesNum]; //最佳前驅節點
                  prob = new double[g.verticesNum]; //節點路徑
                  prob[0= 0;//節點0的初始路徑是0
                  
                  
          //按節點求最佳前驅
                  for (int index = 1; index < g.verticesNum; index++)
                      getBestPrev(g,index);
          //求出最佳前驅
                  
                  ArrayList
          <Integer> ret = new ArrayList<Integer>();
                  
          for(int i=(g.verticesNum-1);i>0;i=prevNode[i]) // 從右向左找最佳前驅節點
                      ret.add(i);
                  
          return ret;
              }

              
              
          //計算節點i的最佳前驅節點
              void getBestPrev(AdjList g,int i)
              
          {
                  Iterator
          <Token> it = g.getPrev(i);//得到前驅詞集合,從中挑選最佳前趨詞
                  double maxProb = 1000;
                  
          int maxNode = -1;
                  
                  
          while(it.hasNext())
                  
          {
                      Token itr 
          = it.next();
                      
          double nodeProb = prob[itr.getStart()]+itr.getWeight();//候選節點路徑
                      
          //System.out.println(itr.getWord()+","+nodeProb);
                        if (nodeProb < maxProb)//路徑最短的算作最佳前趨
                        {
                            maxNode 
          = itr.getStart();
                            maxProb 
          = nodeProb;
                        }

                   }

                  prob[i] 
          = maxProb;//節點路徑
                  prevNode[i] = maxNode;//最佳前驅節點
              }

          }


          posted @ 2012-08-24 14:57 nianzai 閱讀(1975) | 評論 (0)編輯 收藏
          全切分分詞程序。中華人民共和國切分成 {中華人民共和國|中華|華人|人民|共和國}。

          能實現中英文數字混合分詞。比如能分出這樣的詞:bb霜、3室、樂phone、touch4、mp3、T恤。
          public class FMW extends M
          {
              
          public static final HashMap<Character,TreeNode> dic = Dictionary.getFmmdic();
              
              
          /**
               * 
          @return 返回可能匹配詞的長度, 沒有找到返回 0.
               
          */

              
          public ArrayList<Integer> maxMatch(TreeNode node,char[] sen, int offset) 
              
          {
                  ArrayList
          <Integer> list=new ArrayList<Integer>();
                  
          for(int i=offset; i<sen.length; i++
                  
          {
                      node 
          = node.subNode(sen[i]);
                      
          if(node != null
                      
          {
                          
          if(node.isAlsoLeaf()) 
                              list.add(i
          +1);
                      }

                      
          else 
                          
          break;
                  }

                  
          if(list.size()==0)
                      list.add(offset);
                  
          return list;
              }

              
              
          public ArrayList<Token> getToken(ArrayList<Sentence> list)
              
          {
                  ArrayList
          <Token> tokenlist=new ArrayList<Token>();
                  
          for(Sentence sen:list)
                  
          {
                      
          int i=0;
                      
          while(i<sen.getText().length)
                      
          {
                          TreeNode n
          =dic.get(sen.getText()[i]);
                          
          if(n!=null)
                          
          {
                              ArrayList
          <Integer> ilist =maxMatch(n, sen.getText(),i);
                              
          if(ilist.size()>1)
                              
          {
                                  
          for(int j=0;j<ilist.size();j++)
                                  
          {
                                      Token token 
          = new Token(new String(sen.getText(),i,ilist.get(j)-i),sen.getStartOffset()+i,sen.getStartOffset()+ilist.get(j));
                                      tokenlist.add(token);
                                  }

                              }

                              
          else
                              
          {
                                  
          if(ilist.get(0)>i)
                                  
          {
                                      Token token 
          = new Token(new String(sen.getText(),i,ilist.get(0)-i),sen.getStartOffset()+i,sen.getStartOffset()+ilist.get(0));
                                      tokenlist.add(token);
                                  }

                                  
          else
                                  
          {
                                      
          if(tokenlist.size()==0 || tokenlist.get(tokenlist.size()-1).getEnd()<=i+sen.getStartOffset())
                                      
          {
                                          Token token 
          = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
                                          tokenlist.add(token);
                                      }

                                  }

                              }

                          }

                          
          else
                          
          {
                              
          if(tokenlist.size()==0 || tokenlist.get(tokenlist.size()-1).getEnd()<=i+sen.getStartOffset())
                              
          {
                                  Token token 
          = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
                                  tokenlist.add(token);
                              }

                          }

                          i
          ++;
                      }

                  }

                  
          return tokenlist;
              }

          }



          posted @ 2012-07-02 14:17 nianzai 閱讀(3082) | 評論 (4)編輯 收藏

          推翻了第一版,參考了其他分詞程序,重新寫的第二版。

          逆向最大匹配中文分詞程序,能實現中英文數字混合分詞。比如能分出這樣的詞:bb霜、3室、樂phone、touch4、mp3、T恤

          public class RMM2 extends M
          {
              
          public static final HashMap<Character,TreeNode> dic = Dictionary.getRmmdic();
              
              
          /**
               * 
          @return 返回匹配最長詞的長度, 沒有找到返回 0.
               
          */

              
          public int maxMatch(TreeNode node,char[] sen, int offset) 
              
          {
                  
          int idx = offset;
                  
          for(int i=offset; i>=0; i--
                  
          {
                      node 
          = node.subNode(sen[i]);
                      
          if(node != null
                      
          {
                          
          if(node.isAlsoLeaf()) 
                              idx 
          = i; 
                      }

                      
          else 
                          
          break;
                  }

                  
          return idx ;
              }

              
              
          public ArrayList<Token> getToken(ArrayList<Sentence> list)
              
          {
                  Collections.reverse(list);
                  ArrayList
          <Token> tokenlist=new ArrayList<Token>();
                  
          for(Sentence sen:list)
                  
          {
                      
          int i=sen.getText().length-1;
                      
          while(i>-1)
                      
          {
                          TreeNode n
          =dic.get(sen.getText()[i]);
                          
          if(n!=null)
                          
          {
                              
          int j=maxMatch(n, sen.getText(),i);
                              
          if(j<i)
                              
          {
                                  Token token 
          = new Token(new String(sen.getText(),j,i-j+1),sen.getStartOffset()+j,sen.getStartOffset()+i+1);
                                  tokenlist.add(token);
                                  i
          =j-1;
                              }

                              
          else
                              
          {
                                  Token token 
          = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
                                  tokenlist.add(token);
                                  i
          --;
                              }

                          }

                          
          else
                          
          {
                              Token token 
          = new Token(new String(sen.getText(),i,1),sen.getStartOffset()+i,sen.getStartOffset()+i+1);
                              tokenlist.add(token);
                              i
          --;
                          }

                      }

                  }

                  Collections.reverse(tokenlist);
                  
          return tokenlist;
              }

          }

          posted @ 2012-06-29 17:29 nianzai 閱讀(1371) | 評論 (0)編輯 收藏
          主站蜘蛛池模板: 开原市| 易门县| 土默特右旗| 大厂| 理塘县| 广元市| 沾化县| 深水埗区| 阳江市| 织金县| 阿瓦提县| 阜宁县| 抚州市| 高州市| 绵阳市| 鄂州市| 凭祥市| 寻乌县| 黑龙江省| 新巴尔虎右旗| 灵石县| 吉木萨尔县| 榆中县| 申扎县| 双鸭山市| 沙河市| 仁布县| 集安市| 房产| 嵊州市| 托克逊县| 苍山县| 永靖县| 孝义市| 宁明县| 县级市| 钟山县| 南澳县| 阿合奇县| 耿马| 苗栗市|