IBMSOFT

          ibmsoft 努力不一定成功,放棄一定失敗! 堅(jiān)持自己的理想,實(shí)現(xiàn)自己的目標(biāo)! 有好的想法就要出想辦法實(shí)現(xiàn)!

          BlogJava 首頁 新隨筆 聯(lián)系 聚合 管理
            8 Posts :: 2 Stories :: 3 Comments :: 0 Trackbacks
          ?

          我這里講的不是怎么使用搜索引擎,而是怎么讓程序利用搜索引擎來搜集網(wǎng)址,這有什么用?很有用!網(wǎng)上動(dòng)輒有人叫賣網(wǎng)址數(shù)據(jù)庫,如發(fā)布軟件網(wǎng)址、郵件地址、論壇網(wǎng)址、行業(yè)網(wǎng)址,這些網(wǎng)址是怎么來的呢?不可能是人手工收集而來的,都是讓程序利用搜索引擎取到的,如果您需要某類網(wǎng)址信息數(shù)據(jù),就跟我來一起研究一下,非常簡(jiǎn)單。

            本文采用Java語言寫成,以google和百度搜索引擎為對(duì)象。

            我們要利用google、百度搜索引擎的搜索規(guī)則中的兩條,關(guān)鍵字搜索和inurl搜索。什么是inurl搜索,就是你所要搜索的網(wǎng)址中本身帶有的關(guān)鍵字,比如http://www.xxx.com/post.asp ,這個(gè)網(wǎng)址就含有post.asp這樣的關(guān)鍵字,在搜索引擎中填寫規(guī)則是 inurl:post.asp,這是收集網(wǎng)址的關(guān)鍵,因?yàn)楹芏嗑W(wǎng)址本身會(huì)帶有特定的信息,比如軟件發(fā)布的網(wǎng)頁網(wǎng)址信息中多含有 publish、submit、tuijian這樣的信息,如http://www.xxx.com/publish.asp,這樣的網(wǎng)址多是發(fā)布信息的網(wǎng)頁,在結(jié)合網(wǎng)頁中本身可能含有的關(guān)鍵字,就可以用搜索引擎搜索出結(jié)果,然后我們利用程序?qū)⒔Y(jié)果取回,對(duì)HTML頁面進(jìn)行分析,去除沒有用的信息,將有用的網(wǎng)址信息寫入文件或者數(shù)據(jù)庫,就可以給其它應(yīng)用程序或者人來使用了。

            第一步,用程序?qū)⑺阉鹘Y(jié)果取回,先以百度為例,比如我們要搜索軟件發(fā)布的網(wǎng)頁,關(guān)鍵字采用 “軟件發(fā)布 版本 inurl:publish.asp",先登錄百度看看,將關(guān)鍵字寫入,然后提交,在地址欄就會(huì)看到 http://www.baidu.com/s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文關(guān)鍵字全都變成編碼了,沒有關(guān)系,我們?cè)诔绦蛑兄苯佑弥形囊彩强梢缘模渲卸鄠€(gè)關(guān)鍵字用+號(hào)相連,去掉一些沒有用的信息,我們可以把地址優(yōu)化成 http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn=0&cl=0,其中rn表示一頁顯示多少個(gè)結(jié)果,wd=表示你要搜索的關(guān)鍵字,pn表示從第幾條開始顯示,這個(gè)pn將是我們程序循環(huán)取結(jié)果的變量,每20條循環(huán)一次。我們用Java寫的程序來模擬這個(gè)搜索的過程,用到的關(guān)鍵類為 java.net.HttpURLConnection,java.net.URL,先寫一個(gè)提交搜索的class,關(guān)鍵代碼如下:

          class Search
          {
           public URL url;
           public HttpURLConnection http;
           public java.io.InputStream urlstream;
           ......
           for(int i=0;i++;i <100)
           {
            ......
            try {
             url = new URL("www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& wd=軟件發(fā)布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");
            }catch(Exception ef){};
            try {
             http = (HttpURLConnection) url.openConnection();
             http.connect();
             urlstream = http.getInputStream();
            }catch(Exception ef){};
            java.io.BufferedReader l_reader = new java.io.
            BufferedReader(new java.io.InputStreamReader(urlstream));
            try {
             while ((currentLine = l_reader.readLine()) != null) {
              totalstring += currentLine;
             }
            } catch (IOException ex3) {}
            ....
            //本次搜索的結(jié)果已經(jīng)放到totalstring中了,是一些HTML代碼,需要下一步進(jìn)行分析了。
          }
            再以google為例,稍微有些不同,google對(duì)瀏覽器進(jìn)行了一些檢測(cè),編碼也不同,URL為http: //www.google.com/search?q=軟件發(fā)布+版本+inurl:publish.asp&hl=zh-CN&lr= &newwindow=1&start=0&sa=N&ie=UTF-8,其中編碼要用ie=UTF-8,start表示從第幾條記錄顯示,需要注意的是google對(duì)瀏覽器還要檢查,如果瀏覽器不符合它的要求,將返回錯(cuò)誤代碼,所以在模擬瀏覽器提交中,我們要多加一行代碼,修改關(guān)鍵部分要將http屬性中的User-Agent設(shè)置為常用的瀏覽器,比如Mozilla/4.0,代碼如下:

          try {
           http = (HttpURLConnection) url.openConnection();
           http.setRequestProperty("User-Agent", "Mozilla/4.0");
           http.connect();
           urlstream = http.getInputStream();
          }catch(Exception ef){};

            第二步,對(duì)取回的HTML編碼進(jìn)行分析,取出其中的有用網(wǎng)址信息,并寫入文件或者數(shù)據(jù)庫,由于這些搜索引擎都有網(wǎng)頁快照和相似網(wǎng)頁等網(wǎng)址信息混雜在HTML中,我們要將這些網(wǎng)址信息剔除掉,剔除的關(guān)鍵就是找出其中的規(guī)律,百度搜索引擎中的網(wǎng)頁快照和其它沒有用的的地址都含有baidu這個(gè)關(guān)鍵字,而google中含有的無用網(wǎng)址信息含有關(guān)鍵字 google和cache,我們就根據(jù)這些關(guān)鍵字剔除無用網(wǎng)址信息。在Java中要對(duì)字符串進(jìn)行分析必然要用到 java.util.StringTokenize這個(gè)類,用來將字符串以特定的分隔符分開,java.util.regex.Pattern和 java.util.regex.Matcher用來匹配字符串,關(guān)鍵代碼如下:

          class CompareStr
          {
           public boolean comparestring(String oristring,String tostring)
           {
            Pattern p=null; //正則表達(dá)式
            Matcher m=null; //操作的字符串
            boolean b;
            p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);
            m = p.matcher(tostring);
            b = m.find();
            return b;
           }
          }

          class AnalyUrl
          {
           ......
           StringTokenizer token = new StringTokenizer(totalstring," <> \"");
           String firstword;
           CompareStrcompstr = new CompareStr();
           String dsturl = null;
           while (token.hasMoreTokens())
           {
            firstword = token.nextToken();
            if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))
            {
             if (firstword.length() > 7)
             {
              dsturl = firstword.substring(6,firstword.length() - 1);
              WriteUrl(dsturl); //成功取到URL,記錄到文件中
             }
            }
           }
          }
            通過以上程序,我們就可以收集到自己要的網(wǎng)址信息了,還可以再寫另外一個(gè)應(yīng)用程序,對(duì)收集到的網(wǎng)址信息進(jìn)一步分析,取出自己需要的信息,這里就不再累贅,道理都是一樣的。最后需說明一點(diǎn),google搜索引擎搜索所能返回的結(jié)果不能超過1000條,過了1000條,就直接提示“對(duì)不起, Google 為所有查詢的結(jié)果數(shù)都不會(huì)超過 1000 個(gè)。”,百度搜索引擎返回的結(jié)果不能超過700多條,所以我們要搜索時(shí)盡可能多加關(guān)鍵字,將結(jié)果范圍縮小。

          posted on 2006-06-14 19:50 ibmsoft 閱讀(772) 評(píng)論(1)  編輯  收藏

          Feedback

          # re: Java實(shí)現(xiàn)利用搜索引擎收集網(wǎng)址的程序 2006-06-19 14:27 javaPlayer
          好!!!!!!!!!!!!!!!!  回復(fù)  更多評(píng)論
            


          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 洞头县| 灵台县| 南皮县| 东台市| 临泉县| 三河市| 盐源县| 连南| 巴塘县| 林周县| 清丰县| 威远县| 若尔盖县| 宁国市| 兰坪| 马龙县| 桐梓县| 垫江县| 泗阳县| 永清县| 剑河县| 来安县| 通渭县| 德江县| 武邑县| 双柏县| 微山县| 和田县| 渭源县| 石河子市| 利川市| 理塘县| 凌海市| 庆云县| 沅江市| 卢龙县| 太原市| 台东市| 河西区| 民乐县| 略阳县|