中文字幕av在线播放,欧美精品国产一区,中文字幕亚洲综合久久

appfuse 再学习！

ibmsoft — Fri, 11 Aug 2006 08:44:00 GMT

好久没有学习搞web开发了�Q�最�q�要弄一个东西，又把appfuse扑և�来进行研�I?br />
用最新的appfuse1.9.3版本�Q?br />
�?http"://appfuse.org/下蝲appfuse1.93

用idea打开
只需要修改properties.xml中的

把其中的localhost修改成实际的ip��ok�?br />比如说是�Q?92.169.0.1:3306�Q�注意一定要加上端口��P��

然后在ant中运行相关的��d��Q?br />我这里的情况是：
建数据库表和数据的不走是
�q�行 db�Q�prepare�Q�－》db�Q�create�Q�－》db�Q�load�Q�这��h��据就��Z��?br />
然后deploy�Q�在ie中运行appfuse��ok了！

ibmsoft 2006-08-11 16:44 发表评论

use google or baidu get the useful url

ibmsoft — Tue, 25 Jul 2006 09:26:00 GMT

1 /*
2  * Copyright (c) 2006 Your Corporation. All Rights Reserved.
3  */
4 package liuxuan;
5
6 /**
7  * Created by IntelliJ IDEA.
8  * User: Administrator
9  * Date: 2006-7-26
10  * Time: 15:33:49
11  * To change this template use File | Settings | File Templates.
12  */
13 import org.htmlparser.Node;
14 import org.htmlparser.Parser;
15 import org.htmlparser.http.ConnectionManager;
16 import org.htmlparser.tags.LinkTag;
17 import org.htmlparser.util.ParserException;
18 import org.htmlparser.visitors.ObjectFindingVisitor;
19
20 import java.sql.Statement;
21 import java.sql.DriverManager;
22 import java.sql.Connection;
23 import java.sql.SQLException;
24
25 public class LinkDemo
26 {
27     public static void main (String[] args) throws ParserException, SQLException
28     {
29         ConnectionManager cn = new ConnectionManager();
30         cn.setProxyHost("10.75.1.38");
31         cn.setProxyPort(80);
32         Parser.setConnectionManager(cn);
33         Parser parser;
34         //parser.s
35         String[] pyurl = new String[2] ;
36
37         pyurl[0]="http://www.google.cn/search?num=100&hl=zh-CN&newwindow=1&q=%E6%BF%AE%E9%98%B3&btnG=%E6%90%9C%E7%B4%A2&meta=cr%3DcountryCN";
38         pyurl[1]="http://www.google.cn/search?q=%E6%BF%AE%E9%98%B3&num=100&hl=zh-CN&lr=&cr=countryCN&newwindow=1&start=100&sa=N";
39         for (int j=0;j<pyurl.length;j++) {
40             parser = new Parser (pyurl[j]);
41             ObjectFindingVisitor visitor = new ObjectFindingVisitor (LinkTag.class);
42             parser.visitAllNodesWith (visitor);
43             Node[] links = visitor.getTags ();
44             String sql;
45                 try {
46                         Class.forName("com.mysql.jdbc.Driver");
47                     } catch (ClassNotFoundException e) {
48                         e.printStackTrace();  //To change body of catch statement use File | Settings | File Templates.
49                     }
50                     Connection conn = null;
51                     try {
52                         conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/crawdb", "root", "root");
53                     } catch (SQLException e) {
54                         e.printStackTrace();  //To change body of catch statement use File | Settings | File Templates.
55                     }
56              Statement stmt = conn.createStatement();
57             for (int i = 0; i < links.length; i++)
58             {
59                     sql="";
60                 LinkTag linkTag = (LinkTag)links[i];
61                 if (linkTag.getLink().indexOf("cache")<0 &&  linkTag.getLink().indexOf("google")<0 &&linkTag.getLinkText().indexOf("�Ȯ阳")>0)  {
62
63
64                       sql="insert into urls(name,note,url) values('"+linkTag.getLinkText ()+"','"+"lixuan"+"','"+linkTag.getLink ()+"')";
65                       stmt.executeUpdate(sql);
66                         //rs.close();
67
68                     System.out.print ("\"" + linkTag.getLinkText () + "\" => ");
69                 System.out.println (linkTag.getLink ());
70                 }
71             }
72              stmt.close();
73              conn.close();
74         }
75     }
76
77 }
78

ibmsoft 2006-07-25 17:26 发表评论

Nutch Cache Page picture problem

ibmsoft — Wed, 28 Jun 2006 13:03:00 GMT

I use nutch to crawl the intranet.but you know ,the cache.jsp have mang problem (X).Because I filter the gif|jgf and so on
then I use ORO replace the html content use my customer pif
Code:
1    String sRegexpSrc="src\\s*=\\s*\"([\\.]*)/([a-z]*)/([^\"]+)";
2    String sRegxpBackground ="background\\s*=\\s*\"([.]*)/([a-z]*)/([^\"]+)";
3    String sAdd = "";
4    String sNewContent="";
5    PatternCompiler compiler = new Perl5Compiler();
6    Pattern pattern = null,pattern1 = null ;
7    try{
8        pattern = compiler.compile(sRegexpSrc,Perl5Compiler.CASE_INSENSITIVE_MASK);
9        pattern1 = compiler.compile(sRegxpBackground,Perl5Compiler.CASE_INSENSITIVE_MASK);
10    }catch (MalformedPatternException e){
11
12        e.printStackTrace();
13    }
14    PatternMatcher matcher = new Perl5Matcher();
15
16if (matcher.contains(content, pattern)){
17                    MatchResult result = matcher.getMatch();
18                    //System.out.println(result.toString());
19                    sAdd = result.group(1)+"/"+result.group(2)+"/"+result.group(3);
20                    //System.out.println("sAdd= "+sAdd);
21                    sNewContent=content.replaceAll(sAdd,"\\img\\liuxuan");
22                    //System.out.println("FinalString="+sTest.replaceAll(sAdd,"/img/liuxuan.png"));
23            //System.out.print("sTest= "+result.group(1)+"/"+result.group(2));
24        }else{
25            //System.out.print("Can't find the String ");
26
27        }

ibmsoft 2006-06-28 21:03 发表评论

ibmsoft — Wed, 14 Jun 2006 11:50:00 GMT

come from

http://www.javafan.net/article/20051223151611967.html

我这里讲的不是怎么使用搜烦引擎�Q�而是怎么让程序利用搜索引擎来搜集�|�址�Q�这有什么用�Q�很有用�Q�网上动辄有人叫卖网址数据库，如发布��Y件网址、邮件地址、论坛网址、行业网址�Q�这些网址是怎么来的呢？不可能是人手工收集而来的，都是让程序利用搜索引擎取到的�Q�如果您需要某�cȝ��址信息数据�Q�就跟我来一��L��I�一下，非常��单�?/p>

　　本文采用Java语言写成�Q�以google和百度搜索引擎�ؓ对象�?/p>

　　我们要利用google、百度搜索引擎的搜烦规则中的两条�Q�关键字搜烦和inurl搜烦。什么是inurl搜烦�Q�就是你所要搜索的�|�址中本�w�带有的关键字，比如http://www.xxx.com/post.asp ,�q�个�|�址��含有post.asp�q�样的关键字�Q�在搜烦引擎中填写规则是 inurl:post.asp,�q�是攉��|�址的关键，因�ؓ很多�|�址本��n会带有特定的信息�Q�比如��Y件发布的�|�页�|�址信息中多含有 publish、submit、tuijian�q�样的信息，如http://www.xxx.com/publish.asp,�q�样的网址多是发布信息的网��，在结合网��中本��n可能含有的关键字�Q�就可以用搜索引擎搜索出�l�果�Q�然后我们利用程序将�l�果取回�Q�对HTML��面�q�行分析�Q�去除没有用的信息，��有用的�|�址信息写入文�g或者数据库�Q�就可以�l�其它应用程序或者�h来��用了�?/p>

　　�W�一步，用程序将搜烦�l�果取回�Q�先以百度�ؓ例，比如我们要搜索��Y件发布的�|�页�Q�关键字采用 “��Y件发�?版本 inurl:publish.asp",先登录百度看看，��关键字写入�Q�然后提交，在地址栏就会看�?http://www.baidu.com/s?ie=gb2312&bs=%C8%ED%BC%FE%B7%A2%B2%BC+%C8%ED%BC%FE%B0%E6%B1%BE+inurl%3Apublish.asp&sr=&z=&cl=3&f=8&wd=%C8%ED%BC%FE%B7%A2%B2%BC+%B0%E6%B1%BE+inurl%3Apublish.asp&ct=0 ,中文关键字全都变成编码了�Q�没有关�p�，我们在程序中直接用中文也是可以的�Q�其中多个关键字用＋��L��q�，��L��一些没有用的信息，我们可以把地址优化�?http://www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& wd=软�g发布+版本+inurl%3Apublish%2Easp&pn=0&cl=0�Q�其中rn表示一��|��C�多��个�l�果�Q�wd=表示你要搜烦的关键字�Q�pn表示从第几条开始显�C�，�q�个pn��是我们�E�序循环取结果的变量�Q�每20条��@环一�ơ。我们用Java写的�E�序来模拟这个搜索的�q�程�Q�用到的关键�c�Mؓ java.net.HttpURLConnection,java.net.URL�Q�先写一个提交搜索的class,关键代码如下�Q?/p>

class Search
{
　public URL url;
　public HttpURLConnection http;
　public java.io.InputStream urlstream;
　......
　for(int i=0;i++;i <100)
　{
　　......
　　try {
　　　url = new URL("www.baidu.com/s?lm=0&si=&rn=20&ie=gb2312&ct=0& wd=软�g发布+版本+inurl%3Apublish%2Easp&pn="+beginrecord+"&cl=0");
　　}catch(Exception ef){};
　　try {
　　　http = (HttpURLConnection) url.openConnection();
　　　http.connect();
　　　urlstream = http.getInputStream();
　　}catch(Exception ef){};
　　java.io.BufferedReader l_reader = new java.io.
　　BufferedReader(new java.io.InputStreamReader(urlstream));
　　try {
　　　while ((currentLine = l_reader.readLine()) != null) {
　　　　totalstring += currentLine;
　　　}
　　} catch (IOException ex3) {}
　　....
　　//本次搜烦的结果已�l�放到totalstring中了�Q�是一些HTML代码�Q�需要下一步进行分析了�?br />}
　　再以google��Z��Q�稍微有些不同，google�Ҏ��览器�q�行了一些检��，�~�码也不同，URL为http: //www.google.com/search?q=软�g发布+版本+inurl:publish.asp&hl=zh-CN&lr= &newwindow=1&start=0&sa=N&ie=UTF-8,其中�~�码要用ie=UTF-8,start表示从第几条记录昄��Q�需要注意的是google�Ҏ��览器�q�要��查，如果��览器不�W�合它的要求�Q�将�q�回错误代码�Q�所以在模拟��览器提交中�Q�我们要多加一行代码，修改关键部分要将http属性中的User-Agent讄��为常用的��览器，比如Mozilla/4.0,代码如下�Q?/p>

try {
　http = (HttpURLConnection) url.openConnection();
　http.setRequestProperty("User-Agent", "Mozilla/4.0");
　http.connect();
　urlstream = http.getInputStream();
}catch(Exception ef){};

　　�W�二步，对取回的HTML�~�码�q�行分析�Q�取出其中的有用�|�址信息�Q��ƈ写入文�g或者数据库�Q�由于这些搜索引擎都有网��快照和�怼��|�页�{�网址信息��h��在HTML中，我们要将�q�些�|�址信息剔除掉，剔除的关键就是找出其中的规律�Q�百度搜索引擎中的网��快照和其它没有用的的地址都含有baidu�q�个关键字，而google中含有的无用�|�址信息含有关键�?google和cache,我们��根据这些关键字剔除无用�|�址信息。在Java中要对字�W�串�q�行分析必然要用�?java.util.StringTokenize�q�个�c�，用来��字�W�串以特定的分隔�W�分开�Q�java.util.regex.Pattern�?java.util.regex.Matcher用来匚w��字符�Ԍ��关键代码如下�Q?/p>

class CompareStr
{
　public boolean comparestring(String oristring,String tostring)
　{
　　Pattern p=null; //正则表达�?br />　　Matcher m=null; //操作的字�W�串
　　boolean b;
　　p = Pattern.compile(oristring,Pattern.CASE_INSENSITIVE);
　　m = p.matcher(tostring);
　　b = m.find();
　　return b;
　}
}

class AnalyUrl
{
　......
　StringTokenizer token = new StringTokenizer(totalstring," <> \"");
　String firstword;
　CompareStrcompstr = new CompareStr();
　String dsturl = null;
　while (token.hasMoreTokens())
　{
　　firstword = token.nextToken();
　　if (!compstr.comparestring("google.com", firstword) && !compstr.comparestring("cache",firstword))
　　{
　　　if (firstword.length() > 7)
　　　{
　　　　dsturl = firstword.substring(6,firstword.length() - 1);
　　　　WriteUrl(dsturl); //成功取到URL�Q�记录到文�g�?br />　　　}
　　}
　}
}
　　通过以上�E�序�Q�我们就可以攉��到自��p��的网址信息了，�q�可以再写另外一个应用程序，�Ҏ��集到的网址信息�q�一步分析，取出自己需要的信息�Q�这里就不再累赘�Q�道理都是一��L��。最后需说明一点，google搜烦引擎搜烦所能返回的�l�果不能��过1000条，�q�了1000条，��q��接提�C�“对不�v�Q?Google 为所有查询的�l�果数都不会��过 1000 个。”，癑ֺ�搜烦引擎�q�回的结果不能超�q?00多条�Q�所以我们要搜烦时尽可能多加关键字，��结果范围羃��?/p>

ibmsoft 2006-06-14 19:50 发表评论