日韩一区二区在线免费,一区二区三区亚洲,神马久久久久久

xzc — Wed, 28 Nov 2018 03:52:00 GMT

原文链接�Q�http://www.cnblogs.com/juandx/p/4962089.html python中对文�g、文件夹�Q�文件操作函敎ͼ�的操作需要涉及到os模块和shutil模块�? 得到当前工作目录�Q�即当前Python脚本工作的目录�\�? os.getcwd() �q�回指定目录下的所有文件和目录�?os.listdir() 函数用来删除一个文�?os.remove() 删除多个目录�Q�os.removedirs�Q�r“c�Q�\python”�Q? ��验给出的路径是否是一个文�Ӟ��os.path.isfile() ��验给出的路径是否是一个目录：os.path.isdir() 判断是否是绝对�\径：os.path.isabs() ��验给出的路径是否真地�?os.path.exists() �q�回一个�\径的目录名和文�g�?os.path.split() eg os.path.split(‘/home/swaroop/byte/code/poem.txt’) �l�果�Q?‘/home/swaroop/byte/code’, ‘poem.txt’) 分离扩展名：os.path.splitext() 获取路径名：os.path.dirname() 获取文�g名：os.path.basename() �q�行shell命��o: os.system() ��d��和设�|�环境变�?os.getenv() 与os.putenv() �l�出当前�q�_��使用的行�l�止�W?os.linesep Windows使用’\r\n’�Q�Linux使用’\n’而Mac使用’\r’ 指示你正在��用的�q�_��Q�os.name 对于Windows�Q�它�?#8217;nt’�Q�而对于Linux/Unix用户�Q�它�?#8217;posix’ 重命名：os.rename�Q�old�Q?new�Q? 创徏多��目录�Q�os.makedirs�Q�r“c�Q�\python\test”�Q? 创徏单个目录�Q�os.mkdir�Q?#8220;test”�Q? 获取文�g属性：os.stat�Q�file�Q? 修改文�g权限与时间戳�Q�os.chmod�Q�file�Q? �l�止当前�q�程�Q�os.exit�Q�）获取文�g大小�Q�os.path.getsize�Q�filename�Q? 文�g操作�Q? os.mknod(“test.txt”) 创徏�I�文�? fp = open(“test.txt”,w) 直接打开一个文�Ӟ��如果文�g不存在则创徏文�g 关于open 模式�Q? w 以写方式打开�Q? a 以追加模式打开 (�?EOF 开�? 必要时创建新文�g) r+ 以读写模式打开 w+ 以读写模式打开 (参见 w ) a+ 以读写模式打开 (参见 a ) rb 以二�q�制��L��式打开 wb 以二�q�制写模式打开 (参见 w ) ab 以二�q�制�q�加模式打开 (参见 a ) rb+ 以二�q�制��d��模式打开 (参见 r+ ) wb+ 以二�q�制��d��模式打开 (参见 w+ ) ab+ 以二�q�制��d��模式打开 (参见 a+ ) fp.read([size]) #size��取的长度�Q�以byte为单�? fp.readline([size]) #��M��行，如果定义了size�Q�有可能�q�回的只是一行的一部分 fp.readlines([size]) #把文件每一行作��Z��个list的一个成员，�q�返回这个list。其实它的内部是通过循环调用readline()来实现的。如果提供size参数�Q�size是表�C��取内容的总长�Q�也��是说可能只��d��文�g的一部分�? fp.write(str) #把str写到文�g中，write()�q�不会在str后加上一个换行符 fp.writelines(seq) #把seq的内容全部写到文件中(多行一�ơ性写�?。这个函��C��只是忠实地写入，不会在每行后面加上�Q何东�ѝ�? fp.close() #关闭文�g。python会在一个文件不用后自动关闭文�g�Q�不�q�这一功能没有保证�Q�最好还是养成自己关闭的习惯�?如果一个文件在关闭后还对其�q�行操作会��生ValueError fp.flush() #把缓冲区的内容写入硬�? fp.fileno() #�q�回一个长整型�?#8221;文�g标签“ fp.isatty() #文�g是否是一个终端设备文�Ӟ��unix�pȝ��中的�Q? fp.tell() #�q�回文�g操作标记的当前位�|�，以文件的开头�ؓ原点 fp.next() #�q�回下一行，�q�将文�g操作标记位移��C��一行。把一个file用于for … in file�q�样的语句时�Q�就是调用next()函数来实现遍历的�? fp.seek(offset[,whence]) #��文件打操作标记�U�d��offset的位�|�。这个offset一般是相对于文件的开头来计算的，一般�ؓ正数。但如果提供了whence参数��׃��一定了�Q�whence可以�?表示从头开始计��，1表示以当前位�|��ؓ原点计算�?表示以文件末��ؓ原点�q�行计算。需要注意，如果文�g以a或a+的模式打开�Q�每�ơ进行写操作�Ӟ��文�g操作标记会自动返回到文�g末尾�? fp.truncate([size]) #把文件裁成规定的大小�Q�默认的是裁到当前文件操作标记的位置。如果size比文件的大小�q�要大，依据�pȝ��的不同可能是不改变文�Ӟ��也可能是�?把文件补到相应的大小�Q�也可能是以一些随机的内容加上厅R�? 目录操作�Q? os.mkdir(“file”) 创徏目录复制文�g�Q? shutil.copyfile(“oldfile”,”newfile”) oldfile和newfile都只能是文�g shutil.copy(“oldfile”,”newfile”) oldfile只能是文件夹�Q�newfile可以是文�Ӟ��也可以是目标目录复制文�g夹： shutil.copytree(“olddir”,”newdir”) olddir和newdir都只能是目录�Q�且newdir必须不存�? 重命名文�Ӟ��目录�Q? os.rename(“oldname”,”newname”) 文�g或目录都是��用这条命�? �U�d��文�g�Q�目录） shutil.move(“oldpos”,”newpos”) 删除文�g os.remove(“file”) 删除目录 os.rmdir(“dir”)只能删除�I�目�? shutil.rmtree(“dir”) �I�目录、有内容的目录都可以�? 转换目录 os.chdir(“path”) 换�\�? Python��d��文�g 1.open 使用open打开文�g后一定要记得调用文�g对象的close()�Ҏ��。比如可以用try/finally语句来确保最后能关闭文�g�? file_object = open(‘thefile.txt’) try: all_the_text = file_object.read( ) finally: file_object.close( ) 注：不能把open语句攑֜�try块里�Q�因为当打开文�g出现异常�Ӟ��文�g对象file_object无法执行close()�Ҏ��? 2.��L��? ��L��本文�? input = open('data', 'r') #�W�二个参数默认�ؓr input = open('data') 1 2 3 ��M��q�制文�g input = open('data', 'rb') 1 ��d��所有内�? file_object = open('thefile.txt') try: all_the_text = file_object.read( ) finally: file_object.close( ) 1 2 3 4 5 ��d��定字�? file_object = open('abinfile', 'rb') try: while True: chunk = file_object.read(100) if not chunk: break do_something_with(chunk) finally: file_object.close( ) 1 2 3 4 5 6 7 8 9 ��L��? list_of_all_the_lines = file_object.readlines( ) 1 如果文�g是文本文�Ӟ��q�可以直接遍历文件对象获取每行： for line in file_object: process line 1 2 3.写文�? 写文本文�? output = open('data', 'w') 1 写二�q�制文�g output = open('data', 'wb') 1 �q�加写文�? output = open('data', 'w+') 1 写数�? file_object = open('thefile.txt', 'w') file_object.write(all_the_text) file_object.close( ) 1 2 3 写入多行 file_object.writelines(list_of_text_strings) 1 注意�Q�调用writelines写入多行在性能上会比��用write一�ơ性写入要高�? 在处理日志文件的时候，常常会遇到这��L��情况�Q�日志文件巨大，不可能一�ơ性把整个文�g��d��到内存中�q�行处理�Q�例如需要在一台物理内存�ؓ 2GB 的机器上处理一�?2GB 的日志文�Ӟ��我们可能希望每次只处理其�?200MB 的内宏V�? �?Python 中，内置�?File 对象直接提供了一�?readlines(sizehint) 函数来完成这��L��事情。以下面的代码�ؓ例： file = open('test.log', 'r')sizehint = 209715200 # 200Mposition = 0lines = file.readlines(sizehint)while not file.tell() - position < 0: position = file.tell() lines = file.readlines(sizehint) 1 每次调用 readlines(sizehint) 函数�Q�会�q�回大约 200MB 的数据，而且所�q�回的必焉��是完整的行数据，大多数情况下�Q�返回的数据的字节数会稍微比 sizehint 指定的值大一点（除最后一�ơ调�?readlines(sizehint) 函数的时候）。通常情况下，Python 会自动将用户指定�?sizehint 的��D��整成内部�~�存大小的整数倍�? file在python是一个特�D�的�c�d��Q�它用于在python�E�序中对外部的文件进行操作。在python中一切都是对象，file也不例外�Q�file有file的方法和属性。下面先来看如何创徏一个file对象�Q? file(name[, mode[, buffering]]) 1 file()函数用于创徏一个file对象�Q�它有一个别名叫open()�Q�可能更形象一些，它们是内�|�函数。来看看它的参数。它参数都是以字�W�串的�Ş式传递的。name是文件的名字�? mode是打开的模式，可选的��gؓr w a U�Q�分别代表读�Q�默认） �?��d��支持各种换行�W�的模式。用w或a模式打开文�g的话�Q�如果文件不存在�Q�那么就自动创徏。此外，用w模式打开一个已�l�存在的文�g�Ӟ��原有文�g的内容会被清�I�，因�ؓ一开始文件的操作的标记是在文件的开头的�Q�这时候进行写操作�Q�无疑会把原有的内容�l�抹掉。由于历史的原因�Q�换行符在不同的�pȝ��中有不同模式�Q�比如在 unix中是一个\n�Q�而在windows中是‘\r\n’�Q�用U模式打开文�g�Q�就是支持所有的换行模式�Q�也��p��‘\r’ ‘\n’ ‘\r\n’都可表示换行�Q�会有一个tuple用来存贮�q�个文�g中用到过的换行符。不�q�，虽说换行有多�U�模式，��d��python中统一用\n代替。在模式字符的后面，�q�可以加�? b t�q�两�U�标识，分别表示可以�Ҏ��件同时进行读写操作和用二�q�制模式、文本模式（默认�Q�打开文�g�? buffering如果�?表示不进行缓�?如果�?表示�q�行“行缓�?#8220;;如果是一个大�?的数表示�~�冲区的大小�Q�应该是以字节�ؓ单位的�? file对象有自��q��属性和�Ҏ��。先来看看file的属性�? closed #标记文�g是否已经关闭�Q�由close()改写 encoding #文�g�~�码 mode #打开模式 name #文�g�? newlines #文�g中用到的换行模式�Q�是一个tuple softspace #boolean型，一般�ؓ0�Q�据说用于print 1 2 3 4 5 6 file的读写方法： F.read([size]) #size��取的长度�Q�以byte为单�? F.readline([size]) #��M��行，如果定义了size�Q�有可能�q�回的只是一行的一部分 F.readlines([size]) #把文件每一行作��Z��个list的一个成员，�q�返回这个list。其实它的内部是通过循环调用readline()来实现的。如果提供size参数�Q�size是表�C��取内容的总长�Q�也��是说可能只��d��文�g的一部分�? F.write(str) #把str写到文�g中，write()�q�不会在str后加上一个换行符 F.writelines(seq) #把seq的内容全部写到文件中。这个函��C��只是忠实地写入，不会在每行后面加上�Q何东�ѝ�? file的其他方法： F.close() #关闭文�g。python会在一个文件不用后自动关闭文�g�Q�不�q�这一功能没有保证�Q�最好还是养成自己关闭的习惯。如果一个文件在关闭后还对其�q�行操作会��生ValueError F.flush() #把缓冲区的内容写入硬�? F.fileno() #�q�回一个长整型�?#8221;文�g标签“ F.isatty() #文�g是否是一个终端设备文�Ӟ��unix�pȝ��中的�Q? F.tell() #�q�回文�g操作标记的当前位�|�，以文件的开头�ؓ原点 F.next() #�q�回下一行，�q�将文�g操作标记位移��C��一行。把一个file用于for ... in file�q�样的语句时�Q�就是调用next()函数来实现遍历的�? F.seek(offset[,whence]) #��文件打操作标记�U�d��offset的位�|�。这个offset一般是相对于文件的开头来计算的，一般�ؓ正数。但如果提供了whence参数��׃��一定了�Q�whence可以�?表示从头开始计��，1表示以当前位�|��ؓ原点计算�?表示以文件末��ؓ原点�q�行计算。需要注意，如果文�g以a或a+的模式打开�Q�每�ơ进行写操作�Ӟ��文�g操作标记会自动返回到文�g末尾�? F.truncate([size]) #把文件裁成规定的大小�Q�默认的是裁到当前文件操作标记的位置。如果size比文件的大小�q�要大，依据�pȝ��的不同可能是不改变文�Ӟ��也可能是�?把文件补到相应的大小�Q�也可能是以一些随机的内容加上厅R�? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 http://www.cnblogs.com/allenblogs/archive/2010/09/13/1824842.html http://www.cnblogs.com/rollenholt/archive/2012/04/23/2466179.html

xzc 2018-11-28 11:52 发表评论

HDFS副本讄��——默�?

xzc — Mon, 26 Nov 2018 03:52:00 GMT

首先 dfs.replication�q�个参数是个client参数�Q�即node level参数。需要在每台datanode上设�|��? 其实默认�?个副本已�l�够用了�Q�设�|�太多也没什么用�? 一个文�Ӟ��上传到hdfs上时指定的是几个副本��是几个。以后你修改了副本数�Q�对已经上传了的文�g也不会�v作用。可以再上传文�g的同时指定创建的副本�? Hadoop dfs -D dfs.replication=1 -put 70M logs/2 可以通过命��o来更改已�l�上传的文�g的副本数�Q? hadoop fs -setrep -R 3 / 查看当前hdfs的副本数 hadoop fsck -locations FSCK started by hadoop from /172.18.6.112 for path / at Thu Oct 27 13:24:25 CST 2011 ....................Status: HEALTHY Total size: 4834251860 B Total dirs: 21 Total files: 20 Total blocks (validated): 82 (avg. block size 58954290 B) Minimally replicated blocks: 82 (100.0 %) Over-replicated blocks: 0 (0.0 %) Under-replicated blocks: 0 (0.0 %) Mis-replicated blocks: 0 (0.0 %) Default replication factor: 3 Average block replication: 3.0 Corrupt blocks: 0 Missing replicas: 0 (0.0 %) Number of data-nodes: 3 Number of racks: 1 FSCK ended at Thu Oct 27 13:24:25 CST 2011 in 10 milliseconds The filesystem under path '/' is HEALTHY 某个文�g的副本数�Q�可以通过ls中的文�g描述�W�看�? hadoop dfs -ls -rw-r--r-- 3 hadoop supergroup 153748148 2011-10-27 16:11 /user/hadoop/logs/201108/impression_witspixel2011080100.thin.log.gz 如果你只�?个datanode�Q�但是你却指定副本数�?�Q�是不会生效的，因�ؓ每个datanode上只能存放一个副本�? 参考：http://blog.csdn.net/lskyne/article/details/8898666

xzc 2018-11-26 11:52 发表评论

xzc — Fri, 16 Nov 2018 01:38:00 GMT

转自�Q�https://www.cnblogs.com/shabbylee/p/6792555.html �׃��历史原因�Q�Python有两个大的版本分支，Python2和Python3�Q�又�׃��一些库只支持某个版本分支，所以需要在电脑上同时安装Python2和Python3�Q�因此如何让两个版本的Python兼容�Q�如何让脚本在对应的Python版本上运行，�q�个是值得�ȝ��的�? 对于Ubuntu 16.04 LTS版本来说�Q�Python2�Q?.7.12�Q�和Python3�Q?.5.2�Q�默认同时安装，默认的python版本�?.7.12�? 当然你也可以用python2来调用�? 如果惌��用python3�Q�就用python3. 对于Windows�Q�就有点复杂了。因��Z��论python2�q�是python3�Q�python可执行文仉��叫python.exe�Q�在cmd下输入python得到的版本号取决于环境变量里哪个版本的python路径更靠前，毕竟windows是按照顺序查扄��。比如环境变量里的顺序是�q�样的：那么cmd下的python版本��是2.7.12�? 反之�Q�则是python3的版本号�? �q�就带来一个问题了�Q�如果你想用python2�q�行一个脚本，一会你又想用python3�q�行另一个脚本，你怎么做？来回改环境变量显然很�ȝ��? �|�上很多办法比较��单粗��_��把两个python.exe改名啊，一个改成python2.exe�Q�一个改成python3.exe。这样做固然可以�Q�但修改可执行文件的方式�Q�毕竟不是很好的�Ҏ��? 我仔�l�查找了一些python技术文档，发现另外一个我觉得比较好的解决办法�? 借用py的一个参数来调用不同版本的Python。py -2调用python2�Q�py -3调用的是python3. 当python脚本需要python2�q�行�Ӟ��只需在脚本前加上�Q�然后运行py xxx.py卛_��? #! python2 当python脚本需要python3�q�行�Ӟ��只需在脚本前加上�Q�，然后�q�行py xxx.py卛_��? #! python3 ��p��么简单�? 同时�Q�这也完��解决了在pip在python2和python3共存的环境下报错�Q�提�C�Fatal error in launcher: Unable to create process using '"'的问题�? 当需要python2的pip�Ӟ��只需 py -2 -m pip install xxx 当需要python3的pip�Ӟ��只需 py -3 -m pip install xxx python2和python3的pip package��p��样可以完��分开了�?img src ="http://www.aygfsteel.com/xzclog/aggbug/433500.html" width = "1" height = "1" />

xzc 2018-11-16 09:38 发表评论

xzc — Mon, 03 Sep 2018 10:19:00 GMT

Sentry权限控制通过Beeline�Q�Hiveserver2 SQL 命��o行接口）输入Grant �?Revoke语句来配�|�。语法跟现在的一些主��的关系数据库很�怼�。需要注意的是：当sentry服务启用后，我们必须使用beeline接口来执行hive查询�Q�Hive Cli�q�不支持sentry�? CREATE ROLE Statement CREATE ROLE语句创徏一个可以被赋权的角艌Ӏ�权限可以赋�l�角�Ԍ��然后再分配给各个用户。一个用戯��分配到角色后可以执行该角色的权限�? 只有拥有��理员的角色可以create/drop角色。默认情况下�Q�hive、impala和hue用户拥有��理员角艌Ӏ? CREATE ROLE [role_name]; DROP ROLE Statement DROP ROLE语句可以用来从数据库中移除一个角艌Ӏ�一旦移除，之前分配�l�所有用��L��该角色将会取消。之前已�l�执行的语句不会受到影响。但是，因�ؓhive在执行每条查询语句之前会��查用��L��权限�Q�处于登录活跃状态的用户会话会受到媄响�? DROP ROLE [role_name]; GRANT ROLE Statement GRANT ROLE语句可以用来�l�组授予角色。只有sentry的管理员用户才能执行该操作�? GRANT ROLE role_name [, role_name] TO GROUP �Q�groupName�Q?[,GROUP �Q�groupName�Q�] REVOKE ROLE Statement REVOKE ROLE语句可以用来从组�U�除角色。只有sentry的管理员用户才能执行该操作�? REVOKE ROLE role_name [, role_name] FROM GROUP �Q�groupName) [,GROUP (groupName)] GRANT (PRIVILEGE) Statement 授予一个对象的权限�l�一个角�Ԍ��该用户必��Mؓsentry的管理员用户�? GRANT (PRIVILEGE) [, (PRIVILEGE) ] ON (OBJECT) (object_name) TO ROLE (roleName) [,ROLE (roleName)] REVOKE �Q�PRIVILEGE�Q?Statement 因�ؓ只有认证的管理员用户可以创徏角色�Q�从而只有管理员用户可以取消一个组的权限�? REVOKE (PRIVILEGE) [, (PRIVILEGE) ] ON (OBJECT) (object_name) FROM ROLE (roleName) [,ROLE (roleName)] GRANT (PRIVILEGE) ... WITH GRANT OPTION 在cdh5.2中，你可以委托给其他角色来授予和解除权限。比如，一个角色被授予了WITH GRANT OPTION的权限可以GRANT/REVOKE同样的权限给其他角色。因此，如果一个角色有一个库的所有权限�ƈ且设�|�了 WITH GRANT OPTION�Q�该角色分配的用户可以对该数据库和其中的表执行GRANT/REVOKE语句�? GRANT �Q�PRIVILEGE�Q? ON �Q�OBJECT�Q?�Q�object_name�Q? TO ROLE �Q�roleName�Q? WITH GRANT OPTION 只有一个带GRANT选项的特�D�权限的角色或者它的父�U�权限可以从其他角色解除�q�种权限。一旦下面的语句执行�Q�所有跟其相关的grant权限��会被解除�? REVOKE �Q�RIVILEGE�Q? ON �Q�BJECT�Q?�Q�bject_name�Q? FROM ROLE �Q�roleName�Q? Hive目前不支持解除之前赋予一个角�?WITH GRANT OPTION 的权限。要想移除WITH GRANT OPTION、解除权限，可以重新去除 WITH GRANT OPTION�q�个标记来再�ơ附权�? SET ROLE Statement SET ROLE语句可以�l�当前会话选择一个角色��之生效。一个用户只能启用分配给他的角色。�Q何不存在的角色和当前用户不能使用的角色是不能生效的。如果没有��用�Q何角�Ԍ��用户��会使用��M��一个属于他的角色的权限�? 选择一个角色��用： To enable a specific role: 使用所有的角色�Q? To enable a specific role: 关闭所有角�? SET ROLE NONE; SHOW Statement 昄��当前用户拥有库、表、列相关权限的数据库�Q? SHOW DATABASES; 昄��当前用户拥有表、列相关权限的表�Q? SHOW TABLES; 昄��当前用户拥有SELECT权限的列�Q? SHOW COLUMNS (FROM|IN) table_name [(FROM|IN) db_name]; 昄��当前�pȝ��中所有的角色�Q�只有管理员用户可以执行�Q�： SHOW ROLES; 昄��当前影响当前会话的角�Ԍ�� SHOW CURRENT ROLES; 昄��指定�l�的被分配到的所有角�Ԍ��只有��理员用户和指定�l�内的用户可以执行） SHOW ROLE GRANT GROUP (groupName); SHOW语句可以用来昄��一个角色被授予的权限或者显�C��色的一个特定对象的所有权限�? 昄��指定角色的所有被赋予的权限。（只有��理员用户和指定角色分配到的用户可以执行�Q�。下面的语句也会昄��M��列��的权限�? SHOW GRANT ROLE (roleName); 昄��指定对象的一个角色的所有被赋予的权限（只有��理员用户和指定角色分配到的用户可以执行�Q�。下面的语句也会昄��M��列��的权限�? SHOW GRANT ROLE (roleName) on (OBJECT) (objectName); ----------------------------我也是有底线�?----------------------------

xzc 2018-09-03 18:19 发表评论

xzc — Fri, 18 May 2018 01:52:00 GMT

摘要: Python 里面的编码和解码也就�?nbsp;unicode �?nbsp;str �q�两�U��Ş式的�怺�转化。编码是 unicode -> str�Q�相反的�Q�解码就�?nbsp;str -> unicode。剩下的问题��是��定何时需要进行编码或者解码了.关于文�g开头的"�~�码指示"�Q�也��是 # -*- codin... 阅读全文

xzc 2018-05-18 09:52 发表评论

kafka节点假死

xzc — Thu, 08 Mar 2018 08:35:00 GMT

一、前�a�

早上醒来打开微信�Q�同事反馈kafka集群从昨天凌晨开始写入频�J�失败，赶紧打开电脑查看了kafka集群的机器监控，日志信息�Q�发现其中一个节点的集群负蝲从昨天凌晨突然掉下来了，和同事反馈的旉��点大概一��_��于是乎就��d��服务器开始干�z�R�?/div>

二、排�?/div>

1、查看机器监控，看是否能大概定位是哪个节�Ҏ��异常

技术分�?/div>

2、根据机器监控大概定位到其中一个异常节点，��d��服务器查看kafka日志�Q�发现有报错日志�Q��ƈ且日志就停留在这个这个时间点�Q?/div>

[2017-06-01 16:59:59,851] ERROR Processor got uncaught exception. (kafka.network.Processor)

java.lang.OutOfMemoryError: Direct buffer memory

at java.nio.Bits.reserveMemory(Bits.java:658)

at java.nio.DirectByteBuffer.(DirectByteBuffer.java:123)

at java.nio.ByteBuffer.allocateDirect(ByteBuffer.java:306)

at sun.nio.ch.Util.getTemporaryDirectBuffer(Util.java:174)

at sun.nio.ch.IOUtil.read(IOUtil.java:195)

at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:379)

at org.apache.kafka.common.network.PlaintextTransportLayer.read(PlaintextTransportLayer.java:108)

at org.apache.kafka.common.network.NetworkReceive.readFromReadableChannel(NetworkReceive.java:97)

at org.apache.kafka.common.network.NetworkReceive.readFrom(NetworkReceive.java:71)

at org.apache.kafka.common.network.KafkaChannel.receive(KafkaChannel.java:160)

at org.apache.kafka.common.network.KafkaChannel.read(KafkaChannel.java:141)

at org.apache.kafka.common.network.Selector.poll(Selector.java:286)

at kafka.network.Processor.run(SocketServer.scala:413)3、查看kafka�q�程和监听端口情况，发现都正常，��玛假死�?/div>

ps -ef |grep kafka ## 查看kafka的进�E?/div>

netstat -ntlp |grep 9092 ##9092kafka的监听端�?、既然已�l�假��M��Q�只能重启了

ps -ef |grep kafka |grep -v grep |awk ‘{print $2}‘ | xargs kill -9

/usr/local/kafka/bin;nohup ./kafka-server-start.sh ../config/server.properties &5、重启后在观察该节点的kafka日志�Q�在一��index重徏之后�Q�上面的报错信息在疯狂的��P��最后谷歌一番，解决了该问题

三、解��x��案：

�?/div>

/usr/local/kafka/binkafka-run-class.sh��L��

-XX:+DisableExplicitGC��d��

-XX:MaxDirectMemorySize=512m在一�ơ重启kafka�Q�问题解冟�?/div>

xzc 2018-03-08 16:35 发表评论

Hive中reduce个数讑֮�

xzc — Wed, 07 Mar 2018 03:21:00 GMT

摘要: 我们每次执行hive的hql�Ӟ��shell里都会提�C�Z��D�话�Q�[python] view plaincopy... Number of reduce tasks not specified. Estimated from input data size: 50... 阅读全文

xzc 2018-03-07 11:21 发表评论

xzc — Mon, 23 Oct 2017 14:05:00 GMT

摘要: spark 累加历史主要用到了窗口函敎ͼ�而进行全部统计，则需要用到rollup函数 1 应用场景�Q?　　1、我们需要统计用��L��M��用时长（累加历史�Q?　　2、前台展现页面需要对多个�l�度�q�行查询�Q�如�Q��品、地区等�{?　　3、需要展现的表格头如�Q?产品�?015-04�?015-05�?015-06 2 原始数据�Q? product_code |event_date |dur... 阅读全文

xzc 2017-10-23 22:05 发表评论

Spark分析�H�口函数

xzc — Mon, 23 Oct 2017 14:04:00 GMT

摘要: Spark1.4发布�Q�支持了�H�口分析函数(window functions)。在��ȝ��q�_��中，90%以上的离�U�分析�Q务都是��用Hive实现�Q�其中必然会使用很多�H�口分析函数�Q�如果SparkSQL支持�H�口分析函数�Q?那么对于后面Hive向SparkSQL中的�q�移的工作量会大大降低，使用方式如下�Q? 1、初始化数据创徏�? [sql] view plain cop... 阅读全文

xzc 2017-10-23 22:04 发表评论

SparkSQL相关语句�ȝ��

xzc — Mon, 23 Oct 2017 13:03:00 GMT

SparkSQL相关语句�ȝ��

1.in 不支持子查询 eg. select * from src where key in(select key from test);
支持查询个数 eg. select * from src where key in(1,2,3,4,5);
in 40000�?耗时25.766�U?br />in 80000�?耗时78.827�U?br />
2.union all/union
不支持顶层的union all eg. select key from src UNION ALL select key from test;
支持select * from (select key from src union all select key from test)aa;
不支�?union
支持select distinct key from (select key from src union all select key from test)aa;

3.intersect 不支�?/strong>

4.minus 不支�?/strong>

5.except 不支�?/strong>

6.inner join/join/left outer join/right outer join/full outer join/left semi join 都支�?/strong>
left outer join/right outer join/full outer join 中间必须有outer
join是最��单的兌��操作�Q�两边关联只取交�?
left outer join是以左表驱动�Q�右表不存在的key均赋��gؓnull�Q?br />right outer join是以双��驱动�Q�左表不存在的key均赋��gؓnull�Q?br />full outer join全表兌��Q�将两表完整的进行笛卡尔�U�操作，左右表均可赋��gؓnull;
left semi join最主要的��用场景就是解决exist in;
Hive不支持where子句中的子查询，SQL常用的exist in子句在Hive中是不支持的
不支持子查询 eg. select * from src aa where aa.key in(select bb.key from test bb);
可用以下两种方式替换�Q?br />select * from src aa left outer join test bb on aa.key=bb.key where bb.key <> null;
select * from src aa left semi join test bb on aa.key=bb.key;
大多数情况下 JOIN ON �?left semi on 是对�{�的
A,B两表�q�接�Q�如果B表存在重复数�?br />当��用JOIN ON的时候，A,B表会兌��Z��条记录，应�ؓON上的条�g�W�合�Q?span class="Apple-converted-space">
而是用LEFT SEMI JOIN 当A表中的记录，在B表上产生�W�合条�g之后��p��回，不会再��l�查找B表记录了�Q?br />所以如果B表有重复�Q�也不会产生重复的多条记录�?span class="Apple-converted-space">
left outer join 支持子查�?eg. select aa.* from src aa left outer join (select * from test111)bb on aa.key=bb.a;

7. hive四中数据导入方式
1�Q?strong>从本地文件系�l�中导入数据到Hive�?/strong>
create table wyp(id int,name string) ROW FORMAT delimited fields terminated by '\t' STORED AS TEXTFILE;
load data local inpath 'wyp.txt' into table wyp;
2)从HDFS上导入数据到Hive�?/strong>
[wyp@master /home/q/hadoop-2.2.0]$ bin/hadoop fs -cat /home/wyp/add.txt
hive> load data inpath '/home/wyp/add.txt' into table wyp;
3)从别的表中查询出相应的数据�ƈ导入到Hive表中
hive> create table test(
> id int, name string
> ,tel string)
> partitioned by
> (age int)
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY '\t'
> STORED AS TEXTFILE;

注：test表里面用age作�ؓ了分区字�D�，分区�Q�在Hive中，表的每一个分区对应表下的相应目录�Q�所有分区的数据都是存储在对应的目录中�?br />比如wyp表有dt和city两个分区�Q�则对应dt=20131218city=BJ对应表的目录�?user/hive/warehouse/dt=20131218/city=BJ�Q?br />所有属于这个分区的数据都存攑֜��q�个目录中�?br />
hive> insert into table test
> partition (age='25')
> select id, name, tel
> from wyp;

也可以在select语句里面通过使用分区值来动态指明分区：
hive> set hive.exec.dynamic.partition.mode=nonstrict;
hive> insert into table test
> partition (age)
> select id, name,
> tel, age
> from wyp;

Hive也支持insert overwrite方式来插入数�?/strong>
hive> insert overwrite table test
> PARTITION (age)
> select id, name, tel, age
> from wyp;

Hive�q�支持多表插�?br />hive> from wyp
> insert into table test
> partition(age)
> select id, name, tel, age
> insert into table test3
> select id, name
> where age>25;
4)在创��的时候通过从别的表中查询出相应的记录�ƈ插入到所创徏的表�?/strong>
hive> create table test4
> as
> select id, name, tel
> from wyp;

8.查看��语句
hive> show create table test3;

9.表重命名
hive> ALTER TABLE events RENAME TO 3koobecaf;

10.表增加列
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);

11.��d��一列�ƈ增加列字�D�|��?/strong>
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');

12.删除�?/strong>
hive> DROP TABLE pokes;

13.top n
hive> select * from test order by key limit 10;
14.创徏数据�?/strong>
Create Database baseball;

14.alter table tablename change oldColumn newColumn column_type 修改列的名称和类�?/strong>

alter table yangsy CHANGE product_no phone_no string

15.导入.sql文�g中的sql

spark-sql --driver-class-path /home/hadoop/hive/lib/mysql-connector-java-5.1.30-bin.jar -f testsql.sql

insert into table CI_CUSER_20141117154351522 select mainResult.PRODUCT_NO,dw_coclbl_m02_3848.L1_01_02_01,dw_coclbl_d01_3845.L2_01_01_04 from (select PRODUCT_NO from CI_CUSER_20141114203632267) mainResult left join DW_COCLBL_M02_201407 dw_coclbl_m02_3848 on mainResult.PRODUCT_NO = dw_coclbl_m02_3848.PRODUCT_NO left join DW_COCLBL_D01_20140515 dw_coclbl_d01_3845 on dw_coclbl_m02_3848.PRODUCT_NO = dw_coclbl_d01_3845.PRODUCT_NO

insert into CI_CUSER_20141117142123638 ( PRODUCT_NO,ATTR_COL_0000,ATTR_COL_0001) select mainResult.PRODUCT_NO,dw_coclbl_m02_3848.L1_01_02_01,dw_coclbl_m02_3848.L1_01_03_01 from (select PRODUCT_NO from CI_CUSER_20141114203632267) mainResult left join DW_COCLBL_M02_201407 dw_coclbl_m02_3848 on mainResult.PRODUCT_NO = dw_coclbl_m02_3848.PRODUCT_NO

CREATE TABLE ci_cuser_yymmddhhmisstttttt_tmp(product_no string) row format serde 'com.bizo.hive.serde.csv.CSVSerde' ;
LOAD DATA LOCAL INPATH '/home/ocdc/coc/yuli/test123.csv' OVERWRITE INTO TABLE test_yuli2;

创徏支持CSV格式的testfile文�g
CREATE TABLE test_yuli7 row format serde 'com.bizo.hive.serde.csv.CSVSerde' as select * from CI_CUSER_20150310162729786;

不依赖CSVSerde的jar包创建逗号分隔的表
"create table " +listName+ " ROW FORMAT DELIMITED FIELDS TERMINATED BY ','" +
" as select * from " + listName1;

create table aaaa ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE as select * from

ThriftServer 开启FAIR模式
SparkSQL Thrift Server 开启FAIR调度方式:
1. 修改$SPARK_HOME/conf/spark-defaults.conf,新增
2. spark.scheduler.mode FAIR
3. spark.scheduler.allocation.file /Users/tianyi/github/community/apache-spark/conf/fair-scheduler.xml
4. 修改$SPARK_HOME/conf/fair-scheduler.xml(或新增该文�g), �~�辑如下格式内容
5.
6.
7.
8. FAIR
9.
10. 1
11.
12. 2
13.
14.
15. FIFO
16. 2
17. 3
18.
19.
20. 重启Thrift Server
21. 执行SQL�?执行
22. set spark.sql.thriftserver.scheduler.pool=指定的队列名

�{�操作完�?create table yangsy555 like CI_CUSER_YYMMDDHHMISSTTTTTT 然后insert into yangsy555 select * from yangsy555

创徏一个自增序列表�Q��用row_number() over()��增加序列�?以供分页查询

create table yagnsytest2 as SELECT ROW_NUMBER() OVER() as id,* from yangsytest;

Sparksql的解析与Hiveql的解析的执行��程:

xzc 2017-10-23 21:03 发表评论

日韩一区二区在线免费,一区二区三区亚洲,神马久久久久久

HDFS副本讄���——默�?

kafka节点假死

Hive中reduce个数讑֮�

Spark分析�H�口函数

SparkSQL相关语句�ȝ��

SparkSQL相关语句�ȝ��

HDFS副本讄��——默�?