隨筆-314 評論-209 文章-0 trackbacks-0

2018年11月16日

原文鏈接：http://www.cnblogs.com/juandx/p/4962089.html python中對文件、文件夾（文件操作函數）的操作需要涉及到os模塊和shutil模塊。得到當前工作目錄，即當前Python腳本工作的目錄路徑: os.getcwd() 返回指定目錄下的所有文件和目錄名:os.listdir() 函數用來刪除一個文件:os.remove() 刪除多個目錄：os.removedirs（r“c：\python”）檢驗給出的路徑是否是一個文件：os.path.isfile() 檢驗給出的路徑是否是一個目錄：os.path.isdir() 判斷是否是絕對路徑：os.path.isabs() 檢驗給出的路徑是否真地存:os.path.exists() 返回一個路徑的目錄名和文件名:os.path.split() eg os.path.split(‘/home/swaroop/byte/code/poem.txt’) 結果：(‘/home/swaroop/byte/code’, ‘poem.txt’) 分離擴展名：os.path.splitext() 獲取路徑名：os.path.dirname() 獲取文件名：os.path.basename() 運行shell命令: os.system() 讀取和設置環境變量:os.getenv() 與os.putenv() 給出當前平臺使用的行終止符:os.linesep Windows使用’\r\n’，Linux使用’\n’而Mac使用’\r’ 指示你正在使用的平臺：os.name 對于Windows，它是’nt’，而對于Linux/Unix用戶，它是’posix’ 重命名：os.rename（old， new）創建多級目錄：os.makedirs（r“c：\python\test”）創建單個目錄：os.mkdir（“test”）獲取文件屬性：os.stat（file）修改文件權限與時間戳：os.chmod（file）終止當前進程：os.exit（）獲取文件大小：os.path.getsize（filename）文件操作： os.mknod(“test.txt”) 創建空文件 fp = open(“test.txt”,w) 直接打開一個文件，如果文件不存在則創建文件關于open 模式： w 以寫方式打開， a 以追加模式打開 (從 EOF 開始, 必要時創建新文件) r+ 以讀寫模式打開 w+ 以讀寫模式打開 (參見 w ) a+ 以讀寫模式打開 (參見 a ) rb 以二進制讀模式打開 wb 以二進制寫模式打開 (參見 w ) ab 以二進制追加模式打開 (參見 a ) rb+ 以二進制讀寫模式打開 (參見 r+ ) wb+ 以二進制讀寫模式打開 (參見 w+ ) ab+ 以二進制讀寫模式打開 (參見 a+ ) fp.read([size]) #size為讀取的長度，以byte為單位 fp.readline([size]) #讀一行，如果定義了size，有可能返回的只是一行的一部分 fp.readlines([size]) #把文件每一行作為一個list的一個成員，并返回這個list。其實它的內部是通過循環調用readline()來實現的。如果提供size參數，size是表示讀取內容的總長，也就是說可能只讀到文件的一部分。 fp.write(str) #把str寫到文件中，write()并不會在str后加上一個換行符 fp.writelines(seq) #把seq的內容全部寫到文件中(多行一次性寫入)。這個函數也只是忠實地寫入，不會在每行后面加上任何東西。 fp.close() #關閉文件。python會在一個文件不用后自動關閉文件，不過這一功能沒有保證，最好還是養成自己關閉的習慣。如果一個文件在關閉后還對其進行操作會產生ValueError fp.flush() #把緩沖區的內容寫入硬盤 fp.fileno() #返回一個長整型的”文件標簽“ fp.isatty() #文件是否是一個終端設備文件（unix系統中的） fp.tell() #返回文件操作標記的當前位置，以文件的開頭為原點 fp.next() #返回下一行，并將文件操作標記位移到下一行。把一個file用于for … in file這樣的語句時，就是調用next()函數來實現遍歷的。 fp.seek(offset[,whence]) #將文件打操作標記移到offset的位置。這個offset一般是相對于文件的開頭來計算的，一般為正數。但如果提供了whence參數就不一定了，whence可以為0表示從頭開始計算，1表示以當前位置為原點計算。2表示以文件末尾為原點進行計算。需要注意，如果文件以a或a+的模式打開，每次進行寫操作時，文件操作標記會自動返回到文件末尾。 fp.truncate([size]) #把文件裁成規定的大小，默認的是裁到當前文件操作標記的位置。如果size比文件的大小還要大，依據系統的不同可能是不改變文件，也可能是用0把文件補到相應的大小，也可能是以一些隨機的內容加上去。目錄操作： os.mkdir(“file”) 創建目錄復制文件： shutil.copyfile(“oldfile”,”newfile”) oldfile和newfile都只能是文件 shutil.copy(“oldfile”,”newfile”) oldfile只能是文件夾，newfile可以是文件，也可以是目標目錄復制文件夾： shutil.copytree(“olddir”,”newdir”) olddir和newdir都只能是目錄，且newdir必須不存在重命名文件（目錄） os.rename(“oldname”,”newname”) 文件或目錄都是使用這條命令移動文件（目錄） shutil.move(“oldpos”,”newpos”) 刪除文件 os.remove(“file”) 刪除目錄 os.rmdir(“dir”)只能刪除空目錄 shutil.rmtree(“dir”) 空目錄、有內容的目錄都可以刪轉換目錄 os.chdir(“path”) 換路徑 Python讀寫文件 1.open 使用open打開文件后一定要記得調用文件對象的close()方法。比如可以用try/finally語句來確保最后能關閉文件。 file_object = open(‘thefile.txt’) try: all_the_text = file_object.read( ) finally: file_object.close( ) 注：不能把open語句放在try塊里，因為當打開文件出現異常時，文件對象file_object無法執行close()方法。 2.讀文件讀文本文件 input = open('data', 'r') #第二個參數默認為r input = open('data') 1 2 3 讀二進制文件 input = open('data', 'rb') 1 讀取所有內容 file_object = open('thefile.txt') try: all_the_text = file_object.read( ) finally: file_object.close( ) 1 2 3 4 5 讀固定字節 file_object = open('abinfile', 'rb') try: while True: chunk = file_object.read(100) if not chunk: break do_something_with(chunk) finally: file_object.close( ) 1 2 3 4 5 6 7 8 9 讀每行 list_of_all_the_lines = file_object.readlines( ) 1 如果文件是文本文件，還可以直接遍歷文件對象獲取每行： for line in file_object: process line 1 2 3.寫文件寫文本文件 output = open('data', 'w') 1 寫二進制文件 output = open('data', 'wb') 1 追加寫文件 output = open('data', 'w+') 1 寫數據 file_object = open('thefile.txt', 'w') file_object.write(all_the_text) file_object.close( ) 1 2 3 寫入多行 file_object.writelines(list_of_text_strings) 1 注意，調用writelines寫入多行在性能上會比使用write一次性寫入要高。在處理日志文件的時候，常常會遇到這樣的情況：日志文件巨大，不可能一次性把整個文件讀入到內存中進行處理，例如需要在一臺物理內存為 2GB 的機器上處理一個 2GB 的日志文件，我們可能希望每次只處理其中 200MB 的內容。在 Python 中，內置的 File 對象直接提供了一個 readlines(sizehint) 函數來完成這樣的事情。以下面的代碼為例： file = open('test.log', 'r')sizehint = 209715200 # 200Mposition = 0lines = file.readlines(sizehint)while not file.tell() - position < 0: position = file.tell() lines = file.readlines(sizehint) 1 每次調用 readlines(sizehint) 函數，會返回大約 200MB 的數據，而且所返回的必然都是完整的行數據，大多數情況下，返回的數據的字節數會稍微比 sizehint 指定的值大一點（除最后一次調用 readlines(sizehint) 函數的時候）。通常情況下，Python 會自動將用戶指定的 sizehint 的值調整成內部緩存大小的整數倍。 file在python是一個特殊的類型，它用于在python程序中對外部的文件進行操作。在python中一切都是對象，file也不例外，file有file的方法和屬性。下面先來看如何創建一個file對象： file(name[, mode[, buffering]]) 1 file()函數用于創建一個file對象，它有一個別名叫open()，可能更形象一些，它們是內置函數。來看看它的參數。它參數都是以字符串的形式傳遞的。name是文件的名字。 mode是打開的模式，可選的值為r w a U，分別代表讀（默認）寫添加支持各種換行符的模式。用w或a模式打開文件的話，如果文件不存在，那么就自動創建。此外，用w模式打開一個已經存在的文件時，原有文件的內容會被清空，因為一開始文件的操作的標記是在文件的開頭的，這時候進行寫操作，無疑會把原有的內容給抹掉。由于歷史的原因，換行符在不同的系統中有不同模式，比如在 unix中是一個\n，而在windows中是‘\r\n’，用U模式打開文件，就是支持所有的換行模式，也就說‘\r’ ‘\n’ ‘\r\n’都可表示換行，會有一個tuple用來存貯這個文件中用到過的換行符。不過，雖說換行有多種模式，讀到python中統一用\n代替。在模式字符的后面，還可以加上+ b t這兩種標識，分別表示可以對文件同時進行讀寫操作和用二進制模式、文本模式（默認）打開文件。 buffering如果為0表示不進行緩沖;如果為1表示進行“行緩沖“;如果是一個大于1的數表示緩沖區的大小，應該是以字節為單位的。 file對象有自己的屬性和方法。先來看看file的屬性。 closed #標記文件是否已經關閉，由close()改寫 encoding #文件編碼 mode #打開模式 name #文件名 newlines #文件中用到的換行模式，是一個tuple softspace #boolean型，一般為0，據說用于print 1 2 3 4 5 6 file的讀寫方法： F.read([size]) #size為讀取的長度，以byte為單位 F.readline([size]) #讀一行，如果定義了size，有可能返回的只是一行的一部分 F.readlines([size]) #把文件每一行作為一個list的一個成員，并返回這個list。其實它的內部是通過循環調用readline()來實現的。如果提供size參數，size是表示讀取內容的總長，也就是說可能只讀到文件的一部分。 F.write(str) #把str寫到文件中，write()并不會在str后加上一個換行符 F.writelines(seq) #把seq的內容全部寫到文件中。這個函數也只是忠實地寫入，不會在每行后面加上任何東西。 file的其他方法： F.close() #關閉文件。python會在一個文件不用后自動關閉文件，不過這一功能沒有保證，最好還是養成自己關閉的習慣。如果一個文件在關閉后還對其進行操作會產生ValueError F.flush() #把緩沖區的內容寫入硬盤 F.fileno() #返回一個長整型的”文件標簽“ F.isatty() #文件是否是一個終端設備文件（unix系統中的） F.tell() #返回文件操作標記的當前位置，以文件的開頭為原點 F.next() #返回下一行，并將文件操作標記位移到下一行。把一個file用于for ... in file這樣的語句時，就是調用next()函數來實現遍歷的。 F.seek(offset[,whence]) #將文件打操作標記移到offset的位置。這個offset一般是相對于文件的開頭來計算的，一般為正數。但如果提供了whence參數就不一定了，whence可以為0表示從頭開始計算，1表示以當前位置為原點計算。2表示以文件末尾為原點進行計算。需要注意，如果文件以a或a+的模式打開，每次進行寫操作時，文件操作標記會自動返回到文件末尾。 F.truncate([size]) #把文件裁成規定的大小，默認的是裁到當前文件操作標記的位置。如果size比文件的大小還要大，依據系統的不同可能是不改變文件，也可能是用0把文件補到相應的大小，也可能是以一些隨機的內容加上去。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 http://www.cnblogs.com/allenblogs/archive/2010/09/13/1824842.html http://www.cnblogs.com/rollenholt/archive/2012/04/23/2466179.html

posted @ 2018-11-28 11:52 xzc 閱讀(567) | 評論 (0) | 編輯收藏

HDFS副本設置——默認3

首先 dfs.replication這個參數是個client參數，即node level參數。需要在每臺datanode上設置。其實默認為3個副本已經夠用了，設置太多也沒什么用。一個文件，上傳到hdfs上時指定的是幾個副本就是幾個。以后你修改了副本數，對已經上傳了的文件也不會起作用。可以再上傳文件的同時指定創建的副本數 Hadoop dfs -D dfs.replication=1 -put 70M logs/2 可以通過命令來更改已經上傳的文件的副本數： hadoop fs -setrep -R 3 / 查看當前hdfs的副本數 hadoop fsck -locations FSCK started by hadoop from /172.18.6.112 for path / at Thu Oct 27 13:24:25 CST 2011 ....................Status: HEALTHY Total size: 4834251860 B Total dirs: 21 Total files: 20 Total blocks (validated): 82 (avg. block size 58954290 B) Minimally replicated blocks: 82 (100.0 %) Over-replicated blocks: 0 (0.0 %) Under-replicated blocks: 0 (0.0 %) Mis-replicated blocks: 0 (0.0 %) Default replication factor: 3 Average block replication: 3.0 Corrupt blocks: 0 Missing replicas: 0 (0.0 %) Number of data-nodes: 3 Number of racks: 1 FSCK ended at Thu Oct 27 13:24:25 CST 2011 in 10 milliseconds The filesystem under path '/' is HEALTHY 某個文件的副本數，可以通過ls中的文件描述符看到 hadoop dfs -ls -rw-r--r-- 3 hadoop supergroup 153748148 2011-10-27 16:11 /user/hadoop/logs/201108/impression_witspixel2011080100.thin.log.gz 如果你只有3個datanode，但是你卻指定副本數為4，是不會生效的，因為每個datanode上只能存放一個副本。參考：http://blog.csdn.net/lskyne/article/details/8898666

posted @ 2018-11-26 11:52 xzc 閱讀(880) | 評論 (0) | 編輯收藏

當同時安裝Python2和Python3后，如何兼容并切換使用詳解（比如pip使用）

轉自：https://www.cnblogs.com/shabbylee/p/6792555.html 由于歷史原因，Python有兩個大的版本分支，Python2和Python3，又由于一些庫只支持某個版本分支，所以需要在電腦上同時安裝Python2和Python3，因此如何讓兩個版本的Python兼容，如何讓腳本在對應的Python版本上運行，這個是值得總結的。對于Ubuntu 16.04 LTS版本來說，Python2（2.7.12）和Python3（3.5.2）默認同時安裝，默認的python版本是2.7.12。當然你也可以用python2來調用。如果想調用python3，就用python3. 對于Windows，就有點復雜了。因為不論python2還是python3，python可執行文件都叫python.exe，在cmd下輸入python得到的版本號取決于環境變量里哪個版本的python路徑更靠前，畢竟windows是按照順序查找的。比如環境變量里的順序是這樣的：那么cmd下的python版本就是2.7.12。反之，則是python3的版本號。這就帶來一個問題了，如果你想用python2運行一個腳本，一會你又想用python3運行另一個腳本，你怎么做？來回改環境變量顯然很麻煩。網上很多辦法比較簡單粗暴，把兩個python.exe改名啊，一個改成python2.exe，一個改成python3.exe。這樣做固然可以，但修改可執行文件的方式，畢竟不是很好的方法。我仔細查找了一些python技術文檔，發現另外一個我覺得比較好的解決辦法。借用py的一個參數來調用不同版本的Python。py -2調用python2，py -3調用的是python3. 當python腳本需要python2運行時，只需在腳本前加上，然后運行py xxx.py即可。 #! python2 當python腳本需要python3運行時，只需在腳本前加上，，然后運行py xxx.py即可。 #! python3 就這么簡單。同時，這也完美解決了在pip在python2和python3共存的環境下報錯，提示Fatal error in launcher: Unable to create process using '"'的問題。當需要python2的pip時，只需 py -2 -m pip install xxx 當需要python3的pip時，只需 py -3 -m pip install xxx python2和python3的pip package就這樣可以完美分開了。

posted @ 2018-11-16 09:38 xzc 閱讀(641) | 評論 (0) | 編輯收藏

<

2018年11月

>

日

一

二

三

四

五

六

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

常用鏈接

留言簿(12)

隨筆分類

隨筆檔案

收藏夾

xzc(12)

常用鏈接

留言簿(12)

隨筆分類

隨筆檔案

收藏夾

搜索

最新評論

閱讀排行榜

評論排行榜