HDFS編程實(shí)踐
鏈接:https://pan.baidu.com/s/1JYAmSar89wg9xmmj7IAcRA
提取碼:07uu
--來(lái)自百度網(wǎng)盤(pán)超級(jí)會(huì)員V6的分享
1、利用Shell命令與HDFS進(jìn)行交互
Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系統(tǒng)的目錄結(jié)構(gòu)、上傳和下載數(shù)據(jù)、創(chuàng)建文件等。
注意,實(shí)際上有三種shell命令方式。
- hadoop fs適用于任何不同的文件系統(tǒng),比如本地文件系統(tǒng)和HDFS文件系統(tǒng)
- hadoop dfs只能適用于HDFS文件系統(tǒng)
- hdfs dfs跟hadoop dfs的命令作用一樣,也只能適用于HDFS文件系統(tǒng)
我們可以在終端輸入如下命令,查看fs總共支持了哪些命令
hadoop@hadoop-master:~$ hadoop fs
Usage: hadoop fs [generic options]
[-appendToFile <localsrc> ... <dst>]
[-cat [-ignoreCrc] <src> ...]
[-checksum <src> ...]
[-chgrp [-R] GROUP PATH...]
[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
[-chown [-R] [OWNER][:[GROUP]] PATH...]
[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
[-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
[-createSnapshot <snapshotDir> [<snapshotName>]]
[-deleteSnapshot <snapshotDir> <snapshotName>]
[-df [-h] [<path> ...]]
[-du [-s] [-h] [-v] [-x] <path> ...]
[-expunge]
[-find <path> ... <expression> ...]
[-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
[-getfacl [-R] <path>]
[-getfattr [-R] {-n name | -d} [-e en] <path>]
[-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
[-head <file>]
[-help [cmd ...]]
[-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]]
[-mkdir [-p] <path> ...]
[-moveFromLocal <localsrc> ... <dst>]
[-moveToLocal <src> <localdst>]
[-mv <src> ... <dst>]
[-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
[-renameSnapshot <snapshotDir> <oldName> <newName>]
[-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
[-rmdir [--ignore-fail-on-non-empty] <dir> ...]
[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
[-setfattr {-n name [-v value] | -x name} <path>]
[-setrep [-R] [-w] <rep> <path> ...]
[-stat [format] <path> ...]
[-tail [-f] [-s <sleep interval>] <file>]
[-test -[defsz] <path>]
[-text [-ignoreCrc] <src> ...]
[-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...]
[-touchz <path> ...]
[-truncate [-w] <length> <path> ...]
[-usage [cmd ...]]
在終端輸入如下命令,可以查看具體某個(gè)命令的作用
例如:我們查看put命令如何使用,可以輸入如下命令
hadoop@hadoop-master:~$ hadoop fs -help put
-put [-f] [-p] [-l] [-d] <localsrc> ... <dst> :
Copy files from the local file system into fs. Copying fails if the file already
exists, unless the -f flag is given.
Flags:
-p Preserves access and modification times, ownership and the mode.
-f Overwrites the destination if it already exists.
-l Allow DataNode to lazily persist the file to disk. Forces
replication factor of 1. This flag will result in reduced
durability. Use with care.
-d Skip creation of temporary file(<dst>._COPYING_).
1.1 目錄操作
需要注意的是,Hadoop系統(tǒng)安裝好以后,第一次使用HDFS時(shí),需要首先在HDFS中創(chuàng)建用戶(hù)目錄。本教程全部采用hadoop用戶(hù)登錄Linux系統(tǒng),因此,需要在HDFS中為hadoop用戶(hù)創(chuàng)建一個(gè)用戶(hù)目錄,命令如下:
hadoop@hadoop-master:~$ hdfs dfs -mkdir -p /user/hadoop
該命令中表示在HDFS中創(chuàng)建一個(gè)“/user/hadoop”目錄,“–mkdir”是創(chuàng)建目錄的操作,“-p”表示如果是多級(jí)目錄,則父目錄和子目錄一起創(chuàng)建,這里“/user/hadoop”就是一個(gè)多級(jí)目錄,因此必須使用參數(shù)“-p”,否則會(huì)出錯(cuò)。
“/user/hadoop”目錄就成為hadoop用戶(hù)對(duì)應(yīng)的用戶(hù)目錄,可以使用如下命令顯示HDFS中與當(dāng)前用戶(hù)hadoop對(duì)應(yīng)的用戶(hù)目錄下的內(nèi)容:
hadoop@hadoop-master:~$ hdfs dfs -ls .
該命令中,“-ls”表示列出HDFS某個(gè)目錄下的所有內(nèi)容,“.”表示HDFS中的當(dāng)前用戶(hù)目錄,也就是“/user/hadoop”目錄,因此,上面的命令和下面的命令是等價(jià)的:
hadoop@hadoop-master:~$ hdfs dfs -ls /user/hadoop
如果要列出HDFS上的所有目錄,可以使用如下命令:
hadoop@hadoop-master:~$ hdfs dfs -ls
下面,可以使用如下命令創(chuàng)建一個(gè)input目錄:
hadoop@hadoop-master:~$ hdfs dfs -mkdir input
在創(chuàng)建個(gè)input目錄時(shí),采用了相對(duì)路徑形式,實(shí)際上,這個(gè)input目錄創(chuàng)建成功以后,它在HDFS中的完整路徑是“/user/hadoop/input”。如果要在HDFS的根目錄下創(chuàng)建一個(gè)名稱(chēng)為input的目錄,則需要使用如下命令:
hadoop@hadoop-master:~$ hdfs dfs -mkdir /input
可以使用rm命令刪除一個(gè)目錄,比如,可以使用如下命令刪除剛才在HDFS中創(chuàng)建的“/input”目錄(不是“/user/hadoop/input”目錄):
hadoop@hadoop-master:~$ hdfs dfs -rm -r /input
上面命令中,“-r”參數(shù)表示如果刪除“/input”目錄及其子目錄下的所有內(nèi)容,如果要?jiǎng)h除的一個(gè)目錄包含了子目錄,則必須使用“-r”參數(shù),否則會(huì)執(zhí)行失敗。
1.2 文件操作
在實(shí)際應(yīng)用中,經(jīng)常需要從本地文件系統(tǒng)向HDFS中上傳文件,或者把HDFS中的文件下載到本地文件系統(tǒng)中。
首先,使用vim編輯器,在本地Linux文件系統(tǒng)的“/home/hadoop/”目錄下創(chuàng)建一個(gè)文件myLocalFile.txt,里面可以隨意輸入一些單詞,比如,輸入如下三行:
hadoop@hadoop-master:~$ vim myLocalFile.txt
hadoop@hadoop-master:~$ cat myLocalFile.txt
Hadoop
Spark
XMU DBLAB
然后,可以使用如下命令把本地文件系統(tǒng)的“/home/hadoop/myLocalFile.txt”上傳到HDFS中的當(dāng)前用戶(hù)目錄的input目錄下,也就是上傳到HDFS的“/user/hadoop/input/”目錄下:
hadoop@hadoop-master:~$ hdfs dfs -put /home/hadoop/myLocalFile.txt input
可以使用ls命令查看一下文件是否成功上傳到HDFS中,具體如下:
hadoop@hadoop-master:~$ hdfs dfs -ls input/
該命令執(zhí)行后會(huì)顯示類(lèi)似如下的信息:
Found 1 items
-rw-r--r-- 1 hadoop supergroup 23 2022-04-18 10:09 input/myLocalFile.txt
下面使用如下命令查看HDFS中的myLocalFile.txt這個(gè)文件的內(nèi)容:
hadoop@hadoop-master:~$ hdfs dfs -cat input/myLocalFile.txt
Hadoop
Spark
XMU DBLAB
下面把HDFS中的myLocalFile.txt文件下載到本地文件系統(tǒng)中的“/home/hadoop/下載/”這個(gè)目錄下,命令如下:
hadoop@hadoop-master:~$ hdfs dfs -get input/myLocalFile.txt /home/hadoop/
可以使用如下命令,到本地文件系統(tǒng)查看下載下來(lái)的文件myLocalFile.txt:
hadoop@hadoop-master:~$ ls /home/hadoop/
myLocalFile.txt
最后,了解一下如何把文件從HDFS中的一個(gè)目錄拷貝到HDFS中的另外一個(gè)目錄。比如,如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”文件,拷貝到HDFS的另外一個(gè)目錄“/input”中(注意,這個(gè)input目錄位于HDFS根目錄下),可以使用如下命令:
hadoop@hadoop-master:~$ hdfs dfs -cp input/myLocalFile.txt /input
hadoop@hadoop-master:~$ hdfs dfs -ls /input
Found 1 items
-rw-r--r-- 1 hadoop supergroup 23 2022-04-18 10:31 /input/myLocalFile.txt
2、利用Web界面管理HDFS
打開(kāi)Linux自帶的Firefox瀏覽器,點(diǎn)擊此鏈接HDFS的Web界面,即可看到HDFS的web管理界面。WEB界面的訪問(wèn)地址是http://localhost:9870。
3、利用Java API與HDFS進(jìn)行交互
Hadoop不同的文件系統(tǒng)之間通過(guò)調(diào)用Java API進(jìn)行交互,上面介紹的Shell命令,本質(zhì)上就是Java API的應(yīng)用。下面提供了Hadoop官方的Hadoop API文檔,想要深入學(xué)習(xí)Hadoop,可以訪問(wèn)如下網(wǎng)站,查看各個(gè)API的功能。
利用Java API進(jìn)行交互,需要利用軟件Eclipse編寫(xiě)Java程序。
3.1 在Ubuntu中安裝Eclipse
Eclipse是常用的程序開(kāi)發(fā)工具,本教程很多程序代碼都是使用Eclipse開(kāi)發(fā)調(diào)試,因此,需要在Linux系統(tǒng)中安裝Eclipse??梢缘紼clipse官網(wǎng)(https://www.eclipse.org/downloads/)下載安裝包。
下面執(zhí)行如下命令對(duì)文件進(jìn)行解壓縮:
hadoop@hadoop-master:~$ sudo tar -xf eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local/
設(shè)置環(huán)境軟連接
hadoop@hadoop-master:~$ sudo mkdir -p /usr/local/eclipse/jre/bin/
hadoop@hadoop-master:~$ sudo ln -s /usr/lib/jvm/jdk1.8.0_162/bin/java /usr/local/eclipse/jre/bin/
然后,執(zhí)行如下命令啟動(dòng)Eclipse:
hadoop@hadoop-master:~$ cd /usr/local/eclipse/
hadoop@hadoop-master:/usr/local/eclipse$ ./eclipse
這時(shí),就可以看到Eclipse的啟動(dòng)界面了。
3.2 使用Eclipse開(kāi)發(fā)調(diào)試HDFS Java程序
Hadoop采用Java語(yǔ)言開(kāi)發(fā)的,提供了Java API與HDFS進(jìn)行交互。上面介紹的Shell命令,在執(zhí)行時(shí)實(shí)際上會(huì)被系統(tǒng)轉(zhuǎn)換成Java API調(diào)用。Hadoop官方網(wǎng)站提供了完整的Hadoop API文檔,想要深入學(xué)習(xí)Hadoop編程,可以訪問(wèn)Hadoop官網(wǎng)查看各個(gè)API的功能和用法。本教程只介紹基礎(chǔ)的HDFS編程。
為了提高程序編寫(xiě)和調(diào)試效率,本教程采用Eclipse工具編寫(xiě)Java程序。
現(xiàn)在要執(zhí)行的任務(wù)是:假設(shè)在目錄“hdfs://localhost:9000/user/hadoop”下面有幾個(gè)文件,分別是file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,這里需要從該目錄中過(guò)濾出所有后綴名不為“.abc”的文件,對(duì)過(guò)濾之后的文件進(jìn)行讀取,并將這些文件的內(nèi)容合并到文件“hdfs://localhost:9000/user/hadoop/merge.txt”中。
3.2.1 在Eclipse中創(chuàng)建項(xiàng)目
啟動(dòng)Eclipse。當(dāng)Eclipse啟動(dòng)以后,會(huì)彈出如下圖所示界面,提示設(shè)置工作空間(workspace)。
可以直接采用默認(rèn)的設(shè)置/home/hadoop/workspace
,點(diǎn)擊launch
按鈕。可以看出,由于當(dāng)前是采用hadoop用戶(hù)登錄了Linux系統(tǒng),因此,默認(rèn)的工作空間目錄位于hadoop用戶(hù)目錄/home/hadoop
下。
Eclipse啟動(dòng)以后,會(huì)呈現(xiàn)如下圖所示的界面。
選擇“File–>New–>Java Project”菜單,開(kāi)始創(chuàng)建一個(gè)Java工程,會(huì)彈出如下圖所示界面。
在Project name
后面輸入工程名稱(chēng)HDFSExample
,選中Use default location
,讓這個(gè)Java工程的所有文件都保存到/home/hadoop/workspace/HDFSExample
目錄下。在“JRE”這個(gè)選項(xiàng)卡中,可以選擇當(dāng)前的Linux系統(tǒng)中已經(jīng)安裝好的JDK,比如jdk1.8.0_162
。然后,點(diǎn)擊界面底部的Next>
按鈕,進(jìn)入下一步的設(shè)置。
3.2.2 為項(xiàng)目添加需要用到的JAR包
進(jìn)入下一步的設(shè)置以后,會(huì)彈出如下圖所示界面。
需要在這個(gè)界面中加載該Java工程所需要用到的JAR包,這些JAR包中包含了可以訪問(wèn)HDFS的Java API。這些JAR包都位于Linux系統(tǒng)的Hadoop安裝目錄下,對(duì)于本教程而言,就是在/usr/local/hadoop/share/hadoop
目錄下。點(diǎn)擊界面中的“Libraries”選項(xiàng)卡,然后,點(diǎn)擊界面右側(cè)的Add External JARs…
按鈕,會(huì)彈出如下圖所示界面。
在該界面中,上面的一排目錄按鈕(即usr
、local
、hadoop
、share
、hadoop
和common
),當(dāng)點(diǎn)擊某個(gè)目錄按鈕時(shí),就會(huì)在下面列出該目錄的內(nèi)容。
為了編寫(xiě)一個(gè)能夠與HDFS交互的Java應(yīng)用程序,一般需要向Java工程中添加以下JAR包:
/usr/local/hadoop/share/hadoop/common
目錄下的所有JAR包,包括hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
,注意,不包括目錄jdiff
、lib
、sources
和webapps
;/usr/local/hadoop/share/hadoop/common/lib
目錄下的所有JAR包;/usr/local/hadoop/share/hadoop/hdfs
目錄下的所有JAR包,注意,不包括目錄jdiff
、lib
、sources
和webapps
;/usr/local/hadoop/share/hadoop/hdfs/lib
目錄下的所有JAR包。
比如,如果要把/usr/local/hadoop/share/hadoop/common
目錄下的hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
添加到當(dāng)前的Java工程中,可以在界面中點(diǎn)擊目錄按鈕,進(jìn)入到common目錄,然后,界面會(huì)顯示出common目錄下的所有內(nèi)容(如下圖所示)。
請(qǐng)?jiān)诮缑嬷杏檬髽?biāo)點(diǎn)擊選中hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
(不要選中目錄jdiff、lib、sources和webapps),然后點(diǎn)擊界面右下角的“確定”按鈕,就可以把這兩個(gè)JAR包增加到當(dāng)前Java工程中,出現(xiàn)的界面如下圖所示。
從這個(gè)界面中可以看出,hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
已經(jīng)被添加到當(dāng)前Java工程中。然后,按照類(lèi)似的操作方法,可以再次點(diǎn)擊Add External JARs…
按鈕,把剩余的其他JAR包都添加進(jìn)來(lái)。需要注意的是,當(dāng)需要選中某個(gè)目錄下的所有JAR包時(shí),可以使用Ctrl+A
組合鍵進(jìn)行全選操作。全部添加完畢以后,就可以點(diǎn)擊界面右下角的Finish
按鈕,完成Java工程HDFSExample的創(chuàng)建。
3.2.3 編寫(xiě)Java應(yīng)用程序
下面編寫(xiě)一個(gè)Java應(yīng)用程序。
請(qǐng)?jiān)贓clipse工作界面左側(cè)的Package Explorer
面板中(如下圖所示),找到剛才創(chuàng)建好的工程名稱(chēng)HDFSExample
,然后在該工程名稱(chēng)上點(diǎn)擊鼠標(biāo)右鍵,在彈出的菜單中選擇New–>Class
菜單。
選擇New–>Class
菜單以后會(huì)出現(xiàn)如下圖所示界面。
在該界面中,只需要在Name
后面輸入新建的Java類(lèi)文件的名稱(chēng),這里采用名稱(chēng)MergeFile
,其他都可以采用默認(rèn)設(shè)置,然后,點(diǎn)擊界面右下角Finish
按鈕,出現(xiàn)如下圖所示界面。
可以看出,Eclipse自動(dòng)創(chuàng)建了一個(gè)名為“MergeFile.java”的源代碼文件,請(qǐng)?jiān)谠撐募休斎胍韵麓a:
import java.io.IOException;
import java.io.PrintStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
/**
* 過(guò)濾掉文件名滿(mǎn)足特定條件的文件
*/
class MyPathFilter implements PathFilter {
String reg = null;
MyPathFilter(String reg) {
this.reg = reg;
}
public boolean accept(Path path) {
if (!(path.toString().matches(reg)))
return true;
return false;
}
}
/***
* 利用FSDataOutputStream和FSDataInputStream合并HDFS中的文件
*/
public class MergeFile {
Path inputPath = null; //待合并的文件所在的目錄的路徑
Path outputPath = null; //輸出文件的路徑
public MergeFile(String input, String output) {
this.inputPath = new Path(input);
this.outputPath = new Path(output);
}
public void doMerge() throws IOException {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);
FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);
//下面過(guò)濾掉輸入目錄中后綴為.abc的文件
FileStatus[] sourceStatus = fsSource.listStatus(inputPath,
new MyPathFilter(".*\.abc"));
FSDataOutputStream fsdos = fsDst.create(outputPath);
PrintStream ps = new PrintStream(System.out);
//下面分別讀取過(guò)濾之后的每個(gè)文件的內(nèi)容,并輸出到同一個(gè)文件中
for (FileStatus sta : sourceStatus) {
//下面打印后綴不為.abc的文件的路徑、文件大小
System.out.print("路徑:" + sta.getPath() + " 文件大?。? + sta.getLen()
+ " 權(quán)限:" + sta.getPermission() + " 內(nèi)容:");
FSDataInputStream fsdis = fsSource.open(sta.getPath());
byte[] data = new byte[1024];
int read = -1;
while ((read = fsdis.read(data)) > 0) {
ps.write(data, 0, read);
fsdos.write(data, 0, read);
}
fsdis.close();
}
ps.close();
fsdos.close();
}
public static void main(String[] args) throws IOException {
MergeFile merge = new MergeFile(
"hdfs://localhost:9000/user/hadoop/",
"hdfs://localhost:9000/user/hadoop/merge.txt");
merge.doMerge();
}
}
3.2.4 編譯運(yùn)行程序
在開(kāi)始編譯運(yùn)行程序之前,請(qǐng)一定確保Hadoop已經(jīng)啟動(dòng)運(yùn)行,如果還沒(méi)有啟動(dòng),需要打開(kāi)一個(gè)Linux終端,輸入以下命令啟動(dòng)Hadoop:
cd /usr/local/hadoop
./sbin/start-dfs.sh
然后,要確保HDFS的“/user/hadoop”目錄下已經(jīng)存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,每個(gè)文件里面有內(nèi)容。這里,假設(shè)文件內(nèi)容如下:
file1.txt的內(nèi)容是: this is file1.txt
file2.txt的內(nèi)容是: this is file2.txt
file3.txt的內(nèi)容是: this is file3.txt
file4.abc的內(nèi)容是: this is file4.abc
file5.abc的內(nèi)容是: this is file5.abc
現(xiàn)在就可以編譯運(yùn)行上面編寫(xiě)的代碼。可以直接點(diǎn)擊Eclipse工作界面上部的運(yùn)行程序的快捷按鈕,當(dāng)把鼠標(biāo)移動(dòng)到該按鈕上時(shí),在彈出的菜單中選擇Run As
,繼續(xù)在彈出來(lái)的菜單中選擇Java Application
,如下圖所示。
然后,會(huì)彈出如下圖所示界面。
在該界面中,點(diǎn)擊界面右下角的OK
按鈕,開(kāi)始運(yùn)行程序。程序運(yùn)行結(jié)束后,會(huì)在底部的Console
面板中顯示運(yùn)行結(jié)果信息(如下圖所示)。同時(shí),Console
面板中還會(huì)顯示一些類(lèi)似log4j:WARN…
的警告信息,可以不用理會(huì)。
如果程序運(yùn)行成功,這時(shí),可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux終端中執(zhí)行如下命令:
hadoop@hadoop-master:~$ hdfs dfs -ls .
hadoop@hadoop-master:~$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt
3.2.5 應(yīng)用程序的部署
下面介紹如何把Java應(yīng)用程序生成JAR包,部署到Hadoop平臺(tái)上運(yùn)行。首先,在Hadoop安裝目錄下新建一個(gè)名稱(chēng)為myapp的目錄,用來(lái)存放我們自己編寫(xiě)的Hadoop應(yīng)用程序,可以在Linux的終端中執(zhí)行如下命令:
hadoop@hadoop-master:~$ cd /usr/local/hadoop
hadoop@hadoop-master:/usr/local/hadoop$ sudo mkdir myapp
然后,請(qǐng)?jiān)贓clipse工作界面左側(cè)的Package Explorer
面板中,在工程名稱(chēng)HDFSExample
上點(diǎn)擊鼠標(biāo)右鍵,在彈出的菜單中選擇Export
,如下圖所示。
然后,會(huì)彈出如下圖所示界面。
在該界面中,選擇Runnable JAR file
,然后,點(diǎn)擊Next>
按鈕,彈出如下圖所示界面。
在該界面中,Launch configuration
用于設(shè)置生成的JAR包被部署啟動(dòng)時(shí)運(yùn)行的主類(lèi),需要在下拉列表中選擇剛才配置的類(lèi)MergeFile-HDFSExample
。在Export destination
中需要設(shè)置JAR包要輸出保存到哪個(gè)目錄,比如,這里設(shè)置為/usr/local/hadoop/myapp/HDFSExample.jar
。在Library handling
下面選擇Extract required libraries into generated JAR
。然后,點(diǎn)擊Finish
按鈕,會(huì)出現(xiàn)如下圖所示界面。
可以忽略該界面的信息,直接點(diǎn)擊界面右下角的OK
按鈕,啟動(dòng)打包過(guò)程。打包過(guò)程結(jié)束后,會(huì)出現(xiàn)一個(gè)警告信息界面,如下圖所示。
可以忽略該界面的信息,直接點(diǎn)擊界面右下角的OK
按鈕。至此,已經(jīng)順利把HDFSExample工程打包生成了HDFSExample.jar
。可以到Linux系統(tǒng)中查看一下生成的HDFSExample.jar
文件,可以在Linux的終端中執(zhí)行如下命令:
hadoop@hadoop-master:/usr/local/hadoop$ ll /usr/local/hadoop/myapp/
總用量 56332
drwxr-xr-x 2 root root 4096 4月 18 16:13 ./
drwxr-xr-x 12 root root 4096 4月 18 16:03 ../
-rw-r--r-- 1 root root 57673000 4月 18 16:13 HDFSExample.jar
可以看到,/usr/local/hadoop/myapp
目錄下已經(jīng)存在一個(gè)HDFSExample.jar
文件。
由于之前已經(jīng)運(yùn)行過(guò)一次程序,已經(jīng)生成了merge.txt,因此,需要首先執(zhí)行如下命令刪除該文件:
hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -rm -r merge.txt
現(xiàn)在,就可以在Linux系統(tǒng)中,使用hadoop jar命令運(yùn)行程序,命令如下:
hadoop@hadoop-master:/usr/local/hadoop$ hadoop jar ./myapp/HDFSExample.jar
上面程序執(zhí)行結(jié)束以后,可以到HDFS中查看生成的merge.txt文件,比如,可以在Linux終端中執(zhí)行如下命令:
hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -ls .
Found 8 items
......
merge.txt
drwxrwxrwx - hadoop supergroup 0 2022-04-14 19:38
......
hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt
4、附錄:自己練習(xí)用的代碼文件
下面給出幾個(gè)代碼文件,供讀者自己練習(xí)。
4.1 寫(xiě)入文件
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.Path;
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
byte[] buff = "Hello world".getBytes(); // 要寫(xiě)入的內(nèi)容
String filename = "test"; //要寫(xiě)入的文件名
FSDataOutputStream os = fs.create(new Path(filename));
os.write(buff,0,buff.length);
System.out.println("Create:"+ filename);
os.close();
fs.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
4.2 判斷文件是否存在
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
public class Chapter3 {
public static void main(String[] args) {
try {
String filename = "test";
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
if(fs.exists(new Path(filename))){
System.out.println("文件存在");
}else{
System.out.println("文件不存在");
}
fs.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
4.3 讀取文件
import java.io.BufferedReader;
import java.io.InputStreamReader;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FSDataInputStream;
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
Path file = new Path("test");
FSDataInputStream getIt = fs.open(file);
BufferedReader d = new BufferedReader(new InputStreamReader(getIt));
String content = d.readLine(); //讀取文件一行
System.out.println(content);
d.close(); //關(guān)閉文件
fs.close(); //關(guān)閉hdfs
} catch (Exception e) {
e.printStackTrace();
}
}
}
本文摘自 :https://www.cnblogs.com/