Winchi's Natural Language Process Story: 6월 2015

2015년 6월 15일 월요일

엑셀에서 개행문자("\n" 혹은 alt+enter) 찾기

엑셀에서 개행문자("\n" 혹은 Alt+enter) 찾기

찾기 및 바꾸기 (Ctrl + f) 에서 Ctrl+j 하면 찾을 수 있음 :)

2015년 6월 4일 목요일

4.mahout 실습기 - mahout에서 lda 실행(수정중)

mahout에서 lda 실행

* 참고사이트
http://stackoverflow.com/questions/14757162/run-cvb-in-mahout-0-8
https://thebanalsblog.wordpress.com/2013/05/08/mahout-and-lda/ - 자바버전

* 환경
java : jdk1.8
hadoop : 2.5.0
maohut 0.10.0

1. hadoop hdfs에 파일 올리기
hadoop fs -put 로컬에샘플파일이있는폴더경로 hdfs에경로
ex)hadoop fs -put /home/winchi/mahout/example/ input

2.디렉토리안 파일들로 부터 시퀀스 만들기
mahout seqdirectory -i input -o seq1

3.시퀀스 파일로부터 벡터 만들기
mahout seq2sparse -i seq1 -o vetors --namedVector
default 가 tfidf 적용

4.벡터를 matrix형태로 바꿈(Text 클래스에서 typecating 에러가 발생한다면 이과정이 필수)
mahout rowid -i vetors/tfidf-vectors/part-r-00000 -o rowid

5.LDA 실행 : topic수와 iteration 수가 필수 그리고 단어사이즈를 알수 있는 dictionary 파일도 필수
mahout cvb -i rowid/matirx -o ldaresult -k 토픽수 -x iteration 수 -dict vetors/dictionary.file-0 -mt modles -dt docTopic

6.결과확인 - 정렬후 상위 20개만
mahout vectordump -i ldaresult -d vetors/dictionary.file-0 -dt sequencefile -sort true -vs 20

* vectordump의 -o 옵션은 파일로 만드는건데, hdfs 상이 아닌 locall 상에 파일을 만든다.
hadoop fs -get 까지 해주는..

이렇게 하면 콘솔에 확인 파일로 확인할려면 -o 옵션

3.mahout 실습기 - mahout 설치 및 환경설정(수정중)

mahout 설치 및 환경설정

1.mahout 다운

2.mahout 압축풀고 압축푼 디렉토리 MAHOUT_HOME path로 잡기

1.mahout 실습기 - vmware에 centos 설치(수정중)

vmware에 centos 설치

참고 사이트

http://stormaa.tistory.com/77

1. vmware 설치

2. centos 다운

3.가상 머신 만들기
1)설정 > 디스플레이 > 비디오 > 비디오메모리 48M
2)설정 > 저장소 > CD그림 클릭 > centos.iso 파일 클릭

4.설치 - 개발버전 (x-window)

5.네트워크 설정
vi /etc/sysconfig/network-scripts/ifcfg-eth0 에서 ONBOOT값을 yes로 바꿈
network restart
#원격접속을 할려면
설정 > 네트워크 > 포트 워딩에서 설정 (호스트 ip 가 접속할 ip)

6.네트워크 테스트
ping 8.8.8.8 혹은 ping google.com

7.개발에 필요한 도구 설치
# yum install wget

# yum install bind-utils

# yum install nc.x86_64

8. 하둡에 필요한 도구 설치
# yum install man

# yum -y install lzo-devel zlib-devel gcc autoconf automake libtool openssl-devel fuse-devel

# yum install cmake

# shutdown -r now

2. mahout 실습기-hadoop 설치 (수정중)

두번째 hadoop 설치 및 환경설정

참고 페이지

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

http://kertz.egloos.com/209218

1. hadoop 다운 , java 다운

2. java path, hadoop path 설정
/etc/profile/ 이든 /home/계정/.bash_profile

3. /etc/hosts 설정
마스터 노드, 데이터 노드들을 설정하는곳
ifconfig 명령어 실행후 ip 주소로 master 잡고 그 뒤로 node들을 잡는다

ex)
xxx.xxx.xxx.1 master
xxx.xxx.xxx.2 node1xxx.xxx.xxx.3 node2xxx.xxx.xxx.4 node3

4. hadoop 파일 시스템을 위한 폴더 생성 및 권한 설정
*root 계정에서 실시
# mkdir /home/유저명/fs
# mkdir /home/유저명/fs/data# mkdir /home/유저명/fs/name# mkdir /home/유저명/fs/mapreduce# mkdir /home/유저명/fs/mapreduce/local# mkdir /home/유저명/fs/mapreduce/system

# chmod -R 755 /home/유저명/fs (hadoop fs -ls 하면 그자리임)

5.ssh 설정을 위해서 rsa 키 복제
1)키 생성
ssh-keygen -t rsa
2)생성된 키 확인
cat ~/.ssh/id_rsa.pub
3)하위 노드로 복제
sudo scp ~/.ssh/id_rsa.pub 유저명@node1:~/master_key
->수정
ssh node1 // node1로 접속함.[kertz@node1 ~]# mkdir ~/.ssh // 여기서부터는 ssh 폴더를 생성하고 공인된 키로 네임노드의 키를 추가하는 과정임[kertz@node1 ~]# chmod 700 ~/.ssh[kertz@node1 ~]# mv ~/master_key ~/.ssh/authoried_keys[kertz@node1 ~]# chmod 600 ~/.ssh/authoried_keys