Winchi's Natural Language Process Story: 2015

2015년 9월 24일 목요일

하둡 시작하거나 멈출때 비밀번호 묻는 경우

- [master, slaves] 디렉토리 및 파일 권한 변경 ---------------------------------------------------------------------------------- $ chmod 755 ~/.ssh $ chmod 644 ~/.ssh/authorized_keys ----------------------------------------------------------------------------------

이게 안된 경우

혹은 철자 ㅡㅡ.;;

2015년 9월 13일 일요일

Hive Install Errors

1. could not create serversocket on address 0.0.0.0/0.0.0.0:9083
로컬에 9083 포트의 서비스를 강제 종료

(1) netstat anp | grep 9083
(2) kill -9 프로세스ID

2. Found class jline.Terminal, but interface was expected
하둡에 설치되어 있는 jline 라이브러리가 옛날 버전이라서 버전업그레이드를 한다

1.
${hive-home}/lib/jline-{latest version}.jar 를
${hadoop-home}/share/hadoop/yarn/lib 으로 복사 기존의 jline 라이브러리 삭제

2. export HADOOP_USER_CLASSPATH_FIRST=true

2015년 8월 18일 화요일

하둡에러

hadoop이 safe mode 로 들어가면
비정상 종료

해결방법

$ ./bin/hadoop dfsadmin -safemode leave
Safe mode is OFF

2015년 7월 21일 화요일

HADOOP EROORS

1.There are 0 datanode(s) running and no node(s) are excluded in this operation

solution>

stop-all.sh

rm rf datanode dir in hdfs-site.xml

datanode format : hadoop datanode format

start-all.sh

2. outofmemoryerror gc overhead limit exceeded

solution>

open hadoop-env.sh an edit below

export HADOOP_CLIENT_OPTS="-Xmx100000m (much size in a ram)

2015년 6월 15일 월요일

엑셀에서 개행문자("\n" 혹은 alt+enter) 찾기

엑셀에서 개행문자("\n" 혹은 Alt+enter) 찾기

찾기 및 바꾸기 (Ctrl + f) 에서 Ctrl+j 하면 찾을 수 있음 :)

2015년 6월 4일 목요일

4.mahout 실습기 - mahout에서 lda 실행(수정중)

mahout에서 lda 실행

* 참고사이트
http://stackoverflow.com/questions/14757162/run-cvb-in-mahout-0-8
https://thebanalsblog.wordpress.com/2013/05/08/mahout-and-lda/ - 자바버전

* 환경
java : jdk1.8
hadoop : 2.5.0
maohut 0.10.0

1. hadoop hdfs에 파일 올리기
hadoop fs -put 로컬에샘플파일이있는폴더경로 hdfs에경로
ex)hadoop fs -put /home/winchi/mahout/example/ input

2.디렉토리안 파일들로 부터 시퀀스 만들기
mahout seqdirectory -i input -o seq1

3.시퀀스 파일로부터 벡터 만들기
mahout seq2sparse -i seq1 -o vetors --namedVector
default 가 tfidf 적용

4.벡터를 matrix형태로 바꿈(Text 클래스에서 typecating 에러가 발생한다면 이과정이 필수)
mahout rowid -i vetors/tfidf-vectors/part-r-00000 -o rowid

5.LDA 실행 : topic수와 iteration 수가 필수 그리고 단어사이즈를 알수 있는 dictionary 파일도 필수
mahout cvb -i rowid/matirx -o ldaresult -k 토픽수 -x iteration 수 -dict vetors/dictionary.file-0 -mt modles -dt docTopic

6.결과확인 - 정렬후 상위 20개만
mahout vectordump -i ldaresult -d vetors/dictionary.file-0 -dt sequencefile -sort true -vs 20

* vectordump의 -o 옵션은 파일로 만드는건데, hdfs 상이 아닌 locall 상에 파일을 만든다.
hadoop fs -get 까지 해주는..

이렇게 하면 콘솔에 확인 파일로 확인할려면 -o 옵션

3.mahout 실습기 - mahout 설치 및 환경설정(수정중)

mahout 설치 및 환경설정

1.mahout 다운

2.mahout 압축풀고 압축푼 디렉토리 MAHOUT_HOME path로 잡기

1.mahout 실습기 - vmware에 centos 설치(수정중)

vmware에 centos 설치

참고 사이트

http://stormaa.tistory.com/77

1. vmware 설치

2. centos 다운

3.가상 머신 만들기
1)설정 > 디스플레이 > 비디오 > 비디오메모리 48M
2)설정 > 저장소 > CD그림 클릭 > centos.iso 파일 클릭

4.설치 - 개발버전 (x-window)

5.네트워크 설정
vi /etc/sysconfig/network-scripts/ifcfg-eth0 에서 ONBOOT값을 yes로 바꿈
network restart
#원격접속을 할려면
설정 > 네트워크 > 포트 워딩에서 설정 (호스트 ip 가 접속할 ip)

6.네트워크 테스트
ping 8.8.8.8 혹은 ping google.com

7.개발에 필요한 도구 설치
# yum install wget

# yum install bind-utils

# yum install nc.x86_64

8. 하둡에 필요한 도구 설치
# yum install man

# yum -y install lzo-devel zlib-devel gcc autoconf automake libtool openssl-devel fuse-devel

# yum install cmake

# shutdown -r now

2. mahout 실습기-hadoop 설치 (수정중)

두번째 hadoop 설치 및 환경설정

참고 페이지

https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

http://kertz.egloos.com/209218

1. hadoop 다운 , java 다운

2. java path, hadoop path 설정
/etc/profile/ 이든 /home/계정/.bash_profile

3. /etc/hosts 설정
마스터 노드, 데이터 노드들을 설정하는곳
ifconfig 명령어 실행후 ip 주소로 master 잡고 그 뒤로 node들을 잡는다

ex)
xxx.xxx.xxx.1 master
xxx.xxx.xxx.2 node1xxx.xxx.xxx.3 node2xxx.xxx.xxx.4 node3

4. hadoop 파일 시스템을 위한 폴더 생성 및 권한 설정
*root 계정에서 실시
# mkdir /home/유저명/fs
# mkdir /home/유저명/fs/data# mkdir /home/유저명/fs/name# mkdir /home/유저명/fs/mapreduce# mkdir /home/유저명/fs/mapreduce/local# mkdir /home/유저명/fs/mapreduce/system

# chmod -R 755 /home/유저명/fs (hadoop fs -ls 하면 그자리임)

5.ssh 설정을 위해서 rsa 키 복제
1)키 생성
ssh-keygen -t rsa
2)생성된 키 확인
cat ~/.ssh/id_rsa.pub
3)하위 노드로 복제
sudo scp ~/.ssh/id_rsa.pub 유저명@node1:~/master_key
->수정
ssh node1 // node1로 접속함.[kertz@node1 ~]# mkdir ~/.ssh // 여기서부터는 ssh 폴더를 생성하고 공인된 키로 네임노드의 키를 추가하는 과정임[kertz@node1 ~]# chmod 700 ~/.ssh[kertz@node1 ~]# mv ~/master_key ~/.ssh/authoried_keys[kertz@node1 ~]# chmod 600 ~/.ssh/authoried_keys

2015년 4월 21일 화요일

[tomcat] 내멋대로 적는 tomcat - tomcat 설치편(리눅스)

내멋대로 적는 tomcat - 리눅스에서..

tomcat 설치편

결론 : 압출 파일 풀고, 풀어진 디렉토리 아래 conf 디렉토리 아래 (./tomcat/conf) server.xml 파일에 context 설정(혹은, context.xml 파일에 설정) 하면 끝

1. 톰캣 설치 파일(압축파일) 다운로드 :

https://tomcat.apache.org/download-80.cgi

여기서 원하는 버전의 tar.gz 버전을 원하는 디렉토리에 다운받습니다.
(wget 으로 원하는 url 입력해서 다운받아도 됩니다.)
참조 : http://luckyyowu.tistory.com/124

보통 /usr/local/ 디렉토리 아래에서 tomcat을 전체적으로 돌리지만, 각 사용자 계정별로 tomcat을 설치해서 돌려도 무관합니다. test서버일 경우에는 후자 쪽이 더 편하겠죠.

2. 파일 압축 해제(압축 풀기)

명령어 : tar -zxvf 파일이름.tar.gz

하시면 압축해제가 됩니다.

그러면 아래와 같은 디렉토리 구조를 확인 할 수 있습니다.

(그림은 7버전이네요;)

각 디렉토리에 대해서 아래 링크를 따라가면 자세히 알 수 있다.
(참조 : http://unionbaby.tistory.com/61)

3. server.xml 설정

conf 디렉토리 아래 server.xml 파일이 있다.
이 파일을 열면 여러 태그가 있는데 여기에 대해서도 위의 링크를 따라가면 자세한 설명을 들을수 있음.

<Service name="Catalina"> 태그가 하나의 서비스를 돌리기위한 설정인데
Connector 태그 중 protocol="HTTP/1.1"의 속성값을 가지는 태그가 바로 해당 url이 된다.
따라서 여기서 port 번호를 마음대로 지정하면된다.
ex) <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000"
redirectPort="8443" /> (기본 설정임)

그리고 해당 컨텍스트를 설정을 추가해줘서 서비스를 이용하면 된다.
근데 context.xml에 추가해도 되구 server.xml에 추가하면된다.
ex) <Context path="tester" docBase="./testuser/test/webManager" debug="5" reloadable="true" workDir="./testusr/test/webManager/work" crossContext="true"/>

*필수*
path : url에서 쓰일 경로
docBase : 컨텍스트가 있는경로
work : work 폴더 경로 (없으면 미지정)

초보자 꿀팁!!!
url 경로 설정에 들어가는게 connector 태그에서 port 값과, context 태그에서 path 값이다.(빨간색 글자)
위의 경우는 http://localhost:8080/tetster 이 된다.
locallhost를 자기 pc의 ip 주소로 적어도 된다.

위와 비슷하게 설정하면 끝..!

서비스를 추가하고 싶으면 서비스 태그 전체를 복사해서 붙여넣기 해서 서비스 name랑 이하 태그들을 복사해서 추가하고 중복되는 값을 바꿔주기만 하면됨.