#표제어
Explore tagged Tumblr posts
dailykoreanselfstudy · 5 years ago
Text
Naver Dic Vocab Guide 💚
* Par ordre d’apparition sur le site, de haut en bas et de gauche à droite. * 웹 사이트의 표시 순서에 따라 위에서 아래로, 그리고 왼쪽에서 오른쪽으로.                                               Lien/링크 (fr)
Tumblr media
🟢 사전 [辭典] dictionnaire
🟢 참여 [參與] participation
번역 [飜譯/翻譯] traduction
지식 [知識] (le) savoir
백과사전 [百科事典] encyclopédie
🟢 로그인 se connecter
아이디 ID
비밀번호 [秘密番號] mot de passe
아이디 찾기 trouver ID
보안 [保安] sécurité 
일회용 로그인 [ 一回-] connection "jetable” *quand on se connecte depuis un PC public
회원가입 [會員加入] inscription
주소창의 adresse
자물쇠 verrouillage
이용약관 [利用利用] conditions d’utilisation
개인정보처리방침 [個人情報處理方針] politique de traitement des informations personnelles
책임의 한계와 법적고지 clause de non-responsabilité et mentions légales
회원정보 고객센터 [會員情報 顧客-] espace client
로그아웃 se déconnecter
확인 [確認] vérification
내정보 [-情報] mes infos
보안설정 [保安設定] paramètres de sécurité
🟢 알림 notification/alarme
읽은 알림 삭제 [-削除] supprimer les notifications lues
모두 삭제 [-削除] tout supprimer
목록 [目錄] liste/catalogue
가져오다 apporter
중 [中] milieu
새로운 nouveau,nouvelle
활동 [活動] activité 
소식 [消息] nouvelle/information
🟢 추가 [追加] ajout
간편하다 [簡便하다] facile/pratique
지도 [地圖] carte
증권 [證券] bourse
부동산 [不動産] bien immobilier
참여하다 [參與하다] participer
적립 [積立] épargne
🟢 영어 [英語] anglais
국어 [國語] coréen
한자 [漢字] hanja (caractère chinois)
일본어 [日本語] japonais
중국어 [中國語] chinois
프랑스어 [-語] français
스페인어 [-語] espagnol
독일어 [獨逸語] allemand
베트남어 [-語] vietnamien 
네팔어 [-語] népalais
스와힐리어 [-語] swahili
인도네시아어 [-語] indonésien
테툼어 [-語] tétoum
힌디어 [-語] hindi
몽골어 [-語] mongol
아랍어 [-語] arabe
캄보디아어 [-語] cambodgien
페르시아어 [-語] perse
우즈베크어 [-語] ouzbek
태국어 [泰國語] thaï
히브리어(고대) [-語][古代] hébreu (ancien)
그리스어(현대) [-語][現代] grec (moderne)
그리스어(고대) [-語] [古代] grec (ancien)
라틴어 [-語] latin
스웨덴어 [-語] suédois
이탈리아어 [-語] italien
터키어 [-語] turque
핀란드어 [-語] finnois
러시아어 [-語] russe
알바니아어 [-語] albanais
조지아어 [-語] géorgien 
포르투갈어 [-語] portugais
헝가리어 [-語] hongrois
네덜란드어 [-語] néerlandais
루마니아어 [-語] roumain
우크라이나어 [-語] ukrainien
체코어 [-語] tchèque 
폴란드어 [-語] polonais
더보기 voir plus
인기 [人氣] popularité
글로벌회화 conversation globale
학습 [學習] apprentissage/études
단어퀴즈 [單語-] quiz de mots
이용자 참여 [利用者參與] participation des utilisateurs
참여번역 [參與飜譯] traduction participative
🟢 언어 설정 [言語-] paramètres de langue
🟢 입력기 méthode de saisie
위치 [位置] emplacement/position
이동하다 [移動하다] (se) déplacer
문자 [文字] lettre/caractère
입력 [入力] saisie/entrée
도중 [途中] sur le chemin/à mi-chemin/en route
커서 curseur
검색창 barre de recherche
밖으로 hors/(en) dehors
경우 [境遇] raison/bon sens/discernement
제대로 correctement/bien
가급적 [可及的] si possible/le plus possible
완성하다 [完成하다] achever/accomplir/terminer
바라다 souhaiter/vouloir/désirer/espérer
🟢 전체 [全體] tout
단어 [單語] mot
숙어 [熟語] expression idiomatique
뜻풀이 signification
예문 [例文] exemples
활용형 [活用形] formes de conjugaison
🟢 저장 [貯藏] sauvegarder
선택하다 [選擇하다] choisir
새 nouveau
만들다 fabriquer
🟢 어원 [語源/語原] étymologie
활용 [活用] conjugaison
🟢 검색 [檢索] recherche
결과 [結果] résultat
궁금하다 curieux
질문하다 [質問하다] demander/questionner
등록하다 [登錄하다] enregistrer/inscrire
통합 [統合] intégration/fusion/regroupement
🟢 출처 [出處] source
한��사전 [韓佛辭典] dictionnaire coréen-français
출판 [出版] publication/édition
국립국어원 [國立國語院] institut national de la langue coréenne
수집 [蒐集] collection
학습사전 [學習辭典] dictionnaire d’apprentissage
🟢 단어장 [單語帳] répertoire de mots
작은창 사전 dictionnaire petite fenêtre 
오픈사전 dictionnaire ouvert
🟢 공지사항 [公知事項] annonce publique 
🟢 내가 찾은 단어 les mots que j’ai trouvés
🟢 자동저장 [自動貯藏] sauvegarde automatique
모두저장 [-貯藏] tout sauvegarder
모두삭제 [-削除] tout supprimer
내 단어장 가기 aller à mon répertoire de mots
🟢 약어표 보기 voire la liste des abréviations
남성 [男性] masculin
여성 [女性] féminin 
남성복수 [男性複數] masculin pluriel
여성복수 [女性複數] féminin pluriel
양성동일 [養成同一] masculin féminin
불변 [不變] invariabilité
명사 [名詞] nom
고유명사 [固有名詞] nom propre
대명사 [代名詞] pronom
지시대명사 [指示代名詞] pronom démonstratif
의문대명사 [疑問代名詞] pronom interrogatif
인칭대명사 [人稱代名詞] pronom personnel
소유대명사 [所有代名詞] pronom possessif
관계대명사 [關係代名詞] pronom relatif
부정대명사 [不定代名詞] pronom indéfini
부정관계대명사 [不定關係代名詞] pronom relatif indicatif
자동사 [自動詞] verbe intransitif
타동사 [他動詞] verbe transitif
대명동사 [代名動詞] verbe pronominal
간접타동사 [他動詞間接] verbe transitif indirect
비인칭동사 [非人稱動詞] verbe impersonnel
형용사 [形容詞] adjectif
지시형용사 [指示形容詞] adjectif démonstratif
감탄형용사 [感歎形容詞] adjectif exclamatif
부정형용사 [不定形容詞] adjectif indéfini
의문형용사 [疑問形容詞] adjectif interrogatif
소유형용사 [所有形容詞] adjectif possessif
관계형용사 [關係形容詞] adjectif relatif
수형용사 [數形容詞] adjectif numéral
부사 [副詞] adverbe
의문부사 [疑問副詞] adverbe interrogatif
관계부사 [關係副詞] adverbe relatif
정관사 [定冠詞] article défini
부정관사 [不定冠詞] article indéfini
부분관사 [部分冠詞] article partitif
전치사 [前置詞] préposition
접속사 [接續詞] conjonction
감탄사 [感歎詞] interjection 
접두사 [接頭辭] préfixe
접미사 [接尾辭] suffixe
명사구 [名詞句] locution nom
형용사구 [形容詞句] locution adjective
전치사구 [前置詞句] locution prépositionnelle 
접속사구 [接續詞句] locution conjonctive
감탄사구 [感歎詞句] locution interjection
부사구 [副詞句] locution adverbiale
직설법 [直說法] indicatif
접속법 [接續法] subjonctif
조건법 [條件法] conditionnel 
사람/사물 [-][ 事物] quelqu’un/quelque chose
사람에게 사물을 quelque chose à quelqu’un
🟢 편리하다 [便利하다] commode/pratique
자동완성 [自動完成] saisie automatique 
��양하다 [多樣하다] divers/varié
가능 [可能] possible/possibilité
이용하다 [利用하다] utiliser
보조 [補助] aide/assistance
활용하기 [活用-] utilisation 
통하다 [通하다] passer/bien s’enchaîner
뜻 sens/signification
바로 correctement/convenablement
확인하다 [確認하다] vérifier/affirmer/confirmer
까다롭다 difficile/délicat
원하다 [願하다] désirer/vouloir/attendre
🟢 든든하다 assuré/sûr
맥락 [脈絡] cohérence/lien/liaison
이해하다 [理解하다] comprendre/prendre connaissance/assimiler
강의 [講義] cours
동시 [同時] en même temps/à la fois/simultanément
발음 [發音] prononciation 
기술 [技術] technologie
어학사전 [語學辭典] dictionnaire linguistique
표제어 [標題語] entrée/nomenclature
공식 [公式] officiel
🟢 고객 [顧客] client.e
수정 [修正] correction/modification
오류 신고 [誤謬申告] signaler une erreur
저작권 [著作權] droits d’auteur
무단 [武斷] de force/par la force
저작권법 [著作權法] tous droits réservés
법적 [法的] légal 
책임 [責任] devoir/responsabilité
Tumblr media
7 notes · View notes
lluisco1g · 3 years ago
Text
본문 바로가기
NAVER
사전
파파고
참여번역
지식백과
사용자 링크
로그인
서비스 더보기
사전홈
영어
국어
한자
일본어
중국어
프랑스어
스페인어
독일어
베트남어
더보기신규추가
어학사전
영어단어장
작은창 사전
오픈사전
전체 검색
영어
국어
한자
일본어
중국어
프랑스어
어학사전 더보기
어학사전 전체 표제어 수 25,878,956건
지식백과
전체 검색
건강백과
수학/과학백과
음식백과
미술백과
지식백과 더보기
지식백과 전체 표제어 수 4,843,918건
어학사전 & 단어장 바로가기
인기
영어
영영update
국어
한자
일본어
중국어
프랑스어
스페인어
독일어
베트남어
아시아/아프리카
네팔어
라오어new
몽골어
미얀마어
스와힐리어
아랍어
우르두어new
우즈베크어
인도네시아어
캄보디아어
타갈로그어new
태국어
테툼어
페르시아어
하우사어
히브리어(현대)new
히브리어(고대)
힌디어
영어-인도네시아어
유럽/아메리카
그리스어(현대)
그리스어(고대)
네덜란드어
노르웨이어new
덴마크어new
라틴어
러시아어
루마니아어
스웨덴어
알바니아어
우크라이나어
이탈리아어
조지아어
체코어
크로아티아어
터키어
포르투갈어
폴란드어
핀란드어
헝가리어
학습/번역 서비스
단어퀴즈
파파고
이용자 참여 서비스
오픈사전
참여번역
오픈사전PRObetanew
주제백과 바로가기
건강백과
동물백과
음악백과
수학/과학백과
식물백과
밀리터리백과
음식백과
문학백과
비주얼백과
미술백과
역사백과
동영상백과
종합백과 바로가기
두산백과
네이버캐스트
문화원형백과
한국민족문화대백과
어린이백과
조선향토대백과
한국향토문화전자대전
학생백과
공지사항
새로운 참여번역을 만나보세요!
이전
다음
사전 공식 블로그
이용약관
개인정보처리방침
책임의 한계와 법적고지
사전 고객센터
콘텐츠 수정
오류 신고
Copyright ©
NAVER Corp.
All Rights Reserved.
0 notes
thehappyrhino · 3 years ago
Photo
Tumblr media
[꼬리에 꼬리를 무는 우리말] 꽃💐과 관련된 우리말은 무엇이 있을까요?🤔 흥미로운 표현을 확인해 보세요! #꽃구름 #꽃기운 #꽃눈깨비 #꽃달임 #꽃대궐 #꽃동네 #꽃멀미 #꽃바다 #꽃바람 #꽃보라 #꽃샘 #꽃트림 이 밖에 더 다양한 우리말 이야기는 ≪쉼표, 마침표.≫에서 만나 보세요.😊 (프로필 링크 누르면 바로 이동) #국립국어원 #국어원 #쉼표마침표 #꽃 #우리말 #표현 #우리말표현 #단어 #꼬리에꼬리를무는우리말 #표제어 #뜻풀이 #국어공부 #국어교육 #바른한국어 #국어생활 Reposted from @areumkor https://www.instagram.com/p/CYYsWNYlN05/?utm_medium=tumblr
0 notes
yeokbo · 7 years ago
Text
<자신을 지키며 일하는 법>, 강상중 (2017)
※ 괄호 안의 퍼센트 표시는 전자책의 페이지 표시입니다.
<고민하는 힘>, <살아야 하는 이유> 등을 쓴 강상중 교수의 신간입니다.
강 교수는 불확실한 시대에 자신을 지키며 일하는 법으로 몇 가지를 제시합니다. '일의 의미를 생각하고, 다양한 관점을 가지고, 인문학에서 배우라는 것'입니다(6%).
'일의 의미'는 "높은 급여와 안정"만 생각할 것이 아니라 "그 일을 통해 무엇을 얻고자 하는지, 내가 그 일과 어떤 관계를 맺고 있는지 분명하게 인식"하라는 뜻입니다(6%). 글쓴이는 또한 "한 우물만 열심히 파"는 것보다 "하나의 영역에 자신을 100퍼센트 맡기지 않겠다는 태도"를 권합니다(20%). 넓고 얕게 파는 것이 유리하다는 것이지요.
최근 과로와 조직문화 때문에 퇴사를 하는 사람들이 많아지면서(정우성, '퇴사는 어쩌다 직장인의 꿈이 되었나', 에스콰이어 코리아, 2017.11.) 베스트셀러에도 이를 주제로 한 책들이 보이곤 하는데요. 제가 최근 읽은 책에서는 자살충동과 우울증으로 결국 퇴사하여 운 좋게 자신의 꿈을 찾은 김보통 작가(<아직 불행하지 않습니다>)와 퇴사 대신 다독으로 이를 극복한 전안나 작가(<1천 권 독서법>), '머릿속이 복잡해서 일이 손에 잡히지 않는다면 그 일은 정말 원해서 하는 일이 아니다', '진정 자신이 원하는 일을 하라'는 도마베치 히데토의 <머릿속 정리의 기술>이 이와 비슷한 주제를 다루고 있습니다.
<자신을 지키며 일하는 법>은 '고전("말린 것")과 신간("날 것")의 균형잡힌 독서'를 권한다는 면에서 <1천 권 독서법>과 비슷한 접근을 합니다.
강 교수는 다양하게 책을 읽되 "천천히 시간을 두고 읽는 그룹", "중간 정도의 중요도과 관심을 가지고 읽을" 그룹, "전공이나 관심과는 거리가 멀지만 세간에 화제가 되는 신서나 소설, 잡지 같은 것"으로 분류하여 읽으면 균형잡힌 독서에 도움이 된다고 말합니다(45~46%). 후자로 갈수록 깊이 읽기보다는 '목차, 표제어, 키워드 정도를 체크하는 식으로 가볍게 읽되 서문과 후기는 꼭 읽으라'는 팁을 남깁니다(46%)
고전을 '심호흡', 신서(신간)을 '폐호흡', 신문을 '피부 호흡'에 비유하며 "적어도 신문 한 가지는 반드시 읽을 것"을 권합니다. 가능하다면 두 가지(중앙지·지방지 또는 영자신문)을 구독할 것을 권합니다(47%).
고전을 몇 권 추천하면서 강 교수는 지금처럼 불확실한 시대에는 "시대의 흐름을 읽는 눈"이 되어주는 인문 지식을 쌓아두어야 한다고 말합니다(68%). 시대가 아무리 바뀌어도 "시대를 읽는 통찰력", "정확한 시대 인식"(80%)이 있어야 "시대가 무엇을 요구하는지 민감하게 반응할 수 있"다는 겁니다(81%). 아울러 앞으로 변화할 리더십에 대해서도 "반 발짝 앞서가는 리더"가 될 것이며(81%), '미래의 일하는 방식'(98%)에서 다양한 변화가 일어날 것이라고 예측합니다.
인문 지식을 쌓아야 하는 이유를 시대적 상황과 설득력 있는 주장, 그리고 쉬운 말로 풀어내고 구체적인 독서 방법을 제시한 책입니다. ★ 4/5
2 notes · View notes
wonbindatascience · 6 years ago
Text
NLP - Text Preprocessing
1. Tokenization
: 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(Tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다.
python package from nltk.tokenize import ~
1.1 Word Tokenization
: 토큰의 단위를 단어(Word)로 하는 경우 (여기서 단어(Word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 한다.)
Example input: Time is an illusion. Lunchtime double so! output: "Time", "is", "an", "illustion", "Lunchtime", "double", "so"
Code import nltk   from nltk.tokenize import word_tokenize word_tokenize("text~")
Tips for tokenization 1) Punctuation(구두점)이나 특수 문자를 단순 제외해서는 안 된다. - 온점(.)과 같은 경우는 문장의 경계를 알 수 있는데 도움 - $45.45 경우 45.55를 하나로 취급해야 함 - 01/02/06은 날짜를 의미 - 123,456,789 숫자 세 자리 단위로 콤마 2) 줄임말과 단어 내에 띄어쓰기가 있는 경우? - 아포스트로피(')는 압축된 단어를 다시 펼치는 역할을 하기도 함 (what're는 what are의 줄임말이며, we're는 we are의 줄임말) - New York이라는 단어나 rock 'n' roll이라는 단어는 하나의 단어이지만 중간에 띄어쓰기가 존재
1.2 Sentence Tokenization
: 토큰의 단위를 문장(Sentence)으로 하는 경우
Example input: “His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the ed” output: ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']
Code import nltk from nltk.tokenize import sent_tokenize sent_tokenize(”text~”)
Tips for tokenization 1) 주어진 corpus를 문장 단위로 잘라낼 때, 물음표(?)나 느낌표(!) 와는 달리 온점(.)은 문장의 끝이 아니더라도 등장할 수 있다. - IP 192.168.56.31 - [email protected] - Ph.D. students
1.3 Part-of-speech tagging (품사 부착)
: 같은 단어라도 품사에 따라서 의미가 달라지기도 한다. 따라서 토큰화 과정에서 품사를 구분하여 토큰마다 부착하기도 한다.
e.g.) fly는 동사일 때는 ‘날다’, 명사일 때는 ‘파리’라는 뜻을 의미한다.
Example input: ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.'] output: [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')] (Penn Treebank POG Tags에서 PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사를 의미합니다.)
Code from nltk.tag import pos_tag x=word_tokenize(”text~”) pos_tag(x)
2. Normalization and Cleaning
Normalization : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.
Cleaning : 코퍼스로부터 노이즈 데이터를 제거한다.
자연어 처리에서 전처리, 더 정확히는 정규화의 지향점은 corpus의 복잡성을 줄이는 일
Cleaning and normalization은 토큰화 과정 전, 후에 모두 실시될 수 있다. before: 토큰화 작업에 방해되는 부분을 배제시키기 위해서 after: 토큰화 이후에도 여전히 남아 있는 노이즈를 제거하기 위해서
주어진 corpus에서 노이즈 데이터의 특징을 잡아낼 수 있다면, ‘정규표현식’을 통해서 이를 제거할 수 있는 경우가 많다.
사실 완벽한 정제 작업은 어려운 편이라서, 대부분의 경우 이 정도면 됐다.라는 일종의 합의점을 찾기도 한다.
2.1 (같은 의미를 가졌지만) 표기가 다른 단어들의 통합 e.g.) [ [US, USA], [uhhuh, uh-huh], ... ]
방법론
Lemmatizaiton(표제어 추출)
“Lemma”: 표제어, 기본 사전형 단어
e.g.) "builds", "building", or "built" to the lemma "build" “am”, “are”, “is” to the lemma “be”
Code import nltk from nltk.stem import WordNetLemmatizer n=WordNetLemmatizer() n.lemmatize('dies') # output: ‘dy’ n.lemmatize('dies', 'v') # output: ‘die’ Lemmatizer는 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있다. 즉, dies가 문장에서 동사로 쓰였다는 것을 argument로 알려주어야 한다.
Stemming(어간 추출)
“Stem”: (단어의 의미를 담고있는) 단어의 핵심 부분
단순히 규칙에 기반하여 어미를 자르는 어림짐작의 방법
Lemmatizaiton과의 차이?
Stemming am → am the going → the go having → hav
Lemmatization am → be the going → the going having → have
어림짐작의 방법이기 때문에 어떤 알고리즘을 쓸지는 여러 stemmer를 corpus에 적용해보고 주어진 데이터에 적합한 stemmer 판단해야 한다.
2.2 대소문자 통합
영어에서 대문자는 문장의 맨 앞 등과 같은 특정 상황에서만 쓰이고, 대부분의 글은 소문자로 작성되기 때문에 이 작업은 보통 대문자를 소문자로 변환하는 작업으로 이루어지게 된다.
소문자로 변환되서는 안 되는 경우 - US(미국) vs us(우리) -  회사 이름(General Motors), 사람 이름(Bush)
소문자 변환을 언제 사용할지에 대한 결정은 machine learning sequence model로 더 정확하게 진행시킬 수 있다. 하지만 만약 규칙없이 마구잡이로 작성된 corpus라면 ML 방법도 크게 도움이 되지 않을 수 있다. 이런 경우, 예외 사항을 고려하지 않고 모든 corpus를 소문자로 바꾸는 것이 종종 더 실용적인 해결책이 되기도 한다.
Code from nltk.tokenize import word_tokenize text = 'A barber is a person.' sentence = word_tokenize(text) result = [] for word in sentence:     word=word.lower()     result.append(word)
2.3 Removing Unnecessary Words
특수문자
분석하고자 하는 목적에 맞지 않는 불필요한 단어들
Stopword(불용어)
문장 내에서는 자주 등장하지만 분석하는 데 있어서는 큰 도움이 되지 않는 단어
e.g.) I, my, me, over, 조사, 접미사
nltk 패키지에서 이미 100여개 이상의 불용어들을 정의하고 있다.
Code import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize example = "Family is not an important thing. It's everything." stop_words = set(stopwords.words('english')) word_tokens = word_tokenize(example)   result = [] for w in word_tokens:    if w not in stop_words:        result.append(w) print(word_tokens) print(result)
등장 빈도가 적은 단어
길이가 짧은 단어
영어에서는 길이가 짧은 단어를 삭제하는 것만으로도 어느정도 자연어 처리에서 크게 의미가 없는 단어들을 제거하는 효과를 볼 수 있다고 알려져 있다.
길이가 짧은 단어를 제거하는 2차 이유는 punctuation(구두점)들까지도 한 꺼번에 제거하기 위함도 있다.
영어 단어의 평균 길이: 6~7 정도 한국어 단어의 평균 길이: 2~3 정도 <=> 영어에 비해 한국어는 글자 하나에 함축적 의미를 포함하고 있는 경우가 많다. <=> 짧은 길이의 영단어는 의미가 크게 없는 경우가 많다.
e.g.)  길이 1: a(관사), I(나) 길이 2: it, at, to, on, in, by
Code # 정규표현식 활용 import re text = "I was wondering if anyone out there could enlighten me on this car." shortword = re.compile(r'\W*\b\w{1,2}\b')
numbers
Remove numbers if they are not relevant to your analysis.
Usually, regular expressions are used to remove numbers.
Code import re text = ’Box A contains 3 red and 5 white balls, while Box B contains 4 red and 2 blue balls.’ result = re.sub(r’\d+’, ‘’, text) print(result) >> ‘Box A contains red and white balls, while Box B contains red and blue balls.’
(https://medium.com/@datamonsters/text-preprocessing-in-python-steps-tools-and-examples-bf025f872908)
3. Subword Segmentation
:  하나의 단어는 의미있는 여러 단어들의 조합으로 구성된 경우가 많기 때문에, 하나의 단어를 여러 단어로 분리해보겠다는 전처리 작업이다. 따라서 이를 통해 기계가 아직 배운 적이 없는 단어더라도 마치 배운 것처럼 대처할 수 있도록 도와주는 기법 중 하나이다. 이 방법은 기계 번역 등에서 주요 전처리로 사용되고 있다.
3.1 용어
기계가 알고있는 단어들의 집합 : Vocabulary
그리고 기계가 배우지 못하여 모르는 단어 : OOV(Out-Of-Vocabulary) 또는 UNK(Unknown Word)
3.2 WPM(Word Piece Model)
: 하나의 단어를 Subword Unit들로 분리하는 단어 분리 모델
3.2.1 BPE(Byte Pair Encoding) 알고리즘
: 구글의 WPM에는 BPE(Byte Pair Encoding) 알고리즘이 사용되었다.
4. Integer Encoding
: 컴퓨터는 텍스트보다는 숫자를 더 잘 처리 할 수 있다. 이를 위해 자연어 처리에서는 텍스트를 숫자로 바꾸는 여러가지 기법들이 있다. 그리고 그러한 기법들을 본격적으로 적용시키기 위한 첫 단계로 각 단어를 고유한 숫자에 Mapping시키는 전처리 작업이 필요할 때가 있다.
e.g.) Vocabulary(단어 집합)이 5000개라면 1번부터 5000번까지 index 부여
4.1 어떤 기준으로 index를 부여?
방법 중 하나는 단어를 frequency ��으로 정렬하여 Vocabulary(단어 집합)을 만들고, frequency가 높은 순서대로 차례로 낮은 숫자부터 integer를 부여하는 방법이 있다.
In gensim.corpora.Dictionary, Here we assigned a unique integer id to all words appearing in the corpus with the gensim.corpora.dictionary.Dictionary class. This sweeps across the texts, collecting word counts and relevant statistics.
Tumblr media
*절대적인  token의 수는 같더라도 (hi*3, hello*2, bye*1), 문서의 개수와 분포가 다르면 encoded 되는 integer가 다르게 나오네!!!
4.2 Code
from gensim import corpora print(bookshelf_speaker['tokens'].head()) >> 0     [sharp, good, brand, speaker, live, name, sharp] 1    ['ve, speaker, month, extremely, suprised, gre... 2    [small, klh, speaker, look, low, cost, attract... 3    [terminally, addict, asthetic, must, admit, fi... 4    [get, speaker, month, ago, wire, player, good,... incoded_integer = corpora.Dictionary(bookshelf_speaker['tokens'].values) print(incoded_integer) >> Dictionary(30665 unique tokens: ['brand', 'good', 'live', 'name', 'sharp']...) print("IDs 1 through 10: {}".format(sorted(incoded_int.token2id.items(), key=operator.itemgetter(1), reverse = False)[:10])) >> IDs 1 through 10: [('brand', 0), ('good', 1), ('live', 2), ('name', 3), ('sharp', 4), ('speaker', 5), ("'ll", 6), ("'ve", 7), ('100', 8), ('100htz', 9)]
5. Steps
Tokenizing
(split by ".", "-", and "/")
Part-of-speech tagging - Lemmatizaiton/Stemming
Removing numbers
Lowercasing - Stopwords
Short length (<=2)
Low frequency (=1)
5.1 Code
def get_wordnet_pos(word):    """Map POS tag to first character lemmatize() accepts"""    tag = nltk.pos_tag([word])[0][1][0].upper()    tag_dict = {"J": wordnet.ADJ,                "N": wordnet.NOUN,                "V": wordnet.VERB,                "R": wordnet.ADV}    return tag_dict.get(tag, wordnet.NOUN)
def add_token_col(df):    tokens = []    stop_words = stopwords.words('english')    lem = WordNetLemmatizer()
   for txt in df['COMMENT'].values:        row = []        # tokenize        for word in word_tokenize(txt):            # lowercasing            word_prprc = word.lower()            # stopwords            if word_prprc not in stop_words:                # lemmatize                word_prprc = lem.lemmatize(word_prprc, get_wordnet_pos(word_prprc))                # short length                if len(word_prprc)>2:                    row.append(word_prprc)        tokens.append(row)    df['tokens'] = tokens    return df
(https://wikidocs.net/21698)
0 notes
sidigame20g · 4 years ago
Text
본문 바로가기
NAVER
사전
파파고
참여번역
지식백과
사용자 링크
로그인
서비스 더보기
사전홈
영어
국어
한자
일본어
중국어
프랑스어
스페인어
독일어업데이트
베트남어
더보기신규추가
어학사전
단어장
작은창 사전
오픈사전
전체 검색
영어
국어
한자
일본어
중국어
프랑스어
어학사전 더보기
어학사전 전체 표제어 수 25,852,099건
지식백과
전체 검색
건강백과
수학/과학백과
음식백과
미술백과
지식백과 더보기
지식백과 전체 표제어 수 4,493,188건
어학사전 바로가기
인기
영어
영영
국어
한자
일본어
중국어
프랑스어
스페인어
독일어update
베트남어
글로벌회화
아시아/아프리카
네팔어
몽골어
미얀마어
스와힐리어
아랍어
우즈베크어
인도네시아어
캄보디아어
태국어
테툼어
페르시아어
히브리어(고대)
힌디어
영어-인도네시아어new
유럽/아메리카
그리스어(현대)
그리스어(고대)
네덜란드어
라틴어
러시아어
루마니아어
스웨덴어
알바니아어
우크라이나어
이탈리아어
조지아어
체코어
���키어
포르투갈어
폴란드어
핀란드어beta
헝가리어
학습/번역 서비스
단어퀴즈
파파고
이용자 참여 서비스
오픈사전
참여번역
오픈사전PRObetanew
주제백과 바로가기
건강백과
동물백과
음악백과
수학/과학백과
식물백과
밀리터리백과
음식백과
문학백과
비주얼백과
미술백과
역사백과
동영상백과
종합백과 바로가기
두산백과
학생백과
한국민족문화대백과
네이버캐스트
어린이백과
공지사항
[영어사전] 모바일 영어사전 체험판 출시
이전
다음
사전 공식 블로그
이용약관
개인정보처리방침
책임의 한계와 법적고지
사전 고객센터
콘텐츠 수정
오류 신고
Copyright ©
NAVER Corp.
All Rights Reserved.
0 notes
vltxjpnenyptn-blog · 6 years ago
Text
더킹카지노 여기에 최고만 엄선해 모아 놓았습니다
Tumblr media
더킹카지노 남북, 역 더킹카지노사인물사건 평가에서 큰 차이|역사용어 공동연구 11월 첫 결과물 나온다(서울=연합뉴스) 임주영 기자 = 남북 역사학자들이 공동으로 펴내기로 한 '역사용어사전'의 집필을 위해 양측이 지난 6월 교환한 원고를 검토한 결과 일부 용어가 다른 것을 제외하면 서술 내 더킹카지노용상 현격한 차이는 없는 것으로 알려졌다.그러나 역사적으로 중요하게 취급되는 특정 사건과 인물에 대한 `평가'에선 비교적 큰 차이가 나타나는 것으로 전해졌다.`남북역사학자협의회(남측위원장 서중석 성균관대 교수)'측에 따르면, 인물의 경우 남측은 조선 중기의 대표적 유학자이자 정치가인 우암 송시열을 높게 평가한 데 비해 북측은 유교적 사회질서를 중시하는 송시열을 `봉건적.보수적' 인물로 묘사, 상대적으 더킹카지노로 부정적으로 평가했다.북측은 대신 양반 신분으로서 `양반 타도'를 외치며 1884년 갑신정변을 일으켰지만  더킹카지노결국 `3일 천하'로 끝난 개화파 김옥균을 남측보다 상대적으로 높게 평가한 것으로 알려졌다. 역사 개념의 하나로 `자본주의 관계의 발생'이라는 표제어 서술에서 남측은 "탈 중세가 곧 근대 자본주의로 이어지는 것은 아니다"며 중세 이후 자본주의가 전개되는 과정에서 다양한 단계나 측면이 있었다고 본 반면, 북측은 "탈 중세에서 근대 자본주의로 바로 넘어간다"는 입장을 취했다. 역사적 사건의 명칭에서도, `임진왜란(남)-임진조국전쟁(북)', `3.1운동(남)-3.1인민봉기(북)', `동학혁명 또는 갑오농민전쟁(남)-갑오농민전쟁(북)' 등으로 남북은 강조점에 따라 서로 다른 용어를 썼다.홍순권 동아대 사학과  교수는 "이미 북한의 조선전사 등 여러 자료를 통해 우리도 북측의 역사 서술이나 용어, 표현을 많이 알고 있다"며 "3권의 편찬 사업이 모두 마무리돼야 남북의 차이점과 공통점에 대 해 보다 종합적인 비교.분석이 가능할 것"이라고 말했다.남북 역사학자들의 역사용어 공동연구 작업은 오는 11월말께 첫 결과물을 내놓을 전망이다. 남북 역사학자들은 고조선부터 3.1운동까지 한반도 역사의 중요 인물과 사건, 개념을 용어 900개로 압축해 고조선~후삼국(1권), 고려~조선 중기 임진왜란 이전(2권), 조선 중기 임진왜란~1919년 3.1운동(3권) 등 3권으로 나눠 편찬키로 합의했었는데, 그중 남북간 역사인식의 차이가 가장 적은 시기에 해당하는 제3권의 집필이 11월말 마무리���다고 협의회측은 17일 설명했다. 용어별 분량의 경우 각 용어의 비중에 따라 표제어를 특대, 대, 중, 소로 나눠 각각 30장, 15장, 10장, 5장 분량으로 서술키로 했기 때문에 남북간 별 차이가 없다. 신준영 협의회 사무국장은 "집필이 마무리돼도 곧 바로 출판되는 건 아니다"며 "사전으로 출판하는 문제는 우선 3개년 연구를 끝낸 뒤 남북이 추후 논의하기로 돼 있다"고 설명했다.이에 따라 1차 연구물은 이번 사업을 지원하는 한 더킹카지노국학술진흥재단에 논문 형태로 제출되며, 이후 2, 3단계 집필 작업이 계속된다. 남측위원장 서중석 교수는 "연구 사업이 앞으로도 잘 이뤄져서 남북이 역사 이해의 폭을 넓히는 데 도움이 됐으면 좋겠다"고 말했다[email protected]         e == N��XQ�
0 notes
babyadultmen-blog · 7 years ago
Link
당신의 글에는 결정적 한방이 있는가 - 카와카미 테츠야 지음, 한은미 옮김/토트 딱 보는 순간 강하게 어필하는 글과 말 쓰는 법 기획서나 제안서를 받아들었을 때, 읽는 사람에게 가장 큰 영향력을 미치는 것은 제목이나 표제어(헤드라인)다. 점포 앞에 붙어 있는 POP도 한눈에 강렬하게 ‘끄는 힘’이 없으면 별 효과가 없다. 메일이나 블로그, 트위터, 페이스북, 웹 매거진 같은 인터넷 공간에서도 글이 기본이다. 여러분은..
0 notes