한글 stopwords
Elastic/Elasticsearch 2013. 1. 22. 11:27정말 오랜만에 보내요..
제가 야후에 있을때 봤던 것 같은데.. 국민대 강승식 교수님의 한국어 형태소 분석기...
[한글 Stopword]
https://github.com/wonderino/KeywordElection2012/blob/master/hdic/stopword.dic
;;====================[ 불용어 및 특수색인어 사전 ]======================;; 불용어(stopword)는 자동색인시에 색인어로 추출되지 않도록 하고 싶은; 명사들입니다. 즉, 이 파일에 등록된 stopword들은 색인어로; 출력되지 않습니다.;; 특수색인어는 자동색인시에 1 음절 명사 혹은 숫자로 시작되는; 용어가 누락되는 것을 방지하기 위한 것으로 특수색인어로 등록되면; 항상 색인어로 추출해 줍니다.;;; *. 이 파일은 반드시 KS 완성형(KS C 5601-1987) 한글코드로 작성되어야 합니다.;; 2. line의 첫문자가 ';'이면 comment로 간주하여 무시됩니다.;; 3. line의 첫문자가 '_'이면 불용어로서 색인어로 출력되지 않습니다.;; 4. line의 첫문자가 '*'이면 특수색인어로서 항상 색인어로 출력됩니다.; 1 음절 명사(예: 꽃, 핵)나 숫자로 시작되는 용어(예: 3.1절) 등; default로 불용어로 간주되는 용어가 누락되지 않게 할 때 사용합니다.;; 5. 색인어로 추출되지 않는 한글 명사를 특수색인어로 등록해도; 여전히 누락되는 경우가 있습니다. 이러한 용어는 특수색인어로; 등록하지 말고 사용자 정의사전(hangul.usr)에 등록하면 됩니다.;; 6. 한 line에 하나의 단어(명사)만 허용되며, line 중간에 blank 문자를; 허용하지 않습니다.;; 7. Text editor로 삽입/삭제할 때 반드시 sorting 순서를 지켜야 합니다.; sorting 순서가 틀리면 실행할 때 error message를 출력합니다.;; 8. 이 사전에 수록될 수 있는 최대 단어수는 10,000단어까지이며,; 또한 총 60,000bytes를 넘지 않아야 합니다. comment는 제외함.;;; 국민대학교 컴퓨터학부 강승식;---------------------------------------------------------------------;--.|_ / /| Seung-Shik Kang Tel: (+82-2) 910-4800; / | /\ /\| Kookmin University Fax: (+82-2) 910-4868; ---- -+ School of Computer Science sskang@cs.kookmin.ac.kr; () () | Songbuk-gu, Seoul 136-702, KOREA http://nlp.kookmin.ac.kr;---------------------------------------------------------------------;*112*114*119*12-12*12-12사태*12.12*12.12사태*128메가*16메가*1기가*2000*2002*256메가*3-1절*3.1절*386*386PC*4-19*4-19혁명*4.19*4.19혁명*486*486PC*4메가*5-16*5-16혁명*5.16*5.16혁명*5.17*5.18*586*586PC*6.25*6.25사변*64메가*911*D램;1IBM연구소*S램_a_about_above_across_after_against_all_almost_alone_along_already_also_although_always_among_an_and_another_any_anybody_anyone_anything_anywhere_are_area_areas_around_as_ask_asked_asking_asks_at_away_b_back_backed_backing_backs_be_became_because_become_becomes_been_before_began_behind_being_beings_best_better_between_big_both_but_by_c_came_can_cannot_case_cases_certain_certainly_clear_clearly_come_could_d_did_differ_different_differently_do_does_done_down_downed_downing_downs_during_e_each_early_either_end_ended_ending_ends_enough_even_evenly_ever_every_everybody_everyone_everything_everywhere_f_face_faces_fact_facts_far_felt_few_find_finds_first_for_four_from_full_fully_furhered_further_furthering_furthers_g_gave_general_generally_get_gets_give_given_gives_go_going_good_goods_got_great_greater_greatest_group_grouped_grouping_groups_h_had_has_have_having_he_her_here_herself_high_higher_highest_him_himself_his_how_however_i_if_important_in_interest_interested_interesting_interests_into_is_it_its_itself_j_just_k_keep_keeps_kind_knew_know_known_knows_l_large_largely_last_lastest_later_leastless_let_lets_like_likely_long_longer_longest_m_made_make_making_man_many_may_me_member_members_men_might_more_most_mostly_mr_mrs_much_must_my_myself_n_necessary_need_needed_needing_needs_never_new_newer_newest_next_no_nobody_non_noone_not_nothing_now_nowhere_number_numbered_numbering_numbers_o_of_off_often_old_older_oldest_on_once_one_only_open_opened_opening_opens_or_order_orderd_ordering_orders_other_others_our_out_over_p_part_parted_parting_parts_per_perhaps_place_places_point_pointed_pointing_points_possible_present_presented_presenting_presents_problem_problems_put_puts_q_quite_r_rather_really_right_room_rooms_s_said_same_saw_say_says_second_seconds_see_seem_seemed_seeming_seems_sees_several_shall_she_should_show_showed_showing_shows_side_sides_since_small_smaller_smallest_so_some_somebody_someone_something_somewhere_state_states_still_such_sure_t_take_taken_than_that_the_their_them_then_there_therefore_these_they_thing_things_think_thinks_this_those_though_thought_thoughts_three_through_thus_to_today_together_too_took_toward_turn_turned_turning_turns_two_u_under_until_up_upon_us_use_used_uses_v_very_w_want_wanted_wanting_wants_was_way_ways_we_well_wells_went_were_what_when_where_whether_which_while_whole_whose_whoss_why_will_with_within_without_work_worked_working_works_would_x_y_year_years_yet_you_young_younger_youngest_your_yours_z_가_가운데_갈; _갑_걔_거_건; _걸_것겉_게_겨_겸_겹_경_곁_계_고_곱_곳_곳곳_과_곽_굄_구_권_그_그간_그것_그곳_그녀_그달_그당시_그대_그대신_그동안_그들_그들대로_그때_그런고_그런날_그런데서_그런줄_그럴수록_그로_그무렵_그외_그이_그전_그전날_그쪽_근*글_급_깁_깡*꽃; _꽝꾐_끗_낌_나_낙_낟_낱_내게_내년초_내달_내부_냥_너_너나마_너로_너와_너희_너희대로_너희들_네_네번_네째_네탓_넷_넷째_년_년간_년도_녘_노놈_놉_누가_누구_누구누구_누군가_뉘_닢_다섯째_다음달_다음주_닥; _답_당분간_대다수; _댁; _덤_덧_데; _돗_되_두_둔_둘_둘째_둥_뒤_뒷받침_듯_등_따름_따위_딴_때_때문; _땡_떼_뜀; _런; _룰; _룸_리_릴_마_마련_마리; _마지막_마찬가지_막_만; _만원; _만원씩_만큼_맏; _맘; _맴_메_멸_몇_무엇_묶음_물론_뭇_뭣_밑; _바_밖; _백; _백만; _백만원_밸_번_번째별안간; _볏; _본; _봉; _분; *비타민A; *비타민B; *비타민C; *비타민D; *비타민E_빈; _빔; _빽; _뻥; _뼘_뿐_사; _삭; _삵_샅_서_서로_석_섟; _섶_세_세째; _셈_셋_셋째속; _송_수_수십_수십개; _숱_쉬쉰_스스로_승식십; _쌈; _쌍_씀; _씹아홉째_안_앎_압_앵_야_얘_어느편_어디_어디론지_어떤때; _억원엠_여_여러가지_여럿_여섯째역_열째옆; _예_예년때_오_온_올_올해; _옴; _옹_왜_요즘_우; _우리_우리들_우선_운운_움_움직임월*웹_위해서; *윈도95; *윈도95시스템; *윈도NT_유_육_율_으뜸; _을_음_이것_이곳_이기_이날_이달_이달초_이듬_이듬달_이때_이런저런_이런줄_이번_이번분_일곱째; _임_잇; _작; _잔_잘; _잭; _잽; _쟁_쟤_저것_저곳_저기_저기대_저긴_저도_저런날_저런줄_저렴_저마_저쪽_저하_저희_적극적_전날_전년_전부_전부문_전일_전체적_절절; _접_제_제나름; _존; _좆; _좌; _죄_줄곳; _줌_중점적; _쥔_증_지_지난해_직_짓_쪽; _찬; _채; _챙; _척; _천만; _천명; _천원_첫날_첫째; _촉_최_최근; _충_취_층_치; _칭; _칸; _캡_컷; _켜; _콕_쾌; _쿡;_크기; _큰폭; _킥_타_탓_태; _토_톡; _톤_톨; _톳; _퇴_투_퉁; _판; _패; _팽*페르시아만_편_평;_평상시포폭; _폼_푸르름; _푼픽; _필_하_하나_하나둘_한_한가운데_한가지_한곳; *한국HP; *한국IBM; *한국IBM연구소_한마디_한번_한쪽_한편_할; _합; _항*핵; _행;_향후_허_혁; _현; _호; _홉; _홍; _홑; _화_확_환; _황; _홰; _획; _횡_후; _훅_휘; _흑_힐*힘;;=======================[ 불용어, 특수색인어 사전 끝 ]====================;