GithubHelp home page GithubHelp logo

coolengineer / sejong-corpus Goto Github PK

View Code? Open in Web Editor NEW
138.0 138.0 24.0 65 KB

Korean sejong corpus download and simple analysis

License: Other

Shell 46.22% Python 40.88% Makefile 12.90%
corpus korean linux mac morphological-analysis python sejong

sejong-corpus's People

Contributors

alvations avatar coolengineer avatar taekyoon avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

sejong-corpus's Issues

colab상 설치문제

안녕하세요 좋은코드 감사합니다!

colab에서 사용하려하는데 데리고오는 과정에서 오류가 나네요.. 왜 이러는걸까요?

Collecting git+https://github.com/coolengineer/sejong-corpus.git
Cloning https://github.com/coolengineer/sejong-corpus.git to /tmp/pip-req-build-7ryb0sg8
Running command git clone -q https://github.com/coolengineer/sejong-corpus.git /tmp/pip-req-build-7ryb0sg8
ERROR: Command errored out with exit status 1: python setup.py egg_info Check the logs for full command output.
make: *** No targets specified and no makefile found. Stop.

22.download.sh 의 iconv: conversion to utf8-mac unsupported 문제

먼저 정말 유용한 어플 제공하여주신것에 대해 감사드립니다. 이걸 어떻게 다 일일이 다운받나... 스크립트를 짜야되나 고민하고 있었는데... 시간을 많이 세이브 했습니다.

다음과 같은 에러가 https://github.com/coolengineer/sejong-corpus/blob/master/22.download.sh#L45 에서 발생합니다.

iconv: conversion to utf8-mac unsupported
iconv: try 'iconv -l' to get the list of supported encodings

저는 그냥 utf-8로 변경시켜 실행시켜서 문제없이 잘 돌아갔는데 mac에서 utf-8이 아닌 utf8-mac 인코딩을 지원토록 하신 특별한 이유가 있나요?

html에 1kb, 2kb 파일 문의

안녕하세요, 올려주신 코드를 사용해봤습니다.
make와 make dic 실행하고
html에 있는 파일을 확인해보면
크기가 이상한 1kb, 2kb 파일들이 1715개 있고
정상 파일(30kb이상) 1277개 있습니다.

예를 들어, article-3.html 은 1kb 인데, html 태그만 조금 있고 본문이 없습니다.
다운로드가 잘 되었는지 download.log 보면 진행된 것으로 나옵니다
[003] (3) download/3.txt

download에서 3.txt 파일을 열어보면 <요청하신 페이지를 찾을 수 없습니다>는 내용입니다. 이와 같은 파일이 상당 수 있어서, 다운로드가 일부만 된것같은데요, 어떻게 해결해야 할까요?

step 6 Building dictionaries 파트에서 오류 발생

안녕하세요.
다른 빌드는 성공하였는데, step 6에서 진행이 안되어 질문드리고자 합니다.
다음과 같은 에러가 생성됩니다.

** STEP 6. Building dictionaries...
Build from logs/words-uniq.dic
Loading: logs/words-uniq.dic
Traceback (most recent call last):
File "./60.build_dic.py", line 48, in
extract(p)
File "./60.build_dic.py", line 33, in extract
for line in f:
File "/usr/lib/python2.7/encodings/ascii.py", line 26, in decode
return codecs.ascii_decode(input, self.errors)[0]
UnicodeDecodeError: 'ascii' codec can't decode byte 0xea in position 35: ordinal not in range(128)
Makefile:85: recipe for target 'stamps/dic' failed
make: *** [stamps/dic] Error 1

무엇이 문제인지 한번 봐주시면 감사합니다.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.