coolengineer / sejong-corpus Goto Github PK
View Code? Open in Web Editor NEWKorean sejong corpus download and simple analysis
License: Other
Korean sejong corpus download and simple analysis
License: Other
안녕하세요 좋은코드 감사합니다!
colab에서 사용하려하는데 데리고오는 과정에서 오류가 나네요.. 왜 이러는걸까요?
Collecting git+https://github.com/coolengineer/sejong-corpus.git
Cloning https://github.com/coolengineer/sejong-corpus.git to /tmp/pip-req-build-7ryb0sg8
Running command git clone -q https://github.com/coolengineer/sejong-corpus.git /tmp/pip-req-build-7ryb0sg8
ERROR: Command errored out with exit status 1: python setup.py egg_info Check the logs for full command output.
make: *** No targets specified and no makefile found. Stop.
파일 내용중에 51.extract.py 를 호출하는 부분이 있는데 실제 파일명은 51.sent_extract.py 입니다.
먼저 정말 유용한 어플 제공하여주신것에 대해 감사드립니다. 이걸 어떻게 다 일일이 다운받나... 스크립트를 짜야되나 고민하고 있었는데... 시간을 많이 세이브 했습니다.
다음과 같은 에러가 https://github.com/coolengineer/sejong-corpus/blob/master/22.download.sh#L45 에서 발생합니다.
iconv: conversion to utf8-mac unsupported
iconv: try 'iconv -l' to get the list of supported encodings
저는 그냥 utf-8로 변경시켜 실행시켜서 문제없이 잘 돌아갔는데 mac에서 utf-8이 아닌 utf8-mac 인코딩을 지원토록 하신 특별한 이유가 있나요?
안녕하세요, 올려주신 코드를 사용해봤습니다.
make와 make dic 실행하고
html에 있는 파일을 확인해보면
크기가 이상한 1kb, 2kb 파일들이 1715개 있고
정상 파일(30kb이상) 1277개 있습니다.
예를 들어, article-3.html 은 1kb 인데, html 태그만 조금 있고 본문이 없습니다.
다운로드가 잘 되었는지 download.log 보면 진행된 것으로 나옵니다
[003] (3) download/3.txt
download에서 3.txt 파일을 열어보면 <요청하신 페이지를 찾을 수 없습니다>는 내용입니다. 이와 같은 파일이 상당 수 있어서, 다운로드가 일부만 된것같은데요, 어떻게 해결해야 할까요?
안녕하세요.
다른 빌드는 성공하였는데, step 6에서 진행이 안되어 질문드리고자 합니다.
다음과 같은 에러가 생성됩니다.
** STEP 6. Building dictionaries...
Build from logs/words-uniq.dic
Loading: logs/words-uniq.dic
Traceback (most recent call last):
File "./60.build_dic.py", line 48, in
extract(p)
File "./60.build_dic.py", line 33, in extract
for line in f:
File "/usr/lib/python2.7/encodings/ascii.py", line 26, in decode
return codecs.ascii_decode(input, self.errors)[0]
UnicodeDecodeError: 'ascii' codec can't decode byte 0xea in position 35: ordinal not in range(128)
Makefile:85: recipe for target 'stamps/dic' failed
make: *** [stamps/dic] Error 1
무엇이 문제인지 한번 봐주시면 감사합니다.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.