python3 newspaper.py example.pdf
example.pdf -- soningiin zam
Article_lines.py (function) -- ugugdsun zuraasuudaas article ylgah zuraasiig todorhoilno. Mun tedgeeriin ogtloltsoliin zuraasiig hadgalna.
newspaper_order.py (function) -- ugugdsun huudasnii article-uud dotorhi text blockuudiig zuw unshih daraalald oruulna.
newspaper.py -- undsen code
Output/ hawtsas dotor huudas bureer article-g herhen ylgaj buig haruulsan zurag bolon json file garna.
-
Newspaper-n pdf file-g unshij awna.
-
Huudas buriig zurag bolgon hurwuulne.
-
line_detection function-r damjuulan huudas deerhi zuraasuudiig ilruulne.
-
PyMuPdf sang ashiglan gargaj awsan pdf deerhi text block-g para_segment function-r damjuulan negtgene.
-
remove_lines function-r damjuulan negtgesen text blocktoi dawhtsaj bui zuraasuudiig hasna.
-
article_lines function-r damjuulan uldsen zuraasaas article huwaaj bui zuraasiig ylgan awna.
-
points_x dotor ogtloltsoj bui tseg, zuraas-n ehlel, tugsguliin tseguudiig hadgalna.
-
tseguudiig ashiglan uusej boloh buh bbox-g uusgene (zuun deed bulangiin tsegees ehluulen haina).
-
uussen bbox-g talbaigaar ni sortlono.
-
jijig talbai bbox-s ehluulen pdf deerhi contentiig bbox ruu oruulan article-uudiig ylgana.
-
ylgasan article-uud dotorhi contentiig reading_order function-r damjuulan zuw daraalald oruulna.
-
article ylgasan bbox-n dugaarlaltiig tsenher unguur, dotorhi content-n dugaarlaltiig har unguur dugaarlasan buguud article buriin bbox-n ungu uur baihaar zuragt durslen gargana.
-
content-g json deer hadgalna. (article_box ni tuhain article-n yerunhii bbox, text dotor dotorh contentiig hadgalsan)