파이썬(Python)/코로나와 보건용 마스크 수출입 실적 변동

[무역 | Phase1] 보건용 마스크 수출입 동향 - 공공데이터포털 데이터수집 (2부)

JJ Goh[Certified customs broker] 2020. 6. 15. 12:09

[무역 | Phase1] 보건용 마스크 수출입 동향 - 공공데이터포털 데이터수집 (2부)

 

 

 지난 포스팅을 통해 보건용 마스크의 월별 수출입실적 raw data mining을 하였는데요. 이 주제에 대해서는 추가적으로 국가별 수출입실적도 살펴 보는 것이 좋을 것 같습니다. 이에, Data mining을 추가로 진행해 보겠습니다.
 지난 시간 포스팅에서의 링크를 아래의 제 1유형 사용에 관한 문구를 명시하면서 다시 타고, 들어가 보겠습니다.
 

 "본 저작물은 관세청에서 2020년 작성하여 공공누리 제1유형으로 개방한 '(수출입무역통계정보) HS 품목별 국가별 수출입 실적(작성자:관세청 정보화기획 담당관)'을 이용하였으며, 해당 저작물은 '관세청, https://unipass.customs.go.kr/ets/index.do?menuId=ETS_MNU_00000103'에서 무료로 다운받으실 수 있습니다."

 

아래와 같은 화면이 나오면 왼쪽 카테고리에서 ' 품목별 국가별 수출입실적'을 선택합니다.

그리고 국가명을 선택하실 때 '국가다중선택'버튼을 통해 아래의 10개 국가를 선택해 주세요.
이 사이트에서는 최대 10국가까지만 자료조회를 지원하기 때문에, 필자는 한국과의 교역량이나 인구수, 코로나 바이러스 감염환자수 등을 감안하여 10개 국가를 아래와 같이 골라내 보았습니다.
독일, 러시아연방, 미국, 브라질, 영국, 이탈리아, 인도, 일본, 중국, 프랑스
그리고 품목코드는 6307.90-9000으로 세팅해 주시고 조회기간은 앞서와 마찬가지로, 2019.01~2020.04까지로 설정해 주신 후 조회해 주시면 되겠습니다.

 

 

 

 

원재료인 HS code 5603 부직포에 대해서도 같은 조회 조건으로 자료를 다운로드 해주세요.

 

 

제 1번 자료  2019.1~ 2020.4 완제 마스크 (HS code 6307909000) 물품의 월별 수출입실적

 

 

 이제 다운로드 받은 엑셀파일들을 열어서 자료의 성격, 항목에 대해 살펴 보도록 하겠습니다.

 먼저, 제 1번 자료인 2019.1~ 2020.4 완제 마스크 (HS code 6307909000) 물품에 대한 월별 수출입자료입니다.

 항목은 기간, 품목명, 품목코드, 수출중량, 수입중량, 수출금액, 수입금액, 무역수지로 이루어져 있습니다.

 

 

 

 데이터의 자료형에 대해 미리 감안해 본다면, 기간은 Pandas 로 옮기면서, Timestamp형식으로 옮겨도 되겠지만, 그냥 써도 될 듯 합니다.

 우리의 데이터 시각화에서는 아직 시간에 대한 연산값을 사용할만한 통계 목적이 없으니까요.

 

 두번째, 품목명은 str형이면 될텐데, 어차피 1개품목에 대한 자료이니, 의미가 없는 항목입니다.

 

 세번째, 품목코드도 한개 품목을 다루는 중이므로 의미가 없습니다.

 

 마지막으로, 수출중량, 수입중량, 수출금액, 수입금액, 무역수지는 float형(실수형) 자료가 되겠습니다.

 그런데, 이 항목들에 대해 엑셀파일이 표시하는 자료형은 어떤지 한번 확대해서 보겠습니다.

 

 

 

 네.. 이 숫자들은 텍스트 형식으로 저장된 숫자입니다. 즉, pandas로 읽어들이면, str로 인식하게 될 가능성이 높습니다.

 이 부분은 통계코드 작성을 진행할 때, 한번 더 언급될 것입니다.

 

 제 1번 자료를 살펴 보았을 때, 결측치가 있다거나 하는 모습은 보이지 않습니다. 자료형의 정리 정도는 엑셀파일 상에서 필요할 수 있겠다는 생각이 듭니다. 

 

한편으로,  우리는 엑셀파일을 들고 있기 때문에, 파이썬이 자료형을 인식할 때 원래 우리가 의도했던 형태로 인식 되도록 엑셀 파일형태에서 자료형 변환을 미리 처리해 두는 것도 좋은 방법입니다. 하지만, 필자의 포스팅 목적상 자료형 변환을 파이썬에서는 어떻게 수행하는지 알아보기 위해, 이 raw data를 엑셀로 미리 정리하지 않고 진행하도록 하겠습니다.

 

 그리고, 이러한 방법이 더 유용하다고 생각하는 이유는 우리가 같은 raw data를 공공데이터포털로 부터 주기적으로 받아 가공하는 프로그램을 작성하여 사용하게 되는 경우에 빛을 발합니다. 

 이유인 즉, 지금의 형식과 같은 엑셀 파일을 받아서 가공 시 우리가 파이썬 코드를 미리 짜두어 자료형 변환도 일괄로 처리될 수 있도록 한다면, 매번 엑셀을 다운 받을 때마다 data refining을 선행해 줄 필요가 없기 때문입니다. 파이썬에서 일괄로 처리되는 알고리즘을 구성하는 것이 지속적으로 사용할 프로그램을 생성하는데는 더 유리합니다.

 

 

제 2번 자료  2019.1~ 2020.4 마스크 (HS code 6307909000) 물품의 국가별 월별 수출입실적

 

 

 이제 제 2번 자료를 살펴 보겠습니다. 

 

 

 

 데이터 항목의 구성 유형은 앞선 자료와 다를 바 없습니다. 다만, 항목상 국가명이 추가 되어 있고, 국가 별로 그 값들을 집계하고 있습니다.

 

 자료형은 제 1번 자료가 구성된 것과 같습니다. 

 

 결측치라던가, 미리 패턴화 또는 정리가 필요한 부분은 언뜻 보이지는 않는 상태입니다.

 

 이 정도 자료라면 바로 파이썬 코딩을 들어가도 값이 왜곡되거나, 누락될만한 부분은 보이지 않겠습니다.

 

 그럼 이제 다음 포스팅부터는 파이썬 코딩을 통해 우리가 보고자 하는 값들에 대한 데이터 가공과정을 실행해 보도록 하겠습니다.

 

 

NPU(엔피유) 관세사무소

대표관세사 고장주

Tel) 031-986-7190

E-mail) sales@npucus.com

[NPU관세사무소 프로모션 페이지] https://www.tradenpu.com/npu_cus/

[무역비지니스 인텔리전스 서비스 | TradeNPU] https://www.tradenpu.com

[파이썬 실용 예제. 무역과 공공데이터] https://pdatinmylife.tistory.com

Certified Customs Broker JangJu Goh

Executive Customs Broker @ NPU Customs Consulting

CEO @ JG TradePlus

sales@npucus.com

Trade Compliance / Customs clearance management at foreign company

Working experience of Air export freight forwarding

Data Visualization / Independent development of business automation application – copyright of JGPO_Manager, JG Data Center, AutoCC and etc.

B2B consignment & direct export/import, B2C Overseas Buying Office consulting

Alibaba.com B2B trade / taobao B2C trade / Amazon.com global selling etc. Online trade regulation consulting.

Import license / Quarantine

English communication available

[TradeNPU for partnership proposal - JGTP] https://www.tradenpu.com/jgtp/

반응형