목록Pandas (3)
뒤죽박죽 데이터분석 일기장
안녕하세요. 이번 포스트에서는 네이버 증권 일일 시세 크롤링을 진행해 봤습니다. 저번 포스트에서는 특정 종목의 뉴스 기사를 크롤링 해왔는데 이번에는 일일시세를 크롤링을 해보겠습니다. 하지만, 저번에 기사를 크롤링 했을 때와는 조금 다른 방식으로 접근해야합니다. 저번에는 pandas 모듈을 import 했지만 이번에는 BeautifulSoup 과 requests 모듈도 import 해야합니다. # 라이브러리 로드 import pandas as pd import requests from bs4 import BeautifulSoup as bs 우선, 미리 한 페이지 일일시세을 출력하는 함수는 적어보겠습니다. # 종목 번호를 이용해 page에 따라 데이터를 읽어오는 함수 # """ 는 이 두개 사이의 행들은 주..
안녕하세요! 이번 포스트에서는 Pandas에서 read_html 이라는 기능을 통해서 테이블 형태의 표를 수집하는 방법을 알아보겠습니다! read_html의 기능을 제대로 이해하기 위해서 네이버 증권에서 데이터 스크래핑으로 진행해 보겠습니다. 우리의 목표는 이 페이지에 나타나 있는 뉴스들을 스크랩핑해서 저장하는 것입니다. 이 페이지의 URL은 https://finance.naver.com/item/news.naver?code=005930입니다. 네이버의 종목 코드는 005930 입니다. 즉, 위의 URL을 살펴보면 code=005930 이라고 적힌 것을 확인할 수 있습니다. 이렇게 특정 코드를 URL에 붙여서 넘기는 문구를 Query String이라고 합니다. 따라서 URL 뒤에 물음표 뒤에서부터 검색하..
안녕하세요. 이번 포스트에서는 판다스의 기초적인 DataFrame을 생성하는 방법과 수정하는 법을 정리해 보겠습니다. 판다스란? 월스트리트 퀀트 개발자 웨스 메키니가 금융 데이터에 대한 계랑적 분석을 수행하기 위해 고성능의 유연한 툴을 만들 필요가 있다고 행각하여서 개발해낸 데이터 분석 라이브러리입니다. 판다스는 주로 수치형 테이블과 시계열 데이터를 조작하고 운영하는데 사용됩니다. 판다스 import 그리고 DataFrame 형성 판다스를 사용하기 위해선 2가지의 라이브러리를 출력해 줍니다. # 필요한 라이브러리를 로드합니다. # pandas, numpy를 불러옵니다. import pandas as pd import numpy as np 저번 파이썬 시간에 배웠던 대로 판다스와 넘파이는 alias을 저장..