수다닷컴

  • 해외여행
    • 괌
    • 태국
    • 유럽
    • 일본
    • 필리핀
    • 미국
    • 중국
    • 기타여행
    • 싱가폴
  • 건강
    • 다이어트
    • 당뇨
    • 헬스
    • 건강음식
    • 건강기타
  • 컴퓨터
    • 프로그램 개발일반
    • C언어
    • 비주얼베이직
  • 결혼생활
    • 출산/육아
    • 결혼준비
    • 엄마이야기방
  • 일상생활
    • 면접
    • 취업
    • 진로선택
  • 교육
    • 교육일반
    • 아이교육
    • 토익
    • 해외연수
    • 영어
  • 취미생활
    • 음악
    • 자전거
    • 수영
    • 바이크
    • 축구
  • 기타
    • 강아지
    • 제주도여행
    • 국내여행
    • 기타일상
    • 애플
    • 휴대폰관련
  • 프로그램 개발일반
  • C언어
  • 비주얼베이직

url을 찾는 정규식 질문드립니다.

꼬붕

2024.01.15

String url = ((http://)|(HTTP://))((WWW\\.)|(www\\.))?([a-zA-Z0-9]+\\.)+[a-zA-Z]{2,4}((/(~[a-zA-Z][a-zA-Z0-9\\.\\-]*[a-zA-Z0-9]/?)?)([a-zA-Z0-9\\.\\-\\_]*/?)*);

패턴을 만들어봤는데요..
몇가지 구분하지 못하는 경우가 있습니다.
아래의 경우는 모두 url로 간주되어야 합니다.

http://www.abc.com
http://WWW.ABC.com/
HTTP://wWw.aBc.COm
http://abc.com
http://abc.com/
http://www.abc.abc.abc.abc.com
http://abc.com/~abc
http://abc.com/~abc/
http://abc.com/abc/abc/index.html
http://abc.com/~abc/ABC/index.pdf

이런식으로 ~ 유저네임이 올수있구요.. 유저네임과 그뒤에 나오는 디렉토리와 파일명들은 대소문자 구분합니다.
도메인은 대소문자 구분없구요.

그리고 .com 이나 .kr 처럼 마지막 최상위 도메인(이라고 하나요?)은 2~4자의 범위를 가지고 있습니다.

아래는 물가능한 url입니다.
http:/abc.com
http://abc.com/~.abc
http://abc.com/~~abc

등입니다.
유저네임은 무조건 ~뒤에 문자[a-zA-Z]로 시작해야 합니다.

제가 위에 만든 패턴은 http://abc.com/~.abc 를 http://abc.com/ 으로 구분해버립니다.

아래는 숙제로 내준 조건입니다.

Valid URLs (Uniform resource locators) which: Always start with http:// May (or may not) contain www after this. After www, it should contain a domain (follow the same rules as in domain for email addresses above). Each domain ends with a 2, 3 or 4 letter top-level domain. After the domain, it may (or may not) contain a user name: ~username. E.g. http://www.cs.uwindsor.ca/~lrueda After the domain or username it may (or may not) contain folders, sub-folder, sub-sub-folder, etc. (a hierarchy with potentially infinite levels) E.g., http://www.cs.uwindsor.ca/~lrueda/teaching/languages http://www2.cs.tum.edu/projects/cup At the end of the URL it may (or may not) contain the name of a web page. E.g. , http://www.cs.uwindsor.ca/~lrueda/teaching/languages/index.html ?xml:namespace prefix = o ns = urn:schemas-microsoft-com:office:office /

신청하기





COMMENT

댓글을 입력해주세요. 비속어와 욕설은 삼가해주세요.

  • 도손 2024-01-15

    답변감사드립니다. 많은 도움이 됐습니다.
    숙제는 어찌어찌해서 제출했습니다.(만점받았어요^^)

  • 앵초 2024-01-15

    단일, 텍스트 상에서 URL을 100% 정확하게 매칭 시키는것은 의외로 복잡합니다.
    그러다보니 정규식을 이용한 URL 자동 링크의 경우 한글등이 붙으면
    꼭 엉뚱하게 링크되는 사이트 들을 간간이 보실 것 입니다.
    네이버도 예외는 아니죠^^;;
    (바로 위 제 덧글에서 naver들어간 URL보시면 추출이 잘 못 된걸 알 수 있습니다.)
    쨌든, 보다 정확하게 하시려면 캡춰와 비 캡춰등을 좀 복잡하게 섞으셔야 할 듯..
    (어렴풋한 기억에 Java쪽 정

  • 미라 2024-01-15

    따라서, 이 경우에는 \로 시작해서 \로 끝나는 범위 안의 문장이 http로 시작되면서
    제시한 문법을 충족하는 단어들을 찾아내면 Valid URL로 볼 수 있습니다.

    고로, 제시한 HTML 파일에서 문장의 시작과 끝의 기준점을 정할 것인지가 관건일 것입니다.
    HTML TAG처럼 단일 또는 이중 따옴표 범위 안으로 정할 것인지..
    그렇지 않고 띄워쓰기등의 공백의 전 후로 정할 것인지등..
    어떤 제한 조건이 들어가면 좀 더 만족스러우리라 봅니다.

    그렇지

  • 징징몬 2024-01-15

    흠...역시 힘드네요..
    그럼 지금과 같은 패턴을 이용하는 방식의 프로그래밍으로는 불가능한가요?
    숙제를 저렇게 내줬는데;;ㅜㅜ

번호 제 목 글쓴이 날짜
2694469 익스6에서 css버그 나오는것 해결방법좀요 !!!! (6) 원술 2025-05-11
2694442 로컬에선 잘 나오는데 운영에 반영하면 이상하게 나와요. (8) 목화 2025-05-11
2694412 [질문] 이미지 로딩후 사이즈 조절할때 (1) 아담 2025-05-11
2694391 설치형 블로그 쓰시는 분들 어떤거 쓰세요?? (7) AngelsTears 2025-05-10
2694362 Microsoft SQL Server에서 서버만드는법 어둠 2025-05-10
2694333 for문으로 돌린 이름의 제어 (4) 레이 2025-05-10
2694308 이미지 css 도와주세요 ㅠㅠ (2) 애기 2025-05-10
2694223 [급질문]스크롤스파이의 offset값 진나 2025-05-09
2694195 li에 이미지 넣고 세로로 메뉴 구성하는 경우 (1) 예님 2025-05-09
2694167 canvas 질문요. (4) 찬늘봄 2025-05-08
2694136 왜 이렇게 나오는지 이해가 잘 가지 않네요. 부탁드리겠습니다... (2) 세련 2025-05-08
2694111 div , css 공부하고있는데요 잘모르겠어요.. 도와주세요 ㅠ_ㅠ (10) 모람 2025-05-08
2694035 작업관리자 창에.. CPU사용 현황처럼 만들고 싶습니다. (1) 다올 2025-05-07
2694004 Linux에서 java사용 (2) 한빛 2025-05-07
2693978 CS5.5 베타 버젼이라도 다운받을 수 있는 사이트 아세요? (4) 콩순 2025-05-07
2693922 프로그램 시간을 측정하는 클래스나 매써드.. (3) 꽃짱구 2025-05-06
2693893 데이터베이스 이벤트시 hook 이 있을까요? 루나 2025-05-06
2693835 배경으로 동영상 넣는 방법좀 알려주세용 다미 2025-05-05
2693779 [중국어 폰트 깨짐] Applet Chart 에서 중국어 깨짐 현상.. (2) 박애교 2025-05-05
2693751 [질문] jar로 생성된 후 실행되지 않아 질문드립니다. (2) 다가 2025-05-05
<<  이전  1 2 3 4 5 6 7 8 9 10  다음  >>

수다닷컴 | 여러분과 함께하는 수다토크 커뮤니티 수다닷컴에 오신것을 환영합니다.
사업자등록번호 : 117-07-92748 상호 : 진달래여행사 대표자 : 명현재 서울시 강서구 방화동 890번지 푸르지오 107동 306호
copyright 2011 게시글 삭제 및 기타 문의 : clairacademy@naver.com