최근 새롭게 전개되고 있는 웹서비스 형태를 정의하는 중요한 요소 중의 하나인 UTF-8 인코딩은, 전세계 문자집합을 동일한 하나의 인코딩 방식으로 표현할 수 있기 때문에 웹에 가장 적합하고, 또 웹 뿐만이 아닌 다른 서비스나 어플리케이션에서 사용하면 좋을 것 같은 문자 집합이다. |
|
'dev/tMango Project'에 해당되는 글 2건
- 2008/01/29 scott EUC-KR / UTF-8 (1)
- 2008/01/07 scott SearchBooster #001
받은 트랙백이 없고,
댓글 하나가 달렸습니다.
댓글+트랙백 RSS :: http://www.semanogic.com/blog/tc/scott/rss/response/37
댓글+트랙백 ATOM :: http://www.semanogic.com/blog/tc/scott/atom/response/37
1. 루씬의 한글 처리 오류 루씬의 한글 처리 오류는 먼저 유니코드의 한글 범위를 인식하는 코드의 부재와, demo 프로젝트에서는 UTF-8 Data source를 wide charater 즉, 유니코드로 변환하는 매크로의 오류 문제였다. ~0x80 이전까지의 ASCII는 유니코드와 100% 호환되기 때문에 1byte로 표현되는 ASCII 영역의 UTF-8 캐릭터를 2byte 자료형에 복사하도록만 처리하여 문제가 생긴 것이었다. ASCII(~0x80) 보다 큰 영역에 할당된 것들에 대해서는 이렇게 처리하면 안되기 때문이다. UTF-8 -> Simple Unicode 변환 처리를 수정하고 난 후에는 한글 처리 및 한글 검색이 정상적으로 동작하고 있다. 2. RSS 리더 타겟으로 잡고 있는 data source인 RSS Feed는 UTF-8 인코딩이 추세이긴 하지만, 기존의 EUC-KR 인코딩, 혹은 다른 방식으로 인코딩되어 있는 것들도 많이 존재한다. XML 파서를 이용하여 Feed의 인코딩 방식을 파악할 수 있다는 것만으로도 가슴을 쓸어내린다. 3. 스파이더 자바 루씬 기반의 오픈 검색 어플리케이션인 Nutch에서 Web Crawler 부분을 따로 떼어내어 스파이더로 사용할 것이다. 이부분은 자바 버전만이 존재하기 때문에 자바 전문가께서 진행 중이다. |
받은 트랙백이 없고,
댓글이 없습니다.